TW202141240A

TW202141240A - 數據處理方法及裝置、電子設備和電腦可讀儲存介質

Info

Publication number: TW202141240A
Application number: TW110100963A
Authority: TW
Inventors: 孫賀然; 王磊; 李佳寧; 張慶濤; 程玉文
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2020-04-26
Filing date: 2021-01-11
Publication date: 2021-11-01
Also published as: JP2022534345A; SG11202109528SA; KR20210134614A; CN111539339A; WO2021218194A1

Abstract

本發明涉及一種數據處理方法及裝置、電子設備和電腦可讀儲存介質。所述方法包括：獲取目標對象的多媒體數據；根據所述多媒體數據，對所述目標對象在至少一個檢測維度上進行行爲狀態檢測，得到所述目標對象在至少一個檢測維度上的中間檢測結果；對所述至少一個檢測維度上的中間檢測結果進行處理，得到所述目標對象的目標檢測結果，其中，所述目標檢測結果用於表示所述目標對象的行爲狀態。

Description

數據處理方法及裝置、電子設備和電腦可讀儲存介質

本發明要求在2020年04月26日提交中國專利局、申請號爲202010339381.1、申請名稱爲“數據處理方法及裝置、電子設備和存儲介質”的中國專利申請的優先權，其全部內容通過引用結合在本發明中。

本發明涉及電腦視覺領域，尤其涉及一種數據處理方法及裝置、電子設備和電腦可讀儲存介質。

目標對象的行爲狀態評估可以廣泛應用在各種領域中，得到的評估結果可以用於對目標對象或目標對象行爲的分析，評估結果越準確，相應的分析則會更加真實和有意義。

因此，如何便捷地得到較爲準確的行爲狀態評估結果，成爲目前一個極待解決的問題。

本發明提出了一種數據處理的方案。

根據本發明的一方面，提供了一種數據處理方法，包括：

獲取目標對象的多媒體數據；根據所述多媒體數據，對所述目標對象在至少一個檢測維度上進行行爲狀態檢測，得到所述目標對象在至少一個檢測維度上的中間檢測結果；對所述至少一個檢測維度上的中間檢測結果進行處理，得到所述目標對象的目標檢測結果，其中，所述目標檢測結果用於表示所述目標對象的行爲狀態。

根據本發明的一方面，提供了一種數據處理裝置，包括：

獲取模組，用於獲取目標對象的多媒體數據；檢測模組，用於根據所述多媒體數據，對所述目標對象在至少一個檢測維度上進行行爲狀態檢測，得到所述目標對象在至少一個檢測維度上的中間檢測結果；處理模組，用於對所述至少一個檢測維度上的中間檢測結果進行處理，得到所述目標對象的目標檢測結果，其中，所述目標檢測結果用於表示所述目標對象的行爲狀態。

根據本發明的一方面，提供了一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲：執行上述數據處理方法。

根據本發明的一方面，提供了一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述數據處理方法。

根據本發明的一方面，提供了一種電腦程式，包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行用於實現上述數據處理方法。

在本發明實施例中，通過獲取目標對象的多媒體數據，並根據多媒體數據對目標對象在至少一個檢測維度上進行行爲狀態檢測，從而得到目標對象在至少一個檢測維度上的中間檢測結果，進而對至少一個維度上的中間檢測結果進行處理來得到用於表示目標對象行爲狀態的目標檢測結果。通過上述過程，可以基於對目標對象的多個維度上的行爲狀態進行檢測，來得到用於表示目標對象行爲狀態的目標檢測結果，一方面可以實現對目標對象行爲狀態的自動評估，另一方面也可以提升最終得到的目標檢測結果的全面性和準確性。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本發明。根據下面參考圖式對示例性實施例的詳細說明，本發明的其它特徵及方面將變得清楚。

以下將參考圖式詳細說明本發明的各種示例性實施例、特徵和方面。圖式中相同的圖式標記表示功能相同或相似的元件。儘管在圖式中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製圖式。

在這裏專用的詞“示例性”意爲“用作例子、實施例或說明性”。這裏作爲“示例性”所說明的任何實施例不必解釋爲優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，爲了更好地說明本發明，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本發明同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本發明的主旨。

圖1示出根據本發明一實施例的數據處理方法的流程圖，該方法可以應用於數據處理裝置，數據處理裝置可以爲終端設備、伺服器或者其他處理設備等。其中，終端設備可以爲用戶設備（User Equipment，UE）、行動設備、用戶終端、終端、行動電話、無線電話、個人數位助理（Personal Digital Assistant，PDA）、手持設備、計算設備、車載設備、可穿戴設備等。在一個示例中，該數據處理方法可以應用於雲端伺服器或本地伺服器，雲端伺服器可以爲公有雲伺服器，也可以爲私有雲伺服器，根據實際情況靈活選擇即可。

在一些可能的實現方式中，該數據處理方法也可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。

如圖1所示，在一種可能的實現方式中，所述數據處理方法可以包括：

步驟S11，獲取目標對象的多媒體數據。

步驟S12，根據多媒體數據，對目標對象在至少一個檢測維度上進行行爲狀態檢測，得到目標對象在至少一個檢測維度上的中間檢測結果。

步驟S13，對至少一個檢測維度上的中間檢測結果進行處理，得到目標對象的目標檢測結果，其中，目標檢測結果用於表示目標對象的行爲狀態。

其中，目標對象可以是任意具有行爲狀態表示或評價需求的對象，其具體實現形式可以根據目標對象執行行爲的應用場景靈活確定。目標對象具體執行何種行爲在本發明實施例中不做限制，在一種可能的實現方式中，行爲可以是教學行爲、管理行爲或是工作行爲等。相應地，隨著目標對象執行行爲的不同，目標對象的實現形式也會發生變化，在一種可能的實現方式中，在行爲是教學行爲的情況下，目標對象可以是教師；進一步地，教學行爲也可以是正式授課行爲或模擬授課行爲，相應地，目標對象可以是正式授課的教師，也可以是模擬授課的教師，或是未上崗處於面試階段的教師等。在一種可能的實現方式中，在行爲是管理行爲的情況下，目標對象可以是具有管理職能的對象，如教學管理人員等。在一種可能的實現方式中，在行爲是工作行爲的情況下，目標對象可以是相關的工作對象，比如教育工作者等。後續各發明實施例均以目標對象爲教師，執行的行爲是模擬授課行爲（以下簡稱爲模課行爲）爲例進行說明，目標對象以及行爲爲其他實現形式的情況，可以參考後續各發明實施例進行相應擴展，不再一一贅述。

目標對象的多媒體數據可以是目標對象在執行相應行爲的情況下所獲取的數據，其實現形式可以根據實際情況靈活決定。在一種可能的實現方式中，目標對象的多媒體數據可以包括視訊數據和/或音訊數據。具體如何獲取目標對象的多媒體數據，其獲取方式可以根據實際情況靈活決定，詳見後續各發明實施例，在此先不做展開。

在獲取目標對象的多媒體數據以後，可以通過步驟S12，對目標對象在至少一個檢測維度上進行行爲狀態檢測，來得到至少一個檢測維度上的中間檢測結果。在一種可能的實現方式中，在目標對象爲教師，執行的行爲是模課行爲的情況下，可以對目標對象在教學行爲中的各個檢測維度進行狀態檢測，如教學過程中的手勢、情緒、目光交流、流利度、語速、停頓或是音量等，具體包含有哪些維度，以及在這些維度上檢測行爲狀態的具體實現形式，可以詳見後續各發明實施例，在此先不做展開。

在得到了目標對象在至少一個檢測維度上的中間檢測結果以後，可以通過步驟S13，對至少一個檢測維度上的中間檢測結果進行處理，來得到目標對象的目標檢測結果。其中，目標檢測結果的數量在本發明實施例中不做限制，可以根據實際需求進行靈活設定。在一種可能的實現方式中，目標檢測結果可以包括一個總體的檢測結果，用於反應目標對象行爲狀態的總體情況；在一種可能的實現方式中，目標檢測結果也可以同時包含一個總體的檢測結果與多個詳細的細分結果，用於同時反應目標對象行爲狀態的總體情況和詳細情況。目標檢測結果的具體實現形式，以及得到目標檢測結果的方式，可以參考後續各發明實施例，在此先不做展開。

如上述發明實施例所述，多媒體數據的實現形式不受限定，在一種可能的實現方式中，多媒體數據可以僅包含音訊數據；在一種可能的實現方式中，多媒體數據可以僅包含視訊數據，比如無聲視訊等；在一種可能的實現方式中，多媒體數據可以同時包含視訊數據與音訊數據，比如有聲視訊等。在一個示例中，在多媒體數據包含視訊數據的情況下，視訊數據的解析度不受限制，可以根據實際情況靈活選擇，比如640P、720P以及1080P等。在一個示例中，在多媒體數據包含音訊數據的情況下，音訊數據的音訊採樣頻率同樣不受限制，可以靈活選擇，比如8000Hz或是16000Hz等。

隨著多媒體數據形式的不同，該多媒體數據的生成方式也可以靈活發生變化。在一種可能的實現方式中，在目標對象爲教師，執行的行爲是模課行爲的情況下，音訊數據可以通過錄製教師模課過程的音訊的方式所生成，視訊數據可以通過拍攝教師模課過程的動作的方式所生成，因此，在一個示例中，可以通過對教師模課的過程進行視訊拍攝的方式，來生成多媒體數據。

在一種可能的實現方式中，多媒體數據可以通過目標對象根據預設文本數據進行教學操作所獲得，其中，預設文本數據包括至少一個指令標記，指令標記用於劃分和/或標注預設文本數據的至少部分內容。

其中，預設文本數據可以是教師用於教學或模課的文字內容，比如模課的逐字稿，裏面包含有教師模課中需要講述的相關內容等。指令標記可以是位於預設文本數據內，用於對預設文本數據的部分內容進行劃分或是標注等的標記。指令標記的位置、具體內容以及作用等均可以根據實際情況靈活選擇，不局限於下述發明實施例。

在一種可能的實現方式中，在預設文本數據爲模課的逐字稿的情況下，指令標記可以是用於對逐字稿所屬的模課進程進行劃分的標記，即可以是對模課逐字稿的部分結構標注。指令標記的具體實現形式，可以根據模課的進程劃分的情況靈活決定。在一種可能的實現方式中，可以將模課過程劃分爲課前熱身、知識講授、課中訓練以及課堂檢測等階段，則可以通過指令標記，來將模課逐字稿中的內容劃分到這四個階段。

進一步地，如何將模課過程通過指令劃分到多個階段，其實現形式也可以靈活選擇。在一種可能的實現方式中，可以通過＜開始指令開始＞＜開始指令結束＞；＜結束指令開始＞、＜結束指令結束＞等分別標注對應階段，從而實現模課逐字稿的結構劃分。具體地＜開始指令開始＞、＜結束指令開始＞等標注的具體實現形式，同樣可以根據實際情況靈活決定，舉例來說，可以通過某些特定的詞語或動作描述來作爲＜開始指令開始＞或是＜結束指令開始＞等標注的具體實現形式。

示例性的，模課逐字稿的內容可以如下所述，“＜課前熱身環節開始指令開始＞：接下來是我們進行課前熱身環節。＜課前熱身環節開始指令結束＞中間是一大段課程內容。＜課前熱身環節結束指令開始＞：好，接下來我們到下一個環節。＜課前熱身環節結束指令結束＞此處爲一大段課程內容。

＜知識講授環節開始指令開始＞：接下來是我們進行知識講授環節。＜知識講授環節開始指令結束＞。

＜知識講授環節結束指令開始＞：好，接下來我們到下一環節。＜知識講授環節結束指令結束＞”。通過上述示例性的模課逐字稿內容可以看出，在一個示例中，可以通過＜課前熱身環節開始指令開始＞、＜課前熱身環節開始指令結束＞、＜課前熱身環節結束指令開始＞以及＜課前熱身環節結束指令結束＞等標注，來從模課逐字稿中標記出需要進行課前熱身環節的文本內容；同理，還可以通過對應的指令進一步從模課逐字稿中劃分出知識講授環節的文本內容。具體這些指令標注對應的具體詞彙或動作描述，在本發明實施例中不做限定，根據實際需求進行靈活選擇即可。

教師根據帶有用於劃分結構的指令標記的預設文本數據進行模課教學，來得到相應的多媒體數據，可以使得多媒體數據帶有不同階段的標記（如特定的詞彙或動作）等。這些不同階段的標記可以自動被數據處理裝置所識別，從而使得數據處理裝置可以自動對多媒體數據按照相應的結構進行劃分。在一種可能的實現方式中，劃分後的多媒體數據可以用於分別獲取教師模課各個階段的目標檢測結果等，即可以分別得到模課過程中各個階段的目標檢測結果。既可以提升數據處理過程的自動化程度，又可以提升數據處理得到的目標檢測結果的針對性和實用性。

在一種可能的實現方式中，在預設文本數據爲模課的逐字稿的情況下，指令標記也可以是用於對逐字稿中重點內容或需要互動的位置所進行的標記，即可以是對模課逐字稿的知識點與互動標注。指令標記的具體實現形式，可以根據重點內容所在的位置以及所需互動的情況靈活決定，舉例來說，在存在多個重點段落或互動位置的情況下，指令標記的數量可以爲多個。

進一步地，如何通過指令標記對模課逐字稿中的重點內容與互動位置進行標注，其實現形式也可以靈活選擇。在一種可能的實現方式中，可以通過＜重點開始＞＜重點結束＞等對模課中的重要知識點進行標注，在一種可能的實現方式中，在模課過程中需要有互動的情況下，可以在模課逐字稿的對應位置中用＜需加入互動＞標識作爲指令標記。具體地＜重點開始＞、＜需加入互動＞等標注的具體實現形式，同樣可以根據實際情況靈活決定，舉例來說，可以通過某些特定的詞語或動作描述來作爲＜重點開始＞或是＜需加入互動＞等標注的具體實現形式。

示例性的模課逐字稿的內容還可以如下所述，“這是一部分講課內容＜重點開始＞同學們，讓我看看圖，它們屬交叉口的情況。在你手中的量角器的幫助下，我們能看看你是否有新的發現嗎？＜需加入互動＞穿藍色衣服的學生，對你來說。

＜需加入互動＞對你說的對。同學們，如果兩條直線相交成直角，我們就說它們相互垂直。＜重點結束＞”。通過上述示例性的模課逐字稿內容可以看出，在一個示例中，可以通過＜重點開始＞與＜重點結束＞等標注，來從模課逐字稿中劃分出重要的知識點；同理，還可以利用＜需加入互動＞等標注，來提示模課的教師在授課的某些階段做出相應的動作。具體這些指令標注對應的具體詞彙或動作描述，在本發明實施例中不做限定，根據實際需求進行靈活選擇即可。

教師根據帶有用於標注知識點與互動的指令標記的預設文本數據進行模課教學，來得到相應的多媒體數據，可以使得多媒體數據在模課的某些重要階段（如重要知識點的講授階段或是需要互動的階段）被標記。這些標記可以自動被數據處理裝置所識別，從而使得數據處理裝置可以自動識別多媒體數據中的重要知識點講授的過程或是互動過程等。在一種可能的實現方式中，可以重點關注重要知識點講授過程或是互動過程的中間檢測結果，來更加有針對性地評價教師的模課狀態。既可以提升數據處理過程的自動化程度，又可以提升數據處理得到的目標檢測結果的針對性和實用性。

通過上述各發明實施例可以看出，通過帶有指令標記的預設文本數據所生成的多媒體數據，可以便於被自動識別與處理，從而提升數據處理方法的自動化程度，也提升最終得到的目標檢測結果的針對性與實用性。

通過上述各發明實施例可以看出，多媒體數據的實現形式與生成方式均可以具有多種實現形式。相應地，隨著多媒體數據的實現形式的不同，獲得多媒體數據即步驟S11的實現方式也可以靈活發生變化。在一種可能的實現方式中，多媒體數據可以爲預先錄製好的多媒體數據，在這種情況下可以根據多媒體數據的儲存位置，如統一資源定位符（URL ，Uniform Resource Locator）連結等，來獲取多媒體數據，在一種可能的實現方式中，多媒體數據可以爲錄製過程中的數據，如直播視訊等，在這種情況下可以根據多媒體數據的直播連結或是地址等，來獲取多媒體數據。

進一步地，如上述各發明實施例所述，多媒體數據可以包括視訊數據和/或音訊數據，因此，隨著多媒體數據的具體內容的不同，其獲取的方式也可以靈活發生變化。在一種可能的實現方式中，在多媒體數據同時包含視訊數據與音訊數據，且音訊數據與視訊數據一體的情況下，可以直接獲取該音視訊一體化的數據，再通過一定的方式從該音視訊一體化的數據中分別分離得到視訊數據與音訊數據，具體的分離方式在本發明實施例中不做限制，可以根據實際情況靈活選擇。在一種可能的實現方式中，在多媒體數據同時包含視訊數據與音訊數據，且音訊數據與視訊數據相互獨立的情況下，可以分別獲取視訊數據與音訊數據用於後續的檢測。

如上述各發明實施例所述，多媒體數據可能包含有模課過程的多個階段，比如課前熱身、知識講授、課中訓練以及課堂檢測等階段，且這些階段可以基於特定的指令標記所對應的詞語或動作所識別，因此，在一種可能的實現方式中，在獲取多媒體數據的情況下，還可以根據多媒體數據中的特定詞語或動作將多媒體數據進行分段，從而獲取所需的部分多媒體數據，比如，在一個示例中，可以通過識別多媒體數據中的課前熱身環節開始指令與課前熱身環節結束指令，來獲取多媒體數據中的課前熱身這部分的多媒體數據，並基於課前熱身階段的多媒體數據來得到後續的目標檢測結果，在一個示例中，也可以通過識別多媒體數據中的多個階段的開始與結束指令，來獲取多媒體數據中各部分的多媒體數據，從而通過步驟S12與步驟S13，來得到多媒體數據中各部分的目標檢測結果等。

在一種可能的實現方式中，也可以基於模課過程各個階段的錄製時間來分別獲取不同階段的多媒體數據。在一個示例中，教師可以通過客戶端來錄製多媒體數據，客戶端的實現形式在本發明實施例中不做限制，可以爲手機、電腦或是其他用戶設備等。在錄製的過程中，客戶端可以以按鍵（tap）的形式，在客戶端界面顯示模課的不同階段。教師則可以通過點擊tap，進入到該階段，並錄製該階段的模課多媒體數據，在這種情況下，該階段的模課多媒體數據除了包含視訊與音訊以外，還包含錄製的時間戳，因此數據處理裝置在通過步驟S11獲取多媒體數據的過程中，可以通過多媒體數據包含的時間戳，確定多媒體數據所對應的模課階段，從而得到多媒體數據中各部分的多媒體數據。在本發明中，爲了便於描述，後續各發明實施例均以不劃分多媒體數據的各階段爲例來說明數據處理的過程，多媒體數據被劃分爲多個部分後分別得到各部分目標檢測結果的實現方式可以參考後續各發明實施例進行擴展，不再贅述。

除上述內容以外，步驟S11中，獲取目標對象的多媒體數據的數量也不受限制，可以爲一個目標對象所對應的多媒體數據，也可以爲多個目標對象所對應的多媒體數據。即本發明實施例中的數據處理方法，可以每次僅對一個目標對象的多媒體數據進行處理，也可以同時對多個目標對象的多媒體數據進行批量處理。在多媒體數據爲多個的情況下，爲了區分不同目標對象的多媒體數據，可以在多媒體數據中添加其他的訊息用於確定多媒體數據所屬的目標對象。因此，在一種可能的實現方式中，多媒體數據除了包含視訊數據與音訊數據以外，還可以包含有身份訊息，比如教師身份（teacherID）、課程身份（模課ID）以及教師所屬群體ID（比如教師所屬公司或學校的vendeeID）等。除此以外，多媒體數據中也還可以包含有其他相關的訊息，比如多媒體數據地址（URL連結）、多媒體數據的結構（比如上述發明實施例提到的多媒體數據對應的模課階段，以及每個階段的起始時間戳或結束時間戳等）或是多媒體檢測的相關訊息（如視訊檢測幀率）等。後續各發明實施例均以獲取到的多媒體數據爲一個目標對象的多媒體數據爲例進行闡述，同時獲取多個目標對象的多媒體數據來進行數據處理的過程，可以參考後續各發明實施例進行擴展，不再贅述。

需要注意的是，上述各發明實施例中提到的多媒體數據的實現方式，以及獲取多媒體數據的方式，均可以根據需求靈活組合實現，在本發明實施例中不做限定。

在通過上述任意發明實施例獲取到目標對象的多媒體數據以後，可以通過步驟S12，來對目標對象在至少一個檢測維度上進行行爲狀態檢測，從而得到目標對象在至少一個檢測維度上的中間檢測結果。步驟S12的實現方式不受限定，可以根據多媒體數據的實際情況靈活選擇，不局限於下述各發明實施例。

如上述各發明實施例所述，在一種可能的實現方式中，多媒體數據可以包含有視訊數據，在這種情況下，步驟S12可以是根據視訊數據來對目標對象進行行爲狀態檢測。因此，在一種可能的實現方式中，步驟S12可以包括：

步驟S1211，確定視訊數據中的目標對象；

步驟S1212，對目標對象進行手勢、情緒以及目光交流中至少一個檢測維度上的行爲狀態檢測，得到目標對象在至少一個檢測維度上的中間檢測結果。

其中，步驟S1211中確定目標對象的方式不受限定，可以根據目標對象的實際實現方式靈活決定。如上述各發明實施例所述，在一種可能的實現方式中，目標對象可以爲教師對象，執行的行爲可以是模課行爲，在這種情況下，可以通過人臉檢測或人臉跟蹤的方式，從視訊數據中確定進行授課的教師，來實現目標對象的確定。舉例來說，在一些可能的實現方式中，可以通過調用human action SDK的人臉檢測與人臉跟蹤等模型，來從視訊數據中確定目標對象。

在確定了目標對象後，可以通過步驟S1212，從手勢、情緒以及目標交流中至少一個檢測維度上，對目標對象進行行爲狀態檢測，具體包含有哪幾個檢測維度，以及這些檢測維度相互之間的檢測順序，均可以根據實際情況靈活選擇。在每個檢測維度上具體如何檢測，詳見後續各發明實施例，在此先不做展開。在本發明中，後續各發明實施例均以對視訊數據在手勢、情緒以及目光交流這三個檢測維度上同時進行行爲狀態檢測爲例進行說明，其餘的實現方式可以參考後續各發明實施例進行靈活擴展，不再一一贅述。

通過上述發明實施例可以看出，在一種可能的實現方式中，在多媒體數據中包含有視訊數據的情況下，可以根據視訊數據進行電腦視覺上的處理，從而實現對視訊數據中的目標對象執行手勢、情緒以及目標交流等多個檢測維度上的行爲狀態檢測。通過上述過程，可以充分有效地利用多媒體數據中的視訊數據，對目標對象實現多個不同檢測維度上的檢測，提升中間檢測結果的多樣性，繼而提升後續得到的目標檢測結果的全面性與可靠性。

在每個檢測維度上具體得到相應的中間檢測結果的方式可以靈活決定。在一種可能的實現方式中，在檢測維度包括手勢檢測維度的情況下，可以根據以下步驟得到目標對象在手勢檢測維度上的中間檢測結果：

根據視訊數據，獲取目標對象在手勢檢測周期內執行至少一個目標手勢的次數，得到手勢檢測周期的手勢檢測結果，其中，目標手勢包括托手、舉手以及舉大拇指中的一個或多個；

根據至少一個手勢檢測周期的手勢檢測結果，得到目標對象在手勢檢測維度上的中間檢測結果。

其中，可以將視訊數據按照時間順序劃分爲多段，將劃分的每段視訊分別記爲一個手勢檢測周期。劃分方式與劃分後每個手勢檢測周期的長度不受限定。在一種可能的實現方式中，可以對視訊數據按照相同的時長進行劃分，在這種情況下，不同段視訊對應的手勢檢測周期的時間長度相同；在一種可能的實現方式中，也可以對視訊數據按照不同的時長隨機劃分，在這種情況下，不同段視訊對應的手勢檢測周期的時間長度相同。本發明實施例以手勢檢測周期的時間長度不變爲例進行說明，在一個示例中，可以將手勢檢測周期記爲一分鐘，即分別獲取目標對象每一分鐘內執行至少一個目標手勢的次數，來得到目標對象每一分鐘的手勢檢測結果，繼而根據每一分鐘的手勢檢測結果，得到完整的視訊數據中，目標對象在手勢檢測維度上的中間檢測結果。

目標手勢可以爲設定的，教師在模課過程中可以判定爲有效的手勢，比如托手（表示請某個學生回答問題）、舉手（表示提示學生回答問題）或是舉大拇指（表示對學生的行爲進行點讚）等，具體哪些手勢可以作爲目標手勢，可以根據實際情況靈活設定。

通過根據視訊數據，獲取目標對象在手勢檢測周期內執行至少一個目標手勢的次數，來得到手勢檢測周期的手勢檢測結果，繼而再根據至少一個手勢檢測周期的手勢檢測結果，來得到目標對象在手勢檢測維度上的中間檢測結果，通過上述過程，可以將視訊數據劃分爲多個手勢檢測周期，將完整的手勢檢測過程轉化爲多段手勢檢測的過程，減小了每次進行手勢檢測的難度，提升了手勢校測的效率，同時通過手勢檢測維度上的中間檢測結果，可以有效反映教師在模課過程中的肢體調動程度以及與學生之間的手勢互動程度，在提升數據處理方法的效率的同時，還可以提升數據處理結果的準確性和可靠性。

具體地，目標對象如何在手勢檢測周期內執行至少一個目標手勢的次數的方式，可以根據實際情況靈活決定，在一種可能的實現方式中，根據視訊數據，獲取目標對象在手勢檢測周期內執行至少一個目標手勢的次數，包括：

獲取視訊數據在手勢檢測周期內的至少一個手勢檢測幀序列；在手勢檢測幀序列中，包含目標手勢的幀的數量超過第一閾值的情況下，將手勢檢測幀序列中的至少一幀記錄爲手勢開始幀；在位於手勢開始幀以後的手勢檢測幀序列中，不包含目標手勢的幀的數量超過第二閾值的情況下，將位於手勢開始幀以後的手勢檢測幀序列中的至少一幀記錄爲手勢結束幀；根據手勢開始幀以及手勢結束幀的數量，得到目標對象在手勢檢測周期內執行至少一個目標手勢的次數。

在一種可能的實現方式中，在對視訊數據的進行手勢檢測的過程中，可以通過固定的檢測幀率，對每個手勢檢測周期長度下的視訊數據進行手勢檢測，這一檢測幀率的數值可以根據實際情況靈活設定，在一個示例中，可以將檢測幀率設定爲10FPS，即每秒可以對10幀視訊數據進行手勢檢測。

在檢測幀率固定的情況下，手勢檢測周期內待檢測的幀數量實際是固定的，即手勢檢測周期內的視訊數據可以對應一個完整的幀序列，該幀序列包含的幀數可以通過手勢檢測周期的時間長度與檢測幀率之間的乘積所確定。在一種可能的實現方式中，可以直接對手勢檢測周期所對應的完整幀序列進行手勢檢測，比如可以通過完整幀序列中包含目標手勢的幀的數量來確定手勢檢測周期中執行目標手勢的次數等。在一種可能的實現方式中，也可以如上述發明實施例所述，從手勢檢測周期對應的完整幀序列中，獲取至少一個手勢檢測幀序列，繼而分別根據每個手勢檢測幀序列的檢測結果，來確定手勢檢測周期內目標手勢的次數。

其中，手勢檢測幀序列可以是從手勢檢測周期對應的完整幀序列中，選定的多個幀序列，具體的選定方式可以靈活選擇，不局限於下述發明實施例。在一個示例中，可以通過滑動幀的方式來得到多個手勢檢測幀序列，具體過程可以爲：設定每個手勢檢測幀序列的長度爲X，在手勢檢測周期對應的完整幀序列中，將第一幀作爲第一個手勢檢測幀序列的起始幀，第X幀作爲第一個手勢檢測幀序列的終止幀，得到第一個手勢檢測幀序列；然後在完整幀序列中，將第一個手勢檢測幀序列向後滑動一幀來得到第二個手勢檢測幀序列，即將完整幀序列中的第二幀作爲第二個手勢檢測幀序列的起始幀，第X+1幀作爲第二個手勢檢測幀序列的終止幀，得到第二個手勢檢測幀序列；以此類推，從而得到多個手勢檢測幀序列。X的數量可以根據實際情況靈活選擇，在本發明實施例中不做限制，在一個示例中，X可以與檢測幀率一致，即在檢測幀率爲10FPS的情況下，X可以設定爲10幀。

在獲取了多個手勢檢測幀序列後，可以基於多個手勢檢測幀序列來得到手勢開始幀和手勢結束幀，如上述發明實施例所述，在一種可能的實現方式中，可以檢測每個手勢檢測幀序列中，分別對每幀進行手勢檢測，來確定包含目標手勢的幀的數量，如果包含目標手勢的幀的數量超過第一閾值，則可以認爲當前的手勢檢測幀序列內存在目標手勢，此時可以從當前的手勢檢測幀序列中選定至少一幀來作爲手勢開始幀。

其中，對每幀進行手勢檢測的方式可以根據實際情況靈活選擇，在一種可能的實現方式中，可以通過具有手勢檢測功能的神經網路，來實現對幀圖像的手勢檢測。具有手勢檢測功能的神經網路的實現方式也可以靈活決定，如上述各發明實施例所述，目標手勢可能包含有多種手勢，在一種可能的實現方式中，可以利用一個可以同時識別多個目標手勢的神經網路，來對每幀圖像進行手勢檢測；在一種可能的實現方式中，也可以針對每一種目標手勢，均採用一個對應的神經網路來進行手勢檢測。具體地，在一個示例中，可以通過調用insight SDK的人體檢測與舉手檢測模型，來對目標對象進行舉手這一目標手勢的檢測，在一個示例中，還可以通過調用human action SDK中的手勢檢測模型，來對目標對象的其他目標手勢進行檢測等。在一種可能的實現方式中，如果手勢檢測幀序列中檢測到的目標手勢的種類有多種，則可以分別判斷每種目標手勢的幀的數量是否均超過第一閾值，如果都超過，則可以說明當前手勢檢測幀序列中存在多種手勢，如果其中部分種類的目標手勢的幀的數量超過第一閾值，則可以說明當前手勢檢測幀序列中存在超過第一閾值這部分種類的目標手勢。

第一閾值的數量可以根據實際情況靈活設定，不局限於本發明實施例，在一個示例中，在手勢檢測幀序列包含10幀的情況下，可以將第一閾值設定爲6。

在包含目標手勢的幀的數量超過第一閾值的情況下，可以從當前手勢幀序列中選擇至少一幀作爲手勢開始幀，具體選擇哪一幀作爲手勢開始幀，其實現形式可以靈活決定。在一種可能的實現方式中，可以將手勢檢測幀序列中第N個包含目標手勢的幀作爲手勢開始幀，則該手勢開始幀對應的時間即可以記爲手勢互動開始的時間。其中，N的值可以靈活選擇，在一個示例中，N可以與第一閾值的值一致，舉例來說，在手勢檢測幀序列包含10幀，第一閾值設定爲6的情況下，如果當前手勢檢測幀序列檢測到包含目標手勢的幀的數量不小於6，則可以將當前手勢檢測幀序列中第6個包含目標手勢的幀，作爲手勢開始幀，並將手勢開始幀在視訊數據中的時間，記爲手勢開始時間。

在確定了手勢開始幀以後，還可以進一步確定手勢結束的時間，即手勢結束幀。手勢結束幀的確定方式與手勢開始幀類似，如上述發明實施例所述，在一種可能的實現方式中，可以在手勢開始幀以後的手勢檢測幀序列中分別進行手勢檢測，如果其中存在某個手勢檢測幀序列，其不包含目標手勢的幀的數量超過第二閾值，則可以認爲該手勢檢測幀序列中不存在目標手勢，並從中選定至少一幀作爲手勢結束幀。第二閾值的數量可以根據實際情況靈活決定，可以與第一閾值相同，也可以不同。在一個示例中，第二閾值的數量可以與第一閾值的數量一致，均爲6。從手勢檢測幀序列中選定手勢結束幀的過程可以參考手勢開始幀的選定過程，在此不再贅述。

在得到了多個手勢開始幀與手勢結束幀後，可基於這些幀的數量與對應的手勢開始和結束時間，來確定一個手勢檢測周期內，出現目標手勢的次數。表1示出根據本發明一實施例的手勢檢測規則。

規則	默認值	備注
檢測幀率	10FPS	固定檢測幀率
互動手勢檢測周期	10	以10幀爲一周期，單幀連續滾動，即每幀都是上一個10幀周期的結束和下一個10幀周期的開始。
互動手勢規則閾值	6	在檢測周期內，檢測結果爲正（檢測到有手勢）的幀數達到閾值，即判斷有互動手勢，標誌互動事件開始。在檢測周期內，檢測結果爲負（檢測到無手勢）的幀數達到閾值，即判斷無互動手勢，標誌互動事件結束。
互動手勢開始時間		若規則閾值爲6，則檢測結果爲正的第6幀的時間，爲手勢互動事件開始時間。
互動手勢結束時間		若規則閾值爲6，則檢測結果爲負的第6幀的時間，爲手勢互動事件結束時間。

表1 手勢檢測規則

其中，表中的互動手勢檢測周期對應上述發明實施例中的手勢檢測幀序列，互動手勢規則閾值對應上述發明實施例中的第一閾值和第二閾值，互動手勢開始時間對應上述發明實施例中的手勢開始幀的時間，互動手勢結束時間對應上述發明實施例中的手勢結束幀的時間。通過表1可以看出，在一個示例中，可以將手勢檢測周期中的每10幀作爲一個手勢檢測幀序列，從而在每個手勢檢測幀序列中，對每一幀進行手勢檢測，來確定手勢開始幀和手勢結束幀，繼而得到每個手勢檢測周期中發生目標手勢的次數。

通過上述過程，可以基於手勢檢測周期內的多個手勢檢測幀序列，實現目標手勢次數的檢測，有效地減小了個別幀的手勢檢測結果不準確對手勢檢測結果的影響，提升了手勢檢測的準確程度，繼而提升整個數據處理過程的精度和可靠性。

進一步地，在獲取了手勢檢測周期內執行目標手勢的次數以後，可以根據獲取的次數來得到該手勢檢測周期所對應的手勢檢測結果。在一種可能的實現方式中，可以直接將該手勢檢測周期中執行目標手勢的次數作爲手勢檢測結果；在一種可能的實現方式中，也可以將該手勢檢測周期中執行目標手勢的次數按照一定的規則映射爲分數，作爲手勢檢測結果，映射規則在本發明實施例中不做限定。表2示出根據本發明一實施例的手勢檢測結果的映射規則。

規則	默認值	備注
互動手勢評分周期	1分鐘	在每分鐘時長內檢測互動次數。若一次手勢互動跨兩個1分鐘，則計爲互動開始時間所在的1分鐘。
互動手勢評分規則	10分制	1次手勢互動得1分，10次手勢互動得10分，最高分不超過10分。舉手和各AR手勢都作爲互動手勢參與計分。

表2 手勢檢測結果的映射規則

其中互動手勢評分周期對應上述發明實施例中的手勢檢測周期，則從表2中可以看出，在一個示例中，在一個手勢檢測周期內，可以將一次目標手勢記爲1分，從而根據目標手勢的次數確定手勢檢測周期的分數；如果一個手勢檢測周期中出現10次以上的目標手勢，則將該手勢檢測周期的手勢檢測結果記爲10分。

通過將手勢檢測周期中執行目標手勢的次數按照一定規則映射爲分數，可以將手勢檢測結果標準化，從而提升基於手勢檢測結果確定的中間檢測結果的規範性，便於手勢維度的中間檢測結果與其他維度上的中間檢測結果進行融合，得到更加直觀的目標檢測結果。

在得到了各個手勢檢測周期的手勢檢測結果以後，還可以基於至少一個手勢檢測結果，進一步得到手勢檢測維度上的中間檢測結果。根據手勢檢測結果得到中間檢測結果的方式可以靈活決定，不局限於下述發明實施例。在一種可能的實現方式中，可以將各個手勢檢測周期的手勢檢測結果的平均值，作爲手勢檢測維度上的中間檢測結果。

在一種可能的實現方式中，在檢測維度包括情緒檢測維度的情況下，可以根據以下步驟得到目標對象在情緒檢測維度上的中間檢測結果：

根據視訊數據，獲取所述目標對象在情緒檢測周期內的表情檢測結果和/或微笑檢測結果，其中，表情檢測結果包括基於目標對象的表情所確定的情緒結果，微笑檢測結果包括目標對象的微笑强度；

根據至少一個情緒檢測周期中目標對象的表情檢測結果和/或微笑檢測結果，得到目標對象在情緒檢測維度上的中間檢測結果。

其中，情緒檢測周期的實現形式可以參考上述發明實施例中手勢檢測周期的實現形式，在此不再贅述。情緒檢測周期的長度可以與手勢檢測周期長度相同，也可以不同，根據實際情況靈活選擇即可。在一個示例中，可以將情緒檢測周期設定爲與手勢檢測周期相同，均爲一分鐘。

表情檢測結果可以是通過對目標對象進行表情檢測，所確定的情緒結果，比如目標對象的情緒爲開心、平靜或是憂傷等。其實現形式可以靈活設定，表情檢測結果的獲取方式與實現形式可以參考後續各發明實施例，在此先不做展開。

微笑檢測結果則可以是通過對目標對象進行微笑檢測，所確定的相關結果，其可以反映目標對象的微笑强度或微笑幅度等。其實現形式可以靈活設定，微笑檢測結果的獲取方式與實現形式可以參考後續各發明實施例，在此先不做展開。

進一步地，如何根據表情檢測結果與微笑檢測結果來得到目標對象在情緒檢測維度上的中間檢測結果，可以根據表情檢測結果與微笑檢測結果的實際情況所決定，同樣可以詳見後續各發明實施例。

在本發明實施例中，微笑檢測與表情檢測可以是兩個相互獨立的檢測，二者雖然均可以用於表明目標對象的情緒狀態，但二者是從兩個不同的角度所實現的。基於表情檢測結果與微笑檢測結果來共同確定的中間檢測結果，可以在情緒檢測維度上，更全面和可靠地表明目標對象的情緒狀態，從而提升最終得到的目標檢測結果的全面性和可靠性。

具體地，如何獲取目標對象在情緒周期內的表情檢測結果，其實現形式可以根據實際情況靈活決定。在一種可能的實現方式中，根據視訊數據，獲取目標對象在情緒檢測周期內的表情檢測結果，可以包括：在情緒檢測周期內，對目標對象進行表情檢測，確定目標對象展示至少一個目標表情的次數，得到表情檢測結果；其中，目標表情包括高興、平靜以及其他中的一個或多個。

通過上述發明實施例可以看出，在一種可能的實現方式中，可以通過基於目標對象在情緒檢測周期內展示不同目標表情的次數，來得到表情檢測結果。其中，目標表情可以根據實際情況靈活設定，在一種可能的實現方式中，可以將目標表情設定爲高興、平靜或其他等，在一種可能的實現方式中，也可以進一步對其他的表情進行細化，比如將目標表情設定爲高興、平靜、憂傷或憤怒等。

情緒檢測周期內目標表情的次數可以通過檢測到包含目標表情的幀的數量來確定，在一種可能的實現方式中，情緒檢測的檢測幀率可以如手勢檢測的檢測幀率一樣，爲某一固定值，則每個情緒檢測周期內可以檢測到的幀的數量是固定的，在一種可能的實現方式中，可以根據情緒檢測周期內檢測到每個目標表情的幀的數量，來確定情緒檢測周期內目標對象展示每個目標表情的次數。在一種可能的實現方式中，還可以將情緒檢測周期劃分爲多個情緒檢測子周期，並將每個情緒檢測子周期中，檢測到幀數最多的目標表情，作爲該情緒檢測子周期的表情，從而基於每個情緒檢測子周期的表情，來確定情緒檢測周期中目標表情的次數。表3示出根據本發明一實施例的表情檢測規則。

規則	默認值	備注
檢測幀率	10FPS	固定檢測幀率
表情規則		採用三分類表情定義，即：高興、平靜和其他。每秒的表情檢測結果爲所有檢測幀結果的眾數。

表3 表情檢測規則

從表3中可以看出，在情緒檢測周期爲一分鐘的情況下，可以將一秒作爲情緒檢測子周期的長度，從而得到60個情緒檢測子周期，接著在每秒鐘內，可以對視訊數據的每一幀分別進行表情檢測，得到每一幀對應的目標表情，將該秒內幀數最多的目標表情作爲該秒對應的目標表情，則每個檢測周期內，可以得到不同目標表情的出現次數，這些次數相加之和爲60。

具體對每幀進行表情檢測的方式不受限定，在一種可能的實現方式中，可以通過具有表情檢測功能的神經網路，實現對每幀圖像的表情檢測，即將每一幀圖像輸入到具有表情檢測功能的神經網路，可以輸出目標對象對應的目標表情。具有表情檢測功能的神經網路的具體實現方式在本發明實施例中不做限定，根據實際情況靈活選擇合適的神經網路即可。在一個示例中，可以通過調用human action SDK的人臉檢測或人臉屬性等模型，來實現目標對象的表情檢測。

進一步地，在確定了情緒檢測周期內每個目標表情的次數後，可以得到情緒檢測周期的表情檢測結果，具體如何將不同目標表情的次數轉換爲表情檢測結果，其映射規則可以根據實際情況靈活決定，不局限於下述發明實施例。表4示出根據本發明一實施例的情緒檢測結果對應規則。

規則	默認值	備注
情緒評分周期	1分鐘
情緒得分	10分制	情緒得分爲表情得分和微笑得分的平均。
表情得分規則	10分制	1分鐘60秒，對應60個表情檢測，分別賦值：高興10分，平靜5分，其他0分。所有60個分數的平均分爲該分鐘親和力得分。
微笑得分規則	10分制	所有60個分數的平均分爲該分鐘微笑得分。

表4 情緒檢測結果對應規則

其中，表情得分對應上述發明實施例中的表情檢測結果，微笑得分對應上述發明實施例中的微笑檢測結果。如表4所示，在一個示例中，可以將情緒檢測周期內不同的目標表情記錄爲不同的分值，比如可以將高興記爲10分，平靜記爲5分，其他記爲0分等，然後將情緒檢測周期內目標表情的平均分作爲情緒檢測周期的表情檢測結果。

通過在情緒檢測周期內，對目標對象進行表情檢測，確定目標對象展示至少一個目標表情的次數，得到表情檢測結果，可以基於目標對象在情緒檢測周期內出現的多種不同目標表情，來得到較爲全面和可靠的表情檢測結果，從而可以更加準確地反應目標對象的情緒，提升情緒檢測結果的準確性。

同理，如何獲取目標對象在情緒周期內的微笑檢測結果，其實現形式也可以根據實際情況靈活決定。在一種可能的實現方式中，根據視訊數據，獲取目標對象在情緒檢測周期內的微笑檢測結果，可以包括：

在情緒檢測周期內，根據視訊數據的至少一幀，對目標對象進行微笑檢測，得到與至少一幀對應的微笑檢測結果；根據與至少一幀對應的微笑檢測結果，確定目標對象在情緒檢測周期內的微笑檢測結果。通過上述發明實施例可以看出，在一種可能的實現方式中，可以在情緒檢測周期內，對情緒檢測周期中視訊數據的每一幀進行微笑檢測，然後基於其中部分幀或每一幀的微笑檢測結果求取平均值，來得到目標對象在情緒檢測周期內的微笑檢測結果。

在一種可能的實現方式中，也可以參考表情檢測的實現方式，將情緒檢測周期劃分爲多個情緒檢測子周期，並將每個情緒檢測子周期中，然後來基於每個情緒檢測子周期的微笑檢測結果，來得到情緒檢測周期的微笑檢測結果。情緒檢測周期的劃分方式可以參考上述發明實施例，在此不再贅述。每個情緒檢測子周期內的微笑檢測結果的確定方式可以根據實際情況靈活決定，表5示出根據本發明一實施例的微笑檢測規則。

規則	默認值	備注
檢測幀率	10FPS	固定檢測幀率
微笑規則		每次檢測的0-1微笑值轉換爲0-10分。每秒的10幀檢測的微笑值取平均，平均結果作爲該秒的微笑值。

表5 微笑檢測規則

從表中可以看出，在一個示例中，可以將情緒檢測周期按照秒進一步劃分爲多個情緒檢測子周期，在每個情緒檢測子周期中，可以對該情緒檢測子周期內的每一幀進行微笑檢測，然後將所有幀的微笑檢測結果的平均值，作爲該情緒檢測子周期的微笑檢測結果。

對每一幀圖像進行微笑檢測的方式在本發明實施例中也不做限制，在一種可能的實現方式中，可以將幀圖像通過具有微笑檢測功能的神經網路，來輸出該幀圖像對應的微笑值。具有微笑檢測功能的神經網路的實現方式在本發明實施例中不做限定，任何可以反映圖像中目標對象微笑幅度或强度的神經網路，均可以作爲具有微笑檢測功能的神經網路的實現方式。

在將情緒檢測周期劃分爲多個情緒檢測子周期後，根據情緒檢測子周期的微笑檢測結果得到情緒檢測周期的微笑檢測結果的方式也可以靈活決定。從上述發明實施例中提到的表4可以看出，在一個示例中，可以將一分鐘內60個微笑檢測結果的平均值作爲情緒檢測周期的微笑檢測結果，即可以通過情緒檢測周期內情緒檢測子周期的微笑檢測結果平均值，來得到情緒檢測周期的微笑檢測結果。

通過根據情緒檢測周期中不同幀的微笑檢測結果，來得到情緒檢測周期的微笑檢測結果，可以減小部分幀微笑檢測結果不準確的影響，使得得到的情緒檢測周期內的微笑檢測結果具有較高的可靠性，繼而提升最終得到的目標檢測結果的可靠性和精度。

在得到了情緒檢測周期中的表情檢測結果和微笑檢測結果後，可以基於二者進一步得到目標對象在情緒檢測維度上的中間檢測結果。在一種可能的實現方式中，可以基於各個情緒檢測周期內的表情檢測結果和/或微笑檢測結果，來得到各個情緒檢測周期的情緒檢測結果，再對不同的情緒檢測周期的情緒檢測結果進行平均，來得到目標對象在情緒檢測維度上的中間檢測結果。

目標對象在各個情緒檢測周期內的情緒檢測結果的獲取方式不受限定，如表4所示，在一種可能的實現方式中，可以將情緒檢測周期內表情檢測結果與微笑檢測結果的平均值作爲該周期的情緒檢測結果；在一種可能的實現方式中，也可以將情緒檢測周期內表情檢測結果與微笑檢測結果進行加權平均，來得到該周期的情緒檢測結果，表情檢測結果與微笑檢測結果的權重可以根據實際情況靈活設定，不局限於下述發明實施例，二者之和爲1即可。在一個示例中，可以將表情檢測結果的權重設置爲1，微笑檢測結果的權重設置爲0，即可以直接將表情檢測結果作爲該情緒檢測周期的情緒檢測結果；在一個示例中，也可以將表情檢測結果的權重設置爲0，微笑檢測結果的權重設置爲1，即可以直接將微笑檢測結果作爲該情緒檢測周期的情緒檢測結果。

在一種可能的實現方式中，在檢測維度包括目光交流檢測維度的情況下，可以根據以下步驟得到目標對象在目光交流檢測維度上的中間檢測結果：

根據視訊數據，對目標對象進行人臉角度檢測，確定目標對象的人臉角度在人臉角度閾值內的時間，作爲人臉角度檢測結果；根據視訊數據，對目標對象進行閉眼檢測，確定目標對象執行閉眼操作的時間，作爲閉眼檢測結果；根據人臉角度檢測結果與閉眼檢測結果，確定目標對象的人臉角度在人臉角度閾值內且未執行閉眼操作的時間長度；根據時間長度，得到目標對象在目光交流檢測維度上的中間檢測結果。

通過上述發明實施例可以看出，在一種可能的實現方式中，對目標對象在目光交流檢測維度上進行的檢測，可以由兩部分構成，分別爲人臉角度檢測與閉眼檢測，在本發明實施例中，可以通過人臉角度檢測，確定目標對象的人臉朝向，如果目標對象的人臉朝向在人臉角度閾值內，則可以認爲目標對象的觀看角度在目光交流的範圍之內。其中，人臉角度閾值的具體數值可以根據實際情況靈活設定，在一種可能的實現方式中，人臉角度閾值可以爲靜態值，即在視訊數據中的任意時間段，人臉角度閾值的數值均不發生變化；在一種可能的實現方式中，人臉角度閾值也可以設置爲動態值，即根據目標對象在視訊數據中位置的變化靈活進行改變等。

然而在一些可能的情況下，目標對象觀看的角度雖然在目光交流的範圍之內，但是其可能僅僅爲人臉的習慣性擺動，而非與需要交流的對象進行目光交流。因此，在本發明實施例中，還可以對目標對象進一步進行閉眼檢測，來判斷目標對象是否處於閉眼狀態，如果目標對象觀看的角度在目光交流的範圍之內，且目標對象處於睜眼狀態（即非閉眼狀態），則可以認爲目標對象當前執行了目光交流動作。因此，在一種可能的實現方式中，可以通過人臉角度檢測與閉眼檢測，確定目標對象的人臉角度在人臉角度閾值內且未執行閉眼操作的時間長度，根據該時間長度在視訊數據中的時間占比，來得到目標對象在目光交流檢測維度上的中間檢測結果。

通過人臉角度檢測與閉眼檢測，來確定目標對象的人臉角度在人臉角度閾值內且未執行閉眼操作的時間長度，繼而得到目標對象在目光交流檢測維度上的中間檢測結果，通過上述過程，可以在檢測目光交流的過程中，既考慮目標對象是否處於目光交流的方向，又考慮目光對象是否在處於這一方向時發生了閉眼的操作，來綜合評判目標對象的目光交流程度，大大提升目光交流檢測維度上中間檢測結果的準確性，繼而提升後續得到目標檢測結果的準確性。

進一步地，在一種可能的實現方式中，爲了增加在目光交流檢測維度上行爲狀態檢測的準確性，可以參考上述各發明實施例，設定一個目光交流檢測周期，從而確定目標對象在每個目光檢測周期中，人臉角度在人臉角度閾值內且未執行閉眼操作的時間長度，來得到至少一個目光交流檢測周期的中間檢測結果，再基於至少一個目光交流檢測周期的中間檢測結果，得到目標對象在目光交流檢測維度上的中間檢測結果。

其中，目光交流檢測周期的實現形式可以參考上述各發明實施例中的手勢檢測周期與情緒檢測周期，在此不再贅述。在一種可能的實現方式中，可以設定目光交流檢測周期的長度爲一分鐘。

具體地，在每個目光交流檢測周期中，進行人臉角度檢測的過程可以參考手勢檢測的過程，因此，在一種可能的實現方式中，在目光交流檢測周期內進行人臉角度檢測的過程可以包括：

獲取視訊數據在目光交流檢測周期內的至少一個人臉角度檢測幀序列；在人臉角度檢測幀序列中，人臉角度在人臉角度閾值內的幀的數量超過第三閾值的情況下，將人臉角度檢測幀序列中的至少一幀記錄爲人臉朝向開始幀；在位於人臉朝向開始幀以後的人臉角度檢測幀序列中，人臉角度在人臉角度閾值以外的幀的數量超過第四閾值的情況下，將位於人臉朝向開始幀以後的人臉角度檢測幀序列中的至少一幀記錄爲人臉朝向結束幀；根據人臉朝向開始幀與人臉朝向結束幀的數量與時間，得到目標對象在目光交流周期內，人臉角度位於人臉角度閾值內的時間。

其中，人臉角度檢測幀序列的獲取方式可以參考手勢檢測幀序列，人臉朝向開始幀的確定方式可以參考手勢開始幀，人臉朝向結束幀的確定方式可以參考手勢結束幀，在此均不再贅述。第三閾值與第四閾值可以是根據實際情況靈活設定的數值，可以與第一閾值和第二閾值相同，也可以不同，根據實際情況靈活設定即可。人臉角度的檢測方式可以根據實際情況靈活確定，在一種可能的實現方式中，可以將每一幀圖像輸入至具有人臉角度檢測功能的神經網路中，實現人臉角度檢測，其中，具有人臉角度檢測功能的神經網路的實現形式在本發明實施例中不做限定，在一個示例中，可以通過調用human action SDK中的人臉檢測或人臉跟蹤等模型，來得到可以進行人臉角度檢測的神經網路。表6示出根據本發明一實施例的人臉角度檢測規則。

規則	默認值	備注
觀看閾值設定		利用headpose的yaw、pitch值是否在預設置的觀看範圍內來判斷。支持以下4個觀看閾值的默認設置，同時支持上傳介面指定4個閾值。 key_parameter_negative_yaw key_parameter_positive_yaw key_parameter_negative_pitch key_parameter_positive_pitch
檢測幀率	10FPS	固定檢測幀率
觀看檢測周期	10	以10幀爲一個周期，單幀連續滾動，即每幀都是上一個10幀周期的結束和下1個10幀周期的開始
觀看規則閾值	8	在檢測周期內，檢測結果爲正（在設定的觀看範圍內）的幀數達到閾值，即判斷有觀看，標誌觀看事件開始。在檢測周期內，檢測結果爲負（不在設定的觀看範圍內）的幀數達到閾值，即判斷無觀看，標誌觀看事件結束。
觀看事件開始		若規則閾值爲8，則檢測結果爲正的第8幀的時間，爲觀看事件開始時間。
觀看事件結束		若規則閾值爲8，則檢測結果爲負的第8幀的時間，爲觀看事件結束時間。

表6 人臉角度檢測規則

其中，觀看閾值可以對應上述發明實施例中的人臉角度閾值，觀看檢測周期可以對應上述發明實施例中的人臉角度檢測幀序列，觀看規則閾值可以對應上述發明實施例中的第三閾值與第四閾值，觀看事件開始時間可以對應上述發明實施例中的人臉朝向開始幀的時間，觀看事件結束時間可以對應上述發明實施例中的人臉朝向結束幀的時間。如表6所示，在一個示例中，人臉角度閾值可以包含四個參數，分別爲正偏航角、負偏航角、正俯仰角與負俯仰角，其具體數值可以根據實際情況靈活確定，其中偏航角與俯仰角可以根據人臉角度檢測中設定的坐標系所靈活確定，正負可以用來代表這些角度的方向等，則在檢測到某幀圖像中的人臉角度分別在這四個參數所共同確定的範圍的情況下，可以認爲該幀中人臉角度在人臉角度閾值內；人臉角度檢測的檢測幀率可以設定爲10FPS，人臉角度檢測幀序列的長度可以設定爲10，第三閾值與第四閾值均可以設定爲8，即在一個人臉角度檢測幀序列中，若人臉角度位於人臉角度閾值內的幀的數量不小於8，則可以將其中人臉角度位於人臉角度閾值內的第8幀作爲人臉朝向開始幀，其對應的時間爲人臉角度位於人臉角度閾值內的開始時間，同理可以確定人臉角度位於人臉角度閾值內的結束時間，繼而得到目光交流周期中人臉角度在人臉角度閾值內的時間範圍。

同理，在每個目光交流檢測周期中，進行閉眼檢測的過程可以參考上述手勢檢測與人臉角度檢測的過程，因此，在一種可能的實現方式中，在目光交流檢測周期內進行閉眼檢測的過程可以包括：

獲取視訊數據在目光交流檢測周期內的至少一個閉眼檢測幀序列；在閉眼檢測幀序列中，檢測到兩眼均爲閉眼狀態的幀的數量超過第五閾值的情況下，將閉眼檢測幀序列中的至少一幀記錄爲閉眼開始幀；在位於閉眼開始幀以後的閉眼檢測幀序列中，檢測到兩眼均不處於閉合狀態或僅有一眼處於閉合狀態的幀的數量超過第六閾值的情況下，將位於閉眼開始幀以後的閉眼檢測幀序列中的至少一幀記錄爲閉眼結束幀；根據閉眼開始幀與閉眼結束幀的數量與時間，得到目標對象在目光交流周期內處於閉眼狀態的時間。

其中，閉眼檢測幀序列的獲取方式、閉眼開始幀與閉眼結束幀的確定方式可以參考上述各發明實施例，在此均不再贅述。第五閾值與第六閾值可以是根據實際情況靈活設定的數值，可以與上述中提到的各閾值相同，也可以不同，根據實際情況靈活設定即可。檢測目標對象是否閉眼的方式可以根據實際情況靈活確定，在一種可能的實現方式中，可以將每一幀圖像輸入至具有閉眼檢測功能的神經網路中，實現閉眼檢測，其中，具有閉眼檢測功能的神經網路的實現形式在本發明實施例中不做限定，在一個示例中，可以通過調用human action SDK中的人臉檢測或人臉屬性等模型，來得到可以進行閉眼檢測的神經網路。表7示出根據本發明一實施例的閉眼檢測規則。

規則	默認值	備注
閉眼定義		左眼閉且右眼閉，則爲閉眼；若有一邊未閉，則爲非閉眼。
檢測幀率	10FPS	固定檢測幀率
閉眼檢測周期	10	以10幀爲一個周期，單幀連續滾動，即每幀都是上1個10幀周期的結束和下1個10幀周期的開始。
閉眼規則閾值	正向閾值6 負向閾值8	在檢測周期內，檢測結果爲正（閉眼）的幀數達到閾值，即判斷有閉眼，標誌閉眼事件開始。在檢測周期內，檢測結果爲負（非閉眼）的幀數達到閾值，即判斷觀看，標誌閉眼事件結束。
閉眼事件開始時間		若規則閾值爲正向閾值，則檢測結果爲正的第1幀的時間，爲閉眼事件開始時間。
閉眼事件結束時間		若規則閾值爲負向閾值，則檢測結果爲負的第1幀的時間，爲閉眼事件結束時間。

表7 閉眼檢測規則

其中，閉眼檢測周期可以對應上述發明實施例中的閉眼檢測幀序列，閉眼規則閾值可以對應上述發明實施例中的第五閾值與第六閾值，閉眼事件開始時間可以對應上述發明實施例中的閉眼開始幀的時間，閉眼事件結束時間可以對應上述發明實施例中的閉眼結束幀的時間。如表7所示，在一個示例中，可以將目標對象雙眼均閉合設定爲閉眼狀態，其餘狀態設定爲非閉眼狀態；閉眼檢測的檢測幀率可以設定爲10FPS，閉眼檢測幀序列的長度可以設定爲10，第五閾值可以設定爲6，第六閾值可以設定爲8，即在一個閉眼檢測幀序列中，若檢測到處於閉眼狀態的幀的數量不小於6，則可以將處於閉眼狀態的第1幀作爲閉眼開始幀，其對應的時間爲閉眼開始時間，同理在閉眼開始時間以後的閉眼檢測幀序列中，若檢測到處於非閉眼的狀態的幀的數量不小於8，則可以將處於非閉眼狀態的第1幀作爲閉眼結束幀，從而可以確定閉眼結束時間，繼而得到目光交流周期中目標對象處於閉眼狀態的時間範圍。

在分別確定了目光交流周期中目標對象的人臉在人臉角度閾值內的時間範圍與目標對象處於閉眼狀態的時間範圍以後，可以進一步得到目光交流周期中目標對象的人臉在人臉角度閾值內且不處於閉眼的時間範圍，即目光交流周期中目標對象進行目光交流的時間範圍，繼而確定目光交流周期的中間檢測結果。具體如何將目標對象在目光交流周期中的目光交流時間範圍映射爲中間檢測結果，其映射規則可以根據實際情況靈活設定，不局限於下述發明實施例。

表8示出根據本發明一實施例的目光交流檢測結果的規則，其中目光交流評分周期可以對應上述發明實施例中的目光交流檢測周期，目光交流評分可以對應上述發明實施例中目光交流檢測維度上的中間檢測結果。

規則	默認值	備注
目光交流評分周期	1分鐘
目光交流評分規則	10分制	每分鐘裏目光交流的累計時長占比，轉化到10分制的得分。例如1分鐘視訊裏，目光交流累計時長30秒，對應比例爲50%，對應得分爲5.0。

表8 目光交流檢測結果的規則

從表8中可以看出，在一個示例中，可以將目光交流檢測周期中目光交流的時間占比，按照一定規則映射爲分值，來作爲該目光交流檢測周期中，目光交流檢測維度上的中間檢測結果。

同理，如上述各發明實施例所述，在一種可能的實現方式中，多媒體數據可以包含有音訊數據，在這種情況下，步驟S12也可以根據音訊數據來對目標對象進行行爲狀態檢測。因此，在一種可能的實現方式中，步驟S12可以包括：

步驟S1221，對音訊數據按照語句進行切分，得到至少一個音訊子數據；

步驟S1222，對至少一個音訊子數據，進行流利度、語速、停頓以及音量中至少一個檢測維度上的行爲狀態檢測，得到目標對象在至少一個檢測維度上的中間檢測結果。

其中，對音訊數據按照語句進行切分的實現方式在本發明實施例中不做限制，不局限於下述發明實施例。在一種可能的實現方式中，可以通過具有音訊數據中文本識別的音訊數據識別神經網路，對音訊數據進行識別，從而得到音訊數據中每個句子的識別結果，比如音訊數據中的各個句子、各句子所包含的詞、各句的起始時間戳、各句的時間長度、詞的起始時間戳以及詞的時間長度等。音訊數據識別神經網路的具體實現方式可以靈活決定，任何可以對音訊數據進行識別的神經網路均可以作爲音訊數據識別神經網路的實現方式。

對音訊數據按照語句切分後，可以得到一個或多個音訊子數據，音訊子數據的實現方式及包含的內容可以根據音訊數據的實際切分情況靈活決定，在一種可能的實現方式中，在音訊數據按照語句切分的情況下，得到的各個音訊子數據可以分別對應音訊數據中的各個完整句子。

在得到了音訊子數據後，可以根據得到的音訊子數據，對其中部分或每個音訊子數據，進行行爲狀態檢測。在本發明實施例中，對音訊子數據的檢測也可以是在不同維度上進行的檢測，比如可以對其進行流利度、語速、停頓或是音量中的一個或多個檢測等，具體選擇哪些維度可以根據實際情況靈活決定，在本發明實施例中不做限定。

具體地，對音訊子數據進行流利度、語速、停頓以及音量中至少一個維度的檢測方式不受限定。在一種可能的實現方式中，可以通過訓練得到具有不同功能的多個神經網路，比如流利度檢測神經網路、語速檢測神經網路、停頓檢測神經網路以及音量檢測神經網路等，將音訊子數據輸入到這些神經網路中，可以分別輸出相應地流利度、語速、停頓與音量的檢測結果等。上述各神經網路的具體實現形式可以根據實際情況進行靈活確定，在本發明實施例中不做限制。

在得到各個音訊子數據在各個檢測維度上的中間檢測結果後，可以在每個檢測維度下，對各個音訊子數據的中間檢測結果按照時長占比進行加權融合，從而將加權融合的結果作爲完整的音訊數據在各個檢測維度下的中間檢測結果。

在一種可能的實現方式中，在對音訊數據進行檢測之前，還可以將音訊數據進行格式轉碼，使得後續的音訊數據檢測過程更易實現。轉碼的方式與轉碼後的格式可以根據實際的檢測需求靈活決定，在一種可能的實現方式中，可以將音訊數據轉碼爲pcm格式（比如無壓縮的pcm文件或者wav文件）或是16bit採樣位數的單聲道格式等。同理，在對視訊數據進行檢測之前，也可以將視訊數據轉碼爲合適的視訊格式。

通過對音訊數據按照語句切分，得到至少一個音訊子數據，從而對至少一個音訊子數據，進行流利度、語速、停頓以及音量中的一個或多個檢測維度上的檢測，通過上述過程，可以將對音訊數據的檢測過程，轉化爲對音訊數據中各個子數據的檢測過程，降低了檢測難度和每次檢測所需處理的數據量，從而提升音訊數據的檢測效率與檢測精度，繼而提升數據處理的效率和精度。

在基於上述任意發明實施例或是發明實施例的組合，來得到目標對象在多個檢測維度上的中間檢測結果以後，可以通過步驟S13，來對得到的中間檢測結果進行處理，得到目標對象的目標檢測結果。步驟S13的實現方式可以根據實際情況靈活決定，不局限於下述各發明實施例。

在一種可能的實現方式中，步驟S13可以包括：按照檢測維度的預設權重，對至少一個檢測維度的中間檢測結果進行合併，得到目標對象的目標檢測結果。

通過上述發明實施例可以看出，在一種可能的實現方式中，可以對多媒體數據在手勢、情緒、目光交流、流利度、語速、停頓以及音量中的一個或多個檢測維度上進行檢測，來分別得到各個檢測維度上的中間檢測結果。因此，相應地，可以將這些檢測維度上的中間檢測結果進行融合或合併，來得到目標檢測結果。

融合或合並的過程可以根據實際情況靈活選擇，如上述發明實施例所述，在一種可能的實現方式中，可以分別按照每個檢測維度的預設權重，來將這些檢測維度上的中間檢測結果進行加權平均，來得到目標對象的目標檢測結果。各個檢測維度的預設權重的值可以根據實際需求靈活設定，在一種可能的實現方式中，可以對目標對象的狀態評估具有較大影響的檢測維度，設置較高的預設權重，在一種可能的實現方式中，也可以設置各檢測維度的預設權重一致，在這種情況下，可以直接將各個檢測維度上中間檢測結果的平均值，作爲目標對象的目標檢測結果。

通過上述過程，可以基於各個檢測維度的中間檢測結果，得到最終的目標檢測結果，由於預設權重可以根據行爲狀態平均的實際需求進行調整，因此得到的目標檢測結果，可以較好地反應目標對象的行爲狀態，具有較高的可靠性。

上述發明實施例中已經提到，目標檢測結果的實現形式可以靈活選擇，比如可以同時包含一個總體的檢測結果與多個詳細的細分結果，用於同時反應目標對象行爲狀態的總體情況和詳細情況。因此，在一種可能的實現方式中，步驟S13也可以包括：

步驟S131，根據音訊子數據在音訊數據中的時間，從多媒體數據包括的視訊數據中確定與音訊子數據對應的視訊子數據；

步驟S132，根據預設權重，對音訊子數據在至少一個檢測維度上的中間檢測結果，與對應的視訊子數據在至少一個檢測維度上的中間檢測結果進行合併，得到至少一個音訊子數據或視訊子數據的目標檢測結果；

步驟S133，對至少一個音訊子數據或視訊子數據的目標檢測結果進行合併，得到目標對象的目標檢測結果。

如上述各發明實施例所述，在一種可能的實現方式中，多媒體數據可以同時包括視訊數據與音訊數據，其中，視訊數據與音訊數據之間可以是一一對應的，即二者可以是從包含有音訊的數據中分別分離出來的。在對音訊數據進行多維度的行爲狀態檢測的過程中，可以對音訊數據按照語句切分得到多個音訊子數據，並分別得到音訊子數據在流利度、語速、停頓以及音量等多個檢測維度的中間檢測結果。

因此，在一種可能的實現方式中，爲了進一步得到這些音訊子數據的目標檢測結果，還可以進一步獲取這些音訊子數據在手勢、情緒以及目光交流這些檢測維度上的中間檢測結果。具體的獲取方式可以參考步驟S131，在一種可能的實現方式中，可以按照音訊子數據在音訊數據的切分方式，對視訊數據進行切分，從而得到多個視訊子數據，由於音訊數據與視訊數據對應，且二者切分方式相同，因此，得到的視訊子數據與音訊子數據一一對應。由於視訊數據可以通過上述任意發明實施例進行行爲狀態檢測，得到多個檢測維度上的中間檢測結果，進一步地，將這些中間檢測結果按照切分的方式映射到各個視訊子數據上，則可以得到各個視訊子數據在至少一個檢測維度上的中間檢測結果。

在得到了各視訊子數據在至少一個檢測維度上的中間檢測結果以後，可以根據視訊子數據與音訊子數據的對應關係，將視訊子數據的各維度中間結果與音訊子數據的各維度中間結果進行合併，得到各音訊子數據的目標檢測結果，由於音訊子數據與視訊子數據對應，因此該目標檢測結果同時也可以是各視訊子數據的目標檢測結果。其中，合併的方式可以參考上述各發明實施例，在此不再贅述。

進一步地，在得到各音訊子數據或視訊子數據的目標檢測結果後，還可以按照音訊子數據或視訊子數據的切分方式的逆方式，再次融合不同音訊子數據或視訊子數據的目標檢測結果，來得到目標對象總體的目標檢測結果。

通過上述過程，可以在得到目標對象的總體目標檢測結果的同時，還得到目標對象在每個句子下的目標檢測結果，從而更好地體現目標對象的行爲狀態，提升了目標檢測結果的參考價值和利用範圍。

圖2示出根據本發明實施例的數據處理裝置的方塊圖。如圖所示，所述數據處理裝置20可以包括：

獲取模組21，用於獲取目標對象的多媒體數據。檢測模組22，用於根據所述多媒體數據，對所述目標對象在至少一個檢測維度上進行行爲狀態檢測，得到所述目標對象在至少一個檢測維度上的中間檢測結果。處理模組23，用於對所述至少一個檢測維度上的中間檢測結果進行處理，得到所述目標對象的目標檢測結果，其中，所述目標檢測結果用於表示所述目標對象的行爲狀態。

在一種可能的實現方式中，所述多媒體數據包括視訊數據；所述檢測模組22用於：確定所述視訊數據中的目標對象；對所述目標對象進行手勢、情緒以及目光交流中至少一個檢測維度上的行爲狀態檢測，得到所述目標對象在所述至少一個檢測維度上的中間檢測結果。

在一種可能的實現方式中，所述至少一個檢測維度包括手勢檢測維度；所述檢測模組22進一步用於：根據所述視訊數據，獲取所述目標對象在手勢檢測周期內執行至少一個目標手勢的次數，得到所述手勢檢測周期的手勢檢測結果，其中，所述目標手勢包括托手、舉手以及舉大拇指中的一個或多個；根據至少一個所述手勢檢測周期的所述手勢檢測結果，得到所述目標對象在手勢檢測維度上的中間檢測結果。

在一種可能的實現方式中，所述檢測模組22進一步用於：獲取所述視訊數據在所述手勢檢測周期內的至少一個手勢檢測幀序列；在所述手勢檢測幀序列中，包含所述目標手勢的幀的數量超過第一閾值的情況下，將所述手勢檢測幀序列中的至少一幀記錄爲手勢開始幀；在位於所述手勢開始幀以後的手勢檢測幀序列中，不包含所述目標手勢的幀的數量超過第二閾值的情況下，將位於所述手勢開始幀以後的手勢檢測幀序列中的至少一幀記錄爲手勢結束幀；根據所述手勢開始幀以及所述手勢結束幀的數量，得到所述目標對象在手勢檢測周期內執行至少一個目標手勢的次數。

在一種可能的實現方式中，所述至少一個檢測維度包括情緒檢測維度；所述檢測模組22進一步用於：根據所述視訊數據，獲取所述目標對象在情緒檢測周期內的表情檢測結果和/或微笑檢測結果，其中，所述表情檢測結果包括基於所述目標對象的表情所確定的情緒結果，所述微笑檢測結果包括所述目標對象的微笑强度；根據至少一個所述情緒檢測周期中所述目標對象的表情檢測結果和/或微笑檢測結果，得到所述目標對象在情緒檢測維度上的中間檢測結果。

在一種可能的實現方式中，所述檢測模組22進一步用於：在所述情緒檢測周期內，對所述目標對象進行表情檢測，確定所述目標對象展示至少一個目標表情的次數，得到所述表情檢測結果；其中，所述目標表情包括高興、平靜以及其他中的一個或多個。

在一種可能的實現方式中，所述檢測模組22進一步用於：在所述情緒檢測周期內，根據所述視訊數據的至少一幀，對所述目標對象進行微笑檢測，得到與至少一幀對應的微笑檢測結果；根據所述與至少一幀對應的微笑檢測結果，確定所述目標對象在所述情緒檢測周期內的微笑檢測結果。

在一種可能的實現方式中，所述至少一個檢測維度包括目光交流檢測維度；所述檢測模組22進一步用於：根據所述視訊數據，對所述目標對象進行人臉角度檢測，確定所述目標對象的人臉角度在人臉角度閾值內的時間，作爲人臉角度檢測結果；根據所述視訊數據，對所述目標對象進行閉眼檢測，確定所述目標對象執行閉眼操作的時間，作爲閉眼檢測結果；根據所述人臉角度檢測結果與所述閉眼檢測結果，確定所述目標對象的人臉角度在人臉角度閾值內且未執行閉眼操作的時間長度；根據所述時間長度，得到所述目標對象在所述目光交流檢測維度上的中間檢測結果。

在一種可能的實現方式中，所述多媒體數據包括音訊數據；所述檢測模組22用於：對所述音訊數據按照語句進行切分，得到至少一個音訊子數據；對所述至少一個音訊子數據，進行流利度、語速、停頓以及音量中至少一個檢測維度上的行爲狀態檢測，得到所述目標對象在至少一個檢測維度上的中間檢測結果。

在一種可能的實現方式中，所述處理模組23用於：按照所述檢測維度的預設權重，對至少一個檢測維度的所述中間檢測結果進行合併，得到所述目標對象的目標檢測結果。

在一種可能的實現方式中，所述處理模組23用於：根據所述音訊子數據在所述音訊數據中的時間，從所述多媒體數據包括的視訊數據中確定與所述音訊子數據對應的視訊子數據；根據預設權重，對所述音訊子數據在至少一個檢測維度上的中間檢測結果，與對應的所述視訊子數據在至少一個檢測維度上的中間檢測結果進行合併，得到至少一個所述音訊子數據或所述視訊子數據的目標檢測結果；對至少一個所述音訊子數據或所述視訊子數據的目標檢測結果進行合併，得到所述目標對象的目標檢測結果。

在一種可能的實現方式中，所述多媒體數據通過所述目標對象根據預設文本數據進行教學操作所獲得，其中，所述預設文本數據包括至少一個指令標記，所述指令標記用於劃分和/或標注所述預設文本數據的至少部分內容。

在不違背邏輯的情況下，本申請不同實施例之間可以相互結合，不同實施例描述有所側重，未側重描述的部分可參見其他實施例的記載。

在本發明的一些實施例中，本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現和技術效果可參照上文方法實施例的描述，爲了簡潔，這裏不再贅述。

應用場景示例

教師模課，即教師模擬上課，可以是若干個老師在線下場景中面對面，分別進行模擬上課並相互給出評價。隨著在線教學的發展，模課也可以同樣轉爲線上模課，即教師可以通過終端設備（如手機、電腦等），對模擬上課的過程進行錄製或直播。

模課可以幫助教師對正式上課的過程進行預演，模課的評價對於教師的教學工作具有較高的指導價值。因此，一個可靠性較高的模課方法，可以有效應用於教師的在線模課過程中，對教師的正式教學起到較好的輔助作用。

本發明應用示例提出了一套教師模課系統，該系統可以通過上述發明實施例中提出的數據處理方法，來實現對教師模課行爲狀態的有效評估。

本發明實施例中提出的教師模課系統，可以包括客戶端（如手機、電腦、用戶設備等）與伺服端（如本地伺服器或是雲端伺服器等）兩部分，教師可以在客戶端進行模課過程的錄製或直播，並將錄製或直播的結果作爲多媒體數據上傳至伺服端，伺服端可以接收客戶端上傳的多媒體數據，並通過上述各發明實施例的數據處理方法，對多媒體數據進行處理，從而得到目標對象的目標檢測結果。

其中，教師在客戶端進行模課的過程可以包括：

客戶端可以通過展示界面，顯示模課過程的四個部分，分別是：課前熱身、知識講授、課中訓練以及課堂檢測。每個部分在展示界面中對應一個tap，教師可以通過點擊tap進入到該部分。在教師點擊tap的過程中，伺服器可以採集教師點擊各tap的時間戳，從而將教師錄製的多媒體數據對應到四個部分中的一個或多個。

教師可以根據已有的逐字稿（即上述發明實施例中的預設文本數據），進行模課。其中，逐字稿可以爲txt格式文本文件，逐字稿可以包含指令標記，該指令標記可以對逐字稿進行結構化標注以及知識點與互動標注，從而可以將逐字稿劃分爲上述四部分，並在每個部分中，在合適的位置提示教師做出互動，包括語音內容和互動手勢等。

其中，結構化標注可以將逐字稿按照模課的不同部分進行劃分，在本發明應用示例中，逐字稿可以用特定的開始和結束指令標識標注4個部分（課前熱身、知識講授、課中訓練、課堂檢測）的開始和結束環節。

在一個示例中，可以用＜開始指令開始＞＜開始指令結束＞；＜結束指令開始＞、＜結束指令結束＞分別標注對應指令，從而可以根據結構化標注的指令標記，判斷識別教師當前講述內容所對應的部分。在本發明應用示例中，結構標注的指令標記的具體實現形式可以參考上述發明實施例。

知識點與互動標注可以標注出逐字稿中的模課知識點和互動位置，在本發明應用示例中，可以用＜重點開始＞＜重點結束＞分別標注重點內容，從而便於檢測模課過程中的中點段落。如模課過程中需要有互動，在逐字稿的對應授課內容中用＜需加入互動＞標識。在本發明應用示例中，知識點與互動標注的指令標記的具體實現形式可以參考上述發明實施例。

在本發明應用示例中，教師在利用逐字稿進行模課的同時，可以通過客戶端錄製該模課過程，從而得到該教師的多媒體數據，並上傳至伺服端。

伺服端對客戶端上傳的多媒體數據進行數據處理的過程可以包括：

多媒體數據的獲取：

伺服端通過發起請求來獲取待處理的多媒體數據，其中，伺服端發起的請求可以包括多媒體數據（比如MP4文件）的URL連結、vendeeID 、teacherID、模課ID、多媒體數據結構（即該多媒體數據按照模課過程被劃分成的各部分，以及每個部分的起始時間戳和結束時間戳）、視訊檢測幀率等。在本發明應用示例中，在多媒體數據包括視訊數據的情況下，該視訊的解析度可以包括多種形式，如640p、720p或是1080p等，在多媒體數據包括音訊數據的情況下，該音訊數據可以包括多種音訊採樣率，比如8000Hz或是16000Hz等。此外，在教師通過客戶端進行模課直播的情況下，伺服端還可以實時獲取多媒體數據（即視音訊數據）。

多媒體數據預處理（如視訊轉碼或音訊轉碼等）：

伺服端可以從獲得的多媒體數據中分離出視訊流與音訊流，並分別轉碼成視訊檢測、語音識別或語音評測所支持的格式。比如，可以將分離出的音訊流轉換爲pcm（無壓縮的pcm文件或者wav文件）或是16bit採樣位數的單聲道格式。

視訊檢測：

在本發明應用示例中，可以調用human action SDK的人臉檢測、人臉跟蹤、人臉屬性和手勢檢測模型，以及調用insight SDK的人體檢測和舉手檢測模型，對視訊數據進行多維度檢測。在本發明應用示例中，對視訊數據的多維度檢測可以包括手勢檢測、情緒檢測以及目光交流檢測等。

其中，手勢檢測可以反映出教師模課的互動度。手勢檢測可以支持三種手勢的檢測，分別爲：托手（請某個學生回答問題）、舉手（提示學生回答提問）以及舉大拇指（點讚），檢測方式可以利用手勢檢測的神經網路進行檢測，從而可以輸出每個手勢的次數以及每個手勢檢測的時間戳。手勢檢測的具體實現方式可以參考上述各發明實施例，得到手勢檢測維度上的中間檢測結果的規則可以參考上述發明實施例中的表1與表2，在此不再贅述。

情緒檢測可以反映出教師模課的親和度，其可以包含兩個方面，分別是表情檢測和微笑檢測。其中，表情檢測可以通過表情檢測的神經網路來檢測，在單幀檢測結果的基礎上，按情緒檢測周期（暫定爲分鐘）輸出表情檢測結果，示例性的規則可以爲：在情緒檢測周期內檢測次數最多的表情，可以作爲該情緒檢測周期的表情檢測結果。

同理，微笑檢測可以在單幀檢測結果的基礎上，按情緒檢測周期（暫定爲分鐘）輸出微笑檢測結果，示例性的規則可以爲：在情緒檢測周期內所有單幀微笑檢測結果的算數平均值，可以作爲該情緒檢測周期的微笑檢測結果。

表情檢測與微笑檢測的具體實現方式可以參考上述各發明實施例，得到情緒檢測維度上的中間檢測結果的規則可以參考上述發明實施例中的表3至表5，在此不再贅述。

目光交流檢測可以反映出教師模課過程中與學生進行目光交流的情況，其可以包含兩個方面，分別爲人臉角度檢測（headpose朝向）和閉眼檢測。其中，可以將目光交流檢測定義爲目光交流事件，將人臉角度檢測定義爲觀看事件，閉眼檢測定義爲閉眼事件，則目光交流事件可以爲觀看事件與非閉眼事件的交集。在本發明應用示例中，可以將目光交流事件的開始時間設定爲在觀看事件的時間範圍內且不在閉眼事件的時間範圍內的初始時間，將目光交流事件的結束時間設定爲觀看事件的結束時間或閉眼事件的開始時間。

人臉角度檢測與閉眼檢測的具體實現方式可以參考上述各發明實施例，得到目光交流檢測維度上的中間檢測結果的規則可以參考上述發明實施例中的表6至表8，在此不再贅述。

音訊識別：

在本發明應用示例中，可以調用語音識別的相關識別模型，輸入音訊數據，從而實時獲取語音識別結果，包括音訊數據中的句子、句子中的詞以及每個句子和每個詞的起始時間戳和時長。

音訊檢測：

在本發明應用示例中，可以基於語音識別結果的每個句子的起始時間戳和時長，切分句子音訊，獲取並返回該句子音訊的檢測結果，包括：流利度、語速、停頓以及音量等。

通過音訊識別以及音訊檢測，可以反映出教師模課過程中在流利度、語速和音量等維度上的中間檢測結果。在本發明應用示例中，音訊檢測可以支持中文語音識別，來用於非英語類學科課程的模課評價；也可以支持中英混讀的語音識別，來用於英語類課程的模課評價。

其中，音訊識別可以調用語音識別相關的神經網路模型，實時返回識別結果，識別結果分爲句子和句子中的詞，通過音訊檢測，可以對語音識別返回的句子，得到上述各維度的檢測結果，進一步地，還可以增加針對段落的音訊檢測。

生成目標檢測結果：

目標檢測結果可以包括整體目標檢測結果與細分目標檢測結果，其中，整體目標檢測結果可以包括：互動、流暢度、語速以及音量，其中互動可以進一步劃分爲手勢互動、情緒互動以及目光交流互動等，圖3示出根據本發明一應用示例的目標檢測結果示意圖，從圖中可以看出，整體目標檢測結果可以包含基於各維度的中間檢測結果所計算出的總體評分，以及各維度的中間檢測結果的評分等。需要注意的是，圖3僅爲展示目標檢測結果的一示例性示意圖，在實際應用過程中，可以根據實際需求，以任意形式對目標檢測結果進行可視化展示。

細分目標檢測結果可以是基於語音識別的每個句子所輸出的檢測結果，在一個示例中，細分目標檢測結果可以包括：句子ID、句子文本、句子起始時間戳、句子時長、句子流利度、句子語速、句子音量、句子手勢（支持多個手勢）、句子表情以及句子微笑值等。

本發明應用示例中提出的系統，除了可以應用於教師模課分析外，還可以應用於其他相關領域，比如教師的正式教學分析，或是對教師應聘者進行試講評估等。

可以理解，本發明提及的上述各個方法實施例，在不違背原理邏輯的情況下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本發明不再贅述。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

本發明實施例還提出一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是揮發性電腦可讀儲存介質或非揮發性電腦可讀儲存介質。

本發明實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲上述方法。

本發明實施例還提出一種電腦程式，包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行用於實現上述方法。

在實際應用中，上述記憶體可以是揮發性記憶體（volatile memory），例如RAM；或者非揮發性記憶體（non-volatile memory），例如ROM，快閃記憶體（flash memory），硬碟（Hard Disk Drive，HDD）或固態硬碟（Solid-State Drive，SSD）；或者上述種類的記憶體的組合，並向處理器提供指令和數據。

上述處理器可以爲ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微處理器中的至少一種。可以理解地，對於不同的設備，用於實現上述處理器功能的電子裝置還可以爲其它，本發明實施例不作具體限定。

電子設備可以被提供爲終端、伺服器或其它形態的設備。

基於前述實施例相同的技術構思，本發明實施例還提供了一種電腦程式，該電腦程式被處理器執行時實現上述方法。

圖4是根據本發明實施例的一種電子設備800的方塊圖。例如，電子設備800可以是行動電話，電腦，數位廣播終端，訊息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖4，電子設備800可以包括以下一個或多個組件：處理組件802，記憶體804，電源組件806，多媒體組件808，音訊組件810，輸入/輸出（I/O）的介面812，感測器組件814，以及通訊組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，數據通訊，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

記憶體804被配置爲儲存各種類型的數據以支持在電子設備800的操作。這些數據的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人數據，電話簿數據，訊息，圖片，視訊等。記憶體804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電子可抹除可程式化唯讀記憶體（EEPROM），可抹除可程式化唯讀記憶體（EPROM），可程式化唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁碟或光碟。

電源組件806爲電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與爲電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和用戶之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸控面板（TP）。如果螢幕包括觸控面板，螢幕可以被實現爲觸控螢幕，以接收來自用戶的輸入訊號。觸控面板包括一個或多個觸控感測器以感測觸控、滑動和觸控面板上的手勢。所述觸控感測器可以不僅感測觸控或滑動動作的邊界，而且還檢測與所述觸控或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝影機和/或後置攝影機。當電子設備800處於操作模式，如拍攝模式或視訊模式時，前置攝影機和/或後置攝影機可以接收外部的多媒體數據。每個前置攝影機和後置攝影機可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音訊組件810被配置爲輸出和/或輸入音訊訊號。例如，音訊組件810包括一個麥克風（MIC），當電子設備800處於操作模式，如呼叫模式、記錄模式和語音識別模式時，麥克風被配置爲接收外部音訊訊號。所接收的音訊訊號可以被進一步儲存在記憶體804或經由通訊組件816發送。在一些實施例中，音訊組件810還包括一個揚聲器，用於輸出音訊訊號。

I/O介面812爲處理組件802和周邊介面模組之間提供介面，上述周邊介面模組可以是鍵碟，滑鼠，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啓動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於爲電子設備800提供各個方面的狀態評估。例如，感測器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件爲電子設備800的顯示器和小鍵盤，感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，用戶與電子設備800接觸的存在或不存在，電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通訊組件816被配置爲便於電子設備800和其他設備之間有線或無線方式的通訊。電子設備800可以接入基於通訊標準的無線網路，如WiFi，2G、3G、4G或5G，或它們的組合。在一個示例性實施例中，通訊組件816經由廣播信道接收來自外部廣播管理系統的廣播訊號或廣播相關人員訊息。在一個示例性實施例中，所述通訊組件816還包括近場通訊（NFC）模組，以促進短程通訊。例如，在NFC模組可基於射頻識別（RFID）技術，紅外數據協會（IrDA）技術，超寬頻（UWB）技術，藍牙（BT）技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個應用專用積體電路（ASIC）、數位訊號處理器（DSP）、數位訊號處理設備（DSPD）、可程式化邏輯裝置（PLD）、現場可程式化邏輯閘陣列（FPGA）、控制器、微控制器、微處理器或其他電子元件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存介質，例如包括電腦程式指令的記憶體804，上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。

圖5是根據本發明實施例的一種電子設備1900的方塊圖。例如，電子設備1900可以被提供爲一伺服器。參照圖5，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由記憶體1932所代表的記憶體資源，用於儲存可由處理組件1922的執行的指令，例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置爲執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置爲執行電子設備1900的電源管理，一個有線或無線網路介面1950被配置爲將電子設備1900連接到網路，和一個輸入輸出（I/O）介面1958。電子設備1900可以操作基於儲存在記憶體1932的操作系統，例如Windows Server^TM ，Mac OS X^TM ，Unix^TM , Linux^TM ，FreeBSD^TM 或類似。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存介質，例如包括電腦程式指令的記憶體1932，上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本發明可以是系統、方法和/或電腦程式産品。電腦程式産品可以包括電腦可讀儲存介質，其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。

電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是――但不限於――電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子（非窮舉的列表）包括：可攜式電腦盤、硬碟、隨機存取記憶體（RAM）、唯讀記憶體（ROM）、可抹除可程式化唯讀記憶體（EPROM或閃存）、靜態隨機存取記憶體（SRAM）、可攜式壓縮磁碟唯讀記憶體（CD-ROM）、數位多功能影音光碟（DVD）、記憶卡、磁片、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裏所使用的電腦可讀儲存介質不被解釋爲瞬時訊號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波（例如，通過光纖電纜的光脈衝）、或者通過電線傳輸的電訊號。

這裏所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備，或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。

用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、韌體指令、狀態設置數據、或者以一種或多種程式化語言的任意組合編寫的原始碼或目標代碼，所述程式化語言包括面向對象的程式化語言—諸如Smalltalk、C++等，以及常規的過程式程式化語言—諸如“C”語言或類似的程式化語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作爲一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠程電腦上執行、或者完全在遠程電腦或伺服器上執行。在涉及遠程電腦的情形中，遠程電腦可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到用戶電腦，或者，可以連接到外部電腦（例如利用網際網路服務提供商來通過網際網路連接）。在一些實施例中，通過利用電腦可讀程式指令的狀態人員訊息來個性化定制電子電路，例如可程式化邏輯電路、現場可程式化邏輯閘陣列（FPGA）或可程式化邏輯陣列（PLA），該電子電路可以執行電腦可讀程式指令，從而實現本發明的各個方面。

這裏參照根據本發明實施例的方法、裝置（系統）和電腦程式産品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解，流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式化數據處理裝置的處理器，從而生産出一種機器，使得這些指令在通過電腦或其它可程式化數據處理裝置的處理器執行時，産生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中，這些指令使得電腦、可程式化數據處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀介質則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令加載到電腦、其它可程式化數據處理裝置、或其它設備上，使得在電腦、其它可程式化數據處理裝置或其它設備上執行一系列操作步驟，以産生電腦實現的過程，從而使得在電腦、其它可程式化數據處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。

圖式中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式産品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作爲替換的實現中，方塊中所標注的功能也可以以不同於圖式中所標注的順序發生。例如，兩個連續的方塊實際上可以基本並行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

以上已經描述了本發明的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中的技術改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

20:數據處理裝置 21:獲取模組 22:檢測模組 23:處理模組 800:電子設備 802:處理組件 804:記憶體 806:電源組件 808:多媒體組件 810:音訊組件 812:輸入/輸出介面 814:感測器組件 816:通訊組件 820:處理器 1900:電子設備 1922:處理組件 1926:電源組件 1932:記憶體 1950:網路介面 1958:輸入/輸出介面 S11~S13:步驟

此處的圖式被併入說明書中並構成本說明書的一部分，這些圖式示出了符合本發明的實施例，並與說明書一起用於說明本發明的技術方案：圖1示出根據本發明一實施例的數據處理方法的流程圖；圖2示出根據本發明一實施例的數據處理裝置的方塊圖；圖3示出根據本發明一應用示例的目標檢測結果示意圖；圖4示出根據本發明實施例的一種電子設備的方塊圖；及圖5示出根據本發明實施例的一種電子設備的方塊圖。

S11~S13:步驟

Claims

一種數據處理方法，其中，包括：獲取目標對象的多媒體數據；根據所述多媒體數據，對所述目標對象在至少一個檢測維度上進行行爲狀態檢測，得到所述目標對象在所述至少一個檢測維度上的中間檢測結果；對所述至少一個檢測維度上的中間檢測結果進行處理，得到所述目標對象的目標檢測結果，其中，所述目標檢測結果用於表示所述目標對象的行爲狀態。
根據請求項1所述的方法，其中，所述多媒體數據包括視訊數據；所述根據所述多媒體數據，對所述目標對象在至少一個檢測維度上進行行爲狀態檢測，得到所述目標對象在至少一個檢測維度上的中間檢測結果，包括：確定所述視訊數據中的目標對象；對所述目標對象進行手勢、情緒以及目光交流中至少一個檢測維度上的行爲狀態檢測，得到所述目標對象在所述至少一個檢測維度上的中間檢測結果。
根據請求項2所述的方法，其中，所述至少一個檢測維度包括手勢檢測維度；根據以下步驟得到所述目標對象在所述手勢檢測維度上的中間檢測結果：根據所述視訊數據，獲取所述目標對象在手勢檢測周期內執行至少一個目標手勢的次數，得到所述手勢檢測周期的手勢檢測結果，其中，所述目標手勢包括托手、舉手以及舉大拇指中的一個或多個；根據至少一個所述手勢檢測周期的所述手勢檢測結果，得到所述目標對象在手勢檢測維度上的中間檢測結果。
根據請求項3所述的方法，其中，所述根據所述視訊數據，獲取所述目標對象在手勢檢測周期內執行至少一個目標手勢的次數，包括：獲取所述視訊數據在所述手勢檢測周期內的至少一個手勢檢測幀序列；在所述手勢檢測幀序列中，包含所述目標手勢的幀的數量超過第一閾值的情況下，將所述手勢檢測幀序列中的至少一幀記錄爲手勢開始幀；在位於所述手勢開始幀以後的手勢檢測幀序列中，不包含所述目標手勢的幀的數量超過第二閾值的情況下，將位於所述手勢開始幀以後的手勢檢測幀序列中的至少一幀記錄爲手勢結束幀；根據所述手勢開始幀以及所述手勢結束幀的數量，得到所述目標對象在手勢檢測周期內執行至少一個目標手勢的次數。
根據請求項2至4其中任意一項所述的方法，其中，所述至少一個檢測維度包括情緒檢測維度；根據以下步驟得到目標對象在所述情緒檢測維度上的中間檢測結果：根據所述視訊數據，獲取所述目標對象在情緒檢測周期內的表情檢測結果和/或微笑檢測結果，其中，所述表情檢測結果包括基於所述目標對象的表情所確定的情緒結果，所述微笑檢測結果包括所述目標對象的微笑强度；根據至少一個所述情緒檢測周期中所述目標對象的表情檢測結果和/或微笑檢測結果，得到所述目標對象在情緒檢測維度上的中間檢測結果。
根據請求項5所述的方法，其中，所述根據所述視訊數據，獲取所述目標對象在情緒檢測周期內的表情檢測結果，包括如下至少一項：在所述情緒檢測周期內，對所述目標對象進行表情檢測，確定所述目標對象展示至少一個目標表情的次數，得到所述表情檢測結果；其中，所述目標表情包括高興、平靜以及其他中的一個或多個；在所述情緒檢測周期內，根據所述視訊數據的至少一幀，對所述目標對象進行微笑檢測，得到與至少一幀對應的微笑檢測結果；根據所述與至少一幀對應的微笑檢測結果，確定所述目標對象在所述情緒檢測周期內的微笑檢測結果。
根據請求項3或4所述的方法，其中，所述至少一個檢測維度包括目光交流檢測維度；根據以下步驟得到所述目標對象在所述目光交流檢測維度上的中間檢測結果：根據所述視訊數據，對所述目標對象進行人臉角度檢測，確定所述目標對象的人臉角度在人臉角度閾值內的時間，作爲人臉角度檢測結果；根據所述視訊數據，對所述目標對象進行閉眼檢測，確定所述目標對象執行閉眼操作的時間，作爲閉眼檢測結果；根據所述人臉角度檢測結果與所述閉眼檢測結果，確定所述目標對象的人臉角度在人臉角度閾值內且未執行閉眼操作的時間長度；根據所述時間長度，得到所述目標對象在所述目光交流檢測維度上的中間檢測結果。
根據請求項2至4其中任意一項所述的方法，其中，所述多媒體數據包括音訊數據；所述根據所述多媒體數據，對所述目標對象在至少一個檢測維度上進行行爲狀態檢測，得到所述目標對象在至少一個檢測維度上的中間檢測結果，包括：對所述音訊數據按照語句進行切分，得到至少一個音訊子數據；對所述至少一個音訊子數據，進行流利度、語速、停頓以及音量中至少一個檢測維度上的行爲狀態檢測，得到所述目標對象在至少一個檢測維度上的中間檢測結果。
根據請求項1至4其中任意一項所述的方法，其中，所述對所述至少一個檢測維度上的中間檢測結果進行處理，得到所述目標對象的目標檢測結果，包括：按照所述檢測維度的預設權重，對至少一個檢測維度的所述中間檢測結果進行合併，得到所述目標對象的目標檢測結果。
根據請求項9所述的方法，其中，所述對所述至少一個檢測維度上的中間檢測結果進行處理，得到所述目標對象的目標檢測結果，包括：根據所述音訊子數據在所述音訊數據中的時間，從所述多媒體數據包括的視訊數據中確定與所述音訊子數據對應的視訊子數據；根據預設權重，對所述音訊子數據在至少一個檢測維度上的中間檢測結果，與對應的所述視訊子數據在至少一個檢測維度上的中間檢測結果進行合併，得到至少一個所述音訊子數據或所述視訊子數據的目標檢測結果；對至少一個所述音訊子數據或所述視訊子數據的目標檢測結果進行合併，得到所述目標對象的目標檢測結果。
根據請求項1至4其中任意一項所述的方法，其中，所述多媒體數據通過所述目標對象根據預設文本數據進行教學操作所獲得，其中，所述預設文本數據包括至少一個指令標記，所述指令標記用於劃分和/或標注所述預設文本數據的至少部分內容。
一種數據處理裝置，其中，包括：獲取模組，用於獲取目標對象的多媒體數據；檢測模組，用於根據所述多媒體數據，對所述目標對象在至少一個檢測維度上進行行爲狀態檢測，得到所述目標對象在至少一個檢測維度上的中間檢測結果；處理模組，用於對所述至少一個檢測維度上的中間檢測結果進行處理，得到所述目標對象的目標檢測結果，其中，所述目標檢測結果用於表示所述目標對象的行爲狀態。
一種電子設備，其中，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲調用所述記憶體儲存的指令，以執行請求項1至11其中任意一項所述的方法。
一種電腦可讀儲存介質，其上儲存有電腦程式指令，其中，所述電腦程式指令被處理器執行時實現請求項1至11其中任意一項所述的方法。