TW202205139A

TW202205139A - 目標檢測方法、電子設備和電腦可讀儲存介質

Info

Publication number: TW202205139A
Application number: TW110124619A
Authority: TW
Inventors: 鮑虎軍; 周曉巍; 孫佳明; 謝一鳴; 張思宇
Original assignee: 大陸商浙江商湯科技開發有限公司
Priority date: 2020-07-28
Filing date: 2021-07-05
Publication date: 2022-02-01
Also published as: TWI758205B; JP2022546201A; CN111881827A; CN111881827B; WO2022021872A1; KR20220027202A

Abstract

本發明關於一種目標檢測方法、電子設備和電腦可讀儲存介質，所述方法包括：對目標場景的第t幀點雲資料進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框，t為大於1的整數；根據所述第t幀點雲資料、所述第一候選框以及針對所述第t幀點雲資料中目標的預測候選框，確定所述第t幀點雲資料的第一檢測結果，所述第一檢測結果包括所述第t幀點雲資料中目標的第一檢測框，其中，所述預測候選框是根據所述第t幀點雲資料之前的t-1幀點雲資料的檢測結果預測得到的；如此，通過多幀點雲資料進行檢測框的預測，能夠提高目標檢測的精度。

Description

目標檢測方法、電子設備和電腦可讀儲存介質

本發明關於電腦技術領域，尤其關於一種目標檢測方法、電子設備和電腦可讀儲存介質。

目標檢測是電腦視覺中的一個非常重要的任務，能夠通過感測器的輸入資料，對視野範圍內的目標（例如人或物體）的位姿、尺度等資訊進行估計。在相關技術中，目標檢測方法通常將每一幀的輸入單獨進行處理，導致檢測精度較差。

本發明提出了一種目標檢測技術方案。

根據本發明的一方面，提供了一種目標檢測方法，包括：對目標場景的第t幀點雲資料進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框，t為大於1的整數；根據所述第t幀點雲資料、所述第一候選框以及針對所述第t幀點雲資料中目標的預測候選框，確定所述第t幀點雲資料的第一檢測結果，所述第一檢測結果包括所述第t幀點雲資料中目標的第一檢測框，其中，所述預測候選框是根據所述第t幀點雲資料之前的t-1幀點雲資料的檢測結果預測得到的。如此，通過多幀點雲資料進行檢測框的預測，能夠提高目標檢測的精度。

在一種可能的實現方式中，所述對目標場景的第t幀點雲資料進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框，包括：根據所述第t幀點雲資料中目標的預測概率圖，將所述第t幀點雲資料劃分為存在目標的第一區域、不存在目標的第二區域以及未確定是否存在目標的第三區域；對所述第一區域及所述第三區域進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框。如此，可以減少目標檢測所處理的點雲資料的資料量，能夠提高檢測速度。

在一種可能的實現方式中，所述方法還包括：獲取在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果；根據在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果，對所述第t幀點雲資料的第一檢測結果進行修正，確定所述第t幀點雲資料的第二檢測結果。如果，通過進一步修正第一檢測結果，能夠進一步提高第一檢測結果的準確度。

在一種可能的實現方式中，所述方法還包括：根據在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果，對所述第t幀點雲資料中目標的運動狀態進行預測，確定所述第t幀點雲資料中目標的預測候選框。如此，基於前面多幀點雲資料預測第t幀的點雲資料中目標的預測候選框，能夠提高預測的準確度。

在一種可能的實現方式中，所述方法還包括：根據所述第t幀點雲資料中目標的預測候選框，以及第t-1幀點雲數據，對所述第t-1幀點雲資料中目標的預測概率圖進行更新，確定所述第t幀點雲資料中目標的預測概率圖。如此，基於前面的多幀點雲資料對預測概率圖進行更新，能夠進一步預測目標出現的概率，以提高最終得到的預測概率圖的準確度。

在一種可能的實現方式中，所述對所述第一區域及所述第三區域進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框，包括：對所述第一區域及所述第三區域的點雲資料進行特徵提取，得到第一點雲特徵；對所述第一點雲特徵進行目標檢測，確定所述第t幀點雲資料中目標的第二候選框；根據各個第二候選框的置信度，從所述第二候選框中確定出預設數量的第一候選框。如此，將採樣後的點雲資料登錄特徵提取網路中處理，得到第一點雲特徵；能夠進一步提高檢測速度。

在一種可能的實現方式中，所述根據所述第t幀點雲資料、所述第一候選框以及針對所述第t幀點雲資料中目標的預測候選框，確定所述第t幀點雲資料的第一檢測結果，包括：對所述第t幀點雲資料中各個目標的預測候選框分別進行擴展，確定各個目標的第三候選框；對所述第三候選框與所述第一候選框分別進行匹配，確定與各個第一候選框對應的目標；根據所述第一候選框及與所述第一候選框所在區域對應的第一區域點雲資料，以及所述第三候選框及與所述第三候選框所在區域對應的第二區域點雲資料，對所述第t幀點雲資料中的各個目標分別進行候選框融合，得到所述第t幀點雲資料中各個目標的第一檢測框。如此，能夠提高與第一候選框匹配的概率，以提高檢測結果的穩定性。

在一種可能的實現方式中，所述對所述第三候選框與所述第一候選框分別進行匹配，確定與各個第一候選框對應的目標，包括：分別確定各個第三候選框與各個第一候選框之間的交並比；將與第一候選框的交並比大於或等於交並比閾值的第三候選框，確定為與第一候選框相匹配的第三候選框；將與第一候選框相匹配的第三候選框對應的目標，確定為與所述第一候選框對應的目標。如此，通過將交並比較大的候選框確定為匹配的候選框，從而能夠提高預測候選框的準確度。

在一種可能的實現方式中，每個第二檢測結果包括目標的第二檢測框，所述根據在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果，對所述第t幀點雲資料的第一檢測結果進行修正，確定所述第t幀點雲資料的第二檢測結果，包括：確定第一目標的檢測框集合，所述第一目標為所述第t幀點雲資料中的任意一個目標，所述第一目標的檢測框集合包括所述第一目標在t-1幀點雲資料的第二檢測結果中的第二檢測框，以及所述第一目標在第t幀點雲資料的第一檢測結果中的第一檢測框；對於所述第一目標的檢測框集合中任意一個檢測框，將所述檢測框集合中與所述檢測框之間的誤差小於或等於誤差閾值的檢測框，確定為所述檢測框的內點框；從所述第一目標的檢測框集合中確定出內點框數量最多的第三檢測框；對所述第三檢測框及所述第三檢測框的所有內點框進行融合，確定所述第t幀點雲資料中第一目標的第二檢測框。如此，能夠檢測出更為豐富的目標資訊。

在一種可能的實現方式中，所述方法還包括：根據所述t-1幀點雲資料的第二檢測結果，以及所述第t幀點雲資料的第二檢測結果，對第t+1幀點雲資料中目標的運動狀態進行預測，確定所述第t+1幀點雲資料中目標的預測候選框。如此，通過前一幀點雲資料的檢測結果，可實現對後一幀點雲資料中目標的運動狀態進行預測，進而實現對後一幀點雲資料中目標的檢測。

在一種可能的實現方式中，所述方法還包括：根據所述第t+1幀點雲資料中目標的預測候選框，以及第t幀點雲資料，對所述第t幀點雲資料中目標的預測概率圖進行更新，確定所述第t+1幀點雲資料中目標的預測概率圖。如此，通過得到第t+1幀點雲資料中目標的預測概率圖，以便在後續處理時為第t+1幀點雲資料劃分多個區域，從而提高目標檢測的速度。

在一種可能的實現方式中，所述對目標場景的第t幀點雲資料進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框，包括：對所述第t幀點雲資料進行特徵提取，得到第二點雲特徵；對所述第二點雲特徵進行目標檢測，確定所述第t幀點雲資料中目標的第四候選框；根據各個第四候選框的置信度，從所述第四候選框確定出預設數量的第一候選框。如此，可在未對第t幀點雲資料進行區域劃分的情況下，實現對第t幀點雲資料進行目標檢測。

在一種可能的實現方式中，所述第一檢測結果還包括所述第t幀點雲資料中目標的類別，所述根據所述第t幀點雲資料、所述第一候選框以及針對所述第t幀點雲資料中目標的預測候選框，確定所述第t幀點雲資料的第一檢測結果，包括：根據與第二目標的第一檢測框所在區域對應的第三區域點雲資料，對所述第二目標進行分類，確定所述第二目標的類別，所述第二目標為所述第t幀點雲資料中的任意一個目標。如此，對於第t幀點雲資料中的任意一個目標，能夠實現通過該第二目標的第一檢測框，從第t幀點雲資料中分割出第一檢測框所在區域對應的第三區域點雲資料；從而能夠以較高的準確度實現對第t幀點雲資料中任一目標的檢測。

在一種可能的實現方式中，所述目標場景包括室內場景，所述第t幀點雲資料中的目標包括物體，所述第t幀點雲資料中目標的第一檢測框包括三維區域框。

根據本發明的一方面，提供了一種目標檢測裝置，包括：第一檢測模組，配置為對目標場景的第t幀點雲資料進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框，t為大於1的整數；第二檢測模組，配置為根據所述第t幀點雲資料、所述第一候選框以及針對所述第t幀點雲資料中目標的預測候選框，確定所述第t幀點雲資料的第一檢測結果，所述第一檢測結果包括所述第t幀點雲資料中目標的第一檢測框；其中，所述預測候選框是根據所述第t幀點雲資料之前的t-1幀點雲資料的檢測結果預測得到的。

在一種可能的實現方式中，所述第一檢測模組包括：區域劃分子模組，配置為根據所述第t幀點雲資料中目標的預測概率圖，將所述第t幀點雲資料劃分為存在目標的第一區域、不存在目標的第二區域以及未確定是否存在目標的第三區域；第一檢測子模組，配置為對所述第一區域及所述第三區域進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框。

在一種可能的實現方式中，所述裝置還包括：修正模組，配置為獲取在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果；並根據在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果，對所述第t幀點雲資料的第一檢測結果進行修正，確定所述第t幀點雲資料的第二檢測結果。

在一種可能的實現方式中，所述裝置還包括：第一運動預測模組，配置為根據在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果，對所述第t幀點雲資料中目標的運動狀態進行預測，確定所述第t幀點雲資料中目標的預測候選框。

在一種可能的實現方式中，所述裝置還包括：第一概率圖更新模組，配置為根據所述第t幀點雲資料中目標的預測候選框，以及第t-1幀點雲數據，對所述第t-1幀點雲資料中目標的預測概率圖進行更新，確定所述第t幀點雲資料中目標的預測概率圖。

在一種可能的實現方式中，所述第一檢測子模組，配置為：對所述第一區域及所述第三區域的點雲資料進行特徵提取，得到第一點雲特徵；對所述第一點雲特徵進行目標檢測，確定所述第t幀點雲資料中目標的第二候選框；根據各個第二候選框的置信度，從所述第二候選框中確定出預設數量的第一候選框。

在一種可能的實現方式中，所述第二檢測模組包括：候選框擴展子模組，配置為對所述第t幀點雲資料中各個目標的預測候選框分別進行擴展，確定各個目標的第三候選框；候選框匹配子模組，配置為對所述第三候選框與所述第一候選框分別進行匹配，確定與各個第一候選框對應的目標；候選框融合子模組，配置為根據所述第一候選框及與所述第一候選框所在區域對應的第一區域點雲資料，以及所述第三候選框及與所述第三候選框所在區域對應的第二區域點雲資料，對所述第t幀點雲資料中的各個目標分別進行候選框融合，得到所述第t幀點雲資料中各個目標的第一檢測框。

在一種可能的實現方式中，所述候選框匹配子模組，配置為：分別確定各個第三候選框與各個第一候選框之間的交並比；將與第一候選框的交並比大於或等於交並比閾值的第三候選框，確定為與第一候選框相匹配的第三候選框；將與第一候選框相匹配的第三候選框對應的目標，確定為與所述第一候選框對應的目標。

在一種可能的實現方式中，每個第二檢測結果包括目標的第二檢測框，所述修正模組包括：集合確定子模組，配置為確定第一目標的檢測框集合，所述第一目標為所述第t幀點雲資料中的任意一個目標，所述第一目標的檢測框集合包括所述第一目標在t-1幀點雲資料的第二檢測結果中的第二檢測框，以及所述第一目標在第t幀點雲資料的第一檢測結果中的第一檢測框；內點框確定子模組，配置為對於所述第一目標的檢測框集合中任意一個檢測框，將所述檢測框集合中與所述檢測框之間的誤差小於或等於誤差閾值的檢測框，確定為所述檢測框的內點框；檢測框選擇子模組，配置為從所述第一目標的檢測框集合中確定出內點框數量最多的第三檢測框；內點框融合子模組，配置為對所述第三檢測框及所述第三檢測框的所有內點框進行融合，確定所述第t幀點雲資料中第一目標的第二檢測框。

在一種可能的實現方式中，所述裝置還包括：第二運動預測模組，配置為根據所述t-1幀點雲資料的第二檢測結果，以及所述第t幀點雲資料的第二檢測結果，對第t+1幀點雲資料中目標的運動狀態進行預測，確定所述第t+1幀點雲資料中目標的預測候選框。

在一種可能的實現方式中，所述裝置還包括：第二概率圖更新模組，配置為根據所述第t+1幀點雲資料中目標的預測候選框，以及第t幀點雲資料，對所述第t幀點雲資料中目標的預測概率圖進行更新，確定所述第t+1幀點雲資料中目標的預測概率圖。

在一種可能的實現方式中，所述第一檢測模組包括：特徵提取子模組，配置為對所述第t幀點雲資料進行特徵提取，得到第二點雲特徵；第二檢測子模組，配置為對所述第二點雲特徵進行目標檢測，確定所述第t幀點雲資料中目標的第四候選框；選擇子模組，配置為根據各個第四候選框的置信度，從所述第四候選框確定出預設數量的第一候選框。

在一種可能的實現方式中，所述第一檢測結果還包括所述第t幀點雲資料中目標的類別，所述第二檢測模組包括：分類子模組，配置為根據與第二目標的第一檢測框所在區域對應的第三區域點雲資料，對所述第二目標進行分類，確定所述第二目標的類別，所述第二目標為所述第t幀點雲資料中的任意一個目標。

根據本發明的一方面，提供了一種電子設備，包括：處理器；配置為儲存處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體儲存的指令，以執行上述方法。

根據本發明的一方面，提供了一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。

根據本發明的實施例，能夠檢測出第t幀點雲資料中目標的第一候選框；通過歷史檢測結果預測得到的預測候選框對第一候選框進行修正，得到第t幀點雲資料的檢測結果，從而提高目標檢測的精度。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本發明。根據下面參考附圖對示例性實施例的詳細說明，本發明的其它特徵及方面將變得清楚。

以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製附圖。

在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯物件的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，為了更好地說明本發明，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本發明同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本發明的主旨。

圖1A示出根據本發明實施例的目標檢測方法的流程圖，如圖1A所示，所述目標檢測方法包括：在步驟S11中，對目標場景的第t幀點雲資料進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框；在本發明實施例中，t為大於1的整數。在步驟S12中，根據所述第t幀點雲資料、所述第一候選框以及針對所述第t幀點雲資料中目標的預測候選框，確定所述第t幀點雲資料的第一檢測結果，所述第一檢測結果包括所述第t幀點雲資料中目標的第一檢測框；其中，所述預測候選框是根據所述第t幀點雲資料之前的t-1幀點雲資料的檢測結果預測得到的。

在一種可能的實現方式中，所述目標檢測方法可以由終端設備或伺服器等電子設備執行，終端設備可以為用戶設備（User Equipment，UE）、移動設備、用戶終端、終端、蜂窩電話、無線電話、個人數位助理（Personal Digital Assistant，PDA）、手持設備、計算設備、車載設備、可穿戴設備等，所述方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。或者，可通過伺服器執行所述方法。

舉例來說，目標場景可包括商場、醫院、展館等室內場景，也可包括交通樞紐、城市街道等室外場景。目標場景中可能包括各種類別的目標，例如物體、標誌、建築、行人、車輛等。本發明對目標場景的類型及目標的類別不作限制。

在一種可能的實現方式中，在對目標場景中的目標進行檢測時，可通過傳感設備採集目標場景的傳感資料，以便對傳感資料中的目標進行分析。在進行三維目標檢測的情況下，傳感設備可例如包括雷射雷達、紅綠藍深度（Red Green Blue-Depth，RGB-D）採集設備等，採集到的傳感資料可包括點雲資料、RGB-D圖像資料等。本發明對傳感設備的類型及採集到的傳感資料的具體類型不作限制。

在一種可能的實現方式中，可連續採集到目標場景的多幀傳感資料，通過電子設備依次對各幀傳感資料進行目標檢測。其中，如果傳感資料為點雲資料，則可直接進行處理；如果傳感資料為RGB-D圖像資料，則可將RGB-D圖像資料進行反投影轉換，得到點雲資料後進行處理。

在一種可能的實現方式中，對於多幀點雲資料中的第1幀，可在步驟S11中直接對第1幀點雲資料進行目標檢測，得到第1幀點雲資料中目標的第一候選框；並在步驟S12中直接對第一候選框進行融合，得到第1幀點雲資料的目標的第一檢測框。

在一種可能的實現方式中，對於多幀點雲資料中的第t幀（t為大於1的整數），可在步驟S11中對第t幀點雲資料進行目標檢測，確定第t幀點雲資料中目標的第一候選框。第一候選框的資訊可包括第一候選框的中心點三維座標（x₀ , y₀ , z₀ ）、長度、寬度、高度及旋轉角度等資訊。

在一種可能的實現方式中，可通過預訓練的目標檢測網路實現目標檢測的過程，該目標檢測網路可例如包括卷積神經網路（Convolutional Neural Networks，CNN）及區域生成網路（Region Proposal Network，RPN），本發明對目標檢測網路的具體網路結構不作限制。

在一種可能的實現方式中，在步驟S11和S12之前，在得到第t-1幀點雲資料的檢測結果後，可根據第t幀點雲資料之前的t-1幀點雲資料的檢測結果，對前t-1幀點雲資料中已經檢測到的目標，在第t幀點雲資料中的位置進行預測，得到這些目標在第t幀點雲資料中的預測候選框。

在一種可能的實現方式中，在步驟S12中，根據第t幀點雲資料的第一候選框和預測候選框，可確定出各第一候選框所對應的目標。例如根據各第一候選框與各預測候選框的交並比，對第一候選框和預測候選框進行匹配；對於存在匹配的預測候選框的第一候選框，將相匹配的預測候選框所對應的目標，確定為該第一候選框所對應的目標；對於不存在匹配的預測候選框的第一候選框，確定該第一候選框對應新的目標。

在一種可能的實現方式中，對於任意目標，可根據該目標的第一候選框及第一候選框對應的區域點雲資料，與該目標的預測候選框及預測候選框對應的區域點雲資料，進行候選框融合處理，從而確定出目標的實際檢測框（可稱為第一檢測框）。

在一種可能的實現方式中，可通過預訓練的融合網路實現候選框融合，也即將目標的第一候選框及第一候選框對應的區域點雲資料，與該目標的預測候選框及預測候選框對應的區域點雲資料，輸入融合網路中處理，輸出目標的第一檢測框。該融合網路可例如包括區域卷積神經網路（Region Convolutional Neural Networks，RCNN），本發明對融合網路的具體網路結構不作限制。

在一種可能的實現方式中，在對第t幀點雲資料中的所有目標進行處理後，可得到第t幀點雲資料的第一檢測結果，該第一檢測結果包括第t幀點雲資料中各目標的第一檢測框。

在一種可能的實現方式中，步驟S11可包括：根據所述第t幀點雲資料中目標的預測概率圖，將所述第t幀點雲資料劃分為存在目標的第一區域、不存在目標的第二區域以及未確定是否存在目標的第三區域；對所述第t幀點雲資料的第一區域及第三區域進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框。

舉例來說，在得到第t-1幀點雲資料的檢測結果後，可根據前t-1幀點雲資料的檢測結果，預測得到針對第t幀點雲資料中目標的預測候選框。根據該預測候選框，可預測第t幀點雲資料的各個位置出現目標的概率，得到第t幀點雲資料中目標的預測概率圖。

在一種可能的實現方式中，可預先設置有第一概率閾值和第二概率閾值，第二概率閾值小於第一概率閾值。對於點雲資料中的任意位置，如果該位置出現目標的概率大於第一概率閾值，則可認為該位置存在目標；如果該位置出現目標的概率小於第二概率閾值，則可認為該位置不存在目標；如果該位置出現目標的概率處於第一概率閾值與第二概率閾值之間，則不確定該位置是否存在目標，例如未檢測過的位置，或檢測過但仍未確定是否存在目標的位置。本發明對第一概率閾值和第二概率閾值的具體取值不作限制。

在一種可能的實現方式中，根據第t幀點雲資料中目標的預測概率圖，可基於第一概率閾值和第二概率閾值，將第t幀點雲資料劃分為存在目標的第一區域、不存在目標的第二區域以及未確定是否存在目標的第三區域。

經劃分後，第二區域中不存在目標，可不對第二區域的點雲資料進行目標檢測。也即，對所述第t幀點雲資料的第一區域及第三區域進行目標檢測，確定第t幀點雲資料中目標的第一候選框。

通過這種方式，可以減少目標檢測所處理的點雲資料的資料量，提高檢測速度。

在一種可能的實現方式中，對所述第t幀點雲資料的第一區域及第三區域進行目標檢測，確定第t幀點雲資料中目標的第一候選框的步驟，可包括：對所述第一區域及所述第三區域的點雲資料進行特徵提取，得到第一點雲特徵；對所述第一點雲特徵進行目標檢測，確定所述第t幀點雲資料中目標的第二候選框；根據各個第二候選框的置信度，從所述第二候選框中確定出預設數量的第一候選框。

舉例來說，可將第一區域及第三區域的點雲資料登錄目標檢測網路的特徵提取網路進行特徵提取，得到點雲資料的第一點雲特徵。該特徵提取網路例如包括多個卷積層，本發明對特徵提取網路的結構不作限制。

在一種可能的實現方式中，在特徵提取之前，還可對第一區域及第三區域的點雲資料進行採樣，以減少處理的資料量。例如，通過隨機採樣，將具有N個點的點雲資料採樣為具有N/4個點的點雲資料。將採樣後的點雲資料登錄特徵提取網路中處理，得到第一點雲特徵。通過這種方式，可以進一步提高檢測速度。

在一種可能的實現方式中，可將第一點雲特徵輸入目標檢測網路的區域生成網路RPN進行處理，得到第t幀點雲資料中目標的第二候選框。

在一種可能的實現方式中，第二候選框的數量較大，可進一步進行處理。根據各個第二候選框的置信度，可例如通過非最大抑制（Non-maximum suppression，NMS）方式，從第二候選框中確定出預設數量的第一候選框。該預設數量可例如取值為50個，本發明對此不作限制。

通過這種方式，可以點雲資料中初步估計出目標對應的候選框，以便進行後續的處理。

在一種可能的實現方式中，步驟S11可包括：對所述第t幀點雲資料進行特徵提取，得到第二點雲特徵；對所述第二點雲特徵進行目標檢測，確定所述第t幀點雲資料中目標的第四候選框；根據各個第四候選框的置信度，從所述第四候選框確定出預設數量的第一候選框。

舉例來說，在未對第t幀點雲資料劃分區域的情況下，可直接對第t幀點雲資料進行目標檢測。將第t幀點雲資料登錄目標檢測網路的特徵提取網路進行特徵提取，可得到第t幀點雲資料的第二點雲特徵。該特徵提取網路例如包括多個卷積層，本發明對特徵提取網路的結構不作限制。

在一種可能的實現方式中，在特徵提取之前，還可對第t幀點雲資料進行採樣，以減少處理的資料量。例如，通過隨機採樣，將具有M個點的點雲資料採樣為具有M/4個點的點雲資料。將採樣後的點雲資料登錄特徵提取網路中處理，得到第二點雲特徵。通過這種方式，可以進一步提高檢測速度。

在一種可能的實現方式中，可將第二點雲特徵輸入目標檢測網路的區域生成網路RPN進行處理，得到第t幀點雲資料中目標的第四候選框。

在一種可能的實現方式中，第四候選框的數量較大，可進一步進行處理。根據各個第四候選框的置信度，可例如通過非最大抑制（Non-maximum suppression，NMS）方式，從第四候選框中確定出預設數量的第一候選框。該預設數量可例如取值為50個，本發明對此不作限制。

在一種可能的實現方式中，步驟S12可包括：對所述第t幀點雲資料中各個目標的預測候選框分別進行擴展，確定各個目標的第三候選框；對所述第三候選框與所述第一候選框分別進行匹配，確定與各個第一候選框對應的目標；根據所述第一候選框及與所述第一候選框所在區域對應的第一區域點雲資料，以及所述第三候選框及與所述第三候選框所在區域對應的第二區域點雲資料，對所述第t幀點雲資料中的各個目標分別進行候選框融合，得到所述第t幀點雲資料中各個目標的第一檢測框。

舉例來說，在對第t幀點雲資料進行預測時，為第t幀點雲資料的第一區域中的目標均預測出一個預測候選框，也即第一區域中的每個目標對應一個預測候選框。在步驟S12的處理中，可先對各個目標的預測候選框分別進行擴展，以便增加候選框的數量。

在一種可能的實現方式中，根據目標在第t幀點雲資料中的預測候選框，可確定目標的位姿和尺度；根據目標的位姿和尺度的概率分佈，可以以一定的方差和均值進行採樣，擴展得到該目標的多個第三候選框。這樣，可減小預測候選框的誤差對後續處理的影響，提高與第一候選框匹配的概率，從而提高檢測結果的穩定性，提高檢測精度。

在一種可能的實現方式中，可對第三候選框與第一候選框分別進行匹配，確定與各個第一候選框對應的目標。其中，該步驟可包括：分別確定各個第三候選框與各個第一候選框之間的交並比；將與第一候選框的交並比大於或等於交並比閾值的第三候選框，確定為與第一候選框相匹配的第三候選框；將與第一候選框相匹配的第三候選框對應的目標，確定為與所述第一候選框對應的目標。

也就是說，可通過交並比對第三候選框與第一候選框進行匹配。可分別確定各個第三候選框與各個第一候選框之間的交並比（Intersection-over-Union，IoU）。可預設有交並比閾值（例如0.5），對於任意一個第一候選框，如果存在與該第一候選框之間的交並比大於或等於交並比閾值的第三候選框，則將該第三候選框確定為與該第一候選框相匹配的候選框；並將與該第三候選框對應的目標，確定為與該第一候選框對應的目標。將與該第三候選框對應的目標的標識（Identity Document，ID），賦予該第一候選框，也即，認為相匹配的兩個候選框對應於同一目標。

在一種可能的實現方式中，對於任意一個第一候選框，如果不存在與該第一候選框之間的交並比大於或等於交並比閾值的第三候選框，則可認為與第一候選框對應的目標為之前未出現過的新目標。在該情況下，可為與第一候選框對應的目標賦予新的ID。

通過這種方式，可以確定各個第一候選框的對應目標的標識，以便對相同標識的目標的候選框進行融合。

在一種可能的實現方式中，根據所述第一候選框及與所述第一候選框所在區域對應的第一區域點雲資料，以及所述第三候選框及與所述第三候選框所在區域對應的第二區域點雲資料，對所述第t幀點雲資料中的各個目標分別進行候選框融合，得到所述第t幀點雲資料中各個目標的第一檢測框。

在一種可能的實現方式中，對於第t幀點雲資料中的任意一個目標，如果該目標存在第一候選框和第三候選框，則可從第t幀點雲資料中分割出與該目標的第一候選框所在區域對應的第一區域點雲資料，並分割出與該目標的第三候選框所在區域對應的第二區域點雲資料。將該目標的第一候選框及第一區域點雲資料，第三候選框及第二區域點雲資料，輸入到預訓練的融合網路中處理，輸出該目標的第一檢測框。該第一檢測框包括三維的區域框。

在一種可能的實現方式中，對於第t幀點雲資料中的任意一個目標，如果該目標僅存在第一候選框，則可從第t幀點雲資料中分割出與該目標的第一候選框所在區域對應的第一區域點雲資料。將該目標的第一候選框及第一區域點雲資料，輸入到預訓練的融合網路中處理，輸出該目標的第一檢測框。

在一種可能的實現方式中，對第t幀點雲資料中的所有目標進行上述處理，可得到第t幀點雲資料中所有目標的第一檢測框。

在一種可能的實現方式中，可將第t幀點雲資料中所有目標的第一檢測框作為第t幀點雲資料的檢測結果（可稱為第一檢測結果）；也可進行其他處理（例如對目標進行分類），以使第t幀點雲資料的檢測結果包括更多的內容。本發明對此不作限制。

通過這種方式，可確定第t幀點雲資料中所有目標的第一檢測框，實現第t幀點雲資料中目標的精確檢測。

在一種可能的實現方式中，所述第一檢測結果還包括所述第t幀點雲資料中目標的類別，步驟S12包括：根據與第二目標的第一檢測框所在區域對應的第三區域點雲資料，對所述第二目標進行分類，確定所述第二目標的類別，所述第二目標為所述第t幀點雲資料中的任意一個目標。

舉例來說，可以在步驟S12中對第t幀點雲資料中的目標進行分類。對於第t幀點雲資料中的任意一個目標（可稱為第二目標），可根據該第二目標的第一檢測框，從第t幀點雲資料中分割出於第一檢測框所在區域對應的第三區域點雲資料。

在一種可能的實現方式中，可將該第三區域點雲資料登錄預訓練的分類網路中處理，確定出第二目標所屬的類別。該分類網路可例如包括卷積層、全連接層等，本發明對分類網路的具體網路結構不作限制。

在一種可能的實現方式中，對第t幀點雲資料中的所有目標進行上述處理，可得到第t幀點雲資料中所有目標的類別，從而將目標的類別加入第t幀點雲資料的第一檢測結果。

通過這種方式，可以檢測出的目標資訊更為豐富。

在步驟S12中得到第t幀點雲資料的第一檢測結果後，還可以將該第一檢測結果與之前的歷史檢測結果相結合，進一步優化第t幀點雲資料的檢測結果。

在一種可能的實現方式中，根據本發明實施例的目標檢測方法還可包括：首先，獲取在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果；然後，根據在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果，對所述第t幀點雲資料的第一檢測結果進行修正，確定所述第t幀點雲資料的第二檢測結果。

也就是說，前t-1幀點雲資料已經在之前的處理中得到了最終檢測結果（可稱為第二檢測結果），每個第二檢測結果包括目標的第二檢測框，第t幀點雲資料中的目標可能在t-1幀點雲資料的第二檢測結果中存在對應的第二檢測框。

在一種可能的實現方式中，對於第t幀點雲資料中的任意一個目標，如果在前t-1幀點雲資料的第二檢測結果中存在該目標的第二檢測框，則可根據該目標在前t-1幀點雲資料中的第二檢測框，對該目標在第t幀點雲資料中的第一檢測框進行修正，得到修正後的檢測框，稱為第二檢測框。

在一種可能的實現方式中，如果在前t-1幀點雲資料的第二檢測結果中不存在該目標的第二檢測框，則可將該目標在第t幀點雲資料中的第一檢測框直接作為第二檢測框。

在一種可能的實現方式中，對第t幀點雲資料中的所有目標進行上述處理，可得到第t幀點雲資料中所有目標的第二檢測框，從而得到第t幀點雲資料的第二檢測結果。

通過這種方式，可以進一步提升目標檢測的精度。

在一種可能的實現方式中，所述根據在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果，對所述第t幀點雲資料的第一檢測結果進行修正，確定所述第t幀點雲資料的第二檢測結果的步驟，可包括：確定第一目標的檢測框集合，所述第一目標為所述第t幀點雲資料中的任意一個目標，所述第一目標的檢測框集合包括所述第一目標在t-1幀點雲資料的第二檢測結果中的第二檢測框，以及所述第一目標在第t幀點雲資料的第一檢測結果中的第一檢測框；對於所述第一目標的檢測框集合中任意一個檢測框，將所述檢測框集合中與所述檢測框之間的誤差小於或等於誤差閾值的檢測框，確定為所述檢測框的內點框；從所述第一目標的檢測框集合中確定出內點框數量最多的第三檢測框；對所述第三檢測框及所述第三檢測框的所有內點框進行融合，確定所述第t幀點雲資料中第一目標的第二檢測框。

舉例來說，對於第t幀點雲資料中的任意一個目標（稱為第一目標），可獲取該第一目標的檢測框集合。該檢測框集合中包括第一目標在t-1幀點雲資料的第二檢測結果中的第二檢測框，以及第一目標在第t幀點雲資料的第一檢測結果中的第一檢測框。

在一種可能的實現方式中，對於第一目標的檢測框集合中任意一個檢測框，可確定檢測框集合中的其他檢測框與該檢測框之間的誤差。可預設有誤差閾值，與該檢測框之間的誤差小於或等於該誤差閾值的檢測框，可確定為該檢測框的內點框；反之，與該檢測框之間的誤差大於該誤差閾值的檢測框，可確定為該檢測框的外點框。本發明對誤差閾值的具體取值不作限制。

在一種可能的實現方式中，可從第一目標的檢測框集合中確定出內點框數量最多的第三檢測框，將該第三檢測框作為初始估計的檢測框。對第三檢測框及第三檢測框的所有內點框進行融合優化，可得到第一目標的位置資訊的最優估計，也即得到修正後的第二檢測框。

在一種可能的實現方式中，可通過最小二乘的方式對第三檢測框及第三檢測框的所有內點框進行對融合優化，也可通過卡爾曼濾波的方式對第三檢測框及第三檢測框的所有內點框進行對融合優化，本發明對融合優化的具體方式不作限制。

通過這種方式，可以將檢測結果與之前的歷史檢測結果相結合，進一步優化第t幀點雲資料的檢測結果，提高目標檢測的精度。

在一種可能的實現方式中，所述方法還包括：根據所述t-1幀點雲資料的第二檢測結果，以及所述第t幀點雲資料的第二檢測結果，對第t+1幀點雲資料中目標的運動狀態進行預測，確定所述第t+1幀點雲資料中目標的預測候選框。

舉例來說，在得到第t幀點雲資料的第二檢測結果後，可根據歷史檢測結果對第t+1幀點雲資料進行預測，説明第t+1幀點雲資料的目標檢測。

在一種可能的實現方式中，對於第t幀點雲資料中的任意一個目標（可稱為第三目標），可獲取該第三目標在t幀點雲資料的第二檢測結果中的第二檢測框。如果該第三目標存在多個第二檢測框，則可根據相鄰幀的各個第二檢測框之間的誤差，對第t+1幀點雲資料中目標的運動狀態進行預測，預測出該第三目標在第t+1幀點雲資料中的位置，得到該第三目標在第t+1幀點雲資料中的預測候選框。

在一種可能的實現方式中，可通過卡爾曼濾波或最小二乘的方式實現運動狀態的預測，本發明對此不作限制。

在一種可能的實現方式中，如果該第三目標僅存在一個第二檢測框，也即第三目標為第t幀點雲資料中新出現的目標，則可根據該第三目標附近的其他目標進行預測，通過其他目標在第t幀點雲資料中的第二檢測框及在第t+1幀點雲資料中的預測候選框之間的誤差，來預測得到該第三目標在第t+1幀點雲資料中的預測候選框。

這樣，對第t幀點雲資料中的所有目標進行預測，可確定出第t+1幀點雲資料的已檢測區域中所有目標的預測候選框。

通過這種方式，可以得到第t+1幀點雲資料中目標的預測候選框，幫助第t+1幀點雲資料的目標檢測，從而提高檢測精度。

在一種可能的實現方式中，所述方法還包括：根據所述第t+1幀點雲資料中目標的預測候選框以及第t幀點雲資料，對所述第t幀點雲資料中目標的預測概率圖進行更新，確定所述第t+1幀點雲資料中目標的預測概率圖。

舉例來說，在得到第t+1幀點雲資料中目標的預測候選框後，可根據該預測候選框以及第t幀點雲資料，對第t幀點雲資料中目標的預測概率圖進行更新。也即，根據目標在第t幀點雲資料中的位置和第t+1幀點雲資料中的位置（預測候選框），確定預測概率圖中的各個位置是否存在目標，更新各個位置可能出現目標的概率，從而得到第t+1幀點雲資料中目標的預測概率圖。

通過這種方式，可得到第t+1幀點雲資料中目標的預測概率圖，以便在後續處理時為第t+1幀點雲資料劃分多個區域，從而提高目標檢測的速度。

在一種可能的實現方式中，所述方法還包括：根據在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果，對所述第t幀點雲資料中目標的運動狀態進行預測，確定所述第t幀點雲資料中目標的預測候選框。

也就是說，在得到第t-1幀點雲資料的第二檢測結果後，可根據歷史檢測結果對第t幀點雲資料進行預測，説明第t幀點雲資料的目標檢測。對於第t-1幀點雲資料中的任意一個目標，可獲取該目標在前t-1幀點雲資料的第二檢測結果中的第二檢測框，對第t幀點雲資料中目標的運動狀態進行預測，預測出該目標在第t幀點雲資料中的位置，得到該目標在第t幀點雲資料中的預測候選框。該預測過程與對第t+1幀點雲資料的預測過程類似，此處不再重複描述。

通過這種方式，可以得到第t幀點雲資料中目標的預測候選框，幫助第t幀點雲資料的目標檢測，從而提高檢測精度。

在一種可能的實現方式中，所述方法還包括：根據第t幀點雲資料中目標的預測候選框，以及第t-1幀點雲數據，對所述第t-1幀點雲資料中目標的預測概率圖進行更新，確定所述第t幀點雲資料中目標的預測概率圖。

也就是說，在得到第t幀點雲資料中目標的預測候選框後，可根據該預測候選框以及第t-1幀點雲資料，對第t-1幀點雲資料中目標的預測概率圖進行更新，得到第t幀點雲資料中目標的預測概率圖。該更新過程與對第t+1幀點雲資料的預測概率圖的更新過程類似，此處不再重複描述。

通過這種方式，可得到第t幀點雲資料中目標的預測概率圖，以便在後續處理時為第t幀點雲資料劃分多個區域，從而提高目標檢測的速度。

在本發明實施例中，可以通過如圖1B所示的網路架構，實現對待重建物件的三維重建，圖1B示出本發明實施例目標檢測方法的一種網路架構示意圖，該網路架構中包括：用戶終端201、網路202和目標檢測終端203。為實現支撐一個示例性應用用戶終端201和目標檢測203通過網路202建立有通信連接，用戶終端201需要對包括待檢測目標的目標場景的第t幀點雲資料進行目標檢測時，首先，將目標場景的第t幀點雲資料通過網路202發送至目標檢測終端203；然後，目標檢測終端203通過對該目標的檢測框進行預測，得到第一候選框；最後，目標檢測終端203通過該第一候選框，實現對第t幀點雲資料中目標進行檢測，得到該目標的檢測結果。如此，通過多幀點雲資料進行檢測框的預測，能夠提高目標檢測的精度。

圖2示出根據本發明實施例的目標檢測方法的處理過程的示意圖。如圖2所示，可將對當前幀進行目標檢測處理的過程稱為前端；將記錄有歷史結果，並根據歷史結果對當前幀進行修正、對下一幀進行預測的過程稱為後端，後端的處理也可稱為目標追蹤與融合。其中，當前幀為第t幀。

在示例中，之前的第t-1幀的前端處理中得到了第t-1幀點雲資料的第一檢測結果（未示出）；將該第一檢測結果與前t-2幀的歷史檢測結果關聯，在第t-1幀後端的步驟211中通過卡爾曼濾波或最小二乘的方式進行檢測框的融合優化，實現檢測結果的修正，得到第t-1幀點雲資料的第二檢測結果（未示出）。

在示例中，在第t-1幀的後端處理中，可根據前t-1幀的歷史檢測結果，對第t幀中的目標進行運動預測212，得到第t幀點雲資料中目標的預測候選框213；再根據預測候選框213及第t-1幀點雲資料（未示出），在步驟214中對第t-1幀的預測概率圖進行更新，得到第t幀點雲資料中目標的預測概率圖215，從而完成了第t-1幀的整個處理過程。

在示例中，在第t幀的前端處理中，可根據預測概率圖215，將所第t幀點雲資料221劃分為存在目標的第一區域、不存在目標的第二區域以及未確定是否存在目標的第三區域，得到劃分區域後的點雲資料222。將點雲資料222的第一區域及第三區域輸入到目標檢測網路223中進行目標檢測，可得到預設數量的第一候選框。將第t幀點雲資料中目標的預測候選框213與第一候選框進行匹配，確定各個第一候選框所對應的目標標識，得到待處理的所有候選框224（每個目標對應多個框）。將目標的所有候選框224及候選框224對應的區域點雲資料，輸入到融合網路225中處理，得到目標的第一檢測框（每個目標對應一個框），作為第t幀點雲資料的第一檢測結果226。並可在步驟227中將第一檢測結果226與前t-1幀的歷史檢測結果關聯。

在示例中，在第t幀的後端處理中，可在步驟231中，通過卡爾曼濾波或最小二乘的方式進行檢測框的融合優化，實現檢測結果的修正，得到第t幀點雲資料中各目標的第二檢測框，作為第t幀點雲資料的第二檢測結果230，也即最終的輸出結果。

在示例中，在第t幀的後端處理中，可根據前t幀的第二檢測結果，對第t+1幀中的目標進行運動預測232，得到第t+1幀點雲資料中目標的預測候選框233；再根據預測候選框233及第t幀點雲資料221，在步驟234中對第t幀的預測概率圖215進行更新，得到第t+1幀點雲資料中目標的預測概率圖235，從而完成了第t幀的整個處理過程。

圖3a示出目標場景的圖像的示意圖；圖3b示出目標的檢測結果的示意圖。如圖3a所示，目標場景中包括多個椅子，椅子可作為待檢測的目標。如圖3b所示，檢測框31為根據相關技術的單幀處理的目標檢測方法得到的檢測結果；檢測框32為目標的真實三維圖像框；檢測框33為根據本發明實施例的目標檢測方法得到的檢測結果。

可見，本發明實施例的目標檢測方法得到的檢測結果的精度較高。在目標被部分遮擋的情況下，相關技術的檢測結果明顯變差，而本發明實施例的目標檢測方法仍然能夠保持較高的精度。

根據本發明的實施例的目標檢測方法，在對目標場景的連續多幀點雲資料進行三維目標檢測的情況下，能夠有效利用歷史檢測結果進行三維目標的檢測與追蹤；能夠通過歷史檢測結果預測當前幀中目標的候選框，和當前幀中已知區域可能出現3D物體的概率的分佈圖，並回饋到當前幀的目標檢測過程中；能夠使得當前幀在目標檢測時，利用預測的概率分佈圖劃分區域，從而減少處理的資料量，提高目標檢測的速度；並利用預測的候選框作為先驗框，不但避免每一幀對整個場景進行目標搜索，還根據先驗框得到更準確的候選框，有效提高了目標檢測的精度，並避免漏檢情況的發生。

根據本發明的實施例的目標檢測方法，能夠進行目標的追蹤與融合，將每個3D目標在連續時間上所有的檢測框都儲存為該3D物體的歷史檢測框，在每一幀都分別對每一個3D目標的所有歷史檢測框進行融合與優化，以獲取當前幀的3D目標的位置的最優估計，從而有效提升3D檢測框的穩定性，減小目標被遮擋或截斷時的檢測誤差，顯著提高目標檢測的精度和魯棒性。

根據本發明的實施例的目標檢測方法，能夠應用於增強現實AR、室內導航等應用場景中，實現3D目標的估計與檢測。相關技術的處理方式沒有考慮同一物體在連續幀內位置資訊的關係，沒有利用到連續時間上的資訊，容易造成3D檢測框的抖動。例如在室內場景下，由於物體尺度更大，檢測框抖動的現象也會更加嚴重。而根據本發明的實施例的目標檢測方法，通過利用連續幀內位置資訊的關係及連續時間上的資訊，能夠輸出更為穩定的3D檢測框，減小檢測誤差。

可以理解，本發明提及的上述各個方法實施例，在不違背原理邏輯的情況下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本發明不再贅述。本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

此外，本發明還提供了目標檢測裝置、電子設備、電腦可讀儲存介質、程式，上述均可用來實現本發明提供的任一種目標檢測方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

圖4示出根據本發明實施例的目標檢測裝置的方塊圖，如圖4所示，所述裝置包括：第一檢測模組61，配置為對目標場景的第t幀點雲資料進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框，t為大於1的整數；第二檢測模組62，配置為根據所述第t幀點雲資料、所述第一候選框以及針對所述第t幀點雲資料中目標的預測候選框，確定所述第t幀點雲資料的第一檢測結果，所述第一檢測結果包括所述第t幀點雲資料中目標的第一檢測框，其中，所述預測候選框是根據所述第t幀點雲資料之前的t-1幀點雲資料的檢測結果預測得到的。

在一些實施例中，本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

本發明實施例還提出一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是非易失性電腦可讀儲存介質。

本發明實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體儲存的指令，以執行上述方法。

本發明實施例還提供了一種電腦程式產品，包括電腦可讀代碼，當電腦可讀代碼在設備上運行時，設備中的處理器執行用於實現如上任一實施例提供的目標檢測方法的指令。

本發明實施例還提供了另一種電腦程式產品，用於儲存電腦可讀指令，指令被執行時使得電腦執行上述任一實施例提供的目標檢測方法的操作。

電子設備可以被提供為終端、伺服器或其它形態的設備。

圖5示出根據本發明實施例的一種電子設備800的方塊圖。例如，電子設備800可以是行動電話，電腦，數位廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖5，電子設備800可以包括以下一個或多個組件：處理組件802，記憶體804，電源組件806，多媒體組件808，音頻組件810，輸入/輸出（I/ O）的介面812，感測器組件814，以及通信組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，資料通信，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，消息，圖片，視頻等。記憶體804可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電可擦除可程式設計唯讀記憶體（EEPROM），可擦除可程式設計唯讀記憶體（EPROM），可程式設計唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁片或光碟。

電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與為電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和用戶之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸摸面板（TP）。如果螢幕包括觸摸面板，螢幕可以被實現為觸控式螢幕，以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝影頭和/或後置攝影頭。當電子設備800處於操作模式，如拍攝模式或視訊模式時，前置攝影頭和/或後置攝影頭可以接收外部的多媒體資料。每個前置攝影頭和後置攝影頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音頻組件810被配置為輸出和/或輸入音頻信號。例如，音頻組件810包括一個麥克風（MIC），當電子設備800處於操作模式，如呼叫模式、記錄模式和語音辨識模式時，麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中，音頻組件810還包括一個揚聲器，用於輸出音頻信號。

I/O介面812為處理組件802和週邊介面模組之間提供介面，上述週邊介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於為電子設備800提供各個方面的狀態評估。例如，感測器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件為電子設備800的顯示器和小鍵盤，感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，用戶與電子設備800接觸的存在或不存在，電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如互補金屬氧化物半導體（CMOS）或電荷耦合裝置（CCD）圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路，如無線網路（WiFi），第二代移動通信技術（2G）或第三代移動通信技術（3G），或它們的組合。在一個示例性實施例中，通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中，所述通信組件816還包括近場通信（NFC）模組，以促進短程通信。例如，在NFC模組可基於射頻識別（RFID）技術，紅外資料協會（IrDA）技術，超寬頻（UWB）技術，藍牙（BT）技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個應用專用積體電路（ASIC）、數位訊號處理器（DSP）、數位信號處理設備（DSPD）、可程式設計邏輯器件（PLD）、現場可程式設計閘陣列（FPGA）、控制器、微控制器、微處理器或其他電子組件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非易失性電腦可讀儲存介質，例如包括電腦程式指令的記憶體804，上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。

圖6示出根據本發明實施例的一種電子設備1900的方塊圖。例如，電子設備1900可以被提供為一伺服器。參照圖6，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由記憶體1932所代表的記憶體資源，用於儲存可由處理組件1922的執行的指令，例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置為執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理，一個有線或無線網路介面1950被配置為將電子設備1900連接到網路，和一個輸入輸出（I/O）介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統，例如微軟伺服器作業系統（Windows ServerTM），蘋果公司推出的基於圖形化用戶介面作業系統(Mac OS XTM)，多用戶多進程的電腦作業系統（UnixTM）, 自由和開放原代碼的類Unix作業系統（LinuxTM），開放原代碼的類Unix作業系統（FreeBSDTM）或類似。

在示例性實施例中，還提供了一種非易失性電腦可讀儲存介質，例如包括電腦程式指令的記憶體1932，上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本發明可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質，其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。

電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是但不限於電存放裝置、磁存放裝置、光存放裝置、電磁存放裝置、半導體存放裝置或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子（非窮舉的列表）包括：可擕式電腦盤、硬碟、隨機存取記憶體（RAM）、唯讀記憶體（ROM）、可擦式可程式設計唯讀記憶體（EPROM或快閃記憶體）、靜態隨機存取記憶體（SRAM）、可擕式壓縮磁碟唯讀記憶體（CD-ROM）、數位多功能盤（DVD）、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為暫態信號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波（例如，通過光纖電纜的光脈衝）、或者通過電線傳輸的電信號。

這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備，或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部存放裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。

用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼，所述程式設計語言包括物件導向的程式設計語言—諸如Smalltalk、C++等，以及常規的過程式程式設計語言—諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作為一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以通過任意種類的網路—包括局域網（LAN）或廣域網路（WAN）—連接到用戶電腦，或者，可以連接到外部電腦（例如利用網際網路服務提供者來通過網際網路連接）。在一些實施例中，通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路，例如可程式設計邏輯電路、現場可程式設計閘陣列（FPGA）或可程式設計邏輯陣列（PLA），該電子電路可以執行電腦可讀程式指令，從而實現本發明的各個方面。

這裡參照根據本發明實施例的方法、裝置（系統）和電腦程式產品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解，流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器，從而生產出一種機器，使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時，產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中，這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀介質則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上，使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟，以產生電腦實現的過程，從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。

附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中，方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如，兩個連續的方塊實際上可以基本並行地執行，它們有時也可以按相反的循序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

該電腦程式產品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中，所述電腦程式產品具體體現為電腦儲存介質，在另一個可選實施例中，電腦程式產品具體體現為軟體產品，例如軟體發展包(Software Development Kit，SDK)等等。

以上已經描述了本發明的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

工業實用性本發明關於一種目標檢測方法、電子設備和電腦可讀儲存介質，所述方法包括：對目標場景的第t幀點雲資料進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框，t為大於1的整數；根據所述第t幀點雲資料、所述第一候選框以及針對所述第t幀點雲資料中目標的預測候選框，確定所述第t幀點雲資料的第一檢測結果，所述第一檢測結果包括所述第t幀點雲資料中目標的第一檢測框，其中，所述預測候選框是根據所述第t幀點雲資料之前的t-1幀點雲資料的檢測結果預測得到的。

201:用戶終端 202:網路 203:目標檢測終端 211:結果修正 212:運動預測 213:預測候選框 214:更新預測概率圖 215:第t幀的預測概率圖 221:第t幀點雲資料 222:劃分區域後的點雲資料 223:目標檢測網路 224:待處理的所有候選框 225:融合網路 226:第一檢測結果 227:關聯歷史結果 230:第二檢測結果 231:結果修正 232:運動預測 233:第t+1幀點雲資料中目標的預測候選框 234:更新預測概率圖 235:第t+1幀點雲資料中目標的預測概率圖 31~33:檢測框 61:第一檢測模組 62:第二檢測模組 800:電子設備 802:處理組件 804:記憶體 806:電源組件 808:多媒體組件 810:音頻組件 812:輸入/輸出介面 814:感測器組件 816:通信組件 820:處理器 1900:電子設備 1922:處理組件 1926:電源組件 1932:記憶體 1950:網路介面 1958:輸入輸出介面 S11~S12:步驟

此處的附圖被併入說明書中並構成本說明書的一部分，這些附圖示出了符合本發明的實施例，並與說明書一起用於說明本發明的技術方案。圖1A示出根據本發明實施例的目標檢測方法的流程圖。圖1B示出本發明實施例目標檢測方法的一種網路架構示意圖。圖2示出根據本發明實施例的目標檢測方法的處理過程的示意圖。圖3a示出目標場景的圖像的示意圖。圖3b示出目標的檢測結果的示意圖。圖4示出根據本發明實施例的目標檢測裝置的方塊圖。圖5示出根據本發明實施例的一種電子設備的方塊圖。圖6示出根據本發明實施例的一種電子設備的方塊圖。

S11~S12:步驟

Claims

一種目標檢測方法，包括：對目標場景的第t幀點雲資料進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框，t為大於1的整數；根據所述第t幀點雲資料、所述第一候選框以及針對所述第t幀點雲資料中目標的預測候選框，確定所述第t幀點雲資料的第一檢測結果，所述第一檢測結果包括所述第t幀點雲資料中目標的第一檢測框；其中，所述預測候選框是根據所述第t幀點雲資料之前的t-1幀點雲資料的檢測結果預測得到的。
根據請求項1所述的方法，所述對目標場景的第t幀點雲資料進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框，包括：根據所述第t幀點雲資料中目標的預測概率圖，將所述第t幀點雲資料劃分為存在目標的第一區域、不存在目標的第二區域以及未確定是否存在目標的第三區域；對所述第一區域及所述第三區域進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框。
根據請求項1或2所述的方法，還包括：獲取在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果；根據在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果，對所述第t幀點雲資料的第一檢測結果進行修正，確定所述第t幀點雲資料的第二檢測結果。
根據請求項1或2所述的方法，還包括：根據在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果，對所述第t幀點雲資料中目標的運動狀態進行預測，確定所述第t幀點雲資料中目標的預測候選框。
根據請求項2所述的方法，還包括：根據所述第t幀點雲資料中目標的預測候選框，以及第t-1幀點雲數據，對所述第t-1幀點雲資料中目標的預測概率圖進行更新，確定所述第t幀點雲資料中目標的預測概率圖。
根據請求項2或5所述的方法，所述對所述第一區域及所述第三區域進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框，包括：對所述第一區域及所述第三區域的點雲資料進行特徵提取，得到第一點雲特徵；對所述第一點雲特徵進行目標檢測，確定所述第t幀點雲資料中目標的第二候選框；根據各個第二候選框的置信度，從所述第二候選框中確定出預設數量的第一候選框。
根據請求項1或2所述的方法，所述根據所述第t幀點雲資料、所述第一候選框以及針對所述第t幀點雲資料中目標的預測候選框，確定所述第t幀點雲資料的第一檢測結果，包括：對所述第t幀點雲資料中各個目標的預測候選框分別進行擴展，確定各個目標的第三候選框；對所述第三候選框與所述第一候選框分別進行匹配，確定與各個第一候選框對應的目標；根據所述第一候選框及與所述第一候選框所在區域對應的第一區域點雲資料，以及所述第三候選框及與所述第三候選框所在區域對應的第二區域點雲資料，對所述第t幀點雲資料中的各個目標分別進行候選框融合，得到所述第t幀點雲資料中各個目標的第一檢測框。
根據請求項7所述的方法，所述對所述第三候選框與所述第一候選框分別進行匹配，確定與各個第一候選框對應的目標，包括：分別確定各個第三候選框與各個第一候選框之間的交並比；將與第一候選框的交並比大於或等於交並比閾值的第三候選框，確定為與第一候選框相匹配的第三候選框；將與第一候選框相匹配的第三候選框對應的目標，確定為與所述第一候選框對應的目標。
根據請求項3所述的方法，每個第二檢測結果包括目標的第二檢測框; 所述根據在所述第t幀點雲資料之前的t-1幀點雲資料的第二檢測結果，對所述第t幀點雲資料的第一檢測結果進行修正，確定所述第t幀點雲資料的第二檢測結果，包括：確定第一目標的檢測框集合，所述第一目標為所述第t幀點雲資料中的任意一個目標，所述第一目標的檢測框集合包括：所述第一目標在所述t-1幀點雲資料的第二檢測結果中的第二檢測框，以及所述第一目標在第t幀點雲資料的第一檢測結果中的第一檢測框；對於所述第一目標的檢測框集合中任意一個檢測框，將所述檢測框集合中與所述檢測框之間的誤差小於或等於誤差閾值的檢測框，確定為所述檢測框的內點框；從所述第一目標的檢測框集合中確定出內點框數量最多的第三檢測框；對所述第三檢測框及所述第三檢測框的所有內點框進行融合，確定所述第t幀點雲資料中第一目標的第二檢測框。
根據請求項3所述的方法，還包括：根據所述t-1幀點雲資料的第二檢測結果，以及所述第t幀點雲資料的第二檢測結果，對第t+1幀點雲資料中目標的運動狀態進行預測，確定所述第t+1幀點雲資料中目標的預測候選框。
根據請求項10所述的方法，還包括：根據所述第t+1幀點雲資料中目標的預測候選框，以及第t幀點雲資料，對所述第t幀點雲資料中目標的預測概率圖進行更新，確定所述第t+1幀點雲資料中目標的預測概率圖。
根據請求項1所述的方法，所述對目標場景的第t幀點雲資料進行目標檢測，確定所述第t幀點雲資料中目標的第一候選框，包括：對所述第t幀點雲資料進行特徵提取，得到第二點雲特徵；對所述第二點雲特徵進行目標檢測，確定所述第t幀點雲資料中目標的第四候選框；根據各個第四候選框的置信度，從所述第四候選框確定出預設數量的第一候選框。
根據請求項1或2所述的方法，所述第一檢測結果還包括所述第t幀點雲資料中目標的類別; 所述根據所述第t幀點雲資料、所述第一候選框以及針對所述第t幀點雲資料中目標的預測候選框，確定所述第t幀點雲資料的第一檢測結果，包括：根據與第二目標的第一檢測框所在區域對應的第三區域點雲資料，對所述第二目標進行分類，確定所述第二目標的類別，所述第二目標為所述第t幀點雲資料中的任意一個目標。
根據請求項1或2所述的方法，所述目標場景包括室內場景，所述第t幀點雲資料中的目標包括物體，所述第t幀點雲資料中目標的第一檢測框包括三維區域框。
一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體儲存的指令，以執行請求項1至14中任意一項所述的方法。
一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現請求項1至14中任意一項所述的方法。