TWI773189B

TWI773189B - 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體

Info

Publication number: TWI773189B
Application number: TW110109024A
Authority: TW
Inventors: 程衍华; 林榆耿
Original assignee: 大陸商騰訊科技（深圳）有限公司
Priority date: 2020-04-10
Filing date: 2021-03-12
Publication date: 2022-08-01
Also published as: CN111476306B; US20220230420A1; WO2021203863A1; TW202139183A; CN111476306A

Abstract

一種基於人工智慧的物體檢測方法、裝置、設備及儲存媒體。通過物體檢測模型對靶心圖表像提取得到不同尺度的特徵圖，確定出物體的圖像位置資訊和物體屬於各個類別的第一置信度；從靶心圖表像中獲取物體所在的目的地區域；通過物體檢索模型將目的地區域與各個類別的樣本圖像對比，得到物體屬於各個類別的第二置信度；將各個類別中所對應第一置信度和第二置信度之和最大的類別，確定為物體所屬的目標類別。本方案將物體檢測模型和物體檢索模型相結合，進行兩次類別預測，由物體檢索模型對物體檢測模型的預測結果進行修正，提高預測的準確性。

Description

基於人工智慧的物體檢測方法、裝置、設備及儲存媒體

本申請涉及影像處理技術領域，特別涉及一種基於人工智慧的物體檢測方法、裝置、設備及儲存媒體。

物體檢測是電腦視覺中的經典問題之一，通過物體檢測技術可以確定出圖像中所包含的至少一個物體的所屬類別等資訊。目前在進行物體檢測時，通常是由物體檢測模型來對圖像進行特徵提取，基於提取到的圖像特徵預測圖像中所包含物體的位置和類別。

本申請實施例提供了一種基於人工智慧的物體檢測方法、裝置、設備及儲存媒體。該技術方案如下：一方面，提供了一種基於人工智慧的物體檢測方法，應用於電腦設備，該方法包括：將包含物體的靶心圖表像輸入物體檢測模型，由該物體檢測模型對該靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖；基於該多個不同尺度的特徵圖，確定該物體的圖像位置資訊以及該物體屬於各個類別的第一置信度；基於該物體的圖像位置資訊，從該靶心圖表像中獲取該物體所在的目的地區域；將該目的地區域輸入物體檢索模型，由該物體檢索模型將該目的地區域與各個類別的樣本圖像進行對比，得到該物體屬於各個類別的第二置信度；基於該各個類別對應的該第一置信度以及該第二置信度，從該各個類別中確定該物體的目標類別，該目標類別對應的該第一置信度與該第二置信度之和最大。

一方面，提供了一種基於人工智慧的物體檢測裝置，該裝置包括：第一置信度確定模組，用於將包含物體的靶心圖表像輸入物體檢測模型，由該物體檢測模型對該靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖；基於該多個不同尺度的特徵圖，確定該物體的圖像位置資訊以及該物體屬於各個類別的第一置信度；目的地區域獲取模組，用於基於該物體的圖像位置資訊，從該靶心圖表像中獲取該物體所在的目的地區域；第二置信度獲取模組，用於將該目的地區域輸入物體檢索模型，由該物體檢索模型將該目的地區域與各個類別的樣本圖像進行對比，得到該物體屬於各個類別的第二置信度；類別確定模組，用於基於該各個類別對應的該第一置信度以及該第二置信度，從該各個類別中確定該物體的目標類別，該目標類別對應的該第一置信度與該第二置信度之和最大。

在一種可能實現方式中，該第一置信度確定模組用於：通過該物體檢測模型中多個不同尺度的神經網路，依次對該靶心圖表像進行特徵提取，得到多個不同尺度的中間特徵圖；對該多個不同尺度的中間特徵圖進行特徵融合，得到該多個不同尺度的特徵圖。

在一種可能實現方式中，該第一置信度確定模組用於：對於該多個不同尺度的神經網路中的任一個神經網路，獲取前一個神經網路中最後一個運算層輸出的第一尺度的第一中間特徵圖，對該第一中間特徵圖進行下取樣以及特徵提取，得到第二尺度的第二中間特徵圖，該第二尺度小於該第一尺度。

在一種可能實現方式中，該第一置信度確定模組用於：對於任一個神經網路輸出的第二尺度的第二中間特徵圖，獲取前一個神經網路輸出的第一尺度的第一中間特徵圖；基於該第一尺度，對該第二中間特徵圖進行上取樣，得到第一尺度的第二中間特徵圖；對該第一尺度的第二中間特徵圖和該第一尺度的第一中間特徵圖進行特徵融合，得到第一尺度的特徵圖。

在一種可能實現方式中，該第一置信度確定模組用於：將該第一尺度的第二中間特徵圖和該第一尺度的第一中間特徵圖中，相同位置的元素相加，得到該第一尺度的特徵圖。

在一種可能實現方式中，該第一置信度確定模組用於：對於該多個不同尺度的特徵圖中的任一個特徵圖，通過該物體檢測模型中的分類預測子網路，對該任一個特徵圖進行卷積運算，得到該靶心圖表像對應的類別矩陣，該類別矩陣用於指示該靶心圖表像中該物體屬於各個類別的第一置信度；對於該多個不同尺度的特徵圖中的任一個特徵圖，通過該物體檢測模型中的位置預測子網路，對該任一個特徵圖進行卷積運算，得到該靶心圖表像對應的位置資訊矩陣，該位置資訊矩陣用於指示該靶心圖表像中該物體的圖像位置資訊。

在一種可能實現方式中，該物體檢索模型包括多個子檢索模型，一個該子檢索模型用於將該物體對應的目的地區域與一個類別的樣本圖像進行對比。

在一種可能實現方式中，該第二置信度獲取模組用於：對於任一該物體對應的目的地區域，通過任一該子檢索模型，從該一個類別的樣本圖像中，獲取與該目的地區域之間的相似度滿足目標條件的多個目標樣本圖像；基於該目的地區域的圖像特徵以及各個類別中的該目標樣本圖像的圖像特徵，確定該物體屬於各個類別的第二置信度。

在一種可能實現方式中，該第二置信度獲取模組用於：基於該目的地區域的圖像特徵以及各個類別中該目標樣本圖像的圖像特徵，確定該目的地區域與各個類別的該目標樣本圖像之間的距離；基於該目的地區域與各個類別的該目標樣本圖像之間的距離，確定該物體屬於各個類別的第二置信度。

在一種可能實現方式中，該物體檢測模型包括第一預測子網路以及第二預測子網路，該第一預測子網路用於預測屬於第一類別範圍的物體的所在位置和所屬類別，該第二預測子網路用於預測屬於第二類別範圍的物體的所屬類別，該第二類別範圍大於該第一類別範圍。

在一種可能實現方式中，該第一預測子網路包括分類預測子網路和位置預測子網路。

在一種可能實現方式中，該裝置還包括：池化模組，用於通過該第二預測子網路分別對該多個不同尺度的特徵圖進行池化處理，得到多個全域分類預測矩陣；該類別確定模組，還用於基於該多個全域分類預測矩陣，確定該靶心圖表像中屬於第二類別範圍的物體的所屬類別。

一方面，提供了一種電腦設備，該電腦設備包括一個或多個處理器和一個或多個記憶體，該一個或多個記憶體中儲存有至少一條程式碼，該至少一條程式碼由該一個或多個處理器載入並執行以實現該基於人工智慧的物體檢測方法。

一方面，提供了一種電腦可讀儲存媒體，該電腦可讀儲存媒體中儲存有至少一條程式碼，該至少一條程式碼由處理器載入並執行以實現該基於人工智慧的物體檢測方法。

100:物體檢測系統

110:終端

140:物體檢測平台

201~204:步驟

301:主幹特徵網路

302:特徵金字塔網路

303:第一預測子網路

401~408:步驟

501:分類預測子網路

502:卷積層

503:卷積層

504:位置預測子網路

505:卷積層

506:卷積層

601:物體檢測模型

602:物體檢索模型

701:第一預測子網路

702:第二預測子網路

801:雙流檢測模型

901~904:步驟

1001:資料預處理過程

1002:模型預測過程

1003:後處理過程

1004:圖像讀取

1005:圖像解碼

1006:圖像縮放

1007:模型前向過程

1101:第一置信度確定模組

1102:截圖模組

1103:第二置信度確定模組

1104:類別確定模組

1200:終端

1201:處理器

1202:記憶體

1203:週邊設備介面

1204:顯示幕

1300:伺服器

1301:處理器

1302:記憶體

為了更清楚地說明本申請實施例中的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。

圖1是本申請實施例提供的一種物體檢測系統的結構框圖；圖2是本申請實施例提供的一種物體檢測方法的流程圖；圖3是本申請實施例提供的一種物體檢測模型的結構示意圖；圖4是本申請實施例提供的一種物體檢測方法的具體流程圖；圖5是本申請實施例提供的一種第一預測子網路的示意圖；圖6是本申請實施例提供的一種物體檢測模型和物體檢索模型的示意圖；圖7是本申請實施例提供的一種物體檢測模型的示意圖；圖8是本申請實施例提供的一種雙流檢測應用的示意圖；圖9是本申請實施例提供的一種物體檢測模型訓練方法的流程圖；圖10是本申請實施例提供的一種物體檢測模型的加速方法示意圖；圖11是本申請實施例提供的一種基於人工智慧的物體檢測裝置的結構示意圖；圖12是本申請實施例提供的一種終端的結構示意圖；圖13是本申請實施例提供的一種伺服器的結構示意圖。

為了使本申請的目的、技術方案及優點更加清楚明白，以下結合附圖及實施例，對本申請進行進一步詳細說明。應當理解，此處描述的具體實施例僅僅用以解釋本申請，並不用於限定本申請。

人工智慧(Artificial Intelligence，AI)是利用數位電腦或者數位電腦控制的機器類比、延伸和擴展人的智慧，感知環境、獲取知識並使用知識獲得最佳結果的理論、方法、技術及應用系統。換句話說，人工智慧是電腦科學的一個綜合技術，它企圖瞭解智慧的實質，並生產出一種新的能以人類智慧相似的方式做出反應的智慧型機器。人工智慧也就是研究各種智慧型機器的設計原理與實現方法，使機器具有感知、推理與決策的功能。

人工智慧技術是一門綜合學科，涉及領域廣泛，既有硬體層面的技術也有軟體層面的技術。人工智慧基礎技術一般包括如感測器、專用人工智慧晶片、雲計算、分散式儲存、大資料處理技術、操作/交互系統、機電一體化等技術。人工智慧軟體技術主要包括電腦視覺技術、語音處理技術、自然語言處理技術以及機器學習/深度學習等幾大方向。本申請實施例所涉及電腦視覺技術以及機器學習/深度學習技術。

其中，電腦視覺技術(Computer Vision，CV)是一門研究如何使機器“看”的科學，更進一步的說，就是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺，並進一步做圖形處理，使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個科學學科，電腦視覺研究相關的理論和技術，試圖建立能夠從圖像或者多維資料中獲取資訊的人工智慧系統。電腦視覺技術通常包括影像處理、圖像識別、圖像語義理解、視頻處理、視頻語義理解、視頻內容/行為識別、三維物體重建、3D技術、虛擬實境、增強現實、OCR(Optical Character Recognition，光學字元辨識)、同步定位與地圖構建等技術，還包括常見的人臉識別、指紋識別等生物特徵識別技術。本申請實施例主要涉及電腦視覺中的圖像語義理解技術，基於圖像語義理解進行物體檢測、定位以及圖像檢索，確定圖像中所包含物體的類別。

下面，對本申請涉及的術語進行介紹：物體檢測：物體檢測是電腦視覺中的經典問題之一，應用物體檢測技術可以對圖像中所出現物體的所在位置和所屬類別進行預測。

開放數據：是指在模型應用過程中，模型所處理資料的資料類別在訓練集中未出現過。通常情況下，模型的訓練過程是面向閉合資料的，即訓練資料和測試資料均屬於相同類別範圍。但是，在模型實際應用過程中，難以限定模型所處理資料的類別，因此，模型需支援對開放資料的處理。

雙流檢測：是指在模型預測過程中包括兩條任務流，兩條任務流可以執行相同任務，也可以分別執行不同任務。在本申請實施例中，在物體檢測模型中部署有兩條任務流，分別用於執行不同的任務，一條任務流用於執行標準的檢測任務，即對物體的位置和類別進行預測；另一條任務流用於執行類別預測任務。雙流檢測便於快速拓展檢測模型的性能，增大模型所支援的資料量。

DALI(Data Loading Library，資料加速庫)：是一種資料預處理加速方法庫，DALI中可以包括多種不同類型的加速庫，來對不同的資料處理階段進行加速。

FPN(Feature Pyramid Network，特徵金字塔網路)：對於卷積神經網路提取到的不同解析度的語義特徵，將低解析度的高層語義特徵和高解析度的低層語義進行融合，從而獲得更好的、多尺度的表達特徵，以適配不同大小物體的檢測。

多尺度特徵：物體檢測中最具挑戰性的問題就是物體的尺度變化(Scale Variance)問題。由於物體的形狀和尺寸大小不一，甚至可能出現一些極小、極大或者極端形狀(如細長型、窄高型等)的物體，這就給物體的準確識別和精準定位帶來了極大困難。圖像金字塔和特徵金字塔(FPN)均能夠利用多尺度特徵來檢測不同尺寸的物體，其中，多尺度特徵也即多個不同尺度的特徵圖。圖像金字塔是指將圖像縮放至不同解析度，並採用同一個卷積神經網路對不同解析度的圖像來提取不同尺度的特徵圖。由於圖像金字塔在測試時帶來的時間損耗是非常大的，每個不同解析度的輸入圖像都要通過同一個卷積神經網路，因此存在大量的冗餘計算。而特徵金字塔則能夠輸入單一解析度的圖像，但提取到不同解析度的特徵圖(也即不同尺度的特徵圖)，例如，FPN是一類典型的結合了多尺度特徵融合和多尺度特徵預測的神經網路。

在相關技術中，物體檢測模型是基於有限的訓練資料集訓練得到的，而在實際應用中，物體檢測模型需檢測圖像資料庫規模龐大，在實際應用過程中，容易出現物體檢測模型對訓練資料集中的資料識別準確度較高，對於非訓練資料集中的資料識別準確度較低的情況。因此，如何提高物體檢測的準確度，是一個重要研究方向。

圖1是本申請實施例提供的一種物體檢測系統的結構框圖。該物體檢測系統100包括：終端110和物體檢測平台140。

終端110可以是智慧手機、平板電腦、筆記型電腦、桌上型電腦、智慧音箱、智慧手錶等，但並不局限於此。終端110安裝和運行有支援物體檢測的應用程式。該應用程式可以是社交類應用程式、資訊類應用程式、電商類應用程式等。示例性的，終端110是使用者使用的終端，終端110中運行的應用程式內登錄有使用者帳號。終端110可以泛指多個終端中的一個，本申請實施例僅以終端110來舉例說明。

物體檢測平台140可以包括一台伺服器、多台伺服器、雲計算平台或者虛擬化中心中的至少一種。物體檢測平台140用於為支援物體檢測的應用程式提供後台服務。可選地，物體檢測平台140承擔主要物體檢測工作，終端110承擔次要物體檢測工作；或者，物體檢測平台140承擔次要物體檢測工作，終端110承擔主要物體檢測工作；或者，物體檢測平台140或終端110兩者之間採用分散式運算架構以協同承擔物體檢測工作。

可選地，物體檢測平台140包括：接入伺服器、物體檢測伺服器和資料庫。接入伺服器用於為終端110提供接入服務。物體檢測伺服器用於提供物體檢測有關的後台服務，該物體檢測伺服器可以搭載圖形處理器(Graphics Processing Unit，GPU)，支援GPU多執行緒平行計算。物體檢測伺服器可以是一台或多台。當物體檢測伺服器是多台時，存在至少兩台物體檢測伺服器用於提供不同的服務，和/或，存在至少兩台物體檢測伺服器用於提供相同的服務，比如以負載均衡方式提供同一種服務，本申請實施例對此不加以限定。物體檢測伺服器中可以設置有物體檢測模型以及物體檢索模型，在模型訓練和應用過程中，該物體檢測伺服器可以搭載GPU，並支援GPU並行運算。

在一些實施例中，上述伺服器可以是獨立的物理伺服器，也可以是多個物理伺服器構成的伺服器集群或者分散式系統，還可以是提供雲服務、雲資料庫、雲計算、雲函數、雲儲存、網路服務、雲通信、仲介軟體服務、功能變數名稱服務、安全服務、CDN(Content Delivery Network，內容分發網路)、以及大資料和人工智慧平台等基礎雲計算服務的雲伺服器。

上述終端110與物體檢測平台140可以通過有線或無線通訊方式進行直接或間接地連接，本申請實施例對此不作限定。

本領域技術人員可以知曉，上述終端的數量可以更多或更少。比如上述終端可以僅為一個，或者上述終端為幾十個或幾百個，或者更多數量，此時上述物體檢測系統還包括其他終端。本申請實施例對終端的數量和設備類型不加以限定。

本申請實施例提供的技術方案可以應用於多種物體檢測場景中，與多領域相結合。例如，在一些社交類、資訊類應用程式中，有掃描識物的功能，安裝有這類應用程式的手機等終端設備，可以通過攝像頭獲取任一物體的圖像，基於獲取到的圖像進行物體檢測，確定物體的所屬類別，再基於檢測結果向使用者推送相似物體或同類物體的資訊信息，在這種應用場景中，應用物體檢測技術，使用者通過簡單的拍照操作，就可以獲取到相關資訊信息，無需手動搜索，簡化了用戶操作，提高了用戶體驗。

圖2是本申請實施例提供的一種物體檢測方法的流程圖。該方法可以應用於上述實施環境中，在一種可能實現方式中，可以由終端向伺服器發送物體檢測請求以及待檢測的靶心圖表像，伺服器回應於該物體檢測請求對該靶心圖表像中的物體進行檢測，將檢測結果回饋給終端；在一種可能實現方式中，也可以由終端對靶心圖表像進行檢測；在一種可能實現方式中，還可以由伺服器自動獲取靶心圖表像進行檢測，本申請實施例對此不作限定。在本申請實施例中，以伺服器對該靶心圖表像進行物體檢測為例進行說明，該伺服器中需搭載有物體檢測模型和物體檢索模型，通過物體檢測模型和物體檢索模型相結合的方式，來進行物體檢測，以提高檢測結果的準確率。參見圖2，物體檢測方法應用於電腦設備，下面以電腦設備為伺服器為例進行說明，該實施例可以包括以下步驟：

201、伺服器將包含物體的靶心圖表像輸入物體檢測模型，由該物體檢測模型對該靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖，基於該多個不同尺度的特徵圖，確定該物體的圖像位置資訊以及該物體屬於各個類別的第一置信度。

其中，該靶心圖表像可以為儲存在伺服器中的一幅或一組圖像，該一組圖像可以包括至少兩幅圖像，該靶心圖表像也可以是該伺服器在視頻中截取的圖像，還可以為具備圖像採集功能的設備即時採集的圖像，本申請實施例對此不作限定。該靶心圖表像中可以包括至少一個物體，該物體可以屬於任一類別，例如，箱包類、家用電器類、圖書類、食品類等，本申請實施例對該靶心圖表像中所包含物體的類別和數目不作限定。

在本申請實施例中，該物體檢測模型可以用於對該靶心圖表像進行特徵提取，基於提取到的圖像特徵對該靶心圖表像中各個物體的所在位置和所屬類別進行預測。該物體檢測模型可以為基於深度神經網路構建的模型，該深度神經網路可以為Retinanet(視網膜網路)模型等。圖3是本申請實施例提供的一種物體檢測模型的結構示意圖，參見圖3，該物體檢測模型可以包括主幹特徵網路301、FPN(Feature Pyramid Networks，特徵金字塔網路)302以及第一預測子網路303。其中，該主幹特徵網路301可以由多個不同尺度的神經網路構成，一個神經網路可以包括多個用於進圖像特徵提取的運算層，該主幹特徵網路301可以通過神經網路，提取該靶心圖表像的不同尺度的圖像特徵；該特徵金字塔網路302可以用於對不同尺度的圖像特徵進行融合，從而得到多個尺度的特徵圖；該第一預測子網路303可以基於不同尺度的特徵圖，對該靶心圖表像中物體的所在位置和所屬類別進行預測。當然，該物體檢測模型還可以包括其他單元，例如，輸入單元、輸出單元等，本申請實施例對此不作限定。需要說明的是，本申請實施例中，對該物體檢測模型中主幹特徵網路、特徵金字塔網路以及第一預測子網路的具體數目和連接方式不作限定。

在本申請實施例中，該伺服器將靶心圖表像輸入該物體檢測模型後，該物體檢測模型可以通過主幹特徵網路、特徵金字塔網路以及第一預測子網路，對該靶心圖表像進行分析、預測，輸出該靶心圖表像中物體的圖像位置資訊以及該物體屬於各個類別的第一置信度。其中，該圖像位置資訊可以指示該物體所在的矩形區域在該靶心圖表像中的位置，該圖像位置資訊可以包括物體所在的矩形區域某一頂點的座標、矩形區域的邊長長度等資訊，本申請實施例對此不作限定。該一個類別對應的第一置信度可以用於表示該物體屬於該一個類別的概率。

202、伺服器基於該物體的圖像位置資訊，對該靶心圖表像進行截圖，得到截圖圖像。

上述步驟202，也即伺服器基於該物體的圖像位置資訊，從該靶心圖表像中獲取該物體所在的目的地區域的一種可能實施方式，上述截圖圖像相當於採用截取圖像的方式所獲取到的目的地區域。可選地，伺服器還可以對該靶心圖表像進行語義分割，基於分割所得的語義分割圖，確定該物體所在的目的地區域。

在一種可能實現方式中，伺服器可以基於物體的圖像位置資訊，即物體所在的矩形區域的頂點座標、矩形區域的邊長長度等，在該靶心圖表像中進行截圖，得到截圖圖像。上述截圖是指進行圖像截取，基於物體的圖像位置資訊通常能夠從靶心圖表像中確定出物體所在的一個矩形檢測框，將該矩形檢測框從靶心圖表像中進行截取，即可得到該截圖圖像。

通常情況下，一個截圖圖像可以包括一個物體，當儲存至物體相互遮擋時，一個截圖圖像中可能會包括多個物體，此時，可以將在截圖圖像中所占面積最大的物體作為後續的檢索目標。當然，也可以通過其他方式在截圖圖像所包含的物體中確定一個檢索目標，本申請實施例對此不作限定。

203、伺服器將該截圖圖像輸入物體檢索模型，由該物體檢索模型將該截圖圖像與多個類別的樣本圖像進行對比，得到該截圖圖像所包含物體屬於各個類別的第二置信度。

上述步驟203以目的地區域為截圖圖像為例，示出了將該目的地區域輸入物體檢索模型，由該物體檢索模型將該目的地區域與各個類別的樣本圖像進行對比，得到該目的地區域所包含物體屬於各個類別的第二置信度的一種可能實施方式。

其中，該物體檢索模型可以為基於深度神經網路構建的模型，本申請實施例對該圖像檢索模型的具體結構不作限定。在本申請實施例中，該物體檢索模型可以與線上檢索資料庫相連接，該線上檢索資料庫可以包括多個類別的樣本圖像。該伺服器將該截圖圖像輸入該物體檢索模型後，該物體檢索模型可以遍歷各個類別的樣本圖像，基於截圖圖像的圖像特徵以及各個樣本圖像的圖像特徵，確定截圖圖像與各個樣本圖像之間的相似度，進而，基於截圖圖像與各個類別的樣本圖像之間的相似度，確定物體屬於各個類別的第二置信度。

204、伺服器基於各個類別對應的該第一置信度以及該第二置信度，從該各個類別中確定該物體的目標類別，該目標類別對應的該第一置信度與該第一置信度之和最大。

在本申請實施例中，該伺服器可以結合該物體檢測模型的輸出結果和物體檢索模型的輸出結果，即將各個類別所對應的第一置信度和第二置信度相加，獲取置信度之和最大的類別作為該目標類別，也即是，在該物體檢測模型的輸出結果以及該物體檢索模型的輸出結果中，該目標類別均對應於一個較大的置信度，將該目標類別確定為該物體的所屬類別。

本申請實施例提供的技術方案，通過物體檢測模型對待檢測的靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖，基於該多個不同尺度的特徵圖，確定靶心圖表像中物體的圖像位置資訊以及該物體屬於各個類別的第一置信度，由物體檢測模型完成對物體類別的初步預測；再基於該物體的圖像位置資訊，對該靶心圖表像進行截圖，得到截圖圖像；通過物體檢索模型將截圖圖像與多個類別的樣本圖像進行對比，來對物體的所屬類別進行進一步預測，得到截圖圖像所包含物體屬於各個類別的第二置信度；將各個類別對應的第一置信度和第二置信度相加，將置信度之和最大的類別確定為目標類別，即物體的所屬類別。應用上述方案，通過物體檢測模型和物體檢索模型相結合的方式，對同一物體進行兩次類別預測，通過物體檢索模型對物體檢測模型的輸出結果進行修正，可以有效提高預測結果的準確性。

上述實施例僅是本申請的實施方式的一個簡要介紹，圖4是本申請實施例提供的一種物體檢測方法的具體流程圖，結合圖4，以伺服器作為執行主體，對上述物體檢測過程進行具體說明：

401、伺服器將包含物體的靶心圖表像輸入物體檢測模型。

在一種可能實現方式中，該伺服器可以基於物體檢測指令，將待檢測的靶心圖表像輸入該物體檢測模型。其中，該物體檢測指令可以由任一使用者觸發。例如，任一用戶所使用的終端設備上可以安裝和運行有支援掃描識物功能的目標應用程式，終端檢測到使用者觸發該掃描識物功能時，可以開啟攝像頭，由用戶拍攝該靶心圖表像，或者顯示本機存放區的圖像，由使用者從本機存放區的圖像中選擇該靶心圖表像，本申請實施例對該靶心圖表像的具體獲取方式不作限定。當用戶確定對該靶心圖表像拍攝或選擇完成時，可以觸發該物體檢測指令，該終端可以將該靶心圖表像以及該物體檢測指令發送給伺服器，該伺服器可以回應於該物體檢測指令，將該靶心圖表像輸入物體檢測模型。可選地，該物體檢測指令中攜帶有該靶心圖表像，此時終端可以僅將該物體檢測指令發送給伺服器，由伺服器回應於該物體檢測指令，解析得到該靶心圖表像，並將該靶心圖表像輸入物體檢測模型。

在本申請實施例中，該伺服器可以將任意尺寸的靶心圖表像輸入該物體檢測模型，也可以將該靶心圖表像調整為預設尺寸再輸入該物體檢測模型。在一種可能實現方式中，該伺服器將該靶心圖表像輸入物體檢測模型之前，可以按照實際情況，對該靶心圖表像進行縮放，以將該靶心圖表像調整為預設尺寸。其中，該預設尺寸可以由開發人員進行設置。

在一種可能實現方式中，該伺服器可以對該靶心圖表像進行預處理，將預處理後的靶心圖表像輸入物體檢測模型，以便於進行後續的運算過程。例如，該預處理過程可以包括：基於靶心圖表像中各個位置的圖元值，將該靶心圖表像轉換為一個數位矩陣，還可以包括圖像增強、去除噪點等處理步驟，以增強該靶心圖表像中的有用資訊，本申請實施例對該預處理過程的具體步驟不作限定。當然，該預處理過程也可以由該物體檢測模型執行，本申請實施例對此不作限定。

402、伺服器通過物體檢測模型中多個不同尺度的神經網路，依次對該靶心圖表像進行特徵提取，得到多個不同尺度的中間特徵圖。

在本申請實施例中，可以通過該物體檢測模型中主幹特徵網路對該靶心圖表像進行特徵提取，該主幹特徵網路可以是基於深度神經網路構建的，例如，該深度神經網路可以為VGGNet(Visual Geometry Group Network，視覺幾何組網路)、ResNet(Residual Neural Network，殘差神經網路)等，本申請實施例對此不作限定。該主幹特徵網路可以包括多個不同尺度的卷積層，該伺服器可以通過多個不同尺度的卷積層對該靶心圖表像對應的數位矩陣進行卷積運算，以提取該靶心圖表像的圖像特徵。

在一種可能實現方式中，可以通過控制各個神經網路中各個運算層所包含卷積核的大小和卷積核移動的步長，來控制各個神經網路所輸出特徵圖的尺度，例如，卷積核越大、移動步長越大，則輸出特徵圖的尺度越小。需要說明的是，神經網路的具體數目、神經網路中運算層的具體數目、卷積核的大小和移動步長均可以由開發人員進行設置，本申請實施例對此不作限定。在本申請實施例中，各個神經網路可以是級聯的，對於該多個不同尺度的神經網路中的任一個神經網路，可以獲取前一個神經網路中最後一個運算層輸出的第一尺度的第一中間特徵圖，對該第一中間特徵圖進行下取樣以及特徵提取，得到第二尺度的第二中間特徵圖。其中，該第二尺度小於該第一尺度，本申請實施例對該第一尺度和該第二尺度的具體大小不作限定。可選地，以兩個不同尺度的神經網路為例，對上述中間特徵圖的獲取過程進行說明，首先，該伺服器可以通過第一尺度的神經網路中的各個運算層對該靶心圖表像進行特徵提取，各個運算層所提取到的圖像特徵尺度相同，基於該第一尺度的神經網路中最後一個運算層所提取到的圖像特徵，生成第一尺度的第一中間特徵圖；然後，將該第一中間特徵圖輸入第二尺度的神經網路，由該第二尺度的神經網路中的運算層對該第一中間特徵圖進行下取樣，以減小特徵圖尺度，再對下取樣後的第一中間特徵圖進行進一步特徵提取；最後，獲取該第二尺度的神經網路中最後一個運算層所輸出的特徵圖，作為該第二尺度的第二中間特徵圖。

以其中一個卷積層為例對上述卷積運算過程進行說明，一個卷積層可以包括一個或多個卷積核，每個卷積核對應一個掃描視窗，該掃描視窗的大小與該卷積核的大小相同，在卷積核進行卷積運算的過程中，該掃描視窗可以按照目標步長在中間特徵圖上滑動，依次掃描該中間特徵圖的各個區域，其中，該目標步長可以由開發人員進行設置。以一個卷積核為例，在卷積運算的過程中，當該卷積核的掃描視窗滑動至中間特徵圖的任一區域時，該伺服器讀取該區域中各個特徵點對應的數值，將該卷積核與該各個特徵點對應的數值進行點乘運算，再對各個乘積進行累加，將累加結果作為一個特徵點。之後，該卷積核的掃描視窗按照目標步長滑動至中間特徵圖的下一區域，再次進行卷積運算，輸出一個特徵點，直至該中間特徵圖的全部區域掃描完畢，將輸出的全部特徵點組成一個新的中間特徵圖，作為下一個卷積層的輸入。其中，該卷積層的具體數目可以由開發人員設置，本申請實施例對此不作限定。

需要說明的是，上述對多尺度的中間特徵圖獲取方式的說明，僅是一種示例性說明，本申請實施例對具體採用哪種方法獲取多個不同尺度的中間特徵圖不作限定。

應用上述技術方案，在圖像特徵提取過程中，獲取不同尺度的中間特徵圖，可以保留不同解析度的圖像資訊，使該伺服器可基於多尺度的圖像特徵執行後續的物體檢測步驟，提高物體檢測結果的準確性。

403、伺服器對多個不同尺度的中間特徵圖進行特徵融合，得到多個不同尺度的特徵圖。

在本申請實施例中，可以通過物體檢測模型中的特徵金字塔網路對不同尺度的中間特徵圖進行特徵融合。在一種可能實現方式中，對於任一個神經網路輸出的第二尺度的第二中間特徵圖，可以通過該特徵金字塔網路獲取前一個神經網路輸出的第一尺度的第一中間特徵圖，基於該第一尺度，對該第二中間特徵圖進行上取樣，得到第一尺度的第二中間特徵圖。當然，在這一過程中，還可以通過卷積層對該第二特徵圖進行卷積處理，以進一步提取圖像特徵，本申請實施例對此不作具體限定。需要說明的是，本申請實施例對上取樣的具體方法不作限定。該特徵金字塔網路可以對該第一尺度的第二中間特徵圖和該第一尺度的第一中間特徵圖進行特徵融合，得到第一尺度的特徵圖。例如，可以將該第一尺度的第二中間特徵圖和該第一尺度的第一中間特徵圖中，相同位置的元素相加，得到該第一尺度的特徵圖。當然，也可以通過其他方式進行特徵融合，例如，將該第一尺度的第二中間特徵圖和該第一尺度的第一中間特徵圖中，相同位置的元素相乘，得到該第一尺度的特徵圖，本申請實施例對此不作限定。

在本申請實施例中，通過對不同尺度的中間特徵圖進行特徵融合，使特徵圖中可以包含高層語義特徵和低層語義特徵，物體檢測模型基於多尺度的特徵圖進行物體檢測時，可以提高對不同尺度物體檢測的適應性，避免因只依賴於高層語義特徵，而導致忽略小尺度的物體的問題。

404、伺服器基於多個不同尺度的特徵圖，確定物體的圖像位置資訊以及該物體屬於各個類別的第一置信度。

在本申請實施例中，可以通過物體檢測模型中的第一預測子網路對該物體的所在位置和所屬類別進行預測。該第一預測子網路可以包括分類預測子網路和位置預測子網路。該分類預測子網路和該位置預測子網路中均可以包括多個運算層，例如，卷積層等，當然，各個卷積層之後還可以連接有啟動函數層等，本申請實施例對該分類預測子網路和該位置預測子網路具體結構不作限定。

在一種可能實現方式中，對於該多個不同尺度的特徵圖中的任一個特徵圖，該伺服器可以通過該物體檢測模型中的分類預測子網路，對該任一個特徵圖進行卷積運算，得到該靶心圖表像對應的類別矩陣，該類別矩陣用於指示該靶心圖表像中該物體的屬於各個類別的第一置信度。對於該多個不同尺度的特徵圖中的任一個特徵圖，通過該物體檢測模型中的位置預測子網路，對該任一個特徵圖進行卷積運算，得到該靶心圖表像對應的位置資訊矩陣，該位置資訊矩陣用於指示該靶心圖表像中該物體的圖像位置資訊。參見圖5，圖5是本申請實施例提供的一種第一預測子網路的示意圖，其中，分類預測子網路501中可以包括多個W*H*256的卷積層502以及一個W*H*KA的卷積層503，位置預測子網路504中可以包括多個W*H*256的卷積層505以及一個W*H*4A的卷積層506。其中，W、H、K、A均為正整數，W、H的具體數值可以由開發人員進行設置，K可以表示該物體檢測模型可預測的類別數目，A可以表示檢測框的數目。可選的，結合圖5，對上述第一類別和圖像位置資訊的預測過程進行說明，該物體檢測模型可以在任一特徵圖設置大小不同的A個anchor(檢測框)，通過分類預測子網路中的卷積層對特徵圖進行卷積運算後，可以將每個檢測框都映射為一個K維向量，該K維向量中的各個數值可以表示檢測框中物體屬於各個類別的第一置信度。通過位置預測子網路中的卷積層對特徵圖進行卷積運算後，可以將每個檢測框都映射為一個4維向量，該4維向量中可以包括該檢測框某一頂點的位置座標以及該檢測框的邊長長度，該伺服器可以通過該4維向量確定物體的圖像位置資訊。

需要說明的是，上述步驟401至步驟404，是將包含物體的靶心圖表像輸入物體檢測模型，由該物體檢測模型對該靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖，基於該多個不同尺度的特徵圖，確定該物體的圖像位置資訊以及該物體屬於各個類別的第一置信度的步驟。在本申請實施例中，通過提取多尺度的特徵圖以及不同尺度的特徵圖進行融合，可以充分保留高解析度的圖像特徵，使不同解析度的圖像特徵充分融合，使模型具備更好的特徵表達能力，提高物體檢測的準確度。

405、伺服器基於該物體的圖像位置資訊，對該靶心圖表像進行截圖，得到截圖圖像。

上述步驟405，也即伺服器基於該物體的圖像位置資訊，從該靶心圖表像中獲取該物體所在的目的地區域的一種可能實施方式，上述截圖圖像相當於採用截取圖像的方式所獲取到的目的地區域。可選地，伺服器還可以對該靶心圖表像進行語義分割，基於分割所得的語義分割圖，確定該物體所在的目的地區域。

在本申請實施例中，該伺服器可以基於該圖像位置資訊中的頂點座標、邊長長度等資訊，對該靶心圖表像進行截圖，得到截圖圖像，一個截圖圖像可以包括一個物體。上述截圖是指進行圖像截取，基於物體的圖像位置資訊通常能夠從靶心圖表像中確定出物體所在的一個矩形檢測框，將該矩形檢測框從靶心圖表像中進行截取，即可得到該截圖圖像。

在本申請實施例中，通過截取僅包含物體的截圖圖像，基於截圖圖像執行後續的物體檢索步驟，可以使物體檢索模型在檢索過程中，更關注物體本身，不被無關資訊幹擾，提高物體檢索的準確性。

406、對於任一該物體對應的截圖圖像，伺服器通過物體檢索模型中的任一子檢索模型，從一個類別的樣本圖像中，獲取與該截圖圖像之間的相似度滿足目標條件的多個目標樣本圖像。

上述步驟406，以目的地區域為截圖圖像為例，示出了對於任一該物體對應的目的地區域，伺服器通過物體檢索模型中的任一子檢索模型，從一個類別的樣本圖像中，獲取與該目的地區域之間的相似度滿足目標條件的多個目標樣本圖像的一種可能實施方式。

在本申請實施例中，該物體檢索模型包括多個子檢索模型，一個子檢索模型可以用於將物體對應的截圖圖像與一個類別的樣本圖像進行對比，也即，一個子檢索模型可以用於將物體對應的目的地區域與一個類別的樣本圖像進行對比。

在一種可能實現方式中，一個子檢索模型可以與線上檢索資料庫中一個類別的樣本庫相關聯，一個類別的樣本庫可以包括多個樣本圖像，各個樣本圖像均可以對應於一個圖像索引，該圖像索引可以用於指示樣本圖像的圖像特徵，不同樣本圖像所對應的圖像索引也不同。

子檢索模型在進行圖像檢索時，可以計算該截圖圖像的圖像索引。例如，首先，可以縮小該截圖圖像的尺寸，對縮小後的截圖圖像進行色彩簡化，得到64級灰度圖像；然後，計算各個圖元的灰度平均值，將每個圖元的灰度與灰度平均值進行比較，當某一圖元的灰度大於或等於灰度平均值時，該某一圖元可以標記為1，當某一圖元的灰度小於灰度平均值時，該某一圖元可以標記為0，得到一個64位元的整數；最後，基於該64位元的整數確定一個雜湊值，作為該截圖圖像的圖像索引。需要說明的是，上述對圖像索引獲取方法的說明，僅是一種示例性說明，本申請實施例對具體採用哪種方法獲取該截圖圖像的圖像索引不作限定。

該子檢索模型獲取到截圖圖像的圖像索引後，可以確定截圖圖像的圖像索引與各個樣本圖像的圖像索引之間的漢明距離，該漢明距離可以用於指示截圖圖像與樣本圖像之間的相似度，通常情況下漢明距離越小，圖像之間的相似度越大。該伺服器可以獲取與該截圖圖像之間的相似度滿足目標條件的多個樣本圖像作為目標樣本圖像。例如，該目標條件可以是與該截圖圖像之間的相似度在按照從大到小的排序中位於前Y位，也即，伺服器可以將與該截圖圖像最相似的Y個樣本圖像確定為該目標樣本圖像，其中，Y為正整數，其具體數值可以由開發人員進行設置。當然，該目標條件也可以設置為其他內容，例如，該目標條件還可以是與該截圖圖像之間的相似度大於相似度閾值，該相似度閾值為任一大於0的數值，例如，該相似度閾值為80%，本申請實施例對此不作限定。

在本申請實施例中，圖像檢索步驟是基於樣本規模較大的線上檢索資料庫進行的，相比於物體檢測模型的訓練資料為100萬左右，該線上檢索資料庫的樣本規模可以達到10億左右，遠遠大於物體檢測模型的訓練資料，基於大規模的樣本資料，可以更精準的查詢、匹配出與截圖圖像相似的目標樣本圖像，從而可以獲得更精確的物體檢測結果。

407、伺服器基於該截圖圖像的圖像特徵以及各個類別中的該目標樣本圖像的圖像特徵，確定該物體屬於各個類別的該第二置信度。

上述步驟407，以目的地區域為截圖圖像為例，示出了伺服器基於該目的地區域的圖像特徵以及各個類別中的該目標樣本圖像的圖像特徵，確定該物體屬於各個類別的該第二置信度的一種可能實施方式。

在本申請實施例中，該伺服器基於該截圖圖像的圖像特徵以及各個類別中該目標樣本圖像的圖像特徵，確定該截圖圖像與各個類別的該目標樣本圖像之間的距離；再基於該截圖圖像與各個類別的該目標樣本圖像之間的距離，確定該物體屬於各個類別的第二置信度。

上述過程也即，以目的地區域為截圖圖像為例，示出了伺服器基於該目的地區域的圖像特徵以及各個類別中該目標樣本圖像的圖像特徵，確定該目的地區域與各個類別的該目標樣本圖像之間的距離；再基於該目的地區域與各個類別的該目標樣本圖像之間的距離，確定該物體屬於各個類別的第二置信度的一種可能實施方式。

在一種可能實現方式中，該物體檢索模型中還可以包括一個用於計算圖像之間距離的通用檢索模型，該通用檢索模型可以提取圖像特徵，進而基於圖像特徵確定圖像之間的距離，本申請實施例對該通用檢索模型的具體結果不作限定。在本申請實施例中，該伺服器可以通過該通用檢索模型提取截圖圖像與各個樣本圖像的圖像特徵，基於圖像特徵確定兩個圖像的圖像特徵之間的差異，確定兩個圖像之間的距離，進而確定截圖圖像與某一類別的樣本圖像之間的距離。可選地，該過程可以表示為下述公式(1)：

其中，q可以表示截圖圖像，c _m可以表示第m個類別，c _m,i可以表示第m個類別中第i個目標樣本圖像，d(q,c _m)可以表示截圖圖像q與類別c _m之間的距離，f( )可以表示通用檢索模型，f(q)和f(c _m,i)分別可以表示截圖圖像q和目標樣本圖像c _m,i的圖像特徵。

在一種可能實現方式中，該伺服器可以基於截圖圖像與各個類別之間的距離，確定該截圖圖像屬於各個類別的概率，即屬於各個類別的第二置信度，可選地，該過程可以表示為下述公式(2)：

其中，score(q,c _m)可以表示截圖圖像q屬於類別c _m的概率，M可以表示全部類別的數目，d(q,c _m)可以表示截圖圖像q與類別c _m之間的距離。

在本申請實施例中，該伺服器可以將該截圖圖像屬於各個類別的概率進行對比，即將各個類別對應的第二置信度進行對比，獲取最大第二置信度對應的類別作為該第二類別。

需要說明的是，上述步驟406和步驟407，是將該截圖圖像輸入物體檢索模型，由該物體檢索模型將該截圖圖像與多個類別的樣本圖像進行對比，得到該截圖圖像所包含物體屬於各個類別的第二置信度的步驟。換言之，以目的地區域為截圖圖像為例，示出了將該目的地區域輸入物體檢索模型，由該物體檢索模型將該目的地區域與各個類別的樣本圖像進行對比，得到該截圖圖像所包含物體屬於各個類別的第二置信度的過程。在本申請實施例中，由物體檢索模型基於資料量較大的線上資料庫進行檢索、分類，可以擴大物體檢測技術所支援的資料量，通過物體檢索模型對物體檢測模型的輸出結果進行修正，可以提高檢測結果的準確度。

408、伺服器基於該各個類別對應的該第一置信度以及該第二置信度，從該各個類別中確定該物體的目標類別。

其中，該目標類別對應的該第一置信度與該第二置信度之和最大。

在本申請實施例中，該伺服器可以將各個類別對應的第一置信度與第二置信度相加，得到各個類別對應的置信度和值，將置信度和值最大的類別作為該目標類別，即物體的所屬類別。可選地，該過程可以表示為下述公式(3)：

其中，c可以表示目標類別，score _检测(q,c _m)可以表示物體檢測模型輸出的第一置信度，score _检索(q,c _m)可以表示物體檢索模型輸出的第二置信度。

參見圖6，圖6是本申請實施例提供的一種物體檢測模型和物體檢索模型的示意圖，該物體檢測模型601可以對該靶心圖表像中物體的位置和類別進行預測，伺服器可以基於預測出的物體位置，對該靶心圖表像進行截圖，將截圖圖像輸入物體檢索模型602，由該物體檢索模型602進一步對該物體進行類別預測，再綜合物體檢測模型和物體檢索模型的預測結果，確定物體的所屬類別。

本申請實施例提供的技術方案，通過物體檢測模型對待檢測的靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖，基於該多個不同尺度的特徵圖，確定靶心圖表像中物體的圖像位置資訊以及該物體屬於各個類別的第一置信度，由物體檢測模型完成對物體類別的初步預測；再基於該物體的圖像位置資訊，對該靶心圖表像進行截圖，得到截圖圖像；通過物體檢索模型將截圖圖像與多個類別的樣本圖像進行對比，來對物體的所屬類別進行進一步預測，得到截圖圖像所包含物體屬於各個類別的第二置信度；將各個類別對應的第一置信度和第二置信度相加，將置信度之和最大的類別確定為目標類別，即物體的所屬類別。應用上述方案，通過物體檢測模型和物體檢索模型相結合的方式，進行兩次類別預測，通過物體檢索模型對物體檢測模型的輸出結果進行修正，可以有效提高預測結果的準確性。

在上述實施例中，應用物體檢測模型中的第一預測子網路對物體的所在位置和所屬類別進行預測，該第一預測子網路在模型訓練階段，所應用的訓練樣本中，需準確標注出各個物體的位置、類別，樣本標注過程費時費力，獲取到的訓練樣本數目較少，這就導致物體檢測模型所支援的資料檢測範圍較小，而且，增加新的訓練樣本的成本極高，進而導致難以對物體檢測模型所支援的資料檢測範圍進行拓展。在本申請實施例中，為克服這一問題，使物體檢測模型可以快速擴展檢測範圍，在該物體檢測模型中增加了與該第一預測子網路並列的第二預測子網路，從而實現雙流檢測，其中，一條流為標準的檢測流，即該第一預測子網路，用於預測物體的位置和類別，一條流為分類流，即該第二預測子網路，僅關注物體的類別預測。參見圖7，圖7是本申請實施例提供的一種物體檢測模型的示意圖，該物體檢測模型中包括第一預測子網路701和第二預測子網路702。

在本申請實施例中，該第二預測子網路僅對物體所屬的類別進行預測，而不關注物體所在位置。因此，該第二預測子網路在模型訓練階段，所應用的訓練樣本中，僅需標注出樣本圖像所包含物體的類別，在這種情況下，樣本標注的成本大大降低，該第二預測子網路容易獲取到更大規模的訓練資料，應用大量的訓練資料，可以快速擴展該第二預測子網路的檢測範圍，也即是，可以快速擴展該物體檢測模型的檢測範圍。在本申請實施例中，由於訓練樣本的資料量不同，該第一預測子網路與該第二預測子網路所支援的物體檢測範圍也不同。該第一預測子網路可以用於預測屬於第一類別範圍的物體的所在位置和所屬類別，該第二預測子網路可以用於預測屬於第二類別範圍的物體的所屬類別，該第二類別範圍大於該第一類別範圍。

在本申請實施例中，該第二預測子網路可以基於全域圖像對物體的類別進行預測。在一種可能實現方式中，該物體檢測模型對該靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖之後，該物體檢測模型可以通過該第二預測子網路分別對該多個不同尺度的特徵圖進行池化處理，得到多個全域分類預測矩陣，該全域分類預測矩陣中的各個數值可以用於表示該靶心圖表像所包含物體屬於各個類別的置信度。該物體檢測模型可以基於該多個全域分類預測矩陣，確定該靶心圖表像中屬於第二類別範圍的物體的所屬類別，例如，可以將不同尺度的特徵圖所對應的全域分類預測矩陣進行融合，得到一個全域預測矩陣，基於該一個全域預測矩陣中的數值，確定物體的所屬類別。需要說明的是，上述對第二預測子網路進行類別預測過程的說明，僅是一種示例性說明，本申請實施例對該第二預測子網路具體採用哪種方法進行類別預測不作限定。

圖8是本申請實施例提供的一種雙流檢測應用的示意圖，參見圖8，該雙流檢測模型801可以支援對第二類別範圍的資料進行檢測，該第二類別範圍包括該第一類別範圍，即支持精確檢測的類別，還可包括其他類別，即暫不支持精確檢測的類別。通過該雙流檢測模型801，對於屬於第一類別範圍的物體，可以輸出該物體的精確位置和類別，便於後續的識別過程，而且，對於這一類物體可以基於識別結果顯示物體的資訊信息、電商展示頁面等。對於屬於其他類別的物體，可以輸出該物體的類別，便於濾除和統計用戶的識別行為，引導使用者檢測其他物體。例如，將本方案應用於具備掃描識物功能的目標應用程式中時，安裝和運行有該目標應用程式的終端，可以通過攝像頭採集待識別物體的圖像，由該雙流檢測模型進行物體檢測，對於屬於可識別類別的物體，可以在檢測結果查看頁面，向使用者推送與該物體相關的購買連結、資訊信息等，對於屬於不可識別類別的物體，可以在檢測結果查看頁面顯示該物體的類別，並提示使用者這一類別的物體暫不支援識別，引導使用者掃描其他物體。在本申請實施例中，應用雙流檢測技術，可以快速擴展模型的檢測資料量，使模型可以檢測更多類別的物體，即使模型可以支援開放資料，可以給予使用者更多的資訊回饋，提高使用者體驗。當然，還可以在雙流檢測的基礎上，進一步增加檢測流，實現多流檢測，以獲取更豐富的檢測結果，本申請實施例對此不作限定。

上述實施例主要介紹了物體檢測模型通過第一預測子網路和第二預測子網路，對物體的所屬類別進行預測的過程，而在進行預測之前，需對該物體檢測模型進行訓練，圖9是本申請實施例提供的一種物體檢測模型訓練方法的流程圖，參見圖9，該方法具體可以包括以下步驟：

901、伺服器初始化該物體檢測模型中的各個參數。

該伺服器可以對該物體檢測模型的各個卷積層、全連接層、池化層等運算層中的各個參數進行隨機賦值，來實現參數初始化。在一種可能實現方式中，該伺服器可以採用方差為0.01，均值為0的高斯分佈對該物體檢測模型進行參數初始化。

需要說明的是，上述對物體檢測模型初始化方法的說明僅是一種示例性說明，本申請實施例對具體採用哪種模型初始化方式不作限定。

902、伺服器將訓練資料集輸入該物體檢測模型。

其中，該訓練資料集可以包括第一訓練資料集和第二訓練資料集，該第一訓練資料集中的圖像標注有各個物體的位置和類別，該第一訓練資料集可以用於對該第一預測子網路進行訓練，該第二訓練資料集中的圖像可以僅標注有各個物體的類別，該第二訓練資料集可以用於對該第二預測子網路進行訓練。

該伺服器可以將訓練資料集中的圖像輸入該物體檢測模型，由該物體檢測模型執行後續的物體檢測步驟。

903、伺服器獲取該物體檢測模型的模型輸出結果，計算模型輸出結果與正確結果之間的誤差。

在本申請實施例中，該伺服器可以基於多個損失函數來確定該模型輸出結果與正確結果之間的誤差。在一種可能實現方式中，可以通過Focal Loss(焦點損失)函數，來計算第一預測子網路中分類預測子網路的輸出結果與正確分類結果之間的誤差，可選地，該Focal Loss函數可以表示為下述公式(4)：FocalLoss(p _t)=-α_t(1-p _t)^γlog(p _t) (4)

其中，t可以表示第t個檢測框，α_t可以表示樣本權重，其數值可以由開發人員進行設置，p _t可以表示分類預測子網路的輸出結果，即該檢測框中物體屬於正確類別的概率，γ可以表示用於調節難易樣本的權重。例如，p _t較大時，說明該模型對該物體的類別預測正確的難度低，則可以降低模型對該類型樣本的重視程度，即(1-p _t)^γ減小，p _t較小時，說明該模型對該物體的類別預測正確的難度低，則可以降低模型對該類型樣本的重視程度，即(1-p _t)^γ減小。在本申請實施例中，通過對難易樣本的權重進行調節，可以緩解圖像訓練過程中難易樣本比例失衡的問題，降低簡單樣本在訓練過程中所占的權重。

在一種可能實現方式中，可以通過SmoothL1(平滑L1)損失函數，來計算第一預測子網路中位置預測子網路的輸出結果與正確位置之間的誤差，可選地，該SmoothL1函數可以表示為下述公式(5)：

其中，x可以表示位置預測子網路的輸出結果與正確位置之間的差值。在本申請實施例中，應用Smooth L1損失函數，可以對L1損失函數和L2損失函數進行結合，在位置預測子網路的輸出結果與正確位置之間的差值較大時，也即是，在模型訓練初期階段，應用L1損失函數，使模型訓練不受離群點過大幹擾，利於模型訓練；在位置預測子網路的輸出結果與正確位置之間的差值較小時，也即是，在模型收斂階段，應用L2損失函數，增大對異常點的敏感度，使模型可以有更穩定的輸出。

在一種可能實現方式中，可以通過BCE(Binary Cross Entropy，二元交叉熵)損失函數，來計算第二預測子網路的輸出結果與正確分類結果之間的誤差，可選地，該BCE損失函數可以表示為下述公式(6)：

其中，N可以表示圖像中的物體數目；C可以表示物體檢測模型可以預測的類別數目；y _i,c可以表示樣本是否屬於類別c，若是，則y _i,c的值為1，若否，則y _i,c的值為0；x _i可以表示樣本i的圖像特徵；f(x _i)可以表示圖像特徵的sigmoid(邏輯回歸函數)表達，

。

904、該伺服器基於該模型輸出結果與正確結果之間的誤差，對該物體檢測模型中的各個參數進行調整，至到符合預設條件時，得到訓練好的物體檢測模型。

在一種可能實現方式中，該伺服器可以將各個誤差分別與各個誤差閾值進行比較，當該誤差大於預設閾值時，該伺服器可以將誤差反向傳播至該物體檢測模型，進而求解該物體檢測模型中的各個參數。其中，該多個誤差閾值均可以由開發人員設置，誤差閾值的個數與獲取的誤差個數相同。

當該誤差小於預設閾值時，則確定該物體檢測模型輸出了正確的檢測結果，該伺服器可以繼續讀取下一組圖像，執行上述步驟903，若該伺服器獲取到的模型輸出結果正確的個數到達目標數目，或者遍歷該訓練資料集達到目標次數時，則可以確定該物體檢測模型訓練完畢，即達到預設條件。其中，該目標數目和目標次數均可以由開發人員進行設置，該預設條件的具體內容可以由開發人員進行設置，本申請實施例對此不作限定。

上述實施例主要介紹了物體檢測模型的應用過程和訓練過程，在實際應用場景中，該物體檢測模型所承載的資料量極大，需要支援高併發請求。在本申請實施例中，可以對該物體檢測模型中的各個模組進行加速處理，以提高該物體檢測模型的資料處理能力。

參見圖10，圖10是本申請實施例提供的一種物體檢測模型的加速方法示意圖，該物體檢測模型主要包括資料預處理過程1001、模型預測過程1002以及後處理過程1003。可選地，結合圖10，對該物體檢測模型的加速方法進行說明。在一種可能實現方式中，可以應用DALI(Data Loading Library，資料加速庫)對資料預處理過程1001進行加速。該資料預處理過程可以包括圖像讀取1004、圖像解碼1005、圖像縮放1006等處理過程，在本申請實施例中，可以通應用DALI資料加速庫中的nvjpeg加速庫，來對圖像解碼1005進行加速；將耗時較長的圖像縮放1006部署到GPU中加速完成；通過DALI資料加速庫將所有資料處理環節基於靜態圖像來實現，以進一步提升整個預處理過程的資料處理速度。

在一種可能實現方式中，模型預測過程1002可以包括模型前向過程1007、解密錨位置和類別預測過程以及非極大值抑制過程，對於模型預測過程1002可以通過tensorRT優化器對其中的模型前向過程1007進行加速。例如，tensorRT首先可以對物體檢測模型中各個運算層的卷積運算過程進行優化，採用層間融合技術對各個運算層進行加速，可選地，可以將卷積層、BN層和啟動層合併成一個網路結構，以降低GPU資源的佔用；基於tensorRT可以適配硬體的特性，來優化顯存利用，從而支援處理高併發請求；基於 tensorRT支援模型量化操作的特性，將float32位運算量化到int8進行計算，進一步降低顯存耗用，加速卷積運算的速度。

在一種可能實現方式中，可以通過將資料處理過程並行化，來提高模型的資料處理速度，例如，可以將資料預處理過程1001和模型前向過程1007部署為並存執行，來加速資料處理。

應用上述技術方案，對物體檢測過程中，耗時最長的兩個資料處理過程，即資料預處理過程和模型前向過程進行加速，再將兩個過程並存執行，可以有效提高物體檢測模型的資料處理速度。表1是本申請實施例提供的一種模型性能資料表，該表1中的資料是應用雙流物體檢測模型，對512*512大小的圖像進行檢測過程中，應用DALI、tensorRT以及DALI和tensorRT的組合方法，所得到的模型性能資料，包括模型精度、資料預處理時間、模型預測時間、檢測幀率以及顯存耗用情況。

基於表1中的資料可知，應用DALI和tensorRT，可以使模型的檢測幀率大大提升，由13.9FPS提升至133.3FPS，檢測速度提升了約10倍，在本申請實施例中，應用DALI資料加速庫和tensorRT優化器，可以使該物體檢測模型能夠對高併發請求進行處理。

上述所有可選技術方案，可以採用任意結合形成本申請的可選實施例，在此不再一一贅述。

圖11是本申請實施例提供的一種基於人工智慧的物體檢測裝置的結構示意圖，參見圖11，該裝置包括：第一置信度確定模組1101，用於將包含物體的靶心圖表像輸入物體檢測模型，由該物體檢測模型對該靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖；基於該多個不同尺度的特徵圖，確定該物體的圖像位置資訊以及該物體屬於各個類別的第一置信度；截圖模組1102，用於基於該物體的圖像位置資訊，對該靶心圖表像進行截圖，得到截圖圖像；該截圖模組1102也即目的地區域獲取模組，用於基於該物體的圖像位置資訊，從該靶心圖表像中獲取該物體所在的目的地區域；第二置信度獲取模組1103，用於將該截圖圖像輸入物體檢索模型，由該物體檢索模型將該截圖圖像與多個類別的樣本圖像進行對比，得到該物體屬於各個類別的第二置信度；該第二置信度獲取模組1103，也即用於將該目的地區域輸入物體檢索模型，由該物體檢索模型將該目的地區域與各個類別的樣本圖像進行對比，得到該物體屬於各個類別的第二置信度；類別確定模組1104，用於基於該各個類別對應的該第一置信度以及該第二置信度，從該各個類別中確定該物體的目標類別，該目標類別對應的該第一置信度與該第二置信度之和最大。

在一種可能實現方式中，該第一置信度確定模組1101用於：通過該物體檢測模型中多個不同尺度的神經網路，依次對該靶心圖表像進行特徵提取，得到多個不同尺度的中間特徵圖；對該多個不同尺度的中間特徵圖進行特徵融合，得到該多個不同尺度的特徵圖。

在一種可能實現方式中，該第一置信度確定模組1101用於：對於該多個不同尺度的神經網路中的任一個神經網路，獲取前一個神經網路中最後一個運算層輸出的第一尺度的第一中間特徵圖，對該第一中間特徵圖進行下取樣以及特徵提取，得到第二尺度的第二中間特徵圖，該第二尺度小於該第一尺度。

在一種可能實現方式中，該第一置信度確定模組1101用於：對於任一個神經網路輸出的第二尺度的第二中間特徵圖，獲取前一個神經網路輸出的第一尺度的第一中間特徵圖；基於該第一尺度，對該第二中間特徵圖進行上取樣，得到第一尺度的第二中間特徵圖；對該第一尺度的第二中間特徵圖和該第一尺度的第一中間特徵圖進行特徵融合，得到第一尺度的特徵圖。

在一種可能實現方式中，該第一置信度確定模組1101用於：將該第一尺度的第二中間特徵圖和該第一尺度的第一中間特徵圖中，相同位置的元素相加，得到該第一尺度的特徵圖。

在一種可能實現方式中，該第一置信度確定模組1101用於：對於該多個不同尺度的特徵圖中的任一個特徵圖，通過該物體檢測模型中的分類預測子網路，對該任一個特徵圖進行卷積運算，得到該靶心圖表像對應的類別矩陣，該類別矩陣用於指示該靶心圖表像中該物體屬於各個類別的第一置信度；對於該多個不同尺度的特徵圖中的任一個特徵圖，通過該物體檢測模型中的位置預測子網路，對該任一個特徵圖進行卷積運算，得到該靶心圖表像對應的位置資訊矩陣，該位置資訊矩陣用於指示該靶心圖表像中該物體的圖像位置資訊。

在一種可能實現方式中，該物體檢索模型包括多個子檢索模型，一個該子檢索模型用於將該物體對應的截圖圖像與一個類別的樣本圖像進行對比，也即是說，一個該子檢索模型用於將該物體對應的目的地區域與一個類別的樣本圖像進行對比。

在一種可能實現方式中，該第二置信度獲取模組1103用於：對於任一該物體對應的截圖圖像，通過任一該子檢索模型，從該一個類別的樣本圖像中，獲取與該截圖圖像之間的相似度滿足目標條件的多個目標樣本圖像；基於該截圖圖像的圖像特徵以及各個類別中的該目標樣本圖像的圖像特徵，確定該物體屬於各個類別的第二置信度。

也即是說，該第二置信度獲取模組1103用於：對於任一該物體對應的目的地區域，通過任一該子檢索模型，從該一個類別的樣本圖像中，獲取與該目的地區域之間的相似度滿足目標條件的多個目標樣本圖像；基於該目的地區域的圖像特徵以及各個類別中的該目標樣本圖像的圖像特徵，確定該物體屬於各個類別的第二置信度。

在一種可能實現方式中，該第二置信度獲取模組1103用於：基於該截圖圖像的圖像特徵以及各個類別中該目標樣本圖像的圖像特徵，確定該截圖圖像與各個類別的該目標樣本圖像之間的距離；基於該截圖圖像與各個類別的該目標樣本圖像之間的距離，確定該物體屬於各個類別的第二置信度。

也即是說，該第二置信度獲取模組1103用於：基於該目的地區域的圖像特徵以及各個類別中該目標樣本圖像的圖像特徵，確定該目的地區域與各個類別的該目標樣本圖像之間的距離；基於該目的地區域與各個類別的該目標樣本圖像之間的距離，確定該物體屬於各個類別的第二置信度。

在一種可能實現方式中，該裝置還包括：池化模組，用於通過該第二預測子網路分別對該多個不同尺度的特徵圖進行池化處理，得到多個全域分類預測矩陣；該類別確定模組1104，還用於基於該多個全域分類預測矩陣，確定該靶心圖表像中屬於第二類別範圍的物體的所屬類別。

本申請實施例提供的裝置，本申請實施例提供的技術方案，通過物體檢測模型對待檢測的靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖，基於該多個不同尺度的特徵圖，確定靶心圖表像中物體的圖像位置資訊以及該物體屬於各個類別的第一置信度，由物體檢測模型完成對物體類別的初步預測；再基於該物體的圖像位置資訊，對該靶心圖表像進行截圖，得到截圖圖像；通過物體檢索模型將截圖圖像與多個類別的樣本圖像進行對比，來對物體的所屬類別進行進一步預測，得到截圖圖像所包含物體屬於各個類別的第二置信度；將各個類別對應的第一置信度和第二置信度相加，將置信度之和最大的類別確定為目標類別，即物體的所屬類別。應用上述裝置，通過物體檢測模型和物體檢索模型相結合的方式，進行兩次類別預測，通過物體檢索模型對物體檢測模型的輸出結果進行修正，可以有效提高預測結果的準確性。

需要說明的是：上述實施例提供的基於人工智慧的物體檢測裝置在物體檢測時，僅以上述各功能模組的劃分進行舉例說明，實際應用中，可以根據需要而將上述功能分配由不同的功能模組完成，即將裝置的內部結構劃分成不同的功能模組，以完成以上描述的全部或者部分功能。另外，上述實施例提供的基於人工智慧的物體檢測裝置與基於人工智慧的物體檢測方法實施例屬於同一構思，其具體實現過程詳見方法實施例，這裡不再贅述。

上述技術方案所提供的電腦設備可以實現為終端或伺服器，例如，該電腦設備包括一個或多個處理器和一個或多個記憶體，該一個或多個記憶體中儲存有至少一條程式碼，該至少一條程式碼由該一個或多個處理器載入並執行如下操作：將包含物體的靶心圖表像輸入物體檢測模型，由該物體檢測模型對該靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖；基於該多個不同尺度的特徵圖，確定該物體的圖像位置資訊以及該物體屬於各個類別的第一置信度；基於該物體的圖像位置資訊，從該靶心圖表像中獲取該物體所在的目的地區域；將該目的地區域輸入物體檢索模型，由該物體檢索模型將該目的地區域與各個類別的樣本圖像進行對比，得到該物體屬於各個類別的第二置信度；基於該各個類別對應的該第一置信度以及該第二置信度，從該各個類別中確定該物體的目標類別，該目標類別對應的該第一置信度與該第二置信度之和最大。

在一些實施例中，該至少一條程式碼由該一個或多個處理器載入並執行如下操作：通過該物體檢測模型中多個不同尺度的神經網路，依次對該靶心圖表像進行特徵提取，得到多個不同尺度的中間特徵圖；對該多個不同尺度的中間特徵圖進行特徵融合，得到該多個不同尺度的特徵圖。

在一些實施例中，該至少一條程式碼由該一個或多個處理器載入並執行如下操作：對於該多個不同尺度的神經網路中的任一個神經網路，獲取前一個神經網路中最後一個運算層輸出的第一尺度的第一中間特徵圖，對該第一中間特徵圖進行下取樣以及特徵提取，得到第二尺度的第二中間特徵圖，該第二尺度小於該第一尺度。

在一些實施例中，該至少一條程式碼由該一個或多個處理器載入並執行如下操作：對於任一個神經網路輸出的第二尺度的第二中間特徵圖，獲取前一個神經網路輸出的第一尺度的第一中間特徵圖；基於該第一尺度，對該第二中間特徵圖進行上取樣，得到第一尺度的第二中間特徵圖；對該第一尺度的第二中間特徵圖和該第一尺度的第一中間特徵圖進行特徵融合，得到第一尺度的特徵圖。

在一些實施例中，該至少一條程式碼由該一個或多個處理器載入並執行如下操作：將該第一尺度的第二中間特徵圖和該第一尺度的第一中間特徵圖中，相同位置的元素相加，得到該第一尺度的特徵圖。

在一些實施例中，該至少一條程式碼由該一個或多個處理器載入並執行如下操作：對於該多個不同尺度的特徵圖中的任一個特徵圖，通過該物體檢測模型中的分類預測子網路，對該任一個特徵圖進行卷積運算，得到該靶心圖表像對應的類別矩陣，該類別矩陣用於指示該靶心圖表像中該物體屬於各個類別的第一置信度；對於該多個不同尺度的特徵圖中的任一個特徵圖，通過該物體檢測模型中的位置預測子網路，對該任一個特徵圖進行卷積運算，得到該靶心圖表像對應的位置資訊矩陣，該位置資訊矩陣用於指示該靶心圖表像中該物體的圖像位置資訊。

在一些實施例中，該物體檢索模型包括多個子檢索模型，一個該子檢索模型用於將該物體對應的目的地區域與一個類別的樣本圖像進行對比。

在一些實施例中，該至少一條程式碼由該一個或多個處理器載入並執行如下操作：對於任一該物體對應的目的地區域，通過任一該子檢索模型，從該一個類別的樣本圖像中，獲取與該目的地區域之間的相似度滿足目標條件的多個目標樣本圖像；基於該目的地區域的圖像特徵以及各個類別中的該目標樣本圖像的圖像特徵，確定該物體屬於各個類別的第二置信度。

在一些實施例中，該至少一條程式碼由該一個或多個處理器載入並執行如下操作：基於該目的地區域的圖像特徵以及各個類別中該目標樣本圖像的圖像特徵，確定該目的地區域與各個類別的該目標樣本圖像之間的距離；基於該目的地區域與各個類別的該目標樣本圖像之間的距離，確定該物體屬於各個類別的第二置信度。

在一些實施例中，該物體檢測模型包括第一預測子網路以及第二預測子網路，該第一預測子網路用於預測屬於第一類別範圍的物體的所在位置和所屬類別，該第二預測子網路用於預測屬於第二類別範圍的物體的所屬類別，該第二類別範圍大於該第一類別範圍。

在一些實施例中，該第一預測子網路包括分類預測子網路和位置預測子網路。

在一些實施例中，該至少一條程式碼由該一個或多個處理器載入並執行如下操作：通過該第二預測子網路分別對該多個不同尺度的特徵圖進行池化處理，得到多個全域分類預測矩陣；基於該多個全域分類預測矩陣，確定該靶心圖表像中屬於第二類別範圍的物體的所屬類別。

下面以電腦設備為終端為例進行說明，圖12是本申請實施例提供的一種終端的結構示意圖。該終端1200可以是：智慧手機、平板電腦、筆記型電腦或桌上型電腦。終端1200還可能被稱為使用者設備、可攜式終端、膝上型終端、桌上型終端等其他名稱。

通常，終端1200包括有：一個或多個處理器1201和一個或多個記憶體1202。

處理器1201可以包括一個或多個處理核心，比如4核心處理器、8核心處理器等。在一些實施例中，處理器1201集成有GPU(Graphics Processing Unit，影像處理器)，GPU用於負責顯示幕所需要顯示的內容的渲染和繪製。一些實施例中，處理器1201還可以包括AI(Artificial Intelligence，人工智慧)處理器，該AI處理器用於處理有關機器學習的計算操作。

記憶體1202可以包括一個或多個電腦可讀儲存媒體，該電腦可讀儲存媒體可以是非暫態的。在一些實施例中，記憶體1202中的非暫態的電腦可讀儲存媒體用於儲存至少一條程式碼，該至少一條程式碼用於被處理器1201所執行以實現本申請中方法實施例提供的基於人工智慧的物體檢測方法。

在一些實施例中，終端1200還可選包括有：週邊設備介面1203和至少一個週邊設備。處理器1201、記憶體1202和週邊設備介面1203之間可以通過匯流排或信號線相連。各個週邊設備可以通過匯流排、信號線或電路板與週邊設備介面1203相連。可選地，週邊設備包括顯示幕1204。

週邊設備介面1203可被用於將I/O(Input/Output，輸入/輸出)相關的至少一個週邊設備連接到處理器1201和記憶體1202。

顯示幕1204用於顯示UI(User Interface，使用者介面)。該UI可以包括圖形、文本、圖示、視頻及其它們的任意組合。當顯示幕1204是觸摸顯示幕時，顯示幕1204還具有採集在顯示幕1204的表面或表面上方的觸摸信號的能力。該觸摸信號可以作為控制信號輸入至處理器1201進行處理。此時，顯示幕1204還可以用於提供虛擬按鈕和/或虛擬鍵盤，也稱軟按鈕和/或軟鍵盤。

本領域技術人員可以理解，圖12中示出的結構並不構成對終端1200的限定，可以包括比圖示更多或更少的元件，或者組合某些元件，或者採用不同的元件佈置。

下面以電腦設備為伺服器為例進行說明，圖13是本申請實施例提供的一種伺服器的結構示意圖，該伺服器1300可因配置或性能不同而產生比較大的差異，可以包括一個或多個處理器(Central Processing Units，CPU)1301和一個或多個的記憶體1302，其中，該一個或多個記憶體1302中儲存有至少一條程式碼，該至少一條程式碼由該一個或多個處理器1301載入並執行以實現上述各個方法實施例提供的方法。當然，該伺服器1300還可以具有有線或無線網路介面、鍵盤以及輸入輸出介面等部件，以便進行輸入輸出，該伺服器1300還可以包括其他用於實現設備功能的部件，在此不做贅述。

在示例性實施例中，還提供了一種電腦可讀儲存媒體，例如包括至少一條程式碼的記憶體，上述至少一條程式碼可由處理器執行以完成上述實施例中的基於人工智慧的物體檢測方法。例如，該電腦可讀儲存媒體可以是唯讀記憶體(Read-Only Memory,ROM)、隨機存取記憶體(Random Access Memory，RAM)、唯讀光碟(Compact Disc Read-Only Memory，CD-ROM)、磁帶、軟碟和光資料存放裝置等。

在一些實施例中，該至少一條程式碼可由處理器載入並執行以實現如下操作：將包含物體的靶心圖表像輸入物體檢測模型，由該物體檢測模型對該靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖；基於該多個不同尺度的特徵圖，確定該物體的圖像位置資訊以及該物體屬於各個類別的第一置信度；基於該物體的圖像位置資訊，從該靶心圖表像中獲取該物體所在的目的地區域；將該目的地區域輸入物體檢索模型，由該物體檢索模型將該目的地區域與各個類別的樣本圖像進行對比，得到該物體屬於各個類別的第二置信度；基於該各個類別對應的該第一置信度以及該第二置信度，從該各個類別中確定該物體的目標類別，該目標類別對應的該第一置信度與該第二置信度之和最大。

在一些實施例中，該至少一條程式碼由處理器載入並執行以實現如下操作：通過該物體檢測模型中多個不同尺度的神經網路，依次對該靶心圖表像進行特徵提取，得到多個不同尺度的中間特徵圖；對該多個不同尺度的中間特徵圖進行特徵融合，得到該多個不同尺度的特徵圖。

在一些實施例中，該至少一條程式碼由處理器載入並執行以實現如下操作：對於該多個不同尺度的神經網路中的任一個神經網路，獲取前一個神經網路中最後一個運算層輸出的第一尺度的第一中間特徵圖，對該第一中間特徵圖進行下取樣以及特徵提取，得到第二尺度的第二中間特徵圖，該第二尺度小於該第一尺度。

在一些實施例中，該至少一條程式碼由處理器載入並執行以實現如下操作：對於任一個神經網路輸出的第二尺度的第二中間特徵圖，獲取前一個神經網路輸出的第一尺度的第一中間特徵圖；基於該第一尺度，對該第二中間特徵圖進行上取樣，得到第一尺度的第二中間特徵圖；對該第一尺度的第二中間特徵圖和該第一尺度的第一中間特徵圖進行特徵融合，得到第一尺度的特徵圖。

在一些實施例中，該至少一條程式碼由處理器載入並執行以實現如下操作：將該第一尺度的第二中間特徵圖和該第一尺度的第一中間特徵圖中，相同位置的元素相加，得到該第一尺度的特徵圖。

在一些實施例中，該至少一條程式碼由處理器載入並執行以實現如下操作：對於該多個不同尺度的特徵圖中的任一個特徵圖，通過該物體檢測模型中的分類預測子網路，對該任一個特徵圖進行卷積運算，得到該靶心圖表像對應的類別矩陣，該類別矩陣用於指示該靶心圖表像中該物體屬於各個類別的第一置信度；對於該多個不同尺度的特徵圖中的任一個特徵圖，通過該物體檢測模型中的位置預測子網路，對該任一個特徵圖進行卷積運算，得到該靶心圖表像對應的位置資訊矩陣，該位置資訊矩陣用於指示該靶心圖表像中該物體的圖像位置資訊。

在一些實施例中，該至少一條程式碼由處理器載入並執行以實現如下操作：對於任一該物體對應的目的地區域，通過任一該子檢索模型，從該一個類別的樣本圖像中，獲取與該目的地區域之間的相似度滿足目標條件的多個目標樣本圖像；基於該目的地區域的圖像特徵以及各個類別中的該目標樣本圖像的圖像特徵，確定該物體屬於各個類別的第二置信度。

在一些實施例中，該至少一條程式碼由處理器載入並執行以實現如下操作：基於該目的地區域的圖像特徵以及各個類別中該目標樣本圖像的圖像特徵，確定該目的地區域與各個類別的該目標樣本圖像之間的距離；基於該目的地區域與各個類別的該目標樣本圖像之間的距離，確定該物體屬於各個類別的第二置信度。

在一些實施例中，該至少一條程式碼由處理器載入並執行以實現如下操作：通過該第二預測子網路分別對該多個不同尺度的特徵圖進行池化處理，得到多個全域分類預測矩陣；基於該多個全域分類預測矩陣，確定該靶心圖表像中屬於第二類別範圍的物體的所屬類別。

在一些實施例中，還提供一種包括至少一條程式碼的電腦程式或電腦程式產品，當其在電腦設備上運行時，使得電腦設備執行前述各個實施例所提供的基於人工智慧的物體檢測方法中任一種可能實現方式，在此不作贅述。

本領域普通技術人員可以理解實現上述實施例的全部或部分步驟可以通過硬體來完成，也可以通過程式來至少一條程式碼相關的硬體完成，該程式可以儲存於一種電腦可讀儲存媒體中，上述提到的儲存媒體可以是唯讀記憶體，磁片或光碟等。

應當理解的是，本申請並不局限於上面已經描述並在附圖中示出的精確結構，並且可以在不脫離其範圍進行各種修改和改變。本申請的範圍僅由所附的請求項來限制。

201~204:步驟

Claims

一種基於人工智慧的物體檢測方法，其應用於電腦設備，所述方法包括：將包含物體的靶心圖表像輸入物體檢測模型，由所述物體檢測模型對所述靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖；基於所述多個不同尺度的特徵圖，確定所述物體的圖像位置資訊以及所述物體屬於各個類別的第一置信度；基於所述物體的圖像位置資訊，從所述靶心圖表像中獲取所述物體所在的目的地區域；將所述目的地區域輸入物體檢索模型，由所述物體檢索模型將所述目的地區域與各個類別的樣本圖像進行對比，得到所述物體屬於各個類別的第二置信度；將所述各個類別對應的所述第一置信度以及所述第二置信度相加，從所述各個類別中確定所述物體的目標類別，所述目標類別對應的所述第一置信度與所述第二置信度之和最大。
根據請求項1所述的方法，其中，所述由所述物體檢測模型對所述靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖，包括：通過所述物體檢測模型中多個不同尺度的神經網路，依次對所述靶心圖表像進行特徵提取，得到多個不同尺度的中間特徵圖；對所述多個不同尺度的中間特徵圖進行特徵融合，得到所述多個不同尺度的特徵圖。
根據請求項2所述的方法，其中，所述通過所述物體檢測模型中多個不同尺度的神經網路，依次對所述靶心圖表像進行特徵提取，得到多個不同尺度的中間特徵圖，包括：對於所述多個不同尺度的神經網路中的任一個神經網路，獲取前一個神經網路中最後一個運算層輸出的第一尺度的第一中間特徵圖，對所述第一中間特徵圖進行下取樣以及特徵提取，得到第二尺度的第二中間特徵圖，所述第二尺度小於所述第一尺度。
根據請求項3所述的方法，其中，所述對所述多個不同尺度的中間特徵圖進行特徵融合，得到所述多個不同尺度的特徵圖，包括：對於任一個神經網路輸出的第二尺度的第二中間特徵圖，獲取前一個神經網路輸出的第一尺度的第一中間特徵圖；基於所述第一尺度，對所述第二中間特徵圖進行上取樣，得到第一尺度的第二中間特徵圖；對所述第一尺度的第二中間特徵圖和所述第一尺度的第一中間特徵圖進行特徵融合，得到第一尺度的特徵圖。
根據請求項4所述的方法，其中，所述對所述第一尺度的第二中間特徵圖和所述第一尺度的第一中間特徵圖進行特徵融合，得到第一尺度的特徵圖，包括：將所述第一尺度的第二中間特徵圖和所述第一尺度的第一中間特徵圖中，相同位置的元素相加，得到所述第一尺度的特徵圖。
根據請求項1所述的方法，其中，所述基於所述多個不同尺度的特徵圖，確定所述物體的圖像位置資訊以及所述物體屬於各個類別的第一置信度，包括：對於所述多個不同尺度的特徵圖中的任一個特徵圖，通過所述物體檢測模型中的分類預測子網路，對所述任一個特徵圖進行卷積運算，得到所述靶心圖表像對應的類別矩陣，所述類別矩陣用於指示所述靶心圖表像中所述物體屬於各個類別的第一置信度；對於所述多個不同尺度的特徵圖中的任一個特徵圖，通過所述物體檢測模型中的位置預測子網路，對所述任一個特徵圖進行卷積運算，得到所述靶心圖表像對應的位置資訊矩陣，所述位置資訊矩陣用於指示所述靶心圖表像中所述物體的圖像位置資訊。
根據請求項1所述的方法，其中，所述物體檢索模型包括多個子檢索模型，一個所述子檢索模型用於將所述物體對應的目的地區域與一個類別的樣本圖像進行對比。
根據請求項7所述的方法，其中，所述由所述物體檢索模型將所述目的地區域與各個類別的樣本圖像進行對比，得到所述物體屬於各個類別的第二置信度，包括：對於任一所述物體對應的目的地區域，通過任一所述子檢索模型，從所述一個類別的樣本圖像中，獲取與所述目的地區域之間的相似度滿足目標條件的多個目標樣本圖像；基於所述目的地區域的圖像特徵以及各個類別中的所述目標樣本圖像的圖像特徵，確定所述物體屬於各個類別的第二置信度。
根據請求項8所述的方法，其中，所述基於所述目的地區域的圖像特徵以及各個類別中的所述目標樣本圖像的圖像特徵，確定所述物體屬於各個類別的第二置信度，包括：基於所述目的地區域的圖像特徵以及各個類別中所述目標樣本圖像的圖像特徵，確定所述目的地區域與各個類別的所述目標樣本圖像之間的距離；基於所述目的地區域與各個類別的所述目標樣本圖像之間的距離，確定所述物體屬於各個類別的第二置信度。
根據請求項1所述的方法，其中，所述物體檢測模型包括第一預測子網路以及第二預測子網路，所述第一預測子網路用於預測屬於第一類別範圍的物體的所在位置和所屬類別，所述第二預測子網路用於預測屬於第二類別範圍的物體的所屬類別，所述第二類別範圍大於所述第一類別範圍。
根據請求項10所述的方法，其中，所述第一預測子網路包括分類預測子網路和位置預測子網路。
根據請求項10所述的方法，其中，所述由所述物體檢測模型對所述靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖之後，所述方法還包括：通過所述第二預測子網路分別對所述多個不同尺度的特徵圖進行池化處理，得到多個全域分類預測矩陣；基於所述多個全域分類預測矩陣，確定所述靶心圖表像中屬於第二類別範圍的物體的所屬類別。
一種基於人工智慧的物體檢測裝置，其包括：第一置信度確定模組，用於將包含物體的靶心圖表像輸入物體檢測模型，由所述物體檢測模型對所述靶心圖表像進行特徵提取，得到多個不同尺度的特徵圖；基於所述多個不同尺度的特徵圖，確定所述物體的圖像位置資訊以及所述物體屬於各個類別的第一置信度；目的地區域獲取模組，用於基於所述物體的圖像位置資訊，從所述靶心圖表像中獲取所述物體所在的目的地區域；第二置信度獲取模組，用於將所述目的地區域輸入物體檢索模型，由所述物體檢索模型將所述目的地區域與各個類別的樣本圖像進行對比，得到所述物體屬於各個類別的第二置信度；類別確定模組，用於基於所述各個類別對應的所述第一置信度以及所述第二置信度，從所述各個類別中確定所述物體的目標類別，所述目標類別對應的所述第一置信度與所述第二置信度之和最大。
一種電腦設備，其包括一個或多個處理器和一個或多個記憶體，所述一個或多個記憶體中儲存有至少一條程式碼，所述至少一條程式碼由所述一個或多個處理器載入並執行以實現如請求項1至請求項12任一項所述的基於人工智慧的物體檢測方法。
一種電腦可讀儲存媒體，其中，所述電腦可讀儲存媒體中儲存有至少一條程式碼，所述至少一條程式碼由處理器載入並執行以實現如請求項1至請求項12任一項所述的基於人工智慧的物體檢測方法。