TW202125415A

TW202125415A - 三維目標檢測及模型的訓練方法、設備、儲存媒體

Info

Publication number: TW202125415A
Application number: TW109143832A
Authority: TW
Inventors: 董樂; 張寧; 陳相蕾; 趙磊; 黃寧; 趙亮; 袁璟
Original assignee: 中國商上海商湯智能科技有限公司
Priority date: 2019-12-27
Filing date: 2020-12-11
Publication date: 2021-07-01
Also published as: JP2022517769A; US20220351501A1; CN111179247A; WO2021128825A1

Abstract

本申請揭露了三維目標檢測及模型的訓練方法及裝置、設備、儲存媒體，其中，三維目標檢測模型的訓練方法包括：獲取樣本三維圖像，其中，樣本三維圖像標注有三維目標的實際區域的實際位置資訊；利用三維目標檢測模型對樣本三維圖像進行目標檢測，得到與樣本三維圖像的一個或多個子圖像對應的一個或多個預測區域資訊，其中，每個預測區域資訊包括預測區域的預測位置資訊和預測置信度；利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值；利用損失值，調整三維目標檢測模型的參數。

Description

三維目標檢測及模型的訓練方法、設備、儲存媒體

本申請基於申請號為201911379639.4、申請日為2019年12月27日的中國專利申請提出，並要求該中國專利申請的優先權，該中國專利申請的全部內容在此以引入方式併入本申請。本申請涉及人工智慧技術領域，尤其涉及一種三維目標檢測方法及其模型的訓練方法、設備、儲存媒體。

隨著神經網路、深度學習等人工智慧技術的發展，對神經網路模型進行訓練，並利用經訓練的神經網路模型完成目標檢測等任務的方式，逐漸受到人們的青睞。

然而，現有的神經網路模型一般都是以二維圖像作為檢測物件而設計的，對於諸如MRI（Magnetic Resonance Imaging，核磁共振成像）圖像等三維圖像，往往需要將其拆分為二維平面圖像後進行處理，從而失去三維圖像中部分空間資訊和結構資訊，因此，難以直接檢測得到三維圖像中的三維目標。

本申請期望提供一種三維目標檢測方法及其模型的訓練方法、設備、儲存媒體，能夠直接檢測得到三維目標，並降低其檢測難度。

本申請實施例提供了一種三維目標檢測模型的訓練方法，包括：獲取樣本三維圖像，其中，樣本三維圖像標注有三維目標的實際區域的實際位置資訊；利用三維目標檢測模型對樣本三維圖像進行目標檢測，得到與樣本三維圖像的一個或多個子圖像對應的一個或多個預測區域資訊，其中，每個預測區域資訊包括預測區域的預測位置資訊和預測置信度；利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值；利用損失值，調整三維目標檢測模型的參數。因此，能夠訓練得到對三維圖像進行三維目標檢測的模型，而無需將三維影像處理為二維平面圖像後再進行目標檢測，故此，能夠有效保留三維目標的空間資訊和結構資訊，從而能夠直接檢測得到三維目標。由於三維目標檢測模型進行目標檢測時，能夠得到三維圖像一個或多個子圖像的預測區域資訊，從而能夠在三維圖像的一個或多個子圖像中進行三維目標檢測，有助於降低三維目標檢測的難度。

在一些實施例中，預測區域資訊的數量為預設數量個，預設數量與三維目標檢測模型的輸出尺寸相匹配，利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值，包括：利用實際位置資訊，生成分別與預設數量個子圖像對應的預設數量個實際區域資訊，其中，每個實際區域資訊包括實際位置資訊和實際置信度，實際區域的預設點所在的子圖像對應的實際置信度為第一值，其餘子圖像對應的實際置信度為小於第一值的第二值；利用與預設數量個子圖像中對應的實際位置資訊和預測位置資訊，得到位置損失值；利用與預設數量個子圖像中對應的實際置信度和預測置信度，得到置信度損失值；基於位置損失值和置信度損失值，得到三維目標檢測模型的損失值。因此，透過實際位置資訊生成與預設數量個子圖像對應的預設數量個實際區域資訊，從而能夠在預設數量個實際區域資訊和與其對應的預測區域資訊的基礎上進行損失計算，進而能夠降低損失計算的複雜度。

在一些實施例中，實際位置資訊包括實際區域的實際預設點位置和實際區域尺寸，預測位置資訊包括預測區域的預測預設點位置和預測區域尺寸；利用與預設數量個子圖像中對應的實際位置資訊和預測位置資訊，得到位置損失值，包括：利用二分類交叉熵函數，對與預設數量個子圖像中對應的實際預設點位置和預測預設點位置進行計算，得到第一位置損失值；利用均方誤差函數，對與預設數量個子圖像中對應的實際區域尺寸和預測區域尺寸進行計算，得到第二位置損失值；利用與預設數量個子圖像中對應的實際置信度和預測置信度，得到置信度損失值，包括：利用二分類交叉熵函數，對與預設數量個子圖像中對應的實際置信度和預測置信度進行計算，得到置信度損失值；基於位置損失值和置信度損失值，得到三維目標檢測模型的損失值，包括：對第一位置損失值、第二位置損失值和置信損失值進行加權處理，得到三維目標檢測模型的損失值。因此，透過對實際預設點位置和預測預設點位置之間的第一位置損失值，以及實際區域尺寸和預測區域尺寸之間的第二位置損失值，以及實際置信度和預測置信度之間的置信損失值分別進行計算，並最終對上述損失值進行加權處理，能夠準確、全面地獲得三維目標檢測模型的損失值，從而有利於準確地調整模型參數，進而有利於加快模型訓練速度，並提高三維目標檢測模型的準確度。

在一些實施例中，在利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值之前，方法還包括：將實際位置資訊的值、一個或多個預測位置資訊和預測置信度均約束至預設數值範圍內；利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值，包括：利用經約束後的實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值。因此，在利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值之前，將實際位置資訊的值、一個或多個預測位置資訊和預測置信度均約束至預設數值範圍內，並利用經約束後的實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值，能夠有效避免訓練過程中可能會出現的網路震盪，加快收斂速度。

在一些實施例中，實際位置資訊包括實際區域的實際預設點位置和實際區域尺寸，預測位置資訊包括預測區域的預測預設點位置和預測區域尺寸；將實際位置資訊的值約束至預設數值範圍內，包括：獲得實際區域尺寸與預設尺寸之間的第一比值，並將第一比值的對數值作為經約束後的實際區域尺寸；獲得實際預設點位置與子圖像的圖像尺寸之間的第二比值，將第二比值的小數部分作為經約束後實際預設點位置；將一個或多個預測位置資訊和預測置信度均約束至預設數值範圍內，包括：利用預設映射函數分別將一個或多個預測預設點位置和預測置信度映射到預設數值範圍內。因此，透過獲得實際區域尺寸與預設尺寸之間的第一比值，並將第一比值的對數值作為經約束後的實際區域尺寸，並獲得實際預設點位置與子圖像的圖像尺寸之間的第二比值，將第二比值的小數部分作為經約束後實際預設點位置，此外，利用預設映射函數分別將一個或多個預測預設點位置和預測置信度映射到預設數值範圍內，從而能夠透過數學運算或函數映射進行約束處理，進而能夠降低約束處理的複雜度。

在一些實施例中，獲得實際預設點位置與子圖像的圖像尺寸之間的第二比值，包括：計算樣本三維圖像的圖像尺寸和子圖像的數量之間的第三比值，並獲得實際預設點位置與第三比值之間的第二比值。因此，透過計算樣本三維圖像的圖像尺寸和子圖像的數量之間的第三比值，能夠獲得子圖像的圖像尺寸，從而能夠降低計算第二比值的複雜度。

在一些實施例中，預設數值範圍為0至1的範圍內，和/或，預設尺寸為多個樣本三維圖像中的實際區域的區域尺寸的平均值。因此，透過將預設數值範圍設置為0至1之間，能夠加快模型收斂速度，將預設尺寸設置為多個樣本三維圖像中的實際區域的區域尺寸的平均值，能夠使得經約束後的實際區域尺寸不會過大或過小，從而能夠避免訓練初期發生震盪、甚至無法收斂，有利於提高模型品質。

在一些實施例中，在利用三維目標檢測模型對樣本三維圖像進行目標檢測，得到一個或多個預測區域資訊之前，方法還包括以下至少一個預處理步驟：將樣本三維圖像轉換為三原色通道圖像；將樣本三維圖像的尺寸縮放為設定圖像尺寸；對樣本三維圖像進行歸一化和標準化處理。因此，透過將樣本三維圖像轉換為三原色通道圖像，能夠提升目標檢測的視覺效果，透過將樣本三維圖像的尺寸縮放為設定圖像尺寸，能夠使三維圖像盡可能地與模型的輸入尺寸匹配，從而提升模型訓練效果，透過對樣本三維圖像進行歸一化和標準化處理，有利於提升模型在訓練過程中的收斂速度。

本申請實施例提供了一種三維目標檢測方法，包括：獲取待測三維圖像，利用三維目標檢測模型對待測三維圖像進行目標檢測，得到與待測三維圖像中的三維目標對應的目的地區域資訊，其中，三維目標檢測模型是透過上述三維目標檢測模型的訓練方法得到的。因此，利用三維目標檢測模型的方法訓練得到的三維目標檢測模型，實現了對三維圖像中的三維目標檢測，且降低三維目標檢測的難度。

本申請實施例提供了一種三維目標檢測模型的訓練裝置，包括圖像獲取模組、目標檢測模組、損失確定模組和參數調整模組，圖像獲取模組，配置為獲取樣本三維圖像，其中，樣本三維圖像標注有三維目標的實際區域的實際位置資訊；目標檢測模組，配置為利用三維目標檢測模型對樣本三維圖像進行目標檢測，得到與樣本三維圖像的一個或多個子圖像對應的一個或多個預測區域資訊，其中，每個預測區域資訊包括預測區域的預測位置資訊和預測置信度；損失確定模組，配置為利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值；參數調整模組，配置為利用損失值，調整三維目標檢測模型的參數。

本申請實施例提供了一種三維目標檢測裝置，包括圖像獲取模組和目標檢測模組，圖像獲取模組，配置為獲取待測三維圖像，目標檢測模組，配置為利用三維目標檢測模型對待測三維圖像進行目標檢測，得到與待測三維圖像中的三維目標對應的目的地區域資訊，其中，三維目標檢測模型是透過上述三維目標檢測模型的訓練裝置得到的。

本申請實施例提供了一種電子設備，包括相互耦接的記憶體和處理器，處理器配置為執行記憶體中儲存的程式指令，以實現上述三維目標檢測模型的訓練方法，或實現上述三維目標檢測方法。

本申請實施例提供了一種電腦可讀儲存媒體，其上儲存有程式指令，程式指令被處理器執行時實現上述三維目標檢測模型的訓練方法，或實現上述三維目標檢測方法。

本揭露實施例提供了一種電腦程式，包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行用於實現上述一個或多個實施例中伺服器執行三維目標檢測模型的訓練方法，或實現上述一個或多個實施例中伺服器執行的三維目標檢測方法。

本申請實施例提供了一種三維目標檢測方法及其模型的訓練方法及裝置、設備、儲存媒體，獲取到的樣本三維圖像標注有三維目標的實際區域的實際位置資訊，並利用三維目標檢測模型對樣本三維圖像進行目標檢測，得到與樣本三維圖像的一個或多個子圖像對應的一個或多個預測區域資訊，且每個預測區域資訊包括對應於樣本三維圖像的一子圖像的預測區域的預測位置資訊和預測置信度，從而利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值，並利用損失值，調整三維目標檢測模型的參數，進而能夠訓練得到對三維圖像進行三維目標檢測的模型，而無需將三維影像處理為二維平面圖像後再進行目標檢測，故此，能夠有效保留三維目標的空間資訊和結構資訊，從而能夠直接檢測得到三維目標。由於三維目標檢測模型進行目標檢測時，能夠得到三維圖像一個或多個子圖像的預測區域資訊，從而能夠在三維圖像的一個或多個子圖像中進行三維目標檢測，有助於降低三維目標檢測的難度。

隨著神經網路、深度學習等技術的興起，基於神經網路的影像處理方法也隨之產生。

其中，一類方法為：利用神經網路對二維圖像進行檢測區域的分割，例如，對病灶區域的分割。然而，將二維圖像進行分割的方法直接應用於三維影像處理的場景，會失去三維圖像中部分空間資訊及結構資訊。

其中，第二類方法為：利用神經網路對三維圖像進行檢測區域的分割。例如，檢測區域為乳腺腫瘤區域，首先，透過深度學習對三維圖像中的乳腺腫瘤進行定位；然後，利用乳腺腫瘤區域的區域增長對腫瘤邊界進行分割；或者，首先，利用三維U-Net網路提取腦部核磁共振圖像特徵；然後，利用高維向量非局部均值注意力模型對圖像特徵進行重新分佈；最後，得到腦部組織分割結果。此類方法在圖像品質不高的情況下，難以對圖像中的模糊區域進行準確分割，會影響分割結果的準確性。

其中，第三類方法為：利用神經網路對二維圖像進行檢測區域的識別，但所述方法為對二維圖像進行的操作；或者，利用三維神經網路對檢測區域進行目標檢測。然而，此類方法直接由神經網路生成檢測區域，神經網路訓練階段收斂速度慢，精確度低。

透過以上三類方法可以看出，相關技術中，對於三維圖像的處理技術不成熟，呈現出特徵提取效果差以及實際應用少等問題。除此之外，相關技術中的目標檢測方法適用於處理二維平面圖像，在應用於三維影像處理的情況下，會存在失去部分圖像空間資訊及結構資訊等問題。

第1A圖是本申請實施例提供的三維目標檢測及模型的訓練方法的系統架構示意圖，如第1A圖所示，該系統架構中包括，CT儀100、伺服器200、網路300和終端設備400，為實現支撐一個示例性應用，CT儀100可透過網路300連接終端設備400，終端設備400透過網路300連接伺服器200，CT儀100可用於採集CT圖像，例如可以是X射線CT儀或γ射線CT儀等可對人體某部一定厚度的層面進行掃描的終端。終端設備400可以是筆記型電腦、平板電腦、桌上型電腦、專用訊息設備等具有螢幕顯示功能的設備。網路300可以是廣域網路或者區域網路，又或者是二者的組合，使用無線鏈路實現資料傳輸。

伺服器200可以基於本申請實施例提供的三維目標檢測及模型的訓練方法，獲取樣本三維圖像；利用三維目標檢測模型對所述樣本三維圖像進行目標檢測，得到與所述樣本三維圖像的一個或多個子圖像對應的一個或多個預測區域資訊；利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值；利用損失值，調整三維目標檢測模型的參數。並利用三維目標檢測模型對待測三維圖像進行目標檢測，得到與待測三維圖像中的三維目標對應的目的地區域資訊。其中，所述樣本三維圖像可以是醫院、體檢中心等機構的CT儀100採集的病人或體檢人員的肺部CT圖像。伺服器200可以從終端設備400獲取由CT儀100採集的樣本三維圖像作為樣本三維圖像，也可以從CT儀獲取樣本三維圖像，還可以從網路上獲取樣本三維圖像。

伺服器200可以是獨立的物理伺服器，也可以是多個物理伺服器構成的伺服器集群或者分散式系統，還可以是基於雲技術的雲伺服器。雲技術是指在廣域網路或區域網路內將硬體、軟體、網路等系列資源統一起來，實現資料的計算、儲存、處理和共用的一種託管技術。作為示例，伺服器200在獲取待測三維圖像（如，肺部CT圖像）後，根據訓練好的三維目標檢測及模型對待測三維圖像進行目標檢測，得到與待測三維圖像中的三維目標對應的目的地區域資訊。然後，伺服器200將檢測得到的目的地區域資訊返回給終端設備400進行顯示，以便醫護人員查看。

下面結合說明書附圖，對本申請實施例的方案進行詳細說明。

以下描述中，為了說明而不是為了限定，提出了諸如特定系統結構、介面、技術之類的具體包括的細節，以便透徹理解本申請。

本文中術語「系統」和「網路」在本文中常被可互換使用。本文中術語「和/或」，僅僅是一種描述關聯物件的關聯關係，表示可以存在三種關係，例如，a1和/或b1，可以表示：單獨存在a1，同時存在a1和b1，單獨存在b1這三種情況。另外，本文中字元「/」，一般表示前後關聯物件是一種「或」的關係。此外，本文中的「多」表示兩個或者多於兩個。請參閱第1B圖，第1B圖是本申請三維目標檢測模型的訓練方法一實施例的流程示意圖。如第1B圖所示，該方法可以包括如下步驟：

步驟S11：獲取樣本三維圖像，其中，樣本三維圖像標注有三維目標的實際區域的實際位置資訊。

在一個實施場景中，為了實現對人體部位等三維目標進行檢測，樣本三維圖像可以是核磁共振圖像。此外，樣本三維圖像也可以是利用CT（Computed Tomography，電子電腦斷層掃描）圖像、B超（Type B Ultrasonic，B型超音波）圖像進行三維重建而得到的三維圖像，在此不做限定。所述人體部位可以包括但不限於：前叉韌帶、腦垂體等。其他類型的三維目標，如病變組織等，可以以此類推，在此不再一一舉例。

在一個實施場景中，為了提高訓練後的三維目標檢測模型的準確性，樣本三維圖像的數量可以是多個，例如：200、300、400等等，在此不做限定。

在一個實施場景中，為了使樣本三維圖像能夠與三維目標檢測模型的輸入匹配，還可以在獲得樣本三維圖像之後，對其進行預處理，所述預處理可以為，將樣本三維圖像的尺寸縮放為設定圖像尺寸，設定圖像尺寸可以與三維目標檢測模型的輸入尺寸一致。例如，樣本三維圖像的原始尺寸可以為160×384×384，若三維目標檢測模型的輸入尺寸為160×160×160，則對應地，可以將樣本三維圖像的尺寸縮放至160×160×160。此外，為了提升模型在訓練過程中的收斂速度，還可以對樣本三維圖像進行歸一化處理和標準化處理。或者，為了提升目標檢測效果，還可以將樣本三維圖像轉換為三原色（即：紅、綠、藍）通道圖像。

步驟S12：利用三維目標檢測模型對樣本三維圖像進行目標檢測，得到與樣本三維圖像的一個或多個子圖像對應的一個或多個預測區域資訊。

本實施例中，每個預測區域資訊包括對應於樣本三維圖像的一子圖像的預測區域的預測位置資訊和預測置信度。其中，預測置信度用於表示預測結果為三維目標的可信度，預測置信度越高，表示預測結果的可信度越高。

此外，本實施例中的預測區域為一個三維空間區域，例如，一個長方體所圍成區域、一個正方體所圍成的區域等等。

在一個實施場景中，為了滿足實際應用需要，可以預先對三維目標檢測模型進行參數設置，從而使得三維目標檢測模型能夠輸出樣本三維圖像的預設數量個子圖像對應的預測區域的預測位置資訊和預測置信度，也就是說，本實施例中的預測區域資訊的數量可以為預設數量個，該預設數量為大於或等於1的整數，預設數量可以與三維目標模型的輸出尺寸相匹配。例如，以輸入三維目標檢測模型的三維圖像的圖像尺寸為160×160×160為例，可以預先透過網路參數的設置，使三維目標檢測模型輸出10×10×10個圖像尺寸為16×16×16的子圖像對應的預測區域的預測位置資訊和預測置信度。此外，根據實際需要，預設數量也可以設置為20×20×20、40×40×40等等，在此不做限定。

在一個實施場景中，為了便於實現三維維度上的目標檢測，三維目標檢測模型可以為三維卷積神經網路模型，可以包括間隔連接的若干卷積層和若干池化層，且卷積層中的卷積核為預定尺寸的三維卷積核。以預設數量為10×10×10為例，請結合參閱下表1，表1是三維目標檢測模型一實施例的參數設置表。

表1 三維目標檢測模型一實施例的參數設置表

網路層	卷積核尺寸	步長	填充	通道數	輸入尺寸	輸出尺寸
conv1 +relu	3x3x3	1x1x1	1x1x1	64	3x160x160x160	64x160x160x160
pool1	2x2x2	2x2x2	0x0x0	/	64x160x160x160	64x80x80x80
conv2 +relu	3x3x3	1x1x1	1x1x1	128	64x80x80x80	128x80x80x80
pool2	2x2x2	2x2x2	0x0x0	/	128x80x80x80	128x40x40x40
conv3a +relu	3x3x3	1x1x1	1x1x1	256	128x40x40x40	256x40x40x40
conv3b +relu	3x3x3	1x1x1	1x1x1	256	256x40x40x40	256x40x40x40
pool3	2x2x2	2x2x2	0x0x0	/	256x40x40x40	256x20x20x20
conv4a +relu	3x3x3	1x1x1	1x1x1	512	512x20x20x20	512x20x20x20
conv4b +relu	3x3x3	1x1x1	1x1x1	512	512x20x20x20	512x20x20x20
pool4	2x2x2	2x2x2	0x0x0	/	512x10x10x10	512x10x10x10
conv5a +relu	3x3x3	1x1x1	1x1x1	512	512x10x10x10	512x10x10x10
conv5b	3x3x3	1x1x1	1x1x1	7	512x10x10x10	7x10x10x10

如表1所示，三維卷積核的尺寸可以是3×3×3。在預設數量為10×10×10的情況下，三維目標檢測模型可以包括8層卷積層，如表1所示，三維目標檢測模型可以包括順序連接的第一層卷積層和激活層（即表1中conv1+relu）、第一層池化層（即表1中pool1）、第二層卷積層和激活層（即表1中conv2+relu）、第二層池化層（即表1中pool2）、第三層卷積層和激活層（即表1中conv3a+relu）、第四層卷積層和激活層（即表1中conv3b+relu）、第三層池化層（即表1中pool3）、第五層卷積層和激活層（即表1中conv4a+relu）、第六層卷積層和激活層（即表1中conv4b+relu）、第四層池化層（即表1中pool4）、第七層卷積層和激活層（即表1中conv5a+relu）、第八層卷積層（即表1中conv5b）。透過上述設置，最終能夠在樣本三維圖像的10×10×10個子圖像中進行三維目標的預測，從而在三維目標的預測區域的預測預設點（例如，預測區域的中心點）處於某個子圖像所在的區域的情況下，該子圖像所在的區域負責預測三維目標的預測區域資訊。

步驟S13：利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值。

這裡，可以透過二分類交叉熵函數、均方誤差函數（Mean Square Error，MSE）中的至少一者對實際位置資訊和預測區域資訊進行計算，得到三維目標檢測模型的損失值。本實施例在此暫不贅述。

步驟S14：利用損失值，調整三維目標檢測模型的參數。

利用實際位置資訊與預測區域資訊所得到的三維目標檢測模型的損失值，表示利用三維目標檢測模型的當前參數進行三維目標的預測，所得的預測結果與標注的實際位置之間的偏差度。對應地，損失值越大，表示兩者之間的偏差度越大，即當前參數與目標參數之間的偏差越大，因此，透過損失值可以對三維目標檢測模型的參數進行調整。

在一個實施場景中，為了訓練得到穩定、可用的三維目標檢測模型，可以在調整三維目標檢測模型的參數之後，重新執行上述步驟S12以及後續步驟，從而不斷執行對樣本三維圖像的檢測，以及三維目標檢測模型的損失值計算，及其參數調整過程，直至滿足預設訓練結束條件為止。在一個實施場景中，預設訓練結束條件可以包括損失值小於一個預設損失閾值，且損失值不再減小。

上述方案，獲取到的樣本三維圖像標注有三維目標的實際區域的實際位置資訊，並利用三維目標檢測模型對樣本三維圖像進行目標檢測，得到與樣本三維圖像的一個或多個子圖像對應的一個或多個預測區域資訊，且每個預測區域資訊包括對應於樣本三維圖像的一子圖像的預測區域的預測位置資訊和預測置信度，從而利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值，並利用損失值，調整三維目標檢測模型的參數，進而能夠訓練得到對三維圖像進行三維目標檢測的模型，而無需將三維影像處理為二維平面圖像後再進行目標檢測，故此，能夠有效保留三維目標的空間資訊和結構資訊，從而能夠充分挖掘三維圖像的圖像資訊，並直接針對三維圖像進行目標檢測，檢測得到三維目標。由於三維目標檢測模型進行目標檢測時，能夠得到三維圖像一個或多個子圖像的預測區域資訊，從而能夠在三維圖像的一個或多個子圖像中進行三維目標檢測，有助於降低三維目標檢測的難度。

請參閱第2圖，第2圖是第1B圖中步驟S13一實施例的流程示意圖。本實施例中，預測區域資訊的數量為預設數量個，預設數量與三維目標檢測模型的輸出尺寸匹配，如第2圖所示，可以包括如下步驟：

步驟S131：利用實際位置資訊，生成分別與預設數量個子圖像對應的預設數量個實際區域資訊。

仍以三維目標檢測模型輸出10×10×10個子圖像的預測區域的預測位置資訊和預測置信度為例，請結合參閱表1，三維目標檢測模型所輸出的預測區域資訊可以認為是7×10×10×10的向量，其中，10×10×10表示預設數量個子圖像，7表示每個子圖像所負責預測得到的三維目標的預測位置資訊（例如，預測區域的中心點位置在x、y、z方向上的座標，以及預測區域在長、寬、高方向上的尺寸）和預測置信度。故此，為了使預先標注的實際位置資訊與預設數量個子圖像對應的預測區域資訊一一對應，以便後續計算損失值，本實施例將實際位置資訊進行擴展，從而生成與預設數量個子圖像對應的預設數量個實際區域資訊，每個所述實際區域資訊包括實際位置資訊（例如，實際區域的中心點位置在x、y、z方向上的座標，以及實際區域在長、寬、高方向上的尺寸）和實際置信度，實際區域的預設點（例如，中心點）所在的子圖像對應的實際置信度為第一值（例如，1），其餘子圖像對應的實際置信度為小於第一值的第二值（例如，0），從而所生成的實際區域資訊也可以認為與預測區域資訊尺寸一致的向量。

此外，為了對三維目標進行唯一標識，預測位置資訊可以包括預測預設點位置（如預測區域的中心點位置）和預測區域尺寸。與預測位置資訊對應地，實際位置資訊也可以包括實際預設點位置（如與預測預設點位置對應地，實際預設點位置也可以是實際區域的中心點位置）和實際區域尺寸。

步驟S132：利用與預設數量個子圖像中對應的實際位置資訊和預測位置資訊，得到位置損失值。

本實施例中，可以利用二分類交叉熵函數，對與預設數量個子圖像對應的實際預設點位置和預測預設點位置進行計算，得到第一位置損失值。其中，得到第一位置損失值的運算式參見公式（1）：

（1）；

上式中，n表示預設數量，

分別表示第i個子圖像對應的預測預設點位置，

分別表示第i個子圖像對應的預測預設點位置，

分別表示第一位置損失值在x、y、z方向上的子損失值。

此外，還可以利用均方誤差函數，對與預設數量個子圖像對應的實際區域尺寸和預測區域尺寸進行計算，得到第二位置損失值，其中，得到第二位置損失值的運算式參見公式（2）：

（2）；

上式中，n表示預設數量，

分別表示第i個子圖像對應的預測區域尺寸，

分別表示第i個子圖像對應的實際區域尺寸，

分別表示第二位置損失值在l（長度）、w（寬度）、h（高度）方向上的子損失值。

步驟S133：利用與預設數量個子圖像中對應的實際置信度和預測置信度，得到置信度損失值。

這裡，可以利用二分類交叉熵函數，對與預設數量個子圖像中對應的實際置信度和預測置信度進行計算，得到置信度損失值，其中，得到置信度損失值的運算式參見公式（3）：

（3）；

上式中，n為預設數量，

表示第i個子圖像對應的預測置信度，

表示第i個子圖像對應的實際置信度，

表示置信度損失值。

本實施例中，上述步驟S132和步驟S133可以按照先後循序執行，例如，先執行步驟S132，後執行步驟S133，或者，先執行步驟S133，後執行步驟S132；上述步驟S132和步驟S133也可以同時執行，在此不做限定。

步驟S134：基於位置損失值和置信度損失值，得到三維目標檢測模型的損失值。

這裡，可以對上述第一位置損失值、第二位置損失值和置信度損失值進行加權處理，得到三維目標檢測模型的損失值，其中，得到三維目標檢測模型的損失值

的運算式參見公式（4）：

（4）；

上式中，

表示分別對應於第一位置損失值在x，y，z方向上的子損失值的權重，

表示分別對應於第二位置損失值在l（長度）、w（寬度）、h（高度）方向上的子損失值的權重，

表示對應於置信度損失值的權重。

在一個實施場景中，上式中的

的和為1。在一個實施場景中，上式中的

的和不為1，則為了對損失值進行標準化處理，可以相應地，在根據上式求得的損失值的基礎上，再除以上式中的

的和。

區別於前述實施例，透過實際位置資訊生成分別與預設數量個子圖像對應的預設數量個實際區域資訊，能夠在預設數量個實際區域資訊和對應的預測區域資訊的基礎上，進行損失計算，能夠降低損失計算的複雜度。

在一個實施場景中，預設區域資訊與實際區域資訊的參考度量可能並不一致，例如，預測預設點位置可以是預測區域的中心點位置與其所在的子圖像區域的中心點位置之間的偏移值，預測區域尺寸可以是預測區域的實際尺寸與一預設尺寸（例如，錨框尺寸）之間的相對值，而實際預設點位置可以是實際區域的中心點在樣本三維圖像中的位置，實際區域尺寸可以是實際區域的長、寬、高尺寸，故此，為了加快收斂速度，在計算損失值之前，還可以將實際位置資訊的值、一個或多個預測位置資訊和預測置信度均約束至預設數值範圍（例如，0~1）內，然後，再利用經約束後的實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值，所述損失值計算過程可以參考上述實施例中的相關步驟，在此不再贅述。

這裡，可以利用預設映射函數分別將一個或多個預測位置資訊和預測置信度均約束至預設數值範圍內。本實施例中，預設映射函數可以是sigmoid函數，從而將預測位置資訊和預測置信度映射到0~1的範圍內，其中，採用sigmoid函數將預測位置資訊和預測置信度映射到0~1的範圍內的運算式可參見公式（5）：

（5）；

上式中，

表示預測位置資訊中的預測預設點位置，

表示經約束後的預測位置資訊中的預測預設點位置；

表示預測置信度，

表示經約束後的預測置信度。

此外，請結合參閱第3圖，第3圖是將實際位置資訊的值約束至預設數值範圍內一實施例的流程示意圖，如第3圖所述，該方法可以包括如下步驟：

步驟S31：獲得實際區域尺寸與預設尺寸之間的第一比值，並將第一比值的對數值作為經約束後的實際區域尺寸。

本實施例中，預設尺寸可以是使用者預先根據實際情況而設置的，也可以是多個樣本三維圖像中的實際區域的區域尺寸的平均值，例如，對於N個樣本三維圖像而言，第j個樣本三維圖像的實際區域的區域尺寸在l（長度）、w（寬度）、h（高度）方向上可以分別表示為

，其中，預設尺寸在l（長度）、w（寬度）、h（高度）方向上的運算式可參見公式（6）：

（6）；

上式中，

分別表示預設尺寸在l（長度）、w（寬度）、h（高度）方向上的值。

在此基礎上，計算得到經約束後的實際區域尺寸在l（長度）、w（寬度）、h（高度）方向上的運算式可參見公式（7）：

（7）；

上式中，

、

、

分別表示l（長度）、w（寬度）、h（高度）方向上的第一比值，

分別表示經約束後的實際尺寸在l（長度）、w（寬度）、h（高度）方向上的尺寸。

經過上式處理，能夠將實際區域尺寸約束處理為實際區域尺寸相對於所有實際區域尺寸平均值的相對值。

步驟S32：獲得實際預設點位置與子圖像的圖像尺寸之間的第二比值，將第二比值的小數部分作為經約束後實際預設點位置。

本實施例中，可以將三維樣本圖像的圖像尺寸與子圖像的數量之間第三比值，作為子圖像的圖像尺寸，從而可以獲取實際預設點位置與第三比值之間的第二比值，在一個實施場景中，子圖像的數量可以為與三維目標檢測模型的輸出尺寸相匹配的預設數量。以預設數量為10×10×10，三維樣本圖像的圖像尺寸為160×160×160為例，子圖像的圖像尺寸在l（長度）、w（寬度）、h（高度）方向上分別為16、16、16，在預設數量和三維樣本圖像的圖像尺寸為其他值的情況下，可以以此類推，在此不再一一舉例。

這裡，取第二比值的小數部分的操作，可以透過第二比值，與向下取整第二比值之間的差值得到，得到小數部分的運算式可參見公式（8）：

（8）；

上式中，

分別表示經約束後實際預設點位置在x、y、z方向上的數值，

分別表示預設尺寸在（長度）、w（寬度）、h（高度）方向上的尺寸，

分別表示實際預設點位置在x、y、z方向上的數值，

表示下取整處理。

在預設尺寸為子圖像的圖像尺寸的情況下，經過上述處理，能夠將實際預設點位置約束處理為實際預設點在子圖像中的相對位置。

本實施例中，上述步驟S31和步驟S32可以按照先後循序執行，例如，先執行步驟S31，後執行步驟S32；或者先執行步驟S32，後執行步驟S31。上述步驟S31和步驟S32還可以同時執行，在此不做限定。

區別於前述實施例，在利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值之前，將實際位置資訊的值、一個或多個預測位置資訊和預測置信度均約束至預設數值範圍內，並利用經約束後的實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值，能夠有效避免訓練過程中可能會出現的網路震盪，加快收斂速度。

在一些實施例中，為了提高訓練的自動化程度，可以利用腳本程式，執行上述任一實施例中的步驟。這裡，可以透過Python語言和Pytorch框架執行上述任一實施例中的步驟，在此基礎上，可以採用Adam最佳化工具（Adam optimizer），並設置學習率（learning rate）為0.0001，網路的批尺寸（batch size）為2，反覆運算次數（epoch）為50。上述學習率、批尺寸、反覆運算次數的數值僅為示例，除本實施例中列舉的數值外，還可以根據實際情況進行設置，在此不做限定。

在一些實施例中，為了直觀地反映訓練結果，利用實際位置資訊，生成分別與預設數量個子圖像對應的預設數量個實際區域資訊，其中，每個實際區域資訊包括實際位置資訊，可以參閱上述實施例中的相關步驟，在此基礎上，利用與預設數量個子圖像對應的實際區域資訊和預測區域資訊，計算預設數量個子圖像對應的實際區域與預測區域的交併比（Intersection over Union，IoU），然後計算預設數量個交併比的平均值，作為一次訓練過程中的均交併比（Mean Intersection over Union，MIoU），均交併比越大，說明預測區域與實際區域的重合度越高，模型越準確。這裡，為了降低計算難度，還可以分別在冠狀面、矢狀面、橫斷面分別計算交併比，在此不再一一舉例。

請參閱第4圖，第4圖是三維目標檢測方法一實施例的流程示意圖。第4圖是利用上述任一三維目標檢測模型的訓練方法實施例中的步驟訓練得到的三維目標檢測模型進行目標檢測的一實施例的流程示意圖，如第4圖所示，該方法包括如下步驟：

步驟S41：獲取待測三維圖像。

與樣本三維圖像類似，待測三維圖像可以是核磁共振圖像，也可以是利用CT（Computed Tomography，電子電腦斷層掃描）圖像、B超圖像進行三維重建而得到的三維圖像，在此不做限定。

步驟S42：利用三維目標檢測模型對待測三維圖像進行目標檢測，得到與待測三維圖像中三維目標對應的目的地區域資訊。

本實施例中，三維目標檢測模型是透過上述任一三維目標檢測模型的訓練方法得到的，可以參閱前述任一三維目標檢測模型的訓練方法實施例中的步驟，在此不再贅述。

這裡，在利用三維目標檢測模型對待測三維圖像進行目標檢測時，可以得到與待測三維圖像的一個或多個子圖像對應的一個或多個預測區域資訊，其中，每個預測區域資訊包括預測區域的預測位置資訊和預測置信度。在一個實施場景中，一個或多個預測區域資訊的數量可以為預設數量個，預設數量與三維目標檢測模型的輸出尺寸相匹配。可以參考前述實施例中的相關步驟。在得到與待測三維圖像的一個或多個子圖像對應的一個或多個預測區域資訊之後，可以統計最高的預測置信度，並基於最高的預測置信度對應的預測位置資訊確定與待測三維圖像中的三維目標對應的目的地區域資訊。最高的預測置信度對應的預測位置資訊具有最可靠的可信度，故此，可以基於最高的預測置信度對應的預測位置資訊確定與三維目標對應的目的地區域資訊。這裡，目的地區域資訊可以是最高預測置信度所對應的預測位置資訊，包括預測預設點位置（例如，預測區域的中心點位置），以及預測區域尺寸。透過在待測三維圖像的一個或多個子圖像中進行三維目標檢測，有助於降低三維目標檢測的難度。

在一個實施場景中，待測三維圖像在輸入三維目標檢測模型進行目標檢測之前，為了與三維目標檢測模型的輸入相匹配，還可以縮放為設定圖像尺寸（設定圖像尺寸可以與三維目標檢測模型的輸入一致），則在透過上述方式獲得經縮放處理的待測三維圖像中的目的地區域資訊之後，還可以將所獲得的目的地區域進行與縮放相逆的處理，從而得到待測三維圖像中的目的地區域。

上述方案，利用三維目標檢測模型對待測三維圖像進行目標檢測，得到與待測三維圖像中的三維目標對應的目的地區域資訊，且三維目標檢測模型是透過上述任一三維目標檢測模型的訓練方法得到的，無需將三維影像處理為二維平面圖像後再進行目標檢測，故此，能夠有效保留三維目標的空間資訊和結構資訊，從而能夠直接檢測得到三維目標。

本申請實施例提供一種三維目標檢測方法，以一種基於三維卷積的膝關節MRI圖像中前叉韌帶區域的檢測為例，所述檢測應用在醫療圖像計算輔助診斷技術領域。所述方法包括如下步驟：

步驟410：獲取包含前叉韌帶區域的三維膝關節MRI圖像，並對所述圖像進行預處理；

舉例說明，獲取424組三維膝關節MRI圖像，所述圖像的格式可以為.nii。每張圖像尺寸為160×384×384。

這裡，舉例說明對所述圖像進行預處理。首先，使用函數包將MRI圖像轉化為矩陣資料；然後，將所述矩陣資料從單通道資料擴展為三通道資料，並將所述三通道資料尺寸縮小為3×160×160×160 ，其中3為RGB通道數；最後，對尺寸縮小後的所述三通道資料進行歸一化和標準化處理，以完成對所述圖像的預處理。

這裡，將按3:1:1的比例將預處理後的圖像資料分為訓練集、驗證集及測試集。

步驟420：對所述預處理後的圖像進行人工標注，得到前叉韌帶區域的三維位置真實邊框，包括其中心點座標及長寬高；

舉例說明，利用軟體查看所述預處理後的圖像的冠狀面、矢狀面、橫斷面三個視圖，並對前叉韌帶區域進行人工標注，得到前叉韌帶區域的三維位置邊框，所述區域的中心點座標及長寬高記為

。計算所有標注邊框長寬高的平均值作為預設尺寸大小，記為

。

步驟430：構建基於三維卷積的前叉韌帶區域檢測網路，對膝關節MRI圖像進行特徵提取，得到前叉韌帶區域三維位置邊框的預測值；

在一個實施場景中，以輸入三維目標檢測模型的三維膝關節MRI圖像的圖像尺寸為160×160×160為例，步驟430可以包括如下步驟：

步驟431：將所述三維膝關節MRI圖像分為10×10×10個圖像尺寸為16×16×16的子圖像，若前叉韌帶區域中心落在任一子圖像中，則所述子圖像用於預測前叉韌帶。

步驟432：將3×160×160×160的訓練集資料登錄表1的檢測網路結構，輸出7×10×10×10的圖像特徵

；

這裡，每一個所述子圖像包括7個預測值。所述預測值為：包括三維位置邊框的6個預測值

和一個所述位置邊框的置信度預測值

。

步驟433：對於每一個子圖像的7個預測值

利用預設映射函數約束至預設數值範圍內；

這裡，將所述預測值約束至預設數值範圍內，可以提高檢測網路收斂速度並便於損失函數的計算。這裡，所述預設映射函數可以為sigmoid函數。為使每一個子圖像預測邊框的中心點都落在所述子圖像內部，從而加快收斂速度，將邊框中心點座標的三個預測值

利用sigmoid函數映射到區間[0,1]之間，作為在該子圖像內的相對位置，具體如公式（5）所示。這裡，對於邊框的置信度預測值

，利用sigmoid函數映射到區間[0,1]之間。所述

表示子圖像的預測邊框為該MRI圖像中前叉韌帶實際位置資訊的概率值，具體如公式（5）所示。

步驟440：根據實際區域尺寸與預設尺寸，優化損失函數對網路進行訓練直至其收斂，得到可準確檢測出前叉韌帶區域的網路。

在一個實施場景中，步驟440可以包括如下步驟：

步驟441：將所述人工標注的前叉韌帶區域的邊框中心點座標及長寬高

擴展為尺寸為7×10×10×10的向量以對應10×10×10個子圖像。

這裡，所述每個子圖像邊框中心點座標以及長寬高

，所述前叉韌帶區域中心點所在的子圖像所對應的置信度真實值

為1，其餘子圖像置信度真實值

為0。

步驟442：對所述子圖像的實際值

進行計算，所述計算步驟包括：

步驟4421：對於邊框中心點座標的真實值

，將每個子圖像邊長作為單位1，使用公式（8）計算中心點在子圖像內部的相對值；

步驟4422：對於邊框長寬高的真實值

，使用公式（7）計算所述真實值與所述預設尺寸大小

比例的對數值，得到處理後的尺寸為

的真值向量

；

步驟443：對於處理後的預測向量

和真值向量

，利用二分類交叉熵函數及方差函數計算損失函數，計算公式為公式（1）至（4）。其中

分別為尺寸為

的中心點座標、長寬高及置信度的預測向量，

分別為尺寸為

的中心點座標、長寬高及置信度的真值向量，

分別為損失函數各組成部分的權重值。

步驟444：基於Python語言與Pytorch框架進行了實驗。在網路的訓練過程中，選用最佳化工具，設置學習率為0.0001，網路的批尺寸為2，反覆運算次數為50。

步驟450：將膝關節MRI測試資料登錄訓練好的前叉韌帶區域檢測網路，得到前叉韌帶區域檢測的結果。

步驟460：採用MIoU作為衡量檢測網路實驗結果的評價指標。

這裡，所述MIoU透過計算兩個集合的交集和並集之比衡量檢測網路，在三維目標檢測方法中，所述兩個集合為實際區域與預測區域，得到MIoU的運算式可參見公式（9）。

（9）；

其中，

是預測區域面積，

是實際區域面積。

這裡，使用MIoU衡量檢測網路實驗結果如表2所示例，表2是冠狀面、矢狀面和橫斷面交併比。

表2 冠狀面、矢狀面和橫斷面交併比

冠狀面IoU	矢狀面IoU	橫斷面IoU
67.8%	76.2%	69.2%

上述方案，利用將膝關節MRI測試資料登錄訓練好的前叉韌帶區域檢測網路，得到前叉韌帶區域檢測的結果。這樣，可以實現對三維膝關節MRI圖像的直接處理和對於前叉韌帶區域的直接檢測。將所述三維膝關節MRI圖像分為多個子圖像，並對於每一個子圖像的7個預測值利用預設映射函數約束至預設數值範圍內。這樣，在檢測過程中，減小前叉韌帶區域檢測的難度；加速了網路收斂速度，提高了檢測的準確度。透過將三維膝關節MRI圖像分為若干子圖像，利用預設映射函數對網路輸出預測邊框的中心點座標、長寬高及置信度值進行約束。這樣，使預測邊框中心點落在進行預測子圖像內，且長寬高數值相對於預設尺寸不會過大或過小，避免產生在網路訓練初期發生震盪甚至網路無法收斂的問題。利用檢測網路對膝關節MRI圖像進行特徵提取。這樣，能夠精確地進行圖像中前叉韌帶區域檢測，為提升前叉韌帶疾病診斷的效率與準確率提供依據。故此，能夠突破使用二維的醫學圖像輔助診斷的限制，使用三維的MRI圖像進行醫學影像處理，擁有更多的資料數量和更為豐富的資料資訊。

第5圖是本申請三維目標檢測模型的訓練裝置50一實施例的框架示意圖。三維目標檢測模型的訓練裝置50包括：圖像獲取模組51、目標檢測模組52、損失確定模組53和參數調整模組54，圖像獲取模組51，配置為獲取樣本三維圖像，其中，樣本三維圖像標注有三維目標的實際區域的實際位置資訊；目標檢測模組52，配置為利用三維目標檢測模型對樣本三維圖像進行目標檢測，得到與樣本三維圖像的一個或多個子圖像對應的一個或多個預測區域資訊，其中，每個預測區域資訊包括預測區域的預測位置資訊和預測置信度；損失確定模組53，配置為利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值；參數調整模組54，配置為利用損失值，調整三維目標檢測模型的參數。在一個實施場景中，三維目標檢測模型為三維卷積神經網路模型。在一個實施場景中，樣本三維圖像為核磁共振圖像，三維目標為人體部位。

上述方案，獲取到的樣本三維圖像標注有三維目標的實際區域的實際位置資訊，並利用三維目標檢測模型對樣本三維圖像進行目標檢測，得到與樣本三維圖像的一個或多個子圖像對應的一個或多個預測區域資訊，且每個預測區域資訊包括對應於樣本三維圖像的一子圖像的預測區域的預測位置資訊和預測置信度，從而利用實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值，並利用損失值，調整三維目標檢測模型的參數，進而能夠訓練得到對三維圖像進行三維目標檢測的模型，而無需將三維影像處理為二維平面圖像後再進行目標檢測，故此，能夠有效保留三維目標的空間資訊和結構資訊，從而能夠直接檢測得到三維目標。由於三維目標檢測模型進行目標檢測時，能夠得到三維圖像一個或多個子圖像的預測區域資訊，從而能夠在三維圖像的一個或多個子圖像中進行三維目標檢測，有助於降低三維目標檢測的難度。

在一些實施例中，預測區域資訊的數量為預設數量個，預設數量與三維目標檢測模型的輸出尺寸相匹配，損失確定模組53包括實際區域資訊生成子模組，配置為利用實際位置資訊，生成分別與預設數量個子圖像對應的預設數量個實際區域資訊，其中，每個實際區域資訊包括實際位置資訊和實際置信度，實際區域的預設點所在的子圖像對應的實際置信度為第一值，其餘子圖像對應的實際置信度為小於第一值的第二值，損失確定模組53包括位置損失計算子模組，配置為利用與預設數量個子圖像中對應的實際位置資訊和預測位置資訊，得到位置損失值，損失確定模組53包括置信度損失計算子模組，配置為利用與預設數量個子圖像中對應的實際置信度和預測置信度，得到置信度損失值，損失確定模組53包括模型損失計算子模組，配置為基於位置損失值和置信度損失值，得到三維目標檢測模型的損失值。

在一些實施例中，實際位置資訊包括實際區域的實際預設點位置和實際區域尺寸，預測位置資訊包括預測區域的預測預設點位置和預測區域尺寸，位置損失計算子模組包括第一位置損失計算部分，配置為利用二分類交叉熵函數，對與預設數量個子圖像中對應的實際預設點位置和預測預設點位置進行計算，得到第一位置損失值，位置損失計算子模組包括第二位置損失計算部分，配置為利用均方誤差函數，對與預設數量個子圖像中對應的實際區域尺寸和預測區域尺寸進行計算，得到第二位置損失值，置信度損失計算子模組，配置為利用二分類交叉熵函數，對與預設數量個子圖像中對應的實際置信度和預測置信度進行計算，得到置信度損失值，模型損失計算子模組，配置為對第一位置損失值、第二位置損失值和置信損失值進行加權處理，得到三維目標檢測模型的損失值。

在一些實施例中，三維目標檢測模型的訓練裝置50還包括數值約束模組，配置為將實際位置資訊的值、一個或多個預測位置資訊和預測置信度均約束至預設數值範圍內，損失計算模組53，配置為利用經約束後的實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值。在一個實施場景中，預設數值範圍為0至1的範圍內。

區別於前述實施例，訓練裝置50還包括：約束模組，配置為將實際位置資訊的值、一個或多個預測位置資訊和預測置信度均約束至預設數值範圍內，損失確定模組53，還配置為利用經約束後的實際位置資訊與一個或多個預測區域資訊，確定三維目標檢測模型的損失值，能夠有效避免訓練過程中可能會出現的網路震盪，加快收斂速度。

在一些實施例中，實際位置資訊包括實際區域的實際預設點位置和實際區域尺寸，預測位置資訊包括預測區域的預測預設點位置和預測區域尺寸，數值約束模組包括第一約束子模組，配置為獲得實際區域尺寸與預設尺寸之間的第一比值，並將第一比值的對數值作為經約束後的實際區域尺寸，數值約束模組包括第二約束子模組，配置為獲得實際預設點位置與子圖像的圖像尺寸之間的第二比值，將第二比值的小數部分作為經約束後實際預設點位置，數值約束模組包括第三約束子模組，配置為利用預設映射函數分別將一個或多個預測預設點位置和預測置信度映射到預設數值範圍內。在一個實施場景中，預設尺寸為多個樣本三維圖像中的實際區域的區域尺寸的平均值。

在一些實施例中，第二約束子模組，還配置為計算樣本三維圖像的圖像尺寸和子圖像的數量之間的第三比值，並獲得實際預設點位置與第三比值之間的第二比值。

在一些實施例中，預設數值範圍為0至1的範圍內；和/或，預設尺寸為多個樣本三維圖像中的實際區域的區域尺寸的平均值。三維目標檢測模型的訓練裝置50還包括預處理模組，配置為將樣本三維圖像轉換為三原色通道圖像；將樣本三維圖像的尺寸縮放為設定圖像尺寸；對樣本三維圖像進行歸一化和標準化處理。

請參閱第6圖，第6圖是本申請三維目標檢測裝置60一實施例的框架示意圖。三維目標檢測裝置60包括圖像獲取模組61和目標檢測模組62，圖像獲取模組61，配置為獲取待測三維圖像，目標檢測模組62，配置為利用三維目標檢測模型對待測三維圖像進行目標檢測，得到與待測三維圖像中的三維目標對應的目的地區域資訊，其中，三維目標檢測模型是利用上述任一三維目標檢測模型的訓練方法得到的。

上述方案，利用三維目標檢測模型對待測三維圖像進行目標檢測，得到與待測三維圖像中的三維目標對應的目的地區域資訊，且三維目標檢測模型是利用上述任一三維目標檢測模型的訓練裝置的實施例中的三維目標檢測模型的訓練裝置得到的，故能夠無需將三維影像處理為二維平面圖像後再進行目標檢測，故此，能夠有效保留三維目標的空間資訊和結構資訊，從而能夠直接檢測得到三維目標。

請參閱第7圖，第7圖是本申請電子設備70一實施例的框架示意圖。電子設備70包括相互耦接的記憶體71和處理器72，處理器72配置為執行記憶體71中儲存的程式指令，以實現上述任一三維目標檢測模型的訓練方法實施例的步驟，或實現上述任一三維目標檢測方法實施例中的步驟。在一個實施場景中，電子設備70可以包括但不限於：微型電腦、伺服器，此外，電子設備70還可以包括筆記型電腦、平板電腦等移動設備，在此不做限定。

這裡，處理器72，配置為控制其自身以及記憶體71以實現上述任一三維目標檢測模型的訓練方法實施例的步驟，或實現上述任一三維目標檢測方法實施例中的步驟。處理器72還可以稱為CPU（Central Processing Unit，中央處理單元）。處理器72可能是一種積體電路晶片，具有訊號的處理能力。處理器72還可以是通用處理器、數位訊號處理器（Digital Signal Processor, DSP）、專用積體電路（Application Specific Integrated Circuit, ASIC）、現場可程式設計閘陣列（Field-Programmable Gate Array, FPGA）或者其他可程式設計邏輯器件、獨立閘或者電晶體邏輯器件、獨立硬體元件。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。另外，處理器72可以由積體電路晶片共同實現。

上述方案，能夠無需將三維影像處理為二維平面圖像後再進行目標檢測，故此，能夠有效保留三維目標的空間資訊和結構資訊，從而能夠直接檢測得到三維目標。且由於三維目標檢測模型進行目標檢測時，能夠得到三維圖像一個或多個子圖像的預測區域資訊，從而能夠在三維圖像的一個或多個子圖像中進行三維目標檢測，有助於降低三維目標檢測的難度。

請參閱第8圖，第8圖為本申請電腦可讀儲存媒體80一實施例的框架示意圖。電腦可讀儲存媒體80儲存有能夠被處理器運行的程式指令801，程式指令801配置為實現上述任一三維目標檢測模型的訓練方法實施例的步驟，或實現上述任一三維目標檢測方法實施例中的步驟。

在本申請所提供的幾個實施例中，應該理解到，所揭露的方法和裝置，可以透過其它的方式實現。例如，以上所描述的裝置實施方式僅僅是示意性的，例如，模組或部分的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如部分或元件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是透過一些介面，裝置或部分的間接耦合或通信連接，可以是電性、機械或其它的形式。

作為分離部件說明的部分可以是或者也可以不是物理上分開的，作為部分顯示的部件可以是或者也可以不是物理部分，即可以位於一個地方，或者也可以分佈到網路部分上。可以根據實際的需要選擇其中的部分或者全部部分來實現本實施方式方案的目的。另外，在本申請各個實施例中的各功能部分可以集成在一個處理部分中，也可以是各個部分單獨物理存在，也可以兩個或兩個以上部分集成在一個部分中。上述集成的部分既可以採用硬體的形式實現，也可以採用軟體功能部分的形式實現。

集成的如果以軟體功能部分的形式實現並作為獨立的產品銷售或使用時，可以儲存在一個電腦可讀取儲存媒體中。基於這樣的理解，本申請的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來，該電腦軟體產品儲存在一個儲存媒體中，包括若干指令用以使得一台電腦設備（可以是個人電腦，伺服器，或者網路設備等）或處理器（processor）執行本申請各個實施方式方法的全部或部分步驟。而前述的儲存媒體包括：隨身碟、行動硬碟、唯讀記憶體（ROM，Read-Only Memory）、隨機存取記憶體（RAM，Random Access Memory）、磁碟或者光碟等各種可以儲存程式碼的媒體。

相應地，本申請實施例提供了一種電腦可讀儲存媒體，其上儲存有程式指令，所述程式指令被處理器執行時實現上述三維目標檢測模型的訓練方法，或實現上述三維目標檢測方法。

相應地，本揭露實施例還提供一種電腦程式，包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行用於實現本揭露實施例提供的任一三維目標檢測模型的訓練方法，或實現上述三維目標檢測方法。工業實用性

本實施例中，由於電子設備考慮到對三維目標檢測模型進行目標檢測，得到三維圖像一個或多個子圖像的預測區域資訊，使得電子能夠在三維圖像的一個或多個子圖像中進行三維目標檢測，有助於降低三維目標檢測的難度。

1~5:步驟 100:CT儀 200:伺服器 300:網路 400:終端設備 S11~S14:步驟 S131~S134:步驟 S31~S32:步驟 S41~S42:步驟 50:訓練裝置 51:圖像獲取模組 52:目標檢測模組 53:損失確定模組 54:參數調整模組 60:三維目標檢測裝置 61:圖像獲取模組 62:目標檢測模組 70:電子設備 71:記憶體 72:處理器 80:電腦可讀儲存媒體 801:程式指令

第1A圖是本申請實施例提供的三維目標檢測及模型的訓練方法的系統架構示意圖；第1B圖是本申請三維目標檢測模型的訓練方法一實施例的流程示意圖；第2圖是第1B圖中步驟S13一實施例的流程示意圖；第3圖是將實際位置資訊的值約束至預設數值範圍內一實施例的流程示意圖；第4圖是本申請三維目標檢測方法一實施例的流程示意圖；第5圖是本申請三維目標檢測模型的訓練裝置一實施例的框架示意圖；第6圖是本申請三維目標檢測裝置一實施例的框架示意圖；第7圖是本申請電子設備一實施例的框架示意圖；第8圖是本申請電腦可讀儲存媒體一實施例的框架示意圖。

1~5:步驟

100:CT儀

200:伺服器

300:網路

400:終端設備

Claims

一種三維目標檢測模型的訓練方法，包括：獲取樣本三維圖像，其中，所述樣本三維圖像標注有三維目標的實際區域的實際位置資訊；利用三維目標檢測模型對所述樣本三維圖像進行目標檢測，得到與所述樣本三維圖像的一個或多個子圖像對應的一個或多個預測區域資訊，其中，每個所述預測區域資訊包括預測區域的預測位置資訊和預測置信度；利用所述實際位置資訊與所述一個或多個所述預測區域資訊，確定所述三維目標檢測模型的損失值；利用所述損失值，調整所述三維目標檢測模型的參數。
根據請求項1所述的訓練方法，其中，所述預測區域資訊的數量為預設數量個，所述預設數量與所述三維目標檢測模型的輸出尺寸相匹配；所述利用所述實際位置資訊與所述一個或多個所述預測區域資訊，確定所述三維目標檢測模型的損失值，包括：利用所述實際位置資訊，生成分別與所述預設數量個子圖像對應的預設數量個實際區域資訊，其中，每個所述實際區域資訊包括所述實際位置資訊和實際置信度，所述實際區域的預設點所在的子圖像對應的實際置信度為第一值，其餘所述子圖像對應的實際置信度為小於所述第一值的第二值；利用與所述預設數量個子圖像中對應的所述實際位置資訊和所述預測位置資訊，得到位置損失值；利用與所述預設數量個子圖像中對應的所述實際置信度和所述預測置信度，得到置信度損失值；基於所述位置損失值和所述置信度損失值，得到所述三維目標檢測模型的損失值。
根據請求項2所述的訓練方法，其中，所述實際位置資訊包括所述實際區域的實際預設點位置和實際區域尺寸，所述預測位置資訊包括所述預測區域的預測預設點位置和預測區域尺寸；所述利用與所述預設數量個子圖像中對應的所述實際位置資訊和所述預測位置資訊，得到位置損失值，包括：利用二分類交叉熵函數，對與所述預設數量個子圖像中對應的所述實際預設點位置和所述預測預設點位置進行計算，得到第一位置損失值；利用均方誤差函數，對與所述預設數量個子圖像中對應的所述實際區域尺寸和所述預測區域尺寸進行計算，得到第二位置損失值；所述利用與所述預設數量個子圖像中對應的所述實際置信度和所述預測置信度，得到置信度損失值，包括：利用二分類交叉熵函數，對與所述預設數量個子圖像中對應的所述實際置信度和所述預測置信度進行計算，得到置信度損失值；所述基於所述位置損失值和所述置信度損失值，得到所述三維目標檢測模型的損失值，包括：對所述第一位置損失值、所述第二位置損失值和所述置信損失值進行加權處理，得到所述三維目標檢測模型的損失值。
根據請求項1-3中任意一項所述的訓練方法，其中，在所述利用所述實際位置資訊與所述一個或多個所述預測區域資訊，確定所述三維目標檢測模型的損失值之前，所述方法還包括：將所述實際位置資訊的值、所述一個或多個所述預測位置資訊和所述預測置信度均約束至預設數值範圍內；所述利用所述實際位置資訊與所述一個或多個所述預測區域資訊，確定所述三維目標檢測模型的損失值，包括：所述利用經約束後的所述實際位置資訊與所述一個或多個所述預測區域資訊，確定所述三維目標檢測模型的損失值。
根據請求項4所述的訓練方法，其中，所述實際位置資訊包括所述實際區域的實際預設點位置和實際區域尺寸，所述預測位置資訊包括所述預測區域的預測預設點位置和預測區域尺寸；所述將所述實際位置資訊的值約束至預設數值範圍內，包括：獲得所述實際區域尺寸與預設尺寸之間的第一比值，並將所述第一比值的對數值作為經約束後的實際區域尺寸；獲得所述實際預設點位置與所述子圖像的圖像尺寸之間的第二比值，將所述第二比值的小數部分作為經約束後所述實際預設點位置；所述將所述一個或多個所述預測位置資訊和所述預測置信度均約束至預設數值範圍內，包括：利用預設映射函數分別將所述一個或多個預測預設點位置和預測置信度映射到所述預設數值範圍內。
根據請求項5所述的訓練方法，其中，所述獲得所述實際預設點位置與所述子圖像的圖像尺寸之間的第二比值，包括：計算所述樣本三維圖像的圖像尺寸和所述子圖像的數量之間的第三比值，並獲得所述實際預設點位置與所述第三比值之間的第二比值。
根據請求項5所述的訓練方法，其中，所述預設數值範圍為0至1的範圍內；和/或，所述預設尺寸為多個樣本三維圖像中的實際區域的區域尺寸的平均值。
根據請求項1所述的訓練方法，其中，在所述利用三維目標檢測模型對所述樣本三維圖像進行目標檢測，得到一個或多個預測區域資訊之前，所述方法還包括以下至少一個預處理步驟：將所述樣本三維圖像轉換為三原色通道圖像；將所述樣本三維圖像的尺寸縮放為設定圖像尺寸；對所述樣本三維圖像進行歸一化和標準化處理。
一種三維目標檢測方法，包括：獲取待測三維圖像；利用三維目標檢測模型對所述待測三維圖像進行目標檢測，得到與所述待測三維圖像中的三維目標對應的目的地區域資訊；其中，所述三維目標檢測模型是透過請求項1至8任一項所述的三維目標檢測模型的訓練方法得到的。
一種電子設備，包括相互耦接的記憶體和處理器，所述處理器配置為執行所述記憶體中儲存的程式指令，以實現請求項1至8任一項所述的三維目標檢測模型的訓練方法，或實現請求項9所述的三維目標檢測方法。
一種電腦可讀儲存媒體，其上儲存有程式指令，所述程式指令被處理器執行時實現請求項1至8任一項所述的三維目標檢測模型的訓練方法，或實現請求項9所述的三維目標檢測方法。