TWI831552B

TWI831552B - 圖像識別模型訓練方法、圖像深度識別方法及相關設備

Info

Publication number: TWI831552B
Application number: TW111151021A
Authority: TW
Inventors: 劉宗瑋; 郭錦斌
Original assignee: 鴻海精密工業股份有限公司
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2024-02-01

Abstract

本申請涉及影像處理，提供一種圖像識別模型訓練方法、圖像深度識別方法及相關設備。在本申請中，獲取道路場景的點雲、點雲中每個點的空間座標值、第一圖像及第二圖像，將第一圖像輸入到深度識別網路，得到初始深度圖像，對空間座標值進行轉換，得到每個點的投影深度值及投影座標值，根據投影深度值、點雲的點數量及投影座標值在初始深度圖像中對應的初始深度值，計算每個點的目標深度值，基於第一圖像、第二圖像及根據第二圖像、目標深度值以及投影座標值生成的初始投影圖像計算損失值，並基於損失值調整深度識別網路，得到圖像識別模型。

Description

圖像識別模型訓練方法、圖像深度識別方法及相關設備

本發明涉及影像處理領域，尤其涉及一種圖像識別模型訓練方法、圖像深度識別方法及相關設備。

在目前對車載圖像進行深度識別的方案中，由於透過圖像識別模型無法識別出帶有計量單位的深度資訊，導致難以確定車輛與周圍環境中各類物體或障礙物的真實距離，進而影響駕車安全。

鑒於以上內容，有必要提供一種圖像識別模型訓練方法、圖像深度識別方法及相關設備，解決了車載圖像的深度資訊中計量單位不明確的技術問題。

本申請提供一種圖像識別模型訓練方法，所述圖像識別模型訓練方法包括：獲取道路場景的點雲及所述點雲中每個點的空間座標值，並獲取拍攝設備拍攝的所述道路場景的第一圖像及第二圖像，將所述第一圖像輸入到預設的深度識別網路中，得到初始深度圖像，基於所述第一圖像與所述第二圖像生成的位姿矩陣及所述拍攝設備的內參矩陣，對所述空間座標值進行轉換，得到所述點雲中每個點的投影深度值及所述點雲中每個點的投影座標值，根據所述投影深度值、所述點雲的點數量及所述投影座標值在所述初始深度圖像中對應的初始像素點的初始深度值，計算所述點雲中每個點的縮放係數，根據所述縮放係數及所述初始深度值計算所述點雲中每個點的目標深度值，基於所述位姿矩陣、所述內參矩陣、所述目標深度值、所述第二圖像及所述投影座標值在所述第二圖像中對應的目標像素點的像素座標值，生成初始投影圖像，根據所述第一圖像、所述初始投影圖像及所述第二圖像計算所述深度識別網路的損失值，並基於所述損失值調整所述深度識別網路，得到圖像識別模型。

根據本申請可選實施例，所述基於所述第一圖像與所述第二圖像生成的位姿矩陣及所述拍攝設備的內參矩陣，對所述空間座標值進行轉換，得到所述點雲中每個點的投影深度值及所述點雲中每個點的投影座標值包括：將所述空間座標值所對應的空間齊次矩陣與所述位姿矩陣進行相乘運算，得到相機座標矩陣，將所述相機座標矩陣中的豎座標值確定為所述投影深度值，將所述相機座標矩陣與所述內參矩陣進行相乘運算，得到相乘矩陣，將所述相乘矩陣中的每個元素值與所述投影深度值進行相除運算，得到所述投影座標值。

根據本申請可選實施例，所述縮放係數的計算公式為：

；其中，C _scale表示所述縮放係數，N _r表示所述點數量，d _ir表示所述點雲中任一個點的投影深度值，d _ip表示所述任一個點對應的初始像素點的初始深度值。

根據本申請可選實施例，所述基於所述位姿矩陣、所述內參矩陣、所述目標深度值、所述第二圖像及所述投影座標值在所述第二圖像中對應的目標像素點的像素座標值，生成初始投影圖像包括：根據所述目標像素點的像素座標值構建齊次座標矩陣，獲取所述內參矩陣的逆矩陣，根據所述位姿矩陣、所述逆矩陣、所述內參矩陣、所述齊次座標矩陣及所述目標深度值計算出所述目標像素點的目標座標值，在所述第二圖像中將所述目標像素點的像素座標值調整為相應的目標座標值，得到所述初始投影圖像。

根據本申請可選實施例，所述目標座標值的計算公式為：P=K * pose * Z * K ^-1 * H；其中，P表示所述目標座標值，K表示所述內參矩陣，pose表示所述位姿矩陣，K^-1表示所述逆矩陣，H表示所述齊次座標矩陣，Z表示所述目標深度值。

根據本申請可選實施例，所述根據所述第一圖像、所述初始投影圖像及所述第二圖像計算所述深度識別網路的損失值包括：計算所述第一圖像中每個像素點的像素值與所述初始投影圖像中對應的像素點的像素值的第一像素差值，將所述第一圖像中每個像素點的像素值調整為對應的第一像素差值，得到第一差異圖像，計算所述第一圖像中每個像素點的像素值與所述第二圖像中對應的像素點的像素值的第二像素差值，並根據多個所述第二像素差值生成所述第一圖像對應的第二差異圖像，根據所述第二像素差值與對應的第一像素差值的比較結果以及預設值，調整所述第二差異圖像中對應的第二像素差值，得到目標圖像，根據所述目標圖像中每個像素點的像素值及所述第一差異圖像中對應的像素點的像素值計算所述損失值。

根據本申請可選實施例，所述根據所述第二像素差值與對應的第一像素差值的比較結果，以及預設值調整所述第二差異圖像中對應的第二像素差值，得到目標圖像包括：將所述第二像素差值與所述對應的第一像素差值進行比較，若所述第二像素差值小於所述對應的第一像素差值，則將所述第二像素差值在所述第二差異圖像中對應的像素點確定為特徵像素點，將所述第二差異圖像中多個特徵像素點對應的第二像素差值均調整為所述預設值，得到所述目標圖像。

本申請提供一種圖像深度識別方法，所述圖像深度識別方法包括：獲取待識別圖像，將所述待識別圖像輸入到圖像識別模型中，得到所述待識別圖像的目標深度圖像及所述待識別圖像的深度資訊，所述圖像識別模型透過執行所述的圖像識別模型訓練方法獲得。

本申請提供一種電子設備，所述電子設備包括：儲存器，儲存至少一個指令；及處理器，執行所述至少一個指令以實現所述的圖像識別模型訓練方法或所述的圖像深度識別方法。

本申請提供一種電腦可讀儲存介質，所述電腦可讀儲存介質中儲存有至少一個指令，所述至少一個指令被電子設備中的處理器執行以實現所述的圖像識別模型訓練方法或所述的圖像深度識別方法。

由上述技術方案可知，本申請獲取道路場景的點雲及所述點雲中每個點的空間座標值，由於所述點雲及所述空間座標值透過光達(lider)獲得，因此所述空間座標值中包含光達的計量單位資訊，根據所述投影深度值、所述點雲的點數量及所述投影座標值在所述初始深度圖像中對應的初始像素點的初始深度值，計算所述點雲中每個點的縮放係數，由於所述縮放係數為多個投影深度值與對應的初始深度值的比值的平均值，因此，能夠使得所述縮放係數更能夠代表多個投影深度值與對應的初始深度值之間的整體比例關係，根據所述縮放係數及所述初始深度值計算所述點雲中每個點的目標深度值，由於所述目標深度值是按照所述縮放係數對每個初始深度值進行同比例縮放生成的，因此，能夠確保基於所述目標深度值生成的初始投影圖像的準確性，由於所述空間座標值包含光達的計量單位資訊，因此生成的損失值也包含計量單位資訊，基於所述損失值調整所述深度識別網路，得到圖像識別模型，確保所述圖像識別模型能夠準確地學習到所述光達的計量單位資訊，因此，能夠使得根據所述圖像識別模型生成的深度圖像中包含所述計量單位資訊，進而能夠確定車輛與周圍環境中各類物體或障礙物之間的真實距離。

1:電子設備

2:拍攝設備

12:儲存器

13:處理器

101~107:步驟

108~109:步驟

圖1是本申請的實施例提供的應用環境圖。

圖2是本申請的實施例提供的圖像識別模型訓練方法的流程圖。

圖3是本申請實施例提供的像素座標系和相機座標系的示意圖。

圖4是本申請實施例提供的圖像深度識別方法的流程圖。

圖5是本申請實施例提供的電子設備的結構示意圖。

為了使本申請的目的、技術方案和優點更加清楚，下面結合附圖和具體實施例對本申請進行詳細描述。

如圖1所示，是本申請的實施例提供的應用環境圖。本申請提供的圖像識別模型訓練方法以及圖像深度識別方法可應用於一個或者多個電子設備1中，所述電子設備1與拍攝設備2相通信，所述拍攝設備2可以是單眼相機，也可以是實現拍攝的其它裝置。圖1提供的電子設備1及拍攝設備2僅為示例。

所述電子設備1是一種能夠按照事先設定或儲存的指令，自動進行參數值計算和/或資訊處理的設備，其硬體包括，但不限於：微處理器、專用積體電路(Application Specific Integrated Circuit,ASIC)、可程式設計閘陣列(Field-Programmable Gate Array,FPGA)、數位訊號處理器(Digital Signal Processor,DSP)、嵌入式設備等。

所述電子設備1可以是任何一種可與用戶進行人機交互的電子產品，例如，個人電腦、平板電腦、智慧手機、個人數位助理(Personal Digital Assistant,PDA)、遊戲機、互動式網路電視(Internet Protocol Television,IPTV)、穿戴式智能設備等。所述電子設備1還可以包括網路設備和/或使用者設備。其中，所述網路設備包括，但不限於單個網路伺服器、多個網路伺服器組成的伺服器組或基於雲計算(Cloud Computing)的由大量主機或網路伺服器構成的雲。

所述電子設備1所處的網路包括，但不限於：網際網路、廣域網路、都會區網路、區域網路、虛擬私人網路(Virtual Private Network,VPN)等。

如圖2所示，是本申請的實施例提供的圖像識別模型訓練方法的流程圖。根據不同的需求，所述流程圖中各個步驟的順序可以根據實際檢測要求進行調整，某些步驟可以省略。所述方法的執行主體為電子設備，例如圖1所示的電子設備1。

步驟101，獲取道路場景的點雲及所述點雲中每個點的空間座標值，並獲取拍攝設備拍攝的所述道路場景的第一圖像及第二圖像。

在本申請的至少一個實施例中，所述點雲及所述點雲中每個點的空間座標值可以透過光達對所述道路場景進行掃描得到。其中，所述光達自身的計量單位資訊包括：米或者釐米等等。所述道路場景是指包含多個物件的場景，例如，所述多個物件包括車輛，地面、行人、地面、行人、天空、樹木等等。所述拍攝設備可以是單眼相機，所述第一圖像及所述第二圖像為相鄰幀的三原色光(Red Green Blue,RGB)圖像，所述第二圖像的生成時間大於所述第一圖像的生成時間。

在本申請的至少一個實施例中，所述電子設備獲取拍攝設備拍攝的所述道路場景的第一圖像及第二圖像包括：所述電子設備控制所述拍攝設備拍攝所述道路場景，得到所述第一圖像，並在相隔預設時間後再次拍攝所述道路場景，得到所述第二圖像。其中，所述預設時間很小，例如預設時間可以為10ms。

在本實施例中，在相隔預設時間後拍攝所述道路場景，得到所述第二圖像，由於所述預設時間很小，在很小的預設時間內在所述道路場景中能夠移動的物件移動的距離較小，因此，能夠使得所述第二圖像與所述第一圖像存在更多的相同的對象。

步驟102，將所述第一圖像輸入到預設的深度識別網路中，得到初始深度圖像。

在本申請的至少一個實施例中，所述深度識別網路可以為任意一個或者多個深度識別網路框架。例如，所述深度識別網路框架可以為：FCRN網路框架、FCN框架和U-net框架等等。所述深度識別網路包括卷積層、批標準化層、池化層及啟動函數層等等。在本實施例中，所述初始深度圖像的生成過程與下文中目標深度圖像的生成過程基本相同，故本申請在此不再贅述。

步驟103，基於所述第一圖像與所述第二圖像生成的位姿矩陣及所述拍攝設備的內參矩陣，對所述空間座標值進行轉換，得到所述點雲中每個點的投影深度值及所述點雲中每個點的投影座標值。

在本申請的至少一個實施例中，所述位姿矩陣是指所述拍攝設備對應的相機座標系與世界座標系之間的轉換關係，其中，所述世界座標系是指根據現實生活中的任意物件建立的座標系，所述世界座標系能夠反映任意物件在現實生活中的真實位置。例如，所述世界座標系可以是所述光達對應的座標系。

在本申請的至少一個實施例中，所述空間座標值包括橫空間座標值、縱空間座標值及豎空間座標值。所述投影深度值是指基於所述位姿矩陣及所述外參矩陣對所述豎空間座標值進行轉換後得到的值。所述投影座標值是指基於所述位姿矩陣及所述外參矩陣對所述橫空間座標值及所述縱空間座標值進行轉換後得到的座標值。

在本申請的至少一個實施例中，在基於所述第一圖像與所述第二圖像生成的位姿矩陣及所述拍攝設備的內參矩陣，對所述空間座標值進行轉換之前，所述方法還包括：所述電子設備獲取所述第一圖像中每個像素點的第一齊次座標矩陣，並獲取所述第二圖像中每個像素點的第二齊次座標矩陣，所述電子設備獲取所述內參矩陣的逆矩陣，進一步地，所述電子設備根據所述第一齊次座標矩陣及所述逆矩陣計算出所述第一圖像中每個像素點的第一相機座標，並根據所述第二齊次座標矩陣及所述逆矩陣計算出所述第二圖像中每個像素點的第二相機座標，更進一步地，所述電子設備基於預設的對極約束(Epipolar constraint)關係式對所述第一相機座標及所述第二相機座標進行計算，得到旋轉矩陣及平移矩陣，更進一步地，所述電子設備將所述旋轉矩陣及所述平移矩陣進行拼接，得到所述位姿矩陣。

其中，所述第一齊次座標矩陣是指維度比像素座標矩陣的維度多出一維的矩陣，而且多出的一個維度的元素值為1，所述像素座標矩陣是指根據所述第一圖像中的每個像素點的第一像素座標生成的矩陣，所述第一像素座標是指所述第一圖像中的每個像素點在像素座標系中的座標，例如，所述第一圖像中的任一像素點在所述像素座標系中的第一像素座標為(u,v)，所述任一像素點的像素座標矩陣为

；則該像素點的齊次座標矩陣為

。所述第一相機座標是指所述第一圖像的每個像素點的在所述拍攝設備對應的相機座標系中的相機座標。

如圖3所示，是本申請實施例提供的像素座標系和相機座標系的示意圖。所述電子設備以所述第一圖像的第一行第一列的像素點O_uv為原點，以第一行像素點所在的平行線為u軸，以第一列像素點所在的垂直線為v軸構建所述像素座標系。此外，所述電子設備以所述單眼相機的光點O_XY為原點，以所述單眼相機的光軸為Z軸，以所述像素座標系u軸的平行線為X軸，以所述像素座標系的v軸的平行線為Y軸構建所述相機座標系。

在本實施例中，所述電子設備將所述第一齊次座標矩陣及所述逆矩陣進行相乘，得到所述第一相機座標，並將所述第二齊次座標矩陣及所述逆矩陣進行相乘，得到所述第二相機座標。

其中，所述第二齊次座標矩陣的生成方式與所述第一齊次座標矩陣的生成方式基本一致，本申請在此不作贅述。所述位姿矩陣可以表示為：

；其中，pose為所述位姿矩陣，R為所述旋轉矩陣，t為所述平移矩陣。其中，所述平移矩陣及所述旋轉矩陣的計算公式(即對極約束關係式)為：K ^-1 p ₁(txR)(K ^-1 p ₂)^T=0；其中，K ^-1 p ₁為所述第一相機座標，K ^-1 p ₂為所述第二相機座標，p ₁為所述第一齊次座標矩陣，p ₂為所述第二齊次座標矩陣，K ^-1為所述逆矩陣。

在本申請的至少一個實施例中，所述電子設備基於所述第一圖像與所述第二圖像生成的位姿矩陣及所述拍攝設備的內參矩陣，對所述空間座標值進行轉換，得到所述點雲中每個點的投影深度值及所述點雲中每個點的投影座標值包括：所述電子設備將所述空間座標值所對應的空間齊次矩陣與所述位姿矩陣進行相乘運算，得到相機座標矩陣，進一步地，所述電子設備將所述相機座標矩陣中的豎座標值確定為所述投影深度值，所述電子設備將所述相機座標矩陣與所述內參矩陣進行相乘運算，得到相乘矩陣，進一步地，所述電子設備將所述相乘矩陣中的每個元素值與所述投影深度值進行相除運算，得到所述投影座標值。

其中，所述空間齊次矩陣是指維度比空間座標矩陣的維度多出一維的矩陣，而且多出的一個維度的元素值為1，所述空間座標矩陣是指根據所述空間座標值生成的矩陣。例如，若所述空間座標值為(x,y,z)，則所述空間座標矩陣为

，所述空間齊次矩陣為

。

透過上述實施方式，直接在所述第一圖像及所述第二圖像分別建立像素座標系，能夠根據所述第一圖像及所述第二圖像中每個像素點在對應的像素座標系下的座標生成所述位姿矩陣，進而能夠快速地對所述空間座標值進行轉換。

步驟104，根據所述投影深度值、所述點雲的點數量及所述投影座標值在所述初始深度圖像中對應的初始像素點的初始深度值，計算所述點雲中每個點的縮放係數。

在本申請的至少一個實施例中，所述對應的初始像素點是指所述點雲中的每個點對應的初始像素點。所述縮放係數是指多個所述投影深度值與多個對應的初始深度值的比值的平均值。

在本申請的至少一個實施例中，所述縮放係數的計算公式為：

透過上述實施方式，將所述點雲中每個點的投影深度值與每個點對應的初始像素點的初始深度值進行相除運算，得到多個比值，並選取所述多個比值的平均值作為所述縮放係數，能夠提高所述縮放係數的合理性，而且由於所述投影深度值中包括計量單位資訊，因此，能夠使得所述縮放係數也包括所述計量單位資訊。

步驟105，根據所述縮放係數及所述初始深度值計算所述點雲中每個點的目標深度值。

在本申請的至少一個實施例中，所述目標深度值的計算公式為：D _t=C _scale * d _ip；其中，D _t表示所述目標深度值，C _scale表示所述縮放係數，d _ip表示所述任一個點對應的初始像素點的初始深度值。

在本實施例中，將所述點雲中每個點對應的初始像素點的初始深度值與所述縮放係數進行相乘運算，由於所述點雲中所有點對應的初始像素點的像素值都參與了運算，因此，能夠使得所述點雲中每個點的目標深度值具有相同的計量單位資訊。

透過上述實施方式，由於所述點雲中的點的數量可能會小於所述第一圖像或者所述第二圖像中像素點的數量，因此，根據所述投影深度值能夠準確選取到所述投影座標值在所述初始深度圖像中對應的初始像素點的初始深度值，並將每個投影深度值與對應的初始深度值進行準確計算。

步驟106，基於所述位姿矩陣、所述內參矩陣、所述目標深度值、所述第二圖像及所述投影座標值在所述第二圖像中對應的目標像素點的像素座標值，生成初始投影圖像。

在本申請的至少一個實施例中，所述初始投影圖像是指將所述第二圖像重映射回所述第一圖像生成的投影圖像。

在本申請的至少一個實施例中，所述電子設備基於所述位姿矩陣、所述內參矩陣、所述目標深度值、所述第二圖像及所述投影座標值在所述第二圖像中對應的目標像素點的像素座標值，生成初始投影圖像包括：所述電子設備根據所述目標像素點的像素座標值構建齊次座標矩陣，進一步地，所述電子設備獲取所述內參矩陣的逆矩陣，更進一步地，所述電子設備根據所述位姿矩陣、所述逆矩陣、所述內參矩陣、所述齊次座標矩陣及所述目標深度值計算出所述目標像素點的目標座標值，更進一步地，所述電子設備在所述第二圖像中將所述目標像素點的像素座標值調整為相應的目標座標值，得到所述初始投影圖像。

其中，所述目標像素點的像素座標值是指在所述第二圖像對應的像素座標系中的座標值，所述像素座標值包括橫座標值及縱座標值。具體地，所述目標座標值的計算公式為：P=K * pose * Z * K ^-1 * H；其中，P表示所述目標座標值，K表示所述內參矩陣，pose表示所述位姿矩陣，K^-1表示所述逆矩陣，H表示所述齊次座標矩陣，Z表示所述目標深度值。

透過上述實施方式，由於所述點雲中每個點的目標深度值具有相同的計量單位資訊，因此，能夠確保根據所述目標深度值生成的初始投影圖像中的像素值包含計量單位資訊。

步驟107，根據所述第一圖像、所述初始投影圖像及所述第二圖像計算所述深度識別網路的損失值，並基於所述損失值調整所述深度識別網路，得到圖像識別模型。

在本申請的至少一個實施例中，所述圖像識別模型是指對所述深度識別網路進行調整後生成的模型。所述電子設備根據所述第一圖像、所述初始投影圖像及所述第二圖像計算所述深度識別網路的損失值包括：所述電子設備計算所述第一圖像中每個像素點的像素值與所述初始投影圖像中對應的像素點的像素值的第一像素差值，進一步地，所述電子設備將所述第一圖像中每個像素點的像素值調整為對應的第一像素差值，得到第一差異圖像，所述電子設備計算所述第一圖像中每個像素點的像素值與所述第二圖像中對應的像素點的像素值的第二像素差值，並根據多個所述第二像素差值生成所述第一圖像對應的第二差異圖像，進一步地，所述電子設備根據所述第二像素差值與對應的第一像素差值的比較結果以及預設值，調整所述第二差異圖像中對應的第二像素差值，得到目標圖像，更進一步地，所述電子設備根據所述目標圖像中每個像素點的像素值及所述第一差異圖像中對應的像素點的像素值計算所述損失值。其中，所述第二差異圖像的生成方式與所述第一差異圖像的生成方式基本相同，故本申請在此不再贅述。

具體地，所述電子設備根據所述第二像素差值與對應的第一像素差值的比較結果以及預設值，調整所述第二差異圖像中對應的第二像素差值，得到目標圖像包括：所述電子設備將所述第二像素差值與所述對應的第一像素差值進行比較，若所述第二像素差值小於所述對應的第一像素差值，所述電子設備將所述第二像素差值在所述第二差異圖像中對應的像素點確定為特徵像素點，進一步地，所述電子設備將所述第二差異圖像中多個特徵像素點對應的第二像素差值均調整為所述預設值，得到所述目標圖像。

其中，所述預設值可以自行設置，本申請對此不作限制。例如，所述預設值可以為零。具體地，所述電子設備將所述目標圖像中每個像素點的像素值及所述第一差異圖像中對應的像素點的像素值進行相乘運算，得到所述損失值。

在本申請的至少一個實施例中，所述電子設備基於所述損失值調整所述深度識別網路的參數，直至所述損失值下降到最低，得到所述圖像識別模型。其中，所述深度識別網路的參數包括，但不限於：學習率以及每次訓練的批量大小(batch size)等等。

在本申請的其他實施例中，所述電子基於所述損失值調整所述深度識別網路的參數，直至所述損失值滿足預設的收斂條件，得到所述圖像識別模型。其中，所述收斂條件可以自行設置，本申請對此不作限制。例如，所述收斂條件可以為所述損失值小於或者等於預設閥值。

在本實施例中，由於移動的物件對應的像素值會導致計算出的損失值不準確，將所述第二像素差值與所述對應的第一像素差值進行比較，能夠確定是否所述第二差異圖像中是否存在移動的對象，若所述第二像素差值小於所述對應的第一像素差值，表示所述第二差異圖像中存在可以移動的物件，將所述第二像素差值在所述第二差異圖像中對應的像素點確定為特徵像素點，將所述第二差異圖像中多個所述特徵像素點對應的第二像素差值均調整為所述預設值，透過將所述移動的對象在所述第二差異圖像中對應的像素點的像素值調整為零，能夠確保所述移動的物件對應的像素值不參與所述損失值的計算，進而能夠確保所述損失值的準確性。

如圖4所示，是本申請實施例提供的圖像深度識別方法的流程圖。

根據不同的需求，所述流程圖中各個步驟的順序可以根據實際檢測要求進行調整，某些步驟可以省略。所述方法的執行主體為電子設備，例如圖1所示的電子設備1。

步驟108，獲取待識別圖像。

在本申請的至少一個實施例中，所述待識別圖像是指需要識別深度資訊的圖像。所述電子設備獲取待識別圖像包括：所述電子設備從預設的資料庫中獲取所述待識別圖像。其中，所述預設的資料庫可以為KITTI資料庫、Cityscapes資料庫及vKITTI資料庫等等。所述深度識別網路可以為深度神經網路，所述深度識別網路可以從網際網路的資料庫中獲取。

步驟109，將所述待識別圖像輸入到圖像識別模型中，得到所述待識別圖像的目標深度圖像及所述目標深度圖像中的深度資訊，所述圖像識別模型透過執行所述的圖像識別模型訓練方法獲得。

在本申請的至少一個實施例中，所述目標深度圖像是指包含所述待識別圖像中每個像素點的深度資訊及每個深度資訊的計量單位資訊的圖像，所述待識別圖像中每個像素點的深度資訊是指所述待識別圖像中每個像素點對應的待識別物件與拍攝所述待識別圖像的拍攝設備之間的距離。所述計量單位資訊包括，但不限於：米/m、釐米/cm。例如，所述待識別圖像中每個像素點的深度資訊可以為10，該深度資訊10對應的計量單位資訊為米/m。

在本申請的至少一個實施例中，所述目標深度圖像的生成方式與所述初始深度圖像的生成方式基本一致，故本申請在此不做贅述。所述電子設備獲取所述目標深度圖像中每個像素點的像素值作為所述待識別圖像中對應的像素點的深度資訊，並將該像素值的計量單位資訊確定為所述深度資訊的計量單位資訊。

由上述技術方案可知，本申請獲取道路場景的點雲及所述點雲中每個點的空間座標值，由於所述點雲及所述空間座標值透過光達獲得，因此所述空間座標值中包含光達的計量單位資訊，根據所述投影深度值、所述點雲的點數量及所述投影座標值在所述初始深度圖像中對應的初始像素點的初始深度值，計算所述點雲中每個點的縮放係數，由於所述縮放係數為多個投影深度值與對應的初始深度值的比值的平均值，因此，能夠使得所述縮放係數更能夠代表多個投影深度值與對應的初始深度值之間的整體比例關係，根據所述縮放係數及所述初始深度值計算所述點雲中每個點的目標深度值，由於所述目標深度值是按照所述縮放係數對每個初始深度值進行同比例縮放生成的，因此，能夠確保基於所述目標深度值生成的初始投影圖像的準確性，由於所述空間座標值包含光達的計量單位資訊，因此生成的損失值也包含計量單位資訊，基於所述損失值調整所述深度識別網路，得到圖像識別模型，確保所述圖像識別模型能夠準確地學習到所述光達的計量單位資訊，因此，能夠使得根據所述圖像識別模型生成的深度圖像中包含所述計量單位資訊，進而能夠確定車輛與周圍環境中各類物體或障礙物之間的真實距離。

如圖5所示，是本申請實施例提供的電子設備的結構示意圖。

在本申請的一個實施例中，所述電子設備1包括，但不限於，儲存器12、處理器13，以及儲存在所述儲存器12中並可在所述處理器13上運行的電腦程式，例如圖像深度識別程式及圖像識別模型訓練程式。

本領域技術人員可以理解，所述示意圖僅僅是電子設備1的示例，並不構成對電子設備1的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件，例如所述電子設備1還可以包括輸入輸出設備、網路接入設備、匯流排等。

所述處理器13可以是中央處理單元(Central Processing Unit,CPU)，還可以是其他通用處理器、數位訊號處理器(Digital Signal Processor,DSP)、特殊應用積體電路(Application Specific Integrated Circuit,ASIC)、現場可程式設計閘陣列(Field-Programmable Gate Array,FPGA)或者其他可程式設計邏輯器件、分立元器件門電路或者電晶體組件、分立硬體組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等，所述處理器13是所述電子設備1的運算核心和控制中心，利用各種介面和線路連接整個電子設備1的各個部分，及獲取所述電子設備1的作業系統以及安裝的各類應用程式、程式碼等。

所述處理器13獲取所述電子設備1的作業系統以及安裝的各類應用程式。所述處理器13獲取所述應用程式以實現上述各個圖像識別模型訓練方法以及各個圖像深度識別方法實施例中的步驟，例如圖2及圖4所示的步驟。示例性的，所述電腦程式可以被分割成一個或多個模組/單元，所述一個或者多個模組/單元被儲存在所述儲存器12中，並由所述處理器13獲取，以完成本申請。所述一個或多個模組/單元可以是能夠完成特定功能的一系列電腦程式指令段，該指令段用於描述所述電腦程式在所述電子設備1中的獲取過程。

所述儲存器12可用於儲存所述電腦程式和/或模組，所述處理器13透過運行或獲取儲存在所述儲存器12內的電腦程式和/或模組，以及調用儲存在儲存器12內的資料，實現所述電子設備1的各種功能。所述儲存器12可主要包括儲存程式區和儲存資料區，其中，儲存程式區可儲存作業系統、至少一個功能所需的應用程式(比如聲音播放功能、圖像播放功能等)等；儲存資料區可儲存根據電子設備的使用所創建的資料等。此外，儲存器12可以包括非易失性儲存器，例如硬碟、記憶體、插接式硬碟，智慧儲存卡(Smart Media Card,SMC)，安全數位(Secure Digital,SD)卡，記憶卡(Flash Card)、至少一個磁碟儲存器件、記憶器件、或其他非易失性固態儲存器件。

所述儲存器12可以是電子設備1的外部儲存器和/或內部儲存器。進一步地，所述儲存器12可以是具有實物形式的儲存器，如記憶條、TF卡(Trans-flash Card)等等。

所述電子設備1集成的模組/單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時，可以儲存在一個電腦可讀取儲存介質中。基於這樣的理解，本申請實現上述實施例方法中的全部或部分流程，也可以透過電腦程式來指令相關的硬體來完成，所述的電腦程式可儲存於一電腦可讀儲存介質中，該電腦程式在被處理器獲取時，可實現上述各個方法實施例的步驟。

其中，所述電腦程式包括電腦程式代碼，所述電腦程式代碼可以為原始程式碼形式、物件代碼形式、可獲取檔或某些中間形式等。所述電腦可讀介質可以包括：能夠攜帶所述電腦程式代碼的任何實體或裝置、記錄介質、隨身碟、移動硬碟、磁碟、光碟、電腦儲存器、唯讀記憶體(Read-Only Memory,ROM)。

結合圖2，所述電子設備1中的所述儲存器12儲存多個指令以實現一種圖像識別模型訓練方法，所述處理器13可獲取所述多個指令從而實現：獲取道路場景的點雲及所述點雲中每個點的空間座標值，並獲取拍攝設備拍攝的所述道路場景的第一圖像及第二圖像；將所述第一圖像輸入到預設的深度識別網路中，得到初始深度圖像；基於所述第一圖像與所述第二圖像生成的位姿矩陣及所述拍攝設備的內參矩陣，對所述空間座標值進行轉換，得到所述點雲中每個點的投影深度值及所述點雲中每個點的投影座標值；根據所述投影深度值、所述點雲的點數量及所述投影座標值在所述初始深度圖像中對應的初始像素點的初始深度值，計算所述點雲中每個點的縮放係數；根據所述縮放係數及所述初始深度值計算所述點雲中每個點的目標深度值；基於所述位姿矩陣、所述內參矩陣、所述目標深度值、所述第二圖像及所述投影座標值在所述第二圖像中對應的目標像素點的像素座標值，生成初始投影圖像；根據所述第一圖像、所述初始投影圖像及所述第二圖像計算所述深度識別網路的損失值，並基於所述損失值調整所述深度識別網路，得到圖像識別模型。

結合圖4，所述電子設備1中的所述儲存器12儲存多個指令以實現一種圖像深度識別方法，所述處理器13可獲取所述多個指令從而實現：獲取待識別圖像，將所述待識別圖像輸入到圖像識別模型中，得到所述待識別圖像的目標深度圖像及所述待識別圖像的深度資訊，所述圖像識別模型透過執行所述的圖像識別模型訓練方法而獲得。

具體地，所述處理器13對上述指令的具體實現方法可參考圖2及圖4對應實施例中相關步驟的描述，在此不贅述。在本申請所提供的幾個實施例中，應該理解到，所揭露的系統，裝置和方法，可以透過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述模組的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式。所述作為分離部件說明的模組可以是或者也可以不是物理上分開的，作為模組顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。

另外，在本申請各個實施例中的各功能模組可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用硬體加軟體功能模組的形式實現。因此，無論從哪一點來看，均應將實施例看作是示範性的，而且是非限制性的，本申請的範圍由所附請求項而不是上述說明限定，因此旨在將落在請求項的等同要件的含義和範圍內的所有變化涵括在本申請內。不應將請求項中的任何附關聯圖標記視為限制所涉及的請求項。

此外，顯然“包括”一詞不排除其他單元或步驟，單數不排除複數。本申請中陳述的多個單元或裝置也可以由一個單元或裝置透過軟體或者硬體來實現。第一、第二等詞語用來表示名稱，而並不表示任何特定的順序。

最後應說明的是，以上實施例僅用以說明本申請的技術方案而非限制，儘管參照較佳實施例對本申請進行了詳細說明，本領域的普通技術人員應當理解，可以對本申請的技術方案進行修改或等同替換，而不脫離本申請技術方案的精神和範圍。

101~107:步驟

Claims

一種圖像識別模型訓練方法，應用於電子設備，其中，所述方法包括：獲取道路場景的點雲及所述點雲中每個點的空間座標值，並獲取拍攝設備拍攝的所述道路場景的第一圖像及第二圖像；將所述第一圖像輸入到預設的深度識別網路中，得到初始深度圖像；基於所述第一圖像與所述第二圖像生成的位姿矩陣及所述拍攝設備的內參矩陣，對所述空間座標值進行轉換，得到所述點雲中每個點的投影深度值及所述點雲中每個點的投影座標值；根據所述投影深度值、所述點雲的點數量及所述投影座標值在所述初始深度圖像中對應的初始像素點的初始深度值，計算所述點雲中每個點的縮放係數，其中，所述縮放係數為多個所述投影深度值與多個對應的初始深度值之間的比值的平均值；根據所述縮放係數及所述初始深度值計算所述點雲中每個點的目標深度值；基於所述位姿矩陣、所述內參矩陣、所述目標深度值、所述第二圖像及所述投影座標值在所述第二圖像中對應的目標像素點的像素座標值，生成初始投影圖像；根據所述第一圖像、所述初始投影圖像及所述第二圖像計算所述深度識別網路的損失值，並基於所述損失值調整所述深度識別網路，得到圖像識別模型。
如請求項1所述的圖像識別模型訓練方法，其中，所述基於所述第一圖像與所述第二圖像生成的位姿矩陣及所述拍攝設備的內參矩陣，對所述空間座標值進行轉換，得到所述點雲中每個點的投影深度值及所述點雲中每個點的投影座標值包括：將所述空間座標值所對應的空間齊次矩陣與所述位姿矩陣進行相乘運算，得到相機座標矩陣；將所述相機座標矩陣中的豎座標值確定為所述投影深度值；將所述相機座標矩陣與所述內參矩陣進行相乘運算，得到相乘矩陣；將所述相乘矩陣中的每個元素值與所述投影深度值進行相除運算，得到所述投影座標值。
如請求項1所述的圖像識別模型訓練方法，其中，所述縮放係數的計算公式為：
其中，C _scale表示所述縮放係數，N _r表示所述點數量，d _ir表示所述點雲中任一個點的投影深度值，d _ip表示所述任一個點對應的初始像素點的初始深度值。
如請求項1所述的圖像識別模型訓練方法，其中，所述基於所述位姿矩陣、所述內參矩陣、所述目標深度值、所述第二圖像及所述投影座標值在所述第二圖像中對應的目標像素點的像素座標值，生成初始投影圖像包括：根據所述目標像素點的像素座標值構建齊次座標矩陣；獲取所述內參矩陣的逆矩陣；根據所述位姿矩陣、所述逆矩陣、所述內參矩陣、所述齊次座標矩陣及所述目標深度值計算出所述目標像素點的目標座標值；在所述第二圖像中將所述目標像素點的像素座標值調整為相應的目標座標值，得到所述初始投影圖像。
如請求項4所述的圖像識別模型訓練方法，其中，所述目標座標值的計算公式為：P=K * pose * Z * K ^-1 * H；其中，P表示所述目標座標值，K表示所述內參矩陣，pose表示所述位姿矩陣，K^-1表示所述逆矩陣，H表示所述齊次座標矩陣，Z表示所述目標深度值。
如請求項1所述的圖像識別模型訓練方法，其中，所述根據所述第一圖像、所述初始投影圖像及所述第二圖像計算所述深度識別網路的損失值包括：計算所述第一圖像中每個像素點的像素值與所述初始投影圖像中對應的像素點的像素值的第一像素差值；將所述第一圖像中每個像素點的像素值調整為對應的第一像素差值，得到第一差異圖像；計算所述第一圖像中每個像素點的像素值與所述第二圖像中對應的像素點的像素值的第二像素差值，並根據多個所述第二像素差值生成所述第一圖像對應的第二差異圖像；根據所述第二像素差值與對應的第一像素差值的比較結果以及預設值，調整所述第二差異圖像中對應的第二像素差值，得到目標圖像；根據所述目標圖像中每個像素點的像素值及所述第一差異圖像中對應的像素點的像素值計算所述損失值。
如請求項6所述的圖像識別模型訓練方法，其中，所述根據所述第二像素差值與對應的第一像素差值的比較結果以及預設值，調整所述第二差異圖像中對應的第二像素差值，得到目標圖像包括：將所述第二像素差值與所述對應的第一像素差值進行比較；若所述第二像素差值小於所述對應的第一像素差值，則將所述第二像素差值在所述第二差異圖像中對應的像素點確定為特徵像素點；將所述第二差異圖像中多個特徵像素點對應的第二像素差值均調整為所述預設值，得到所述目標圖像。
一種圖像深度識別方法，其中，所述圖像深度識別方法包括：獲取待識別圖像；將所述待識別圖像輸入到圖像識別模型中，得到所述待識別圖像的目標深度圖像及所述待識別圖像的深度資訊，所述圖像識別模型透過執行如請求項1至7中任一項所述的圖像識別模型訓練方法獲得。
一種電子設備，其中，所述電子設備包括：儲存器，儲存至少一個指令；及處理器，執行所述至少一個指令以實現如請求項1至7中任意一項所述的圖像識別模型訓練方法，或者如請求項8所述的圖像深度識別方法。
一種電腦可讀儲存介質，其中：所述電腦可讀儲存介質中儲存有至少一個指令，所述至少一個指令被電子設備中的處理器執行以實現如請求項1至7中任意一項所述的圖像識別模型訓練方法，或者如請求項8所述的圖像深度識別方法。