TWI766175B - 單目圖像深度估計方法、設備及儲存介質 - Google Patents
單目圖像深度估計方法、設備及儲存介質 Download PDFInfo
- Publication number
- TWI766175B TWI766175B TW108126232A TW108126232A TWI766175B TW I766175 B TWI766175 B TW I766175B TW 108126232 A TW108126232 A TW 108126232A TW 108126232 A TW108126232 A TW 108126232A TW I766175 B TWI766175 B TW I766175B
- Authority
- TW
- Taiwan
- Prior art keywords
- monocular image
- depth map
- preset
- depth
- predicted
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000013528 artificial neural network Methods 0.000 claims abstract description 74
- 238000011176 pooling Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 abstract description 14
- 238000005457 optimization Methods 0.000 description 25
- 230000008859 change Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000000295 complement effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本發明實施例公開了一種單目圖像深度估計方法、設備及儲存介質,其中,方法包括:基於深度估計神經網路,根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取所述單目圖像的全域特徵;根據所述全域特徵、所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得所述單目圖像的預測深度圖。本發明實施例可以提高單目圖像深度估計的準確度。
Description
本發明關於電腦視覺技術,尤其是一種單目圖像深度估計方法、電子設備及儲存介質。
圖像的深度估計是電腦視覺領域的重要問題,目前圖像的深度估計主要包括:單目圖像深度估計和雙目圖像深度估計。其中,單目圖像深度估計主要是基於單目圖像來估計圖像的深度資訊,但由於單目圖像深度估計是一個非常具有挑戰性的問題,因此目前很多現有的單目圖像深度估計方法預測的單目圖像的深度資訊的準確度仍然較差。
本發明實施例提供一種單目圖像深度估計技術方案。
根據本發明實施例的一個方面,提供一種單目圖像深度估計方法,包括:
基於深度估計神經網路,根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取所述單目圖像的全域特徵;根據所述全域特徵、所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得所述單目圖像的預測深度圖。
可選地,在本發明上述方法實施例中,在所述根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取所述單目圖像的全域特徵之前,還包括:將所述單目圖像經第一神經網路進行特徵提取,獲取所述單目圖像中各預設區域的特徵,並將所述各預設區域的特徵作為所述單目圖像中各預設區域的絕對特徵;根據所述單目圖像中各預設區域的絕對特徵,獲取所述單目圖像中各預設區域之間的相對特徵。
可選地,在本發明上述任一方法實施例中,所述根據所述單目圖像中各預設區域的絕對特徵,獲取所述單目圖像中各預設區域之間的相對特徵,包括:對所述單目圖像中各預設區域的絕對特徵經關聯度層進行向量運算,獲得所述單目圖像中各預設區域之間的相對特徵。
可選地,在本發明上述任一方法實施例中,在將所述單目圖像經第一神經網路進行特徵提取之前,還包括:
對所述單目圖像進行下採樣,獲得具有預設維度的單目圖像;其中,所述單目圖像的維度為所述預設維度的倍數。
可選地,在本發明上述任一方法實施例中,所述根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取所述單目圖像的全域特徵,包括:通過全連接層結合所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取所述單目圖像的全域特徵。
可選地,在本發明上述任一方法實施例中,所述根據所述全域特徵、所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得所述單目圖像的預測深度圖,包括:根據所述全域特徵、所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,通過深度估計器進行深度估計,獲得所述單目圖像的預測深度圖。
可選地,在本發明上述任一方法實施例中,所述根據所述全域特徵、所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得所述單目圖像的預測深度圖之後,還包括:根據所述單目圖像深度資訊的縱向變化規律對所述預測深度圖進行優化,獲得所述單目圖像的目標深度圖。
可選地,在本發明上述任一方法實施例中,所述根據所述單目圖像深度資訊的縱向變化規律對所述預測深度圖進行優化,獲得所述單目圖像的目標深度圖,包括:
根據所述單目圖像深度資訊的縱向變化規律,對所述預測深度圖進行殘差估計,獲得所述預測深度圖的殘差圖;根據所述殘差圖對所述預測深度圖進行優化,獲得所述單目圖像的目標深度圖。
可選地,在本發明上述任一方法實施例中,所述根據所述單目圖像深度資訊的縱向變化規律,對所述預測深度圖進行殘差估計,獲得所述預測深度圖的殘差圖,包括:根據所述單目圖像深度資訊的縱向變化規律,通過殘差估計網路對所述預測深度圖進行殘差估計,獲得所述預測深度圖的殘差圖;所述根據所述殘差圖對所述預測深度圖進行優化,獲得所述單目圖像的目標深度圖,包括:對所述殘差圖和所述預測深度圖進行逐圖元疊加運算,獲得所述單目圖像的目標深度圖。
可選地,在本發明上述任一方法實施例中,所述根據所述單目圖像深度資訊的縱向變化規律對所述預測深度圖進行優化,獲得所述單目圖像的目標深度圖之前,還包括:根據所述預測深度圖獲取所述單目圖像深度資訊的縱向變化規律。
可選地,在本發明上述任一方法實施例中,所述根據所述預測深度圖獲取所述單目圖像深度資訊的縱向變化規律,包括:
通過縱向池化層對所述預測深度圖進行處理,獲取所述單目圖像深度資訊的縱向變化規律。
可選地,在本發明上述任一方法實施例中,所述根據所述單目圖像深度資訊的縱向變化規律對所述預測深度圖進行優化,包括:對所述預測深度圖進行預設次數的上採樣,根據每一次上採樣獲得的維度依次成倍數增大的預測深度圖獲取深度資訊的縱向變化規律,根據每一次上採樣獲得的維度依次成倍數增大的預測深度圖的深度資訊的縱向變化規律,對每一次上採樣獲得的維度依次成倍數增大的預測深度圖進行優化,獲得優化後的目標深度圖;其中,除最末一次上採樣外,其餘每一次上採樣獲得的優化後的目標深度圖作為下一次上採樣的預測深度圖,最末一次上採樣獲得的優化後的目標深度圖作為所述單目圖像的目標深度圖,所述目標深度圖的維度與所述單目圖像的維度相同。
可選地,在本發明上述任一方法實施例中,其特徵在於,所述深度估計神經網路包括:關聯度層、全連接層和深度估計器,是利用稀疏深度圖和通過雙目圖像立體匹配獲得的稠密深度圖作為標注資料對所述深度估計神經網路進行訓練獲得。
根據本發明實施例的另一個方面,提供一種單目圖像深度估計裝置,包括:
深度估計神經網路,用於根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取所述單目圖像的全域特徵;以及根據所述全域特徵、所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得所述單目圖像的預測深度圖。
可選地,在本發明上述裝置實施例中,還包括:第一神經網路,用於對所述單目圖像進行特徵提取,獲取所述單目圖像中各預設區域的特徵,並將所述各預設區域的特徵作為所述單目圖像中各預設區域的絕對特徵;所述深度估計神經網路,還用於根據所述單目圖像中各預設區域的絕對特徵,獲取所述單目圖像中各預設區域之間的相對特徵。
可選地,在本發明上述任一裝置實施例中,所述深度估計神經網路,包括:關聯度層,用於對所述單目圖像中各預設區域的絕對特徵進行向量運算,獲得所述單目圖像中各預設區域之間的相對特徵。
可選地,在本發明上述任一裝置實施例中,還包括:下採樣層,用於在對所述單目圖像進行特徵提取之前,對所述單目圖像進行下採樣,獲得具有預設維度的單目圖像;其中,所述單目圖像的維度為所述預設維度的倍數。
可選地,在本發明上述任一裝置實施例中,所述深度估計神經網路,包括:
全連接層,用於結合所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取所述單目圖像的全域特徵。
可選地,在本發明上述任一裝置實施例中,所述深度估計神經網路,包括:深度估計器,用於根據所述全域特徵、所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,進行深度估計,獲得所述單目圖像的預測深度圖。
可選地,在本發明上述任一裝置實施例中,還包括:第二神經網路,用於根據所述單目圖像深度資訊的縱向變化規律對所述預測深度圖進行優化,獲得所述單目圖像的目標深度圖。
可選地,在本發明上述任一裝置實施例中,所述第二神經網路,用於根據所述單目圖像深度資訊的縱向變化規律,對所述預測深度圖進行殘差估計,獲得所述預測深度圖的殘差圖;以及根據所述殘差圖對所述預測深度圖進行優化,獲得所述單目圖像的目標深度圖。
可選地,在本發明上述任一裝置實施例中,所述第二神經網路,包括:殘差估計網路,用於根據所述單目圖像深度資訊的縱向變化規律,對所述預測深度圖進行殘差估計,獲得所述預測深度圖的殘差圖;
加法運算單元,用於對所述殘差圖和所述預測深度圖進行逐圖元疊加運算,獲得所述單目圖像的目標深度圖。
可選地,在本發明上述任一裝置實施例中,所述第二神經網路,還用於根據所述預測深度圖獲取所述單目圖像深度資訊的縱向變化規律。
可選地,在本發明上述任一裝置實施例中,所述第二神經網路,包括:縱向池化層,用於對所述預測深度圖進行處理,獲取所述單目圖像深度資訊的縱向變化規律。
可選地,在本發明上述任一裝置實施例中,還包括:上採樣層,用於對所述預測深度圖進行預設次數的上採樣;縱向池化層,用於根據每一次上採樣獲得的維度依次成倍數增大的預測深度圖獲取深度資訊的縱向變化規律;所述第二神經網路,用於根據每一次上採樣獲得的維度依次成倍數增大的預測深度圖的深度資訊的縱向變化規律,對每一次上採樣獲得的維度依次成倍數增大的預測深度圖進行優化,獲得優化後的目標深度圖;其中,除最末一次上採樣外,其餘每一次上採樣獲得的優化後的目標深度圖作為下一次上採樣的預測深度圖,最末一次上採樣獲得的優化後的目標深度圖作為所述單目圖像
的目標深度圖,所述目標深度圖的維度與所述單目圖像的維度相同。
可選地,在本發明上述任一裝置實施例中,所述深度估計神經網路包括:關聯度層、全連接層和深度估計器,是利用稀疏深度圖和通過雙目圖像立體匹配獲得的稠密深度圖作為標注資料對所述深度估計神經網路進行訓練獲得。
根據本發明實施例的又一個方面,提供的一種電子設備,包括上述任一實施例所述的裝置。
根據本發明實施例的再一個方面,提供的一種電子設備,包括:記憶體,用於儲存可執行指令;以及處理器,用於執行所述可執行指令從而完成上述任一實施例所述的方法。
根據本發明實施例的再一個方面,提供的一種電腦程式,包括電腦可讀代碼,當所述電腦可讀代碼在設備上運行時,所述設備中的處理器執行用於實現上述任一實施例所述方法的指令。
根據本發明實施例的再一個方面,提供的一種電腦儲存介質,用於儲存電腦可讀指令,所述指令被執行時實現上述任一實施例所述的方法。
基於本發明上述實施例提供的單目圖像深度估計方法及裝置、電子設備、電腦程式及儲存介質,基於深度估計神經網路,根據單目圖像中各預設區域的絕對特徵和各
預設區域之間的相對特徵,獲取單目圖像的全域特徵,根據全域特徵、單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得單目圖像的預測深度圖,通過在單目圖像深度估計中,利用圖像中各預設區域的相對特徵與絕對特徵相互補充,提高了深度估計中相對距離預測的準確度,從而可以提高單目圖像深度估計的準確度。
下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
511:全連接層
512:深度估計器
610:深夜估計神經網路
611:全連接層
612:深度估計器
613:關聯度層
620:第一神經網路
710:深度估計神經網路
711:全連接層
712:深度估計器
730:第二神經網路
731:殘差估計網路
732:加法運算單元
733:縱向池化層
801:中央處理單元(CPU)
802:唯讀記憶體(ROM)
803:隨機訪問記憶體(RAM)
804:匯流排
805:I/O介面
806:輸入部分
807:輸出部分
808:儲存部分
809:通信部分
810:驅動器
811:可拆卸介質
812:通信部
構成說明書的一部分的附圖描述了本發明的實施例,並且連同描述一起用於解釋本發明的原理。
參照附圖,根據下面的詳細描述,可以更加清楚地理解本發明,其中:圖1為本發明一些實施例的單目圖像深度估計方法的流程圖;圖2為本發明另一些實施例的單目圖像深度估計方法的流程圖;圖3為本發明實施例採用多尺度學習進行優化時每一個尺度優化的流程圖;圖4A至圖4C為實現本發明一些實施例的單目圖像深度估計方法的網路結構的示意圖;
圖5為本發明一些實施例的單目圖像深度估計裝置的結構示意圖;圖6為本發明另一些實施例的單目圖像深度估計裝置的結構示意圖;圖7為本發明又一些實施例的單目圖像深度估計裝置的結構示意圖;圖8是本發明一些實施例提供的電子設備的結構示意圖。
現在將參照附圖來詳細描述本發明的各種示例性實施例。應注意到:除非另外具體說明,否則在這些實施例中闡述的部件和步驟的相對佈置、數位運算式和數值不限制本發明的範圍。
同時,應當明白,為了便於描述,附圖中所示出的各個部分的尺寸並不是按照實際的比例關係繪製的。
以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發明及其應用或使用的任何限制。
對於相關領域普通技術人員已知的技術、方法和設備可能不作詳細討論,但在適當情況下,所述技術、方法和設備應當被視為說明書的一部分。
應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨後的附圖中不需要對其進行進一步討論。
本發明實施例可以應用於電腦系統/伺服器,其可與眾多其它通用或專用計算系統環境或配置一起操作。適於與電腦系統/伺服器一起使用的眾所周知的計算系統、環境和/或配置的例子包括但不限於:個人電腦系統、伺服器電腦系統、瘦客戶機、厚客戶機、手持或膝上設備、基於微處理器的系統、機上盒、可程式設計消費電子產品、網路個人電腦、小型電腦系統、大型電腦系統和包括上述任何系統的分散式雲計算技術環境,等等。
電腦系統/伺服器可以在由電腦系統執行的電腦系統可執行指令(諸如程式模組)的一般語境下描述。通常,程式模組可以包括常式、程式、目的程式、元件、邏輯、資料結構等等,它們執行特定的任務或者實現特定的抽象資料類型。電腦系統/伺服器可以在分散式雲計算環境中實施。
分散式雲計算環境中,任務是由通過通信網路連結的遠端處理設備執行的。在分散式雲計算環境中,程式模組可以位於包括存放裝置的本地或遠端計算系統儲存介質上。
圖1為本發明一些實施例的單目圖像深度估計方法的流程圖。
如圖1所示,該方法包括:102,基於深度估計神經網路,根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取單目圖像的全域特徵。
在本實施例中,單目圖像可以是從圖像採集設備獲取的圖像,也可以是從儲存裝置獲取的圖像,例如:圖像採集設備可以為照相機、攝像機、掃描器等,儲存裝置可以為U盤、光碟、硬碟等,本實施例對單目圖像的獲取方式不作限定。其中,單目圖像中各預設區域的絕對特徵可以用來表示單目圖像中各預設區域的局部外觀,例如:它可以包括紋理特徵、幾何特徵等。單目圖像中各預設區域之間的相對特徵可以用來表示單目圖像中各預設區域局部外觀之間的差異性,例如:它可以包括紋理差異、幾何差異等。單目圖像中的各預設區域可以根據圖像的特徵設定。本實施例的深度圖是指以圖像中各圖元的圖元值表徵圖像中的各圖元到圖像採集設備之間的距離的圖像。
在一個可選的例子中,可以通過全連接層結合單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取單目圖像的全域特徵。
104,根據全域特徵、單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得單目圖像的預測深度圖。
在一個可選的例子中,可以根據單目圖像的全域特徵、單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,通過深度估計器進行深度估計,獲得單目圖像的預測深度圖。例如:深度估計器可以採用全卷積網路,全卷積網路主要由卷積層和反卷積層組成,它可以根據圖像的幾何分佈資訊,即圖像的全域特徵、圖像中各預設區域的
絕對特徵和各預設區域之間的相對特徵,回歸出圖像中各圖元的深度值,從而獲得預測深度圖。
本實施例提供的單目圖像深度估計方法,基於深度估計神經網路,根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取單目圖像的全域特徵,根據全域特徵、單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得單目圖像的預測深度圖,通過在單目圖像深度估計中,利用圖像中各預設區域的相對特徵與絕對特徵相互補充,提高了深度估計中相對距離預測的準確度,從而可以提高單目圖像深度估計的準確度。
可選地,在根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取單目圖像的全域特徵之前,還可以將單目圖像經第一神經網路進行特徵提取,獲取單目圖像中各預設區域的特徵,並將各預設區域的特徵作為單目圖像中各預設區域的絕對特徵,然後根據單目圖像中各預設區域的絕對特徵,獲取單目圖像中各預設區域之間的相對特徵。例如:第一神經網路可以採用由於一個卷積層和池化層組成的編碼器網路,單目圖像經編碼器網路進行特徵提取,可以獲得圖像的高維特徵。
在一個可選的例子中,可以對單目圖像中各預設區域的絕對特徵經關聯度層進行向量運算,獲得單目圖像中各預設區域之間的相對特徵。其中,圖像中各預設區域之間的相對特徵,可以為圖像中各預設區域與其周邊預設範圍內的預設區域之間的相對特徵,例如:可以通過對單目圖像
中各預設區域與其周邊預設範圍內的預設區域之間的特徵向量,進行點積運算,獲得單目圖像中各預設區域之間的相對特徵。
可選地,在將單目圖像經第一神經網路進行特徵提取之前,還可以對單目圖像進行下採樣,獲得具有預設維度的單目圖像,並以具有預設維度的單目圖像作為深度估計神經網路進行深度估計的單目圖像,以減少計算量,提高資料處理的速度。其中,單目圖像的維度為預設維度的倍數,例如:單目圖像的維度為預設維度的8倍。
通常,圖像在垂直方向上的深度變化比在水準方向上的深度變化更大,例如:在駕駛場景中,圖像中的道路往往是沿垂直方向延伸到距離攝像機更遠的地方,可見,圖像深度資訊的縱向變化規律將有助於對圖像絕對距離的估計。因此,我們可以將單目圖像深度資訊的縱向變化規律用於單目圖像的深度估計,例如:可以根據單目圖像深度資訊的縱向變化規律對預測深度圖進行優化。
在一些實施例中,如圖2所示,在操作204根據全域特徵、單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得單目圖像的預測深度圖之後,還可以包括:206,根據單目圖像深度資訊的縱向變化規律對預測深度圖進行優化,獲得單目圖像的目標深度圖。
可選地,可以根據單目圖像深度資訊的縱向變化規律,對預測深度圖進行殘差估計,獲得預測深度圖的殘
差圖,然後根據殘差圖對預測深度圖進行優化,獲得單目圖像的目標深度圖。
在一個可選的例子中,可以根據單目圖像深度資訊的縱向變化規律,通過殘差估計網路對預測深度圖進行殘差估計,獲得預測深度圖的殘差圖,然後對殘差圖和預測深度圖進行逐圖元疊加運算,獲得單目圖像的目標深度圖。
可選地,在根據單目圖像深度資訊的縱向變化規律對預測深度圖進行優化,獲得單目圖像的目標深度圖之前,還可以根據預測深度圖獲取單目圖像深度資訊的縱向變化規律。
在一個可選的例子中,可以通過縱向池化層對預測深度圖進行處理,獲取單目圖像深度資訊的縱向變化規律。其中,縱向池化層可以使用一個列向量作為池化核,對預測深度圖進行池化處理,例如:縱向池化層可以使用大小為H×1的池化核,對預測深度圖進行平均池化處理,其中H為大於1的整數。
本實施例提供的單目圖像深度估計方法,基於深度估計神經網路,根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取單目圖像的全域特徵,根據全域特徵、單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得單目圖像的預測深度圖,根據單目圖像深度資訊的縱向變化規律對預測深度圖進行優化,獲得單目圖像的目標深度圖,通過在單目圖像深度估計中,除了利用圖像中各預設區域的相對特徵與絕對特徵相互補
充,提高了深度估計中相對距離預測的準確度,還利用圖像深度資訊的縱向變化規律進行優化,提高了深度估計中絕對距離預測的準確度,從而可以全面提高單目圖像深度估計的準確度。
在一些實施例中,當在將單目圖像經第一神經網路進行特徵提取之前,對單目圖像進行下採樣,獲得具有預設維度的單目圖像,並以具有預設維度的單目圖像作為深度估計神經網路進行深度估計的單目圖像時,根據單目圖像深度資訊的縱向變化規律對預測深度圖進行優化,可以採用多尺度學習的方法,以提高單目圖像深度估計的準確度。
可選地,可以對預測深度圖進行預設次數的上採樣,根據每一次上採樣獲得的維度依次成倍數增大的預測深度圖獲取深度資訊的縱向變化規律,根據每一次上採樣獲得的維度依次成倍數增大的預測深度圖的深度資訊的縱向變化規律,對每一次上採樣獲得的維度依次成倍數增大的預測深度圖進行優化,獲得優化後的目標深度圖。其中,除最末一次上採樣外,其餘每一次上採樣獲得的優化後的目標深度圖,作為下一次上採樣的預測深度圖,最末一次上採樣獲得的優化後的目標深度圖,作為單目圖像的目標深度圖,該目標深度圖的維度與單目圖像的維度相同。
下面將結合圖3,詳細描述採用多尺度學習進行優化時每一個尺度優化的流程。
如圖3所示,該方法包括:
302,對具有第一預設維度的預測深度圖進行上採樣,獲得具有第二預設維度的預測深度圖。
在本實施例中,具有第一預設維度的預測深度圖可以是獲取自深度估計神經網路的預測深度圖,也可以是獲取自上一個尺度優化流程的優化後的目標深度圖。第二預設維度為第一預設維度的倍數,其中第一預設維度和第二預設維度的大小可以根據上採樣的次數、頻率以及單目圖像的尺寸等確定。
在一個可選的例子中,可以通過上採樣層對具有第一預設維度的預測深度圖進行上採樣,獲得具有第二預設維度的預測深度圖。
304,根據具有第二預設維度的預測深度圖,獲取對應的深度資訊的縱向變化規律。
在一個可選的例子中,可以通過縱向池化層對具有第二預設維度的預測深度圖進行處理,獲取對應的深度資訊的縱向變化規律。
306,根據對應的深度資訊的縱向變化規律,對具有第二預設維度的預測深度圖進行殘差估計,獲得對應的殘差圖。
在一個可選的例子中,可以根據對應的深度資訊的縱向變化規律,通過殘差估計網路對具有第二預設維度的預測深度圖進行殘差估計,獲得對應的殘差圖。
308,根據對應的殘差圖對具有第二預設維度的預測深度圖進行優化,獲得優化後具有第二預設維度的目標深度圖。
在一個可選的例子中,可以通過對對應的殘差圖和具有第二預設維度的預測深度圖進行逐圖元疊加運算,獲得優化後具有第二預設維度的目標深度圖。
圖4A至圖4C為實現本發明一些實施例的單目圖像深度估計方法的網路結構的示意圖。
在本實施例中,如圖4A所示,實現本發明實施例單目圖像深度估計方法的網路包括:卷積神經網路、深度估計神經網路和深度優化神經網路。其中,卷積神經網路包括下採樣層和第一神經網路,通過下採樣層對單目圖像進行8倍下採樣,獲得維度為單目圖像1/8的單目圖像,然後通過第一神經網路對1/8維度的單目圖像進行特徵提取,獲得1/8維度的單目圖像中各預設區域的絕對特徵。
如圖4B所示,深度估計神經網路包括:關聯度層、全連接層和深度估計器,其中,關聯度層可以根據1/8維度的單目圖像中各預設區域的絕對特徵,獲得1/8維度的單目圖像中各預設區域之間的相對特徵,全連接層可以根據1/8維度的單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取1/8維度的單目圖像的全域特徵,深度估計器可以根據1/8維度的圖像的全域特徵、1/8維度的單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得1/8維度的預測深度圖。
在本實施例中,深度優化神經網路包括第一尺度優化網路、第二尺度優化網路和第三尺度優化網路,其中,每一個尺度優化網路的結構,如圖4C所示,均包括:上採樣層、縱向池化層、殘差估計網路和加法運算單元。
其中,第一尺度優化網路的上採樣層可以對1/8維度的預測深度圖進行2倍上採樣,獲得1/4維度的預測深度圖,第一尺度優化網路的縱向池化層可以根據1/4維度的預測深度圖,獲取對應的深度資訊的縱向變化規律,第一尺度優化網路的殘差估計網路可以根據1/4維度的預測深度圖對應的深度資訊的縱向變化規律,對1/4維度的預測深度圖進行殘差估計,獲得對應的殘差圖,第一尺度優化網路的加法運算單元可以對對應的殘差圖和1/4維度的預測深度圖進行逐圖元疊加運算,獲得優化後1/4維度的目標深度圖,可以將該優化後1/4維度的目標深度圖作為第二尺度優化網路的預測深度圖。
第二尺度優化網路的上採樣層可以對優化後1/4維度的目標深度圖進行2倍上採樣,獲得1/2維度的預測深度圖,第二尺度優化網路的縱向池化層可以根據1/2維度的預測深度圖,獲取對應的深度資訊的縱向變化規律,第二尺度優化網路的殘差估計網路可以根據1/2維度的預測深度圖對應的深度資訊的縱向變化規律,對1/2維度的預測深度圖進行殘差估計,獲得對應的殘差圖,第二尺度優化網路的加法運算單元可以對對應的殘差圖和1/2維度的預測深度圖進行逐圖元疊加運算,獲得優化後1/2維度的目標深度圖,
可以將該優化後1/2維度的目標深度圖作為第三尺度優化網路的預測深度圖。
第三尺度優化網路的上採樣層可以對優化後1/2維度的目標深度圖進行2倍上採樣,獲得維度與單目圖像的維度相同的預測深度圖,第三尺度優化網路的縱向池化層可以根據維度與單目圖像的維度相同的預測深度圖,獲取對應的深度資訊的縱向變化規律,第三尺度優化網路的殘差估計網路可以根據維度與單目圖像的維度相同的預測深度圖對應的深度資訊的縱向變化規律,對維度與單目圖像的維度相同的預測深度圖進行殘差估計,獲得對應的殘差圖,第三尺度優化網路的加法運算單元可以對對應的殘差圖和維度與單目圖像的維度相同的預測深度圖進行逐圖元疊加,獲得優化後維度與單目圖像的維度相同的目標深度圖,並將該優化後的深度圖作為單目圖像的目標深度圖。
在一個可選的例子中,上述各實施例的深度估計神經網路,可以通過雙目圖像立體匹配獲得的稠密深度圖和稀疏深度圖作為標注資料,進行半監督的訓練獲得。
在本實施例中,由於採用其它方法獲得的訓練資料的“標注資料”比較稀疏,即深度圖中有效的圖元值比較少,因此採用雙目匹配獲得的深度圖作為訓練資料的“標注資料”。
本發明實施例提供的單目圖像深度估計方法可以用於場景幾何結構分析、自動駕駛、輔助駕駛、目標跟蹤以及機器人自主避障等領域。例如:在駕駛場景中,可以利
用本發明實施例提供的單目圖像深度估計方法對前車或者行人的距離進行預測。在手機拍照時,可以利用本發明實施例提供的單目圖像深度估計方法預測的深度資訊進行單目虛化操作;利用本發明實施例提供的單目圖像深度估計方法的預測結果,可以說明改善物體跟蹤演算法。
圖5為本發明一些實施例的單目圖像深度估計裝置的結構示意圖。
如圖5所示,該裝置包括:深度估計神經網路510。其中,深度估計神經網路510,用於根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取單目圖像的全域特徵;以及根據全域特徵、單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得單目圖像的預測深度圖。
在本實施例中,單目圖像可以是從圖像採集設備獲取的圖像,也可以是從儲存裝置獲取的圖像,例如:圖像採集設備可以為照相機、攝像機、掃描器等,儲存裝置可以為U盤、光碟、硬碟等,本實施例對單目圖像的獲取方式不作限定。其中,單目圖像中各預設區域的絕對特徵可以用來表示單目圖像中各預設區域的局部外觀,例如:它可以包括紋理特徵、幾何特徵等。單目圖像中各預設區域之間的相對特徵可以用來表示單目圖像中各預設區域局部外觀之間的差異性,例如:它可以包括紋理差異、幾何差異等。單目圖像中的各預設區域可以根據圖像的特徵設定。本實施例的
深度圖是指以圖像中各圖元的圖元值表徵圖像中的各圖元到圖像採集設備之間的距離的圖像。
在一個可選的例子中,如圖5所示,深度估計神經網路510可以包括:全連接層511,用於結合單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取單目圖像的全域特徵。深度估計神經網路510還可以包括:深度估計器512,用於根據單目圖像的全域特徵、單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,進行深度估計,獲得單目圖像的預測深度圖。例如:深度估計器可以採用全卷積網路,全卷積網路主要由卷積層和反卷積層組成,它可以根據圖像的幾何分佈資訊,即圖像的全域特徵、圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,回歸出圖像中各圖元的深度值,從而獲得預測深度圖。
本實施例提供的單目圖像深度估計裝置,基於深度估計神經網路,根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取單目圖像的全域特徵,根據全域特徵、單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得單目圖像的預測深度圖,通過在單目圖像深度估計中,利用圖像中各預設區域的相對特徵與絕對特徵相互補充,提高了深度估計中相對距離預測的準確度,從而可以提高單目圖像深度估計的準確度。
圖6為本發明另一些實施例的單目圖像深度估計裝置的結構示意圖。
如圖6所示,深度估計神經網路610、全連接層611和深度估計器612與圖5的實施例相同,與圖5的實施例相比,兩者的不同之處在於,該裝置還包括:第一神經網路620。其中,第一神經網路620,用於對單目圖像進行特徵提取,獲取單目圖像中各預設區域的特徵,並將各預設區域的特徵作為單目圖像中各預設區域的絕對特徵。例如:第一神經網路可以採用由於一個卷積層和池化層組成的編碼器網路,單目圖像經編碼器網路進行特徵提取,可以獲得圖像的高維特徵。
深度估計神經網路610,還用於根據單目圖像中各預設區域的絕對特徵,獲取單目圖像中各預設區域之間的相對特徵。
在一個可選的例子中,如圖6所示,深度估計神經網路610還可以包括:關聯度層613,用於對單目圖像中各預設區域的絕對特徵經關聯度層進行向量運算,獲得單目圖像中各預設區域之間的相對特徵。其中,圖像中各預設區域之間的相對特徵,可以為圖像中各預設區域與其周邊預設範圍內的預設區域之間的相對特徵,例如:可以通過對單目圖像中各預設區域與其周邊預設範圍內的預設區域之間的特徵向量,進行點積運算,獲得單目圖像中各預設區域之間的相對特徵。
可選地,該裝置還可以包括:下採樣層,用於在對單目圖像進行特徵提取之前,對單目圖像進行下採樣,獲得具有預設維度的單目圖像,此時深度估計神經網路610
是對具有預設維度的單目圖像進行深度估計,以減少計算量,提高資料處理的速度。其中,單目圖像的維度為預設維度的倍數,例如:單目圖像的維度為預設維度的8倍。
圖7為本發明另一些實施例的單目圖像深度估計裝置的結構示意圖。
如圖7所示,深度估計神經網路710、全連接層711和深度估計器712與圖5的實施例相同,與圖5的實施例相比,兩者的不同之處在於,該裝置還包括:第二神經網路730。其中,第二神經網路730,用於根據單目圖像深度資訊的縱向變化規律對預測深度圖進行優化,獲得單目圖像的目標深度圖。
可選地,第二神經網路730,用於根據單目圖像深度資訊的縱向變化規律,對預測深度圖進行殘差估計,獲得預測深度圖的殘差圖,然後根據殘差圖對預測深度圖進行優化,獲得單目圖像的目標深度圖。
在一個可選的例子中,如圖7所示,第二神經網路730可以包括:殘差估計網路731,用於可以根據單目圖像深度資訊的縱向變化規律,通過殘差估計網路對預測深度圖進行殘差估計,獲得預測深度圖的殘差圖;加法運算單元732,用於對殘差圖和預測深度圖進行逐圖元疊加運算,獲得單目圖像的目標深度圖。
可選地,第二神經網路730還用於根據預測深度圖獲取單目圖像深度資訊的縱向變化規律。
在一個可選的例子中,如圖7所示,第二神經網路730還可以包括:縱向池化層733,用於通過縱向池化層對預測深度圖進行處理,獲取單目圖像深度資訊的縱向變化規律。其中,縱向池化層可以使用一個列向量作為池化核,對預測深度圖進行池化處理,例如:縱向池化層可以使用大小為H×1的池化核,對預測深度圖進行平均池化處理,其中H為大於1的整數。
本實施例提供的單目圖像深度估計裝置,基於深度估計神經網路,根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取單目圖像的全域特徵,根據全域特徵、單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得單目圖像的預測深度圖,根據單目圖像深度資訊的縱向變化規律對預測深度圖進行優化,獲得單目圖像的目標深度圖,通過在單目圖像深度估計中,除了利用圖像中各預設區域的相對特徵與絕對特徵相互補充,提高了深度估計中相對距離預測的準確度,還利用圖像深度資訊的縱向變化規律進行優化,提高了深度估計中絕對距離預測的準確度,從而可以全面提高單目圖像深度估計的準確度。
在一個可選的例子中,當在將單目圖像經第一神經網路進行特徵提取之前,通過下採樣層對單目圖像進行下採樣,獲得具有預設維度的單目圖像,並以具有預設維度的單目圖像作為深度估計神經網路進行深度估計的單目圖像時,根據單目圖像深度資訊的縱向變化規律對預測深度圖
進行優化,可以採用多尺度學習的方法,以提高單目圖像深度估計的準確度。
可選地,該裝置還可以包括:上採樣層,用於對預測深度圖進行預設次數的上採樣;縱向池化層,用於根據每一次上採樣獲得的維度依次成倍數增大的預測深度圖獲取深度資訊的縱向變化規律;第二神經網路,用於根據每一次上採樣獲得的維度依次成倍數增大的預測深度圖的深度資訊的縱向變化規律,對每一次上採樣獲得的維度依次成倍數增大的預測深度圖進行優化,獲得優化後的目標深度圖。其中,除最末一次上採樣外,其餘每一次上採樣獲得的優化後的目標深度圖,作為下一次上採樣的預測深度圖,最末一次上採樣獲得的優化後的目標深度圖,作為單目圖像的目標深度圖,該目標深度圖的維度與單目圖像的維度相同。
在一個可選的例子中,上述各實施例的深度估計神經網路,可以通過雙目圖像立體匹配獲得的稠密深度圖和稀疏深度圖作為標注資料,進行半監督的訓練獲得。
在一個可選的例子中,由於採用其它方法獲得的訓練資料的“標注資料”比較稀疏,即深度圖中有效的圖元值比較少,因此採用雙目圖像立體匹配獲得的深度圖作為訓練資料的“標注資料”。本發明實施例還提供了一種電子設備,例如可以是移動終端、個人電腦(PC)、平板電腦、伺服器等。下面參考圖8,其示出了適於用來實現本申請實施例的終端設備或伺服器的電子設備800的結構示意圖:如圖8所示,電子設備800包括一個或多個處理器、通信部等,
所述一個或多個處理器例如:一個或多個中央處理單元(CPU)801,和/或一個或多個影像處理器(GPU)813等,處理器可以根據儲存在唯讀記憶體(ROM)802中的可執行指令或者從儲存部分808載入到隨機訪問記憶體(RAM)803中的可執行指令而執行各種適當的動作和處理。通信部812可包括但不限於網卡,所述網卡可包括但不限於IB(Infiniband)網卡,處理器可與唯讀記憶體802和/或隨機訪問記憶體830中通信以執行可執行指令,通過匯流排804與通信部812相連、並經通信部812與其他目標設備通信,從而完成本申請實施例提供的任一項方法對應的操作,例如,基於深度估計神經網路,根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取所述單目圖像的全域特徵;根據所述全域特徵、所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得所述單目圖像的預測深度圖。
此外,在RAM 803中,還可儲存有裝置操作所需的各種程式和資料。CPU801、ROM802以及RAM803通過匯流排804彼此相連。在有RAM803的情況下,ROM802為可選模組。RAM803儲存可執行指令,或在運行時向ROM802中寫入可執行指令,可執行指令使中央處理單元801執行上述通信方法對應的操作。輸入/輸出(I/O)介面805也連接至匯流排804。通信部812可以集成設置,也可以設置為具有多個子模組(例如多個IB網卡),並在匯流排連結上。
以下部件連接至I/O介面805:包括鍵盤、滑鼠等的輸入部分806;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分807;包括硬碟等的儲存部分808;以及包括諸如LAN卡、數據機等的網路介面卡的通信部分809。通信部分809經由諸如網際網路的網路執行通信處理。驅動器810也根據需要連接至I/O介面805。可拆卸介質811,諸如磁片、光碟、磁光碟、半導體記憶體等等,根據需要安裝在驅動器810上,以便於從其上讀出的電腦程式根據需要被安裝入儲存部分808。
需要說明的,如圖8所示的架構僅為一種可選實現方式,在具體實踐過程中,可根據實際需要對上述圖8的部件數量和類型進行選擇、刪減、增加或替換;在不同功能部件設置上,也可採用分離設置或集成設置等實現方式,例如GPU813和CPU801可分離設置或者可將GPU813集成在CPU801上,通信部可分離設置,也可集成設置在CPU801或GPU813上,等等。這些可替換的實施方式均落入本發明公開的保護範圍。
特別地,根據本發明的實施例,上文參考流程圖描述的過程可以被實現為電腦軟體程式。例如,本發明的實施例包括一種電腦程式產品,其包括有形地包含在機器可讀介質上的電腦程式,電腦程式包含用於執行流程圖所示的方法的程式碼,程式碼可包括對應執行本申請實施例提供的方法步驟對應的指令,例如,基於深度估計神經網路,根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相
對特徵,獲取所述單目圖像的全域特徵;根據所述全域特徵、所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得所述單目圖像的預測深度圖。在這樣的實施例中,該電腦程式可以通過通信部分809從網路上被下載和安裝,和/或從可拆卸介質811被安裝。在該電腦程式被中央處理單元(CPU)801執行時,執行本申請的方法中限定的上述功能。
在一個或多個可選實施方式中,本發明實施例還提供了一種電腦程式程式產品,用於儲存電腦可讀指令,該指令被執行時使得電腦執行上述任一可能的實現方式中的圖像恢復方法。
該電腦程式產品可以具體通過硬體、軟體或其結合的方式實現。在一個可選例子中,該電腦程式產品具體體現為電腦儲存介質,在另一個可選例子中,該電腦程式產品具體體現為軟體產品,例如軟體發展包(Software Development Kit,SDK)等等。
在一個或多個可選實施方式中,本發明實施例還提供了一種單目圖像深度估計方法及其對應的裝置、電子設備、電腦儲存介質、電腦程式以及電腦程式產品,其中,該方法包括:第一裝置向第二裝置發送單目圖像深度估計指示,該指示使得第二裝置執行上述任一可能的實施例中的單目圖像深度估計方法;第一裝置接收第二裝置發送的單目圖像深度估計的結果。
在一些實施例中,該單目圖像深度估計指示可以具體為調用指令,第一裝置可以通過調用的方式指示第二裝置執行單目圖像深度估計,相應地,回應於接收到調用指令,第二裝置可以執行上述單目圖像深度估計方法中的任意實施例中的步驟和/或流程。
應理解,本發明實施例中的“第一”、“第二”等術語僅僅是為了區分,而不應理解成對本發明實施例的限定。
還應理解,在本發明中,“多個”可以指兩個或兩個以上,“至少一個”可以指一個、兩個或兩個以上。
還應理解,對於本發明中提及的任一部件、資料或結構,在沒有明確限定或者在前後文給出相反啟示的情況下,一般可以理解為一個或多個。
還應理解,本發明對各個實施例的描述著重強調各個實施例之間的不同之處,其相同或相似之處可以相互參考,為了簡潔,不再一一贅述。
可能以許多方式來實現本發明的方法和裝置。例如,可通過軟體、硬體、固件或者軟體、硬體、固件的任何組合來實現本發明的方法和裝置。用於所述方法的步驟的上述順序僅是為了進行說明,本發明的方法的步驟不限於以上具體描述的順序,除非以其它方式特別說明。此外,在一些實施例中,還可將本發明實施為記錄在記錄介質中的程式,這些程式包括用於實現根據本發明的方法的機器可讀指
令。因而,本發明還覆蓋儲存用於執行根據本發明的方法的程式的記錄介質。
本發明的描述是為了示例和描述起見而給出的,而並不是無遺漏的或者將本發明限於所公開的形式。很多修改和變化對於本領域的普通技術人員而言是顯然的。選擇和描述實施例是為了更好說明本發明的原理和實際應用,並且使本領域的普通技術人員能夠理解本發明從而設計適於特定用途的帶有各種修改的各種實施例。
102:基於深度估計神經網路,根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取單目圖像的全域特徵
104:根據全域特徵、單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得單目圖像的預測深度圖
Claims (13)
- 一種單目圖像深度估計方法,包括:基於深度估計神經網路,根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取所述單目圖像的全域特徵;根據所述全域特徵、所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得所述單目圖像的預測深度圖;根據所述單目圖像深度資訊的縱向變化規律對所述預測深度圖進行優化,獲得所述單目圖像的目標深度圖,其中,所述縱向變化規律通過使用一個列向量作為池化核,對所述預測深度圖進行池化處理得到的;所述根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取所述單目圖像的全域特徵,包括:通過全連接層結合所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取所述單目圖像的全域特徵。
- 根據請求項1所述的方法,在所述根據單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲取所述單目圖像的全域特徵之前,還包括: 將所述單目圖像經第一神經網路進行特徵提取,獲取所述單目圖像中各預設區域的特徵,並將所述各預設區域的特徵作為所述單目圖像中各預設區域的絕對特徵;根據所述單目圖像中各預設區域的絕對特徵,獲取所述單目圖像中各預設區域之間的相對特徵。
- 根據請求項2所述的方法,所述根據所述單目圖像中各預設區域的絕對特徵,獲取所述單目圖像中各預設區域之間的相對特徵,包括:對所述單目圖像中各預設區域的絕對特徵經關聯度層進行向量運算,獲得所述單目圖像中各預設區域之間的相對特徵。
- 根據請求項2或3所述的方法,在將所述單目圖像經第一神經網路進行特徵提取之前,還包括:對所述單目圖像進行下採樣,獲得具有預設維度的單目圖像;其中,所述單目圖像的維度為所述預設維度的倍數。
- 根據請求項1至3中任意一項所述的方法,所述根據所述全域特徵、所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,獲得所述單目圖像的預測深度圖,包括: 根據所述全域特徵、所述單目圖像中各預設區域的絕對特徵和各預設區域之間的相對特徵,通過深度估計器進行深度估計,獲得所述單目圖像的預測深度圖。
- 根據請求項1所述的方法,所述根據所述單目圖像深度資訊的縱向變化規律對所述預測深度圖進行優化,獲得所述單目圖像的目標深度圖,包括:根據所述單目圖像深度資訊的縱向變化規律,對所述預測深度圖進行殘差估計,獲得所述預測深度圖的殘差圖;根據所述殘差圖對所述預測深度圖進行優化,獲得所述單目圖像的目標深度圖。
- 根據請求項6所述的方法,所述根據所述單目圖像深度資訊的縱向變化規律,對所述預測深度圖進行殘差估計,獲得所述預測深度圖的殘差圖,包括:根據所述單目圖像深度資訊的縱向變化規律,通過殘差估計網路對所述預測深度圖進行殘差估計,獲得所述預測深度圖的殘差圖;所述根據所述殘差圖對所述預測深度圖進行優化,獲得所述單目圖像的目標深度圖,包括:對所述殘差圖和所述預測深度圖進行逐圖元疊加運算,獲得所述單目圖像的目標深度圖。
- 根據請求項1所述的方法,所述根據所述單目圖像深度資訊的縱向變化規律對所述預測深度圖進行優化,獲得所述單目圖像的目標深度圖之前,還包括:根據所述預測深度圖獲取所述單目圖像深度資訊的縱向變化規律。
- 根據請求項8所述的方法,所述根據所述預測深度圖獲取所述單目圖像深度資訊的縱向變化規律,包括:通過縱向池化層對所述預測深度圖進行處理,獲取所述單目圖像深度資訊的縱向變化規律。
- 根據請求項1所述的方法,所述根據所述單目圖像深度資訊的縱向變化規律對所述預測深度圖進行優化,包括:對所述預測深度圖進行預設次數的上採樣,根據每一次上採樣獲得的維度依次成倍數增大的預測深度圖獲取深度資訊的縱向變化規律,根據每一次上採樣獲得的維度依次成倍數增大的預測深度圖的深度資訊的縱向變化規律,對每一次上採樣獲得的維度依次成倍數增大的預測深度圖進行優化,獲得優化後的目標深度圖;其中,除最末一次上採樣外,其餘每一次上採樣獲得的優化後的目標深度圖作為下一次上採樣的預測深度圖,最末一次上採樣獲得的優化後的目標深度圖作為所述單目 圖像的目標深度圖,所述目標深度圖的維度與所述單目圖像的維度相同。
- 根據請求項1至3中任意一項所述的方法,所述深度估計神經網路包括:關聯度層、全連接層和深度估計器,是利用稀疏深度圖和通過雙目圖像立體匹配獲得的稠密深度圖作為標注資料對所述深度估計神經網路進行訓練獲得。
- 一種電子設備,包括:記憶體,用於儲存可執行指令;以及處理器,用於執行所述可執行指令從而完成請求項1至11中任意一項所述的方法。
- 一種電腦儲存介質,用於儲存電腦可讀取的指令,所述指令被執行時實現請求項1至11中任意一項所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810845040.4 | 2018-07-27 | ||
CN201810845040.4A CN109035319B (zh) | 2018-07-27 | 2018-07-27 | 单目图像深度估计方法及装置、设备、程序及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202008308A TW202008308A (zh) | 2020-02-16 |
TWI766175B true TWI766175B (zh) | 2022-06-01 |
Family
ID=64647384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108126232A TWI766175B (zh) | 2018-07-27 | 2019-07-24 | 單目圖像深度估計方法、設備及儲存介質 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11443445B2 (zh) |
JP (1) | JP6963695B2 (zh) |
KR (1) | KR102292559B1 (zh) |
CN (1) | CN109035319B (zh) |
SG (1) | SG11202003878TA (zh) |
TW (1) | TWI766175B (zh) |
WO (1) | WO2020019761A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109035319B (zh) * | 2018-07-27 | 2021-04-30 | 深圳市商汤科技有限公司 | 单目图像深度估计方法及装置、设备、程序及存储介质 |
US11589031B2 (en) * | 2018-09-26 | 2023-02-21 | Google Llc | Active stereo depth prediction based on coarse matching |
GB201900839D0 (en) * | 2019-01-21 | 2019-03-13 | Or3D Ltd | Improvements in and relating to range-finding |
CN111784659A (zh) * | 2020-06-29 | 2020-10-16 | 北京百度网讯科技有限公司 | 图像检测的方法、装置、电子设备以及存储介质 |
US12008740B2 (en) * | 2020-08-12 | 2024-06-11 | Niantic, Inc. | Feature matching using features extracted from perspective corrected image |
CN112070817B (zh) * | 2020-08-25 | 2024-05-28 | 中国科学院深圳先进技术研究院 | 一种图像深度估计方法、终端设备及计算机可读存储介质 |
CN112446328B (zh) * | 2020-11-27 | 2023-11-17 | 汇纳科技股份有限公司 | 单目深度的估计系统、方法、设备及计算机可读存储介质 |
CN112183537B (zh) * | 2020-11-30 | 2021-03-19 | 北京易真学思教育科技有限公司 | 模型训练方法及装置、文本区域检测方法及装置 |
CN112819874B (zh) * | 2021-01-07 | 2024-05-28 | 北京百度网讯科技有限公司 | 深度信息处理方法、装置、设备、存储介质以及程序产品 |
CN112837361B (zh) * | 2021-03-05 | 2024-07-16 | 浙江商汤科技开发有限公司 | 一种深度估计方法及装置、电子设备和存储介质 |
CN116745813A (zh) * | 2021-03-18 | 2023-09-12 | 创峰科技 | 室内环境的自监督式深度估计框架 |
CN113379813B (zh) * | 2021-06-08 | 2024-04-30 | 北京百度网讯科技有限公司 | 深度估计模型的训练方法、装置、电子设备及存储介质 |
CN113344997B (zh) * | 2021-06-11 | 2022-07-26 | 方天圣华(北京)数字科技有限公司 | 快速获取只含有目标对象的高清前景图的方法及系统 |
CN113344998B (zh) * | 2021-06-25 | 2022-04-29 | 北京市商汤科技开发有限公司 | 深度检测方法、装置、计算机设备及存储介质 |
CN113313757B (zh) * | 2021-07-27 | 2024-07-12 | 广州市勤思网络科技有限公司 | 一种基于单目测距的船舱乘客安全预警算法 |
WO2023080685A1 (ko) * | 2021-11-03 | 2023-05-11 | 네이버랩스 주식회사 | 단안 거리 추정 모델 학습 방법 및 시스템 |
CN114612544B (zh) * | 2022-03-11 | 2024-01-02 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080137989A1 (en) * | 2006-11-22 | 2008-06-12 | Ng Andrew Y | Arrangement and method for three-dimensional depth image construction |
CN106780588A (zh) * | 2016-12-09 | 2017-05-31 | 浙江大学 | 一种基于稀疏激光观测的图像深度估计方法 |
CN107204010A (zh) * | 2017-04-28 | 2017-09-26 | 中国科学院计算技术研究所 | 一种单目图像深度估计方法与系统 |
CN107230014A (zh) * | 2017-05-15 | 2017-10-03 | 浙江仟和网络科技有限公司 | 一种末端即时物流的智能调度系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002222419A (ja) * | 2001-01-29 | 2002-08-09 | Olympus Optical Co Ltd | 画像領域分割装置及びその方法ならびに処理プログラムが記録された記録媒体 |
US9471988B2 (en) * | 2011-11-02 | 2016-10-18 | Google Inc. | Depth-map generation for an input image using an example approximate depth-map associated with an example similar image |
CN102750702B (zh) * | 2012-06-21 | 2014-10-15 | 东华大学 | 基于优化bp神经网络模型的单目红外图像深度估计方法 |
EP2854104A1 (en) * | 2013-09-25 | 2015-04-01 | Technische Universität München | Semi-dense simultaneous localization and mapping |
CN106157307B (zh) | 2016-06-27 | 2018-09-11 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
CN106599805B (zh) * | 2016-12-01 | 2019-05-21 | 华中科技大学 | 一种基于有监督数据驱动的单目视频深度估计方法 |
CN106952222A (zh) * | 2017-03-17 | 2017-07-14 | 成都通甲优博科技有限责任公司 | 一种交互式图像虚化方法及装置 |
CN108229478B (zh) * | 2017-06-30 | 2020-12-29 | 深圳市商汤科技有限公司 | 图像语义分割及训练方法和装置、电子设备、存储介质和程序 |
CN107578436B (zh) * | 2017-08-02 | 2020-06-12 | 南京邮电大学 | 一种基于全卷积神经网络fcn的单目图像深度估计方法 |
CN107553490A (zh) * | 2017-09-08 | 2018-01-09 | 深圳市唯特视科技有限公司 | 一种基于深度学习的单目视觉避障方法 |
CN107767413B (zh) * | 2017-09-20 | 2020-02-18 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
CN107945265B (zh) | 2017-11-29 | 2019-09-20 | 华中科技大学 | 基于在线学习深度预测网络的实时稠密单目slam方法与系统 |
CN109035319B (zh) * | 2018-07-27 | 2021-04-30 | 深圳市商汤科技有限公司 | 单目图像深度估计方法及装置、设备、程序及存储介质 |
-
2018
- 2018-07-27 CN CN201810845040.4A patent/CN109035319B/zh active Active
-
2019
- 2019-04-11 KR KR1020207009304A patent/KR102292559B1/ko active IP Right Grant
- 2019-04-11 WO PCT/CN2019/082314 patent/WO2020019761A1/zh active Application Filing
- 2019-04-11 SG SG11202003878TA patent/SG11202003878TA/en unknown
- 2019-04-11 JP JP2020542490A patent/JP6963695B2/ja active Active
- 2019-07-24 TW TW108126232A patent/TWI766175B/zh active
-
2020
- 2020-03-26 US US16/830,363 patent/US11443445B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080137989A1 (en) * | 2006-11-22 | 2008-06-12 | Ng Andrew Y | Arrangement and method for three-dimensional depth image construction |
CN106780588A (zh) * | 2016-12-09 | 2017-05-31 | 浙江大学 | 一种基于稀疏激光观测的图像深度估计方法 |
CN107204010A (zh) * | 2017-04-28 | 2017-09-26 | 中国科学院计算技术研究所 | 一种单目图像深度估计方法与系统 |
CN107230014A (zh) * | 2017-05-15 | 2017-10-03 | 浙江仟和网络科技有限公司 | 一种末端即时物流的智能调度系统 |
Also Published As
Publication number | Publication date |
---|---|
US20200226773A1 (en) | 2020-07-16 |
JP2021500689A (ja) | 2021-01-07 |
CN109035319B (zh) | 2021-04-30 |
KR20200044108A (ko) | 2020-04-28 |
CN109035319A (zh) | 2018-12-18 |
SG11202003878TA (en) | 2020-05-28 |
US11443445B2 (en) | 2022-09-13 |
JP6963695B2 (ja) | 2021-11-10 |
KR102292559B1 (ko) | 2021-08-24 |
TW202008308A (zh) | 2020-02-16 |
WO2020019761A1 (zh) | 2020-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI766175B (zh) | 單目圖像深度估計方法、設備及儲存介質 | |
US11308638B2 (en) | Depth estimation method and apparatus, electronic device, program, and medium | |
JP6837158B2 (ja) | ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体 | |
CN109325972B (zh) | 激光雷达稀疏深度图的处理方法、装置、设备及介质 | |
CN110168560B (zh) | 用于场景理解和生成的方法、系统和介质 | |
CN110062934B (zh) | 使用神经网络确定图像中的结构和运动 | |
JP7123133B2 (ja) | 両眼画像の深度推定方法及び装置、機器、プログラム並びに媒体 | |
US11270158B2 (en) | Instance segmentation methods and apparatuses, electronic devices, programs, and media | |
WO2019223382A1 (zh) | 单目深度估计方法及其装置、设备和存储介质 | |
US11380017B2 (en) | Dual-view angle image calibration method and apparatus, storage medium and electronic device | |
WO2018166438A1 (zh) | 图像处理方法、装置及电子设备 | |
WO2019020075A1 (zh) | 图像处理方法、装置、存储介质、计算机程序和电子设备 | |
US20230419521A1 (en) | Unsupervised depth prediction neural networks | |
CN109300151B (zh) | 图像处理方法和装置、电子设备 | |
CN112861830A (zh) | 特征提取方法、装置、设备、存储介质以及程序产品 | |
CN113766117B (zh) | 一种视频去抖动方法和装置 | |
US11625846B2 (en) | Systems and methods for training a machine-learning-based monocular depth estimator | |
CN111260544B (zh) | 数据处理方法及装置、电子设备和计算机存储介质 | |
US20240320807A1 (en) | Image processing method and apparatus, device, and storage medium | |
EP4191526A1 (en) | Apparatus and method with object posture estimating | |
CN116051832A (zh) | 车辆的三维标注方法和装置 | |
CN110634148A (zh) | 连续帧图像中的目标提取方法和装置 |