TWI836117B - 基於多個視訊訊框的深度偵測的方法及系統 - Google Patents
基於多個視訊訊框的深度偵測的方法及系統 Download PDFInfo
- Publication number
- TWI836117B TWI836117B TW109123645A TW109123645A TWI836117B TW I836117 B TWI836117 B TW I836117B TW 109123645 A TW109123645 A TW 109123645A TW 109123645 A TW109123645 A TW 109123645A TW I836117 B TWI836117 B TW I836117B
- Authority
- TW
- Taiwan
- Prior art keywords
- frame
- map
- video
- frames
- depth
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000001514 detection method Methods 0.000 title claims abstract description 10
- 230000002123 temporal effect Effects 0.000 claims abstract description 101
- 230000003287 optical effect Effects 0.000 claims description 32
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Abstract
一種基於多個視訊訊框的深度偵測的方法及系統。所述
方法包括:接收多個輸入訊框,所述多個輸入訊框包括分別與不同的拍攝時間對應的第一輸入訊框、第二輸入訊框及第三輸入訊框;對第一輸入訊框至第三輸入訊框進行卷積,以產生與不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖;基於第一特徵圖至第三特徵圖計算時間注意圖,所述時間注意圖包括與第一特徵圖至第三特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及對第一特徵圖至第三特徵圖應用時間注意圖,以產生具有時間注意的特徵圖。
Description
本揭露的實施例的態樣大體而言是有關於一種影像深度估測。
本申請案主張於2019年7月22日提出申請的美國臨時申請案第62/877,246號(「基於時間注意的視訊深度估測(VIDEO DEPTH ESTIMATION BASED ON TEMPORAL ATTENTION)」)的優先權及權利,所述美國臨時申請案的全部內容併入本案供參考。
最近,存在對估測所拍攝場景中的元素的真實世界深度(real-world depth)的興趣。準確的深度估測容許對場景中的前景(近)物體與背景(遠)物體進行分離。準確的前景-背景分離容許人們處理所拍攝的影像來模仿例如焦外成像效果(Bokeh effect)等效果,所述焦外成像效果是指背景的軟離焦模糊(soft out-of-focus blur)。焦外成像效果可藉由在具有快速鏡頭及寬光圈的昂貴
照相機中使用正確的設置、以及藉由將相機調整成更靠近被拍攝對象且使被拍攝對象更遠離背景以模仿淺景深來創建。因此,準確的深度估測可容許處理來自非專業攝影師或具有較小鏡頭的照相機(例如行動電話照相機)的影像,以獲得聚焦在被拍攝對象上的具有焦外成像效果的更具美感的令人愉快的影像。準確的深度估測的其他應用可包括其中期望改變背景或被拍攝對象,並根據期望的感知虛擬現實來呈現其的三維(three-dimensional,3D)物體重建及虛擬現實應用。自所拍攝的場景進行準確的深度估測的其他應用可為汽車自動化、監控攝像機及自動駕駛應用領域以及藉由提高物體偵測準確度及估測其與照相機的距離來增強安全性。
在此背景技術部分中揭露的上述資訊僅是為了增強對本揭露的理解,且因此其可包含不形成此項技術中具有通常知識者已知的先前技術的資訊。
本揭露的實施例的態樣是針對一種視訊深度估測系統及一種使用所述視訊深度估測系統基於利用視訊序列的訊框之間的時間一致性的時間注意來進行視訊深度估測的方法。
根據本揭露的一些實施例,提供一種基於多個視訊訊框的深度偵測的方法,所述方法包括:接收多個輸入訊框,所述多個輸入訊框包括分別與不同的拍攝時間對應的第一輸入訊框、第二輸入訊框及第三輸入訊框;對所述第一輸入訊框至所述第三輸入
訊框進行卷積,以產生與所述不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖;基於所述第一特徵圖至所述第三特徵圖計算時間注意圖,所述時間注意圖包括與所述第一特徵圖至所述第三特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及對所述第一特徵圖至所述第三特徵圖應用所述時間注意圖,以產生具有時間注意的特徵圖。
在一些實施例中,所述多個權重是基於能夠學習的值。
其中i及j是大於零的索引值,s是能夠學習的縮放因數,M r 是基於所述第一特徵圖至所述第三特徵圖的經重新塑型的組合特徵圖,且c代表所述第一特徵圖至所述第三特徵圖中的每一者中的通道的數目。
其中i是大於零的索引值。
在一些實施例中,所述多個輸入訊框是輸入視訊序列的視訊訊框。
在一些實施例中,所述多個輸入訊框是基於視訊訊框的經運動補償的翹曲訊框。
在一些實施例中,所述方法更包括:接收多個翹曲訊框,所述多個翹曲訊框包括第一翹曲訊框、第二翹曲訊框及第三翹曲訊框;以及將所述第一翹曲訊框至所述第三翹曲訊框中的每一者在空間上劃分成多個貼片,其中所述第一輸入訊框是所述第一翹曲訊框的所述多個貼片中的貼片,其中所述第二輸入訊框是所述第二翹曲訊框的所述多個貼片中的貼片,且其中所述第三輸入訊框是所述第三翹曲訊框的所述多個貼片中的貼片。
在一些實施例中,所述方法更包括:接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框;基於光流來補償所述第一視訊訊框至所述第三視訊訊框之間的運動,以產生所述第一輸入訊框至所述第三輸入訊框;以及基於所述具有時間注意的特徵圖產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
在一些實施例中,補償所述運動包括:基於所述第一視訊訊框的畫素及所述第三視訊訊框的畫素確定所述第二視訊訊框的畫素的光流;以及基於所確定的所述光流對所述第一輸入訊框至所述第三輸入訊框進行影像翹曲。
在一些實施例中,所述方法更包括:接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框;基於所述第一視訊訊框至所述
第三視訊訊框產生第一深度圖、第二深度圖及第三深度圖;基於光流來補償所述第一深度圖至所述第三深度圖之間的運動,以產生所述第一輸入訊框至所述第三輸入訊框;以及對所述具有時間注意的特徵圖進行卷積,以產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
在一些實施例中,所述第一輸入訊框至所述第三輸入訊框是與所述第一深度圖至所述第三深度圖對應的翹曲深度圖。
在一些實施例中,產生所述第一深度圖至所述第三深度圖包括:基於所述第一視訊訊框產生所述第一深度圖;基於所述第二視訊訊框產生所述第二深度圖;以及基於所述第三視訊訊框產生所述第三深度圖。
根據本揭露的一些實施例,提供一種基於多個視訊訊框的深度偵測的方法,所述方法包括:接收多個翹曲訊框,所述多個翹曲訊框包括與不同的拍攝時間對應的第一翹曲訊框、第二翹曲訊框及第三翹曲訊框;將所述第一翹曲訊框至所述第三翹曲訊框中的每一者劃分成多個貼片,所述多個貼片包括第一貼片;接收多個輸入訊框,所述多個輸入訊框包括第一輸入訊框、第二輸入訊框及第三輸入訊框;對所述第一翹曲訊框的所述第一貼片、所述第二翹曲訊框的所述第一貼片及所述第三翹曲訊框的所述第一貼片進行卷積,以產生與所述不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖;基於所述第一特徵圖至所述第三特徵圖計算時間注意圖,所述時間注意圖包括與所述第一特徵圖至所述第三
特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及對所述第一特徵圖至所述第三特徵圖應用所述時間注意圖,以產生具有時間注意的特徵圖。
在一些實施例中,所述多個翹曲訊框是經運動補償的視訊訊框。
在一些實施例中,所述多個翹曲訊框是與視訊序列的多個輸入視訊訊框對應的經運動補償的深度圖。
在一些實施例中,所述方法更包括:接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框;基於光流來補償所述第一視訊訊框至所述第三視訊訊框之間的運動,以產生所述第一翹曲訊框至所述第三翹曲訊框;以及基於所述具有時間注意的特徵圖產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
在一些實施例中,補償所述運動包括:基於所述第一輸入訊框的畫素及所述第三輸入訊框的畫素確定所述第二視訊訊框的畫素的光流;以及基於所確定的所述光流對所述第一視訊訊框至所述第三視訊訊框進行影像翹曲。
在一些實施例中,所述方法更包括:接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框;基於所述第一視訊訊框至所述第三視訊訊框產生第一深度圖、第二深度圖及第三深度圖;基於光
流來補償所述第一深度圖至所述第三深度圖之間的運動,以產生所述第一輸入訊框至所述第三輸入訊框;以及對所述具有時間注意的特徵圖進行卷積,以產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
在一些實施例中,所述第一輸入訊框至所述第三輸入訊框是與所述第一深度圖至所述第三深度圖對應的翹曲深度圖。
根據本揭露的一些實施例,提供一種基於多個視訊訊框的深度偵測的系統,所述系統包括:處理器;以及處理器記憶體,位於所述處理器本地,其中所述處理器記憶體上儲存有指令,所述指令在由所述處理器執行時使所述處理器實行以下操作:接收多個輸入訊框,所述多個輸入訊框包括分別與不同的拍攝時間對應的第一輸入訊框、第二輸入訊框及第三輸入訊框;對所述第一輸入訊框至所述第三輸入訊框進行卷積,以產生與所述不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖;基於所述第一特徵圖至所述第三特徵圖計算時間注意圖,所述時間注意圖包括與所述第一特徵圖至所述第三特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及對所述第一特徵圖至所述第三特徵圖應用所述時間注意圖,以產生具有時間注意的特徵圖。
1、1-1:深度估測系統
10:視訊訊框
11:第一視訊訊框
12:第二/中心視訊訊框
13:第三視訊訊框
20、20-1:深度圖
30:參考訊框
100、100-1:運動補償器
110:時空轉換器網路
111:第一光流圖
111-1、112-1:光流圖
112:第二光流圖
120:影像整經機
121:第一翹曲訊框
121-1、122-1、123-1:翹曲的估測深度圖
122:第二翹曲訊框
123:第三翹曲訊框
200、200-1:時間注意子系統
201、202、203:輸入訊框
201-1、202-1、203-1:第一組貼片
201-4、202-4、203-4:第四組貼片
210:特徵圖提取器
211、212、213:特徵圖
211-1、212-1、213-1:貼片特徵圖
220:時間注意縮放器
230:貼片提取器
250:序連塊
252:組合特徵圖
260:重新塑型及轉置塊
262:第一重新塑型圖
264、282:第二重新塑型圖
270:時間注意圖產生器
272:時間注意圖
280:乘法器
290:重新塑型塊
292:輸出特徵圖
292-1、292-2、292-3、292-4:具有時間注意的單個特徵圖
300、300-1:深度估測器
311:第一深度圖
312:第二深度圖
313:第三深度圖
400:卷積層
t、t-1、t+1:訊框
當結合附圖考慮時,藉由參考以下詳細說明,本揭露及其許多伴隨特徵及態樣的更完整理解將變得更顯而易見,其中相同的參考符號指示相同的組件,在附圖中:圖1示出根據本揭露一些實施例的深度估測系統的子系統。
圖2A至圖2D提供根據本揭露一些示例性實施例,時間注意子系統關於輸入視訊序列的參考視訊訊框操作的RGB可視化。
圖2E至圖2H提供根據本揭露一些示例性實施例,時間注意子系統關於輸入視訊序列的不同參考視訊訊框操作的RGB可視化。
圖3示出根據本揭露一些其他實施例的深度估測系統的子系統。
圖4A至圖4B示出根據本揭露一些實施例的用於實施時間注意子系統的兩種不同方式。
圖5是根據本揭露一些實施例的時間注意縮放器的方塊圖圖解。
以下闡述的詳細說明旨在作為對根據本揭露所提供的視訊深度估測系統及方法的示例性實施例的說明,而不旨在代表本揭露可被構造或利用的唯一形式。本說明結合所示實施例闡述本揭露的特徵。然而應理解,可藉由亦旨在囊括於本揭露的範圍內的
不同實施例來達成相同或等效的功能及結構。如本文其他地方所表明,相同的元件編號旨在指示相同的元件或特徵。
本揭露的一些實施例是針對一種視訊深度估測系統及一種使用所述視訊深度估測系統基於利用視訊序列的訊框之間的時間一致性的時間注意來進行視訊深度估測的方法。目前,使用輸入視訊的深度估測方法在估測深度時不考慮時間一致性。儘管相關技術的一些方法可在訓練程序期間利用視訊序列,但預測程序是基於單訊框的。亦即,當估測訊框t的深度時,不使用訊框t-1或訊框t+1的資訊。此會限制相關技術的此種方法的準確度,此乃因忽略了訊框之間的時間一致性。
根據一些實施例,視訊深度估測系統(亦被稱為深度估測系統)能夠估測由單個照相機拍攝的視訊序列中的元素的真實世界深度。在一些實施例中,深度估測系統包括三個子系統、運動補償器、時間注意子系統及深度估測器。藉由以不同的次序排列所述三個子系統,深度估測系統利用根據一些實施例在RGB(紅色、綠色及藍色)域中的時間一致性,或者根據一些其他實施例在深度域中的時間一致性。
圖1示出根據本揭露一些實施例的深度估測系統1的子系統。
參考圖1,根據一些實施例的深度估測系統1包括運動補償器100、時間注意子系統200及深度估測器300。運動補償器100接收多個視訊訊框10,所述多個視訊訊框10包括代表視訊序列的
接連的訊框(例如,連續訊框)的第一視訊訊框11、第二視訊訊框12(亦被稱為參考視訊訊框)及第三視訊訊框13。
在一些實施例中,運動補償器100被配置成基於光流補償第一視訊訊框11至第三視訊訊框13之間的畫素運動,並產生第一翹曲訊框121至第三翹曲訊框123。運動補償器100可將接連的訊框(例如,相鄰訊框)之間的時間一致性對齊。運動補償器100可包括時空轉換器網路110及影像整經機120。在一些實例中,時空轉換器網路110可確定接連的訊框的畫素的光流(例如,運動向量),且產生指示自第一視訊訊框11至第二視訊訊框12的畫素的光流的第一光流圖111,並且產生指示自第三視訊訊框13至第二視訊訊框12的畫素的光流的第二光流圖112。影像整經機120利用第一光流圖111及第二光流圖112來使第一視訊訊框11及第三視訊訊框13翹曲,並產生試圖補償第一視訊訊框11及第三視訊訊框13的區域(即,畫素)的移動的第一翹曲訊框121及第三翹曲訊框123(例如,第一RGB訊框及第三RGB訊框)。第二翹曲訊框122可相同於第二視訊訊框12(例如,參考訊框)。照相機角度或視角變化、遮擋、物體移出訊框等可導致第一翹曲訊框121至第三翹曲訊框123的不一致。若第一翹曲訊框121至第三翹曲訊框123被直接饋送至深度估測器300,則此種不一致可使深度估測混亂。然而,時間注意子系統200可藉由提取及強調經運動補償的第一翹曲訊框121至第三翹曲訊框123之間的一致資訊來解決此種問題。
本文所使用的一致資訊是指在接連的(例如,相鄰的)訊框中同一物體的特性(例如,外觀、結構)是相同的。例如,當運動補償器100在連續訊框中正確地估測移動的汽車的運動時,出現在接連的(例如,相鄰的)翹曲訊框中的汽車的形狀及顏色可為相似的。可藉由時間注意子系統200的輸入特徵圖與時間注意子系統200的輸出特徵圖292之間的差異來量測一致性。
在一些實施例中,時間注意子系統200識別參考訊框(例如,第二/中心視訊訊框12)的哪些區域更重要,並且應給予更大的注意。在一些實例中,時間注意子系統200識別其輸入訊框(例如,翹曲訊框121至123)之間的差異,並基於時間一致性為訊框的每一畫素指派權重/置信值。例如,當一區域自一個訊框變為下一訊框時,所述區域中的畫素的置信水準可為較低的。畫素的權重/置信值一起構成時間注意圖,時間注意子系統200利用所述時間注意圖來對其接收的訊框(例如,翹曲訊框121至123)進行重新加權。
根據一些實施例,深度估測器300基於時間注意子系統200的輸出特徵圖292提取參考訊框(例如,第二/中心視訊訊框12)的深度(深度圖20)。
圖2A至圖2D提供根據本揭露一些示例性實施例,時間注意子系統200關於輸入視訊序列的參考視訊訊框操作的RGB可視化。圖2E至圖2H提供根據本揭露一些示例性實施例,時間注意子系統200關於輸入視訊序列的不同參考視訊訊框操作的RGB
可視化。
圖2A及圖2E示出時間注意子系統200的輸入視訊序列的參考訊框30,且圖2B至圖2D及圖2E至圖2H示出在B通道、G通道及R通道中可視化的相應的注意圖。時間注意權重圖被顯示為時間注意子系統200的輸入與輸出之間的差異。在圖2B至圖2D中,較亮的顏色指示較大的差異,以與運動不一致性對應。例如,若時間注意子系統200的輸出中的畫素與輸入相同,則所述畫素的差異圖將為0(示出為黑色)。如圖2B至圖2D所示,注意集中在汽車上,乃因汽車是最重要的移動物體。由於難以進行樹葉運動估測,因此對樹葉的注意亦為微弱的。在圖2E至圖2H中,注意集中在所有具有運動的主要區域上。相較於圖2A而言,圖2E中的參考訊框的照明更複雜(例如,參見陰影),且物體更靠近照相機。因此,圖2F至圖2H中顯示的時間一致性更複雜。此外,相較於圖2G及圖2H中的G通道及R通道而言,圖2F中的B通道的注意圖在空中具有更高的值。原因是,在圖2E的參考訊框中,B通道更偏好觀看具有藍色的移動物體,而天空是最大的移動「物體」。
圖3示出根據本揭露一些其他實施例的深度估測系統1-1的子系統。除了運動補償器100-1、時間注意子系統200-1及深度估測器300-1的排列次序之外,圖3的深度估測系統1-1實質上相同於圖1的深度估測系統。
參考圖3,根據一些實施例,深度估測器300-1自視訊序
列接收包括接連的第一視訊訊框11至第三視訊訊框13的多個視訊訊框,且使用逐訊框深度估測方法(例如單影像深度估測(single image depth estimation,SIDE)),並產生分別與第一視訊訊框11至第三視訊訊框13對應的第一深度圖311、第二深度圖312及第三深度圖313。
在一些實施例中,運動補償器100-1自深度估測器300-1接收第一深度圖311至第三深度圖313。因此,運動補償器100-1應用於深度域,而非如圖1的運動補償器100般應用於時間域。否則,運動補償器100-1可相同於或實質上相似於圖1的運動補償器100。在一些實施例中,時空轉換器網路110基於第一深度圖311至第三深度圖313產生光流圖111-1及112-1,影像整經機120利用所述光流圖111-1及112-1來產生翹曲的估測深度圖121-1、122-1及123-1。根據一些實施例,然後應用時間注意子系統200-1以自翹曲的估測深度圖121-1、122-1及123-1提取一致資訊,然後是卷積層400以獲得最終輸出,所述最終輸出是與參考訊框(例如,第二視訊訊框12)對應的深度圖20-1。卷積層400可用於將來自時間注意子系統200-1的輸出特徵圖292轉換成深度圖20-1。
基於運動補償器100/100-1與深度估測器300/300-1之間的折衷,可使用圖1的深度估測系統1或圖3的深度估測系統1-1。深度估測系統1的處理瓶頸可能是在RGB域中的運動補償器100,此可能相對難以實行,乃因物體的外觀隨著不同視訊訊框之間的照明及顏色失真的變化而變化。另一方面,深度估測系統1-1
的處理瓶頸可能是深度估測器300-1。深度域中的運動補償可能較在RGB域中更容易,乃因照明及顏色失真的變化可被忽略。因此,當運動補償器100非常準確時(例如,當光流估測的準確度高於設定臨限值時),則可利用深度估測系統1。當深度估測器300-1非常準確時(例如,當其準確度大於設定臨限值時),則可利用深度估測系統1-1。根據一些實例,依賴於深度估測的裝置(例如駕駛員輔助或自動車輛)可包括圖1的深度估測系統1及圖3的深度估測系統1-1兩者,且基於光流估測及深度估測的準確度在所述兩個系統之間適當地切換。
圖4A至圖4B示出根據本揭露一些實施例的用於實施時間注意子系統200/200-1的兩種不同方式。在圖4A至圖4B中,為易於說明,時間注意子系統200/200-1的輸入訊框201至203被示出為RGB視訊訊框;然而,本說明的實施例不限於此,且輸入訊框201至203可為翹曲訊框121至123(如圖1所示)或翹曲深度圖121-1至123-1(如圖3所示)。
參考圖4A,根據一些實施例,時間注意子系統200包括被配置成將輸入訊框201至203轉換成特徵圖211至213的特徵圖提取器210,特徵圖211至213是由時間注意縮放器220處理以用於基於時間注意一致性來重新加權。特徵圖提取器210可為對輸入訊框201至203的元素應用具有可學習的權重的卷積濾波器的卷積層。此處,時間注意子系統200接收並處理整個輸入訊框201至203。在時間注意縮放器220之前添加特徵圖提取器210容
許時間注意縮放器220更容易地與相關技術的深度學習框架合作。然而,本揭露的實施例不限於在時間注意縮放器220之前利用特徵圖提取器210,且在一些實施例中,輸入訊框201至203可被直接饋送至時間注意縮放器220。
參考圖4B,在一些實施例中,時間注意子系統200-1更包括將輸入訊框201至203中的每一者劃分成多個貼片或子部分的貼片提取器230。輸入訊框的每一貼片與輸入訊框的其他貼片分開處理。例如,貼片提取器230可將輸入訊框201至203劃分成四個貼片,從而產生四組貼片/子部分。第一組貼片(即201-1、202-1及203-1)可包括輸入訊框201至203中的每一者的第一貼片,且第四組貼片(即201-4、202-4及203-4)可包括輸入訊框201至203中的每一者的第四貼片。每一貼片組由特徵圖提取器210及時間注意縮放器220分別處理。不同的貼片組可並行處理,如圖4B所示,或者可串列處理。基於每一貼片組產生的貼片特徵圖(例如211-1、212-1及213-1)可被組合在一起以形成具有時間注意的單個特徵圖(即292-1、292-2、292-3及292-4)。
儘管圖4B示出四組貼片,但本揭露的實施例不限於此。例如,貼片提取器230可將每一輸入訊框劃分成任何合適數目的貼片。圖4B的時間注意子系統200-1可提高深度估測準確度,乃因每一經處理的貼片組包含較整個訊框的視覺資訊在空間上更相關的視覺資訊。例如,在包括在道路上行駛的汽車且背景中的天空佔據訊框頂部部分的訊框中,天空僅用於使移動的汽車的深度估
測複雜化,且可能引入不準確性。然而,將天空與汽車分成不同的貼片可容許深度估測系統1/1-1為參考訊框中的汽車的深度提供更準確的估測。
圖5是根據本揭露一些實施例的時間注意縮放器220的方塊圖圖解。
根據一些實施例,時間注意縮放器220包括序連塊250、重新塑型及轉置塊260、時間注意圖產生器270、乘法器280及重新塑型塊290。
時間注意縮放器220接收第一特徵圖211、第二特徵圖212及第三特徵圖213,並將所述特徵圖序連成組合特徵圖252。特徵圖211至213中的每一者可具有相同的大小C×W×H,其中C指示通道的數目(例如,其可對應於紅色、綠色及藍色通道),而W及H代表特徵圖211至213的寬度及高度,所述高度及寬度相同於輸入視訊訊框201至203的寬度及高度尺寸(例如,參見圖4A及圖4B)。組合特徵圖252可具有3C×W×H的大小。如上所述,可自翹曲訊框121至123或者自翹曲深度圖121-1至123-1產生特徵圖。
重新塑型及轉置塊260可將組合特徵圖252自三維(3D)重新塑型為二維(2D),以計算大小為(3C)×(WH)的第一重新塑型圖262,且可對第一重新塑型圖262進行轉置以計算大小為(WH)×(3C)的第二重新塑型圖264。時間注意圖產生器270基於第一重新塑型圖262及第二重新塑型圖264產生大小為(3C)
×(3C)的時間注意圖272。時間注意圖272可被稱為相似度圖,且包括與第一特徵圖211至第三特徵圖213中的不同對的特徵圖對應的多個權重Aij(其中i及j是小於或等於C的索引,即通道的數目),其中每一權重指示對應的一對特徵圖的相似度水準。換言之,每一權重A ij 指示產生通道i及j的訊框之間的相似度。當i及j來自同一訊框時,權重A ij 量測一種自我注意。例如,若C=3,則時間注意圖的大小為9×9(例如,通道1至3屬於特徵圖211,通道4至6屬於特徵圖212,且通道7至9屬於特徵圖213)。時間注意圖272中的權重A14(i=1,j=4)標示特徵圖211與特徵圖212之間的相似度水準。較高的權重值可指示對應的特徵圖之間的較高相似度。時間注意圖272的所述多個權重中的每一權重A ij 可由方程式1來表達:
乘法器280在時間注意圖272與第一重新塑型圖262之間實行矩陣乘法,以產生大小為(3C)×(WH)的第二重新塑型圖282,第二重新塑型圖282由重新塑型塊290自2D重新塑型為3D,以產生具有大小為3C×W×H的時間注意的特徵圖292。具有時間注意的輸出特徵圖292的元素Y i 可由方程式2表達:
其中Y i 可代表大小為W×H的單通道特徵圖。
根據一些實例,深度估測系統1/1-1的所述多個組件(例如運動補償器、時間注意子系統及深度估測器)可對應於神經網路及/或深度神經網路(深度神經網路是具有多於一個隱藏層的神經網路,以用於深度學習技術),且產生所述組件的製程可涉及使用訓練資料及演算法(例如反向傳播演算法)來訓練深度神經網路。訓練可包括提供大量輸入視訊訊框及具有所量測的深度值的輸入視訊訊框的深度圖。然後,神經網路基於此種資料進行訓練,以設定上述可學習的值。
根據一些實施例,由深度估測系統實行的操作可由執行儲存在處理器記憶體上的指令的處理器來實行。所述指令在由處理器執行時,使處理器實行以上針對深度估測系統1/1-1所述的操作。
儘管深度估測系統1/1-1的實施例被揭露為以第二訊框作為參考訊框對三個輸入訊框的群組進行操作,但本揭露的實施例不限於此。例如,本揭露的實施例可採用奇數個輸入訊框(例如,5或7個輸入訊框)的群組,其中中心訊框充當深度估測系統為其產生深度圖的參考訊框。此外,此種輸入訊框可代表視訊序列的訊框的滑動窗。在一些實例中,增加輸入訊框的數目(例如,自3增加至5)可提高深度估測準確度。
將理解,儘管可在本文中使用用語「第一」、「第二」、「第
三」等來闡述各種元件、組件、區域、層、及/或區段,但該些元件、組件、區域、層、及/或區段不應受限於該些用語。該些用語用於區分各個元件、組件、區域、層或區段。因此,在不背離本發明概念的範圍的條件下,下文所述第一元件、組件、區域、層或區段可被稱為第二元件、組件、區域、層或區段。
本文所用術語用於闡述特定實施例,而並非旨在限制本發明概念。除非上下文中清楚地另外指明,否則本文中所使用的單數形式「一(a及an)」旨在亦包括複數形式。更將理解,當在本說明書中使用用語「包括(include、including)」、「包含(comprises及/或comprising)」時,是用於具體說明所述特徵、整數、步驟、操作、元件、及/或組件的存在,但不排除一或多個其他特徵、整數、步驟、操作、元件、組件、及/或其群組的存在或添加。本文中所用的用語「及(and)/或(or)」包括相關列出項中的一或多個項的任意及所有組合。此外,當闡述本發明概念的實施例時,使用「可」是指「本發明概念的一或多個實施例」。此外,用語「示範性的」旨在指實例或說明。
本文所用的用語「使用(use)」、「正使用(using)」、及「被使用(used)」可視為分別與用語「利用(utilize)」、「正利用(utilizing)」、及「被利用(utilized)」同義。
本文中所述的根據本揭露實施例的深度估測系統及/或任何其他相關裝置或組件可藉由利用任何合適的硬體、韌體(例如,應用專用積體電路)、軟體、或者軟體、韌體及硬體的任何合適的
組合來實施。舉例而言,深度估測系統的各種組件可形成於一個積體電路(integrated circuit,IC)晶片上或形成於單獨的積體電路晶片上。此外,深度估測系統的各種組件可實施於可撓性印刷電路膜、載帶封裝(tape carrier package,TCP)、印刷電路板(printed circuit board,PCB)上或者形成於同一基板上。此外,深度估測系統的各種組件可為在一或多個計算裝置中在一或多個處理器上運行的、執行電腦程式指令且與其他系統組件進行交互作用來實行本文所述各種功能的過程或執行緒。電腦程式指令儲存於可使用標準記憶體裝置在計算裝置中實施的記憶體(例如(舉例而言),隨機存取記憶體(random access memory,RAM))中。電腦程式亦可儲存於其他非暫態電腦可讀取媒體(例如(舉例而言),光碟唯讀記憶體(compact disk read only memory,CD-ROM)、閃存驅動器等)中。此外,熟習此項技術者應認識到,在不背離本揭露示範性實施例的範圍的條件下,可對各種計算裝置的功能進行組合或將所述功能整合至單個計算裝置中,或者可將特定計算裝置的功能分佈於一或多個其他計算裝置中。
儘管已具體參考本揭露的說明性實施例詳細闡述了本揭露,但本文闡述的實施例不旨在詳盡的或將本揭露的範圍限制於所揭露的確切形式。熟習本揭露所屬領域及技術者將理解,在不有意圖地偏離以下申請專利範圍及其等效範圍中所述的本揭露的原理及範圍的條件下,可對所述組裝及操作的結構及方法進行變更及改變。
1:深度估測系統
10:視訊訊框
11:第一視訊訊框
12:第二/中心視訊訊框
13:第三視訊訊框
20:深度圖
100:運動補償器
110:時空轉換器網路
111:第一光流圖
112:第二光流圖
120:影像整經機
121:第一翹曲訊框
122:第二翹曲訊框
123:第三翹曲訊框
200:時間注意子系統
292:輸出特徵圖
300:深度估測器
Claims (20)
- 一種基於多個視訊訊框的深度偵測的方法,所述方法由處理器來執行以下步驟,包括:接收多個輸入訊框,所述多個輸入訊框包括分別與不同的拍攝時間對應的第一輸入訊框、第二輸入訊框及第三輸入訊框;對所述第一輸入訊框至所述第三輸入訊框進行卷積,以產生與所述不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖;基於所述第一特徵圖至所述第三特徵圖計算時間注意圖,所述時間注意圖包括與所述第一特徵圖至所述第三特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及對所述第一特徵圖至所述第三特徵圖應用所述時間注意圖,以產生具有時間注意的特徵圖。
- 如請求項1所述的方法,其中所述多個權重是基於能夠學習的值。
- 如請求項1所述的方法,其中所述多個輸入訊框是輸入視訊序列的視訊訊框。
- 如請求項1所述的方法,其中所述多個輸入訊框是基於視訊訊框的經運動補償的翹曲訊框。
- 如請求項1所述的方法,更包括:接收多個翹曲訊框,所述多個翹曲訊框包括第一翹曲訊框、第二翹曲訊框及第三翹曲訊框;以及將所述第一翹曲訊框至所述第三翹曲訊框中的每一者在空間上劃分成多個貼片,其中所述第一輸入訊框是所述第一翹曲訊框的所述多個貼片中的貼片,其中所述第二輸入訊框是所述第二翹曲訊框的所述多個貼片中的貼片,且其中所述第三輸入訊框是所述第三翹曲訊框的所述多個貼片中的貼片。
- 如請求項1所述的方法,更包括: 接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框;基於光流來補償所述第一視訊訊框至所述第三視訊訊框之間的運動,以產生所述第一輸入訊框至所述第三輸入訊框;以及基於所述具有時間注意的特徵圖產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
- 如請求項8所述的方法,其中補償所述運動包括:基於所述第一視訊訊框的畫素及所述第三視訊訊框的畫素確定所述第二視訊訊框的畫素的光流;以及基於所確定的所述光流對所述第一輸入訊框至所述第三輸入訊框進行影像翹曲。
- 如請求項1所述的方法,更包括:接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框;基於所述第一視訊訊框至所述第三視訊訊框產生第一深度圖、第二深度圖及第三深度圖;基於光流來補償所述第一深度圖至所述第三深度圖之間的運動,以產生所述第一輸入訊框至所述第三輸入訊框;以及對所述具有時間注意的特徵圖進行卷積,以產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
- 如請求項10所述的方法,其中所述第一輸入訊框至所述第三輸入訊框是與所述第一深度圖至所述第三深度圖對 應的翹曲深度圖。
- 如請求項10所述的方法,其中產生所述第一深度圖至所述第三深度圖包括:基於所述第一視訊訊框產生所述第一深度圖;基於所述第二視訊訊框產生所述第二深度圖;以及基於所述第三視訊訊框產生所述第三深度圖。
- 一種基於多個視訊訊框的深度偵測的方法,所述方法由處理器來執行以下步驟,包括:接收多個翹曲訊框,所述多個翹曲訊框包括與不同的拍攝時間對應的第一翹曲訊框、第二翹曲訊框及第三翹曲訊框;將所述第一翹曲訊框至所述第三翹曲訊框中的每一者劃分成多個貼片,所述多個貼片包括第一貼片;接收多個輸入訊框,所述多個輸入訊框包括第一輸入訊框、第二輸入訊框及第三輸入訊框;對所述第一翹曲訊框的所述第一貼片、所述第二翹曲訊框的所述第一貼片及所述第三翹曲訊框的所述第一貼片進行卷積,以產生與所述不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖;基於所述第一特徵圖至所述第三特徵圖計算時間注意圖,所述時間注意圖包括與所述第一特徵圖至所述第三特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及 對所述第一特徵圖至所述第三特徵圖應用所述時間注意圖,以產生具有時間注意的特徵圖。
- 如請求項13所述的方法,其中所述多個翹曲訊框是經運動補償的視訊訊框。
- 如請求項13所述的方法,其中所述多個翹曲訊框是與視訊序列的多個輸入視訊訊框對應的經運動補償的深度圖。
- 如請求項13所述的方法,更包括:接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框;基於光流來補償所述第一視訊訊框至所述第三視訊訊框之間的運動,以產生所述第一翹曲訊框至所述第三翹曲訊框;以及基於所述具有時間注意的特徵圖產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
- 如請求項16所述的方法,其中補償所述運動包括:基於所述第一視訊訊框的畫素及所述第三視訊訊框的畫素確定所述第二視訊訊框的畫素的光流;以及基於所確定的所述光流對所述第一視訊訊框至所述第三視訊訊框進行影像翹曲。
- 如請求項13所述的方法,更包括:接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框; 基於所述第一視訊訊框至所述第三視訊訊框產生第一深度圖、第二深度圖及第三深度圖;基於光流來補償所述第一深度圖至所述第三深度圖之間的運動,以產生所述第一輸入訊框至所述第三輸入訊框;以及對所述具有時間注意的特徵圖進行卷積,以產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
- 如請求項18所述的方法,其中所述第一輸入訊框至所述第三輸入訊框是與所述第一深度圖至所述第三深度圖對應的翹曲深度圖。
- 一種基於多個視訊訊框的深度偵測的系統,所述系統包括:處理器;以及處理器記憶體,位於所述處理器本地,其中所述處理器記憶體上儲存有指令,所述指令在由所述處理器執行時使所述處理器實行以下操作:接收多個輸入訊框,所述多個輸入訊框包括分別與不同的拍攝時間對應的第一輸入訊框、第二輸入訊框及第三輸入訊框;對所述第一輸入訊框至所述第三輸入訊框進行卷積,以產生與所述不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖;基於所述第一特徵圖至所述第三特徵圖計算時間注意圖,所述時間注意圖包括與所述第一特徵圖至所述第三特徵圖中 的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及對所述第一特徵圖至所述第三特徵圖應用所述時間注意圖,以產生具有時間注意的特徵圖。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962877246P | 2019-07-22 | 2019-07-22 | |
US62/877,246 | 2019-07-22 | ||
US16/841,618 US11527005B2 (en) | 2019-07-22 | 2020-04-06 | Video depth estimation based on temporal attention |
US16/841,618 | 2020-04-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202105324A TW202105324A (zh) | 2021-02-01 |
TWI836117B true TWI836117B (zh) | 2024-03-21 |
Family
ID=
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130069935A1 (en) | 2011-09-16 | 2013-03-21 | Novatek Microelectronics Corp. | Depth generation method and apparatus using the same |
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130069935A1 (en) | 2011-09-16 | 2013-03-21 | Novatek Microelectronics Corp. | Depth generation method and apparatus using the same |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11610082B2 (en) | Method and apparatus for training neural network model used for image processing, and storage medium | |
US11527005B2 (en) | Video depth estimation based on temporal attention | |
US8831280B2 (en) | 3D motion recognition method and apparatus | |
EP3698323B1 (en) | Depth from motion for augmented reality for handheld user devices | |
US9600898B2 (en) | Method and apparatus for separating foreground image, and computer-readable recording medium | |
US8553972B2 (en) | Apparatus, method and computer-readable medium generating depth map | |
US8494256B2 (en) | Image processing apparatus and method, learning apparatus and method, and program | |
US9137512B2 (en) | Method and apparatus for estimating depth, and method and apparatus for converting 2D video to 3D video | |
US9916667B2 (en) | Stereo matching apparatus and method through learning of unary confidence and pairwise confidence | |
EP3816929B1 (en) | Method and apparatus for restoring image | |
KR20210139450A (ko) | 이미지 디스플레이 방법 및 디바이스 | |
US9679387B2 (en) | Depth-weighted group-wise principal component analysis for video foreground/background separation | |
KR101580275B1 (ko) | 멀티 레이어 디스플레이에 3차원 영상을 표현하기 위한 영상 처리 장치 및 방법 | |
US8803947B2 (en) | Apparatus and method for generating extrapolated view | |
US9747690B2 (en) | Image processing device, image processing method, and program | |
KR20100062360A (ko) | 깊이 추정 장치 및 방법 | |
CN109661815B (zh) | 存在相机阵列的显著强度变化的情况下的鲁棒视差估计 | |
KR101173559B1 (ko) | 비디오 동영상의 움직이는 다중 객체 자동 분할 장치 및 방법 | |
US9661307B1 (en) | Depth map generation using motion cues for conversion of monoscopic visual content to stereoscopic 3D | |
Lu et al. | Deep unsupervised learning for simultaneous visual odometry and depth estimation | |
Huang et al. | Toward naturalistic 2D-to-3D conversion | |
KR101125061B1 (ko) | Ldi 기법 깊이맵을 참조한 2d 동영상의 3d 동영상 전환방법 | |
TWI836117B (zh) | 基於多個視訊訊框的深度偵測的方法及系統 | |
KR101592087B1 (ko) | 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체 | |
Lin et al. | Depth map enhancement on rgb-d video captured by kinect v2 |