TWI772806B - 場景理解系統及方法 - Google Patents

場景理解系統及方法 Download PDF

Info

Publication number
TWI772806B
TWI772806B TW109117202A TW109117202A TWI772806B TW I772806 B TWI772806 B TW I772806B TW 109117202 A TW109117202 A TW 109117202A TW 109117202 A TW109117202 A TW 109117202A TW I772806 B TWI772806 B TW I772806B
Authority
TW
Taiwan
Prior art keywords
data
current
input data
reconstruction
optical flow
Prior art date
Application number
TW109117202A
Other languages
English (en)
Other versions
TW202145070A (zh
Inventor
邱維辰
蔡易軒
賴學穎
莊仁輝
Original Assignee
國立陽明交通大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立陽明交通大學 filed Critical 國立陽明交通大學
Priority to TW109117202A priority Critical patent/TWI772806B/zh
Publication of TW202145070A publication Critical patent/TW202145070A/zh
Application granted granted Critical
Publication of TWI772806B publication Critical patent/TWI772806B/zh

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Photoreceptors In Electrophotography (AREA)
  • Steroid Compounds (AREA)

Abstract

一種場景理解方法可包含透過一神經網路執行一立體匹配任務及一光流估計任務,以及透過優化一總損失值訓練神經網路。立體匹配任務可包含根據一組左右輸入資料,透過神經網路產生一組深度估計資料。光流估計任務包含根據一組當前及下一張輸入資料,透過神經網路產生一組光流估計資料。總損失值可根據左右輸入資料、當前及下一張輸入資料、深度估計資料及光流估計資料計算。

Description

場景理解系統及方法
本發明係關於一種場景理解系統及方法,更詳細而言,本發明係關於一種使用單一神經網路學習複數個場景理解之關聯任務之系統及方法。
場景理解是自動駕駛、機器人、虛擬實境、擴充實境等領域中的一個重要部分,其中,立體匹配和光流估計是場景理解的兩個基本任務。一般而言,在立體匹配的任務中,可使用兩台相機對場景進行拍攝,再將兩台相機所拍攝的場景圖像匹配,進而計算場景中的物體距離兩台相機之連線之距離(又稱景深)。而在光流估計的任務中,可檢測圖像中像素點的強度隨時間的變化,進而推斷出物體移動速度及方向。因此,透過立體匹配及光流估計,可對場景中的物體隨著時間在空間中的移動建立理解。
由於獲取大範圍地面真實數據的能力有限,現有場景理解技術已集中在非監督式學習的技術開發,通常會將相互關聯的多個任務鏈接在一起以形成一個聯合框架。 但是,現有技術在每個任務使用獨立的神經網路,導致各任務需分別訓練,因而需花費大量時間及運算成本。所以,如何橋接各個關聯的場景理解任務是本領域的重要課題。
本發明之目的在於提供一種僅需使用單一神經網路便可學習複數個場景理解之任務的方法及系統。
為達上述目的,在本發明之一實施態樣中,一種場景理解方法可包含透過一神經網路執行一立體匹配任務;透過該神經網路執行一光流估計任務;計算一總損失值;以及透過優化該總損失值訓練該神經網路。其中,該立體匹配任務包含根據一組左右輸入資料,透過該神經網路產生一組深度估計資料;該光流估計任務包含根據一組當前及下一張輸入資料,透過該神經網路產生一組光流估計資料;並且該總損失值係根據該組左右輸入資料、該組當前及下一張輸入資料、該組深度估計資料及至少部分之該組光流估計資料,透過一總損失函式計算而得。
為達上述目的,在本發明之另一實施態樣中,一種場景理解系統可包含一相機模組、一記憶體及一運算單元。其中,該相機模組包含一左鏡頭及一右鏡頭;該記憶體內儲存有至少一指令;並且該運算單元可用以執行儲存於該記憶體之該至少一指令。該至少一指令可包含透過一神經網路執行一立體匹配任務;透過該神經網路執行一光流估計任務;計算一總損失值;以及透過優化該總損失值訓練該神經網路。其中,該立體匹配任務包含根據一組左右輸入資料,透過該神經網路產生一組深度估計資料;該光流估計任務包含根據一組當前及下一張輸入資料,透過該神經網路產生一組光流估計資料;並且該總損失值係根據該組左右輸入資料、該組當前及下一張輸入資料、該組深度估計資料及至少部分之該組光流估計資料,透過一總損失函式計算而得。
在上述兩種實施態樣中,由於總損失值係根據立體匹配任務及光流估計任務之輸入及輸出資料計算而得,因此,可藉由優化該總損失值而同時提升單一神經網路之立體匹配及光流估計之表現。換言之,在本發明之上述兩種實施態樣中,僅需使用單一神經網路便可學習複數個相關聯的場景理解任務。
由於本發明之場景理解方法及系統使用單一神經網路學習複數個相關聯的場景理解任務,相較每個任務皆使用不同神經網路進行學習之作法,可減少訓練的時間及運算成本,並使經訓練的模型執行立體匹配及光流估計所得到的深度估計圖及光流估計圖具有高度一致性。
本文使用序數詞(例如「第一」、「第二」等)闡述各種資料(或特徵),然而各資料(或特徵)並不受序數詞限制。本文中的序數詞僅用於區分各個元件(或特徵)。舉例而言,在不背離本發明的範圍的條件下,第一組資料(或特徵)亦可稱作第二組資料(或特徵)。相似地,第二組資料(或特徵)亦可被稱作第一組資料(或特徵)。
在本文中,術語「影像」及「資料」之意思可互通。此外,術語「同時」係指二或更多個事件在時間點上之差異非常微小,而並不限於相同之時間點。
參閱圖1,為了使單一神經網路可以同時學習多種場景理解任務,在本發明之一實施例中,場景理解方法100可包含步驟S101-S104。一併參閱圖1及圖3,場景理解方法100可例如由場景理解系統300執行。
舉例而言,場景理解系統300之記憶體320中可存有一或多個指令,運算單元330可執行記憶體320所儲存之該些指令而實施場景理解方法100。在步驟S101中,運算單元330可執行立體匹配任務,根據左右輸入資料,透過一神經網路產生一組深度估計資料。詳細而言,左右輸入資料可例如為相機模組310之左鏡頭311及右鏡頭312在一時間點所同時拍攝之圖像之資料。在步驟S102中,運算單元330可執行光流估計任務,根據當前及下一張輸入資料,透過與立體匹配任務所使用的同一個神經網路產生一組光流估計資料。詳細而言,當前及下一張輸入資料可為左鏡頭311及右鏡頭312在當前時間點及下一時間點所同時拍攝之圖像之資料。在步驟S103中,運算單元330可根據前面所述的左右輸入資料、當前及下一張輸入資料、深度估計資料及光流估計資料,透過一總損失函式計算一總損失值,換言之,運算單元330可根據立體匹配任務及光流估計任務之輸入及輸出資料計算總損失值。最後,在步驟S104中,運算單元330可透過優化總損失值訓練前面所述的用於立體匹配任務及光流估計任務的神經網路。在本實施例中,「優化」係指最小化,然本發明並不限於此,在其它實施例中,依總損失函式之定義,「優化」亦可代表最大化或其他涵義。此外,應注意,圖1所繪示者僅為例示,並非意在限制本發明之場景理解方法之步驟順序。
在本發明之場景理解方法100中,由於總損失值係根據立體匹配任務及光流估計任務之輸入及輸出資料計算而得,所以總損失值可同時反映立體匹配任務及光流估計任務之判斷結果與實際情況之差異,因此,藉由總損失值之最小化,便可訓練該單一神經網路一併進行立體匹配任務及光流估計任務之機器學習,以產生最符合實際資料之深度估計資料及光流估計資料。
以下參照圖2、圖4A及圖4B詳細說明本發明之總損失函式。舉例而言,在本發明之一些實施例中,總損失函式可表示如等式(1)。
Figure 02_image001
=
Figure 02_image003
(1)
其中,
Figure 02_image005
Figure 02_image007
Figure 02_image009
為開始機器學習之前便已預先設定之超參數;
Figure 02_image011
Figure 02_image013
Figure 02_image015
Figure 02_image017
分別為重建損失、平滑損失、左右對應的一致性損失及二次轉換的一致性損失。較佳而言,
Figure 02_image005
Figure 02_image007
Figure 02_image009
之值可為10、0.5及0.2,但本發明不限於此。應注意,等式(1)僅為總損失函式之一例示性定義,本發明之總損失函式之定義並不限於等式(1),例如,在其它實施例中,總損失可以其他任意方式直接或間接地根據立體匹配任務及光流估計任務之輸入資料及輸出資料計算而得。
參閱圖2,在本發明一實施例中,機器學習框架200可包含立體匹配任務210及光流估計任務220。如圖2所示,在立體匹配任務210中,神經網路P可根據一組包含當前左影像資料
Figure 02_image019
及當前右影像資料
Figure 02_image021
之左右輸入資料產生一組包含由右到左的深度估資料
Figure 02_image023
及由左到右的深度估計資料
Figure 02_image025
之深度估計資料。詳細而言,由右到左的深度估資料
Figure 02_image023
係以右輸入資料(在本實施例中,即當前右影像資料
Figure 02_image021
)為基準圖像所產生之深度估計圖;由左到右的深度估計資料
Figure 02_image025
則係以左輸入資料(在本實施例中,即當前左影像資料
Figure 02_image019
)為基準圖像所產生之深度估計圖。在光流估計任務220中,神經網路P可根據一組包含當前影像資料
Figure 02_image027
及下一張影像資料
Figure 02_image029
之當前及下一張輸入資料產生一組包含由當張至下一張影像的光流估計資料
Figure 02_image031
及由下一張至當張影像的光流估計資料
Figure 02_image033
之光流估計資料。
在本實施例中,可透過圖2所示之四種方法中的任意一種計算平滑損失
Figure 02_image013
。具體而言,可根據當前右影像資料
Figure 02_image021
及由右到左的深度估資料
Figure 02_image023
計算平滑損失
Figure 02_image013
。或者,神經網路P可根據當前左影像資料
Figure 02_image019
及由左到右的深度估計資料
Figure 02_image025
計算平滑損失
Figure 02_image013
。或者,神經網路P可根據下一張影像資料
Figure 02_image029
及由下一張至當張影像的光流估計資料
Figure 02_image033
計算平滑損失
Figure 02_image013
。或者,神經網路P可根據當前影像資料
Figure 02_image027
及由當張至下一張影像的光流估計資料
Figure 02_image031
計算平滑損失
Figure 02_image013
舉例而言,在本發明的一些實施例中,平滑損失
Figure 02_image013
可例如透過等式(2)計算。
Figure 02_image035
(2)
等式(2)所計算者為當前左影像資料
Figure 02_image019
及其所對應之由當張至下一張影像的光流估計資料
Figure 02_image031
之間的平滑損失。其中,
Figure 02_image037
可以
Figure 02_image039
Figure 02_image041
代入,N之值可為
Figure 02_image043
Figure 02_image045
之乘積之四倍;超參數
Figure 02_image047
在開始機器學習之前便已預先決定,較佳而言,
Figure 02_image049
之值可為10。
由於本發明之總損失包含平滑損失
Figure 02_image013
,透過總損失之最小化,便可維持影像結構之邊緣(即影像中物件之輪廓)、減少立體匹配任務及光流估計任務所產生的估計影像中不符合實際情況之不平滑,並保持符合實際情況之平滑。此外,因為等式(2)並沒有將遮擋像素排除,所以,使用等式(2)所計算之平滑損失不受遮擋之影響。
應注意,等式(2)僅為平滑損失
Figure 02_image013
之一例示性計算方法,本發明之平滑損失
Figure 02_image013
之計算並不限於等式(2)。舉例而言,在其它實施例中,平滑損失
Figure 02_image013
可依任意其他方式直接或間接地根據至少部分之深度估計資料及左右輸入資料計算而得;或者,平滑損失
Figure 02_image013
亦可依任意其他方式直接或間接地根據光流估計資料及至少部分之當前及下一張輸入資料計算而得。
本文所稱之「遮擋」係指當前影像中之特定部分不存在於下一張影像中之現象,其原因可為鏡頭及物體間之相對移動使影像中物體所呈現之角度改變,或有其他物體突然進入鏡頭之拍攝範圍內,遮擋住原本所拍攝之物體。
如圖2所示,在本實施例中,可根據由右到左的深度估資料
Figure 02_image023
及由左到右的深度估計資料
Figure 02_image025
計算左右對應的一致性損失
Figure 02_image015
。舉例而言,在本發明的一些實施例中,平滑損失
Figure 02_image015
可例如透過等式(3)計算。
Figure 02_image051
(3)
其中,W可為任何用於像素對應(pixel mapping)之函式。由於本發明之總損失包含左右對應之一致性損失
Figure 02_image015
,透過總損失之最小化,便可將由右到左的深度估資料
Figure 02_image023
及由左到右的深度估計資料
Figure 02_image025
之差異最小化,從而確保神經網路P在執行立體匹配任務210時,以不同的輸入資料為基準圖所產生之深度估計圖可具有高度一致性致。應注意,等式(3)僅為左右對應的一致性損失
Figure 02_image015
之一例示性計算方法,在其他實施例中,左右對應之一致性損失
Figure 02_image015
(即由右到左的深度估資料
Figure 02_image023
及由左到右的深度估計資料
Figure 02_image025
之差異)可依其他任意方式直接或間接地根據由右到左的深度估資料
Figure 02_image023
及由左到右的深度估計資料
Figure 02_image025
計算。
如圖2所示,在本實施例中,立體匹配任務210包含根據當前左影像資料
Figure 02_image019
及由右到左的深度估資料
Figure 02_image023
,透過轉換函式W產生重建的當前右影像資料
Figure 02_image053
;以及根據當前右影像資料
Figure 02_image021
及由左到右的深度估計資料
Figure 02_image025
,透過轉換函式W產生重建的當前左影像資料
Figure 02_image055
。並且,光流估計任務220包含根據當前影像資料
Figure 02_image027
及由下一張至當張影像的光流估計資料
Figure 02_image033
,透過轉換函式W產生重建的下一張影像資料
Figure 02_image057
;以及根據下一張影像資料
Figure 02_image029
及由當張至下一張影像的光流估計資料
Figure 02_image031
,透過轉換函式W產生重建的當張影像資料
Figure 02_image059
。在本實施例中,轉換函式W可為任何用於像素對應(pixel mapping)之函式。
在本實施例中,可透過圖2所示之四種方法中的任意一種計算重建損失
Figure 02_image011
。具體而言,可根據重建的當前右影像資料
Figure 02_image053
及當前右影像資料
Figure 02_image021
計算重建損失
Figure 02_image011
。或者,可根據重建的當前左影像資料
Figure 02_image055
及當前左影像資料
Figure 02_image019
計算重建損失
Figure 02_image011
。或者,可根據由下一張至當張影像的光流估計資料
Figure 02_image033
產生由下一張至當張的遮擋對應資料
Figure 02_image061
,並根據由下一張至當張的遮擋對應資料
Figure 02_image061
、下一張影像資料
Figure 02_image029
及重建的下一張影像資料
Figure 02_image057
計算重建損失
Figure 02_image011
。或者,可根據由當張至下一張影像的光流估計資料
Figure 02_image031
產生由當張至下一張的遮擋對應資料
Figure 02_image063
,並根據當前影像資料
Figure 02_image027
、重建的當張影像資料
Figure 02_image059
及由當張至下一張的遮擋對應資料
Figure 02_image063
計算重建損失
Figure 02_image011
舉例而言,在本發明的一些實施例中,重建損失
Figure 02_image011
可例如透過等式(4)計算。
Figure 02_image065
]   (4)
等式(4)係計算重建後影像(例如重建的當前左影像資料
Figure 02_image055
)及原影像(例如當前左影像資料
Figure 02_image019
)之間的SSIM損失和L1之合。其中,超參數
Figure 02_image067
在開始機器學習之前便已預先決定,較佳而言,
Figure 02_image067
之值可為0.85。由於本發明之總損失包含重建損失
Figure 02_image011
,透過總損失之最小化,便可使重建之影像與實際影像之差異最小化。
應注意,等式(4)僅為本發明之中,重建損失
Figure 02_image011
之一例式性計算方法,在其它實施例中,重建損失
Figure 02_image011
可依其他任意方式直接或間接地根據立體匹配及光流估計之輸入資料及重建資料計算。
參閱圖2、圖4A及圖4B,在一些實施例中,因為左鏡頭311及右鏡頭312之姿態(例如,其在場景理解系統300上之位置及朝向)係保持恆定,且左鏡頭311與右鏡頭312一直保持同時拍攝。所以,如圖4A及圖4B所示,可將不同時間或左右不同鏡頭所拍攝之影像分別透過一次轉換及二次轉換重建為同一鏡頭在同一時間所拍攝之影像。理想上,透過一次及二次轉換所重建之同一鏡頭在同一時間所拍攝之影像應互相一致,因此,本發明透過最小化經一次及二次重建之影像之間的差異,可使神經網路模型執行立體匹配及光流估計之輸出更為理想。
例如,參閱圖4A之虛線部分,可以當前左影像資料
Figure 02_image019
(圖4A未繪示)及下一張左影像資料
Figure 02_image069
作為第一組當前及下一張輸入資料執行光流估計任務220以獲得重建的當前左影像資料
Figure 02_image055
及重建的當前右影像資料
Figure 02_image053
(圖4A未示),接著,再以重建的當前左影像資料
Figure 02_image055
作為左右輸入資料之部分執行立體匹配任務210,以獲得經二次轉換之當前右影像資料
Figure 02_image071
。參閱圖4A之實線部分,可以當前右影像資料
Figure 02_image021
(圖4A未繪示)及下一張右影像資料
Figure 02_image073
作為第二組當前及下一張輸入資料執行光流估計任務220以獲得重建的當前右影像資料
Figure 02_image053
。重建的當前右影像資料
Figure 02_image055
及經二次轉換之當前右影像資料
Figure 02_image071
皆係呈現右鏡頭於「當前」所拍攝之影像,兩者不同之處在於分別經過一次及二次重建。
如圖4A所示,在本實施例中,可根據重建的當前右影像資料
Figure 02_image055
及經二次轉換之當前右影像資料
Figure 02_image071
計算二次轉換的一致性損失
Figure 02_image017
圖4B展示另一種計算二次轉換的一致性損失的方式,參閱圖4B之虛線部分,可以下一張左影像資料
Figure 02_image069
及下一張右影像資料
Figure 02_image073
(圖4B未繪示)作為第一組左右輸入資料執行立體匹配任務210以獲得重建的下一張左影像資料
Figure 02_image075
(圖4B未繪示)及重建的下一張右影像資料
Figure 02_image077
,接著,再以重建的下一張右影像資料
Figure 02_image077
作為當前及下一張輸入資料之部分執行光流估計任務220,以獲得經二次轉換之當前右影像資料
Figure 02_image071
。參閱圖4B之實線部分,可以當前左影像資料
Figure 02_image019
及當前右影像資料
Figure 02_image021
(圖4A未繪示)作為第二組左右輸入資料執行立體匹配任務210以獲得重建的當前右影像資料
Figure 02_image053
。然後,可根據重建的當前右影像資料
Figure 02_image055
及經二次轉換之當前右影像資料
Figure 02_image071
計算二次轉換的一致性損失
Figure 02_image017
在一些實施例中,圖4A所示之二次轉換的一致性損失
Figure 02_image017
可例如透過等式(5)計算。
Figure 02_image079
(5)
其中,經二次轉換之當前右影像資料
Figure 02_image071
可例如由等式(6)計算;由當張右影像至下一張左影像之遮擋對應資料
Figure 02_image081
可例如由等式(7)計算。
Figure 02_image083
(6)
Figure 02_image085
(7)
上述僅為例示,並非意在限制本發明之二次轉換的一致性損失
Figure 02_image017
之計算方式。在其它實施例中,二次轉換的一致性損失
Figure 02_image017
可依其他任意方式直接或間接地根據經一次重建之影像及經二次重建之影像計算。
雖然本發明已透過實施例揭露如上,然其並非用以限定本發明,任何熟習此技藝者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100:場景理解方法 S101-S104:步驟 200:機器學習框架 210:立體匹配任務 220:光流估計任務 300:場景理解系統
Figure 02_image019
:當前左影像資料
Figure 02_image021
:當前右影像資料
Figure 02_image087
:神經網路
Figure 02_image013
:平滑損失
Figure 02_image023
:由右到左的深度估資料
Figure 02_image025
:由左到右的深度估計資料
Figure 02_image015
:左右對應的一致性損失
Figure 02_image089
:轉換函示
Figure 02_image053
:重建的當前右影像資料
Figure 02_image055
:重建的當前左影像資料
Figure 02_image011
:重建損失
Figure 02_image027
:當前影像資料
Figure 02_image029
:下一張影像資料
Figure 02_image031
:由當張至下一張影像的光流估計資料
Figure 02_image033
:由下一張至當張影像的光流估計資料
Figure 02_image063
:由當張至下一張的遮擋對應資料
Figure 02_image061
:由下一張至當張的遮擋對應資料
Figure 02_image057
:重建的下一張影像資料
Figure 02_image059
:重建的當張影像資料
Figure 02_image069
:下一張左影像資料
Figure 02_image073
:下一張右影像資料
Figure 02_image071
:經二次轉換之當前右影像資料
Figure 02_image081
:由當張右影像至下一張左影像之遮擋對應資料
Figure 02_image067
Figure 02_image049
Figure 02_image005
Figure 02_image007
Figure 02_image009
:超參數
Figure 02_image017
:二次轉換的一致性損失
圖1繪示本發明之一實施例之場景理解方法之流程圖; 圖2繪示本發明之一實施例之場景理解任務之機器學習框架; 圖3繪示本發明之一實施例之場景理解系統之方塊圖; 圖4A繪示本發明之一實施例之二次轉換流程圖;以及 圖4B繪示本發明之另一實施例之二次轉換流程圖。
100:場景學習方法
S101-S104:步驟

Claims (19)

  1. 一種場景理解方法,包含: 執行一立體匹配任務,該立體匹配任務包含: 根據一組左右輸入資料,透過一神經網路產生一組深度估計資料; 執行一光流估計任務,該光流估計任務包含: 根據一組當前及下一張輸入資料,透過該神經網路產生一組光流估計資料; 根據該組左右輸入資料、該組當前及下一張輸入資料、該組深度估計資料及至少部分之該組光流估計資料,透過一總損失函式計算一總損失值;以及 透過優化該總損失值訓練該神經網路。
  2. 如請求項1所述之場景理解方法,其中,該總損失函式包含一平滑損失項,該場景理解方法更包含: 根據至少部分之該組深度估計資料及至少部分之該組左右輸入資料計算該平滑損失項之值。
  3. 如請求項1所述之場景理解方法,其中,該總損失函式包含一平滑損失項,該場景理解方法更包含: 根據至少部分之該組光流估計資料及至少部分之該組當前及下一張輸入資料計算該平滑損失項之值。
  4. 如請求項1所述之場景理解方法,其中,該總損失函式包含一左右對應的一致性損失項,該場景理解方法更包含: 根據該組深度估計資料計算該左右對應的一致性損失項之值。
  5. 如請求項1所述之場景理解方法,其中: 該立體匹配任務更包含: 根據至少部分之該組左右輸入資料及至少部分之該組深度估計資料產生一左/右重建資料,以及 該光流估計任務更包含: 根據至少部分之該組當前及下一張輸入資料及至少部分之該組光流估計資料產生一當前/下一張重建資料。
  6. 如請求項5所述之場景理解方法,其中,該總損失函式包含一重建損失項,該場景理解方法更包含: 根據該左/右重建資料及至少部分之該組左右輸入資料計算該重建損失項之值。
  7. 如請求項5所述之場景理解方法,其中,該總損失函式包含一重建損失項,該場景理解方法更包含: 根據至少部分之該組當前及下一張輸入資料及該當前/下一張重建資料計算該重建損失項之值。
  8. 如請求項5所述之場景理解方法,其中,該總損失函式包含一二次轉換的一致性損失項,該二次轉換的一致性損失項之值係透過下列步驟計算而得: 以一第一組左右輸入資料執行該立體匹配任務以獲得一第一左/右重建資料; 執行該光流估計任務,其中,該組當前及下一張輸入資料包含該第一左/右重建資料,以獲得一經二次轉換之當前/下一張重建資料; 以一第二組左右輸入資料執行該立體匹配任務以獲得一第二左/右重建資料;以及 根據該經二次轉換之當前/下一張重建資料及該第二左/右重建資料計算該二次轉換的一致性損失項之值。
  9. 如請求項5所述之場景理解方法,其中,該總損失函式包含一二次轉換的一致性損失項,該二次轉換的一致性損失項之值係透過下列步驟計算而得: 以一第一組當前及下一張輸入資料執行該光流估計任務以獲得一第一當前/下一張重建資料; 執行該立體匹配計任務,其中,該組左右輸入資料包含該第一當前/下一張重建資料,以獲得一經二次轉換之左/右重建資料; 以一第二組當前及下一張輸入資料執行該立體匹配任務以獲得一第二當前/下一張重建資料;以及 根據該經二次轉換之左/右重建資料及該第二當前/下一張重建資料計算該二次轉換的一致性損失項之值。
  10. 一種場景理解系統,包含: 一相機模組,包含一左鏡頭及一右鏡頭; 一記憶體,用以儲存至少一指令;以及 一運算單元,用以執行儲存於該記憶體之該至少一指令,其中,該至少一指令包含: 執行一立體匹配任務,該立體匹配任務包含: 根據一組左右輸入資料,透過一神經網路產生一組深度估計資料,其中,該組左右輸入資料係該相機模組所拍攝之圖像之資料; 執行一光流估計任務,該光流估計任務包含: 根據一組當前及下一張輸入資料,透過該神經網路產生一組光流估計資料,其中,該組當前及下一張輸入資料係該相機模組所拍攝之圖像資料; 根據該組左右輸入資料、該組當前及下一張輸入資料、該組深度估計資料及至少部分之該組光流估計資料,透過一總損失函式計算一總損失值;以及 透過優化該總損失值訓練該神經網路。
  11. 如請求項10所述之場景理解系統,其中,該至少一指令更包含: 將經訓練之該神經網路儲存於該記憶體中。
  12. 如請求項10所述之場景理解系統,其中,該總損失函式包含一平滑損失項,該至少一指令更包含: 根據至少部分之該組深度估計資料及至少部分之該組左右輸入資料計算該平滑損失項之值。
  13. 如請求項10所述之場景理解系統,其中,該總損失函式包含一平滑損失項,該至少一指令更包含: 根據至少部分之該組光流估計資料及至少部分之該組當前及下一張輸入資料計算該平滑損失項之值。
  14. 如請求項10所述之場景理解系統,其中,該總損失函式包含一左右對應的一致性損失項,該至少一指令更包含: 根據該組深度估計資料計算該左右對應的一致性損失項之值。
  15. 如請求項10所述之場景理解系統,其中: 該立體匹配任務更包含: 根據至少部分之該組左右輸入資料及至少部分之該組深度估計資料產生一左/右重建資料,以及 該光流估計任務更包含: 根據至少部分之該組當前及下一張輸入資料及至少部分之該組光流估計資料產生一當前/下一張重建資料。
  16. 如請求項15所述之場景理解系統,其中,該總損失函式包含一重建損失項,該至少一指令更包含: 根據該左/右重建資料及至少部分之該組左右輸入資料計算該重建損失項之值。
  17. 如請求項15所述之場景理解系統,其中,該總損失函式包含一重建損失項,該至少一指令更包含: 根據至少部分之該組當前及下一張輸入資料及該當前/下一張重建資料計算該重建損失項之值。
  18. 如請求項15所述之場景理解系統,其中,該總損失函式包含一二次轉換的一致性損失項,該二次轉換的一致性損失項之值係透過下列步驟計算而得: 以一第一組左右輸入資料執行該立體匹配任務以獲得一第一左/右重建資料; 執行該光流估計任務,其中,該組當前及下一張輸入資料包含該第一左/右重建資料,以獲得一經二次轉換之當前/下一張重建資料; 以一第二組左右輸入資料執行該立體匹配任務以獲得一第二左/右重建資料;以及 根據該經二次轉換之當前/下一張重建資料及該第二左/右重建資料計算該二次轉換的一致性損失項之值。
  19. 如請求項15所述之場景理解系統,其中,該總損失函式包含一二次轉換的一致性損失項,該二次轉換的一致性損失項之值係透過下列步驟計算而得: 以一第一組當前及下一張輸入資料執行該光流估計任務以獲得一第一當前/下一張重建資料; 執行該立體匹配計任務,其中,該組左右輸入資料包含該第一當前/下一張重建資料,以獲得一經二次轉換之左/右重建資料; 以一第二組當前及下一張輸入資料執行該立體匹配任務以獲得一第二當前/下一張重建資料;以及 根據該經二次轉換之左/右重建資料及該第二當前/下一張重建資料計算該二次轉換的一致性損失項之值。
TW109117202A 2020-05-22 2020-05-22 場景理解系統及方法 TWI772806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109117202A TWI772806B (zh) 2020-05-22 2020-05-22 場景理解系統及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109117202A TWI772806B (zh) 2020-05-22 2020-05-22 場景理解系統及方法

Publications (2)

Publication Number Publication Date
TW202145070A TW202145070A (zh) 2021-12-01
TWI772806B true TWI772806B (zh) 2022-08-01

Family

ID=80783884

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109117202A TWI772806B (zh) 2020-05-22 2020-05-22 場景理解系統及方法

Country Status (1)

Country Link
TW (1) TWI772806B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600889B2 (en) * 2013-12-20 2017-03-21 Thomson Licensing Method and apparatus for performing depth estimation
US9800856B2 (en) * 2013-03-13 2017-10-24 Fotonation Cayman Limited Systems and methods for synthesizing images from image data captured by an array camera using restricted depth of field depth maps in which depth estimation precision varies
TW202004670A (zh) * 2018-05-17 2020-01-16 美商尼安蒂克公司 深度估計系統之自監督訓練
TW202016505A (zh) * 2018-10-29 2020-05-01 南韓商三星電子股份有限公司 使用具有不同視野的相機進行差異估測的電子裝置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9800856B2 (en) * 2013-03-13 2017-10-24 Fotonation Cayman Limited Systems and methods for synthesizing images from image data captured by an array camera using restricted depth of field depth maps in which depth estimation precision varies
US9600889B2 (en) * 2013-12-20 2017-03-21 Thomson Licensing Method and apparatus for performing depth estimation
TW202004670A (zh) * 2018-05-17 2020-01-16 美商尼安蒂克公司 深度估計系統之自監督訓練
TW202016505A (zh) * 2018-10-29 2020-05-01 南韓商三星電子股份有限公司 使用具有不同視野的相機進行差異估測的電子裝置及方法

Also Published As

Publication number Publication date
TW202145070A (zh) 2021-12-01

Similar Documents

Publication Publication Date Title
US11145075B2 (en) Depth from motion for augmented reality for handheld user devices
US20190026943A1 (en) Dense visual slam with probabilistic surfel map
CN111127522B (zh) 基于单目相机的深度光流预测方法、装置、设备及介质
US9253415B2 (en) Simulating tracking shots from image sequences
CN109308719A (zh) 一种基于三维卷积的双目视差估计方法
TW202117611A (zh) 電腦視覺訓練系統及訓練電腦視覺系統的方法
JPH1137721A (ja) アフィンカメラ補正による三次元位置の線形推定方法
CN110610486A (zh) 单目图像深度估计方法及装置
KR20180066551A (ko) 전방향 카메라의 깊이 지도 획득 방법 및 장치
CN111028282A (zh) 一种无监督位姿与深度计算方法及系统
CN110428461B (zh) 结合深度学习的单目slam方法及装置
CN112215880A (zh) 一种图像深度估计方法及装置、电子设备、存储介质
TWI772806B (zh) 場景理解系統及方法
CN116152121B (zh) 基于畸变参数的曲面屏生成方法、矫正方法
TWI757658B (zh) 影像處理系統及影像處理方法
JP2010506482A (ja) ビデオストリームの視差回復方法及びフィルタ
CN110111341B (zh) 图像前景获取方法、装置及设备
KR102186764B1 (ko) 사이클 일관성 기반 옵티컬플로우 및 디스패리티 추정 장치 및 방법
CN114419102B (zh) 一种基于帧差时序运动信息的多目标跟踪检测方法
Tran et al. 3D face pose and animation tracking via eigen-decomposition based bayesian approach
Li et al. Dvonet: unsupervised monocular depth estimation and visual odometry
KR102489890B1 (ko) 깊이 추정 시스템 및 깊이 추정 방법
Shoman et al. Illumination invariant camera localization using synthetic images
TWI687086B (zh) 時間一致可靠度傳遞系統
KR102262832B1 (ko) 단안 비디오 영상의 깊이 추정 방법 및 장치