TWI772806B

TWI772806B - 場景理解系統及方法

Info

Publication number: TWI772806B
Application number: TW109117202A
Authority: TW
Inventors: 邱維辰; 蔡易軒; 賴學穎; 莊仁輝
Original assignee: 國立陽明交通大學
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2022-08-01
Also published as: TW202145070A

Abstract

一種場景理解方法可包含透過一神經網路執行一立體匹配任務及一光流估計任務，以及透過優化一總損失值訓練神經網路。立體匹配任務可包含根據一組左右輸入資料，透過神經網路產生一組深度估計資料。光流估計任務包含根據一組當前及下一張輸入資料，透過神經網路產生一組光流估計資料。總損失值可根據左右輸入資料、當前及下一張輸入資料、深度估計資料及光流估計資料計算。

Description

場景理解系統及方法

本發明係關於一種場景理解系統及方法，更詳細而言，本發明係關於一種使用單一神經網路學習複數個場景理解之關聯任務之系統及方法。

場景理解是自動駕駛、機器人、虛擬實境、擴充實境等領域中的一個重要部分，其中，立體匹配和光流估計是場景理解的兩個基本任務。一般而言，在立體匹配的任務中，可使用兩台相機對場景進行拍攝，再將兩台相機所拍攝的場景圖像匹配，進而計算場景中的物體距離兩台相機之連線之距離(又稱景深)。而在光流估計的任務中，可檢測圖像中像素點的強度隨時間的變化，進而推斷出物體移動速度及方向。因此，透過立體匹配及光流估計，可對場景中的物體隨著時間在空間中的移動建立理解。

由於獲取大範圍地面真實數據的能力有限，現有場景理解技術已集中在非監督式學習的技術開發，通常會將相互關聯的多個任務鏈接在一起以形成一個聯合框架。但是，現有技術在每個任務使用獨立的神經網路，導致各任務需分別訓練，因而需花費大量時間及運算成本。所以，如何橋接各個關聯的場景理解任務是本領域的重要課題。

本發明之目的在於提供一種僅需使用單一神經網路便可學習複數個場景理解之任務的方法及系統。

為達上述目的，在本發明之一實施態樣中，一種場景理解方法可包含透過一神經網路執行一立體匹配任務；透過該神經網路執行一光流估計任務；計算一總損失值；以及透過優化該總損失值訓練該神經網路。其中，該立體匹配任務包含根據一組左右輸入資料，透過該神經網路產生一組深度估計資料；該光流估計任務包含根據一組當前及下一張輸入資料，透過該神經網路產生一組光流估計資料；並且該總損失值係根據該組左右輸入資料、該組當前及下一張輸入資料、該組深度估計資料及至少部分之該組光流估計資料，透過一總損失函式計算而得。

為達上述目的，在本發明之另一實施態樣中，一種場景理解系統可包含一相機模組、一記憶體及一運算單元。其中，該相機模組包含一左鏡頭及一右鏡頭；該記憶體內儲存有至少一指令；並且該運算單元可用以執行儲存於該記憶體之該至少一指令。該至少一指令可包含透過一神經網路執行一立體匹配任務；透過該神經網路執行一光流估計任務；計算一總損失值；以及透過優化該總損失值訓練該神經網路。其中，該立體匹配任務包含根據一組左右輸入資料，透過該神經網路產生一組深度估計資料；該光流估計任務包含根據一組當前及下一張輸入資料，透過該神經網路產生一組光流估計資料；並且該總損失值係根據該組左右輸入資料、該組當前及下一張輸入資料、該組深度估計資料及至少部分之該組光流估計資料，透過一總損失函式計算而得。

在上述兩種實施態樣中，由於總損失值係根據立體匹配任務及光流估計任務之輸入及輸出資料計算而得，因此，可藉由優化該總損失值而同時提升單一神經網路之立體匹配及光流估計之表現。換言之，在本發明之上述兩種實施態樣中，僅需使用單一神經網路便可學習複數個相關聯的場景理解任務。

由於本發明之場景理解方法及系統使用單一神經網路學習複數個相關聯的場景理解任務，相較每個任務皆使用不同神經網路進行學習之作法，可減少訓練的時間及運算成本，並使經訓練的模型執行立體匹配及光流估計所得到的深度估計圖及光流估計圖具有高度一致性。

本文使用序數詞(例如「第一」、「第二」等)闡述各種資料(或特徵)，然而各資料(或特徵)並不受序數詞限制。本文中的序數詞僅用於區分各個元件(或特徵)。舉例而言，在不背離本發明的範圍的條件下，第一組資料(或特徵)亦可稱作第二組資料(或特徵)。相似地，第二組資料(或特徵)亦可被稱作第一組資料(或特徵)。

在本文中，術語「影像」及「資料」之意思可互通。此外，術語「同時」係指二或更多個事件在時間點上之差異非常微小，而並不限於相同之時間點。

參閱圖1，為了使單一神經網路可以同時學習多種場景理解任務，在本發明之一實施例中，場景理解方法100可包含步驟S101-S104。一併參閱圖1及圖3，場景理解方法100可例如由場景理解系統300執行。

舉例而言，場景理解系統300之記憶體320中可存有一或多個指令，運算單元330可執行記憶體320所儲存之該些指令而實施場景理解方法100。在步驟S101中，運算單元330可執行立體匹配任務，根據左右輸入資料，透過一神經網路產生一組深度估計資料。詳細而言，左右輸入資料可例如為相機模組310之左鏡頭311及右鏡頭312在一時間點所同時拍攝之圖像之資料。在步驟S102中，運算單元330可執行光流估計任務，根據當前及下一張輸入資料，透過與立體匹配任務所使用的同一個神經網路產生一組光流估計資料。詳細而言，當前及下一張輸入資料可為左鏡頭311及右鏡頭312在當前時間點及下一時間點所同時拍攝之圖像之資料。在步驟S103中，運算單元330可根據前面所述的左右輸入資料、當前及下一張輸入資料、深度估計資料及光流估計資料，透過一總損失函式計算一總損失值，換言之，運算單元330可根據立體匹配任務及光流估計任務之輸入及輸出資料計算總損失值。最後，在步驟S104中，運算單元330可透過優化總損失值訓練前面所述的用於立體匹配任務及光流估計任務的神經網路。在本實施例中，「優化」係指最小化，然本發明並不限於此，在其它實施例中，依總損失函式之定義，「優化」亦可代表最大化或其他涵義。此外，應注意，圖1所繪示者僅為例示，並非意在限制本發明之場景理解方法之步驟順序。

在本發明之場景理解方法100中，由於總損失值係根據立體匹配任務及光流估計任務之輸入及輸出資料計算而得，所以總損失值可同時反映立體匹配任務及光流估計任務之判斷結果與實際情況之差異，因此，藉由總損失值之最小化，便可訓練該單一神經網路一併進行立體匹配任務及光流估計任務之機器學習，以產生最符合實際資料之深度估計資料及光流估計資料。

以下參照圖2、圖4A及圖4B詳細說明本發明之總損失函式。舉例而言，在本發明之一些實施例中，總損失函式可表示如等式(1)。

=

(1)

其中，

、

及

為開始機器學習之前便已預先設定之超參數；

、

、

及

分別為重建損失、平滑損失、左右對應的一致性損失及二次轉換的一致性損失。較佳而言，

、

及

之值可為10、0.5及0.2，但本發明不限於此。應注意，等式(1)僅為總損失函式之一例示性定義，本發明之總損失函式之定義並不限於等式(1)，例如，在其它實施例中，總損失可以其他任意方式直接或間接地根據立體匹配任務及光流估計任務之輸入資料及輸出資料計算而得。

參閱圖2，在本發明一實施例中，機器學習框架200可包含立體匹配任務210及光流估計任務220。如圖2所示，在立體匹配任務210中，神經網路P可根據一組包含當前左影像資料

及當前右影像資料

之左右輸入資料產生一組包含由右到左的深度估資料

及由左到右的深度估計資料

之深度估計資料。詳細而言，由右到左的深度估資料

係以右輸入資料(在本實施例中，即當前右影像資料

)為基準圖像所產生之深度估計圖；由左到右的深度估計資料

則係以左輸入資料(在本實施例中，即當前左影像資料

)為基準圖像所產生之深度估計圖。在光流估計任務220中，神經網路P可根據一組包含當前影像資料

及下一張影像資料

之當前及下一張輸入資料產生一組包含由當張至下一張影像的光流估計資料

及由下一張至當張影像的光流估計資料

之光流估計資料。

在本實施例中，可透過圖2所示之四種方法中的任意一種計算平滑損失

。具體而言，可根據當前右影像資料

及由右到左的深度估資料

計算平滑損失

。或者，神經網路P可根據當前左影像資料

及由左到右的深度估計資料

計算平滑損失

。或者，神經網路P可根據下一張影像資料

及由下一張至當張影像的光流估計資料

計算平滑損失

。或者，神經網路P可根據當前影像資料

及由當張至下一張影像的光流估計資料

計算平滑損失

。

舉例而言，在本發明的一些實施例中，平滑損失

可例如透過等式(2)計算。

(2)

等式(2)所計算者為當前左影像資料

及其所對應之由當張至下一張影像的光流估計資料

之間的平滑損失。其中，

可以

或

代入，N之值可為

及

之乘積之四倍；超參數

在開始機器學習之前便已預先決定，較佳而言，

之值可為10。

由於本發明之總損失包含平滑損失

，透過總損失之最小化，便可維持影像結構之邊緣(即影像中物件之輪廓)、減少立體匹配任務及光流估計任務所產生的估計影像中不符合實際情況之不平滑，並保持符合實際情況之平滑。此外，因為等式(2)並沒有將遮擋像素排除，所以，使用等式(2)所計算之平滑損失不受遮擋之影響。

應注意，等式(2)僅為平滑損失

之一例示性計算方法，本發明之平滑損失

之計算並不限於等式(2)。舉例而言，在其它實施例中，平滑損失

可依任意其他方式直接或間接地根據至少部分之深度估計資料及左右輸入資料計算而得；或者，平滑損失

亦可依任意其他方式直接或間接地根據光流估計資料及至少部分之當前及下一張輸入資料計算而得。

本文所稱之「遮擋」係指當前影像中之特定部分不存在於下一張影像中之現象，其原因可為鏡頭及物體間之相對移動使影像中物體所呈現之角度改變，或有其他物體突然進入鏡頭之拍攝範圍內，遮擋住原本所拍攝之物體。

如圖2所示，在本實施例中，可根據由右到左的深度估資料

及由左到右的深度估計資料

計算左右對應的一致性損失

。舉例而言，在本發明的一些實施例中，平滑損失

可例如透過等式(3)計算。

(3)

其中，W可為任何用於像素對應(pixel mapping)之函式。由於本發明之總損失包含左右對應之一致性損失

，透過總損失之最小化，便可將由右到左的深度估資料

及由左到右的深度估計資料

之差異最小化，從而確保神經網路P在執行立體匹配任務210時，以不同的輸入資料為基準圖所產生之深度估計圖可具有高度一致性致。應注意，等式(3)僅為左右對應的一致性損失

之一例示性計算方法，在其他實施例中，左右對應之一致性損失

(即由右到左的深度估資料

及由左到右的深度估計資料

之差異)可依其他任意方式直接或間接地根據由右到左的深度估資料

及由左到右的深度估計資料

計算。

如圖2所示，在本實施例中，立體匹配任務210包含根據當前左影像資料

及由右到左的深度估資料

，透過轉換函式W產生重建的當前右影像資料

；以及根據當前右影像資料

及由左到右的深度估計資料

，透過轉換函式W產生重建的當前左影像資料

。並且，光流估計任務220包含根據當前影像資料

及由下一張至當張影像的光流估計資料

，透過轉換函式W產生重建的下一張影像資料

；以及根據下一張影像資料

及由當張至下一張影像的光流估計資料

，透過轉換函式W產生重建的當張影像資料

。在本實施例中，轉換函式W可為任何用於像素對應(pixel mapping)之函式。

在本實施例中，可透過圖2所示之四種方法中的任意一種計算重建損失

。具體而言，可根據重建的當前右影像資料

及當前右影像資料

計算重建損失

。或者，可根據重建的當前左影像資料

及當前左影像資料

計算重建損失

。或者，可根據由下一張至當張影像的光流估計資料

產生由下一張至當張的遮擋對應資料

，並根據由下一張至當張的遮擋對應資料

、下一張影像資料

及重建的下一張影像資料

計算重建損失

。或者，可根據由當張至下一張影像的光流估計資料

產生由當張至下一張的遮擋對應資料

，並根據當前影像資料

、重建的當張影像資料

及由當張至下一張的遮擋對應資料

計算重建損失

。

舉例而言，在本發明的一些實施例中，重建損失

可例如透過等式(4)計算。

] (4)

等式(4)係計算重建後影像(例如重建的當前左影像資料

)及原影像(例如當前左影像資料

)之間的SSIM損失和L1之合。其中，超參數

在開始機器學習之前便已預先決定，較佳而言，

之值可為0.85。由於本發明之總損失包含重建損失

，透過總損失之最小化，便可使重建之影像與實際影像之差異最小化。

應注意，等式(4)僅為本發明之中，重建損失

之一例式性計算方法，在其它實施例中，重建損失

可依其他任意方式直接或間接地根據立體匹配及光流估計之輸入資料及重建資料計算。

參閱圖2、圖4A及圖4B，在一些實施例中，因為左鏡頭311及右鏡頭312之姿態(例如，其在場景理解系統300上之位置及朝向)係保持恆定，且左鏡頭311與右鏡頭312一直保持同時拍攝。所以，如圖4A及圖4B所示，可將不同時間或左右不同鏡頭所拍攝之影像分別透過一次轉換及二次轉換重建為同一鏡頭在同一時間所拍攝之影像。理想上，透過一次及二次轉換所重建之同一鏡頭在同一時間所拍攝之影像應互相一致，因此，本發明透過最小化經一次及二次重建之影像之間的差異，可使神經網路模型執行立體匹配及光流估計之輸出更為理想。

例如，參閱圖4A之虛線部分，可以當前左影像資料

(圖4A未繪示)及下一張左影像資料

作為第一組當前及下一張輸入資料執行光流估計任務220以獲得重建的當前左影像資料

及重建的當前右影像資料

(圖4A未示)，接著，再以重建的當前左影像資料

作為左右輸入資料之部分執行立體匹配任務210，以獲得經二次轉換之當前右影像資料

。參閱圖4A之實線部分，可以當前右影像資料

(圖4A未繪示)及下一張右影像資料

作為第二組當前及下一張輸入資料執行光流估計任務220以獲得重建的當前右影像資料

。重建的當前右影像資料

及經二次轉換之當前右影像資料

皆係呈現右鏡頭於「當前」所拍攝之影像，兩者不同之處在於分別經過一次及二次重建。

如圖4A所示，在本實施例中，可根據重建的當前右影像資料

及經二次轉換之當前右影像資料

計算二次轉換的一致性損失

。

圖4B展示另一種計算二次轉換的一致性損失的方式，參閱圖4B之虛線部分，可以下一張左影像資料

及下一張右影像資料

(圖4B未繪示)作為第一組左右輸入資料執行立體匹配任務210以獲得重建的下一張左影像資料

(圖4B未繪示)及重建的下一張右影像資料

，接著，再以重建的下一張右影像資料

作為當前及下一張輸入資料之部分執行光流估計任務220，以獲得經二次轉換之當前右影像資料

。參閱圖4B之實線部分，可以當前左影像資料

及當前右影像資料

(圖4A未繪示)作為第二組左右輸入資料執行立體匹配任務210以獲得重建的當前右影像資料

。然後，可根據重建的當前右影像資料

及經二次轉換之當前右影像資料

計算二次轉換的一致性損失

。

在一些實施例中，圖4A所示之二次轉換的一致性損失

可例如透過等式(5)計算。

(5)

其中，經二次轉換之當前右影像資料

可例如由等式(6)計算；由當張右影像至下一張左影像之遮擋對應資料

可例如由等式(7)計算。

(6)

(7)

上述僅為例示，並非意在限制本發明之二次轉換的一致性損失

之計算方式。在其它實施例中，二次轉換的一致性損失

可依其他任意方式直接或間接地根據經一次重建之影像及經二次重建之影像計算。

雖然本發明已透過實施例揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100:場景理解方法 S101-S104:步驟 200:機器學習框架 210:立體匹配任務 220:光流估計任務 300:場景理解系統

:當前左影像資料

:當前右影像資料

:神經網路

:平滑損失

:由右到左的深度估資料

:由左到右的深度估計資料

:左右對應的一致性損失

:轉換函示

:重建的當前右影像資料

:重建的當前左影像資料

:重建損失

:當前影像資料

:下一張影像資料

:由當張至下一張影像的光流估計資料

:由下一張至當張影像的光流估計資料

:由當張至下一張的遮擋對應資料

:由下一張至當張的遮擋對應資料

:重建的下一張影像資料

:重建的當張影像資料

:下一張左影像資料

:下一張右影像資料

:經二次轉換之當前右影像資料

:由當張右影像至下一張左影像之遮擋對應資料

、

:超參數

:二次轉換的一致性損失

圖1繪示本發明之一實施例之場景理解方法之流程圖；圖2繪示本發明之一實施例之場景理解任務之機器學習框架；圖3繪示本發明之一實施例之場景理解系統之方塊圖；圖4A繪示本發明之一實施例之二次轉換流程圖；以及圖4B繪示本發明之另一實施例之二次轉換流程圖。

100:場景學習方法

S101-S104:步驟

Claims

一種場景理解方法，包含：執行一立體匹配任務，該立體匹配任務包含：根據一組左右輸入資料，透過一神經網路產生一組深度估計資料；執行一光流估計任務，該光流估計任務包含：根據一組當前及下一張輸入資料，透過該神經網路產生一組光流估計資料；根據該組左右輸入資料、該組當前及下一張輸入資料、該組深度估計資料及至少部分之該組光流估計資料，透過一總損失函式計算一總損失值；以及透過優化該總損失值訓練該神經網路。
如請求項1所述之場景理解方法，其中，該總損失函式包含一平滑損失項，該場景理解方法更包含：根據至少部分之該組深度估計資料及至少部分之該組左右輸入資料計算該平滑損失項之值。
如請求項1所述之場景理解方法，其中，該總損失函式包含一平滑損失項，該場景理解方法更包含：根據至少部分之該組光流估計資料及至少部分之該組當前及下一張輸入資料計算該平滑損失項之值。
如請求項1所述之場景理解方法，其中，該總損失函式包含一左右對應的一致性損失項，該場景理解方法更包含：根據該組深度估計資料計算該左右對應的一致性損失項之值。
如請求項1所述之場景理解方法，其中：該立體匹配任務更包含：根據至少部分之該組左右輸入資料及至少部分之該組深度估計資料產生一左/右重建資料，以及該光流估計任務更包含：根據至少部分之該組當前及下一張輸入資料及至少部分之該組光流估計資料產生一當前/下一張重建資料。
如請求項5所述之場景理解方法，其中，該總損失函式包含一重建損失項，該場景理解方法更包含：根據該左/右重建資料及至少部分之該組左右輸入資料計算該重建損失項之值。
如請求項5所述之場景理解方法，其中，該總損失函式包含一重建損失項，該場景理解方法更包含：根據至少部分之該組當前及下一張輸入資料及該當前/下一張重建資料計算該重建損失項之值。
如請求項5所述之場景理解方法，其中，該總損失函式包含一二次轉換的一致性損失項，該二次轉換的一致性損失項之值係透過下列步驟計算而得：以一第一組左右輸入資料執行該立體匹配任務以獲得一第一左/右重建資料；執行該光流估計任務，其中，該組當前及下一張輸入資料包含該第一左/右重建資料，以獲得一經二次轉換之當前/下一張重建資料；以一第二組左右輸入資料執行該立體匹配任務以獲得一第二左/右重建資料；以及根據該經二次轉換之當前/下一張重建資料及該第二左/右重建資料計算該二次轉換的一致性損失項之值。
如請求項5所述之場景理解方法，其中，該總損失函式包含一二次轉換的一致性損失項，該二次轉換的一致性損失項之值係透過下列步驟計算而得：以一第一組當前及下一張輸入資料執行該光流估計任務以獲得一第一當前/下一張重建資料；執行該立體匹配計任務，其中，該組左右輸入資料包含該第一當前/下一張重建資料，以獲得一經二次轉換之左/右重建資料；以一第二組當前及下一張輸入資料執行該立體匹配任務以獲得一第二當前/下一張重建資料；以及根據該經二次轉換之左/右重建資料及該第二當前/下一張重建資料計算該二次轉換的一致性損失項之值。
一種場景理解系統，包含：一相機模組，包含一左鏡頭及一右鏡頭；一記憶體，用以儲存至少一指令；以及一運算單元，用以執行儲存於該記憶體之該至少一指令，其中，該至少一指令包含：執行一立體匹配任務，該立體匹配任務包含：根據一組左右輸入資料，透過一神經網路產生一組深度估計資料，其中，該組左右輸入資料係該相機模組所拍攝之圖像之資料；執行一光流估計任務，該光流估計任務包含：根據一組當前及下一張輸入資料，透過該神經網路產生一組光流估計資料，其中，該組當前及下一張輸入資料係該相機模組所拍攝之圖像資料；根據該組左右輸入資料、該組當前及下一張輸入資料、該組深度估計資料及至少部分之該組光流估計資料，透過一總損失函式計算一總損失值；以及透過優化該總損失值訓練該神經網路。
如請求項10所述之場景理解系統，其中，該至少一指令更包含：將經訓練之該神經網路儲存於該記憶體中。
如請求項10所述之場景理解系統，其中，該總損失函式包含一平滑損失項，該至少一指令更包含：根據至少部分之該組深度估計資料及至少部分之該組左右輸入資料計算該平滑損失項之值。
如請求項10所述之場景理解系統，其中，該總損失函式包含一平滑損失項，該至少一指令更包含：根據至少部分之該組光流估計資料及至少部分之該組當前及下一張輸入資料計算該平滑損失項之值。
如請求項10所述之場景理解系統，其中，該總損失函式包含一左右對應的一致性損失項，該至少一指令更包含：根據該組深度估計資料計算該左右對應的一致性損失項之值。
如請求項10所述之場景理解系統，其中：該立體匹配任務更包含：根據至少部分之該組左右輸入資料及至少部分之該組深度估計資料產生一左/右重建資料，以及該光流估計任務更包含：根據至少部分之該組當前及下一張輸入資料及至少部分之該組光流估計資料產生一當前/下一張重建資料。
如請求項15所述之場景理解系統，其中，該總損失函式包含一重建損失項，該至少一指令更包含：根據該左/右重建資料及至少部分之該組左右輸入資料計算該重建損失項之值。
如請求項15所述之場景理解系統，其中，該總損失函式包含一重建損失項，該至少一指令更包含：根據至少部分之該組當前及下一張輸入資料及該當前/下一張重建資料計算該重建損失項之值。
如請求項15所述之場景理解系統，其中，該總損失函式包含一二次轉換的一致性損失項，該二次轉換的一致性損失項之值係透過下列步驟計算而得：以一第一組左右輸入資料執行該立體匹配任務以獲得一第一左/右重建資料；執行該光流估計任務，其中，該組當前及下一張輸入資料包含該第一左/右重建資料，以獲得一經二次轉換之當前/下一張重建資料；以一第二組左右輸入資料執行該立體匹配任務以獲得一第二左/右重建資料；以及根據該經二次轉換之當前/下一張重建資料及該第二左/右重建資料計算該二次轉換的一致性損失項之值。
如請求項15所述之場景理解系統，其中，該總損失函式包含一二次轉換的一致性損失項，該二次轉換的一致性損失項之值係透過下列步驟計算而得：以一第一組當前及下一張輸入資料執行該光流估計任務以獲得一第一當前/下一張重建資料；執行該立體匹配計任務，其中，該組左右輸入資料包含該第一當前/下一張重建資料，以獲得一經二次轉換之左/右重建資料；以一第二組當前及下一張輸入資料執行該立體匹配任務以獲得一第二當前/下一張重建資料；以及根據該經二次轉換之左/右重建資料及該第二當前/下一張重建資料計算該二次轉換的一致性損失項之值。