TW202333108A

TW202333108A - 用於執行語義影像分割的系統和方法

Info

Publication number: TW202333108A
Application number: TW111145641A
Authority: TW
Inventors: 張帥; 應曉文; 呂建成; 英永戚
Original assignee: 美商高通公司
Priority date: 2022-02-10
Filing date: 2022-11-29
Publication date: 2023-08-16
Also published as: WO2023154137A1; US20230306600A1

Abstract

提供了用於使用機器學習系統（例如，包括一或多個交叉注意力變換器層）執行語義影像分割的系統和技術。例如，過程可以包括產生影像資料訊框的一或多個輸入影像特徵以及產生深度資料訊框的一或多個輸入深度特徵。可以至少部分地藉由使用第一交叉注意力變換器網路融合一或多個輸入深度特徵與一或多個輸入影像特徵來決定一或多個融合影像特徵。可以基於一或多個融合影像特徵為影像資料訊框產生一或多個分割遮罩。

Description

用於執行語義影像分割的系統和方法

本案大體而言係關於影像處理。例如，本案的態樣係關於用於使用機器學習系統（例如，包括一或多個交叉注意力變換器層）執行語義影像分割的系統和技術。

許多設備和系統允許藉由產生場景的影像（或訊框）及/或視訊資料（包括多個訊框）來擷取場景。例如，相機或包括相機的設備可擷取場景的訊框序列（例如，場景的視訊）。在一些情況下，訊框序列可以被處理以用於執行一或多個功能，可以被輸出以用於顯示，可以被輸出以用於由其他設備處理及/或消耗，以及其他用途。

對訊框序列執行的常見類型的處理是影像分割，其涉及將影像和視訊訊框分割成多個部分。例如，影像和視訊訊框可以被分割成前景和背景部分。在一些實例中，語義分割可以基於物件分類將影像和視訊訊框分割成一或多個分割遮罩。例如，可以將影像及/或視訊訊框的一或多個圖元分割成諸如人、頭髮、皮膚、衣服、房屋、自行車、鳥、背景等的分類。隨後，分割的影像和視訊訊框可以用於各種應用。使用影像分割的應用很多，包括例如電腦視覺系統、影像增強及/或提升、影像背景替換、擴展實境（XR）系統、強化實境系統、影像分割、自主車輛操作以及其他應用。

在一些實例中，描述用於使用基於變換器的神經網路架構執行一或多個影像訊框及/或視訊訊框的語義分割的系統和技術。根據至少一個說明性實例，提供了一種用於處理影像資料的方法，該方法包括：產生影像資料訊框的一或多個輸入影像特徵；產生深度資料訊框的一或多個輸入深度特徵；至少部分地藉由使用第一交叉注意力變換器網路融合該一或多個輸入深度特徵與該一或多個輸入影像特徵來決定一或多個融合影像特徵；及基於該一或多個融合影像特徵產生用於該影像資料訊框的一或多個分割遮罩。

在另一實例中，提供一種用於處理影像資料的裝置，其包括記憶體（例如，經配置以儲存資料，例如虛擬內容資料、一或多個影像等）及耦合到記憶體的一或多個處理器（例如，在電路中實施）。一或多個處理器被配置為並且可以：產生影像資料訊框的一或多個輸入影像特徵；產生深度資料訊框的一或多個輸入深度特徵；至少部分地藉由使用第一交叉注意力變換器網路融合該一或多個輸入深度特徵與該一或多個輸入影像特徵來決定一或多個融合影像特徵；及基於該一或多個融合影像特徵產生用於該影像資料訊框的一或多個分割遮罩。

在另一實例中，提供一種其上儲存有指令的非暫態電腦可讀取媒體，該等指令在由一或多個處理器執行時致使該一或多個處理器：產生影像資料訊框的一或多個輸入影像特徵；產生深度資料訊框的一或多個輸入深度特徵；至少部分地藉由使用第一交叉注意力變換器網路融合該一或多個輸入深度特徵與該一或多個輸入影像特徵來決定一或多個融合影像特徵；及基於該一或多個融合影像特徵產生用於該影像資料訊框的一或多個分割遮罩。

在另一實例中，提供了一種用於處理影像資料的裝置。該裝置包括：用於產生影像資料訊框的一或多個輸入影像特徵的構件；用於產生深度資料訊框的一或多個輸入深度特徵的構件；用於至少部分地藉由使用第一交叉注意力變換器網路融合該一或多個輸入深度特徵與該一或多個輸入影像特徵來決定一或多個融合影像特徵的構件；及用於基於該一或多個融合影像特徵產生用於該影像資料訊框的一或多個分割遮罩的構件。

在一些態樣中，上文所描述的裝置中的一或多個是相機、行動設備（例如，行動電話或所謂的「智慧型電話」或其他行動設備）、可穿戴設備、擴展實境設備（例如，虛擬實境（VR）設備、增強實境（AR）設備或混合實境（MR）設備）、個人電腦、膝上型電腦、伺服器電腦或其他設備或其部分。在一些態樣中，一種裝置包括用於擷取一或多個影像的相機或多個相機。在一些態樣中，該裝置進一步包括用於顯示一或多個影像、通知及/或其他可顯示資料的顯示器。在一些態樣中，該裝置可以包括一或多個感測器，其可以用於決定裝置的位置及/或姿勢、裝置的狀態及/或用於其他目的。

本發明內容不意欲識別所主張的標的的關鍵或必要特徵，亦不意欲單獨用於決定所主張的標的的範圍。應當經由參考本專利的整個說明書的適當部分、任何或所有附圖以及每個請求項來理解標的。

在參考以下說明書、請求項和附圖之後，前述內容以及其他特徵和實施例將變得更加明顯。

下文提供本案的某些態樣和實施例。該等態樣和實施例中的一些可以獨立地應用，並且其中的一些可以組合應用，這對於本領域技藝人士來說將是顯而易見的。在以下描述中，出於解釋的目的，闡述了具體細節以便提供對本案的實施例的透徹理解。然而，顯而易見的是，可以在沒有該等具體細節的情況下實踐各種實施例。附圖和描述不意欲是限制性的。

隨後的描述僅提供示例性實施例，並且不意欲限制本案的範圍、適用性或配置。相反，隨後的示例性實施例的描述將為本領域技藝人士提供用於實現示例性實施例的使能描述。應當理解，在不脫離所附請求項中闡述的本案的精神和範圍的情況下，可以對元件的功能和佈置進行各種改變。

影像語義分割是產生影像資料訊框（諸如靜止影像或照片）的分割結果的任務。視訊語義分割是一種類型的影像分割，其包括產生視訊的一或多個訊框的分割結果的任務（例如，可為視訊的影像訊框的全部或一部分產生分割結果）。影像語義分割和視訊語義分割可以統稱為「影像分割」或「影像語義分割」。分割結果可以包括一或多個分割遮罩，該一或多個分割遮罩被產生以指示屬於給定語義分割（例如，特定物件、物件類等）的影像資料訊框內的一或多個位置、區域及/或圖元。例如，如下文進一步解釋的，分割遮罩的每個圖元可以包括指示每個圖元所屬的特定語義分割（例如，特定物件、物件類等）的值。

在一些實例中，可以從影像訊框中提取特徵，並將其用於基於所提取的特徵為影像訊框產生一或多個分割遮罩。在一些情況下，機器學習可以用於基於提取的特徵產生分割遮罩。例如，可以藉由向迴旋神經網路（CNN）中輸入許多訓練影像並為每個訓練影像提供已知輸出（或標籤）來訓練CNN以執行語義影像分割。每個訓練影像的已知輸出可以包括對應於給定訓練影像的基本事實分割遮罩。

在一些情況下，可以執行影像分割以基於物件分類方案將影像訊框分割成分割遮罩（例如，給定語義分割的圖元皆屬於相同的分類或類別）。例如，影像訊框的一或多個圖元可以被分割成諸如人、頭髮、皮膚、衣服、房屋、自行車、鳥、背景等的分類。在一些實例中，分割遮罩可以包括屬於第一分類的圖元的第一值、屬於第二分類的圖元的第二值等。分割遮罩亦可以包括給定圖元的一或多個分類。例如，「人類」分類可以具有諸如「頭髮」、「面部」或「皮膚」的子分類，使得一組圖元可以包括在具有「面部」分類的第一語義分割中，並且亦可以包括在具有「人類」分類的第二語義分割中。

分割遮罩可以用於將一或多個處理操作應用於影像資料的訊框。例如，系統可以基於針對影像資料訊框產生的語義分割遮罩來針對影像資料訊框執行影像增強及/或影像提升。在一個實例中，系統可以以特定效應處理訊框的某些部分，但是可以不將該效應應用於與由訊框的分割遮罩指示的特定類別相對應的訊框的部分。影像增強和提升過程可以包括但不限於個人美化，諸如皮膚平滑或瑕疵去除；背景替換或模糊；提供擴展實境（XR）或增強實境（AR）體驗等。語義分割遮罩亦可以用於操縱影像資料訊框中的某些物件或片段，例如藉由使用語義分割遮罩來識別影像訊框中與待操縱的物件或部分相關聯的圖元。在一個實例中，訊框中的背景物件可以被人工模糊，以在視覺上將其與由訊框的分割遮罩識別的感興趣的聚焦或前景對象（例如，人臉）分離（例如，可以基於分割遮罩產生和應用人工散景效應），其中感興趣的物件不被模糊。在一些情況下，可以使用分割資訊將視覺效應添加到影像資料訊框。

使用語義分割遮罩的後續影像處理操作的準確度和品質通常可以取決於語義分割遮罩的基礎準確度和品質。在一說明性實例中，影像增強過程可以使用語義分割遮罩來識別表示人臉的影像訊框的圖元，並且隨後可以將面部美化和皮膚平滑操作應用於所識別的圖元。然而，若語義分割遮罩未準確地識別表示人臉的圖元，則面部美化和皮膚平滑化操作可能產生低品質或視覺上不吸引人的結果（例如，若語義分割遮罩相對於表示影像訊框中的面部的實際或基本事實圖元是過度包含或欠包含的）。

需要用於更準確地產生語義影像分割遮罩的系統和技術。儘管一些基於機器學習（ML）和神經網路的方法已經研究了基於從影像資料提取的特徵和從深度資料提取的特徵來產生分割遮罩，但是該等方法通常受到其使用迴旋神經網路（CNN）編碼器來產生影像和深度特徵的限制。該等方法中使用的CNN編碼器僅從固定的局部訊窗提取特徵，該局部訊窗小於整個影像/深度訊框的全域訊窗，並且所提取的特徵可能未反映底層影像和深度資料中的全域關係。另一種技術包括使用逐通道注意力來將特徵資訊從迴旋深度編碼器傳遞到迴旋影像編碼器。然而，根據此種技術，資訊傳送是單向的，僅將深度特徵傳遞到迴旋影像編碼器。

本文中描述用於執行影像資料及/或視訊資料的一或多個訊框的語義分割的系統、裝置、過程（亦被稱作方法）和電腦可讀取媒體（統稱為「系統和技術」）。如前述，語義分割可以包括為影像資料訊框產生一或多個分割遮罩。在一些實例中，本文描述的系統和技術可以使用雙編碼交叉注意力網路來執行語義影像分割。在一些態樣中，雙編碼交叉注意力網路可以是神經網路，其包括用於決定影像編碼器和深度編碼器之間的交叉注意力的一或多個移位訊窗變換器層（例如，交叉注意力變換器網路）。

變換器是一種深度學習模型，其利用注意力機制來對輸入資料的每個部分的重要性進行差分加權並對遠端依賴性進行建模。儘管變換器通常用於處置順序輸入資料，但是變換器不一定以最初接收或佈置資料的相同順序來處理資料。此外，因為變換器可以使用注意力來決定輸入資料的子部分之間的上下文關係，所以變換器可以並行地處理子部分中的一些或全部，諸如當計算注意力、自注意力及/或交叉注意力時。與例如遞迴神經網路（RNN）、CNN或被訓練為執行相同任務的其他神經網路相比，此種並行化可以提供更大的計算靈活性。

在一些態樣中，本文描述的基於變換器的語義影像分割可以包括第一編碼器和第二編碼器。例如，第一編碼器可以是影像變換器編碼器，並且第二解碼器可以是深度變換器編碼器。在一些實例中，影像變換器編碼器可以包括複數個順序佈置的影像變換器層，及/或深度變換器編碼器可以包括複數個順序佈置的深度變換器層。在一些實例中，影像變換器層及/或深度變換器層中的一或多個可以被提供為能夠全域地而不是在局部訊窗中計算注意力的移位訊窗變換器。在一些情況下，包括在影像變換器編碼器中的移位訊窗變換器區塊可以基於跨影像資料的整個輸入訊框全域地決定自注意力來產生影像特徵。在一些情況下，包括在深度變換器編碼器中的移位訊窗變換器區塊可以基於跨深度資料（例如，深度圖）的整個輸入訊框全域地決定自注意力來產生深度特徵。

在一些實例中，影像變換器編碼器與深度變換器編碼器是對稱的，其中單獨的訓練資料集用於訓練每個編碼器。例如，可以在包括影像資料訊框和用於影像資料訊框的對應的基本事實語義分割遮罩的訓練資料對上訓練給定的底層變換器編碼器架構，從而獲得經訓練的影像變換器編碼器。亦可以在包括深度資料訊框和該深度資料訊框的對應的基本事實深度圖的訓練資料對上訓練相同的給定底層變換器編碼器架構，從而獲得經訓練的深度變換器編碼器。

在一些態樣中，可以在影像編碼器的變換器層和深度編碼器的變換器層之間提供一或多個交叉注意力融合變換器區塊。在一些實例中，交叉注意力融合變換器區塊可以被提供為移位訊窗變換器。交叉注意力融合區塊的移位訊窗變換器可以與影像編碼器及/或深度編碼器的移位訊窗變換器相同或相似。在一說明性實例中，影像編碼器及/或深度編碼器的移位訊窗變換器可以基於計算自注意力來分別產生影像特徵和深度特徵。交叉注意力融合變換器區塊的移位訊窗變換器可以基於計算作為輸入提供給交叉注意力融合變換器區塊的影像特徵和深度特徵之間的交叉注意力特徵的一或多個集合，來產生融合的影像-深度特徵（例如，融合到影像特徵中的深度特徵）和融合的深度-影像特徵（例如，融合到深度特徵中的影像特徵）。

在一些實例中，一或多個雙向交叉注意力融合變換器區塊可以順序地佈置，其中單向交叉注意力融合變換器區塊設置在序列的終端處。雙向交叉注意力融合變換器區塊可以用於產生融合的影像-深度特徵和融合的深度-影像特徵兩者。例如，影像融合分支可以使用在雙向交叉注意力融合變換器區塊處接收的輸入影像特徵和輸入深度特徵來產生融合的影像-深度特徵；深度融合分支可以使用相同的輸入影像特徵和相同的輸入深度特徵來產生融合的深度-影像特徵。單向交叉注意力融合變換器區塊可以使用輸入影像特徵和輸入深度特徵來產生融合的影像-深度特徵的最終輸出，隨後將其作為輸入提供給經訓練的分割編碼器。經訓練的分割編碼器可以使用融合的影像-深度特徵的最終輸出來產生用於輸入的影像資料訊框的一或多個分割遮罩，與不利用基於變換器的編碼器及/或影像模態和深度模態之間的資訊的雙向融合和交換的現有語義影像分割技術相比，具有更高的準確度和更高的效率。

將關於附圖描述本案的各個態樣。圖1圖示片上系統（SOC）100的示例性實現方式，片上系統100可以包括被配置為執行本文描述的一或多個功能的中央處理單元（CPU）102或多核心CPU。參數或變數（例如，神經信號和突觸權重）、與計算設備相關聯的系統參數（例如，具有權重的神經網路）、延遲、頻率倉資訊、任務資訊以及其他資訊可被儲存在與神經處理單元（NPU）108相關聯的記憶體區塊中、與CPU 102相關聯的記憶體區塊中、與圖形處理單元（GPU）104相關聯的記憶體區塊中、與數位訊號處理器（DSP）106相關聯的記憶體區塊中、記憶體區塊118中，及/或可跨多個區塊分佈。在CPU 102處執行的指令可以從與CPU 102相關聯的程式記憶體載入，或者可以從記憶體區塊118載入。

SOC 100亦可以包括針對特定功能定製的附加處理區塊，諸如GPU 104、DSP 106、以及可以例如偵測和辨識手勢的多媒體處理器112，連接區塊110可以包括第五代（5G）連接、第四代長期進化（4G LTE）連接、Wi-Fi連接、USB連接、藍牙連接等。在一個實現方式中，NPU在CPU 102、DSP 106及/或GPU 104中實現。SOC 100亦可以包括感測器處理器114、影像信號處理器（IPSs）116及/或導航模組120，其可以包括全球定位系統。

SOC 100可以基於ARM指令集。在本案的一個態樣中，載入到CPU 102中的指令可以包括用於在查找表（LUT）中搜尋與輸入值和濾波器權重的乘積相對應的儲存的乘法結果的代碼。載入到CPU 102中的指令亦可以包括當偵測到乘法乘積的查找表命中時在乘法乘積的乘法運算期間去能乘法器的代碼。另外，載入到CPU 102中的指令可以包括用於在偵測到乘法乘積的查找表未命中時儲存輸入值和濾波器權重的計算出的乘法乘積的代碼。

SOC 100及/或其元件可被配置成使用根據本文所論述的本案的各態樣的機器學習技術來執行影像處理。例如，SOC 100及/或其元件可以被配置成根據本案的各態樣執行語義影像分割。在一些情況下，藉由在決定一或多個分割遮罩時使用諸如變換器及/或移位訊窗變換器的神經網路架構，本案的各態樣可以增加語義影像分割的準確性和效率。

通常，ML可以被認為是人工智慧（AI）的子集。ML系統可以包括電腦系統可以用於藉由依賴於模式和推斷而不使用顯式指令來執行各種任務的演算法和統計模型。ML系統的一實例是神經網路（亦稱為人工神經網路），其可以包括互連的人工神經元群組（例如，神經元模型）。神經網路可以用於各種應用及/或設備，諸如影像及/或視訊編解碼、影像分析及/或電腦視覺應用、網際網路協定（IP）相機、物聯網路（IoT）設備、自主車輛、服務機器人等。

神經網路中的各個節點可以藉由獲取輸入資料並對資料執行簡單的操作來模擬生物神經元。對輸入資料執行的簡單操作的結果被選擇性地傳遞到其他神經元。權重值與網路之每一者向量和節點相關聯，並且該等值約束輸入資料與輸出資料如何相關。例如，每個節點的輸入資料可以乘以對應的權重值，並且可以對乘積求和。乘積之和可以經由可選偏置來調整，並且啟動函數可以應用於結果，從而產生節點的輸出信號或「輸出啟動」（有時稱為特徵圖或啟動圖）。權重值最初可以由經由網路的訓練資料的反覆運算流來決定（例如，在其中網路學習如何經由特定類別的典型輸入資料特性來識別特定類別的訓練階段期間建立權重值）。

存在不同類型的神經網路，諸如迴旋神經網路（CNNs）、遞迴神經網路（RNNs）、產生對抗網路（GANs）、多層感知器（MLP）神經網路、變換器神經網路等。例如，迴旋神經網路（CNNs）是一種前饋人工神經網路。迴旋神經網路可以包括人工神經元的聚集，每個人工神經元具有感受野（例如，輸入空間的空間局部區域）並且共同平鋪輸入空間。RNN的工作原理是保存層的輸出並將該輸出回饋到輸入以幫助預測層的結果。GAN是產生神經網路的一種形式，其可以學習輸入資料中的模式，使得神經網路模型可以產生可以合理地來自初始資料集的新的合成輸出。GAN可以包括一起操作的兩個神經網路，包括產生合成輸出的產生神經網路和評估輸出的真實性的判別神經網路。在MLP神經網路中，資料可以被饋送到輸入層中，並且一或多個隱藏層為資料提供抽象級別。隨後可以基於抽象資料在輸出層上進行預測。

深度學習（DL）是機器學習技術的一個實例，並且可以被認為是ML的子集。許多DL方法基於神經網路，諸如RNN或CNN，並且利用多個層。在深度神經網路中使用多個層可以允許從原始資料的給定輸入中逐漸提取更高級別的特徵。例如，第一人工神經元層的輸出變成第二人工神經元層的輸入，第二人工神經元層的輸出變成第三人工神經元層的輸入，以此類推。位於整體深度神經網路的輸入和輸出之間的層通常被稱為隱藏層。隱藏層學習（例如，被訓練）以將來自前一層的中間輸入變換為可以提供給後續層的稍微更抽象和複合的表示，直到獲得最終或期望的表示作為深度神經網路的最終輸出。

如前述，神經網路是機器學習系統的實例，並且可以包括輸入層、一或多個隱藏層和輸出層。從輸入層的輸入節點提供資料，由一或多個隱藏層的隱藏節點執行處理，並且經由輸出層的輸出節點產生輸出。深度學習網路通常包括多個隱藏層。神經網路的每個層可以包括特徵圖或啟動圖，其可以包括人工神經元（或節點）。特徵圖可以包括濾波器、核心等。節點可以包括用於指示一或多個層的節點的重要性的一或多個權重。在一些情況下，深度學習網路可以具有一系列許多隱藏層，其中早期層用於決定輸入的簡單和低級特性，並且後期層構建更複雜和抽象特性的層級。

深度學習架構可以學習特徵的層級。例如，若呈現有視覺資料，則第一層可以學習辨識輸入串流中的相對簡單的特徵，諸如邊緣。在另一實例中，若呈現有聽覺資料，則第一層可以學習辨識特定頻率中的頻譜功率。將第一層的輸出作為輸入的第二層可以學習辨識特徵的組合，諸如視覺資料的簡單形狀或聽覺資料的聲音的組合。例如，較高層可以學習在視覺資料中表示複雜形狀或在聽覺資料中表示單詞。更高層可以學習辨識常見的視覺物件或口語短語。

當應用於具有自然層級結構的問題時，深度學習架構可以特別好地執行。例如，機動車輛的分類可以受益於首先學習辨識車輪、擋風玻璃和其他特徵。該等特徵可以以不同的方式在較高層處組合以辨識汽車、卡車和飛機。

神經網路可以設計成具有各種連接模式。在前饋網路中，資訊從較低層傳遞到較高層，其中給定層之每一者神經元與較高層中的神經元通訊。如前述，可以在前饋網路的連續層中建立層級表示。神經網路亦可以具有遞迴或回饋（亦稱為自上而下）連接。在遞迴連接中，來自給定層中的神經元的輸出可被傳達給同一層中的另一神經元。遞迴架構可以有助於辨識跨越在序列中遞送到神經網路的輸入資料區塊中的多於一個輸入資料區塊的模式。從給定層中的神經元到較低層中的神經元的連接被稱為回饋（或自上而下）連接。當辨識高級概念可以幫助區分輸入的特定低級特徵時，具有許多回饋連接的網路可能是有幫助的。

神經網路的層之間的連接可以是全連接的或局部連接的。圖2A圖示全連接神經網路202的實例。在全連接神經網路202中，第一層中的神經元可將其輸出傳達給第二層之每一者神經元，以使得第二層之每一者神經元將從第一層之每一者神經元接收輸入。圖2B圖示局部連接神經網路204的實例。在局部連接神經網路204中，第一層中的神經元可被連接到第二層中的有限數目的神經元。更通常，局部連接神經網路204的局部連接層可被配置為使得層之每一者神經元將具有相同或相似的連線性模式，但具有可以具有不同值（例如，210、212、214和216）的連接強度。局部連接的連接模式可以在較高層中產生空間上不同的感受野，因為給定區域中的較高層神經元可以接收經由訓練調諧到網路的總輸入的受限部分的屬性的輸入。

圖3圖示了第一移位訊窗變換器區塊301和第二移位訊窗變換器區塊303（統稱為變換器區塊對）的示例性架構300。如圖所示，第一移位訊窗變換器區塊301包括層範數310a；自注意力元件322（亦被稱為「自注意力層」或「第一自注意力層」）；層範數312a；及前饋神經網路元件330a，其被圖示為多層感知器（MLP）。第二移位訊窗變換器區塊303包括層範數310b；自注意力元件324（亦稱為「自注意力層」或「第二自注意力層」）；層範數312b；及前饋神經網路元件330b，再次被圖示為MLP。

在一些實例中，第一移位訊窗變換器區塊301可以與第二移位訊窗變換器區塊303相同，除了其各自的自注意力層322和324之外，其應用不同的訊窗分區配置。在一些情況下，第一自注意力層322可以包括訊窗式多頭自注意力（W-MSA），並且第二自注意力層324可以包括移位訊窗多頭自注意力（SW-MSA）。

在一些實例中，第一移位訊窗變換器區塊301的第一自注意力層322可以使用移位大小=0（對應於沒有移位）的移位訊窗。例如，當訊窗大小是8時，第一注意力層（例如，第一自注意力層322）可以使用移位大小=0，第二注意力層（在第一注意力層之後，諸如第二自注意力層324）可以使用移位大小=4，第三注意力層（在第二注意力層之後）可以再次使用移位大小=0，第四注意力層（在第三注意力層之後）可以使用移位大小=4，對於給定變換器區塊集合中的多個移位訊窗變換器區塊依此類推。交替移位大小值（例如，交替移位=0和移位=4）導致跨訊窗傳播信號的效應。在一些情況下，在移位=0之後不必具有移位=4，因為移位大小可以是可變的。

在一些實例中，第一自注意力層322可以應用非重疊訊窗分區配置（諸如圖4B的配置420）以將分塊（patch）集合劃分成各自包含多個分塊的非重疊訊窗。隨後，第一自注意力層322可以在每個訊窗內局部地計算自注意力。第一自注意力層322可以向層範數312a層（例如，Softmax層）提供自注意力資訊。例如，第一自注意力層322可以藉由將輸出矩陣計算為下式來計算自注意力值：其中矩陣、矩陣並且矩陣V = ，並且其中 Q, K, V的輸入是相同的 X（並且因此是「自」注意力的計算）。 , 和項是線性層，其將輸入向量 X投影或映射到查詢矩陣( Q)、密鑰( K)矩陣和值( V)矩陣。術語是指密鑰 k的維度，其中其充當縮放因數。Softmax是指用於獲得關於自注意力值的權重的softmax函數。層範數312a可以將權重輸出到前饋神經網路元件330a（例如，多層感知器（MLP）層）。隨後可以將第一移位訊窗變換器區塊301的輸出作為輸入提供給第二移位訊窗變換器區塊303。

在第二自注意力層324中，訊窗分區被移位，從而產生與第一自注意力層322的訊窗重疊的新訊窗。例如，移位訊窗分區配置（諸如圖4B的配置430）可以由第二自注意力層324應用。第二自注意力層324的移位訊窗中的自注意力計算跨越第一自注意力層322中的先前訊窗的邊界，導致可以提供給層範數312b的跨訊窗連接。層範數312b可以向前饋神經網路元件330b提供輸出。

圖4A是示出在更深的編碼器變換器層（例如，從下到上）中合併影像分塊的技術的實例的圖，如下文將更詳細地描述的。圖4B圖示兩種不同的訊窗分區配置的實例，包括訊窗分區配置420和訊窗分區配置430。訊窗分區配置420圖示了在分塊符記集合上應用的非重疊訊窗分區，並且在一些實例中，可以由圖3的第一自注意力層322使用。圖4B中圖示非重疊訊窗分區422的實例及其組成分塊符記的分塊符記411的實例。在一些實例中，圖3的第一移位訊窗變換器區塊301可以使用自注意力元件322來應用非重疊訊窗分區配置420。

訊窗分區配置430圖示了在分塊符記集合上應用的移位訊窗分區，並且在一些實例中，可以由圖3的第二自注意力層324利用。在一些情況下，兩個訊窗分區配置420和430可以應用於同一分塊符記集合。

在一些實例中，非重疊訊窗分區配置420將該輸入分塊符記集合劃分成相等大小的訊窗，這裡示出為包含16個分塊符記的4×4訊窗，但是亦可以使用其他訊窗幾何形狀及/或大小。例如，在一些實施例中，可以利用7×7的訊窗大小，如將在圖5至圖8中的一或多個的實例的上下文中論述的。

移位訊窗分區配置430可以利用相對於非重疊分區配置420的訊窗位移的訊窗。例如，移位訊窗432和434已經位移，使得其各自包含先前包含在分區配置420的非重疊訊窗中的多個不同訊窗中的符記集合。移位訊窗436已經位移，使得其跨越非重疊分區配置420右上的非重疊訊窗的邊界，並且僅包含來自相關聯的非重疊訊窗的一部分符記。因為單個移位訊窗包含來自先前自注意力層的多個非重疊訊窗的分塊符記，因此可以引入先前提到的跨訊窗連接。如圖所示，移位訊窗分區配置430可以使用與非重疊訊窗分區配置相同的4×4訊窗大小，其中對訊窗大小進行剪切或截斷，其中訊窗大小延伸超出分塊符記集合的邊界。然而，在一些實例中，移位訊窗分區配置430和非重疊訊窗分區配置420可以使用不同的訊窗大小（例如，包括7×7，如前述）。

在圖4A的實例中，影像分塊被圖示為在更深的編碼器變換器層（例如，從下到上）中合併。在第一層402處，影像資料被表示為已經被分區為16×16網格的分塊，其中每個分塊包含來自影像資料的原始訊框的多個離散圖元。如圖所示，影像分塊可以被分區為複數個非重疊的4×4訊窗，諸如包含總共16個分塊的第一訊窗412。分塊合併可以施加在第一層402和第二層404之間，以及第二層404和第三層406之間。

在第一層402和第二層404之間，可以藉由將來自第一層402的相鄰訊窗的2×2群組的特徵級聯到第二層404的單個合併訊窗414中來執行分塊合併（例如，訊窗412及其三個相鄰訊窗可以組合以形成合併訊窗414）。在一些實例中，分塊合併可以包括在合併訊窗414的級聯特徵上應用線性層。這樣，第二層404的單個合併訊窗414可以包括來自第一層402中的四個單獨訊窗（例如，諸如第一層402的訊窗412）的級聯特徵。另外，第二層404的單個合併訊窗414可以被分區成4×4網格的合併分塊，其中第二層404的每個合併分塊可以包含來自第一層402中的四個單獨分塊的級聯特徵。如圖4A所示，在第一層402和第二層404之間，分塊的總數已經減少了四倍，解析度已經下取樣了兩倍，並且分塊合併過程的空間維度已經從 C增加到2 C。

在第二層404和第三層406之間，可以應用等同的分塊合併過程以將來自包括合併訊窗414及其三個相鄰訊窗的2×2訊窗群組的特徵級聯到第三層406的單個合併訊窗416中。在一些實例中，第三層406的合併訊窗416可以包括來自第二層402的四個單獨訊窗（例如，來自合併訊窗414及其在第二層402中的三個相鄰訊窗）的級聯特徵。另外，第三層406的合併訊窗416可以被分區成4×4網格的合併分塊，其中第三層406的每個合併分塊可以包含來自第二層404的四個單獨分塊的級聯特徵（例如，其可以與包含來自第一層402的16個單獨分塊的級聯特徵相同）。與第一層402和第二層404之間的情況一樣，第二層404和第三層406之間的分塊合併過程可以將分塊的總數減少四倍並且將解析度下取樣兩倍。第二層404和第三層406之間的分塊合併過程的輸出或空間維度可以增加到4C。

圖5是示出根據本案的一些實例的用於多類影像分割的雙編碼交叉注意力網路500的實例的圖。作為雙編碼網路，網路500包括第一編碼器（這裡示出為影像變換器編碼器510）和第二編碼器（這裡示出為深度變換器編碼器530）。在一說明性實例中，雙編碼交叉注意力網路500可以是交叉注意力變換器網路。作為交叉注意力網路，網路500包括一或多個交叉注意力融合區塊522、524、526和528，用於決定影像編碼器510和深度編碼器530之間的交叉注意力。

在一些實例中，影像編碼器510和深度編碼器530可以具有相同或相似的架構，但是在不同的訓練資料集上訓練（例如，可以在影像資料上訓練給定的變換器編碼器架構以獲得影像編碼器510，並且可以在深度資料上訓練相同的給定變換器編碼器架構以獲得深度編碼器530）。如將關於圖6更深入地解釋的，影像編碼器510可以包括用於基於接收到的影像輸入產生影像特徵的一或多個變換器層，並且深度編碼器530可以包括用於基於接收到的深度輸入產生深度特徵的一或多個變換器層。例如，影像編碼器510的第一變換器層可以接收彩色（例如，RGB）影像輸入502，並且基於RGB影像輸入502產生一或多個影像特徵及/或影像特徵圖。類似地，深度編碼器530的第一變換器層可以接收深度輸入504，並且基於深度輸入504產生一或多個深度特徵及/或深度特徵圖。在一說明性實例中，影像編碼器510及/或深度編碼器530可以包括一或多個移位訊窗變換器（例如，基於上文先前關於圖3至圖4B的移位訊窗變換器架構）。

影像輸入502可以是包括複數個圖元的影像資料訊框，每個圖元具有RGB（紅綠藍）顏色值，但是應注意，在不脫離本案的範圍的情況下，可以利用各種其他色彩模型。例如，影像輸入502可以是包括諸如RGB影像資料的彩色影像資料的影像資料訊框。在一些實例中，影像輸入502可以是由包括智慧型電話相機的相機擷取的靜止影像。在一些情況下，影像輸入502可以是從視訊資料（例如，包括一系列順序佈置的影像訊框的視訊資料）獲得的影像訊框。

深度輸入504可為深度圖或對應於影像輸入502的一或多個圖元的複數個深度值的其他表示。深度輸入504和影像輸入502可以從相同的設備獲得及/或可以從不同的設備獲得。在一些實例中，可以在相同或相似的時間點獲得深度輸入504和影像輸入502，使得深度輸入504和影像輸入502表示場景或環境的相同（或相似）視圖。在一說明性實例中，深度輸入504可以由與用於擷取影像輸入502相同的相機或設備擷取。例如，影像輸入502可以是由智慧型電話或行動計算設備的相機感測器擷取的RGB影像資料，並且深度輸入504可以是由相同智慧型電話或行動計算設備的深度感測器擷取的深度圖。深度感測器可以包括但不限於飛行時間（ToF）感測器和光偵測和測距（LIDAR）感測器。在一些實例中，可以例如使用一或多個電腦視覺技術、立體深度相機等來計算地決定深度輸入504。

在一些情況下，深度輸入504和影像輸入502可以具有相同或相似的圖元維度及/或解析度。例如，深度輸入504和影像輸入502皆可以具有1,000px×1,000px的維度。在一些情況下，深度輸入504和影像輸入502中的一個（或兩個）可以被預處理，使得兩個輸入具有相同或相似的維度、解析度等。預處理可以包括一或多個操作，諸如裁剪、放大、縮小等。

如圖5所示，可以在影像編碼器510和深度編碼器530之間提供交叉注意力融合區塊522、524、526和528。交叉注意力融合區塊可以接收由影像編碼器510和深度編碼器530的變換器層中的一或多個輸出的所產生的特徵作為輸入。如下文將更深入地解釋的，交叉注意力融合區塊522、524、526和528可以基於在輸入影像特徵和輸入深度特徵之間決定的交叉注意力來產生融合影像特徵及/或融合深度特徵。注意，圖7和圖8圖示了可以由交叉注意力融合區塊522、524、526和528中的一些或全部使用的交叉注意力融合架構的實例，如下文將關於圖7和圖8更深入地解釋的。

在一說明性實例中，由交叉注意力融合區塊輸出的融合影像特徵可以作為輸入提供給影像編碼器510的一或多個變換器層，使得影像編碼器510的變換器層可以從第一交叉注意力融合區塊接收融合影像特徵，基於融合影像特徵產生影像特徵，並將產生的影像特徵輸出到第二交叉注意力融合區塊。類似地，深度編碼器530的變換器層可以從相同的第一交叉注意力融合區塊接收融合的深度特徵，基於融合的深度特徵產生深度特徵，並將產生的深度特徵輸出到相同的第二交叉注意力融合區塊。

如圖所示，三個交叉注意力融合區塊522、524和526可以被提供為雙向交叉注意力融合區塊，並且交叉注意力融合區塊528可以被提供為單向交叉注意力融合區塊。然而，應當注意，在不脫離本案的範圍的情況下，可以使用更多或更少數目的雙向交叉注意力融合區塊及/或更多或更少數量的單向交叉注意力融合區塊。在一些實例中，雙向交叉注意力融合區塊522、524、526和單向交叉注意力融合區塊528皆可以接收影像特徵的輸入（例如，來自影像編碼器510的變換器層）和深度特徵的輸入（例如，來自深度編碼器530的變換器層）。

雙向交叉注意力融合區塊522、524和526可以執行兩個交叉注意力融合操作。例如，第一交叉注意力融合操作可以藉由將輸入深度特徵融合到輸入影像特徵來產生融合影像特徵（例如，其中輸入影像特徵被設置為交叉注意力目標，並且輸入深度特徵被設置為交叉注意力源）。第二交叉注意力融合操作可以藉由將輸入影像特徵融合到輸入深度特徵來產生融合的深度特徵（例如，其中輸入深度特徵作為交叉注意力目標，並且輸入影像特徵被設置為交叉注意力源）。

在一些實例中，單向交叉注意力融合操作包括上述兩個交叉注意力融合操作之一。例如，如圖5所示，單向交叉注意力融合區塊528可以從影像編碼器510的最終變換器層接收影像特徵，並且從深度編碼器530的最終變換器層接收深度特徵。單向交叉注意力融合區塊528隨後可以藉由將深度特徵融合到影像特徵中來產生最終融合輸出（例如，其中接收到的影像特徵作為交叉注意力目標，並且接收到的深度特徵作為交叉注意力源）。由單向交叉注意力區塊528產生的最終融合輸出可以包括組合來自RGB影像資料輸入502和深度資料輸入504的資訊的融合的影像-深度特徵。如圖所示，來自單向交叉注意力區塊528的最終融合輸出可以作為輸入提供給分割解碼器550。隨後，分割解碼器550可以基於融合的影像-深度特徵的最終輸出為RGB影像輸入502產生一或多個分割遮罩552。

圖6是示出根據本案的一些實例的可以用於多類語義影像分割的雙編碼交叉注意力網路的示例性架構600的圖。如圖所示，示例性架構600可以對應於交叉注意力變換器網路，該交叉注意力變換器網路包括基於變換器的影像編碼器（例如，影像變換器編碼器610）和基於變換器的深度編碼器（例如，深度變換器編碼器630）。在一說明性實例中，圖6中圖示的示例性架構600可以用於實現圖5的雙編碼交叉注意力網路500。例如，影像變換器編碼器610可以與影像編碼器510相同；深度變換器編碼器630可以與深度編碼器530相同；訊窗交叉注意力融合變換器區塊622、624、626和628可以分別與交叉注意力融合區塊522、524、526和528相同；等等。

如圖6所示，影像變換器編碼器610至少包括第一變換器區塊612、第二變換器區塊614、第三變換器區塊616和第四變換器區塊618。深度變換器編碼器630至少包括第一變換器區塊632、第二變換器區塊634、第三變換器區塊636和第四變換器區塊638。注意，在不脫離本案的範圍的情況下，影像變換器編碼器610及/或深度變換器編碼器630可以包括更多或更少數目的變換器區塊。在一些實例中，編碼器變換器區塊612-618可以具有相同或相似的架構。類似地，在一些實例中，深度編碼器變換器區塊632-638可以具有相同或相似的架構。例如，影像編碼器變換器區塊和深度編碼器變換器區塊可以被提供為移位訊窗變換器區塊（例如，如先前關於圖3至圖4B所描述的）。

如上文關於圖5所述，一系列訊窗交叉注意力融合變換器區塊622、624、626和628可以分別連接在影像變換器編碼器610和深度變換器編碼器630的各個變換器區塊612-618和632-638之間。在一些實例中，訊窗交叉注意力融合變換器區塊622、624和626可以是雙向的（例如，其中雙向交叉注意力融合變換器區塊中的每一個產生融合的影像-深度特徵和融合的深度-影像特徵，如圖6所示）。訊窗交叉注意力融合變換器區塊628可以是單向的，產生由分割解碼器650作為輸入接收的輸出融合的影像-深度特徵。分割解碼器650可以為影像資料602的輸入訊框產生或以其他方式決定一或多個分割遮罩652，其中一或多個分割遮罩652基於由單向訊窗交叉注意力融合變換器區塊628產生的輸出融合的影像-深度特徵。

在一說明性實例中，訊窗交叉注意力融合變換器區塊622、624、626和628中的一或多個（或全部）可以被提供為移位訊窗變換器區塊，諸如先前關於圖3至圖4B描述的彼等。如本文所述，移位訊窗變換器區塊可以用於計算影像特徵和深度特徵之間的交叉注意力（例如，而不是如上文關於圖3至圖4B所述的計算自注意力）。在一些實例中，在來自單個源的單個特徵表示上計算自注意力（例如，因此名稱為「自」注意力）。然而，可以在來自兩個不同源的兩個不同特徵表示上計算交叉注意力（例如，因此名稱為「交叉」注意力）。例如，可以僅針對影像特徵或僅針對深度特徵計算自注意力；可以針對影像特徵和深度特徵的同時組合來計算交叉注意力。

以下論述描述了示例性處理流程，其中圖6的示例性雙編碼交叉注意力網路架構600可以用於對影像資料602的輸入訊框執行語義影像分割。亦參考圖7和圖8，其在一些實例中圖示用於提供圖6的訊窗交叉注意力融合變換器區塊622、624、626和628的架構及/或子網路的更詳細視圖。例如，圖7圖示可以由訊窗交叉注意力融合變換器區塊622、624、626和628中的一或多個使用的示例性架構；圖8圖示可以包括在圖7的交叉注意力融合架構中的訊窗交叉注意力變換器子網路的實例。

返回到圖6，如圖所示，影像資料602的訊框作為輸入被提供給影像變換器編碼器610的第一影像變換器區塊612。第一影像變換器區塊612可以使用該影像資料602的訊框來產生或提取影像特徵的初始集合。隨後可以將影像特徵的初始集合作為輸入提供給第一雙向交叉注意力融合變換器區塊622（例如，在圖6中被指示為「輸入影像特徵」）。

類似地，深度資料604的訊框作為輸入被提供給深度編碼器630的第一深度變換器區塊632。在一些實例中，該深度資料604的訊框包括對應於包括在影像資料602的訊框中的複數個圖元的複數個深度值。第一深度變換器區塊632可以使用深度資料604的訊框來產生或提取深度特徵的初始集合。隨後可以將深度特徵的初始集合作為附加輸入提供給第一雙向交叉注意力融合變換器區塊622（例如，除了由第一影像變換器區塊612產生的影像特徵的初始集合之外）。深度特徵的初始集合在圖6中被指示為「輸入深度特徵」。

在接收到來自第一影像變換器區塊612的輸入影像特徵和來自第一深度變換器區塊632的輸入深度特徵之後，第一雙向交叉注意力融合變換器區塊622可以執行交叉注意力融合以產生融合的影像-深度特徵和融合的深度-影像特徵作為輸出，如下文將更深入地解釋的。如圖所示，可以將融合的影像-深度特徵作為輸入提供給第二影像變換器區塊614，隨後第二影像變換器塊614產生中間影像特徵集，該中間影像特徵集作為輸入提供給第二雙向交叉注意力融合變換器區塊624。類似地，融合的深度-影像特徵可以作為輸入提供給第二深度變換器區塊634，隨後第二深度變換器區塊634產生中間深度特徵集，該中間深度特徵集作為附加輸入提供給第二雙向交叉注意力融合變換器區塊624。

可以針對第三影像變換器區塊616、第三深度變換器區塊636和第三雙向交叉注意力融合變換器區塊626重複上述過程。在一些實例中，雙編碼交叉注意力網路架構600可以包括多於三個雙向交叉注意力融合變換器區塊622、624和626，在此種情況下，可以針對所使用的每個雙向交叉注意力融合變換器區塊依序重複上述過程。

論述接下來轉向圖7，其圖示了可以用於將源702的特徵融合到目標704的特徵的示例性交叉注意力融合架構700。例如，使用架構700，可以藉由提供深度特徵作為源702並且提供影像特徵作為目標704來將深度特徵融合到影像特徵；同樣地，架構700可以用於藉由提供影像特徵作為源702並且提供深度特徵作為目標704來將影像特徵融合到深度特徵。

在一說明性實例中，雙向交叉注意力融合變換器區塊622、624和626中的每一個可以包括影像融合分支，該影像融合分支實現架構700以使用輸入影像特徵作為交叉注意力目標704並使用輸入深度特徵作為交叉注意力源702來計算交叉注意力（例如，這裡，影像特徵是交叉注意力目標，因為影像融合分支將深度特徵融合到影像特徵）。雙向交叉注意力融合變換器區塊622、624和626中的每一個可以另外包括深度融合分支，該深度融合分支亦實現架構700，但是其中輸入深度特徵用作目標704並且輸入影像特徵用作源702（例如，這裡，深度特徵是交叉注意力目標，因為深度融合分支將影像特徵融合到深度特徵）。在一些實例中，單向交叉注意力融合變換器塊628可以僅包括影像融合分支。

方塊720計算源702的特徵（亦稱為源特徵702）與目標704的特徵（亦稱為目標特徵704）之間的訊窗化交叉注意力，其細節在下文關於圖8描述。在一說明性實例中，訊窗交叉注意力區塊720產生兩個交叉注意力輸出。第一交叉注意力輸出是針對源特徵702決定的交叉注意力，並且源交叉注意力隨後被提供給全域平均池化區塊734，全域平均池化區塊734被配置為執行全域平均池化功能。第二交叉注意力輸出是針對目標特徵704決定的交叉注意力，並且目標交叉注意力隨後被提供給全域平均池化區塊732，全域平均池化區塊732被配置為執行全域平均池化功能。

在一些實例中，源特徵702和目標特徵704（例如，作為由影像變換器編碼器610的變換器層產生的輸入影像特徵或作為由深度編碼器630的變換器層產生的輸入深度特徵提供）可以具有 W× H× C的尺寸，其中 W是特徵寬度， H是特徵高度，並且 C是特徵空間維度。由訊窗交叉注意力區塊720產生的源交叉注意力輸出和目標交叉注意力輸出可以具有與輸入源特徵702和輸入目標特徵704相同的維度 W× H× C。

全域平均池化區塊732可以藉由將三維 W× H× C源交叉注意力輸出折疊成維度 C的一維向量（例如，所得到的源向量包含 C個值）來對源交叉注意力輸出執行全域平均池化。可以藉由對源交叉注意力輸出的每個空間維度 C的 W× H特徵求平均來獲得所得到的源向量值。類似地，全域平均池化區塊734可以藉由對目標交叉注意力輸出的每個空間維度 C的 W× H特徵求平均來將三維 W× H× C目標交叉注意力輸出折疊成維度 C的一維向量。

隨後，全域平均池化區塊732和734的輸出可以分別用作源特徵702和目標特徵704的逐通道乘數。例如，逐通道乘法器742可以藉由在 W× H× C源特徵702與由全域平均池化區塊732輸出的維度 C的結果源向量（例如，上述結果源向量）之間執行逐通道乘法來產生經修改的源特徵。逐通道乘法器744可以藉由在 W× H× C目標特徵704與由全域平均池化塊734輸出的維度 C的結果目標向量（例如，亦如前述的結果目標向量）之間執行逐通道乘法來產生經修改的目標特徵。

融合層750可以藉由將由逐通道乘法器742產生的經修改的源特徵添加到由逐通道乘法器744產生的經修改的目標特徵來產生融合輸出特徵760。在一些實例中，融合輸出特徵760可以具有與源特徵702和目標特徵704相同的 W× H× C維度。回想源特徵702和目標特徵704可以被提供為由影像變換器編碼器610的變換器層產生的輸入影像特徵，或者由深度編碼器630的變換器層產生的輸入深度特徵，融合輸出特徵760因此可以具有分別與由影像變換器編碼器610和深度編碼器630產生的影像特徵和深度特徵相同的 W× H× C維度。

在一說明性實例中，當在圖6的訊窗交叉注意力融合變換器區塊622、624、626和628中的一或多個中實現交叉注意力融合架構700時，圖7的融合輸出特徵760可以與提供給影像變換器編碼器610的變換器區塊（614、616、618）的融合的影像-深度特徵相同，及/或可以與提供給深度編碼器630的變換器區塊（634、636、638）的融合的深度-影像特徵相同。

例如，如前述，第一訊窗交叉注意力融合變換器區塊622從第一影像變換器區塊612接收輸入影像特徵，並且從第一深度變換器區塊632接收輸入深度特徵。輸入影像特徵可以作為目標特徵704提供給實現交叉注意力融合架構700的影像融合分支，並且輸入深度特徵可以作為源特徵702提供給影像融合分支。實現架構700的影像融合分支的融合輸出特徵760可以與圖6中所示的由第一訊窗交叉注意力融合變換器區塊622產生的「融合的影像-深度特徵」相同。

在一些實例中，第一訊窗交叉注意力融合變換器區塊622可以使用來自第一影像變換器區塊612的相同輸入影像特徵和來自第一深度變換器區塊632的相同輸入深度特徵來產生「融合的深度-影像特徵」。例如，第一訊窗交叉注意力融合變換器區塊622可以向實現交叉注意力融合架構700的深度融合分支提供與目標特徵704相同的輸入深度特徵，並且可以向深度融合分支提供與源特徵702相同的輸入影像特徵。使用與影像融合分支相同的輸入影像和深度特徵，但是顛倒其作為源特徵702和目標特徵704的分配，實現交叉注意力架構700的深度融合分支可以產生「融合的深度-影像特徵」作為融合的輸出特徵760。

在一些實例中，藉由整合來自兩種不同模態（影像資料和深度資料）的資訊，交叉注意力融合架構700及/或交叉注意力融合變換器區塊622、624、626和628可以允許影像資料602和深度資料604的互補特徵的非局部互動。例如，藉由分別經由逐通道乘法器742和744產生修改的源特徵和修改的目標特徵，交叉注意力融合架構700可以以非局部方式自我調整地修改接收到的影像和深度特徵。此外，藉由基於深度特徵非局部地修改影像特徵並且基於影像特徵非局部地修改深度特徵，可以向本案的交叉注意力融合層提供更準確和全面的資訊，該資訊最終以改進的準確度和效率驅動語義分割遮罩的產生。

如前述，圖8圖示訊窗交叉注意力變換器子網路800的實例。在一些實例中，訊窗交叉注意力變換器子網路800可以包括在圖7的交叉注意力融合架構700中。在一說明性實例中，訊窗交叉注意力變換器子網路800可以與圖7中圖示的訊窗交叉注意力區塊720相同。訊窗交叉注意力變換器子網路800接收均具有1× W× H× C的維度的源特徵802和目標特徵804作為輸入。在一些實例中，輸入源特徵802和輸入目標特徵804可以分別與圖7中示出為提供給訊窗交叉注意力區塊720的源特徵702和目標特徵704相同。在一些實例中，輸入源特徵802和輸入目標特徵804可以與由影像變換器編碼器610的影像變換器層產生的輸入影像特徵及/或由深度編碼器630的深度變換器層產生的輸入深度特徵相同。

訊窗交叉注意力變換器子網路800可以包括一或多個移位訊窗變換器層，諸如關於圖3至圖4B描述的移位訊窗變換器。回想一下，移位訊窗變換器可以將輸入特徵分區為複數個訊窗，輸入源特徵802可以由訊窗分區區塊810a分區為多個相等大小的訊窗 nWin ，並且輸入目標特徵804可以由訊窗分區區塊810b分區為相同數目的相等大小的訊窗 nWin。在一些實例中，訊窗分區區塊810a可以與訊窗分區區塊810b相同。如圖8中所示， nWin=W/7 × H/7，且每一相等大小的訊窗具有7p×7px的大小，但應注意，在不脫離本發明的範圍的情況下，可利用各種其他訊窗大小（並且因此，不同的 nWin）。

訊窗分區區塊810a和810b可以分別輸出訊窗化源特徵822和訊窗化目標特徵824。對於7×7的訊窗大小，訊窗化源特徵822的輸出和訊窗化目標特徵824的輸出皆可以具有由 nWin × 7 × 7 × C提供的維度。

訊窗化交叉注意力源分支880可以決定訊窗化源特徵822相對於訊窗化目標特徵824的交叉注意力。訊窗化交叉注意力目標分支890可以決定訊窗化目標特徵824相對於訊窗化源特徵822的交叉注意力。在一說明性實例中，交叉注意力源分支880和交叉注意力目標分支890可以以與上文關於圖3至圖4B的移位訊窗變換器描述的自注意力計算相同或相似的方式來計算交叉注意力（例如，可以在訊窗化源特徵822和訊窗化目標特徵824的局部訊窗內計算交叉注意力，並且隨後可以在與相同的訊窗化源特徵822和訊窗化目標特徵824相對應的移位訊窗內計算交叉注意力）。

在一說明性實例中，對於包括訊窗化源特徵822或訊窗化目標特徵824的每個輸入 X，可以使用密鑰（例如，產生為的矩陣 K）、查詢（例如，產生為的矩陣 Q）和值（例如，產生為 V= 的矩陣 V）來決定交叉注意力。

當 K 、 Q和 V的輸入是相同的 X時，可以計算自注意力（例如，當 K、 Q和 V從相同的輸入特徵集合產生時）。當從兩個不同的輸入特徵集合（諸如從影像特徵和深度特徵）獲得 K 、 Q和 V的輸入時，可以計算交叉注意力而不是自注意力。例如，如圖8所示，交叉注意力源分支880從訊窗化目標特徵824產生 K和 V，並且從訊窗化源特徵822產生 Q。交叉注意力目標分支890從訊窗化源特徵822產生 K和 V，並且從訊窗化目標特徵824產生 Q。

如圖8所示，可以藉由將1×1迴旋層 , 和分別應用於作為交叉注意力輸入提供的訊窗化源特徵822或訊窗化目標特徵824來產生矩陣 K 、 Q和 V。在一些情況下， , 和項可以是線性變換層，其將訊窗化源特徵822或訊窗化目標特徵824的輸入投影或映射到密鑰( K)矩陣、查詢( Q)矩陣和值( V)矩陣。

在一說明性實例中，可以針對交叉注意力源分支880和交叉注意力目標分支890單獨訓練1×1迴旋層 , 和，使得交叉注意力源分支880的1×1迴旋層可以包含與交叉注意力目標分支890的1×1迴旋層不同的內部參數。在一些實例中，1×1迴旋層 , 和可以與訊窗交叉注意力融合變換器區塊622、624、626及/或628中的一或多個（例如，源和目標分支880、890的1×1迴旋層 , 和）的訓練同時或組合地訓練。

交叉注意力源分支880可以基於從訊窗化目標特徵824產生 K和 V矩陣、並從訊窗化源特徵822產生 Q矩陣來計算交叉注意力源特徵832。交叉注意力目標分支890可以基於從訊窗化源特徵822產生 K和 V矩陣、並從訊窗化目標特徵824產生 Q矩陣來計算交叉注意力目標特徵834。

交叉注意力源特徵832和交叉注意力目標特徵834皆可以被產生為包括一或多個訊窗化特徵，該一或多個訊窗化特徵具有與作為交叉注意力源分支880及/或交叉注意力目標分支890的輸入提供的訊窗化源特徵822和訊窗化目標特徵824相同的 nWin× 7× 7× C維度。交叉注意力源分支880可以包括訊窗分區反向區塊840A，並且交叉注意力目標分支890可以包括訊窗分區反向區塊840B。在一些實例中，訊窗分區反向區塊840a和840b可以是相同的。

訊窗分區反向區塊840A可以將 nWin× 7× 7× C訊窗化交叉注意力源特徵832合併或以其他方式組合成具有1× W× H× C的維度（例如，其中 nWin=1）的單個交叉注意力源特徵842，該維度與輸入源特徵802的維度相同。訊窗分區反向區塊840B可以將 nWin× 7× 7× C訊窗化交叉注意力目標特徵834合併或以其他方式組合成亦具有1× W× H× C的維度（例如，其中 nWin=1）的單個交叉注意力目標特徵844，該維度與輸入目標特徵804的維度相同。

在一說明性實例中，由交叉注意力源分支880輸出的交叉注意力源特徵842可以被提供給圖7中所示的全域平均池化區塊732。類似地，由交叉注意力目標分支890輸出的交叉注意力目標特徵844可以被提供給圖7所示的全域平均池化區塊734。

圖9是示出用於處理影像及/或視訊資料的過程900的實例的流程圖。儘管示例性過程900圖示了特定的操作序列，但是可以在不脫離本案的範圍的情況下改變該序列。例如，所圖示的操作中的一些操作可以並存執行或以不實質上影響過程900的功能的不同循序執行。在其他實例中，實現過程900的示例性設備或系統的不同元件可以大體上同時或以特定循序執行功能。

在方塊902處，過程900包括產生影像資料訊框的一或多個影像特徵。在一些實例中，影像資料訊框包含彩色影像資料。例如，影像資料訊框可以包括RGB影像資料或與其他色彩模型相關聯的彩色影像資料。在一些情況下，影像資料訊框可以從靜止影像獲得及/或可以從視訊資料的一或多個訊框獲得。

在一些實例中，影像編碼器網路可以基於影像資料訊框產生一或多個輸入影像特徵。例如，影像編碼器網路可以包括圖5所示的RGB變換器編碼器510及/或圖6所示的影像變換器編碼器610。在一些實例中，影像編碼器網路可以包括一或多個編碼器變換器層，並且至少第一編碼器變換器層可以用於基於影像資料訊框產生一或多個輸入影像特徵。例如，一或多個編碼器變換器層可以包括圖6所示的變換器區塊612-618中的一或多個。

在一些實例中，影像編碼器網路的（一或多個）編碼器變換器層可以至少部分地基於先前融合的影像特徵產生一或多個輸入影像特徵。在一些情況下，由影像編碼器網路的（一或多個）編碼器變換器層使用的先前融合的影像特徵可以至少部分地由第一交叉注意力變換器網路產生，如下文將關於方塊906更深入地描述的。

在方塊904處，過程900包括產生深度資料訊框的一或多個輸入深度特徵。在一些實例中，深度資料訊框可以與影像資料訊框（例如，上文關於方塊902描述的影像資料訊框）相關聯。例如，深度資料訊框可以包括與影像資料訊框相關聯的深度圖。深度資料訊框可以包括影像資料訊框的複數個圖元的複數個深度值。在一些實例中，深度資料訊框可以包括影像資料訊框的複數個圖元中的每一圖元的深度值。

在一些實例中，深度編碼器網路可以基於深度資料訊框產生一或多個輸入深度特徵。例如，深度編碼器網路可以包括圖5所示的深度變換器編碼器530及/或圖6所示的深度變換器編碼器630。在一些實例中，深度編碼器網路可以包括一或多個編碼器變換器層，並且至少第一編碼器變換器層可以用於基於深度資料訊框產生一或多個輸入深度特徵。例如，一或多個編碼器變換器層可以包括圖6所示的變換器區塊632-638中的一或多個。

在一些實例中，深度編碼器網路的（一或多個）編碼器變換器層可至少部分地基於先前融合的深度特徵產生一或多個輸入深度特徵。在一些情況下，由深度編碼器網路的（一或多個）編碼器變換器層使用的先前融合的深度特徵可以至少部分地由第一交叉注意力變換器網路產生，該第一交叉注意力變換器網路可以與上文關於方塊902描述的用於產生先前融合的影像特徵的第一交叉注意力變換器網路相同。

在方塊906處，過程900包括至少部分地藉由使用第一交叉注意力變換器網路融合一或多個輸入深度特徵與一或多個輸入影像特徵來決定一或多個融合影像特徵。在一些實例中，第一交叉注意力變換器網路可以包括用於計算交叉注意力的一或多個移位訊窗變換器層。例如，第一交叉注意力變換器網路可以包括圖6所示的訊窗交叉注意力融合變換器區塊622-628、圖7所示的訊窗交叉注意力區塊720及/或圖8所示的訊窗交叉注意力變換器子網路800中的一或多個。

在一些實例中，第一交叉注意力變換器網路可以是雙向交叉注意力變換器網路。例如，第一交叉注意力變換器網路的第一交叉注意力變換器分支可以藉由將輸入深度特徵與輸入影像特徵融合來產生融合影像特徵。在一些態樣中，第一交叉注意力變換器分支可以基於使用輸入影像特徵作為目標並使用輸入深度特徵作為源計算第一交叉注意力來計算融合影像特徵。例如，第一交叉注意力變換器分支可以包括圖8所示的用於目標特徵的訊窗交叉注意力區塊890。

第一交叉注意力變換器網路的第二交叉注意力變換器分支可以藉由將輸入影像特徵與輸入深度特徵融合來產生融合深度特徵。在一些態樣中，第二交叉注意力變換器分支可以基於使用輸入影像特徵作為源並使用輸入深度特徵作為目標計算第二交叉注意力來計算融合深度特徵。例如，第二交叉注意力變換器分支可以包括圖8所示的用於目標特徵的訊窗交叉注意力區塊890。在一些實例中，第二交叉注意力變換器分支可以基於使用輸入影像特徵作為目標並使用輸入深度特徵作為源計算第二交叉注意力來計算融合深度特徵。在該實例中，第二交叉注意力變換器分支可以包括圖8所示的用於源特徵的訊窗交叉注意力區塊880。

在一些實例中，（例如，第一交叉注意力變換器網路的）第一交叉注意力變換器分支和第二交叉注意力變換器分支可以使用相同的輸入影像特徵及/或相同的輸入深度特徵。例如，圖6所示的訊窗交叉注意力融合變換器區塊622-626中的一或多個（或全部）可以各自包括第一交叉注意力變換器分支和第二交叉注意力變換器分支，其中第一和第二交叉注意力變換器分支各自使用相同的輸入影像特徵（例如，從圖6所示的變換器區塊612-616中的同一變換器區塊接收）及/或相同的輸入深度特徵（例如，從圖6所示的變換器區塊632-636中的同一變換器區塊接收）。

在一些實例中，過程900進一步可以包括基於使用融合影像特徵作為目標並使用融合深度特徵作為源來計算單向交叉注意力，來使用第二交叉注意力變換器網路將一或多個融合深度特徵與一或多個融合影像特徵融合。在一些態樣中，第二交叉注意力變換器網路可以是單向交叉注意力變換器網路。例如，第二交叉注意力變換器網路可以用於執行圖5所示的單向交叉注意力融合操作528。在一些實例中，第二交叉注意力變換器網路可以包括圖6所示的訊窗交叉注意力融合變換器區塊628。在一些情況下，第二交叉注意力變換器網路可以包括圖8所示的兩個訊窗交叉注意力網路880或890中的一個。

在方塊908處，過程900包括基於一或多個融合影像特徵產生用於影像資料訊框的一或多個分割遮罩。例如，圖5所示的分割解碼器550可以用於產生亦在圖5中示出的一或多個分割遮罩552。在一些實例中，用於影像資料訊框的一或多個分割遮罩可以由圖6所示的分割解碼器650產生（例如，可以使用分割解碼器650為影像資料訊框602產生分割遮罩652）。

在一些實例中，可以基於單向交叉注意力變換器網路的輸出來產生用於影像資料訊框的一或多個分割遮罩，該單向交叉注意力變換器網路將一或多個融合深度特徵融合到一或多個融合影像特徵中。例如，可以基於圖5所示的單向交叉注意力融合輸出528及/或圖6所示的訊窗交叉注意力融合變換器區塊628的輸出來產生影像資料訊框的一或多個分割遮罩。

在一些實例中，本文描述的過程（例如，過程900及/或本文描述的任何其他過程）可以由計算設備、裝置或系統執行。在一實例中，過程900可以由具有圖10的計算設備架構1000的計算設備或系統執行。計算設備、裝置或系統可以包括任何合適的設備，諸如行動設備（例如，行動電話）、臺式計算設備、平板計算設備、可穿戴設備（例如，VR耳機、AR耳機、AR眼鏡、網路連接手錶或智慧手錶或其他可穿戴設備）、伺服器電腦、自主車輛或自主車輛的計算設備、機器人設備、膝上型電腦、智慧電視、相機及/或具有執行本文描述的過程（包括過程900及/或本文描述的任何其他過程）的資源能力的任何其他計算設備。在一些情況下，計算設備或裝置可包括各種元件，例如一或多個輸入設備、一或多個輸出設備、一或多個處理器、一或多個微處理器、一或多個微電腦、一或多個相機、一或多個感測器及/或經配置以實施本文中所描述的過程的步驟的（一或多個）其他元件。在一些實例中，計算設備可以包括顯示器、被配置為傳達及/或接收資料的網路介面、其任何組合及/或（一或多個）其他元件。網路介面可以被配置為傳達及/或接收基於網際網路協定（IP）的資料或其他類型的資料。

計算設備的元件可以在電路中實現。例如，元件可以包括電子電路或其他電子硬體及/或可以使用電子電路或其他電子硬體來實現，電子電路或其他電子硬體可以包括一或多個可程式設計電子電路（例如，微處理器、圖形處理單元（GPUs）、數位訊號處理器（DSPs）、中央處理單元（CPUs）及/或其他合適的電子電路），及/或可以包括電腦軟體、韌體或其任何組合及/或使用電腦軟體、韌體或其任何組合來實現，以執行本文描述的各種操作。

過程900被示出為邏輯流程圖，其動作表示可以在硬體、電腦指令或其組合中實現的一系列操作。在電腦指令的上下文中，動作表示儲存在一或多個電腦可讀取儲存媒體上的電腦可執行指令，其在由一或多個處理器執行時，執行所述操作。通常，電腦可執行指令包括執行特定功能或實現特定資料類型的常式、程式、物件、元件、資料結構等。描述操作的順序不意欲被解釋為限制，並且任何數目的所描述的操作可以以任何順序及/或並行地組合以實現過程。

另外，過程900及/或本文描述的任何其他過程可以在配置有可執行指令的一或多個電腦系統的控制下執行，並且可以實現為在一或多個處理器上、經由硬體或其組合上共同執行的代碼（例如，可執行指令、一或多個電腦程式或一或多個應用程式）。如前述，代碼可以例如以包括可由一或多個處理器執行的複數個指令的電腦程式的形式儲存在電腦可讀或機器可讀儲存媒體上。電腦可讀或機器可讀儲存媒體可以是非暫態的。

圖10圖示可以實現本文描述的各種技術的示例性計算設備的示例性計算設備架構1000。在一些實例中，計算設備可以包括行動設備、可穿戴設備、擴展實境設備（例如，虛擬實境（VR）設備、增強實境（AR）設備或混合實境（XR）設備）、個人電腦、膝上型電腦、視訊伺服器、車輛（或車輛的計算設備）或其他設備。例如，計算設備架構1000可以實現圖6的系統。計算設備架構1000的元件被示出為使用連接1005（諸如匯流排）彼此電通訊。示例性計算設備架構1000包括處理單元（CPU或處理器）1010和計算設備連接1005，計算設備連接1005將包括計算設備記憶體1015（諸如唯讀記憶體（ROM）1020和隨機存取記憶體（RAM）1025）的各種計算設備元件耦合到處理器1010。

計算設備架構1000可以包括與處理器1010直接連接、緊鄰處理器1010或整合為處理器1010的一部分的高速記憶體的快取記憶體。計算設備架構1000可以將資料從記憶體1015及/或儲存設備1030複製到快取記憶體1012以供處理器1010快速存取。以此種方式，快取記憶體可以提供避免處理器1010在等待資料時延遲的效能提升。該等和其他引擎可以控制或被配置為控制處理器1010以執行各種動作。其他計算設備記憶體1015亦可供使用。記憶體1015可以包括具有不同效能特性的多種不同類型的記憶體。處理器1010可以包括任何通用處理器和硬體或軟體服務，諸如儲存在儲存設備1030中的服務1 1032、服務2 1034和服務3 1036，其被配置為控制處理器1010以及專用處理器，其中軟體指令被併入到處理器設計中。處理器1010可以是自包含系統，其包含多個核心或處理器、匯流排、記憶體控制器、快取記憶體等。多核心處理器可以是對稱的或不對稱的。

為了實現與計算設備架構1000的使用者互動，輸入設備1045可以表示任何數目的輸入機構，諸如用於語音的麥克風、用於手勢或圖形輸入的觸敏螢幕、鍵盤、滑鼠、運動輸入、語音等。輸出設備1035亦可以是本領域技藝人士已知的多個輸出機構中的一或多個，諸如顯示器、投影儀、電視、揚聲器設備等。在一些實例中，多模態計算設備可以使使用者能夠提供多種類型的輸入以與計算設備架構1000通訊。通訊介面1040通常可以支配和管理使用者輸入和計算設備輸出。對在任何特定硬體佈置上操作沒有限制，並且因此這裡的基本特徵可以容易地在改進的硬體或韌體佈置被開發時替換為改進的硬體或韌體佈置。

儲存設備1030是非揮發性記憶體，並且可以是硬碟或可以儲存可由電腦存取的資料的其他類型的電腦可讀取媒體，諸如磁帶盒、快閃記憶卡、固態記憶體設備、數位多功能光碟、盒式磁帶、隨機存取記憶體（RAMs）1025、唯讀記憶體（ROM）1020及其混合。儲存設備1030可以包括用於控制處理器1010的服務1032、1034、1036。設想了其他硬體或軟體模組或引擎。儲存設備1030可以連接到計算設備連接1005。在一態樣中，執行特定功能的硬體模組可以包括儲存在電腦可讀取媒體中的軟體元件，其與必要的硬體元件（例如處理器1010、連接1005、輸出設備1035等）連接以實施該功能。

本發明的態樣適用於包括或耦合到一或多個主動深度感測系統的任何合適的電子設備（例如安全系統、智慧型電話、平板電腦、膝上型電腦、車輛、無人機或其他設備）。儘管下文關於具有或耦合到一個光投影器的設備進行描述，但是本案的各態樣適用於具有任何數目的光投影器的設備，並且因此不限於特定設備。

術語「設備」不限於一個或特定數目的實體物件（諸如一個智慧型電話、一個控制器、一個處理系統等）。如本文所使用的，設備可以是具有可以實現本案的至少一些部分的一或多個部件的任何電子設備。儘管以下描述和實例使用術語「設備」來描述本案的各個態樣，但是術語「設備」不限於特定配置、類型或數目的物件。另外，術語「系統」不限於多個元件或特定實施例。例如，系統可以在一或多個印刷電路板或其他基板上實現，並且可以具有可移動或靜態元件。儘管以下描述和實例使用術語「系統」來描述本案的各個態樣，但是術語「系統」不限於特定配置、類型或數目的物件。

在上述說明書中提供了具體細節，以提供對本文提供的實施例和實例的透徹理解。然而，本領域一般技藝人士將理解，可以在沒有該等具體細節的情況下實踐實施例。為瞭解釋的清楚性，在一些情況下，本技術可以被呈現為包括單獨的功能方塊，其包括包含設備、設備元件、以軟體或硬體和軟體的組合體現的方法中的步驟或常式的功能方塊。除了在附圖中示出及/或在本文中描述的彼等元件之外，可以使用附加的元件。例如，電路、系統、網路、過程和其他元件可以以方塊圖形式示出為元件，以便不在不必要的細節中模糊實施例。在其他情況下，可以在沒有不必要的細節的情況下示出公知的電路、過程、演算法、結構和技術，以避免模糊實施例。

以上可以將各個實施例描述為過程或方法，過程或方法被圖示為流程圖、流程圖、資料流程圖、結構圖或方塊圖。儘管流程圖可以將操作描述為順序過程，但是許多操作可以並行或同時執行。另外，可以重新排列操作的順序。過程在其操作完成時終止，但是可以具有未包括在圖中的附加步驟。過程可以對應於方法、函數、程序、子常式、副程式等。當過程對應於函數時，其終止可以對應於函數返回到調用函數或主函數。

根據上述實例的過程和方法可以使用儲存在電腦可讀取媒體中或以其他方式可從電腦可讀取媒體獲得的電腦可執行指令來實現。此種指令可以包括例如使得或以其他方式配置通用電腦、專用電腦或處理設備以執行特定功能或功能群組的指令和資料。所使用的電腦資源的部分可以經由網路存取。電腦可執行指令可以是例如二進位檔案、諸如組合語言的中間格式指令、韌體、原始程式碼等。

術語「電腦可讀取媒體」包括但不限於可攜式或非可攜式儲存設備、光學儲存設備和能夠儲存、含有或攜載（一或多個）指令及/或資料的各種其他媒體。電腦可讀取媒體可包括其中可儲存資料、且不包括無線地或經由有線連接傳播的載波及/或暫態電子信號的非暫態媒體。非暫態媒體的實例可包括但不限於磁碟或磁帶、光學儲存媒體（例如快閃記憶體）、記憶體或記憶體設備、磁碟或光碟、快閃記憶體、具備非揮發性記憶體的USB設備、聯網儲存設備、光碟（CD）或數位多功能光碟（DVD）、其任何合適的組合等等。電腦可讀取媒體可具有儲存於其上的代碼及/或機器可執行指令，其可以表示程序、函數、副程式、程式、常式、子常式、模組、引擎、套裝軟體、類別，或指令、資料結構或程式語句的任何組合。代碼區段可藉由傳遞及/或接收資訊、資料、引數、參數或記憶體內容而耦合到另一代碼區段或硬體電路。資訊、引數、參數、資料等可以經由包括記憶體共享、訊息傳遞、符記傳遞、網路傳輸等的任何合適的手段來傳遞、轉發或傳輸。

在一些實施例中，電腦可讀儲存設備、媒體和記憶體可以包括包含位元串流等的電纜或無線信號。然而，當提到時，非暫態電腦可讀取儲存媒體明確地排除諸如能量、載波信號、電磁波和信號本身之類的媒體。

實現根據該等揭示的過程和方法的設備可以包括硬體、軟體、韌體、中介軟體、微代碼、硬體描述語言或其任何組合，並且可以採用各種形式因素中的任何一種。當在軟體、韌體、中介軟體或微代碼中實現時，用於執行必要任務的程式碼或代碼區段（例如，電腦程式產品）可以儲存在電腦可讀或機器可讀取媒體中。（一或多個）處理器可以執行必要的任務。形式因素的典型實例包括膝上型電腦、智慧型電話、行動電話、平板設備或其他小形式因素個人電腦、個人數位助理、機架式設備、獨立設備等。本文描述的功能亦可以體現在周邊設備或插入卡中。作為另一實例，此種功能亦可以在單個設備中執行的不同晶片或不同過程之間的電路板上實現。

指令、用於傳送此類指令的媒體、用於執行其的計算資源以及用於支援此類計算資源的其他結構是用於提供本案中描述的功能的示例性構件。

在前述說明書中，參考其具體實施例描述了本案的各態樣，但是本領域技藝人士將認識到，本案不限於此。因此，儘管本文已經詳細描述了本案的說明性實施例，但是應當理解，本發明構思可以以其他方式不同地實施和採用，並且所附請求項意欲被解釋為包括此種變型，除了受現有技術的限制之外。上述申請的各種特徵和態樣可以單獨地或聯合地使用。此外，在不脫離本說明書的更廣泛的精神和範圍的情況下，可以在本文描述的環境和應用之外的任何數量的環境和應用中利用實施例。因此，說明書和附圖被認為是說明性的而不是限制性的。出於說明的目的，以特定順序描述了方法。應當瞭解，在替代實施例中，可以以與所描述的順序不同的循序執行方法。

一般技藝人士將瞭解，在不脫離本說明書的範圍的情況下，本文使用的小於（「＜」）和大於（「＞」）符號或術語可以分別用小於或等於（「」）和大於或等於（「」）符號來代替。

在元件被描述為「被配置為」執行某些操作的情況下，此種配置可以例如藉由設計電子電路或其他硬體以執行操作、通程序式設計可程式設計電子電路（例如，微處理器或其他合適的電子電路）以執行操作或其任何組合來完成。

用語「耦合到」是指直接或間接地實體連接到另一元件的任何元件，及/或直接或間接地與另一元件通訊（例如，經由有線或無線連接及/或其他合適的通訊介面連接到另一元件）的任何元件。

記載集合中的「至少一個」及/或集合中的「一或多個」的請求項語言或其他語言指示集合中的一個成員或集合中的多個成員（以任何組合）滿足請求項。例如，記載「A和B中的至少一個」或「A或B中的至少一個」的請求項語言意謂A、B，或A和B。在另一實例中，記載「A、B和C中的至少一個」或「A、B或C中的至少一個」的請求項語言意謂A、B、C，或A和B，或A和C，或B和C，或A和B和C。語言集合「中的至少一個」及/或集合中的「一或多個」不將集合限制為集合中列出的項目。例如，記載「A和B中的至少一個」或「A或B中的至少一個的請求項語言可以意謂A、B或A和B，並且可以附加地包括未在A和B的集合中列出的項目。

結合本文揭示的實施例描述的各種說明性邏輯區塊、模組、引擎、電路和演算法步驟可以實現為電子硬體、電腦軟體、韌體或其組合。為清楚地說明硬體與軟體的此可互換性，上文已大體上就其功能性描述了各種說明性元件、方塊、模組、引擎、電路及步驟。此種功能性是實現為硬體還是軟體取決於特定應用和施加在整體系統上的設計約束。技藝人士可以針對每個特定應用以不同的方式實現所描述的功能性，但是此種實現方式決策不應被解釋為導致脫離本案的範圍。

本文中所描述的技術亦可以在電子硬體、電腦軟體、韌體或其任何組合中實現。此類技術可實現於各種設備中的任一者中，例如通用電腦、無線通訊設備手持機或積體電路設備，其具有包括在無線通訊設備手持機和其他設備中的應用的多種用途。被描述為模組或元件的任何特徵可以在整合邏輯設備中一起實現，或者單獨實現為個別但可交互動操作的邏輯設備。若以軟體實現，則該技術可至少部分地由包括程式碼的電腦可讀取資料儲存媒體實現，該程式碼包括在被執行時執行上文所描述的方法中的一或多個的指令。電腦可讀取資料儲存媒體可形成電腦程式產品的部分，電腦程式產品可包括封裝材料。電腦可讀取媒體可以包括記憶體或資料儲存媒體，諸如隨機存取記憶體（RAM）（諸如同步動態隨機存取記憶體（SDRAM））、唯讀記憶體（ROM）、非揮發性隨機存取記憶體（NVRAM）、電子可抹除可程式設計唯讀記憶體（EEPROM）、快閃記憶體、磁性或光學資料儲存媒體等。另外或可替代地，該技術可至少部分地由電腦可讀通訊媒體實現，該電腦可讀通訊媒體攜帶或傳達呈指令或資料結構的形式的程式碼（例如傳播信號或波）且可由電腦存取、讀取及/或執行。

程式碼可由處理器執行，該處理器可包含一或多個處理器，例如一或多個數位訊號處理器（DSPs）、通用微處理器、特殊應用積體電路（ASICs）、現場可程式設計邏輯陣列（FPGAs），或其他等效積體或離散邏輯電路。此處理器可經配置以執行本案中所描述的技術中的任一者。通用處理器可以是微處理器；但在替代方案中，處理器可為任何一般處理器、控制器、微控制器或狀態機。處理器亦可以實現為計算設備的組合，例如，DSP和微處理器的組合、複數個微處理器、一或多個微處理器與DSP核心的結合，或者任何其他此種配置。因此，如本文中所使用的術語「處理器」可指前述結構中的任一者、前述結構的任何組合，或適合於實現本文中所描述的技術的任何其他結構或裝置。

本案的說明性態樣包括：

態樣1：一種用於處理影像資料的裝置，包括：至少一個記憶體；及耦合到該至少一個記憶體的至少一個處理器，該至少一個處理器被配置為：產生影像資料訊框的一或多個輸入影像特徵；產生深度資料訊框的一或多個輸入深度特徵；至少部分地藉由使用第一交叉注意力變換器網路融合該一或多個輸入深度特徵與該一或多個輸入影像特徵來決定一或多個融合影像特徵；及基於該一或多個融合影像特徵產生用於該影像資料訊框的一或多個分割遮罩。

態樣2：根據態樣1之裝置，其中為了決定一或多個融合影像特徵，至少一個處理器被配置為使用第一交叉注意力變換器網路的第一交叉注意力變換器分支將一或多個輸入深度特徵與一或多個輸入影像特徵融合。

態樣3：根據態樣2之裝置，其中至少一個處理器進一步被配置為：至少部分地藉由使用第一交叉注意力變換器網路的第二交叉注意力變換器分支融合一或多個輸入影像特徵與一或多個輸入深度特徵來決定一或多個融合深度特徵。

態樣4：根據態樣3之裝置，其中：第一交叉注意力變換器分支被配置為基於使用一或多個輸入影像特徵作為目標並使用一或多個輸入深度特徵作為源計算第一交叉注意力來決定一或多個融合影像特徵；並且第二交叉注意力變換器分支被配置為基於使用一或多個輸入深度特徵作為目標並使用一或多個輸入影像特徵作為源計算第二交叉注意力來決定一或多個融合深度特徵。

態樣5：根據態樣3至4中任一項所述的裝置，其中該至少一個處理器進一步被配置為：基於使用該一或多個融合影像特徵作為目標並使用該一或多個融合深度特徵作為源來計算單向交叉注意力，來使用第二交叉注意力變換器網路將該一或多個融合深度特徵與該一或多個融合影像特徵融合。

態樣6：根據態樣5之裝置，其中：第一交叉注意力變換器網路是雙向交叉注意力變換器網路；並且第二交叉注意力變換器網路是單向交叉注意力變換器網路。

態樣7：根據態樣5至6中任一態樣所述的裝置，其中至少一個處理器進一步被配置為：基於第二交叉注意力變換器網路的輸出產生用於影像資料訊框的一或多個分割遮罩，其中第二交叉注意力變換器網路的輸出包括與一或多個融合影像特徵融合的一或多個融合深度特徵。

態樣8：根據態樣3至7中任一項所述的裝置，其中：由第一交叉注意力變換器分支使用的一或多個輸入影像特徵與由第二交叉注意力變換器分支使用的一或多個輸入影像特徵相同；並且由第一交叉注意力變換器分支使用的一或多個輸入深度特徵與由第二交叉注意力變換器分支使用的一或多個輸入深度特徵相同。

態樣9：根據態樣1至8中任一項所述的裝置，其中第一交叉注意力變換器網路：從影像編碼器網路的編碼器變換器層接收一或多個輸入影像特徵；及從深度編碼器網路的編碼器變換器層接收一或多個輸入深度特徵。

態樣10：根據態樣9之裝置，其中：影像編碼器網路的編碼器變換器層基於影像資料訊框產生一或多個輸入影像特徵；並且深度編碼器網路的編碼器變換器層基於深度資料訊框產生一或多個輸入深度特徵。

態樣11：根據態樣9至10中任一項所述的裝置，其中：影像編碼器網路的編碼器變換器層基於先前融合的影像特徵產生一或多個輸入影像特徵；並且深度編碼器網路的編碼器變換器層基於先前融合的深度特徵產生一或多個輸入深度特徵。

態樣12：根據態樣11之裝置，其中該先前融合的影像特徵和該先前融合的深度特徵中的一或多個至少部分地由該第一交叉注意力變換器網路產生。

態樣13：根據態樣1至12中任一項所述的裝置，其中深度資料訊框包括影像資料訊框的複數個圖元的複數個深度值。

態樣14：根據態樣1至13中任一項所述的裝置，其中：影像資料訊框包括彩色影像資料；並且深度資料訊框包括與影像資料訊框相關聯的深度圖。

態樣15：根據態樣1至14中任一項所述的裝置，其中第一交叉注意力變換器網路包括一或多個移位訊窗變換器層。

態樣16：一種用於處理影像資料的方法，該方法包括：產生影像資料訊框的一或多個輸入影像特徵；產生深度資料訊框的一或多個輸入深度特徵；至少部分地藉由使用第一交叉注意力變換器網路融合該一或多個輸入深度特徵與該一或多個輸入影像特徵來決定一或多個融合影像特徵；及基於該一或多個融合影像特徵產生用於該影像資料訊框的一或多個分割遮罩。

態樣17：根據態樣16之方法，其中決定一或多個融合影像特徵包括：使用第一交叉注意力變換器網路的第一交叉注意力變換器分支將一或多個輸入深度特徵與一或多個輸入影像特徵融合。

態樣18：根據態樣17之方法，進一步包括：至少部分地藉由使用第一交叉注意力變換器網路的第二交叉注意力變換器分支融合一或多個輸入影像特徵與一或多個輸入深度特徵來決定一或多個融合深度特徵。

態樣19：根據態樣18之方法，其中：第一交叉注意力變換器分支被配置為基於使用一或多個輸入影像特徵作為目標並使用一或多個輸入深度特徵作為源計算第一交叉注意力來決定一或多個融合影像特徵；並且第二交叉注意力變換器分支被配置為基於使用一或多個輸入深度特徵作為目標並使用一或多個輸入影像特徵作為源計算第二交叉注意力來決定一或多個融合深度特徵。

態樣20：根據態樣18到19中任一項所述的方法，其進一步包括：基於使用該一或多個融合影像特徵作為目標且使用該一或多個融合深度特徵作為源計算單向交叉注意力，來使用第二交叉注意力變換器網路融合該一或多個融合深度特徵與該一或多個融合影像特徵。

態樣21：根據態樣20之方法，其中：第一交叉注意力變換器網路是雙向交叉注意力變換器網路；並且第二交叉注意力變換器網路是單向交叉注意力變換器網路。

態樣22：根據態樣20至21中任一項所述的方法，進一步包括：基於第二交叉注意力變換器網路的輸出產生用於影像資料訊框的一或多個分割遮罩，其中第二交叉注意力變換器網路的輸出包括與一或多個融合影像特徵融合的一或多個融合深度特徵。

態樣23：根據態樣18至22中任一項所述的方法，其中：由第一交叉注意力變換器分支使用的一或多個輸入影像特徵與由第二交叉注意力變換器分支使用的一或多個輸入影像特徵相同；並且由第一交叉注意力變換器分支使用的一或多個輸入深度特徵與由第二交叉注意力變換器分支使用的一或多個輸入深度特徵相同。

態樣24：根據態樣16至23中任一項所述的方法，其中第一交叉注意力變換器網路：從影像編碼器網路的編碼器變換器層接收一或多個輸入影像特徵；及從深度編碼器網路的編碼器變換器層接收一或多個輸入深度特徵。

態樣25：根據態樣24之方法，其中：影像編碼器網路的編碼器變換器層基於影像資料訊框產生一或多個輸入影像特徵；並且深度編碼器網路的編碼器變換器層基於深度資料訊框產生一或多個輸入深度特徵。

態樣26：根據態樣24至25中任一項所述的方法，其中：影像編碼器網路的編碼器變換器層基於先前融合的影像特徵產生一或多個輸入影像特徵；並且深度編碼器網路的編碼器變換器層基於先前融合的深度特徵產生一或多個輸入深度特徵。

態樣27：根據態樣26之方法，其中該先前融合的影像特徵和該先前融合的深度特徵中的一或多個至少部分地由該第一交叉注意力變換器網路產生。

態樣28：根據態樣16至27中任一項所述的方法，其中深度資料訊框包括影像資料訊框的複數個圖元的複數個深度值。

態樣29：根據態樣16到28中任一項所述的方法，其中：該影像資料訊框包含彩色影像資料；並且深度資料訊框包括與影像資料訊框相關聯的深度圖。

態樣30：根據態樣16至29中任一項所述的方法，其中第一交叉注意力變換器網路包括一或多個移位訊窗變換器層。

態樣31：一種非暫態電腦可讀取儲存媒體，其上儲存有指令，該等指令在由一或多個處理器執行時，使得該一或多個處理器執行態樣1至30的任何操作。

態樣32：一種裝置，包括用於執行態樣1至30的任何操作的構件。

100:片上系統 102:中央處理單元 104:圖形處理單元 106:數位訊號處理器 108:神經處理單元 110:連接區塊 112:多媒體處理器 114:感測器處理器 116:影像信號處理器 118:記憶體區塊 120:導航模組 202:全連接神經網路 204:局部連接神經網路 210:值 212:值 214:值 216:值 300:架構 301:第一移位訊窗變換器區塊 303:第二移位訊窗變換器區塊 310a:層範數 310b:層範數 312a:層範數 312b:層範數 322:第一自注意力層 324:第二自注意力層 330a:前饋神經網路元件 330b:前饋神經網路元件 402:第一層 404:第二層 406:第三層 411:分塊符記 412:第一訊窗 414:合併訊窗 416:合併訊窗 420:配置 422:非重疊訊窗分區 430:訊窗分區配置 432:移位訊窗 434:移位訊窗 436:移位訊窗 500:的雙編碼交叉注意力網路 502:RGB影像輸入 504:深度輸入 510:影像編碼器 522:交叉注意力融合區塊 524:交叉注意力融合區塊 526:交叉注意力融合區塊 528:交叉注意力融合區塊 530:深度編碼器 550:分割解碼器 552:分割遮罩 600:架構 602:影像資料 604:深度資料 610:影像變換器編碼器 612:第一影像變換器區塊 614:第二變換器區塊 616:第三變換器區塊 618:第四變換器區塊 622:訊窗交叉注意力融合變換器區塊 624:訊窗交叉注意力融合變換器區塊 626:訊窗交叉注意力融合變換器區塊 628:訊窗交叉注意力融合變換器區塊 630:深度變換器編碼器 632:第一變換器區塊 634:第二變換器區塊 636:第三變換器區塊 638:第四變換器區塊 650:分割解碼器 652:分割遮罩 700:交叉注意力融合架構 702:交叉注意力源 704:交叉注意力目標 720:方塊 732:全域平均池化區塊 734:全域平均池化區塊 742:逐通道乘法器 744:逐通道乘法器 750:融合層 760:融合輸出特徵 800:訊窗交叉注意力變換器子網路 802:輸入源特徵 804:輸入目標特徵 810a:訊窗分區區塊 810b:訊窗分區區塊 822:訊窗化源特徵 824:訊窗化目標特徵 832:交叉注意力源特徵 834:交叉注意力目標特徵 840A:訊窗分區反向區塊 840B:訊窗分區反向區塊 842:單個交叉注意力源特徵 844:單個交叉注意力目標特徵 880:交叉注意力源分支 890:交叉注意力目標分支 900:過程 902:步驟 904:步驟 906:步驟 908:步驟 1000:計算設備架構 1005:連接 1010:處理單元 1012:快取記憶體 1015:記憶體 1020:唯讀記憶體 1025:隨機存取記憶體 1030:儲存設備 1032:服務1 1034:服務2 1035:輸出設備 1036:服務3 1040:通訊介面 1045:輸入設備

下文參考以下附圖詳細描述本案的說明性實施例：

圖1圖示根據一些實例的片上系統（SoC）的示例性實現方式；

圖2A圖示根據一些實例的全連接神經網路的實例；

圖2B圖示根據一些實例的局部連接的神經網路的實例；

圖3是示出根據本案的一些實例的一對移位訊窗變換器區塊的示例性架構的圖；

圖4A是示出根據本案的一些實例的可應用於用於影像分割的基於神經網路的編碼器的一或多個移位訊窗變換器層之間的訊窗分區或訊窗反向分區過程的實例的圖；

圖4B是示出根據本案的一些實例的可以由基於神經網路的編碼器的一或多個移位訊窗變換器層應用於影像分割的移位訊窗自注意力計算的實例的圖；

圖5是示出根據本案的一些實例的用於多類影像分割的雙編碼交叉注意力網路的實例的圖；

圖6是示出根據本案的一些實例的用於多類影像分割的基於變換器的雙編碼交叉注意力神經網路系統的示例性架構的圖；

圖7是示出根據本案的一些實例的用於訊窗化交叉注意力融合的示例性架構的圖；

圖8是示出根據本案的一些實例的具有用於影像特徵的第一交叉注意力分支和用於深度特徵的第二交叉注意力分支的基於變換器的交叉注意力神經網路的示例性架構的圖；

圖9是示出根據本案的一些實例的用於處理影像及/或視訊資料的過程的實例的流程圖；及

圖10是示出用於實現本文描述的某些態樣的計算系統的實例的方塊圖。

國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無

402:第一層

404:第二層

406:第三層

412:第一訊窗

414:合併訊窗

416:合併訊窗

Claims

一種用於處理影像資料的裝置，其包括：至少一個記憶體；及耦合到該至少一個記憶體的至少一個處理器，該至少一個處理器被配置為：產生一影像資料訊框的一或多個輸入影像特徵；產生一深度資料訊框的一或多個輸入深度特徵；至少部分地藉由使用一第一交叉注意力變換器網路融合該一或多個輸入深度特徵與該一或多個輸入影像特徵來決定一或多個融合影像特徵；及基於該一或多個融合影像特徵產生用於該影像資料訊框的一或多個分割遮罩。
如請求項1所述之裝置，其中為了決定該一或多個融合影像特徵，該至少一個處理器被配置為使用該第一交叉注意力變換器網路的一第一交叉注意力變換器分支將該一或多個輸入深度特徵與該一或多個輸入影像特徵融合。
如請求項2所述之裝置，其中該至少一個處理器進一步被配置為：至少部分地藉由使用該第一交叉注意力變換器網路的一第二交叉注意力變換器分支將該一或多個輸入影像特徵與該一或多個輸入深度特徵融合來決定一或多個融合深度特徵。
如請求項3所述之裝置，其中：該第一交叉注意力變換器分支被配置為基於使用該一或多個輸入影像特徵作為一目標並使用該一或多個輸入深度特徵作為一源計算一第一交叉注意力來決定該一或多個融合影像特徵；及該第二交叉注意力變換器分支被配置為基於使用該一或多個輸入深度特徵作為一目標並使用該一或多個輸入影像特徵作為一源計算一第二交叉注意力來決定該一或多個融合深度特徵。
如請求項3所述之裝置，其中該至少一個處理器進一步被配置為：基於使用該一或多個融合影像特徵作為一目標並使用該一或多個融合深度特徵作為一源計算一單向交叉注意力，來使用一第二交叉注意力變換器網路融合該一或多個融合深度特徵與該一或多個融合影像特徵。
如請求項5所述之裝置，其中：該第一交叉注意力變換器網路是一雙向交叉注意力變換器網路；及該第二交叉注意力變換器網路是一單向交叉注意力變換器網路。
如請求項5所述之裝置，其中該至少一個處理器進一步被配置為：基於該第二交叉注意力變換器網路的輸出產生用於該影像資料訊框的該一或多個分割遮罩，其中該第二交叉注意力變換器網路的該輸出包括與該一或多個融合影像特徵融合的該一或多個融合深度特徵。
如請求項3所述之裝置，其中：由該第一交叉注意力變換器分支使用的一或多個輸入影像特徵與由該第二交叉注意力變換器分支使用的一或多個輸入影像特徵相同；及由該第一交叉注意力變換器分支使用的一或多個輸入深度特徵與由該第二交叉注意力變換器分支使用的一或多個輸入深度特徵相同。
如請求項1所述之裝置，其中該第一交叉注意力變換器網路：從一影像編碼器網路的一編碼器變換器層接收該一或多個輸入影像特徵；及從一深度編碼器網路的一編碼器變換器層接收該一或多個輸入深度特徵。
如請求項9所述之裝置，其中：該影像編碼器網路的該編碼器變換器層基於該影像資料訊框產生該一或多個輸入影像特徵；及該深度編碼器網路的該編碼器變換器層基於該深度資料訊框產生該一或多個輸入深度特徵。
如請求項9所述之裝置，其中：該影像編碼器網路的該編碼器變換器層基於先前融合的影像特徵產生該一或多個輸入影像特徵；及該深度編碼器網路的該編碼器變換器層基於先前融合的深度特徵產生該一或多個輸入深度特徵。
如請求項11所述之裝置，其中該先前融合的影像特徵和該先前融合的深度特徵中的一或多個至少部分地由該第一交叉注意力變換器網路產生。
如請求項1所述之裝置，其中該深度資料訊框包括該影像資料訊框的複數個圖元的複數個深度值。
如請求項1所述之裝置，其中：該影像資料訊框包括彩色影像資料；及該深度資料訊框包括與該影像資料訊框相關聯的一深度圖。
如請求項1所述之裝置，其中該第一交叉注意力變換器網路包括一或多個移位訊窗變換器層。
一種用於處理影像資料的方法，該方法包括以下步驟：產生一影像資料訊框的一或多個輸入影像特徵；產生一深度資料訊框的一或多個輸入深度特徵；至少部分地藉由使用一第一交叉注意力變換器網路融合該一或多個輸入深度特徵與該一或多個輸入影像特徵來決定一或多個融合影像特徵；及基於該一或多個融合影像特徵產生用於該影像資料訊框的一或多個分割遮罩。
如請求項16所述之方法，其中決定該一或多個融合影像特徵包括：使用該第一交叉注意力變換器網路的一第一交叉注意力變換器分支將該一或多個輸入深度特徵與該一或多個輸入影像特徵融合。
如請求項17所述之方法，進一步包括以下步驟：至少部分地藉由使用該第一交叉注意力變換器網路的一第二交叉注意力變換器分支將該一或多個輸入影像特徵與該一或多個輸入深度特徵融合來決定一或多個融合深度特徵。
如請求項18所述之方法，其中：該第一交叉注意力變換器分支被配置為基於使用該一或多個輸入影像特徵作為一目標並使用該一或多個輸入深度特徵作為一源計算一第一交叉注意力來決定該一或多個融合影像特徵；及該第二交叉注意力變換器分支被配置為基於使用該一或多個輸入深度特徵作為一目標並使用該一或多個輸入影像特徵作為一源計算一第二交叉注意力來決定該一或多個融合深度特徵。
如請求項18所述之方法，進一步包括以下步驟：基於使用該一或多個融合影像特徵作為一目標並使用該一或多個融合深度特徵作為一源計算一單向交叉注意力，來使用一第二交叉注意力變換器網路融合該一或多個融合深度特徵與該一或多個融合影像特徵。
如請求項20所述之方法，其中：該第一交叉注意力變換器網路是一雙向交叉注意力變換器網路；及該第二交叉注意力變換器網路是一單向交叉注意力變換器網路。
如請求項20所述之方法，進一步包括以下步驟：基於該第二交叉注意力變換器網路的一輸出產生用於該影像資料訊框的該一或多個分割遮罩，其中該第二交叉注意力變換器網路的該輸出包括與該一或多個融合影像特徵融合的該一或多個融合深度特徵。
如請求項18所述之方法，其中：由該第一交叉注意力變換器分支使用的一或多個輸入影像特徵與由該第二交叉注意力變換器分支使用的一或多個輸入影像特徵相同；及由該第一交叉注意力變換器分支使用的一或多個輸入深度特徵與由該第二交叉注意力變換器分支使用的一或多個輸入深度特徵相同。
如請求項16所述之方法，其中該第一交叉注意力變換器網路：從一影像編碼器網路的一編碼器變換器層接收該一或多個輸入影像特徵；及從一深度編碼器網路的一編碼器變換器層接收該一或多個輸入深度特徵。
如請求項24所述之方法，其中：該影像編碼器網路的該編碼器變換器層基於該影像資料訊框產生該一或多個輸入影像特徵；及該深度編碼器網路的該編碼器變換器層基於該深度資料訊框產生該一或多個輸入深度特徵。
如請求項24所述之方法，其中：該影像編碼器網路的該編碼器變換器層基於先前融合的影像特徵產生該一或多個輸入影像特徵；及該深度編碼器網路的該編碼器變換器層基於先前融合的深度特徵產生該一或多個輸入深度特徵。
如請求項26所述之方法，其中該先前融合的影像特徵和該先前融合的深度特徵中的一或多個至少部分地由該第一交叉注意力變換器網路產生。
如請求項16所述之方法，其中該深度資料訊框包括該影像資料訊框的複數個圖元的複數個深度值。
如請求項16所述之方法，其中：該影像資料訊框包括彩色影像資料；及該深度資料訊框包括與該影像資料訊框相關聯的一深度圖。
如請求項16所述之方法，其中該第一交叉注意力變換器網路包括一或多個移位訊窗變換器層。