TWI792696B

TWI792696B - 顏色恆常性對比學習的方法和裝置

Info

Publication number: TWI792696B
Application number: TW110143129A
Authority: TW
Inventors: 羅以宸; 張嘉哲
Original assignee: 聯發科技股份有限公司
Priority date: 2020-11-20
Filing date: 2021-11-19
Publication date: 2023-02-11
Also published as: US20220164601A1; TW202221643A

Abstract

顏色恆常性的對比學習方法採用全監督(fully-supervised)的對比對構建，由新的資料增強驅動。對比學習方法包括接收兩個訓練圖像，藉由新資料增強構建正負對比對，藉由特徵提取函數提取表示，以及藉由對比學習正對比對中的表示比負對比對中的表示更接近來訓練顏色恆常性模型。正對比對包含具有相同光源的圖像，而負對比對包含具有不同光源的圖像。對比學習方法在不增加計算成本的情況下提高了性能。所需的對比對允許顏色恆常性模型學習更好的光源特徵，這些特徵對於資料稀疏區域中的最壞情況特別魯棒。

Description

顏色恆常性對比學習的方法和裝置

本發明涉及影像處理中的顏色恆常性(color constancy)。特別地，本發明涉及用於顏色恆常性的基於深度學習的方法。

即使在不同的光源下，人類視覺系統也能夠感知物體的相同標準顏色。此功能由計算顏色恆常性模仿，相機管線(camera pipeline)中的一項基本任務是將原始感測器信號處理為sRGB圖像。顏色恆常性是一項基本的低級電腦視覺任務。計算色彩恆常性也稱為自動白平衡(White Balance，簡稱WB)。由相機感測器捕獲的每個原始圖像由圖像形成模型表示，以及藉由如下所述的兩種顏色空間轉換進行處理。第一顏色空間轉換將原始RBG圖像對應到標準感知顏色空間圖像，這涉及白平衡和全色校正(full color correction)操作。

圖像形成模型 原始RGB圖像被視為來自相機感測器的特定光譜範圍內場景輻射的測量：

其中λ表示波長，w

[380；720](nm)是可見光譜，Rc是感測器顏色通道c

{r,g,b}的光譜靈敏度。術語S(x,λ)表示場景在像素x處的材料反射率，L(λ)是場景中的光源(假設在空間上是均勻的)。值得注意的是，I_raw值與場景輻射成線性比例，使顏色恆常性更容易處理。

色彩空間轉換 通常I_raw在相機管線中經歷兩種顏色空間轉換：I _sRGB=G _XYZ→sRGB(F _raw→XYZ(I _raw))其中F(.)涉及線性操作，包括白平衡和全色校正。F(.)將特定於感測器的原始RGB映射到標準感知色彩空間，例如CIE XYZ。G(.)涉及對比度、色調和飽和度等非線性照片洗印加工程式(non-linear photo-finishing procedure)，以及最終將XYZ映射到sRGB色彩空間。

白平衡以及全色校正 鑒於I_raw，白平衡(WB)旨在估計場景光源L=[L_r,L_g,L_b]，也就是，置於場景中的實體顏色檢查器(physical color checker)捕獲的中性材料(neutral material)的顏色。瞭解中性材料在每個波長處均等地反射光譜能量而不顧及不同的光源，具有對角線條目[L_g/L_r,1,L_g/L_b]的3x3對角矩陣MWB被應用於I_raw以獲得白平衡圖像I_WB：I_WB=I_raw M_WB。在WB之後，中性材料應呈現無彩顏色(即“灰色”)。因為WB只校正無彩顏色(achromatic color)，3x3全色校正矩陣M_CC進一步被應用來校正無彩顏色。實際上，那些具有已知CIE XYZ值的色塊位於顏色檢查器上。請注意，由於估計的M_WB引入的誤差，M_CC是特定於光源的：I_XYZ=I_WB M_CC；這樣的I_XYZ是感測器不可知(sensor-agnostic)的，因為對於無彩顏色和彩色來說，光源投射都完全被去除。

一般而言，當前對顏色恆常性的研究可分為無學習和基於學習的方法。前者使用顏色長條圖(color histogram)和空間資訊來估計光源。傳統的免學習方法利用場景的統計特性來處理不適定(ill-posed)問題，例如最廣泛使用的灰色世界假設。然而，這種統計方法往往會在困難場景中違反假設的情況下失敗。儘管這些方法很有效，但基於無學習的方法在具有模糊顏色像素的具有挑戰性的場景中表現不佳。基於學習的方法採用資料驅動的方法，學習從訓練資料中估計光源。這些基於學習的方法優於無學習方法，並且在學術和工業領域都很流行。

直到最近，基於深度學習的方法已經被應用於顏色恆常性問題以及在具有挑戰性的場景中實現了相當大的品質改進。一種基於深度學習的方法，被稱為具有置信度加權池的全卷積顏色恆定性(Fully Convolutional Color Constancy with Confidence-weighted Pooling，簡稱FC4)，該方法使用ImageNetpretrained主幹(backbone)來防止過度擬合，以及使用兩個額外的卷積層來估計光源。基於深度學習的方法RCC-Net使用卷積LSTM提取空間和時間域中的特徵來估計光源。另一種方法C4提出了用於顏色恆定性的級聯、從粗到細的網路，堆疊三個SqueezeNet以提高模型品質。為了緩解學習表示對圖像內容敏感的問題，一種基於深度學習的方法IGTN引入了度量學習來學習與場景無關的光源特徵。從不同的角度來看，大多數基於學習的方法與單個感測器的光譜靈敏度密切相關，因此如果不進行微調，就不能推廣到其他相機感測器。

這種不適定(ill-posed)且依賴於感測器的任務仍然難以為監督訓練收集大量配對資料。在訓練資料不足的情況下學習時，經常遇到的一個常見問題是從資料中學習虛假相關性或不良偏差的可能性：誤導性特徵適用於大多數訓練樣本，但並不總是普遍適用。例如，之前的研究表明，深度物件識別模型可能依賴於虛假相關的背景而不是前景對象來進行預測，或者偏向於對象紋理而不是形狀。在色彩恆定的情況下，室外場景往往比室內場景與高色溫光源的相關性更高。因此，深度學習模型可能專注於場景相關的特徵而不是光源相關的特徵。這導致決策行為傾向於預測室外場景的高色溫光源，但在低色溫光源下的室外場景會出現高誤差。當資料稀疏性(sparsity)增加時，這個問題會變得更糟。

圖像或視訊處理系統中顏色恆常性的對比學習方法的實施例包括：接收與在第一光源L_A下的第一場景X中捕獲的與第一訓練圖像I_XA相關聯的輸入資料和在第二光源L_B下的第二場景Y中捕獲的與第二訓練圖像I_YB相關聯的輸入資料，藉由對第一和第二訓練圖像I_XA和I_YB應用資料增強來構建正對比對和負對比對，藉由特徵提取函數提取正負對比對中圖像的表示，以及藉由對比學習來訓練顏色恆常性模型。正對比對包含兩個具有相同光源的圖像，負對比對包含兩個具有不同光源的圖像。每個正對比對中的表示比每個負對比對中的表示更接近。

在一些實施例中，藉由對比學習來訓練顏色恆常性模型的步驟包括藉由特徵投影函數將每個表示映射到潛在投影空間(latent projection space)中的投影，測量正對比對(z,z+)的投影之間的相似性和負對比對(z,z-)的投影之間的相似性，以及藉由對比損失函數(contrastive loss function)最大化正對比對(z,z+)的投影之間的相似性以及最小化負對比對(z,z,z-)的投影之間的相似性。

資料增強被設計為將訓練圖像增強到不同的視圖。在一些實施例中，從第一訓練圖像I_XA導出的第一增強圖像I⁺XA是標籤保持的(label-preserving)，因為第一訓練圖像I_XA和第一增強圖像I⁺ _XA共用相同的地面實況光源。

在構建對比學習的更好的對比對的一些實施例中，藉由在第一光源L_A和第二光源L_B之間進行內插或外推，新的光源L_C被導出，增強的圖像藉由資料增強被合成，以及正負對比對從增強的圖像構建。藉由資料增強，具有第一場景和第一光源的第一增強圖像I⁺ _XA，具有第二場景和第一光源的第二增強圖像I⁺ _YA，具有第一場景和新光源的第三增強圖像I^- _XC，以及具有第二場景和新光源的第四增強圖像I^- _YC被合成。簡單正對比對藉由包括第一訓練圖像I_XA和第一增強圖像I⁺ _XA來構建，簡單負對比對藉由包括第一訓練圖像I_XA和第四增強圖像I^- _YC來構建。困難正對比對藉由包括第一訓練圖像I_XA和第二增強圖像I⁺ _YA構建，困難負對比對藉由包括第一訓練圖像I_XA和第三增強圖像I^- _XC構建。資料增強從第一和第二訓練圖像I_XA和I_YB中提取規範顏色(extracts canonical)以形成顏色檢查器C_A和C_B，擬合(fit)顏色映射矩陣M_AB和逆顏色映射矩陣M_BA以在兩個顏色檢查器C_A和C_B之間進行映射，以及從新光源L_C的顏色映射矩陣M_AB和逆顏色映射矩陣M_BA導出兩個額外的顏色映射矩陣M_AC和M_BC。藉由將顏色映射矩陣M_AB應用於第二訓練圖像I_YB，第二增強圖像I⁺ _YA被合成，以及藉由將兩個額外顏色映射矩陣M_AC和M_BC應用於第一和第二訓練圖像I_XA和I_YB，第三I^- _XC和第四I^- _YC增強圖像被合成。對比學習方法的一些實施例還包括藉由特徵投影函數將每個表示映射到潛在投影空間中的投影，計算表示的第一、第二、第三和第四損失，以及藉由第一、第二、第三和第四損失的總和來計算對比損失。第一損失與簡單正對比對和簡單負對比對的表示相關，第二損失與簡單正對比對和困難負對比對的表示相關。第三損失與困難正對比對和簡單負對比對的表示相關，第四損失與困難正對比對和困難負對比對的表示相關。

在一個實施例中，顏色映射矩陣M_AB和逆顏色映射矩陣M_BA是全色變換矩陣，兩個額外的顏色映射矩陣M_AC和M_BC是全色變換矩陣。在另一實施例中，顏色映射矩陣M_AB和逆顏色映射矩陣M_BA從全色變換矩陣減少到對角矩陣，以及兩個額外的顏色映射矩陣M_AC和M_BC從單位矩陣(identity matrix)，顏色映射矩陣M_AB和逆顏色映射矩陣M_BA導出。藉由簡化中性顏色映射(simplified neutral color mapping)，使用兩個額外的顏色映射矩陣M_AC和M_BC，第三I^- _XC和第四I^- _YC增強圖像被合成。

在一個實施例中，構建正對比對和負對比對的步驟還包括：藉由資料增強合成具有第二場景Y和第一光源L_A的第一增強圖像I⁺ _YA以及合成具有第一場景X的第二增強圖像I^- _XB和第二光源L_B。正對比對藉由包括第一訓練圖像I_XA和第一增強圖像I⁺ _YA來構建，負對比對藉由包括第一訓練圖像I_XA和第二增強圖像I^- _XB來構建。資料增強從第一I_XA和第二I_YB訓練圖像中提取規範顏色以形成顏色檢查器C_A和C_B，擬合顏色映射矩陣M_AB和逆顏色映射矩陣M_BA以在兩個顏色檢查器C_A和C_B之間進行映射，以及將顏色映射矩陣M_AB和逆顏色映射矩陣M_BA應用於第一I_XA和第二I_YB訓練圖像以合成第一I⁺ _YA和第二I^- _XB增強圖像。

顏色恆常性模型的實施例藉由場景不變和依賴於光源的表示進行訓練，使得同一場景在不同光源下的表示彼此遠離，而在同一光源下不同場景的表示彼此接近。

本公開的方面還提供了一種對圖像或視訊處理系統中的顏色恆常性進行對比學習的裝置。該裝置包括一個或多個電子電路，該電路被配置為接收第一和第二訓練圖像的輸入資料，藉由對第一和第二訓練圖像應用資料增強來構建正對比對和負對比對，藉由特徵提取函數來提取正對比對和負對比對中圖像的表示，以及藉由對比學習來訓練顏色恆常模型。每個正對比對包含具有相同光源的兩個圖像，每個負對比對包含具有不同光源的兩個圖像。顏色恆常性模型藉由學習每個正對比對中的表示比每個負對比對中的表示更接近來進行訓練。

S402、S404、S406、S408 S502、S504、S506、S508、S510:步驟

將參考以下附圖詳細描述作為示例提出的本公開的各種實施例，其中相同的數字表示相同的組件，以及其中：

第1圖示出場景不變和依賴於光源的表示(illuminant-dependent representations) 的表示關係。

第2圖示出根據本發明的實施例的顏色恆常性系統的對比學習的框架，該對比學習結合對比學習以學習廣義和依賴於光源的特徵表示。

第3圖示出形成對比對和顏色增強的實施例。

第4圖示出根據本發明的實施例應用資料增強來合成增強圖像以獲得更好的對比對構建的流程圖。

第5圖示出根據本發明實施例的顏色恆常性對比學習的流程圖。

將容易理解的是，如本文附圖中一般描述和圖示的本發明的組件可以以多種不同的配置佈置和設計。因此，如附圖所示，以下對本發明的系統和方法的實施例的更詳細描述並非旨在限制所要求保護的本發明的範圍，而僅代表本發明的選定實施例。

在整個說明書中對“一個實施例”、“一些實施例”或類似語言的引用意味著結合實施例描述的特定特徵、結構或特性可以包括在本發明的至少一個實施例中。因此，在本說明書各處出現的短語“在一個實施例中”或“在一些實施例中”不一定都是指同一實施例，這些實施例可以單獨實施或者與一個或多個其他實施例結合實施。此外，在一個或多個實施例中，所描述的特徵、結構或特性可以以任何合適的方式組合。然而，相關領域的技術人員將認識到，本發明可以在沒有一個或多個具體細節的情況下，或者藉由其他方法、組件等來實施。在其他情況下，公知的結構或操作未示出或詳細描述以避免混淆本發明的方面。

為了避免由專注於場景或物件相關特徵的深度學習模型帶來的學習虛假相關性，對比學習被用來規範深度學習模型以學習場景不變和依賴於光源的表示。對比學習是一種框架，它藉由比較相似和不同的對(pair)來學習通用和魯棒的特徵表示。受雜訊對比估計(Noise Contrastive Estimation，簡稱NCE)和N-對損失(N-pair loss)的啟發。如第1圖所示，與圖像分類問題相比，用於顏色恆常對比學習的不同光源下的同一場景的表示應該相距甚遠。反之，同一光源下不同場景的表示應該是接近的。然而，傳統的自監督(self-supervised)對比學習通常會生成簡單或微不足道的對比對，這對學習廣義特徵表示不是很有用。

根據本發明的實施例，用於顏色恆常性的基於深度學習的方法被設計為藉由對比學習來學習所期望的表示。所期望的表示是場景不變(scene-invariant)和依賴於光源(illuminant-dependent)的表示，使得在不同光源下同一場景的表示彼此遠離，而在同一光源下不同場景的表示彼此更接近。由自監督對比學習生成的對比對通常不足以規範顏色恆常性的深度學習模型。本發明的實施例藉由資料增強構建用於顏色恆常對比學習的更有用的對比對。資料增強被發現在用於對比對構建中是有效的，可以構建成功的對比學習，例如，隨機裁剪、翻轉和旋轉等資料增強已廣泛用於分類、物件檢測和語義分割以提高模型品質。各種作品依靠手動設計的增強來達到最佳效果。為了簡化這些工作，策略搜索或資料合成被用來提高資料品質和多樣性。然而，用於圖像識別和分類的流行資料增強策略可能不適合顏色恆常性任務。例如，以前對比學習中的大多數資料增強都是為高級視覺任務而設計的，例如物體識別和尋找光源不變特徵，這可能不利於顏色恆常性。諸如掉色(color dropping)之類的資料增強將sRGB圖像轉換為灰度圖像，使顏色恆常性任務更加困難。因此，根據本發明的一些實施例，顏色域知識被併入設計適合於顏色恆常性的對比學習的資料增強。顏色恆常性任務在線性顏色空間中效果最好，其中保持了與場景輻射的線性關係。這可以防止使用非線性顏色抖動增強，例如對比度、飽和度和色調。

方法-公式化第2圖示出顏色恆常對比學習(Contrastive Learning for Color Constancy，簡稱CLCC)方法的概述。對比學習被納入主要的顏色恆常性任務，以學習廣義(generalized)和依賴於光源(illuminant-dependent)的特徵表示。學習問題設置遵循大多數基於學習的顏色恆常性研究，這些研究僅關注從輸入原始圖像I_raw估計光源L的白平衡步驟：

其中

是生成I_raw的視覺表示的特徵提取器，

是光源估計函數，

是估計的光源。

和

都由具有任意架構設計的深度神經網路參數化，其中θ和

可以藉由反向傳播進行訓練。

總體學習目標可以分解為兩部分用於顏色恆常性的光源估計和用於更好表示的對比學習，如第2圖所示。

L _total=λL _illuminant+βL _contrastive對於光源估計任務，常用的角度誤差被使用：

其中

是估計的光源，L是真實光源。由於顏色恆常性的資料集相對較小，因為很難收集具有相應地面實況光源的訓練資料。僅使用監督L _illuminant訓練深度學習顏色恆常模型通常不能很好地泛化(generalize)。在本發明的各種實施例中對比學習被用來訓練顏色恆常性模型，即使使用小的訓練資料集也能更好地泛化。

在CLCC的一些實施例中，全監督對比學習用於顏色恆常性。如第2圖所示，對比學習的基本構建塊包括亂數增強t(.)~T、特徵提取函數

、特徵投影函數g _ψ、相似性度量函數s(.)、對比對公式，以及對比損失函數L _contrastive。亂數增強(stochastic data augmentation)將樣本圖像I增強到不同的視圖t(I)。請注意，t(.)需要是標籤保持的，這意味著I和t(I)仍然共用相同的真實光源L。特徵提取函數

，提取t(I)的表示，以及是進一步用於下游顏色恆常性任務。特徵投影函數將表示h _θ(t(I))映射到位於單位超球面(unit hypersphere)上的投影z。特徵投影函數g _ψ通常只在計算學習表示時才需要，一旦學習完成就會被丟棄。相似性度量函數測量潛在投影(z_i,z_j)之間的相似性。錨點I、正I⁺和負I^-樣本共同組成正對(I,I⁺)和負對(I,I^-)用於對比學習的對比對公式。對於顏色恆常性任務，正對應該共用相同的光源標籤L，而負對應該有不同的。對比損失函數旨在最大化正對(z,z+)的投影之間的相似性，以及最小化潛在投影空間中負對(z,z-)的投影之間的相似性。

在自監督對比學習中，給出了兩個具有不同場景內容的隨機訓練圖像I_i和I_j，正對比對由同一圖像的兩個隨機增強視圖(t(I_i),t'(I_i ⁺))形成，以及負對比對由兩個不同圖像(t(I_i)，t'(I_j ^-))的視圖形成。這種樸素的表述引入了兩個潛在的缺點。一個是採樣偏差，即對共用非常相似光源的假負對進行採樣的可能性，例如L _i

L _j。另一個缺點是缺乏硬度，來自與錨點t(I_i)相同的圖像的正t(I_i ⁺)可以共用相似的場景內容。僅此一項就足以讓神經網路輕鬆區分具有明顯不同場景內容的負t'(I_j ^-)。為了減輕採樣偏差和增加對比對的硬度，本發明的方法利用標籤資訊，將自監督對比學習擴展到全監督對比學習，其中基本資料增強專門設計為顏色恆常性任務的標籤保持(label-preserving)。

顏色恆定的對比學習 第3圖示出根據本發明實施例的全監督對比學習框架中每個組件的實現。對比學習的第一階段是從兩個隨機採樣的訓練圖像I_XA和I_YB中形成對比對，其中I_XA定義為在光源L_A下在場景X中捕獲的線性原始RGB圖像，而I_YB是在光源L_B下的場景Y中捕獲線性原始RGB圖像。在本發明的各種實施例中，正對共用相同的光源而負對具有不同的光源。根據該實施例，四個對比對從兩個隨機採樣的訓練圖像I_XA和I_YB生成。這四個對比對包括一個簡單的正對(t(I_XA)，t'(I⁺ _XA))，一個簡單的負對(t(I_XA)，t'(I^- _YC))，一個困難的正對(t(I_XA),t'(I⁺ _YA))，和一個困難的負對(t(I_XA),t'(I^- _XC))。簡單的正對包含具有相同場景X和光源L_A的兩個圖像，簡單的負對包含具有不同場景(X,Y)和不同光源(L_A,L_C)的兩個圖像。困難正對包含具有不同場景(X,Y)但具有相同光源L_A的兩個圖像，困難負對包含具有相同場景X但具有不同光源(L_A,L_C)的兩個圖像。

圖像I_YC、I_YA和I_XC藉由將一個場景的光源替換為另一個場景的光源來合成。一種新的光源L_C藉由在兩個訓練圖像的光源L_A和L_B之間進行插值或外推得出。在該實施例中不需要冗餘的硬負樣本I_XB。函數t是基於隨機擾動的由隨機強度、隨機散粒雜訊和隨機高斯雜訊組成的光源保持資料增強(illuminant-preserving data augmentation)。

對比學習的下一階段是相似度度量和對比損失函數。一旦對比對在圖像空間中被定義，特徵提取函數

和特徵投影函數g_ψ用於將這些視圖t(.)編碼到潛在投影空間z。對比損失計算為正確闡述的對比對的InfoNCE損失總和：

InfoNCE損失L _NCE可以計算為：

其中s+和s-分別是正負對的余弦相似度得分：s⁺=s(z,z⁺)；s^-=s(z,z^-)。InfoNCE損失可以被視為執行(N+1)方式分類，其藉由具有N個負對和1個正對的交叉熵損失來實現，其中τ是溫度比例因數。

原始域顏色增強(Raw-domain Color Augmentation) 提議的資料增強的目標是藉由操縱光源來對CLCC合成更多樣、更難的正樣本和負樣本，使得顏色恆常性解決方案空間被更好地約束。藉由以下過程基於兩個隨機採樣的圖像(I_XA,L_A)和(I_YB,L_B)，圖像I_YC、I_YA和I_XC被合成。使用現成的顏色檢查器檢測器，顏色檢查器的24種線性原始RGB顏色C _A

and C _B

分別從I_XA和I_YB中提取。給定檢測到的顏色檢查器C_A和C_B，用於將C_A轉換為C_B的線性顏色映射矩陣M _AB

可以藉由任一標準最小二乘法進行求解。逆顏色映射矩陣M_BA可以藉由求解M_AB ^-1來導出。因此，圖像I_XB和I_YA可被增強為：I_XB=I_XAM_AB；I_YA=I_YBM_BA。

上述資料增強過程產生了新樣本I_XB和I_YA，但僅使用來自訓練圖像的預先存在的光源L_A和L_B。為了在訓練資料集中不存在的新光源L_C下合成新型樣本I_XC，顏色檢查器C_C可以藉由按通道內插或從現有顏色檢查器C_A和C_B外推來合成，如下所示：C_C=(1-w)C_A+wC_B；其中w可以從適當範圍[w_min,w_max]的均勻分佈中隨機採樣。例如，新顏色檢查器使用w=0.5進行插值來合成，或者新顏色檢查器使用w=-1.5或1.5外推合成。請注意，w不應接近於零，以避免產生用於對比學習的假陰性樣本I_XC=I_XA。為了更真實地合成I_XC，即在彩色上更準確，全色變換矩陣M_AC被用來將I_XA映射到I_XC，全色變換矩陣M_BC被用來將I_YB映射到I_YC：I_XC=I_XAM_AC；I_YC=I_YBM_BC.

第4圖示出根據本發明的實施例的應用於顏色恆常性的對比學習的資料增強的示例的流程圖。在步驟S402中，一對訓練圖像I_XA和I_YB的顏色檢查器C_A和C_B被檢測。在步驟S404中，顏色映射矩陣M_AB被計算以將顏色檢查器C_A轉換為C_B，以及逆顏色映射矩陣M_BA被計算以將顏色檢查器C_B轉換為C_A。在步驟S406中，經由估計的顏色映射矩陣M_AB和M_BA，資料增強應用顏色映射來交換兩個訓練圖像I_XA和I_YB的預先存在的光源。在步驟S408中，藉由使用檢測到的顏色檢查器C_A和C_B的內插和外推，具有新光源的對應於新顏色檢查器C_C的增強圖像I_XC和I_YC被合成。

在一些實施例中，顏色變換矩陣M_AC可以從單位矩陣

和M_AB有效地計算而無需求解最小二乘法，類似地，顏色變換矩陣M_BC可以從單位矩陣

和M_BA有效地計算而無需求解最小二乘法。

上述合成方法可能受到顏色檢查器檢測性能的限制。當顏色檢查器檢測不成功時，全色C_A和C_B可以被簡化為中性色L_A和L_B，這意味著顏色變換矩陣M_AB從完整矩陣簡化為對角矩陣。這也相當於先用L_A對I_A執行WB，然後用L_B執行逆W_B。即使在無法正確映射彩色時，使用簡化的中性色映射對顏色恆常性的對比學習仍然可以在基線上獲得性能改進。

評估按照評估協議，在兩個公共基準資料集NUS-8和Gehler上應用各種方法的角度誤差被評估。Gehler資料集有由兩個相機捕獲的568張線性原始RGB圖像，NUS-8資料集有由八個相機捕獲的1736個線性原始RGB圖像。CLCC方法的性能能夠在NUS-8資料集上實現最先進的平均角度誤差，與具有類似模型大小的FC4相比提高了17.5%。其他競爭方法，如C4和IGTN，使用更多的模型參數(3倍和200倍以上)，但平均角度誤差更差。CLCC方法在所有評分指標上對基線網路SqueezeNet-FC4進行了顯著改進，並達到了最佳平均指標以及最壞-25%指標(best worst-25% metric)。這表明全監督對比學習的實施不僅在沒有海量訓練資料的情況下提高了整體性能，而且藉由有效的對比對構建提高了魯棒性。對於Gehler資料集，CLCC方法保持競爭力，與最佳性能方法C4的性能差距小於0.1，其模型大小是模型大小的三倍。獲得比CLCC方法更好分數的方法要麼需要更多的困難性，要麼使用補充資料。C4方法具有比CLCC方法多三倍的參數，該參數有助於記住更多的感測器特徵。FFCC方法需要來自相機的元資料(meta-data)才能達到最佳中值指標。如果沒有輔助資料被使用，CLCC方法在所有矩陣上的性能都優於FFCC-4通道。CLCC方法還可以改進最壞情況的魯棒性。對最壞情況性能的改進尤其在受資料稀疏影響的區域中增加。這支援對比學習設計的目標，該設計學習更好的依賴光源的特徵，這些特徵對場景內容具有魯棒性和不變性。

本發明的實施例的代表性流程圖 第5圖示出用於圖像或視訊處理系統中的顏色恆定性的對比學習方法的實施例的流程圖。在步驟S502中，圖像或視訊處理系統接收在第一光源下的第一場景中捕獲的第一訓練圖像和在第二光源下的第二場景中捕獲的第二訓練圖像的輸入資料。在步驟S504中，資料增強被應用於第一和第二訓練圖像以合成正增強圖像和負增強圖像。每個正增強圖像具有第一光源，每個負增強圖像具有不同於第一光源的光源。在步驟S506中，圖像或視訊處理系統構建一個或多個正對比對和一個或多個負對比對。每個正對比對包括第一訓練圖像和正增強圖像，每個負對比對包括第一訓練圖像和負增強圖像。在步驟S508中，特徵提取函數用於提取正對比對和負對比對中的圖像的表示。在步驟S510中，圖像或視訊處理系統藉由對比學習來訓練顏色恆常性模型。顏色恆常性模型被訓練來學習正對比對中的表示比負對比對中的表示更接近。

顏色恆常性的對比學習的實施例可以在集成到視訊壓縮晶片中的電路或集成到視訊壓縮軟體中的程式碼中實現以執行上述處理。例如，正負對比對的合成可以在要在電腦處理器、數位訊號處理器(Digital Signal Processor，簡稱DSP)、微處理器或現場可程式設計閘陣列(field programmable gate array，簡稱FPGA)上執行的程式碼中實現。這些處理器可以被配置為藉由執行定義本發明所體現的特定方法的機器可讀軟體代碼或韌體代碼來執行根據本發明的特定任務。

本發明可以在不脫離其精神或基本特徵的情況下以其他特定形式實施。所描述的示例在所有方面都應被視為說明性的而非限制性的。因此，本發明的範圍由所附申請專利範圍而不是由前述說明指示。落入申請專利範圍的等效含義和範圍內的所有變化都應包含在其範圍內。

S402、S404、S406、S408:步驟

Claims

一種圖像或視頻處理系統中顏色恆定性的對比學習方法，包括：接收與在一第一光源下的一第一場景中捕獲的與一第一訓練圖像相關聯的輸入資料，和在一第二光源下的一第二場景中捕獲的與一第二訓練圖像相關聯的輸入資料；藉由將一資料增強應用於該第一訓練圖像和該第二訓練圖像來構建至少一正對比對和至少一負對比對，其中每個正對比對包含具有一相同光源的兩個圖像，每個負對比對包含具有多個不同光源的兩個圖像；藉由一特徵提取函數提取該至少一正對比對和該至少一負對比對中的多個圖像的多個表示；以及藉由對比學習來訓練一顏色恆常性模型，其中該顏色恆常性模型藉由場景不變和依賴於光源的多個表示進行訓練，使得在多個不同光源下的一相同場景的多個表示彼此遠離，而在一相同光源下的多個不同場景的多個表示彼此接近。
如請求項1所述之圖像或視頻處理系統中顏色恆定性的對比學習方法，其中，藉由對比學習來訓練一顏色恆常性模型的步驟包括：藉由一特徵投影函數將每個表示映射到一潛在投影空間中的一投影；測量該至少一正對比對的多個投影之間的一相似性和該至少一負對比對的多個投影之間的一相似性；以及藉由一對比損失函數最大化該至少一正對比對的該等投影之間的該相似性，以及最小化該至少一負對比對的該等投影之間的該相似性。
如請求項1所述之圖像或視頻處理系統中顏色恆定性的對比學習方法，其中，該資料增強將該第一訓練圖像增強到不同的視圖以導出一第一增強圖像，其中該第一增強圖像被標籤保持為該第一訓練圖像，以及該第一增強圖像共用相同的一地面實況光源。
如請求項1所述之圖像或視頻處理系統中顏色恆定性的對比學習方法，其中構建該至少一正對比對和該至少一負對比對更包括：藉由在該第一光源和該第二光源之間進行內插或外推得到一新光源；藉由該資料增強合成具有該第一場景和該第一光源的一第一增強圖像，具有該第二場景和該第一光源的一第二增強圖像，具有該第一場景和該新光源的一第三增強圖像，以及具有該第二場景和該新光源的一第四增強圖像；以及藉由包含該第一訓練圖像和該第一增強圖像構建一簡單正對比對，藉由包含該第一訓練圖像和該第四增強圖像構建一簡單負對比對，藉由包括該第一訓練圖像和該第二增強圖像構建一困難正對比對，以及藉由包含該第一訓練圖像和該第三增強圖像構建一困難負對比對。
如請求項4所述之圖像或視頻處理系統中顏色恆定性的對比學習方法，其中該資料增強從該第一和該第二訓練圖像中提取多個規範顏色以形成多個顏色檢查器，擬合一顏色映射矩陣和一逆顏色映射矩陣以在該兩個顏色檢查器之間進行映射，從該新光源的該顏色映射矩陣和該逆顏色矩陣導出兩個額外的顏色映射矩陣，將顏色映射矩陣應用於該第二訓練圖像以合成該第二增強圖像，以及將兩個額外顏色映射矩陣應用於該第一和該第二訓練圖像以分別合成該第三和該第四增強圖像。
如請求項5所述之圖像或視頻處理系統中顏色恆定性的對比學習方法，其中該顏色映射矩陣和該逆顏色映射矩陣是多個全色變換矩陣，以及該兩個額外的顏色映射矩陣是多個全色變換矩陣。
如請求項5所述之圖像或視頻處理系統中顏色恆定性的對比學習方法，其中該顏色映射矩陣和該逆顏色映射矩陣從多個全色變換矩陣減少到多個對角矩陣，以及該兩個額外顏色映射矩陣從一單位矩陣、該顏色映射矩陣和該逆顏色映射矩陣導出的，其中該第三和該第四增強圖像藉由簡化中性顏色映射使用該兩個額外的顏色映射矩陣來合成。
如請求項4所述之圖像或視頻處理系統中顏色恆定性的對比學習方法，更包括：藉由一特徵投影函數將每個表示映射到一潛在投影空間中的一投影；計算該簡單正對比對和該簡單負對比對的該等表示的一第一損失，該簡單正對比對和該困難負對比對的該等表示的一第二損失，該困難正對比對和該簡單負對比對的該等表示的一第三損失，以及該困難正對比對和該困難負對比對的該等表示的一第四損失；以及藉由該第一損失、該第二損失、該第三損失和該第四損失的總和計算一對比損失。
如請求項1所述之圖像或視頻處理系統中顏色恆定性的對比學習方法，其中構建該至少一正對比對和該至少一負對比對更包括：藉由該資料增強合成具有該第二場景和該第一光源的一第一增強圖像，以及合成具有該第一場景和該第二光源的一第二增強圖像；藉由包含該第一訓練圖像和該第一增強圖像構建該至少一對比對，藉由包含該第一訓練圖像和該第二增強圖像構建該至少一負對比對。
如請求項9所述之圖像或視頻處理系統中顏色恆定性的對比學習方法，其中該資料增強從該第一訓練圖像和該第二訓練圖像中提取多個規範顏色以形成多個顏色檢查器，擬合一顏色映射矩陣和一逆顏色映射矩陣以在該兩個顏色檢查器之間進行映射，以及將該顏色映射矩陣和該逆顏色映射矩陣應用於該第一訓練圖像和該第二訓練圖像以合成該第一增強圖像和該第二增強圖像。
一種對圖像或視頻處理系統中的顏色恆常性進行對比學習的裝置，包括一個或多個電子電路，該裝置被配置為用於：接收與在一第一光源下的一第一場景中捕獲的與一第一訓練圖像相關聯的輸入資料，和在一第二光源下的一第二場景中捕獲的與一第二訓練圖像相關聯的輸入資料；藉由將一資料增強應用於該第一訓練圖像和該第二訓練圖像來構建至少一正對比對和至少一負對比對，其中每個正對比對包含具有一相同光源的兩個圖像，每個負對比對包含具有多個不同光源的兩個圖像；藉由一特徵提取函數提取該至少一正對比對和該至少一負對比對中的多個圖像的多個表示；以及藉由對比學習來訓練一顏色恆常性模型，其中該顏色恆常性模型藉由場景不變和依賴於光源的多個表示進行訓練，使得在多個不同光源下的一相同場景的多個表示彼此遠離，而在一相同光源下的多個不同場景的多個表示。