TW202134997A - 用於對影像進行去雜訊的方法、用於擴充影像資料集的方法、以及使用者設備 - Google Patents

用於對影像進行去雜訊的方法、用於擴充影像資料集的方法、以及使用者設備 Download PDF

Info

Publication number
TW202134997A
TW202134997A TW110108457A TW110108457A TW202134997A TW 202134997 A TW202134997 A TW 202134997A TW 110108457 A TW110108457 A TW 110108457A TW 110108457 A TW110108457 A TW 110108457A TW 202134997 A TW202134997 A TW 202134997A
Authority
TW
Taiwan
Prior art keywords
image
output
net
residual dense
block
Prior art date
Application number
TW110108457A
Other languages
English (en)
Inventor
裵東運
正元 李
鮑龍
雙全 王
楊曾力
Original Assignee
南韓商三星電子股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南韓商三星電子股份有限公司 filed Critical 南韓商三星電子股份有限公司
Publication of TW202134997A publication Critical patent/TW202134997A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本發明提供一種用於對影像進行去雜訊的方法,包含:藉由使用者設備的處理電路接收輸入影像;藉由處理電路將輸入影像供應至包含多尺度殘差密集塊(MRDB)的訓練後的卷積神經網路(CNN),MRDB包含:殘差密集塊(RDB);以及空洞空間金字塔池化(ASPP)模組;藉由處理電路使用MRDB來計算MRDB輸出特徵圖;以及藉由處理電路基於MRDB輸出特徵圖來計算輸出影像,輸出影像是輸入影像的去雜訊版本。

Description

用於對影像進行去雜訊的方法、用於擴充影像資料集的方法、以及使用者設備
本揭露的實施例的態樣是關於使用深度卷積神經網路進行影像去雜訊的系統及方法。
影像處理或影像操作是一個常見的電腦視覺任務,其旨在恢復退化的影像內容,填寫遺失資訊或應用各種變換或其他操作以實現所要結果。影像去雜訊是一種通常應用於影像的此類影像處理技術。
本揭露的實施例的態樣是關於使用深度卷積神經網路進行影像處理(包含去雜訊)的系統及方法。
根據本揭露的一個實施例,一種用於對影像進行去雜訊的方法包含:藉由使用者設備的處理電路接收輸入影像;藉由處理電路將輸入影像供應至包含多尺度殘差密集塊(multi-scale residual dense block;MRDB)的訓練後的卷積神經網路(convolutional neural network;CNN),所述MRDB包含:殘差密集塊(residual dense block;RDB);以及空洞空間金字塔池化(atrous spatial pyramid pooling;ASPP)模組;藉由處理電路使用MRDB來計算MRDB輸出特徵圖;以及藉由處理電路基於MRDB輸出特徵圖來計算輸出影像,所述輸出影像是輸入影像的去雜訊版本。
方法可更包含:將輸入特徵圖供應至MRDB,可將輸入特徵圖供應至RDB的卷積模組的級聯以計算中間特徵圖,可將輸入特徵圖供應至ASPP以計算處於不同膨脹速率的多個特徵圖,處於不同膨脹速率的多個特徵圖可由級聯層級聯,可將級聯層的輸出與殘差密集塊的中間特徵圖級聯以形成RDB輸出特徵圖,且可基於RDB輸出特徵圖來計算MRDB輸出特徵圖。
可將輸入特徵圖供應至ASPP卷積模組,且可基於ASPP卷積模組的輸出來計算處於不同膨脹速率的多個特徵圖。
訓練後的CNN可包含多尺度殘差密集網路(multi-scale residual dense network;MRDN)及一或多個MRDB的級聯,所述多尺度殘差密集網路包含一或多個卷積層,所述一或多個MRDB的級聯包含MRDB。
可將輸入影像供應至MRDN的第一組卷積層;可將第一組卷積層的輸出供應至一或多個MRDB的級聯;可將一或多個MRDB的多個輸入與一或多個MRDB的級聯中的最後一個MRDB的輸出級聯,藉由1×1卷積層壓縮,且供應至第二組卷積層以計算MRDB輸出特徵圖;MRDB特徵圖可藉由加法器添加至第二組卷積層的輸出;且可將加法器的輸出供應至第三組卷積層以計算輸出影像。
訓練後的CNN可包含第一具有塊連接的U-net(U-Net-B)及多個MRDB,第一具有塊連接的U-net包含以多個尺度操作的編碼器及解碼器,包含MRDB的所述多個MRDB可以多個尺度連接編碼器及解碼器。
訓練後的CNN可更包含:第二U-Net,與第一U-Net-B級聯以形成具有塊連接的級聯U-net(MCU-Net);第一加法器,經組態以將輸入影像添加至第一U-Net-B的輸出,其中第一加法器的輸出連接至第二U-Net-B的輸入;以及第二加法器,經組態以將第一加法器的輸出添加至第二U-Net-B的輸出,其中第二加法器經組態以計算CNN的輸出。
訓練後的CNN可包含多尺度殘差密集網路(MRDN)及一或多個MRDB的級聯,所述多尺度殘差密集網路包含一或多個卷積層,所述一或多個MRDB的級聯包含MRDB;訓練後的CNN可更包含具有塊連接的級聯U-net(MCU-Net),所述級聯U-net包含第一具有塊連接的U-net(U-Net-B)及第二U-Net-B;MRDN及MCU-Net可經集合且經組態以計算第一去雜訊影像及第二去雜訊影像;且輸出影像可為第一去雜訊影像與第二去雜訊影像的組合。
使用者設備可更包含與使用者設備整合的攝影機系統,方法可更包含控制攝影機系統以捕獲輸入影像,且輸入影像可藉由處理電路自攝影機系統接收。
根據本揭露的一個實施例,一種用於擴充用於訓練神經網路以執行去雜訊的影像資料集的方法,所述影像資料集包含真實雜訊影像及對應地面實況影像,所述方法包含:藉由處理電路自對應地面實況影像中減去真實雜訊影像以計算雜訊影像;藉由處理電路基於對應地面實況影像的強度值對雜訊影像的多個雜訊值進行聚類;藉由處理電路置換每一叢集內的雜訊影像的雜訊值的多個位置;藉由處理電路基於雜訊值的置換後的位置生成合成雜訊影像;以及藉由處理電路將合成雜訊影像添加至地面實況影像以生成合成雜訊影像。
根據本揭露的一個實施例,一種組態以對影像進行去雜訊的使用者設備包含:處理電路;以及記憶體,儲存指令,所述指令在由處理電路執行時使得處理電路進行以下操作:接收輸入影像;將輸入影像供應至由處理電路實施的訓練後的卷積神經網路(CNN),所述訓練後的CNN包含多尺度殘差密集塊(MRDB),所述MRDB包含:殘差密集塊(RDB);以及空洞空間金字塔池化(ASPP)模組;使用MRDB來計算MRDB輸出特徵圖;以及基於MRDB輸出特徵圖來計算輸出影像,所述輸出影像是輸入影像的去雜訊版本。
記憶體可進一步儲存指令,所述指令在由處理電路執行時使得處理電路將輸入特徵圖供應至MRDB,可將輸入特徵圖供應至RDB的卷積模組的級聯以計算中間特徵圖,可將輸入特徵圖供應至ASPP以計算處於不同膨脹速率的多個特徵圖,處於不同膨脹速率的多個特徵圖可藉由級聯層級聯,可將級聯層的輸出與殘差密集塊的中間特徵圖級聯以形成RDB輸出特徵圖,且可基於RDB輸出特徵圖來計算MRDB輸出特徵圖。
可將輸入特徵圖供應至ASPP卷積模組,且可基於ASPP卷積模組的輸出來計算處於不同膨脹速率的多個特徵圖。
訓練後的CNN可包含多尺度殘差密集網路(MRDN)及一或多個MRDB的級聯,所述多尺度殘差密集網路包含一或多個卷積層,所述一或多個MRDB的級聯包含MRDB。
可將輸入影像供應至MRDN的第一組卷積層;可將第一組卷積層的輸出供應至一或多個MRDB的級聯;可將一或多個MRDB的多個輸入與一或多個MRDB的級聯中的最後一個MRDB的輸出級聯,藉由1×1卷積層壓縮,且供應至第二組卷積層以計算MRDB輸出特徵圖;MRDB特徵圖可藉由加法器添加至第二組卷積層的輸出;且可將加法器的輸出供應至第三組卷積層以計算輸出影像。
訓練後的CNN可包含第一具有塊連接的U-net(U-Net-B)及多個MRDB,第一具有塊連接的U-net包含以多個尺度操作的編碼器及解碼器,包含MRDB的所述多個MRDB可以多個尺度連接編碼器及解碼器。
訓練後的CNN可更包含:第二U-Net,與第一U-Net-B級聯以形成具有塊連接的級聯U-net(MCU-Net);第一加法器,經組態以將輸入影像添加至第一U-Net-B的輸出,其中第一加法器的輸出連接至第二U-Net-B的輸入;以及第二加法器,經組態以將第一加法器的輸出添加至第二U-Net-B的輸出,其中第二加法器經組態以計算CNN的輸出。
訓練後的CNN可包含多尺度殘差密集網路(MRDN)及一或多個MRDB的級聯,所述多尺度殘差密集網路包含一或多個卷積層,所述一或多個MRDB的級聯包含MRDB;訓練後的CNN可更包含具有塊連接的級聯U-net(MCU-Net),所述級聯U-net包含第一具有塊連接的U-net(U-Net-B)及第二U-Net-B;MRDN及MCU-Net可經集合且經組態以計算第一去雜訊影像及第二去雜訊影像;且輸出影像可為第一去雜訊影像與第二去雜訊影像的組合。
使用者設備可更包含與使用者設備整合的攝影機系統,處理電路可經進一步組態以控制攝影機系統以捕獲輸入影像,且輸入影像可藉由處理電路自攝影機系統接收。
在以下詳細描述中,藉助於說明僅繪示且描述本發明的某些例示性實施例。如熟習此項技術者將認識到,本發明可以許多不同形式體現且不應將其理解為限於本文中所闡述的實施例。
本揭露的實施例的態樣是關於用於執行影像處理的系統及方法。本揭露的實施例的一些態樣是關於對由數位攝影機捕獲的真實場景的影像(例如,與由合成三維場景的光線追蹤引擎或3-D圖形引擎呈現的影像相反的實像)進行去雜訊。本揭露的實施例的一些態樣是關於(例如,在應用其他數位濾波或有損影像壓縮之前)將影像處理技術應用於由數位攝影機捕獲的原始資料。特定而言,本揭露的實施例的一些態樣是關於處理由數位攝影機捕獲的輸入影像(例如,輸入雜訊影像)以獲得去雜訊影像(例如,具有減少的雜訊),其中輸入影像及去雜訊影像可位於特定於影像感測器或特定於攝影機的原始紅綠藍(red-green-blue;RGB)顏色空間(原始RGB)中及/或位於標準RGB顏色空間(例如,sRGB、scRGB、或Adobe RGB顏色空間)中。
舉例而言,由諸如獨立攝影機(例如,小型對準即拍(point-and-shoot)攝影機或可互換鏡頭的攝影機,諸如數位單鏡頭反射式攝影機)或整合至智慧型手機或其他計算裝置中的攝影機(例如,整合至可攜式電腦中的網路攝影機)的數位攝影機捕獲的影像可展現感測器雜訊。在將高增益施加至影像訊號的條件下(諸如,在低光條件下),此感測器雜訊可特別明顯。
一般而言,影像去雜訊減少或移除雜訊的存在,重建構影像的結構內容中的細節,且自較低品質的輸入影像生成較高品質的輸出影像。用於影像去雜訊的一些技術通常是關於自RGB資料(例如,sRGB資料)移除雜訊。此等技術包含使用手工或明確指定的濾波器的經典方法,諸如局部均值以及塊匹配及3D濾波(block-matching and 3D filtering;BM3D)。另外,諸如卷積神經網路(CNN)的神經網路架構提供基於機器學習的比較的手工技術的替代方案,其中基於較大訓練資料集(例如,雜訊影像集及對應低雜訊版本)自動訓練統計模型以對影像進行去雜訊。
對來自攝影機感測器的原始資料(例如,根據置放在感測器前面的彩色濾波器(諸如用於捕獲拜耳(Bayer)原始資料的拜耳彩色濾波器)的原始資料)進行去雜訊通常比在將原始資料轉換為RGB資料(諸如sRGB資料)之後進行去雜訊產生更高品質的結果。舉例而言,當攝影機內的影像訊號處理器(image signal processor;ISP)自拜耳原始感測器資料呈現sRGB影像時,拜耳原始資料內的簡單鹽雜訊將更改RGB影像中的相鄰像素的像素值,此可放大受RGB影像中的雜訊影響的像素的數目,由此降低RGB影像的品質。另一方面,若在呈現或轉換為RGB之前對原始拜耳資料應用去雜訊,則可減小雜訊的影響。
因此,儘管本揭露的實施例的一些態樣是關於用於對原始資料或原始攝影機資料格式(諸如拜耳原始資料)的影像進行去雜訊的系統及方法,但本揭露的實施例不限於此,且亦可應用於對其他格式的資料(諸如RGB影像資料及CMYK影像資料)進行去雜訊。
本揭露的實施例的一些應用是關於使用例如使用者設備(user equipment;UE)(諸如獨立數位攝影機或整合至智慧型手機中的數位攝影機)來執行影像處理。圖1為根據本揭露的一些實施例的數位攝影機系統100的實例的方塊圖,所述數位攝影機系統100可為例如獨立數位攝影機或智慧型手機的組件。為清楚起見,數位攝影機系統100通常包含數位攝影機模組110,所述數位攝影機模組110包含安裝在影像感測器114(例如,互補金屬氧化物半導體(complementary metal oxide semiconductor;CMOS)影像感測器)前面的鏡頭112。數位攝影機系統100可更包含處理電路,諸如處理器(例如,應用處理器(application processor;AP)及/或影像訊號處理器(ISP))130,其經組態以接收由數位攝影機模組110捕獲的資料(例如,場景的影像資料),且可將所接收的資料儲存在記憶體150中。記憶體150可包含動態記憶體(dynamic memory;DRAM)及/或持續記憶體(例如,快閃記憶體)。在一些情況下,將影像訊號處理器116整合至處理器130中。在一些實施例中,數位攝影機系統100更包含共處理電路或共處理器170,諸如現場可程式閘陣列(field programmable gate array;FPGA)、圖形處理單元(graphical processing unit;GPU)、向量處理器或神經處理單元。在一些實施例中,將共處理器與處理器130整合在一起(例如,在同一實體晶粒上)。處理器及共處理器在本文中可聯合地稱為「處理器」或「處理電路」,因為可根據各種設計選擇及對不同類型任務的適用性在不同實體電路之間分配各種操作。
在操作數位攝影機時,在許多情況下,數位攝影機模組110連續捕獲場景的影像。舉例而言,數位攝影機系統100可在顯示裝置190上顯示連續捕獲的影像,以基於當前捕獲設置(諸如焦點、光圈、快門速度、感測器增益(例如,ISO)、白平衡及類似者)經由鏡頭向使用者(例如,攝影師)提供視圖的即時預覽。在一些情況下,使用者可使用數位攝影機系統的控制件來更改捕獲設置,所述控制件可包含攝影機上的實體按鈕及撥號盤或軟控制件(例如,在觸敏式顯示裝置190上繪示的控制件)。作為一個實例,使用者可藉由觸摸顯示器的一部分來調整攝影機的焦點,所述顯示器的一部分顯示使用者希望攝影機聚焦的場景的對象的一部分。一般而言,使用者亦可藉由激活「快門開關器」或「記錄」控制件(例如,在螢幕上顯示的硬體按鈕或軟體按鈕)來觸發例如單個影像、影像連拍或視訊的記錄。
儘管圖1繪示數位攝影機系統100的一個實例,但本揭露的實施例不限於與其一起使用。舉例而言,根據本揭露的實施例的影像處理技術亦可在與數位攝影機100分離或遠離數位攝影機100的一或多個處理器上實施。在一些實施例中,將由數位攝影機系統100捕獲的數位影像(例如,原始攝影機資料或轉換的RGB資料)傳送至一或多個電腦系統(例如,膝上型電腦、桌上型電腦以及/或雲端計算系統的一或多個伺服器)及彼等一或多個電腦系統的處理器(例如,電子處理電路)以根據本揭露的實施例執行影像處理。
本揭露的實施例的各種態樣是關於實像去雜訊網路。本揭露的實施例的一個態樣是關於使用一或多個多尺度殘差密集塊(MRDB)的多尺度殘差密集網路(MRDN)。本揭露的實施例的另一態樣是關於具有塊連接的MRDB級聯U-Net(MCU-Net)。本揭露的實施例的態樣是關於:將MRDB用於神經塊設計中的多尺度特徵;使用塊連接替代針對多層特徵的跳躍連接;以及將雜訊置換用於資料擴充以減小模型過度擬合的似然性或避免模型過度擬合。本揭露的實施例在移除雜訊的同時在重建構或保留影像中的紋理細節方面實現良好的效能。
圖2為根據本揭露的一個實施例的使用包含多尺度殘差密集塊(MRDB)的卷積神經網路(CNN)處理影像的方法的流程圖。作為一個實例,可訓練包含MRDB的CNN架構以對輸入影像執行影像去雜訊,以使用MRDB生成輸入影像的影像處理(例如,去雜訊)版本。
如上文所描述,根據本揭露的實施例的用於影像處理系統的方法的各種操作可藉由計算系統的一或多個處理電路來實施。舉例而言,一些或全部操作可藉由處理器130(例如,影像訊號處理器及/或應用處理器)來執行,一些或全部操作可藉由共處理器170來執行,以及一些或全部操作可藉由遠端計算裝置(例如,雲端計算系統或諸如膝上型電腦或桌上型電腦的個人電腦系統)來執行。舉例而言,在本揭露的一些實施例中,影像處理系統完全在數位攝影機系統100內(例如,在記憶體150、處理器130以及/或共處理器170上),完全在個人電腦系統的影像處理系統內(例如,在個人電腦系統的一或多個處理電路及記憶體上)或完全在由雲端計算系統實施的影像處理系統(例如,雲端計算系統的處理電路)內實施。根據本揭露的實施例的影像處理系統亦可在藉由數位攝影機系統100、個人電腦系統以及雲端計算系統的局部處理的組合中實施。
參考圖2,根據本揭露的一個實施例,在操作210中,影像處理系統接收影像以進行處理。作為激勵實例,一個此類影像處理操作是去雜訊。在操作230中,處理系統將輸入影像供應至包含多尺度殘差密集塊(MRDB)的訓練後的卷積神經網路(CNN)。在操作250中,藉由使用MRDB計算特徵圖。在操作270中,基於由MRDB計算的特徵圖生成輸入影像的影像處理版本。
多尺度殘差密集塊 MRDB 及多尺度殘差密集網路 MRDN
圖3為示出根據本揭露的一個實施例的多尺度殘差密集塊(MRDB)300的架構的示意性方塊圖。
根據本揭露的實施例的MRDB將由空洞空間金字塔池化(ASPP)模組計算的多尺度特徵(參見例如,L. C. Chen, Y. Zhu, G.潘帕德里歐(Papandreou), F.施洛福(Schroff)以及H.亞當(Adam).用於語義影像分割的具有空洞可分離卷積的編碼器-解碼器(Encoder-decoder with atrous separable convolution for semantic image segmentation).在ECCV 中, 801-818, 2018.)與由殘差密集塊(RDB)模組計算的其他特徵(參見例如,Y. Zhang, Y. Tian, Y. Kong, B. Zhong以及Y. Fu.用於影像超解析度的殘差密集網路(Residual dense network for image super-resolution).在CVPR 中, 第2472-2481頁, 2018)組合,其中將輸入特徵圖302供應至ASPP模組320及RDB模組350。
如圖3中所繪示,將輸入特徵圖302供應至MRDB 300。輸入特徵圖302可為卷積神經網路的其他部分(或層)的輸出。在圖3中所繪示的實施例中,將輸入特徵圖302供應至一或多個卷積模組,諸如ASPP卷積模組310,其包含卷積(conv)層312及激活函數314。卷積層312對其輸入特徵圖執行卷積操作(例如,將輸入特徵圖與訓練後的卷積核的權重進行卷積)。激活函數314將函數應用於其輸入的每一元素(例如,應用於卷積層312的輸出的每一像素)。在圖3中所繪示的實施例中,激活函數314為整流線性單元(rectified linear unit;ReLU),但本揭露的實施例可使用其他激活函數,諸如洩漏ReLU函數、軟加(softplus)函數、柔性最大值函數(softmax function)、S型函數(sigmoid function)及類似者。
在圖3中所繪示的實施例中,ASPP卷積模組310的輸出作為輸入供應至ASPP模組320,所述ASPP模組320包含四個平行的網路塊或層,其包含conv 1×1 層322、conv 速率 6層324、conv 速率 12層326以及池化 層328。conv 速率 6 層324及conv 速率 12 層326分別指代實施膨脹速率為6及12的3×3膨脹卷積核的層,其中膨脹速率是指核的像素之間的間距或跨步。影像池化 層328基於輸入特徵計算全局特徵(例如,計算對ASPP 320的輸入中的全部特徵上的全局平均值或全局最大值)。Conv 速率 6 層324、conv 速率 12 層326以及影像池化 層328根據在卷積層的情況下由其膨脹速率設置的其接收場的大小或在池化層328的情況下的全局特徵,以不同尺度(多尺度)捕獲塊的輸入特徵。由ASPP模組320計算的特徵藉由級聯模組330的級聯(concat)層332級聯,且使用級聯模組330的conv 1×1 層334壓縮。級聯模組330的輸出隨後與由RDB模組350計算的其他特徵組合,下文將更詳細地描述。
儘管圖3示出具有四個平行的網路塊conv1×1 層322、conv 速率 6層324、conv 速率 12 層326以及池化 層328的ASPP模組320,但本揭露的實施例不限於此。舉例而言,ASPP模組320可包含以不同膨脹速率(例如,以除6及12外的膨脹速率)及/或以不同大小的核(例如,5×5核)實施卷積的額外塊或層。
MRDB 300的殘差密集塊(RDB)350包含按順序連接的多個卷積模組,其中上游模組的輸出至下游模組的輸入之間的殘差連接包含級聯模組358。在圖3中所繪示的實施例中,RDB包含第一卷積模組352、第二卷積模組354以及第三卷積模組356,其中每一卷積模組包含卷積層(例如,在結構上與卷積模組310的卷積層312類似於)及激發函數層(例如,實施ReLU、softmax或類似者)。
舉例而言,第一殘差連接將待與其他輸入組合(例如,級聯)的輸入特徵圖302供應至第二卷積模組354、第三卷積模組356以及級聯模組358。
類似地,來自第一卷積模組352的輸出的第二殘差連接將待與其他輸入(例如,來自第一殘差連接的輸入特徵圖302的複本)組合(例如,級聯)的第一卷積模組352的第一輸出特徵圖供應至第三卷積模組356及級聯模組358。
同樣地,來自第二卷積模組的輸出的第三殘差連接第二卷積模組354的第二輸出特徵圖供應至級聯模組358,以便與的其他輸入組合(例如,級聯)。
RDB 350的級聯模組358經由殘差連接將最後一個卷積模組(例如,第三卷積模組356)的輸出與來自早期模組的特徵圖級聯,以計算中間特徵圖,所述中間特徵圖與ASPP模組320的級聯模組330的輸出級聯且使用conv 1×1 層壓縮級聯結果。級聯模組358的輸出藉由加法器360添加至輸入特徵圖302以計算MRDB的輸出特徵圖392。
圖4是示出根據本揭露的一個實施例的包含一或多個MRDB的多尺度殘差密集網路(MRDN)400的架構的示意性方塊圖。根據本揭露的實施例的一個態樣的多尺度殘差密集網路(MRDN)是基於多尺度殘差密集塊(MRDB)。MRDB的輸出保持其輸入的相同數目的通道,以避免指數複雜性增加(因為若MRDB的輸出通道數目大於輸入通道數目,則將是所述情況)。神經網路的MRDN架構包含具有密集連接的MRDB級聯。特定言之,將MRDB的輸出用conv 1×1 層級聯且壓縮,且採用全局殘差連接以獲得清潔特徵。
在圖4中所繪示的實例中,MRDN包含三個MRDB。然而,本揭露的實施例不限於此,且MRDN可包含一或多個MRDB(例如,至少一個MRDB)。
根據本揭露的一些實施例,MRDN是經訓練以對輸入影像執行影像處理的卷積神經網路(CNN)。舉例而言,在一些實施例中,訓練MRDN以對輸入影像402執行去雜訊,以生成去雜訊影像492。然而,本揭露的實施例不限於此。舉例而言,在一些實施例中,諸如藉由在訓練過程中使用不同訓練資料來訓練MRDN以執行不同影像處理操作,諸如邊緣偵測、對比度增強及類似者。在本揭露的一些實施例中,MRDN用作神經網路的組件,其中MRDN的輸入是輸入特徵圖(例如,神經網路的另一部分的輸出),且其輸出是輸出特徵(例如,作為輸入供應至其他計算,諸如神經網路的另一部分或經典影像處理濾波器的輸入)。
在圖4中所繪示的實施例中,將輸入影像402供應至按順序配置的第一組卷積層410,其包含將其輸出供應至第二卷積層412的第一卷積層411。類似於上述卷積層,此等卷積層中的每一者可包含訓練權重(例如,經由訓練過程學習的權重)的卷積核,其中將卷積層的輸入與其對應卷積核卷積以生成對應輸出特徵圖。儘管圖4中所繪示的實施例中的第一組卷積層410按順序包含兩個卷積層411及卷積層412,但本揭露的實施例不限於此,且可包含超過兩個卷積層或僅一個卷積層。
將第一組卷積層410的輸出供應至按順序配置的一組一或多個MRDB 430。在圖4中所繪示的實施例中,MRDB組430包含經組態以將其輸出供應至第二MRDB 432的第一MRDB 431,其中第二MRDB 432經組態以將其輸出供應至第三MRDB 433。在一些實施例中,MRDB組430中的每一MRDB具有實質上類似於如圖3中所繪示的MRDB 300的結構的結構,其包含ASPP模組及RDB,其中組合ASPP模組及RDB的輸出以生成MRDB的輸出。另外,在圖4中所繪示的實施例中,殘差密集連接438將每一MRDB的輸入提供至最後一個MRDB(例如,第三MRDB 433)的輸出。藉由級聯模組440將此等輸入與最後一個MRDB的輸出級聯,所述級聯模組440包含級聯層441及壓縮級聯資訊的Conv 1×1 層442。
級聯模組440的輸出進一步供應至一或多個第二卷積層450(例如,圖4中繪示為一個卷積層451)。加法器460將第二卷積層450的輸出添加至來自第一組卷積層410的特徵圖,作為全局殘差連接462。 在圖4中所繪示的實施例中,來自第一組卷積層410的特徵圖是第一卷積層411的輸出。
在圖4中所繪示的實施例中,將加法器460的輸出供應至一或多個第三卷積層470。在圖4中所繪示的實施例中,此等第三卷積層470包含卷積層471及卷積層472。第三卷積層470計算輸出影像492(例如,根據MRDN 400的訓練,輸入影像402的去雜訊或以其他方式進行影像處理的版本)。
根據本揭露的一些實施例,來訓練MRDN以執行特定影像處理操作,諸如影像去雜訊,使用例如反向傳播及梯度下降對標記的訓練資料(例如,雜訊及去雜訊影像的對)進行端對端訓練來訓練卷積層的卷積核的權重及神經網路的任何其他訓練層(例如,完全連接的層)的其他權重。
因此,本揭露的實施例的一些態樣是關於根據本揭露的實施例的多尺度殘差密集網路(MRDN)架構,所述多尺度殘差密集網路架構可經訓練以使用多尺度殘差密集塊(MRDB)來執行影像處理操作,諸如影像去雜訊。
具有塊連接的多尺度殘差密集塊級聯 U-Net
本揭露的實施例的一些態樣是關於包含多尺度殘差密集塊(MRDB)的其他卷積神經網路(CNN)架構。更詳細地,本揭露的一些實施例是關於具有塊連接的多尺度殘差密集塊級聯U-Net。
圖5為根據本揭露的一個實施例的具有塊連接的多尺度殘差密集塊級聯U-Net的示意圖。在圖5中所繪示的實施例中,具有塊連接的U-Net(U-Net-B)500以第一尺度510獲取輸入特徵圖或輸入影像502,且藉由使用三個下取樣513、下取樣535以及下取樣557在尺度之間按比例縮小特徵圖及使用三個對應上取樣575、上取樣553以及上取樣531在尺度之間按比例放大特徵圖來以三個額外尺度530、額外尺度550以及額外尺度570操作。U-Net-B的輸出592可為輸出特徵圖或輸出影像(例如,輸入影像502的影像處理版本,諸如輸入影像502的去雜訊版本)。
可將U-Net-B 500視為包含編碼器501,所述編碼器501經組態以以多個尺度生成供應至解碼器509的編碼特徵(例如,特徵圖524、特徵圖544、特徵圖564以及特徵圖584),所述解碼器509組合來自不同尺度的特徵以生成輸出592。根據本揭露的實施例的U-Net-B 500使用MRDB作為架構的編碼器501與解碼器509部分之間的連接(作為「塊連接」),此使得U-Net-B 500能夠自適應地變換U-Net-B 500的編碼器501的特徵,且將變換後的特徵傳送至U-Net-B 500的解碼器509。而且,為了豐富其性能及魯棒性,MCU-Net採用級聯結構。相反,不使用MRDB的比較U-Net利用跳躍連接來跳過編碼器及解碼器上的層,而無需執行特徵圖的進一步變換。
更詳細地,在圖5中所繪示的實施例中,1×1卷積層511用於擴展來自輸入502(例如,輸入特徵圖或輸入影像)的特徵通道的數目以生成擴展輸入521。將擴展輸入521供應至第一尺度510的第一MRDB 512以計算第一尺度510處的第二特徵圖522。將第一尺度510處的第二特徵圖522供應至第二MRDB 514,所述第二MRDB 514計算第一尺度510處的編碼特徵524。亦將第二特徵圖522供應至第一下取樣模組513,所述第一下取樣模組513對第二特徵圖522進行下取樣,且將1×1卷積施加至下取樣特徵圖以生成第二尺度530處的第一特徵圖541。
將第二尺度530處的第一特徵圖541供應至第二尺度530處的第一MRDB 532以計算第二尺度530處的第二特徵圖542。將第二尺度處的第二特徵圖542供應至第二尺度530處的第二MRDB 534以計算第二尺度530處的編碼特徵544。將第二尺度530處的第二特徵圖542進一步供應至下取樣模組535,所述下取樣模組535對第二特徵圖542進行下取樣且將1×1卷積施加至下取樣第二特徵圖以生成第三尺度550處第一特徵圖561。
將第三尺度550處的第一特徵圖561供應至第三尺度550處的第一MRDB 552以計算第三尺度550處的第二特徵圖562。將第二尺度處的第二特徵圖562供應至第二尺度550處的第二MRDB 554以計算第三尺度550處的編碼特徵564。將第三尺度550處的第二特徵圖562進一步供應至下取樣模組557,所述下取樣模組557對第二特徵圖562進行下取樣,且將1×1卷積施加至下取樣第二特徵圖以生成第四尺度570的第一特徵圖581。
將第四尺度570的第一特徵圖581供應至第四尺度570的MRDB 572以計算第四尺度570的編碼特徵584。
將第一尺度510、第二尺度530、第三尺度550以及第四尺度570的編碼特徵524、編碼特徵544、編碼特徵564以及編碼特徵584分別供應至編碼器509。
將第四尺度570處的編碼特徵584供應至上取樣模組575,所述上取樣模組575將編碼特徵584自第四尺度570上取樣至第三尺度550以生成第三尺度550處的上取樣特徵565。
將上取樣特徵565與第三尺度550處的編碼特徵564級聯,且將級聯特徵供應至第三尺度550的第三MRDB 556以生成第三尺度550處的輸出特徵566。將第三尺度550處的輸出特徵566供應至上取樣模組553,以將輸出特徵556自第三尺度550上取樣至第二尺度530,且將1×1卷積施加至上取樣特徵以生成第二尺度530處的上取樣特徵545。
將上取樣特徵545與第二尺度530處的編碼特徵544級聯,且將級聯特徵供應至第二尺度530的第三MRDB 536以生成第二尺度530處的輸出特徵546。將第二尺度530處的輸出特徵546供應至上取樣模組531,以將輸出特徵546自第二尺度530上取樣至第一尺度510,且將1×1卷積施加至上取樣特徵以生成第一尺度510處的上取樣特徵525。
將上取樣特徵525與第一尺度510處的編碼特徵524級聯,且將級聯特徵供應至第一尺度510的第三MRDB 516以生成第一尺度530處的輸出特徵526。藉由1×1 Conv層517將輸出1×1卷積施加至輸出特徵526以生成輸出592。
儘管圖5中繪示的實施例繪示具有四個不同尺度及在每一尺度處具有三個MRDB的U-Net-B 500架構,但本揭露的實施例不限於此。舉例而言,根據本揭露的實施例的U-Net-B可包含超過四個尺度且可在各種尺度處包含不同數目的MRDB(例如,每一尺度處至少一個MRDB)。每一尺度處的MRDB的數目在不同尺度之間可不同。
在一些實施例中,為確保網路僅學習訓練輸入502與標記的訓練輸出592之間的差異,施加殘差連接。舉例而言,在影像去雜訊的情況下,使用殘差連接縮短或簡化用於訓練網路以學習如何消除輸入影像中的雜訊的存在且生成乾淨輸出影像的訓練過程。
圖6為根據本揭露的一個實施例的具有塊連接的多尺度殘差密集級聯U-Net(MCU-Net)的方塊圖。在圖6中所繪示的實施例中,將兩個U-Net-B 651及U-Net-B 652級聯(例如,按順序或串聯配置)。將諸如輸入影像或輸入特徵圖的輸入602供應至計算第一特徵圖的第一U-Net-B 651。自輸入至第一U-Net-B 651的第一殘差連接631將輸入602供應至第一加法器661,所述第一加法器661將第一特徵圖添加至輸入602。
將第一加法器661的輸出供應至計算第二特徵圖的第二U-Net-B 652。第二殘差連接632將第一加法器的輸出供應至第二加法器662,所述第二加法器662將第一加法器的輸出添加至第二特徵圖652以計算輸出692(例如,輸出特徵圖或輸出影像,諸如輸入602的去雜訊版本)。
如上文所提到,當端對端訓練MCU-Net 600時(例如,藉由在輸入處供應雜訊影像以訓練權重來匹配輸出處的訓練去雜訊影像),殘差連接631及殘差連接632使得兩個U-Net-B 651及U-Net-B 652學習其輸入與所要輸出(例如,消除雜訊的值)之間的差異。
因此,本揭露的實施例的一些態樣是關於用於執行包含影像去雜訊的影像處理的MCU-Net架構,其中MCU-Net使用MRDB來執行MCU-Net的編碼器與解碼器之間的特徵的額外變換,由此改良影像處理的品質,諸如自輸入影像中減小或移除雜訊。
集合網路
本揭露的實施例的一些態樣是關於其中組合不同網路的輸出的集合網路。舉例而言,根據本揭露的一些實施例的多尺度殘差密集網路(MRDN)(參見例如圖4)可與另一訓練預測器(例如,另一卷積類神經網路)集合。作為另一實例,根據本揭露的一個實施例的具有塊連接的多尺度殘差密集級聯U-Net(MCU-Net)可與另一訓練後的預測器集合。
圖7為示出其中MRDN與MCU-Net集合的網路集合的一個實例的方塊圖。如圖7中所繪示,集合700獲取輸入702(例如,雜訊影像)且將影像作為輸入供應至第一網路750(例如,MRDN)及第二網路760(例如,MCU-Net 760)兩者,其中訓練第一網路750及第二網路760兩者以對作為輸入供應至他們的輸入影像進行去雜訊。兩個網路750及網路760計算輸出去雜訊影像,且組合模組770組合兩個輸出去雜訊影像(例如,藉由計算兩個影像的像素的平均值或均值)以生成集合的輸出792。
儘管圖7示出將兩個網路集合在一起的實施例,但本揭露的實施例不限於此。舉例而言,亦可平行於第一網路750及第二網路760添加具有不同網路架構的額外去雜訊網路。在一些實施例中,組合模組770使用除平均值外的操作來組合不同網路的輸出,諸如基於不同網路在計算值中的置信度的加權平均值或基於投票的組合。舉例而言,在一些實施例中,在基於投票的組合中,比較由不同網路計算的輸出值,且丟棄計算值中的統計離群值(例如,在三個網路的情況下,若兩個網路生成非常接近的值,且第三個網路生成非常不同的值,則隨後丟棄由第三個網路生成的值,且返回前兩個網路的平均值作為輸出)。
另外,儘管圖7描繪使用平均值作為由組合模組770執行的操作,但本揭露的實施例不限於此。舉例而言,在本揭露的一些實施例中,基於不同網路的輸出影像的不同塊中的品質度量(例如,平滑度)來評估由不同網路計算的值,且基於品質度量在每一塊中對不同網路的輸出進行加權。
因此,本揭露的實施例的一些態樣是關於用於使用包含包含一或多個MRDB的網路的網路集合以執行諸如影像去雜訊的影像處理操作的神經網路架構及方法。
訓練資料 / 具有雜訊置換的資料擴充
如上文所提到,使用訓練資料集來訓練根據本揭露的實施例的用於使用神經網路架構執行影像處理操作的神經網路,所述訓練資料集包含雜訊輸入影像及對應去雜訊「地面實況」影像(例如,網路的所要無雜訊輸出)。訓練神經網路通常涉及初始化神經網路(例如,將網路中的權重,諸如卷積核中的權重設置為隨機值),且將訓練輸入資料供應至網路。隨後,將網路的輸出與標記的訓練資料進行比較以生成誤差訊號(例如,當前輸出與「地面實況」輸出之間的差),且將反向傳播演算法與梯度下降一起使用以更新權重,經過多次迭代,使得網路計算出更接近於所要地面實況影像的結果。
用於訓練卷積神經網路以執行去雜訊的影像資料集可基於資料集內提供的雜訊影像的來源而分成兩類:合成影像資料集及實像資料集。合成影像資料集通常藉由以下構建:首先藉由對高解析度影像進行下取樣或對較低ISO影像進行後處理來收集高品質影像作為無雜訊影像;隨後基於統計雜訊模型(例如,高斯(Gaussian)雜訊模型或泊松-高斯(Poissonian-Gaussian)雜訊模型)添加合成雜訊以生成合成雜訊影像。實像資料集通常由以下生成的:首先在短時間內收集多個真實雜訊影像(例如,確保最小的影像內容改變,諸如場景亮度改變或場景中的對象的移動);隨後融合此等多個影像以生成合成的無雜訊或低雜訊影像。
一般而言,使用實像技術生成的影像資料集更接近於實際應用中處理的真實資料。然而,由於訓練資料大小的限制(例如,資料集可能不夠大而無法避免過度擬合的風險),基於學習的方法仍面臨過度擬合問題的挑戰。
因此,本揭露的實施例的一些態樣是關於使用雜訊置換的資料擴充,所述資料擴充可藉由利用真實內容及真實雜訊資訊來生成額外合成雜訊影像資料。
資料擴充是幫助神經網路避免過度擬合問題的有效技術。一些資料擴充的比較方法涉及抖動輸入雜訊影像的各種參數,諸如亮度、對比度以及/或飽和度。然而,此等抖動方法可能會改變真實雜訊影像的雜訊特性,且因此可能不會生成表示在真實世界條件下可看到的資料。其他常見影像擴充(諸如影像翻轉及旋轉)無法直接原始RGB資料(例如,拜耳原始資料)一起使用,因為像素的偏移位置可能不與拜耳濾波器的實際位置對準,且因為不同像素顏色可能與不同雜訊特性相關聯。因此,由於在擴充之後的不匹配的拜耳模式,此等比較資料擴充技術將生成低品質的訓練影像。
本發明的態樣是關於一種利用來自真實雜訊影像的真實雜訊來生成額外合成雜訊影像的雜訊資料置換方法。藉由改變真實雜訊的空間分佈,生成具有真實內容及雜訊的更多訓練樣本。
圖8為示出根據本揭露的一個實施例的生成合成雜訊影像的方法的方塊圖。圖8中所繪示的方法可使用適當的處理電路(諸如個人電腦或伺服器電腦的處理器及記憶體)來實施。
如圖8中所繪示,真實雜訊影像801中的雜訊資料的表示或影像由雜訊提取器810生成,所述雜訊提取器810自其對應雜訊影像801中減去地面實況(無雜訊)影像803。將所得雜訊資料或雜訊影像(例如,真實雜訊影像801與無雜訊影像803之間的差)供應至雜訊聚類模組820,所述雜訊聚類模組820經組態以基於地面實況(無雜訊)影像803的對應位置處的強度值將資料分為
Figure 02_image001
個叢集。舉例而言,
Figure 02_image001
可指地面實況影像803中的灰階的數目(例如,在8位元彩色的情況下,每個子像素的
Figure 02_image003
不同階),且因此具有強度
Figure 02_image005
的地面實況影像803中的每一位置處的雜訊資料的值一起分組為自1至
Figure 02_image001
的每一值
Figure 02_image005
的第
Figure 02_image005
個叢集。
在每一叢集內,執行隨機置換830以交換彼等雜訊值的位置。舉例而言,雜訊置換模組831置換對應於地面實況影像803中的第一強度值的全部位置的雜訊值的位置,雜訊置換模組832置換對應於地面實況影像803中的第i 個強度值的全部位置的雜訊值的位置,且雜訊置換模組833置換對應於地面實況影像803中的第N 個強度值的全部位置的雜訊值的位置。在置換之後,雜訊影像再生模組840將置換後的雜訊值放回至地面實況影像803中的相等強度的位置來生成新的合成雜訊影像,且加法器860將合成雜訊影像添加回對應地面實況影像803以生成新的合成雜訊影像891。可使用相同輸入影像重複此過程若干次,但雜訊值的不同置換以生成不同合成雜訊影像892。同樣地,對於來自訓練資料集的每一訓練影像及地面實況影像對,過程可重複若干次。
因此,本揭露的實施例的一些態樣是關於使用雜訊置換的資料擴充,所述資料擴充:不基於統計雜訊模型引入人工雜訊;在恰當N 的情況下,很大程度上保持原始攝影機資料(例如,原始RGB空間或原始拜耳資料)中的雜訊的訊號相依性屬性;以及對於給定地面實況影像,其提供具有不同近真實雜訊影像的更多訓練樣本。因此,使用雜訊置換的資料擴充增加訓練資料集的大小,其中資料更接近於在真實世界情況下會遇到的雜訊類型的,由此有助於避免訓練期間的模型過度擬合。
因此,本揭露的實施例的各種態樣是關於使用包含多尺度殘差密集塊(MRDB)的卷積神經網路(CNN)進行影像處理的系統及方法。本揭露的一些實施例是關於用於包含一或多個MRDB的CNN的架構。舉例而言,多尺度殘差密集網路(MRDN)包含卷積層及具有殘差連接的一系列級聯MRDB。作為另一實例,具有塊連接的U-Net(U-Net-B)是基於U-Net架構且更包含MRDB,以提供U-Net-B的編碼器部分與解碼器部分之間的連接。具有塊連接的多尺度殘差密集級聯U-Net(MCU-Net)包含以級聯形式配置的多個U-Net-B,以及殘差連接以訓練網路以學習影像感測器的雜訊圖案特性。
另外,本揭露的實施例的一些態樣是關於用於去雜訊的訓練資料集的資料擴充。根據本揭露的此等實施例擴充的資料集可用於訓練根據本揭露的其他實施例神經網路。在一些實施例中,在諸如智慧型手機、數位攝影機系統及類似者的使用者設備(UE)上部署且執行根據本揭露的實施例的訓練後的神經網路(例如,包含MRDB、MRDN的神經網路、包含U-Net-B或MCU-NET的神經網路)。
儘管已結合某些例示性實施例描述本發明,但應理解本發明並不限於所揭露的實施例,但相反地,本發明意欲涵蓋包含於所附申請專利範圍及其等效物的精神及範疇內的各種修改及等效配置。
100:數位攝影機系統 110:數位攝影機模組 112:鏡頭 114:影像感測器 130:處理器 150:記憶體 170:共處理器 190:顯示裝置 210、230、250、270:操作 300:多尺度殘差密集塊 302:輸入特徵圖 310:ASPP卷積模組 312、451、471、472:卷積層 314:激活函數 320:ASPP模組 322、334、442:conv1×1層 324:conv速率6層 326:conv速率12層 328:池化層 330、358、440:級聯模組 332、441:級聯層 350:RDB模組 352:第一卷積模組 354:第二卷積模組 356:第三卷積模組 360、460、860:加法器 392:輸出特徵圖 400:多尺度殘差密集網路 402:輸入影像 410:第一組卷積層 411:第一卷積層 412、450:第二卷積層 430:MRDB組 431、512、532、552:第一MRDB 432、514、534、554:第二MRDB 433、516、536、556:第三MRDB 438:殘差密集連接 462:全局殘差連接 470:第三卷積層 492:去雜訊影像 500:U-Net-B 501:編碼器 502:輸入影像 509:解碼器 510:第一尺度 511:1×1卷積層 513:下取樣/第一下取樣模組 517:1×1Conv層 521:擴展輸入 522、542、562:第二特徵圖 524、544、564、584:特徵圖/編碼特徵 525、545、565:上取樣特徵 526、546、566:輸出特徵 530:第二尺度/額外尺度 531、553、575:上取樣/上取樣模組 535、557:下取樣/下取樣模組 541、561、581:第一特徵圖 550:第三尺度/額外尺度 570:第四尺度/額外尺度 572:MRDB 592:輸出/標記的訓練輸出 600:MCU-Net 602、702:輸入 631:第一殘差連接 632:第二殘差連接 651、652:U-Net-B 661:第一加法器 662:第二加法器 692、792:輸出 700:集合 750:第一網路 760:第二網路 770:組合模組 801:真實雜訊影像 803:地面實況影像 810:雜訊提取器 820:雜訊聚類模組 830:隨機置換 831、832、833:雜訊置換模組 840:雜訊影像再生模組 891:合成雜訊影像
隨附圖式連同本說明書一起示出本發明的例示性實施例,且連同描述一起用以解釋本發明的原理。 圖1為根據一個實施例的數位攝影機系統的實例的方塊圖。 圖2為根據本揭露的一個實施例的使用包含多尺度殘差密集塊(MRDB)的卷積神經網路(CNN)處理影像的方法的流程圖。 圖3為示出根據本揭露的一個實施例的多尺度殘差密集塊(MRDB)的架構的示意性方塊圖。 圖4為示出根據本揭露的一個實施例的包含一或多個MRDB的多尺度殘差密集網路的架構的示意性方塊圖。 圖5為根據本揭露的一個實施例的具有塊連接的多尺度殘差密集塊級聯U-Net的示意圖。 圖6為根據本揭露的一個實施例的具有塊連接的多尺度殘差密集級聯U-Net(MCU-Net)的方塊圖。 圖7為示出根據本揭露的一個實施例的其中MRDN與MCU-Net集合在一起的網路集合的一個實例的方塊圖。 圖8為示出根據本揭露的一個實施例的生成合成雜訊影像的方法的方塊圖。
210、230、250、270:操作

Claims (19)

  1. 一種用於對影像進行去雜訊的方法,包括: 藉由使用者設備的處理電路接收輸入影像; 藉由所述處理電路將所述輸入影像供應至包括多尺度殘差密集塊(MRDB)的訓練後的卷積神經網路(CNN),所述多尺度殘差密集塊包括: 殘差密集塊(RDB);以及 空洞空間金字塔池化(ASPP)模組; 藉由所述處理電路使用所述多尺度殘差密集塊來計算多尺度殘差密集塊輸出特徵圖;以及 藉由所述處理電路基於所述多尺度殘差密集塊輸出特徵圖來計算輸出影像,所述輸出影像是所述輸入影像的去雜訊版本。
  2. 如請求項1所述的方法,更包括將輸入特徵圖供應至所述多尺度殘差密集塊, 其中將所述輸入特徵圖供應至所述殘差密集塊的卷積模組的級聯以計算中間特徵圖, 其中將所述輸入特徵圖供應至所述空洞空間金字塔池化模組,以計算處於不同膨脹速率的多個特徵圖, 其中所述處於不同膨脹速率的多個特徵圖由級聯層級聯, 其中將所述級聯層的輸出與所述殘差密集塊的中間特徵圖級聯以形成殘差密集塊輸出特徵圖,且 其中基於所述殘差密集塊輸出特徵圖來計算所述多尺度殘差密集塊輸出特徵圖。
  3. 如請求項2所述的方法,其中將所述輸入特徵圖供應至空洞空間金字塔池化卷積模組,且 其中基於所述空洞空間金字塔池化卷積模組的輸出來計算所述處於不同膨脹速率的多個特徵圖。
  4. 如請求項1所述的方法,其中訓練後的所述卷積神經網路包括多尺度殘差密集網路(MRDN)及一或多個多尺度殘差密集塊的級聯,所述多尺度殘差密集網路包括一或多個卷積層,所述一或多個多尺度殘差密集塊的級聯包括所述多尺度殘差密集塊。
  5. 如請求項4所述的方法,其中將所述輸入影像供應至所述多尺度殘差密集網路的第一組卷積層, 其中將所述第一組卷積層的輸出供應至所述一或多個多尺度殘差密集塊的級聯, 其中將所述一或多個多尺度殘差密集塊的多個輸入與所述一或多個多尺度殘差密集塊的級聯中的最後一個多尺度殘差密集塊的輸出級聯,藉由1×1卷積層壓縮,且供應至第二組卷積層以計算所述多尺度殘差密集塊輸出特徵圖, 其中所述多尺度殘差密集塊特徵圖藉由加法器添加至所述第二組卷積層的輸出,且 其中將所述加法器的輸出供應至第三組卷積層以計算所述輸出影像。
  6. 如請求項1所述的方法,其中訓練後的所述卷積神經網路包括第一具有塊連接的U-net(U-Net-B),所述第一具有塊連接的U-net包括以多個尺度操作的編碼器及解碼器, 其中,包括所述多尺度殘差密集塊的多個多尺度殘差密集塊以多個尺度連接所述編碼器及所述解碼器。
  7. 如請求項6所述的方法,其中訓練後的所述卷積神經網路更包括: 第二具有塊連接的U-net,與所述第一具有塊連接的U-net級聯以形成具有塊連接的級聯U-net(MCU-Net), 第一加法器,經組態以將所述輸入影像添加至所述第一具有塊連接的U-net的輸出,其中所述第一加法器的輸出連接至所述第二具有塊連接的U-net的輸入;以及 第二加法器,經組態以將所述第一加法器的所述輸出添加至所述第二具有塊連接的U-net的輸出,其中所述第二加法器經組態以計算所述卷積神經網路的輸出。
  8. 如請求項1所述的方法,其中訓練後的所述卷積神經網路包括多尺度殘差密集網路(MRDN)及一或多個多尺度殘差密集塊的級聯,所述多尺度殘差密集網路包括一或多個卷積層,所述一或多個多尺度殘差密集塊的級聯包括所述多尺度殘差密集塊, 其中訓練後的所述卷積神經網路更包括具有塊連接的級聯U-net(MCU-Net),所述具有塊連接的級聯U-net包括第一具有塊連接的U-net(U-Net-B)及第二具有塊連接的U-net, 其中所述多尺度殘差密集網路及所述具有塊連接的級聯U-net經集合且經組態以計算第一去雜訊影像及第二去雜訊影像,且 其中所述輸出影像是所述第一去雜訊影像與所述第二去雜訊影像的組合。
  9. 如請求項1所述的方法,其中所述使用者設備更包括與所述使用者設備整合的攝影機系統, 其中所述方法更包括控制所述攝影機系統以捕獲所述輸入影像,且 其中所述輸入影像藉由所述處理電路自所述攝影機系統接收。
  10. 如請求項1所述的方法,更包括獲得用於訓練所述卷積神經網路的影像資料集,所述影像資料集包括真實雜訊影像及對應地面實況影像,獲得影像資料集包括: 藉由所述處理電路自對應的地面實況影像中減去真實雜訊影像以計算雜訊影像; 藉由所述處理電路基於對應的所述地面實況影像的強度值對所述雜訊影像的多個雜訊值進行聚類; 藉由所述處理電路置換每一叢集內的所述雜訊影像的所述多個雜訊值的多個位置; 藉由所述處理電路基於所述多個雜訊值的置換後的位置生成合成雜訊影像;以及 藉由所述處理電路將所述合成雜訊影像添加至所述地面實況影像以生成合成雜訊影像。
  11. 一種使用者設備,組態以對影像進行去雜訊,所述使用者設備包括: 處理電路;以及 記憶體,儲存指令,所述指令在由所述處理電路執行時使得所述處理電路進行以下操作: 接收輸入影像; 將所述輸入影像供應至由所述處理電路實施的訓練後的卷積神經網路(CNN),訓練後的所述卷積神經網路包括多尺度殘差密集塊(MRDB),所述多尺度殘差密集塊包括: 殘差密集塊(RDB);以及 空洞空間金字塔池化(ASPP)模組; 使用所述多尺度殘差密集塊來計算多尺度殘差密集塊輸出特徵圖;以及 基於所述多尺度殘差密集塊輸出特徵圖來計算輸出影像,所述輸出影像是所述輸入影像的去雜訊版本。
  12. 如請求項11所述的使用者設備,其中所述記憶體進一步儲存指令,所述指令在由所述處理電路執行時使得所述處理電路將輸入特徵圖供應至所述多尺度殘差密集塊, 其中將所述輸入特徵圖供應至所述殘差密集塊的卷積模組的級聯以計算中間特徵圖, 其中將所述輸入特徵圖供應至所述空洞空間金字塔池化模組,以計算處於不同膨脹速率的多個特徵圖, 其中所述處於不同膨脹速率的多個特徵圖由級聯層級聯, 其中將所述級聯層的輸出與所述殘差密集塊的中間特徵圖級聯以形成殘差密集塊輸出特徵圖,且 其中基於所述殘差密集塊輸出特徵圖來計算所述多尺度殘差密集塊輸出特徵圖。
  13. 如請求項12所述的使用者設備,其中將所述輸入特徵圖供應至空洞空間金字塔池化卷積模組,且 其中基於所述空洞空間金字塔池化卷積模組的輸出來計算所述處於不同膨脹速率的多個特徵圖。
  14. 如請求項11所述的使用者設備,其中訓練後的所述卷積神經網路包括多尺度殘差密集網路(MRDN)及一或多個多尺度殘差密集塊的級聯,所述多尺度殘差密集網路包括一或多個卷積層,所述一或多個多尺度殘差密集塊的級聯包括所述多尺度殘差密集塊。
  15. 如請求項14所述的使用者設備,其中將所述輸入影像供應至所述多尺度殘差密集網路的第一組卷積層, 其中將所述第一組卷積層的輸出供應至所述一或多個多尺度殘差密集塊的級聯, 其中將所述一或多個多尺度殘差密集塊的多個輸入與所述一或多個多尺度殘差密集塊的級聯中的最後一個多尺度殘差密集塊的輸出級聯,藉由1×1卷積層壓縮,且供應至第二組卷積層以計算所述多尺度殘差密集塊輸出特徵圖, 其中所述多尺度殘差密集塊特徵圖藉由加法器添加至所述第二組卷積層的輸出,且 其中將所述加法器的輸出供應至第三組卷積層以計算所述輸出影像。
  16. 如請求項11所述的使用者設備,其中訓練後的所述卷積神經網路包括第一具有塊連接的U-net(U-Net-B),所述第一具有塊連接的U-net包括以多個尺度操作的編碼器及解碼器, 其中,包括所述多尺度殘差密集塊的多個多尺度殘差密集塊以多個尺度連接所述編碼器及所述解碼器。
  17. 如請求項16所述的使用者設備,其中訓練後的所述卷積神經網路更包括: 第二具有塊連接的U-net,與所述第一具有塊連接的U-net級聯以形成具有塊連接的級聯U-net(MCU-Net), 第一加法器,經組態以將所述輸入影像添加至所述第一具有塊連接的U-net的輸出,其中所述第一加法器的輸出連接至所述第二具有塊連接的U-net的輸入;以及 第二加法器,經組態以將所述第一加法器的所述輸出添加至所述第二具有塊連接的U-net的輸出,其中所述第二加法器經組態以計算所述卷積神經網路的輸出。
  18. 如請求項11所述的使用者設備,其中訓練後的所述卷積神經網路包括多尺度殘差密集網路(MRDN)及一或多個多尺度殘差密集塊的級聯,所述多尺度殘差密集網路包括一或多個卷積層,所述一或多個多尺度殘差密集塊的級聯包括所述多尺度殘差密集塊, 其中訓練後的所述卷積神經網路更包括具有塊連接的級聯U-net(MCU-Net),所述具有塊連接的級聯U-net包括第一具有塊連接的U-net(U-Net-B)及第二具有塊連接的U-net, 其中所述多尺度殘差密集網路及所述具有塊連接的級聯U-net經集合且經組態以計算第一去雜訊影像及第二去雜訊影像,且 其中所述輸出影像是所述第一去雜訊影像與所述第二去雜訊影像的組合。
  19. 如請求項11所述的使用者設備,更包括與所述使用者設備整合的攝影機系統, 其中所述處理電路經進一步組態以控制所述攝影機系統以捕獲所述輸入影像,且 其中所述輸入影像藉由所述處理電路自所述攝影機系統接收。
TW110108457A 2020-03-10 2021-03-10 用於對影像進行去雜訊的方法、用於擴充影像資料集的方法、以及使用者設備 TW202134997A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US202062987802P 2020-03-10 2020-03-10
US62/987,802 2020-03-10
US202062988844P 2020-03-12 2020-03-12
US62/988,844 2020-03-12
US17/010,670 2020-09-02
US17/010,670 US11508037B2 (en) 2020-03-10 2020-09-02 Systems and methods for image denoising using deep convolutional networks

Publications (1)

Publication Number Publication Date
TW202134997A true TW202134997A (zh) 2021-09-16

Family

ID=77663743

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110108457A TW202134997A (zh) 2020-03-10 2021-03-10 用於對影像進行去雜訊的方法、用於擴充影像資料集的方法、以及使用者設備

Country Status (3)

Country Link
US (1) US11508037B2 (zh)
KR (1) KR20210114856A (zh)
TW (1) TW202134997A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI802520B (zh) * 2021-11-08 2023-05-11 創惟科技股份有限公司 影像處理方法及影像處理裝置

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021041772A1 (en) 2019-08-30 2021-03-04 The Research Foundation For The State University Of New York Dilated convolutional neural network system and method for positron emission tomography (pet) image denoising
EP3916633A1 (de) * 2020-05-25 2021-12-01 Sick Ag Kamera und verfahren zum verarbeiten von bilddaten
US11670042B2 (en) * 2021-03-15 2023-06-06 Adobe Inc. Learning material reconstruction from a single image
US11734801B2 (en) * 2021-05-28 2023-08-22 Microsoft Technology Licensing, Llc Distributed depth data processing
WO2023063939A1 (en) * 2021-10-13 2023-04-20 Hewlett-Packard Development Company, L.P. Neural network image enhancement
CN114066873B (zh) * 2021-11-24 2022-09-27 珠海仁康医疗器械有限公司 一种利用ct图像检测骨质疏松的方法及装置
CN114299550B (zh) * 2022-01-05 2024-02-27 南通理工学院 一种行人再识别系统中无感噪声攻击的防御方法
CN114545405B (zh) * 2022-02-24 2023-05-02 电子科技大学 一种基于神经网络的实波束扫描雷达角超分辨方法
CN114882133B (zh) * 2022-05-07 2024-04-26 西安交通大学 一种图像编解码方法、系统、设备及介质
WO2023219276A1 (ko) * 2022-05-09 2023-11-16 삼성전자 주식회사 영상 처리 장치 및 그 동작 방법
CN114936974A (zh) * 2022-05-12 2022-08-23 中山大学中山眼科中心 基于注意力机制的半监督oct图像去噪方法及装置
CN116051408B (zh) * 2023-01-06 2023-10-27 郑州轻工业大学 一种基于残差自编码的图像深度去噪方法
CN116168026B (zh) * 2023-04-24 2023-06-27 山东拜尔检测股份有限公司 基于计算机视觉的水质检测方法及系统
CN116862784A (zh) * 2023-06-09 2023-10-10 中国人民解放军火箭军工程大学 一种基于多教师知识蒸馏的单幅图像去雾方法
CN116594061B (zh) * 2023-07-18 2023-09-22 吉林大学 一种基于多尺度u形注意网络的地震数据去噪方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8593483B2 (en) 2009-10-20 2013-11-26 Apple Inc. Temporal filtering techniques for image signal processing
US9332239B2 (en) 2012-05-31 2016-05-03 Apple Inc. Systems and methods for RGB image processing
US9373160B2 (en) 2013-12-18 2016-06-21 New York University System, method and computer-accessible medium for restoring an image taken through a window
US10438117B1 (en) 2015-05-21 2019-10-08 Google Llc Computing convolutions using a neural network processor
US9633274B2 (en) 2015-09-15 2017-04-25 Mitsubishi Electric Research Laboratories, Inc. Method and system for denoising images using deep Gaussian conditional random field network
US10043243B2 (en) 2016-01-22 2018-08-07 Siemens Healthcare Gmbh Deep unfolding algorithm for efficient image denoising under varying noise conditions
WO2018125580A1 (en) * 2016-12-30 2018-07-05 Konica Minolta Laboratory U.S.A., Inc. Gland segmentation with deeply-supervised multi-level deconvolution networks
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US10726525B2 (en) 2017-09-26 2020-07-28 Samsung Electronics Co., Ltd. Image denoising neural network architecture and method of training the same
US11386287B2 (en) * 2018-06-26 2022-07-12 Nokia Technologies Oy Method and apparatus for computer vision
US11756160B2 (en) * 2018-07-27 2023-09-12 Washington University ML-based methods for pseudo-CT and HR MR image estimation
US11164067B2 (en) * 2018-08-29 2021-11-02 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for implementing a multi-resolution neural network for use with imaging intensive applications including medical imaging
CA3102017A1 (en) * 2018-11-08 2020-05-14 Netflix, Inc. Identifying image aesthetics using region composition graphs
EP3660785A1 (en) * 2018-11-30 2020-06-03 Laralab UG Method and system for providing an at least 3-dimensional medical image segmentation of a structure of an internal organ
US11282208B2 (en) * 2018-12-24 2022-03-22 Adobe Inc. Identifying target objects using scale-diverse segmentation neural networks
CN111881927B (zh) * 2019-05-02 2021-12-21 三星电子株式会社 电子装置及其图像处理方法
US20210027098A1 (en) * 2019-07-22 2021-01-28 Shenzhen Malong Technologies Co., Ltd. Weakly Supervised Image Segmentation Via Curriculum Learning
CN110544217B (zh) * 2019-08-30 2021-07-20 深圳市商汤科技有限公司 一种图像处理方法及装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI802520B (zh) * 2021-11-08 2023-05-11 創惟科技股份有限公司 影像處理方法及影像處理裝置

Also Published As

Publication number Publication date
US20210287342A1 (en) 2021-09-16
US11508037B2 (en) 2022-11-22
KR20210114856A (ko) 2021-09-24

Similar Documents

Publication Publication Date Title
TW202134997A (zh) 用於對影像進行去雜訊的方法、用於擴充影像資料集的方法、以及使用者設備
Xu et al. Learning to restore low-light images via decomposition-and-enhancement
Bao et al. Memc-net: Motion estimation and motion compensation driven neural network for video interpolation and enhancement
Zheng et al. Ultra-high-definition image dehazing via multi-guided bilateral learning
Wang et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data
US11107205B2 (en) Techniques for convolutional neural network-based multi-exposure fusion of multiple image frames and for deblurring multiple image frames
Zheng et al. Adaptive unfolding total variation network for low-light image enhancement
US20210248715A1 (en) Method and system for end-to-end image processing
WO2021208122A1 (zh) 基于深度学习的视频盲去噪方法及装置
Kalantari et al. Deep HDR video from sequences with alternating exposures
Wang et al. Deep learning for hdr imaging: State-of-the-art and future trends
Guo et al. Dense scene information estimation network for dehazing
US20230043310A1 (en) Systems and methods for image denoising using deep convolutional networks
US20230080693A1 (en) Image processing method, electronic device and readable storage medium
CN111091503A (zh) 基于深度学习的图像去失焦模糊方法
Lamba et al. Harnessing multi-view perspective of light fields for low-light imaging
Liu et al. A motion deblur method based on multi-scale high frequency residual image learning
CN116547694A (zh) 用于对模糊图像去模糊的方法和系统
Xiao et al. Degradation model learning for real-world single image super-resolution
Zhao et al. D2hnet: Joint denoising and deblurring with hierarchical network for robust night image restoration
Zheng et al. Windowing decomposition convolutional neural network for image enhancement
Arora et al. Low light image enhancement via global and local context modeling
CN111861877A (zh) 视频超分变率的方法和装置
CN114511487A (zh) 图像融合方法及装置、计算机可读存储介质、终端
Paliwal et al. Multi-stage raw video denoising with adversarial loss and gradient mask