TWI664853B - 視訊壓縮感測重建方法及裝置 - Google Patents

視訊壓縮感測重建方法及裝置 Download PDF

Info

Publication number
TWI664853B
TWI664853B TW106135245A TW106135245A TWI664853B TW I664853 B TWI664853 B TW I664853B TW 106135245 A TW106135245 A TW 106135245A TW 106135245 A TW106135245 A TW 106135245A TW I664853 B TWI664853 B TW I664853B
Authority
TW
Taiwan
Prior art keywords
frame
video
feature
layer
fragment
Prior art date
Application number
TW106135245A
Other languages
English (en)
Other versions
TW201841504A (zh
Inventor
王健宗
肖京
Original Assignee
大陸商平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商平安科技(深圳)有限公司 filed Critical 大陸商平安科技(深圳)有限公司
Publication of TW201841504A publication Critical patent/TW201841504A/zh
Application granted granted Critical
Publication of TWI664853B publication Critical patent/TWI664853B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/89Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder

Abstract

本發明公開了一種視訊壓縮感測重建方法及裝置,該方法包含步驟B、步驟C及步驟D。其中步驟B在收到待重建的一壓縮視訊幀後,根據預設的讀取規則讀取出該壓縮視訊幀的一幀碎片。步驟C將讀取的該幀碎片輸入經預先訓練的一視訊幀重建模型以進行特徵抽象,建立該幀碎片到一幀碎片塊之間的一非線性映射。步驟D由該視訊幀重建模型根據建立的該非線性映射,將輸入的該幀碎片重建為該幀碎片塊並輸出,根據重建的該幀碎片塊生成一重建的視訊。本發明能高速且高質量的渲染重建視訊幀。

Description

視訊壓縮感測重建方法及裝置
本發明涉及電腦技術領域,尤其涉及一種視訊壓縮感測重建方法及裝置。
現有的根據時間域的視訊壓縮感測算法普遍對計算複雜度非常敏感,尤其是在渲染重建視訊幀時的處理速度非常慢,即便使用圖形處理器(Graphics Processing Unit,GPU)進行併行加速也無法顯著改善這個問題。雖然,目前也有算法能夠較快的完成視訊塊的感測,但是感測的品質通常較低。因此,如何高速且高品質的渲染重建視訊幀已經成為一種極待解決的技術問題。
本發明的主要目的在於提供一種視訊壓縮感測重建方法及裝置,目地在於高速且高品質地渲染重建視訊幀。
為實現上述目的,本發明提供的一種視訊壓縮感測重建方法,所述方法包含以下步驟:B、在收到待重建的壓縮視訊幀後,根據預設的讀取規則讀取出所述壓縮視訊幀的幀碎片;C、將讀取的幀碎片輸入經預先訓練的視訊幀重建模型的幀碎片輸入層,由所述視訊幀重建模型的多個特徵抽象隱含層對輸入的幀碎片進行特徵抽象,建立幀碎片到幀碎片塊之間的非線性映射;D、由所述視訊幀重建模型的多個特徵抽象隱含層根據建立的所述非線性映射將輸入的幀碎片重建為幀碎片塊,並由所述視訊幀重 建模型的幀碎片塊輸出層輸出重建的幀碎片塊,根據重建的幀碎片塊生成重建的視訊。
較佳地,所述視訊壓縮感測重建方法包含:步驟A、建立並訓練該視訊幀重建模型,該視訊幀重建模型包含至少一個該幀碎片輸入層、至少一個該幀碎片塊輸出層和多個該特徵抽象隱含層。
較佳地,所述視訊幀重建模型包含一個該幀碎片輸入層、一個該幀碎片塊輸出層和k個該特徵抽象隱含層,k為大於1的自然數,每一個該特徵抽象隱含層包含如下公式:h k (y)=θ(b k +w k y),其中,h k (y)為該特徵抽象隱含層啟動值向量,L k 為第k層該特徵抽象隱含層的神經元數目,θ(b k +w k y)為啟動函數,b k 為該特徵抽象隱含層神經元偏移向量,w k 為權值矩陣,y 為該特徵抽象隱含層輸入向量;根據該特徵抽象隱含層啟動值向量、神經元數目、啟動函數、神經元偏移向量與權值矩陣訓練得到該視訊幀重建模型f(y i ω),其中,ω是該特徵抽象隱含層啟動值向量、神經元數目、啟動函數、神經元偏移向量與權值矩陣的參數集合,y i 為經該幀碎片輸入層輸入的該幀碎片,f(y i ω)為由多個該特徵抽象隱含層對經該幀碎片輸入層輸入的該幀碎片進行特徵抽象,建立起來的該幀碎片到該幀碎片塊之間的該非線性映射。
較佳地,預設的該讀取規則為:對待重建的該壓縮視訊幀進行塊分割,將該待重建的該壓縮視訊幀分成若干個幀碎片。
較佳地,該步驟A還包含訓練數據生成步驟和測試數據生成步驟,該訓練數據生成步驟和測試數據生成步驟包含:獲取與預設數量的不同種類的自然場景下的第一視訊,並將獲取的該第一視訊轉換到一灰度顏色空間;將轉換後的該第一視訊通過預定義的一度量轉換矩陣進行壓縮;將壓縮後的該第一視訊按照預設比例分成一第一數據集和一第二數據集,將該第一數據集作為訓練集,該第二數據集作為測試集。
本發明提供的一種視訊壓縮感測重建裝置,其中該視訊壓縮感測重建裝置包含:讀取模組,用於在收到待重建的壓縮視訊幀後,根據預設的一讀取規則讀取出該壓縮視訊幀的一幀碎片;特徵抽象模組,用於將讀取的該幀碎片輸入經預先訓練的一視訊幀重建模型的一幀碎片輸入 層,由該視訊幀重建模型的多個一特徵抽象隱含層對輸入的該幀碎片進行特徵抽象,建立該幀碎片到一幀碎片塊之間的非線性映射;重建模組,用於由該視訊幀重建模型的多個該特徵抽象隱含層根據建立的該非線性映射將輸入的該幀碎片重建為該幀碎片塊,並由該視訊幀重建模型的該幀碎片塊輸出層輸出重建的該幀碎片塊,根據重建的該幀碎片塊生成一重建的視訊。
較佳地,視訊壓縮感測重建裝置包含建立模組,用於建立並訓練該視訊幀重建模型,該視訊幀重建模型包含至少一個該幀碎片輸入層、至少一個該幀碎片塊輸出層和多個該特徵抽象隱含層。
較佳地,該視訊幀重建模型包含一個該幀碎片輸入層、一個該幀碎片塊輸出層和k個該特徵抽象隱含層,k為大於1的自然數,每一個該特徵抽象隱含層包含如下公式:h k (y)=θ(b k +w k y),其中,h k (y)為該特徵抽象隱含層啟動值向量,L k 為第k層該特徵抽象隱含層的神經元數目,θ(b k +w k y)為啟動函數,b k 為該特徵抽象隱含層神經元偏移向量,w k 為權值矩陣,y 為該特徵抽象隱含層輸入向量;根據該特徵抽象隱含層啟動值向量、神經元數目、啟動函數、神經元偏移向量與權值矩陣訓練得到該視訊幀重建模型f(y i ω),其中,ω是該特徵抽象隱含層啟動值向量、神經元數目、啟動函數、神經元偏移向量與權值矩陣的參數集合,y i 為經該幀碎片輸入層輸入的該幀碎片,f(y i ω)為由多個該特徵抽象隱含層對經該幀碎片輸入層輸入的該幀碎片進行特徵抽象,建立起來的該幀碎片到該幀碎片塊之間的該非線性映射
較佳地,該預設的該讀取規則為:對待重建的該壓縮視訊幀進行塊分割,將該待重建的該壓縮視訊幀分成若干個該幀碎片。
較佳地,該建立模組還包含用於生成訓練數據和測試數據的生成單元,該生成單元用於:獲取預設數量的不同種類的自然場景下的一第一視訊,並將獲取的該第一視訊轉換到一灰度顏色空間;將轉換後的該第一視訊通過預定義的一度量轉換矩陣進行壓縮;將壓縮後的第一視訊按照預設比例分成一第一數據集和一第二數據集,將該第一數據集作為訓練集,該第二數據集作為測試集。
本發明提出的視訊壓縮感測重建方法及裝置,通過預設的讀取規則讀取出待重建的壓縮視訊幀的幀碎片;由經預先訓練的視訊幀重建模型的多個特徵抽象隱含層對該幀碎片進行特徵抽象,建立幀碎片到幀碎片塊之間的非線性映射,並根據所述非線性映射將輸入的幀碎片重建為幀碎片塊之後輸出。由於是將待重建的壓縮視訊幀讀取為幀碎片後,針對幀碎片來進行重建,而不是直接對較大的壓縮視訊幀進行處理,降低了計算複雜度,提高了視訊幀重建的速度;而且,通過預先訓練的視訊幀重建模型的多個特徵抽象隱含層對每一幀碎片進行特徵抽象,並將幀碎片重建為幀碎片塊進行輸出,能有效地讀取壓縮視訊幀的每一細節特徵,提高了視訊幀重建的品質。
01‧‧‧讀取模組
02‧‧‧特徵抽象模組
03‧‧‧重建模組
04‧‧‧建立模組
S10‧‧‧步驟
S20‧‧‧步驟
S30‧‧‧步驟
S40‧‧‧步驟
第1圖為本發明視訊壓縮感測重建方法第一實施例的流程示意圖;第2圖為本發明視訊壓縮感測重建方法第二實施例的流程示意圖;第3圖為本發明視訊壓縮感測重建方法一實施例中視訊幀重建模型的結構示意圖;第4圖為本發明視訊壓縮感測重建裝置第一實施例的功能模組示意圖;第5圖為本發明視訊壓縮感測重建裝置第二實施例的功能模組示意圖。
為了使本發明所要解決的技術問題、技術方案及有益效果更加清楚、明白,以下結合附圖和實施例,對本發明進行進一步詳細說明。應當理解,此處所述的具體實施例僅僅用以解釋本發明,並非用於限定本發明。
本發明提供一種視訊壓縮感測重建方法。參照第1圖,第1圖為本發明視訊壓縮感測重建方法第一實施例的流程示意圖。
在第一實施例中,該視訊壓縮感測重建方法包含:步驟S10,在收到待重建的壓縮視訊幀後,根據預設的讀取規則讀取出所述壓縮視訊幀的幀碎片。
本實施例中,接收到待重建的壓縮視訊幀後,並不直接對所 述壓縮視訊幀進行渲染重建,而是先對所述壓縮視訊幀按照預設的讀取規則進行幀碎片的讀取。該預設的讀取規則可以是根據顏色、內容、格式、面積大小等不同特徵對所述壓縮視訊幀進行幀碎片的讀取,在此不做限定。
在一種可選的實施方式中,所述預設的讀取規則為:對待重建的壓縮視訊幀進行塊分割,將所述待重建的壓縮視訊幀分成若干幀碎片。例如,對如JPEG、PNG等各種類型的壓縮視訊幀進行塊分割,將所述壓縮視訊幀分成N*M(例如,32*32)的幀碎片,N和M為正整數。其中,對所述壓縮視訊幀進行塊分割時,可以將所述壓縮視訊幀等分成各個相同大小的幀碎片,也可以將所述壓縮視訊幀按一定比例或隨機分成不同大小的幀碎片,在此不做限定。幀碎片既可以是形狀規則的正方形、長方形等,也可以是形狀不規則的碎片,在此不做限定。
步驟S20,將讀取的幀碎片輸入經預先訓練的視訊幀重建模型的幀碎片輸入層,由所述視訊幀重建模型的多個特徵抽象隱含層對輸入的幀碎片進行特徵抽象,建立幀碎片到幀碎片塊之間的非線性映射。
讀取出所述壓縮視訊幀的幀碎片之後,可利用經預先訓練好的視訊幀重建模型對該幀碎片進行相應的處理。其中,該視訊幀重建模型可以是在每一次進行視訊壓縮感測重建時進行建立並訓練,也可以是預先建立並訓練好的模型,每一次進行視訊壓縮感測重建時直接調用該模型即可,在此不做限定。
例如,本實施例中,所述視訊幀重建模型可包含幀碎片輸入層、幀碎片塊輸出層和多個特徵抽象隱含層,在讀取出所述壓縮視訊幀的幀碎片之後,將讀取的幀碎片輸入該視訊幀重建模型的幀碎片輸入層,由所述視訊幀重建模型的多個特徵抽象隱含層對輸入的幀碎片進行特徵抽象,建立幀碎片到幀碎片塊之間的非線性映射,從而將每一幀碎片與最終重建的幀碎片塊形成聯繫。
步驟S30,由所述視訊幀重建模型的多個特徵抽象隱含層根據建立的所述非線性映射將輸入的幀碎片重建為幀碎片塊,並由所述視訊幀重建模型的幀碎片塊輸出層輸出重建的幀碎片塊,根據重建的幀碎片塊生成重建的視訊。
所述視訊幀重建模型的多個特徵抽象隱含層根據建立的所述非線性映射即每一幀碎片經特徵抽象後與最終重建的幀碎片塊之間的映 射關係,將輸入的幀碎片重建為最終的幀碎片塊,並經由所述視訊幀重建模型的幀碎片塊輸出層輸出重建的幀碎片塊,根據重建的幀碎片塊生成重建的視訊,如對重建的幀碎片塊進行拼接、組合等方式最終生成重建的視訊,完成所述壓縮視訊幀的渲染重建。
本實施例通過預設的讀取規則讀取出待重建的壓縮視訊幀的幀碎片;由經預先訓練的視訊幀重建模型的多個特徵抽象隱含層對該幀碎片進行特徵抽象,建立幀碎片到幀碎片塊之間的非線性映射,並根據所述非線性映射將輸入的幀碎片重建為幀碎片塊之後輸出。由於是將待重建的壓縮視訊幀讀取為幀碎片後,針對幀碎片來進行重建,而不是直接對較大的壓縮視訊幀進行處理,降低了計算複雜度,提高了視訊幀重建的速度;而且,通過預先訓練的視訊幀重建模型的多個特徵抽象隱含層對每一幀碎片進行特徵抽象,並將幀碎片重建為幀碎片塊進行輸出,能有效地讀取壓縮視訊幀的每一細節特徵,提高了視訊幀重建的品質。
如第2圖所示,本發明第二實施例提出一種視訊壓縮感測重建方法,在上述實施例的基礎上,在上述步驟S10之前還包含:步驟S40,建立並訓練視訊幀重建模型,所述視訊幀重建模型包含至少一個幀碎片輸入層、至少一個幀碎片塊輸出層和多個特徵抽象隱含層。
本實施例中,在進行視訊幀重建之前,還需建立並訓練視訊幀重建模型,所述視訊幀重建模型包含至少一個幀碎片輸入層、至少一個幀碎片塊輸出層和多個特徵抽象隱含層。在對視訊幀重建模型進行訓練之前,還包含訓練數據和測試數據的生成步驟,該訓練數據和測試數據的生成步驟包含:獲取預設數量(例如,100個)的不同種類的自然場景下的視訊,並將獲取的各個視訊轉換到灰度顏色空間。其中,獲取的所有視訊的數據大小累計和需滿足預設值(例如,10K)。
將轉換後的各個視訊通過預定義尺寸為w m ×h m ×d m (例如,w m =8,h m =8,d m =16)的度量轉換矩陣進行壓縮。例如,w b 為具有預設數量視訊的視訊塊b的寬度,h b 為視訊塊b的高度,d b 為視訊塊b的長度(即視訊幀的數量),每個視訊塊為x i w b ×h b ×d b ,iN,N為不小於1的正整數,壓縮後的視訊幀y i w b ×h b ,其中,為度量轉換矩陣。
將所有壓縮後的視訊按照預設比例如X:Y(例如,7:3)的比例分成第一數據集和第二數據集,其中,第一數據集中的視訊數量大於 第二數據集中的視訊數量,將第一數據集作為訓練集,第二數據集作為測試集,其中,X大於0,Y大於0。
在一種實施方式中,該視訊幀重建模型的訓練過程如下:在訓練該視訊幀重建模型時,可以將輸入的視訊幀的batch size(批量尺寸)設置成200,總的訓練次數可以設為10×106個疊代次數,輸入的每張視訊幀之間的大小差值被規約化到均值為0,標準差為1的範圍。在訓練的起始階段,每一特徵抽象隱含層的神經元權值被隨機初始化,隨機值來自一 個範圍為的均勻分布,變量s為先前特徵抽象隱含層的神經元數目。
在訓練過程中,採用隨機梯度下降(SGD,Stochastic Gradient Descent)算法來對該視訊幀重建模型中的各個參數進行優化。隨機梯度下降算法適用於控制變量較多,受控系統比較複雜,無法建立準確數學模型的最優化控制過程。本實施例中,起始學習率可以設置為0.001,每隔3×106次疊代學習率會變為原來的十分之一。隨機梯度下降算法的衝量項(Momentum)可以設置為0.9,在隨機梯度下降的同時還可以對梯度進行裁剪,假設需要求解的目標函數為:E(x)=f(x)+r(x),其中f(x)為損失函數,用來評價模型訓練損失,是任意的可微凸函數,r(x)為規範化約束因子,用來對模型進行限制,根據模型參數的概率分布不同,r(x)一般有L1範式約束(模型服從高斯分布)和L2範式約束(模型服從拉普拉斯分布),通過使用L2范式對權值更新梯度進行裁剪以確保梯度始終處於一定範圍之類,這樣可以防止梯度爆炸現象影響模型的收斂,梯度裁剪的閾值可以被設定為10。
進一步地,在其他實施例中,如第3圖所示,第3圖為本發明視訊壓縮感測重建方法一實施例中視訊幀重建模型的結構示意圖。該視訊幀重建模型包含一個幀碎片輸入層、一個幀碎片塊輸出層和k個特徵抽象隱含層(k為大於1的自然數),每一個特徵抽象隱含層有如下公式:h k (y)=θ(b k +w k y),其中,h k (y)為該特徵抽象隱含層啟動值向量,L k 為第k層特徵抽象隱含層的神經元數目,θ(*)也即θ(b k +w k y)為啟動函數,其表達式為θ(x)=max(x,0),b k 為該特徵抽象隱含層神經元偏移向量,w k 為權值矩陣,y 為該特徵抽象隱含層輸入向量。
根據所述特徵抽象隱含層啟動值向量、神經元數目、啟動函 數、神經元偏移向量與權值矩陣訓練得到視訊幀重連模型f(y i ω),其中, ω是所述特徵抽象隱含層啟動值向量、神經元數目、啟動函數、神經元偏移向量與權值矩陣的參數集合,y i 為經所述幀碎片輸入層輸入的幀碎片, f(y i ω)為由多個特徵抽象隱含層對經所述幀碎片輸入層輸入的幀碎片進行特徵抽象,建立起來的幀碎片到幀碎片塊之間的非線性映射。
參照第3圖,該幀碎片輸入層接收幀碎片的輸入,經過K層特徵抽象隱含層的幀特徵抽象,最後輸入到該幀碎片塊輸出層,該幀碎片塊輸出層的維度與最終重建的視訊塊的總尺寸一致,均為w m ×h m ×d m 。為了訓練該視訊幀重建模型,需要根據輸入參數不斷調整模型的權值和偏移項。假定把模型的所有參數構成的集合表示為L(ω),使用誤差反向傳播(Error Back Propagation,BP)算法對參數進行更新,優化函數為MSE(Mean Squared Error,平均平方和錯誤),則有:
在一個較佳的實施方式中,該視訊幀重建模型的幀碎片輸入層維度可以設為8×8,該視訊幀重建模型的幀碎片塊輸出層維度可以設為8×8×16,該視訊幀重建模型的特徵抽象隱含層可以設為7層,各個特徵抽象隱含層維度可以分別設為128,256,384,512,512,4096,2048。
本發明進一步提供一種視訊壓縮感測重建裝置。
參照第4圖,第4圖為本發明視訊壓縮感測重建裝置第一實施例的功能模組示意圖。
在第一實施例中,該視訊壓縮感測重建裝置包含讀取模組01,用於在收到待重建的壓縮視訊幀後,根據預設的讀取規則讀取出所述壓縮視訊幀的幀碎片。
本實施例中,接收到待重建的壓縮視訊幀後,並不直接對所述壓縮視訊幀進行渲染重建,而是先對所述壓縮視訊幀按照預設的讀取規則進行幀碎片的讀取。該預設的讀取規則可以是根據顏色、內容、格式、面積大小等不同特徵對所述壓縮視訊幀進行幀碎片的讀取,在此不做限定。
在一種可選的實施方式中,所述預設的讀取規則為:對待重建的壓縮視訊幀進行塊分割,將所述待重建的壓縮視訊幀分成若干幀碎片。例如,對如JPEG、PNG等各種類型的壓縮視訊幀進行塊分割,將所述壓縮視訊幀分成N*M(例如,32*32)的幀碎片,N和M為正整數。其中,對所述壓縮視訊幀進行塊分割時,可以將所述壓縮視訊幀等分成各個相同 大小的幀碎片,也可以將所述壓縮視訊幀按一定比例或隨機分成不同大小的幀碎片,在此不做限定。幀碎片既可以是形狀規則的正方形、長方形等,也可以是形狀不規則的碎片,在此不做限定。
特徵抽象模組02,用於將讀取的幀碎片輸入經預先訓練的視訊幀重建模型的幀碎片輸入層,由所述視訊幀重建模型的多個特徵抽象隱含層對輸入的幀碎片進行特徵抽象,建立幀碎片到幀碎片塊之間的非線性映射;讀取出所述壓縮視訊幀的幀碎片之後,可利用經預先訓練好的視訊幀重建模型對該幀碎片進行相應的處理。其中,該視訊幀重建模型可以是在每一次進行視訊壓縮感測重建時進行建立並訓練,也可以是預先建立並訓練好的模型,每一次進行視訊壓縮感測重建時直接調用該模型即可,在此不做限定。
例如,本實施例中,所述視訊幀重建模型可包含幀碎片輸入層、幀碎片塊輸出層和多個特徵抽象隱含層,在讀取出所述壓縮視訊幀的幀碎片之後,將讀取的幀碎片輸入該視訊幀重建模型的幀碎片輸入層,由所述視訊幀重建模型的多個特徵抽象隱含層對輸入的幀碎片進行特徵抽象,建立幀碎片到幀碎片塊之間的非線性映射,從而將每一幀碎片與最終重建的幀碎片塊形成聯繫。
重建模組03,用於由所述視訊幀重建模型的多個特徵抽象隱含層根據建立的所述非線性映射將輸入的幀碎片重建為幀碎片塊,並由所述視訊幀重建模型的幀碎片塊輸出層輸出重建的幀碎片塊,根據重建的幀碎片塊生成重建的視訊。
所述視訊幀重建模型的多個特徵抽象隱含層根據建立的所述非線性映射即每一幀碎片經特徵抽象後與最終重建的幀碎片塊之間的映射關係,將輸入的幀碎片重建為最終的幀碎片塊,並經由所述視訊幀重建模型的幀碎片塊輸出層輸出重建的幀碎片塊,根據重建的幀碎片塊生成重建的視訊,如對重建的幀碎片塊進行拼接、組合等方式最終生成重建的視訊,完成所述壓縮視訊幀的渲染重建。
本實施例通過預設的讀取規則讀取出待重建的壓縮視訊幀的幀碎片;由經預先訓練的視訊幀重建模型的多個特徵抽象隱含層對該幀碎片進行特徵抽象,建立幀碎片到幀碎片塊之間的非線性映射,並根據所 述非線性映射將輸入的幀碎片重建為幀碎片塊之後輸出。由於是將待重建的壓縮視訊幀讀取為幀碎片後,針對幀碎片來進行重建,而不是直接對較大的壓縮視訊幀進行處理,降低了計算複雜度,提高了視訊幀重建的速度;而且,通過預先訓練的視訊幀重建模型的多個特徵抽象隱含層對每一幀碎片進行特徵抽象,並將幀碎片重建為幀碎片塊進行輸出,能有效地讀取壓縮視訊幀的每一細節特徵,提高了視訊幀重建的品質。
如第5圖所示,本發明第二實施例提出一種視訊壓縮感測重建裝置,在上述實施例的基礎上,還包含:建立模組04,用於建立並訓練視訊幀重建模型,所述視訊幀重建模型包含至少一個幀碎片輸入層、至少一個幀碎片塊輸出層和多個特徵抽象隱含層。
本實施例中,在進行視訊幀重建之前,還需建立並訓練視訊幀重建模型,所述視訊幀重建模型包含至少一個幀碎片輸入層、至少一個幀碎片塊輸出層和多個特徵抽象隱含層。所述建立模組04還包含用於生成訓練數據和測試數據的生成單元,所述生成單元用於:獲取預設數量(例如,100個)的不同種類的自然場景下的視訊,並將獲取的各個視訊轉換到灰度顏色空間。其中,獲取的所有視訊的數據大小累計和需滿足預設值(例如,10K)。
將轉換後的各個視訊通過預定義尺寸為w m ×h m ×d m (例如,w m =8,h m =8,d m =16)的度量轉換矩陣進行壓縮。例如,w b 為具有預設數量視訊的視訊塊b的寬度,h b 為視訊塊b的高度,d b 為視訊塊b的長度(即視訊幀的數量),每個視訊塊為x i w b ×h b ×d b ,iN,N為不小於1的正整數,壓縮後的視訊幀y i w b ×h b ,其中,為度量轉換矩陣。
將所有壓縮後的視訊按照預設比例如X:Y(例如,7:3)的比例分成第一數據集和第二數據集,其中,第一數據集中的視訊數量大於第二數據集中的視訊數量,將第一數據集作為訓練集,第二數據集作為測試集,其中,X大於0,Y大於0。
在一種實施方式中,該視訊幀重建模型的訓練過程如下:在訓練該視訊幀重建模型時,可以將輸入的視訊幀的batch size(批量尺寸)設置成200,總的訓練次數可以設為10×106個疊代次數,輸入的每張視訊幀之間的大小差值被規約化到均值為0,標準差為1的範圍。在訓練的起始階段,每一特徵抽象隱含層的神經元權值被隨機初始化,隨機值來自一 個範圍為的均勻分布,變量s為先前特徵抽象隱含層的神經元數目。
在訓練過程中,採用隨機梯度下降(SGD,Stochastic Gradient Descent)算法來對該視訊幀重建模型中的各個參數進行優化。隨機梯度下降算法適用於控制變量較多,受控系統比較複雜,無法建立準確數學模型的最優化控制過程。本實施例中,起始學習率可以設置為0.001,每隔3×106次疊代學習率會變為原來的十分之一。隨機梯度下降算法的衝量項(Momentum)可以設置為0.9,在隨機梯度下降的同時還可以對梯度進行裁剪,假設需要求解的目標函數為:E(x)=f(x)+r(x),其中f(x)為損失函數,用來評價模型訓練損失,是任意的可微凸函數,r(x)為規範化約束因子,用來對模型進行限制,根據模型參數的概率分布不同,r(x)一般有L1範式約束(模型服從高斯分布)和L2範式約束(模型服從拉普拉斯分布),通過使用L2范式對權值更新梯度進行裁剪以確保梯度始終處於一定範圍之類,這樣可以防止梯度爆炸現象影響模型的收斂,梯度裁剪的閾值可以被設定為10。
進一步地,在其他實施例中,該視訊幀重建模型包含一個幀碎片輸入層、一個幀碎片塊輸出層和k個特徵抽象隱含層(k為大於1的自然數),每一個特徵抽象隱含層有如下公式:h k (y)=θ(b k +w k y),其中,h k (y)為該特徵抽象隱含層啟動值向量,L k 為第k層特徵抽象隱含層的神經元數目,θ(*)也即θ(b k +w k y)為啟動函數,其表達式為θ(x)=max(x,0),b k 為該特徵抽象隱含層神經元偏移向量,w k 為權值矩陣,y 為該特徵抽象隱含層輸入向量。
根據所述特徵抽象隱含層啟動值向量、神經元數目、啟動函數、神經元偏移向量與權值矩陣訓練得到視訊幀重建模型f(y i ω),其中,ω是所述特徵抽象隱含層啟動值向量、神經元數目、啟動函數、神經元偏移向量與權值矩陣的參數集合,y i 為經所述幀碎片輸入層輸入的幀碎片,f(y i ω)為由多個特徵抽象隱含層對經所述幀碎片輸入層輸入的幀碎片進行特徵抽象,建立起來的幀碎片到幀碎片塊之間的非線性映射。
參照第3圖,該幀碎片輸入層接收幀碎片的輸入,經過K層特徵抽象隱含層的幀特徵抽象,最後輸入到該幀碎片塊輸出層,該幀碎片塊輸出層的維度與最終重建的視訊塊的總尺寸一致,均為w m ×h m ×d m 。為了訓練該視訊幀重建模型,需要根據輸入參數不斷調整模型的權值和偏 移項。假定把模型的所有參數構成的集合表示為L(ω),使用誤差反向傳播(Error Back Propagation,BP)算法對參數進行更新,優化函數為MSE(Mean Squared Error,平均平方和錯誤),則有:
在一個較佳的實施方式中,該視訊幀重建模型的幀碎片輸入層維度可以設為8×8,該視訊幀重建模型的幀碎片塊輸出層維度可以設為8×8×16,該視訊幀重建模型的特徵抽象隱含層可以設為7層,各個特徵抽象隱含層維度可以分別設為128,256,384,512,512,4096,2048。
需要說明的是,在本文中,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情况下,由語句“包括一個......”限定的要素,並不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。
通過以上的實施方式的描述,本領域的技術人員可以清楚地瞭解到上述實施例方法可借助軟體加必需的通用硬體平臺的方式來實現,當然也可以通過硬體來實現,但很多情况下前者是更佳的實施方式。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品存儲在一個儲存介質(如ROM/RAM、磁碟、光碟)中,包括若干指令用以使得一台終端設備(可以是手機,電腦,伺服器,空調器,或者網路設備等)執行本發明各個實施例所述的方法。
以上參照附圖說明了本發明的較佳實施例,並非因此局限本發明的權利範圍。上述本發明實施例序號僅為了描述,不代表實施例的優劣。另外,雖然在流程圖中示出了邏輯順序,但是在某些情况下,可以以不同於此處的順序執行所示出或描述的步驟。
本領域技術人員不脫離本發明的範圍和實質,可以有多種變型方案實現本發明,比如作為一個實施例的特徵可用於另一實施例而得到又一實施例。凡在運用本發明的技術構思之內所作的任何修改、等同替換和改進,均應在本發明的權利範圍之內。

Claims (10)

  1. 一種視訊壓縮感測重建方法,包含:步驟B、在收到待重建的一壓縮視訊幀後,根據預設的一讀取規則讀取出該壓縮視訊幀的一幀碎片;步驟C、將讀取的該幀碎片輸入經預先訓練的一視訊幀重建模型的一幀碎片輸入層,由該視訊幀重建模型的多個一特徵抽象隱含層對輸入的該幀碎片進行特徵抽象,建立該幀碎片到一幀碎片塊之間的非線性映射;步驟D、由該視訊幀重建模型的多個該特徵抽象隱含層根據建立的該非線性映射將輸入的該幀碎片重建為該幀碎片塊,並由該視訊幀重建模型的該幀碎片塊輸出層輸出重建的該幀碎片塊,根據重建的該幀碎片塊生成一重建的視訊。
  2. 如申請專利範圍第1項所述的視訊壓縮感測重建方法,包含:在執行該步驟B前執行步驟A、建立並訓練該視訊幀重建模型,該視訊幀重建模型包含至少一個該幀碎片輸入層、至少一個該幀碎片塊輸出層和多個該特徵抽象隱含層。
  3. 如申請專利範圍第1項或第2項所述的視訊壓縮感測重建方法,其中該視訊幀重建模型包含一個該幀碎片輸入層、一個該幀碎片塊輸出層和k個該特徵抽象隱含層,k為大於1的自然數,每一個該特徵抽象隱含層包含如下公式:h k (y)=θ(b k +w k y),其中,h k (y)
    Figure TWI664853B_C0001
    為該特徵抽象隱含層啟動值向量,L k 為第k層該特徵抽象隱含層的神經元數目,θ(b k +w k y)為啟動函數,b k
    Figure TWI664853B_C0002
    為該特徵抽象隱含層神經元偏移向量,w k
    Figure TWI664853B_C0003
    為權值矩陣,y
    Figure TWI664853B_C0004
    為該特徵抽象隱含層輸入向量;根據該特徵抽象隱含層啟動值向量、神經元數目、啟動函數、神經元偏移向量與權值矩陣訓練得到該視訊幀重建模型f(y i ω),其中,ω是該特徵抽象隱含層啟動值向量、神經元數目、啟動函數、神經元偏移向量與權值矩陣的參數集合,y i 為經該幀碎片輸入層輸入的該幀碎片,f(y i ω)為由多個該特徵抽象隱含層對經該幀碎片輸入層輸入的該幀碎片進行特徵抽象,建立起來的該幀碎片到該幀碎片塊之間的該非線性映射。
  4. 如申請專利範圍第1項或第2項所述的視訊壓縮感測重建方法,其中預設的該讀取規則為:對待重建的該壓縮視訊幀進行塊分割,將該待重建的該壓縮視訊幀分成若干個幀碎片。
  5. 如申請專利範圍第2項所述的視訊壓縮感測重建方法,其中該步驟A還包含訓練數據生成步驟和測試數據生成步驟,該訓練數據生成步驟和測試數據生成步驟包含:獲取與預設數量的不同種類的自然場景下的第一視訊,並將獲取的該第一視訊轉換到一灰度顏色空間;將轉換後的該第一視訊通過預定義的一度量轉換矩陣進行壓縮;將壓縮後的該第一視訊按照預設比例分成一第一數據集和一第二數據集,將該第一數據集作為訓練集,該第二數據集作為測試集。
  6. 一種視訊壓縮感測重建裝置,包含:讀取模組,用於在收到待重建的壓縮視訊幀後,根據預設的一讀取規則讀取出該壓縮視訊幀的一幀碎片;特徵抽象模組,用於將讀取的該幀碎片輸入經預先訓練的一視訊幀重建模型的一幀碎片輸入層,由該視訊幀重建模型的多個一特徵抽象隱含層對輸入的該幀碎片進行特徵抽象,建立該幀碎片到一幀碎片塊之間的非線性映射;重建模組,用於由該視訊幀重建模型的多個該特徵抽象隱含層根據建立的該非線性映射將輸入的該幀碎片重建為該幀碎片塊,並由該視訊幀重建模型的該幀碎片塊輸出層輸出重建的該幀碎片塊,根據重建的該幀碎片塊生成一重建的視訊。
  7. 如申請專利範圍第6項所述的視訊壓縮感測重建裝置,包含:建立模組,用於在收到待重建的壓縮視訊幀前,建立並訓練該視訊幀重建模型,該視訊幀重建模型包含至少一個該幀碎片輸入層、至少一個該幀碎片塊輸出層和多個該特徵抽象隱含層,該特徵抽象模組通過該視訊幀重建模型進行特徵抽象。
  8. 如申請專利範圍第6項或第7項所述的視訊壓縮感測重建裝置,其中該視訊幀重建模型包含一個該幀碎片輸入層、一個該幀碎片塊輸出層和k個該特徵抽象隱含層,k為大於1的自然數,每一個該特徵抽象隱含層包含如下公式:h k (y)=θ(b k +w k y),其中,h k (y)
    Figure TWI664853B_C0005
    為該特徵抽象隱含層啟動值向量,L k 為第k層該特徵抽象隱含層的神經元數目,θ(b k +w k y)為啟動函數,b k
    Figure TWI664853B_C0006
    為該特徵抽象隱含層神經元偏移向量,w k
    Figure TWI664853B_C0007
    為權值矩陣,y
    Figure TWI664853B_C0008
    為該特徵抽象隱含層輸入向量;根據該特徵抽象隱含層啟動值向量、神經元數目、啟動函數、神經元偏移向量與權值矩陣訓練得到該視訊幀重建模型f(y i ω),其中,ω是該特徵抽象隱含層啟動值向量、神經元數目、啟動函數、神經元偏移向量與權值矩陣的參數集合,y i 為經該幀碎片輸入層輸入的該幀碎片,f(y i ω)為由多個該特徵抽象隱含層對經該幀碎片輸入層輸入的該幀碎片進行特徵抽象,建立起來的該幀碎片到該幀碎片塊之間的該非線性映射。
  9. 如申請專利範圍第6項或第7項所述的視訊壓縮感測重建裝置,其中預設的該讀取規則為:對待重建的該壓縮視訊幀進行塊分割,將該待重建的該壓縮視訊幀分成若干個該幀碎片。
  10. 如申請專利範圍第7項所述的視訊壓縮感測重建裝置,其中該建立模組還包含用於生成訓練數據和測試數據的生成單元,該生成單元用於:獲取預設數量的不同種類的自然場景下的一第一視訊,並將獲取的該第一視訊轉換到一灰度顏色空間;將轉換後的該第一視訊通過預定義的一度量轉換矩陣進行壓縮;將壓縮後的第一視訊按照預設比例分成一第一數據集和一第二數據集,將該第一數據集作為訓練集,該第二數據集作為測試集。
TW106135245A 2016-12-30 2017-10-13 視訊壓縮感測重建方法及裝置 TWI664853B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201611260793.6A CN106686385B (zh) 2016-12-30 2016-12-30 视频压缩感知重构方法及装置
??201611260793.6 2016-12-30

Publications (2)

Publication Number Publication Date
TW201841504A TW201841504A (zh) 2018-11-16
TWI664853B true TWI664853B (zh) 2019-07-01

Family

ID=58848741

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106135245A TWI664853B (zh) 2016-12-30 2017-10-13 視訊壓縮感測重建方法及裝置

Country Status (9)

Country Link
US (1) US10630995B2 (zh)
EP (1) EP3410714A4 (zh)
JP (1) JP6570155B2 (zh)
KR (1) KR102247907B1 (zh)
CN (1) CN106686385B (zh)
AU (1) AU2017389534A1 (zh)
SG (1) SG11201808823PA (zh)
TW (1) TWI664853B (zh)
WO (1) WO2018120723A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106686385B (zh) * 2016-12-30 2018-09-25 平安科技(深圳)有限公司 视频压缩感知重构方法及装置
CN109451314B (zh) * 2018-04-23 2021-06-08 杭州电子科技大学 一种基于图模型的图像压缩感知方法
CN108986043B (zh) * 2018-06-26 2021-11-05 衡阳师范学院 一种基于自适应的块压缩感知图像重构方法
CN110704681B (zh) 2019-09-26 2023-03-24 三星电子(中国)研发中心 一种生成视频的方法及系统
CN113382247B (zh) * 2021-06-09 2022-10-18 西安电子科技大学 基于间隔观测的视频压缩感知系统及方法、设备及存储介质
CN113992920A (zh) * 2021-10-25 2022-01-28 北京大学深圳研究生院 一种基于深度展开网络的视频压缩感知重建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1670757A (zh) * 2004-03-18 2005-09-21 德鑫科技股份有限公司 利用神经网络分辨影像中文字与图形的系统及其方法
TW201520905A (zh) * 2013-11-28 2015-06-01 Nat Univ Chin Yi Technology 字元影像辨識方法與辨識裝置
CN105740950A (zh) * 2016-01-19 2016-07-06 南京邮电大学 基于滑齿法的神经网络的模板匹配方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6577700B1 (en) * 2001-06-22 2003-06-10 Liang-Shih Fan Neural network based multi-criteria optimization image reconstruction technique for imaging two- and three-phase flow systems using electrical capacitance tomography
US20160050440A1 (en) * 2014-08-15 2016-02-18 Ying Liu Low-complexity depth map encoder with quad-tree partitioned compressed sensing
CN105868769A (zh) 2015-01-23 2016-08-17 阿里巴巴集团控股有限公司 图像中的人脸关键点定位方法及装置
CN104978612A (zh) 2015-01-27 2015-10-14 厦门大学 基于ahp-rbf的分布式大数据系统风险预测方法
CN105992009A (zh) * 2015-02-05 2016-10-05 袁琳琳 基于运动补偿和分块的视频压缩感知的处理方法
EP3259914A1 (en) 2015-02-19 2017-12-27 Magic Pony Technology Limited Interpolating visual data
CN105163121B (zh) 2015-08-24 2018-04-17 西安电子科技大学 基于深度自编码网络的大压缩比卫星遥感图像压缩方法
CN105405054A (zh) 2015-12-11 2016-03-16 平安科技(深圳)有限公司 基于理赔照片深度学习实现保险理赔反欺诈的方法及服务器
US10499056B2 (en) * 2016-03-09 2019-12-03 Sony Corporation System and method for video processing based on quantization parameter
CN106204447A (zh) * 2016-06-30 2016-12-07 北京大学 基于总变差分和卷积神经网络的超分辨率重建方法
CN106686385B (zh) 2016-12-30 2018-09-25 平安科技(深圳)有限公司 视频压缩感知重构方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1670757A (zh) * 2004-03-18 2005-09-21 德鑫科技股份有限公司 利用神经网络分辨影像中文字与图形的系统及其方法
TW201520905A (zh) * 2013-11-28 2015-06-01 Nat Univ Chin Yi Technology 字元影像辨識方法與辨識裝置
CN105740950A (zh) * 2016-01-19 2016-07-06 南京邮电大学 基于滑齿法的神经网络的模板匹配方法

Also Published As

Publication number Publication date
KR20190019894A (ko) 2019-02-27
EP3410714A1 (en) 2018-12-05
US10630995B2 (en) 2020-04-21
SG11201808823PA (en) 2018-11-29
CN106686385B (zh) 2018-09-25
US20190075309A1 (en) 2019-03-07
WO2018120723A1 (zh) 2018-07-05
CN106686385A (zh) 2017-05-17
EP3410714A4 (en) 2019-11-06
KR102247907B1 (ko) 2021-05-04
JP6570155B2 (ja) 2019-09-04
AU2017389534A1 (en) 2018-10-04
TW201841504A (zh) 2018-11-16
JP2019511850A (ja) 2019-04-25

Similar Documents

Publication Publication Date Title
TWI664853B (zh) 視訊壓縮感測重建方法及裝置
WO2018180263A1 (ja) 情報処理装置、情報処理方法、及びコンピュータ可読記憶媒体
WO2022022154A1 (zh) 脸部图像处理方法、装置、设备及存储介质
CN108876864B (zh) 图像编码、解码方法、装置、电子设备及计算机可读介质
US10832034B2 (en) Facial image generating method, facial image generating apparatus, and facial image generating device
WO2021115356A1 (zh) 自适应窗宽窗位调节方法、装置、计算机系统及存储介质
JP2018097875A (ja) トレーニング画像処理装置に用いるトレーニング装置及びトレーニング方法
Xu et al. Styleswap: Style-based generator empowers robust face swapping
CN111047508A (zh) 图像处理方法、装置、计算机设备和存储介质
CN109345604B (zh) 图片处理方法、计算机设备和存储介质
CN114202615A (zh) 人脸表情的重建方法、装置、设备和存储介质
JP2017059193A (ja) 時系列画像補完装置、時系列画像生成方法、時系列画像補完装置用プログラム
US10530387B1 (en) Estimating an optimal ordering for data compression
JP6961527B2 (ja) 情報処理装置、学習方法、及びプログラム
CN113627404B (zh) 基于因果推断的高泛化人脸替换方法、装置和电子设备
US20220101145A1 (en) Training energy-based variational autoencoders
WO2022178975A1 (zh) 基于噪声场的图像降噪方法、装置、设备及存储介质
CN116168127A (zh) 图像处理方法、装置、计算机存储介质和电子设备
CN113470124A (zh) 特效模型的训练方法及装置、特效生成方法及装置
CN115984947B (zh) 图像生成方法、训练方法、装置、电子设备以及存储介质
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111145306A (zh) 图片处理方法及装置、电子设备和计算机可读存储介质
CN117235584B (zh) 图数据分类方法、装置、电子装置和存储介质
WO2023283781A1 (zh) 用于生成材料的微观结构数据的方法
CN112767223B (zh) 一种图像安全取证模型生成方法、取证方法及电子设备