TW202416711A - 利用自我迴歸模型的混合幀間編碼 - Google Patents
利用自我迴歸模型的混合幀間編碼 Download PDFInfo
- Publication number
- TW202416711A TW202416711A TW112138030A TW112138030A TW202416711A TW 202416711 A TW202416711 A TW 202416711A TW 112138030 A TW112138030 A TW 112138030A TW 112138030 A TW112138030 A TW 112138030A TW 202416711 A TW202416711 A TW 202416711A
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- pixel values
- codewords
- communication channel
- difference
- Prior art date
Links
- 238000004891 communication Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000015654 memory Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 238000007906 compression Methods 0.000 description 17
- 230000006835 compression Effects 0.000 description 17
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 16
- 238000013139 quantization Methods 0.000 description 15
- 238000003860 storage Methods 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000002123 temporal effect Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000000638 solvent extraction Methods 0.000 description 6
- 238000012732 spatial analysis Methods 0.000 description 6
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 5
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 5
- 238000013144 data compression Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000008439 repair process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012731 temporal analysis Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 244000025254 Cannabis sativa Species 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 2
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 2
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000005022 packaging material Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Abstract
本發明提供了用於影片編碼的方法、裝置和系統。更具體地,本實施方式涉及將幀間編碼的態樣與幀內編碼的態樣組合的混合編碼技術。在一些態樣中,影片編碼器能以加權方式執行幀間編碼,使得編碼影片幀(也稱為「殘餘幀」)可包括來自需要通過通信通道傳輸的當前影片幀的貢獻,並且還可以包括來自通過通信通道傳輸的先前影片幀的貢獻。更具體地,殘餘幀中的任意像素值
可以表示為當前影片幀中的對應像素值
和先前影片幀中的共置像素值
的加權組合,其中
Description
本實施方式一般涉及影片編碼,並且具體地涉及使用自我迴歸模型的混合幀間編碼。
數位影片是可以連續顯示或以其他方式呈現(例如通過影片播放裝置)的數位圖像(或「幀」)序列。每個數位圖像可以由像素值陣列(或與不同通道相關聯的多個像素值陣列)表示。一些影片回放裝置可利用通信通道(例如有線或無線媒體)從源裝置(例如圖像擷取裝置或影片數據儲存庫)接收圖像序列。由於通信通道的頻寬限制,通常會在源裝置傳輸數位圖像數據之前將其編碼或壓縮。數據壓縮是一種將資訊編碼成更小的數據單元的技術。因此,數據壓縮可用於減少利用通信通道儲存或傳輸影片幀所需的頻寬或間接費用。
舉例來說,影片編碼技術包括「幀內(intra-frame)」編碼和「幀間(inter-frame)」編碼。幀內編碼(也稱為「畫面內編碼」)技術可用於將影片的各個幀編碼為獨立圖像(而不是圖像的時間序列)。換言之,幀內編碼影片幀的像素值可以獨立地或在未知任何其他影片幀的情況下被解碼。然而,影片的相鄰幀(例如時間上連續顯示的圖像)在外觀上可能相同或基本相似。因此,幀間編碼(也稱為「畫面間編碼」或「差分」編碼)技術可用於僅傳輸連續影片幀之間的差異。換句話說,幀間編碼的影片幀必須與一個或多個先前影片幀組合以恢復欲顯示的實際像素值。
幀間編碼通常會比幀內編碼產生更高的壓縮率,但也會導致更高的延遲,這可能不適合影片播放應用(例如對接或擴展實境(XR)應用)。當畫面內編碼幀通過有損通道(例如無線通信通道)傳輸時,一幀或多幀的損耗可能會導致顯示圖像中出現明顯錯誤。為了「修復」圖像(或恢復圖像品質),影片編碼器必須將畫面內編碼幀傳輸到影片解碼器。然而,幀內編碼需要相對較高的數據速率,這在變化的通道條件(無線通信的特徵)下可能難以實現。因此,可能需要新的影片編碼技術來通過具有變化的通道容量的有損通道傳輸影片幀,同時滿足與影片回放相關的延遲要求。
本發明內容是為了以簡化的形式介紹一些概念的選擇,這些概念將在以下具體實施方式中進一步描述。本發明內容並不旨在識別所要求保護的主題的關鍵特徵或基本特徵,也不旨在限制所要求保護的主題的範圍。
本發明的主題的一個創新態樣可以在影片編碼方法中實現。該方法包括以下步驟:通過通信通道發送與圖像序列中的第一圖像相關聯的一個或多個第一碼字;根據一個或多個編碼方案將一個或多個第一碼字解碼為多個第一像素值;利用與通信通道的一個或多個屬性相關聯的比例因數來縮放多個第一像素值;獲得多個差值,其分別表示縮放後的該多個第一像素值與多個第二像素值之間的差值,其中該多個第二像素值係與第二圖像相關聯,而該第二圖像在該圖像序列中位於該第一圖像之後;根據一個或多個編碼方案將多個差值編碼為一個或多個第二碼字;以及通過通信通道傳送一個或多個第二碼字。
本發明主題的另一個創新態樣可以在包括處理系統和記憶體的編碼器中實現。記憶體儲存指令,當由處理系統執行時,使得編碼器通過通信通道發送與圖像序列中的第一圖像相關聯的一個或多個第一碼字;根據一個或多個編碼方案將一個或多個第一碼字解碼為多個第一像素值;利用與通信通道的一個或多個屬性相關聯的比例因數來縮放多個第一像素值;獲得多個差值,其分別表示縮放後的該多個第一像素值與多個第二像素值之間的差值,其中該多個第二像素值係與第二圖像相關聯,而該第二圖像在該圖像序列中位於該第一圖像之後;根據一個或多個編碼方案將多個差值編碼為一個或多個第二碼字;以及通過通信通道傳送一個或多個第二碼字。
本發明的主題的另一個創新態樣可以在影片編碼方法中實現。該方法包括以下步驟:通過通信通道發送與圖像序列中的第一圖像相關聯的一個或多個第一碼字;根據一個或多個編碼方案將一個或多個第一碼字解碼為多個第一像素值;至少部分地基於該多個第一像素值以及與圖像序列中第一圖像之後的第二圖像相關聯的多個第二像素值來判定出比例因數;利用比例因數縮放多個第一像素值;獲得多個差值,其分別表示縮放後的多個第一像素值與多個第二像素值之間的差值;根據一個或多個編碼方案將多個差值編碼為一個或多個第二碼字;通過通信通道傳送一個或多個第二碼字。
在下面的描述中,闡述了許多具體細節,例如具體組件、電路和過程的示例,以提供對本發明的透徹理解。本文所使用的術語「耦合」是指直接連接到或利用一個或多個中間組件或電路連接。術語「電子系統」和「電子裝置」可以互換使用來代表能夠以電子方式處理資訊的任何系統。而且,在以下敘述中出於解釋的目的,闡述了具體術語以提供對本發明的各態樣的透徹理解。然而,對於本領域技術人員來說顯而易見的是,實踐示例具體實施例可能不需要這些具體細節。在其他情況下,眾所周知的電路和裝置以方塊圖形式示出以避免模糊本發明的重點。以下詳細描述的某些部分是按照程式、邏輯塊、過程和其他符號來呈現的。
這些描述和表示是數據處理領域的技術人員所能以最有效的方式將他們的工作實質傳達給本領域的其他技術人員的手段。在本發明中,將程式、邏輯塊、過程等設想為導致期望結果的自相容步驟或指令序列。這些步驟是需要對物理量進行物理操作的步驟。儘管非必要,通常這些量採用能夠在計算機系統中儲存、傳輸、組合、比較和以其他方式操縱的電或磁信號的形式。然而,應該記住,所有這些和類似的術語都與適當的物理量相關聯,並且僅僅是應用於這些量的便利標記。
除非從以下討論中清楚地額外明確說明,否則應當理解,在本發明全文中,使用諸如「存取」、「接收」、「發送」、「使用」、「選擇」、「判定」、「規格化」、「放大」、「平均」、「監控」、「比較」、「應用」、「更新」、「測量」、「推導」或類似的術語的討論,指電腦系統或類似電子計算裝置的操作和過程,其操縱電腦系統的暫存器和記憶體內表示為物理(電子)量的數據並將其轉換為類似地表示為電腦系統記憶體或暫存器或其他此類資訊儲存、傳輸或顯示裝置的物理量的其他數據。
在附圖中,可將單個方塊描述為執行一個或多個功能;然而,在實際實踐中,由該塊執行的一個或多個功能可以在單個組件中或跨多個組件來執行,和/或可以使用硬體、使用軟體或使用硬體和軟體的組合來執行。為了清楚地說明硬體和軟體的這種可互換性,下面一般性地根據其功能來描述各種說明性組件、塊、模組、電路和步驟。這種功能是否實施為硬體或軟體取決於特定的應用和對整個系統施加的設計限制。技術人員可以針對每個特定應用以不同的方式實施所描述的功能,但是這樣的實現決策不應被解釋為導致偏離本發明的範圍。此外,示例輸入裝置可包括除了示出的那些組件以外的組件,包括眾所周知的組件,例如處理器、記憶體等。
能以硬體、軟體、韌體或其任意組合來實施本文所描述的技術,除非具體描述為以特定方式實施。描述為模組或組件的任何特徵也可以一起實施在積體邏輯裝置中,或者單獨實現為分立但可交互運作的邏輯裝置。如果以軟體實施,則這些技術可以至少部分地藉由包括指令的非暫態處理器可讀儲存媒體來實施,執行所述指令時執行上述方法中的一個或多個。非暫態處理器可讀儲存媒體可形成為電腦程式產品的一部分,其可包括包裝材料。
非暫態處理器可讀儲存媒體可包括隨機存取記憶體(RAM),諸如同步動態隨機存取記憶體(SDRAM)、唯讀記憶體(ROM)、非揮發性記憶體(NVRAM)、電子抹除式可複寫唯讀記憶體(EEPROM)、快閃記憶體、其他已知的儲存媒體等。另外或替代地,這些技術可以至少部分地利用處理器可讀通信媒體來實現,處理器可讀通信媒體承載或傳送指令或數據結構形式的代碼並且可以由計算機或其他處理器存取、讀取和/或執行。
結合本文揭示的具體實施例描述的各種說明性邏輯塊、模組、電路和指令可以由一個或多個處理器(或處理系統)執行。本文所使用的術語「處理器」可代表能夠執行儲存在記憶體中的一個或多個軟體程式的腳本或指令的任何通用處理器、專用處理器、常規處理器、控制器、微控制器和/或狀態機。
如上所述,幀內編碼可以克服與有損通道條件相關的一些限制(例如藉由修復顯示的圖像),而幀間編碼可以克服與變化的通道容量相關的一些限制(例如藉由降低影片幀傳輸的數據速率)。由本發明的各態樣了解到許多無線通信通道是有損的並且具有變化的通道容量。因此,將幀內編碼的態樣與幀間編碼的態樣組合的「混合」編碼技術可實現通過無線通信通道發送的影片幀的壓縮和圖像品質的最佳平衡。
各個態樣一般涉及影片編碼,並且更具體地,涉及將幀間編碼的方面與幀內編碼的態樣組合的混合編碼技術。在一些態樣,影片編碼器能以加權方式執行幀間編碼,使得編碼影片幀(也稱為「殘餘幀」)可包括來自欲通過通信通道發送的當前影片幀的貢獻並且還可包括來自通過通信通道發送的先前影片幀的貢獻。更具體地說,殘餘幀中的任意像素值
可作為當前影片幀中的對應像素值
和前一影片幀中的共置像素值
的加權組合:
其中0≦α≦1,比例因數α表示前一影片幀的貢獻程度(以及當前影片幀的貢獻程度)。所謂「共置像素值」表示在不同影片幀映射到相同相對位置(例如圖像的左上角) 或以其他方式關聯的的像素值。
在一些實施方式中,比例因數α可以與通信通道的一個或多個屬性(諸如通道損耗或通道容量)相關聯。在一些其他實施方式中,可以基於當前影片幀和先前影片幀的時空(spatial-temporal)特性動態地計算比例因數
。例如,比例因數
可以基於與當前影片幀相關聯的隨機變量(
)的標準偏差(
)、與先前影片相關聯的隨機變量(
)的標準偏差(
)來判定幀,以及
和
之
間的相關性(
),其中
。在這樣的實施中,比例因數
可以被稱為空間
-時間幀間編碼(STIC)比例因數。由本發明的各態樣理解到影片幀的空間-時間特性可代表其中包括的影片內容的類型。因此,在一些實施方式中,與當前影片幀相關聯的STIC比例因數可用於對當前影片幀進行內容類型分類分配。
本發明中描述的主題的具體實施方式能實現以下潛在優點中的一個或多個。利用將幀間編碼的態樣與幀內編碼的態樣組合,本實施方式的混合編碼技術可以實現通過無線通信通道發送的影片幀的壓縮和圖像品質的最佳平衡。例如,比例因數
可配置為確保通過有損通道傳輸的每個殘餘幀至少包括來自當前影片幀的一些貢獻,這樣一來,如果在傳輸過程中丟失一個或多個殘餘幀,影片解碼器可以動態修正或修復顯示的圖像(或防止顯示的圖像「停滯」)。此外,STIC比例因數
可以調整每個殘餘幀的壓縮,以使傳輸的數據速率適應變化的通道容量,同時確保顯示的圖像能將人類視覺感知最佳化。藉由按照內容類型對每個影片幀進行分類,本發明的各態樣可以進一步調整用於對每個殘餘幀進行編碼的量化或壓縮量以便通過通信通道傳輸,同時保持期望的圖像品質。
圖1示出用於對數據進行編碼和解碼的示例通信系統100。通信系統100包括編碼器110和解碼器120。在一些實施方式中,編碼器110和解碼器120可以設置在對應的通信裝置中,例如電腦、交換器、路由器、集線器、閘道器、攝影機、顯示器或能夠發送或接收通信信號的其他裝置。在一些其他實施方式中,同一裝置或系統中可包括編碼器110和解碼器120。
編碼器110接收欲經由通道130發送或儲存的輸入數據102。例如,通道130可包括促進編碼器110和解碼器120之間的通信的有線或無線通信媒體。替代地或附加地,通道130可包括數據儲存媒體。在一些態樣中,編碼器110可配置為壓縮輸入數據102的大小以適應與通道130相關聯的頻寬、儲存或其他資源限制。例如,編碼器110可將輸入數據102的每個單元編碼為能通過通道130發送或儲存的對應「碼字」(作為編碼數據104)。解碼器120配置為經由通道130接收編碼數據104,並且將編碼數據104解碼為輸出數據106。例如,解碼器120可解壓縮或以其他方式反轉由編碼器110執行的壓縮,使得輸出數據106即使與原始輸入數據102不相同,也基本上相似。
數據壓縮技術通常可分為「有損(lossy)」或「無損(lossless)」。有損數據壓縮可能會導致編碼和解碼步驟之間的一些資訊損耗。作為有損壓縮的結果,輸出數據106可能與輸入數據102不同。示例有損壓縮技術可以包括變換編碼(諸如利用應用空間頻率變換)和量化(諸如利用應用量化矩陣)等。相反,只要通道130不將錯誤引入到編碼數據104中,無損數據壓縮就不會導致編碼和解碼步驟之間的任何資訊損耗。作為無損壓縮的結果,輸出數據106與輸入數據102相同。示例無損壓縮技術可以包括熵編碼(例如算術編碼、霍夫曼編碼或哥倫布編碼)和長度變動編碼(RLE)等。
圖2示出根據一些實施方式的示例影片傳輸系統200的方塊圖。系統200包括影片編碼器210和影片解碼器220。在一些實施方式中,影片編碼器210和影片解碼器220可以分別是圖1的編碼器110和解碼器120的示例。因此,影片編碼器210可以經由通道(諸如圖1的通道130)通信耦合到影片解碼器220。在一些態樣中,通道可以是無線通信通道。在一些實施方式中,通道可以是有損通道。在一些其他實施方式中,通道可具有變化的通道容量。
影片編碼器210配置為將原始圖像數據201編碼為編碼圖像數據204,以便傳輸到解碼器220。例如,原始圖像數據201的幀可包括像素值陣列(或與不同顏色通道相關聯的多個像素值陣列)表示由圖像源(例如攝影機或其他圖像輸出裝置)擷取或獲取的數位圖像或影片幀。在一些態樣中,影片編碼器210可發送編碼圖像數據204的幀序列,每個幀表示對應的圖像或數位影片的幀。
影片解碼器220配置為將編碼圖像數據204解碼為重建圖像數據207,以在顯示裝置上顯示(例如電視、電腦顯示器、智慧手機或任何其他包含電子顯示器的裝置)。更具體地,影片解碼器220可以回復由影片編碼器210執行的編碼,使得重建圖像數據207即使與原始圖像數據201不相同,也基本相似。在一些態樣中,影片解碼器220可以在顯示裝置上顯示或渲染重建圖像數據207的幀序列。
在一些實施方式中,影片編碼器210可以包括圖塊分區(tile partitioning)組件212、遞迴幀間編碼組件214和數據編碼組件216。圖塊分區組件212將原始圖像數據201的每幀劃分或細分為多個圖像圖塊202。每個圖像圖塊202包括來自原始圖像數據201的幀的像素值的子集合,表示數位圖像的對應部分或區域。如本文所使用的,術語「共置圖像圖塊」指的是映射到不同影片幀中的相同相對位置(例如圖像的左上角)或以其他方式關聯的圖像圖塊。
在一些態樣中,遞迴幀間編碼組件214可以基於自迴歸(或遞迴)模型將每個圖像圖塊202幀間編碼為對應的殘餘圖塊203。更具體地,對於要編碼的每個圖像圖塊202,遞迴幀間編碼組件214可以基於編碼圖像數據204來重建對應的共置的圖像圖塊。在一些實施方式中,遞迴幀間編碼組件214可利用比例因數(
)縮放重建圖像圖塊中的每個像素值(
),並且將殘餘圖塊203的像素值(
)計算為縮放像素值與欲編碼的當前圖像圖塊202(第
幀)的像素值(
)之間的差,其中
。在一些態樣中,遞迴幀間編碼組件214可將每個比例因數
的值提供給數據編碼組件216。
數據編碼組件216配置為根據一個或多個編碼方案將每個殘餘圖塊203編碼為編碼圖像數據204的一個或多個碼字。在一些實施方式中,數據編碼組件216可以對殘餘圖塊203執行有損或無損壓縮,例如以進一步減少通過通道(到影片解碼器220)傳送的編碼圖像數據204的量。在一些其他實施方式中,數據編碼組件216還可以對殘餘圖塊203進行編碼或以其他方式執行附加處理。示例性合適的編碼技術包括空間頻率變換和量化等。在一些態樣中,數據編碼組件216還可對每個比例因數
進行編碼以用於通過通道傳輸(至影片解碼器220)。
在一些實施方式中,影片解碼器220可以包括數據解碼組件222、殘餘組合組件224和圖像重建組件226。數據解碼組件222配置為將編碼圖像數據204的每一幀解碼為一系列解碼的殘餘圖塊205。更具體地,數據解碼組件222可以回復由數據編碼組件216執行的編碼。例如,數據解碼組件222可以對包括在編碼圖像數據204的每個幀中的碼字進行解碼(根據由影片編碼器210所實施的相同編碼方案)以恢復由遞回幀間編碼組件214產生的殘餘圖塊203。在一些態樣中,數據解碼組件222還可對從影片編碼器210接收的每個比例因數
的值進行解碼。
殘餘組合組件224將每個解碼的殘餘圖塊205與先前由殘餘組合組件224重建的共置圖像圖塊進行組合,以重建對應的圖像圖塊206。更具體地,殘餘組合組件224可以回復由遞迴幀間編碼組件214執行的幀間編碼,以恢復由圖塊分區組件212輸出的原始圖像圖塊202。例如,殘餘組合組件224可藉由對解碼殘餘圖塊205中的
和來恢復重建圖像圖塊206的像素值(
),而利用了先前重建的圖像圖塊中的共置像素值(
)的加權版本,其中
。
圖像重建組件226將重建圖像圖塊206聚合為重建圖像數據207。更具體地,圖像重建組件226可以回復由圖塊分區組件212執行的分區,例如,藉由將重建圖像圖塊206重新組裝成類似於由影片編碼器210編碼的原始圖像數據201的幀的重建圖像數據207的幀。重建的圖像數據207還可以在電子顯示器上顯示或以其他方式呈現為數位圖像。
如上所述,在通信通道上損耗一個或多個完全幀間編碼的影片幀或圖塊(其中
= 1)可能導致所顯示的圖像出現錯誤或品質下降。在一些態樣中,可設置比例因數
以減輕一個或多個殘餘圖塊的損耗。例如,藉由將比例因數
設置為小於1(但大於0)的值,殘餘圖塊
即包括來自當前圖像圖塊
和重建圖像圖塊
的貢獻。因此,影片解碼器220可逐漸復原或修復所顯示的圖像中的錯誤(由於耗損幀或量化)。在一些實施方式中,影片編碼器210可動態地改變連續影片幀的比例因數
(例如,在
= ¾和
= 1之間)以減少幀更新的頻率,同時使得顯示圖像的修復進行順利。
圖3示出根據一些實施方式的示例影片編碼系統300的方塊圖。在一些實施方式中,影片編碼系統300可以是圖2的影片編碼器210的一個示例。更具體地,影片編碼系統300可以基於遞迴混合幀間編碼過程將當前圖像圖塊301編碼為一個或多個碼字303。例如參考圖2,當前圖像圖塊301可以是圖像圖塊202中的任意一個的示例,並且碼字303可以是編碼圖像數據204的示例。
影片編碼系統300包括圖塊編碼組件310和遞迴反饋環路350,遞迴反饋環路350包括圖塊解碼組件320和幀儲存器330。在一些實施方式中,幀儲存器330可以儲存與先前影片幀相關聯的圖像數據。更具體地,幀儲存器330可以至少儲存與先前影片幀相關聯的共置圖像圖塊306。例如,如果當前圖像圖塊301是第
影片幀的第
圖像圖塊,則共置圖像圖塊306可以表示第
影片幀中的第
圖像圖塊。
在一些態樣中,可利用比例因數(
)來縮放共置圖像圖塊306以產生縮放後的圖像圖塊308,其可以與當前圖像圖塊301組合以產生殘餘圖塊302。例如,可以將共置的圖像圖塊306中的每個像素值(
)乘以比例因數
並且從當前圖像圖塊301中的共置像素值(
)中減去每個像素值(
),以產生殘餘圖塊302中的對應像素值(
),其中
。
圖塊編碼組件310根據一個或多個編碼方案將殘餘圖塊302編碼為一個或多個碼字303。在一些實施方式中,圖塊編碼組件310可以是圖2的數據編碼組件216的一個示例。例如,圖塊編碼組件310可對殘餘圖塊302執行有損或無損壓縮。替代地或附加地,圖塊編碼組件310可以對殘餘圖塊302應用空間頻率變換或量化。
圖塊解碼組件320配置為將一個或多個碼字303解碼為殘餘圖塊304。在一些實施方式中,圖塊解碼組件320可以回復由圖塊編碼組件310執行的編碼。這樣,殘餘圖塊304可基本相似於最近編碼的殘餘圖塊302(如果並非相同)。殘餘圖塊304進一步與縮放圖像圖塊308組合以產生重建圖像圖塊305。
在一些實施方式中,殘餘圖塊304與縮放圖像圖塊308的組合可以回復當前圖像圖塊301與縮放圖像圖塊308的幀間編碼。例如,殘餘圖塊304中的每個像素值(
)可以與縮放圖像圖塊308中的共置像素值相加,以產生重建圖像圖塊305中的相應像素值(
),其中
。因此,當殘餘圖塊304與最近編碼的殘餘圖塊302相同,(
),重建圖像圖塊305也相同於與其相關聯的當前圖像圖塊301,(
)。
由本發明的各態樣理解到,各種編碼技術(諸如有損壓縮和量化)可能將雜訊或錯誤引入碼字303中。導致殘餘圖塊304可能會與殘餘圖塊302不同。然而,因為遞迴反饋環路350追蹤由影片解碼器(諸如圖2的影片解碼器220)執行的解碼操作,重建圖像圖塊305是在影片解碼器處重建的圖像圖塊(諸如任何重建圖像圖塊206)的相對準確的表現。因此碼字303可以在影片解碼器處產生相對準確或高品質的圖像。
如上所述,比例因數
判定出當前圖像圖塊301和縮放圖像圖塊308中的每一個對殘餘圖塊302的貢獻。換句話說,比例因數
控制對殘餘圖塊302進行幀內編碼的程度和對殘餘圖塊302進行幀間編碼的程度。例如,當比例因數
接近於0時,殘餘圖塊302可包含更多的幀內編碼,並且當比例因數
接近1時,殘餘圖塊302可包含更多的幀間編碼。由本發明的各態樣理解到幀內編碼非常適合於預測已知影片幀中的像素值之間的空間變化。相比之下,幀間編碼非常適合預測連續影片幀中像素值之間的時間變化。
由本發明的各態樣還能理解到,基於影片幀的空間和時間特性,像素值的一些變化對於人類觀察者來說可能比其他變化更容易明顯或可辨別。例如,已知幀(例如草地的圖像)中像素值之間的高頻變化可能會掩蓋或隱藏連續幀之間像素值的相對較小的變化(例如昆蟲落在草地葉片上的影片)。相比之下,當周圍像素值相對均一時,像素值的相同或相似變化對於人類觀察者來說可能更明顯(例如同一昆蟲在晴朗的藍天背景下飛行的影片)。
因此,幀內編碼和幀間編碼的最佳組合可在與影片幀相關聯的圖像圖塊之間變化,並且還可在與連續影片幀相關聯的共置圖像圖塊之間變化。在一些態樣中,影片編碼系統300可以基於當前圖像圖塊301和共置圖像圖塊306的空間和時間特性來判定出要應用於共置圖像圖塊306的比例因數
。在這樣的態樣中,比例因數
可被稱為空間-時間幀間編碼(STIC)比例因數。
圖4示出根據一些實施方式的示例比例因數計算器400的方塊圖。在一些實施方式中,比例因數計算器400可以基於當前圖像圖塊401和共置圖像圖塊402來判定STIC比例因數406。在一些實施方式中,當前圖像圖塊401、共置圖像圖塊402和STIC比例因數406可分別是圖3的示例當前圖像圖塊301、共置圖像圖塊306和比例因數
。比例因數計算器400包括第一空間分析組件410、第二空間分析組件420、時間分析組件430和STIC判定組件440。
第一空間分析組件410配置為判定與當前圖像圖塊401相關聯的第一空間變化度量403。更具體地,第一空間變化度量403可指示出當前圖像圖塊401的像素值之間的空間變化量。在一些實施方式中,第一空間變化度量403可以是與當前圖像圖塊401中的像素值相關聯的隨機變量(
)的標準偏差(
)。
第二空間分析組件420配置為判定與共置圖像圖塊402相關聯的第二空間變化度量404。更具體地,第二空間變化度量404可指示出共置圖像圖塊402中的像素值之間的空間變化量。在一些實施方式中,第二空間變化度量404可以是與共置圖像圖塊402中的像素值相關聯的隨機變量(
)的標準偏差(
)。
時間分析組件430配置為判定與當前圖像圖塊401和共置圖像圖塊402相關聯的時間變化度量405。更具體地,時間變化度量405指示出當前圖像圖塊401的像素值和共置圖像圖塊402的像素值之間的時間變化量。在一些實施方式中,時間變化度量403可以是隨機變量
和
之間的相關性(
):
STIC判定組件440配置為基於第一空間變化度量403、第二空間變化矩陣404和時間變化度量405的組合來判定STIC比例因數406。在一些實施方式中,STIC比例因數406可以是當前圖像圖塊401的標準偏差
的函數,共置圖像圖塊402的標準偏差
,以及當前圖像圖塊401和共置圖像圖塊402之間的相關性
,其中
是STIC比例因數406:
也可以根據隨機變量
的(
)個可能結果(
)和隨機變量
的
個可能結果(
)重寫方程式1:
為了避免除數是0,上式可以進一步重寫為:
如上所述,STIC比例因數406反映當前圖像圖塊401和共置圖像圖塊402的空間-時間特性。因此,對於已知壓縮率,STIC比例因數406可將顯示圖像中的失真量(如人類視覺系統所感知的)最小化,例如,當前圖像圖塊401和共置圖像圖塊402高度相關或高度相關時,STIC比例因數406可以較高。當前圖像圖塊401表現出比共置圖像402顯著更大的空間變化時(進而利用幀間編碼實現更大的壓縮)。另一方面,當前圖像圖塊401和共置圖像圖塊402幾乎沒有相關性時或者當前圖像圖塊401展現出比共置圖像圖塊402顯著更小的空間變化時,STIC比例因數406可以較低。(進而利用幀內編碼實現更高的圖像品質)。
在一些實施方式中,STIC比例因數406可用於將可受益於影片幀的空間-時間複雜性的知識的其他處理(例如量化)進行最佳化。例如,STIC比例因數406可提供客觀影片品質度量,其可用於對包含較大空間-時間複雜度(且因此包含較大資訊內容)的影片幀的區域施加更多權重。在一些其他實施方式中,可將STIC比例因數406用於產生可視化注意力圖,其用於顯著影片處理(例如注視點壓縮)。更進一步,在一些實施方式中,STIC比例因數406可用作變化(或異常)檢測機制(諸如用於工業控制應用)。
由本發明的各態樣還理解到,當前圖像圖塊401和共置圖像圖塊402的空間-時間特性可用於預測當前影片幀中包括或描繪的內容類型。例如,「自然性」內容(例如由攝影機擷取的圖像或影片)可能具有與「生產性」內容(例如電腦生成的圖形或圖像)明顯不同的時空特徵。因此,與自然性內容相關聯的STIC比例因數406可以不同於與生產性內容相關聯的STIC比例因數406。在一些態樣中,影片編碼器可以基於STIC比例因數406來預測與每個影片幀相關聯的內容類型。
圖5示出根據一些實施方式的示例內容分類系統500的方塊圖。在一些實施方式中,內容分類系統500可基於表示已知影片幀的當前圖像圖塊501的集合來判定該影片幀的內容類型507,以及表示先前影片幀的共置圖像圖塊502的集合。內容分類系統500包括STIC判定組件520、概率分佈函數(PDF、probability distribution function)估計組件540、熵計算組件550和內容分類組件560。
STIC判定組件520配置為判定出與當前圖像圖塊501和共置圖像圖塊502相關聯的STIC比例因數503。更具體地,STIC比例因數503可表示出當前圖像圖塊501和共置圖像圖塊502的空間-時間特性。在一些實施方式中,STIC判定組件可以是圖4的比例因數計算器400的一個示例。例如參考圖4,每個當前圖像圖塊501可以是當前圖像圖塊401的一個示例,每個共置圖像圖塊502可以是共置圖像圖塊402的一個示例,並且STIC比例因數503可以是STIC比例因數406的一個示例。
PDF估計組件540配置為聚集已知影片幀的STIC比例因數503並且估計與已知影片幀的STIC比例因數503的分佈相關聯的概率密度函數(PDF)504。合適的PDF示例包括直方圖和參數概率分佈等。圖6A示出與自然性內容的幀的比例因數(
)的示例分佈相關聯的PDF的直方圖600。圖6B示出與生產性內容的幀的比例因數(
)的示例分佈相關聯的PDF的直方圖610。
熵計算組件550配置為計算已知影片幀的STIC比例因數503的熵505。合適的熵的示例包括Rényi熵、Shannon熵和Pai熵等。熵505表現出STIC比例因數503的隨機性或不判定性。從本發明的各態樣理解到與某些內容類型相關聯的熵可不同於與其他內容類型相關聯的熵。參考例如圖6A和圖6B,與自然性內容相關聯的比例因數
比與生產力類型內容相關聯的比例因數
的值更有可能在0和1之間(通常等於0或1)。因此,與自然性內容相關聯的比例因數的熵可高於與生產性內容相關聯的比例因數的熵。
內容分類組件560配置為基於計算的熵505判定出已知影片幀的內容類型507的分類。示例性合適的分類模型包括邏輯模型、支援向量機(SVM)和貝葉斯模型等。在一些實現方式中,內容分類組件560可將計算出的熵505與一個或多個閾值(也稱為「鑑別器」)進行比較以判定出內容類型507。例如,與高於已知熵閾值的熵505相關聯的影片幀可被分類為自然性內容,而與低於熵閾值的熵505相關聯的影片幀可被分類為生產性內容。
圖7示出與自然性內容702和生產性內容704相關聯的比例因數(
)的示例熵的熵圖700。更具體地,圖7示出與自然性內容702和生產性內容704相關聯的熵是如何相對於不同的量化倉寬度(表示應用於影片幀的不同量化級別)變化的。在一些實施方式中,與自然性內容702相關聯的比例因數
可以是圖6A中示出的比例因數
的一個示例,與生產性內容704相關聯的比例因數
可以是圖6B中示出的比例因數
的一個示例。
如圖7所示,對於任何量化倉寬度,與自然性內容702相關聯的比例因數
的熵明顯高於與生產性內容704相關聯的比例因數
的熵。這樣,鑑別器曲線706可配合熵圖700,其將與自然性內容702相關聯的熵與與生產性內容704相關聯的熵分開。因此,如果針對已知影片幀計算的熵(諸如圖5的熵505)高於鑑別器曲線706,對於已知的量化級別,影片幀可被分類為自然性內容702(表示內容類型507)相反,如果計算出的熵低於鑑別器曲線706,則影片幀可被分類為生產性內容704。在一些實現中,鑑別器曲線(
)706可以被表達為量化倉寬度(
)的函數:
其中
、
和
是可調整使得鑑別器曲線706能與任何數據集(表示任何內容類型)的參數配合。在圖7的示例中,
= 0.15、
= 0.35和
= 6.1是基於包含自然性內容702的實際影片數據和包含生產性內容704的實際影片數據藉由實驗進行配合的參數。
在一些態樣中,關於內容類型分類的知識可用於改良或最佳化對已知影片幀執行的各種編碼或處理操作。在一些實現中,量化可使用分類來判定出已知影片幀所需的數據速率和品質(例如用於速率控制)。在一些其他實施方式中,可將分類用於創建各種量化設定檔(包括用於各種頻帶的量化參數)。在一些其他實施方式中,分類可用於判定出金字塔型編解碼器中的頻帶(或層)的數量。在一些其他實施方式中,分類可用於判定出圖像式編解碼器中的頻率掃描順序。在一些其他實施方式中,分類可用於預處理和後處理濾波器的選擇。在一些其他實施方式中,分類可用於與熵編碼相關聯的概率表的選擇或建模。更進一步,在一些實施方式中,分類可用於位元率-失真最佳化(RDO)模型中(諸如以聯合最佳化變化的編碼工具)。
在一些其他態樣中,本實施方式的內容分類操作(例如由圖5的內容分類系統500執行)可實施為各種圖像處理應用中的預處理步驟(例如應用於不同的內容類型的不同去除雜訊濾波器應用)。在一些其他態樣中,內容類型分類可以幫助電腦視覺應用中的視覺識別。在一些其他態樣中,內容類型分類可以幫助語義圖像分割和檢索。在一些其他態樣中,內容類型分類可以用於圖像元數據的創建或提取。更進一步,在一些態樣中,內容類型分類可用作圖像或影片的潛在變量模型中的先驗(或超先驗(hyperprior))(諸如在生成對抗網絡(GAN)或變分自編碼器(VAE)神經網路中)。
圖8示出根據一些實施方式的編碼器800的方塊圖。在一些實施方式中,編碼器800可以是圖2的影片編碼器210或圖3的影片編碼系統300的一個示例。更具體地,編碼器800可配置為基於遞迴混合幀間編碼過程,將圖像圖塊編碼為碼字。
在一些實施方式中,編碼器800可包括數據界面810、處理系統820和記憶體830。數據界面810配置為從圖像源接收圖像數據並將表示編碼圖像數據的碼字輸出到通信通道。在一些態樣中,數據界面810可包括與圖像源連接的圖像源界面(I/F)812和與通信通道連接的通道界面814。在一些實施方式中,通道界面814可通過通信通道發送與圖像序列中的第一圖像相關聯的一個或多個第一碼字。以及與圖像序列中第一圖像之後的第二圖像相關聯的一個或多個第二碼字。
記憶體830可以包括圖像數據緩衝器831以儲存與編碼操作相關聯的任何圖像數據或中間數據。記憶體830還可包括非暫態處理器可讀儲存媒體(包括一個或多個非揮發性記憶體元件、例如EPROM、EEPROM、快閃記憶體、硬碟等),其可以至少儲存以下軟體(SW)模組:
● 圖塊解碼SW模組832,用於根據一個或多個編碼方案將一個或多個第一碼字解碼為多個第一像素值;
● 圖塊縮放SW模組834,用於通過與通信通道的一個或多個屬性相關聯的比例因數來縮放多個第一像素值;
● 幀間編碼SW模組836,用於獲得多個差值,其分別表示縮放後的該多個第一像素值與多個第二像素值之間的差值,其中該多個第二像素值係與第二圖像相關聯,;以及
● 圖塊編碼SW模組838,用於根據一個或多個編碼方案將多個差值編碼為一個或多個第二碼字。
每個軟體模組包括指令,當由處理系統820執行時,使得編碼器800執行相應的功能。
處理系統820可包括能夠執行儲存在編碼器800中(例如記憶體830中)的一個或多個軟體程式的腳本或指令的任何合適的一個或多個處理器。例如,處理系統820可以執行圖塊解碼SW模組832以根據一個或多個編碼方案將一個或多個第一碼字解碼為多個第一像素值。處理系統820還可以執行圖塊縮放SW模組834以按照與通信通道的一個或多個屬性相關聯的比例因數來縮放多個第一像素值。此外,處理系統820可以執行幀間編碼SW模組836以獲得多個差值,其分別表示縮放後的該多個第一像素值與多個第二像素值之間的差值,其中該多個第二像素值係與第二圖像相關聯。更進一步,處理系統820可執行圖塊編碼SW模組838以根據一個或多個編碼方案將多個差值編碼為一個或多個第二碼字。
圖9示出根據一些實施方式的用於影片編碼的示例操作900的說明性流程圖。在一些實施方式中,示例操作900可由諸如圖2的影片編碼器210或圖3的影片編碼系統300之類的影片編碼器來執行。
影片編碼器通過通信通道發送與圖像序列中的第一圖像相關聯的一個或多個第一碼字(步驟910)。影片編碼器根據一個或多個編碼方案將一個或多個第一碼字解碼為多個第一像素值(步驟920)。影片編碼器按照與通信通道的一個或多個屬性相關聯的第一比例因數(
)來縮放多個第一像素值(步驟930)。在一些實施方式中,一個或多個屬性可包括與通信通道相關聯的通道損耗。在一些其他實施方式中,一個或多個屬性可包括與通信通道相關聯的通道容量。在一些態樣中,第一比例因數
可大於或等於0且小於或等於1。
影片編碼器還獲得多個第一差值(步驟940),其分別表示縮放後的該多個第一像素值與多個第二像素值之間的差值,其中該多個第二像素值係與第二圖像相關聯,而該第二圖像在該圖像序列中位於該第一圖像之後。影片編碼器根據一個或多個編碼方案將多個第一差值編碼為一個或多個第二碼字(步驟950)。影片編碼器通過通信通道發送一個或多個第二碼字(步驟960)。
在一些態樣中,影片編碼器還可至少部分地基於多個第一像素值和多個第二像素值來判定出第一比例因數
。在一些實施方式中,判定第一比例因數
可包括判定出與多個第一像素值相關聯的隨機變量(
)的標準偏差(
)。判定與多個第二像素圖塊相關聯的隨機變量(
)的標準偏差(
);判定隨機變量
和隨機變量
之間的相關性(
),其中
以及
。
在一些態樣中,影片編碼器還可至少部分地基於第一比例因數
來判定與第二圖像相關聯的內容類型。在一些實施方式中,多個第二像素值可以表示與第二圖像相關聯的多個圖像圖塊中的第一圖像圖塊。在一些實現中,內容類型的判定可包括判定分別與多個圖像塊相關聯的多個比例因數,其中,多個比例因數包括第一比例因數
;判定與多個比例因數相關聯的PDF;並基於PDF判定比例因數的熵,其中根據比例因數的熵判定內容類型。
在一些態樣中,影片編碼器還可以根據一個或多個編碼方案將一個或多個第二碼字解碼為多個第三像素值。利用第二比例因數(
)縮放多個第三像素值;獲得多個第二差值,其分別表示縮放後的該多個第三像素值和多個第四像素值之間的差值,其中該多個第四像素值係與第三圖像相關聯,而該第三圖像在該圖像序列中位於該第二圖像之後;根據一個或多個編碼方案將多個第二差值編碼為一個或多個第三碼字;以及通過通信通道傳送一個或多個第三碼字。在一些實施方式中,第二比例因數
可以不同於第一比例因數
。
在一些態樣中,影片編碼器還可以通過通信通道發送與第一圖像相關聯的一個或多個第三碼字;根據編碼方案將一個或多個第三碼字解碼為多個第三像素值;利用第二比例因數(
)縮放多個第三像素值;獲得多個第二差值,其分別表示縮放後的該多個第三像素值和多個第四像素值之間的差值,其中該多個第四像素值係與第二圖像相關聯;根據一個或多個編碼方案將多個第二差值編碼為一個或多個第三碼字;以及通過通信通道傳送一個或多個第三碼字。在一些實施方式中,第二比例因數
可以不同於第一比例因數
。
圖10示出根據一些實施方式的用於影片編碼的示例操作1000的另一說明性流程圖。在一些實施方式中,示例操作1000可以由諸如圖2的影片編碼器210或圖3的影片編碼系統300之類的影片編碼器來執行。
影片編碼器通過通信通道發送與圖像序列中的第一圖像相關聯的一個或多個第一碼字(步驟1010)。影片編碼器根據一個或多個編碼方案將一個或多個第一碼字解碼為多個第一像素值(步驟1020)。影片編碼器至少部分地基於與圖像序列中第一圖像之後的第二圖像相關聯的多個第一像素值和多個第二像素值來判定比例因數(
)(步驟1030)。影片編碼器按比例因數
縮放多個第一像素值(步驟1040)。影片編碼器獲得多個差值,其分別表示多個縮放的第一像素值和多個第二像素值之間的差值(步驟1050)。影片編碼器根據一個或多個編碼方案將多個差值編碼為一個或多個第二碼字(步驟1060)。影片編碼器還通過通信通道發送一個或多個第二碼字(步驟1070)。
在一些實施方式中,比例因數α的判定可包括判定與多個第一像素值相關聯的隨機變量(
)的標準偏差(
);判定與多個第二像素圖塊相關聯的隨機變量(
)的標準偏差(
));判定隨機變量
和隨機變量
之間的
相關性(
),其中
和
。
在一些實施方式中,多個第二像素值可以表示與第二圖像相關聯的多個圖像圖塊中的第一圖像圖塊。在一些態樣中,影片編碼器還可判定分別與多個圖像圖塊相關聯的多個比例因數,其中,所述多個比例因數包括比例因數
;判定出與多個比例因數相關聯的PDF;基於PDF判定出比例因數的熵;以及基於比例因數的熵判定出與第二圖像相關聯的內容類型。
本領域技術人員將理解,可以使用多種不同技術和製程中的任何一種來表示資訊和信號。例如,在上述全文中可能引用的數據、指令、命令、資訊、信號、位元、符號和晶片可以由電壓、電流、電磁波、磁場或粒子、光場或粒子或其任意組合來表示。
此外,本領域技術人員將理解,結合本文揭示的態樣所描述的各種說明性邏輯塊、模組、電路和算法步驟可實施為電子硬體、電腦軟體或兩者的組合。為了清楚地說明硬體和軟體的這種可互換性,上述已大致根據其功能描述了各種說明性組件、圖像、模組、電路和步驟。這種功能是否實現為硬體或軟體取決於特定的應用和對整個系統施加的設計限制。技術人員可以針對每個特定應用以不同的方式實施所描述的功能,但是這樣的實現決策不應被解釋為導致偏離本發明的範圍。
結合本文所揭示的態樣中所描述的方法、序列或算法可直接在硬體中、由處理器執行的軟體模組中、或者兩者的組合中實施。軟體模組可以駐留在RAM記憶體、快閃記憶體、ROM記憶體、EPROM記憶體、EEPROM記憶體、暫存器、硬碟、可移動磁碟、CD-ROM或本領域已知的任何其他形式的儲存媒體中。示例性儲存媒體耦合到處理器,使得處理器可由儲存媒體讀取資訊以及將資訊寫入儲存媒體。在替代方案中,儲存媒體可以集成到處理器中。
在前述說明書中,已經參考具體實施例的具體示例描述了具體實施例。然而,顯而易見的是,在不脫離所附請求項中闡述的本發明的更廣範圍的情況下,可以對其進行各種修改和改變。因此,說明書和附圖應被視為說明性的意義而不是限制性的意義。
100:通訊系統
102:輸入數據
106:輸出數據
110:編碼器
120:解碼器
130:通道
200:系統
201:原始圖像數據
202:圖像圖塊
203:殘餘圖塊
204:編碼圖像數據
205:解碼殘餘圖塊
206:對應圖像圖塊
207:重建圖像數據
210:影片編碼器
212:圖塊分區組件
214:遞迴幀間編碼組件
216:數據編碼組件
220:影片解碼器
222:數據解碼組件
224:殘餘組合組件
226:圖像重建組件
300:影片編碼系統
301:當前圖像圖塊
302:殘餘圖塊
303:碼字
304:殘餘圖塊
305:重建圖像圖塊
306:共置圖像圖塊
308:縮放圖像圖塊
310:圖塊編碼組件
320:圖塊解碼組件
330:幀儲存器
350:遞迴反饋迴圈
400:比例因數計算器
401:當前圖像圖塊
402:共置圖像圖塊
403:第一空間變化度量
404:第二空間變化度量
405:時間變化度量
406:STIC比例因數
410:第一空間分析組件
420:第二空間分析組件
430:時間分析組件
440:STIC判定組件
500:內容分類系統
501:當前圖像圖塊
502:共置圖像圖塊
503:STIC比例因數
504:機率密度函數(PDF)
505:熵
507:內容類型
520:STIC判定組件
540:機率密度函數(PDF)估計組件
550:熵計算組件
560:內容分類組件
600:直方圖
610:直方圖
700:熵圖
702:自然性內容
704:生產性內容
706:鑑別器曲線
800:編碼器
810:數據界面
812:圖像源界面(I/F)
814:通道界面
820:處理系統
830:記憶體
831:圖像數據緩衝器
832:圖塊解碼SW模組
834:圖塊縮放SW模組
836:幀間編碼SW模組
838:圖塊編碼SW模組
900:操作
910:步驟
920:步驟
930:步驟
940:步驟
950:步驟
960:步驟
1000:操作
1010:步驟
1020:步驟
1030:步驟
1040:步驟
1050:步驟
1060:步驟
1070:步驟
藉由示例說明本實施方式,並且附圖的圖式不旨在對本發明作出限制。
圖1示出用於對數據進行編碼和解碼的示例通信系統。
圖2示出根據一些實施方式的示例影片傳輸系統的方塊圖。
圖3示出根據一些實施方式的示例影片編碼系統的方塊圖。
圖4示出根據一些實施方式的示例比例因數計算器的方塊圖。
圖5示出根據一些實施方式的示例內容分類系統的方塊圖。
圖6A示出與自然性內容的幀的比例因數的示例分佈相關聯的概率密度函數(PDF)的直方圖。
圖6B示出與生產性內容的幀的比例因數的示例分佈相關聯的PDF的直方圖。
圖7示出與自然性內容和生產力類型內容相關聯的比例因數的示例熵的熵圖。
圖8示出根據一些實施方式的示例編碼器的方塊圖。
圖9示出根據一些實施方式的影片編碼的示例操作的說明性流程圖。
圖10示出根據一些實施方式的影片編碼的示例操作的另一說明性流程圖。
900:操作
910:步驟
920:步驟
930:步驟
940:步驟
950:步驟
960:步驟
Claims (20)
- 一種影片編碼方法,包括: 通過通信通道發送與圖像序列中第一圖像相關聯的一個或多個第一碼字; 根據一個或多個編碼方案將該一個或多個第一碼字解碼為多個第一像素值; 藉由與該通信通道的一個或多個屬性相關聯的第一比例因數( )來縮放該多個第一像素值; 獲得多個第一差值,其分別表示縮放後的該多個第一像素值與多個第二像素值之間的差值,其中該多個第二像素值係與第二圖像相關聯,而該第二圖像在該圖像序列中位於該第一圖像之後; 根據該一個或多個編碼方案將該多個第一差值編碼為一個或多個第二碼字;以及 通過通信通道傳送該一個或多個第二碼字。
- 如請求項1所述之方法,其中該一個或多個屬性包括與該通信通道相關聯的通道損耗。
- 如請求項1所述之方法,其中該一個或多個屬性包括與該通信通道相關聯的通道容量。
- 如請求項1所述之方法,其中0 ≤ α 1≤ 1。
- 如請求項1所述之方法,進一步包括: 至少部分地基於該多個第一像素值和該多個第二像素值來判定第一比例因數 。
- 如請求項1所述之方法,進一步包括: 至少部分地基於該第一比例因數α 1來判定與該第二圖像相關聯的內容類型。
- 如請求項6所述之方法,其中該多個第二像素值表示與該第二圖像相關聯的多個圖像圖塊中的一個圖像圖塊,判定該內容類型包括: 判定出分別與多個圖像圖塊相關聯的多個比例因數,該多個比例因數包括該第一比例因數 ; 判定出與該多個比例因數相關聯的概率密度函數(PDF); 基於該PDF判定出該多個比例因數的熵,基於該多個比例因數的該熵判定出該內容類型。
- 如請求項1所述之方法,進一步包括: 根據該一個或多個編碼方案將該一個或多個第二碼字解碼為多個第三像素值; 利用第二比例因數( )縮放該多個第三像素值; 獲得多個第二差值,其分別表示縮放後的該多個第三像素值和多個第四像素值之間的差值,其中該多個第四像素值係與第三圖像相關聯,而該第三圖像在該圖像序列中位於該第二圖像之後; 根據該一個或多個編碼方案將該多個第二差值編碼為一個或多個第三碼字;以及 通過通信通道傳送該一個或多個第三碼字。
- 如請求項8所述之方法,其中該第二比例因數( )不同於該第一比例因數( )。
- 如請求項1所述之方法,進一步包括: 通過該通信通道傳送與該第一圖像相關聯的一個或多個第三碼字; 根據該一個或多個編碼方案將該一個或多個第三碼字解碼為多個第三像素值; 利用第二比例因數( )縮放該多個第三像素值; 獲得多個第二差值,其分別表示縮放後的該多個第三像素值和多個第四像素值之間的差值,其中該多個第四像素值係與第二圖像相關聯; 根據該一個或多個編碼方案將該多個第二差值編碼為一個或多個第三碼字;以及 通過通信通道傳送該一個或多個第三碼字。
- 如請求項10所述之方法,其中該第二比例因數( )不同於該第一比例因數( )。
- 一種編碼器,包括: 處理系統;以及 儲存指令的記憶體,當該處理系統執行該指令時,使得該編碼器: 通過通信通道發送與圖像序列中第一圖像相關聯的一個或多個第一碼字; 根據一個或多個編碼方案將該一個或多個第一碼字解碼為多個第一像素值; 藉由與該通信通道的一個或多個屬性相關聯的第一比例因數( )來縮放該多個第一像素值; 獲得多個第一差值,其分別表示縮放後的該多個第一像素值與多個第二像素值之間的差值,其中該多個第二像素值係與第二圖像相關聯,而該第二圖像在該圖像序列中位於該第一圖像之後; 根據該一個或多個編碼方案將該多個第一差值編碼為一個或多個第二碼字;以及 通過通信通道傳送該一個或多個第二碼字。
- 如請求項12所述之編碼器,其中該一個或多個屬性包括與該通信通道相關聯的該通道損耗或與該通信通道相關聯的該通道容量中的至少一者。
- 如請求項12所述之編碼器,其中執行該指令進一步導致該編碼器: 至少部分地基於該多個第一像素值和該多個第二像素值來判定出該第一比例因數( )。
- 如請求項12所述之編碼器,其中執行該指令進一步導致該編碼器: 至少部分地基於該第一比例因數( )來判定出與該第二圖像相關聯的內容類型。
- 如請求項15所述之編碼器,其中該多個第二像素值表示與該第二圖像相關聯的多個圖像圖塊中的一個圖像圖塊,其中執行該指令進一步導致該編碼器: 判定出分別與該多個圖像圖塊相關聯的多個比例因數,該多個比例因數包括該第一比例因數( ); 判定出與該多個比例因數相關聯的概率密度函數(PDF);以及 基於該PDF判定出該多個比例因數的熵,基於該多個比例因數的該熵判定出該內容類型。
- 如請求項12所述之編碼器,其中執行該指令進一步導致該編碼器: 根據一個或多個編碼方案將該一個或多個第二碼字解碼為多個第三像素值; 利用第二比例因數( )縮放該多個第三像素值; 獲得多個第二差值,其分別表示縮放後的該多個第三像素值和多個第四像素值之間的差值,其中該多個第四像素值係與第三圖像相關聯,而該第三圖像在該圖像序列中位於該第二圖像之後; 根據該一個或多個編碼方案將該多個第二差值編碼為一個或多個第三碼字;以及 通過該通信通道傳送該一個或多個第三碼字。
- 如請求項12所述之編碼器,其中執行該指令進一步導致該編碼器: 通過該通信通道發送與該第一圖像相關聯的一個或多個第三碼字; 根據該一個或多個編碼方案將該一個或多個第三碼字解碼為多個第三像素值; 利用第二比例因數( )縮放該多個第三像素值; 獲得多個第二差值,其分別表示縮放後的該多個第三像素值和多個第四像素值之間的差值,其中該多個第四像素值係與第二圖像相關聯; 根據該一個或多個編碼方案將該多個第二差值編碼為一個或多個第三碼字;以及 通過該通信通道傳送該一個或多個第三碼字。
- 一種編碼方法,其包括: 通過通信通道發送與圖像序列中的第一圖像相關聯的一個或多個第一碼字; 根據一個或多個編碼方案將該一個或多個第一碼字解碼為多個第一像素值; 至少部分地基於該多個第一像素值以及與該圖像序列中該第一圖像之後的第二圖像相關聯的多個第二像素值來判定比例因數(α); 利用該比例因數α縮放該多個第一像素值; 獲得多個差值,其分別表示縮放後的該多個第一像素值與該多個第二像素值之間的差值; 根據一個或多個編碼方案將該多個差值編碼為一個或多個第二碼字;以及 通過該通信通道傳送該一個或多個第二碼字。
- 如請求項19所述之方法,其中該多個第二像素值表示與該第二圖像相關聯的多個圖像圖塊中的一個圖像圖塊,該方法還包括: 判定出分別與多個圖像圖塊相關聯的多個比例因數,該多個比例因數包括該比例因數α; 判定出與該多個比例因數相關聯的概率密度函數(PDF); 基於該PDF判定出該比例因數的熵;以及 基於該比例因數的該熵判定出與該第二圖像相關聯的內容類型。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/960,723 | 2022-10-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202416711A true TW202416711A (zh) | 2024-04-16 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10674158B2 (en) | Method and system of video coding optimization | |
US11252417B2 (en) | Image data processing | |
KR102287947B1 (ko) | 영상의 ai 부호화 및 ai 복호화 방법, 및 장치 | |
US11166030B2 (en) | Method and apparatus for SSIM-based bit allocation | |
WO2018095890A1 (en) | Methods and apparatuses for encoding and decoding video based on perceptual metric classification | |
JP6902553B2 (ja) | データ圧縮 | |
US20220086454A1 (en) | System and method for reducing video coding fluctuation | |
TW201828708A (zh) | 結合多個去雜訊化技術及並行分組圖像補塊的非局部適應性環路濾波器 | |
US11012698B2 (en) | Image encoding apparatus and method for controlling the same | |
CN112840650B (zh) | 人工智能(ai)编码装置及其操作方法和ai解码装置及其操作方法 | |
CN116916036A (zh) | 视频压缩方法、装置及系统 | |
CN115442618A (zh) | 基于神经网络的时域-空域自适应视频压缩 | |
CN107820084B (zh) | 一种视频感知编码方法及装置 | |
WO2024020053A1 (en) | Neural network-based adaptive image and video compression method | |
CN112715029A (zh) | Ai编码设备及其操作方法和ai解码设备及其操作方法 | |
CN110730347A (zh) | 图像压缩方法、装置及电子设备 | |
TW202416711A (zh) | 利用自我迴歸模型的混合幀間編碼 | |
CN114793282B (zh) | 带有比特分配的基于神经网络的视频压缩 | |
JP2024511084A (ja) | ニューラルネットワークを用いた画像及びビデオコーディングにおける潜時特徴の多分布エントロピーモデリング | |
US11979587B2 (en) | Hybrid inter-frame coding using an autoregressive model | |
JP4942208B2 (ja) | 符号化装置 | |
WO2016004721A1 (zh) | 一种码率控制方法、装置及计算机存储介质 | |
KR100540349B1 (ko) | 적응적 양자기 선택방법 | |
CN115988201B (zh) | 一种编码胶片颗粒的方法、装置、电子设备和存储介质 | |
KR102506115B1 (ko) | 타겟 태스크별 양자화 테이블 생성 방법 |