TW201347549A - 經物體偵測所告知的編碼 - Google Patents
經物體偵測所告知的編碼 Download PDFInfo
- Publication number
- TW201347549A TW201347549A TW102103019A TW102103019A TW201347549A TW 201347549 A TW201347549 A TW 201347549A TW 102103019 A TW102103019 A TW 102103019A TW 102103019 A TW102103019 A TW 102103019A TW 201347549 A TW201347549 A TW 201347549A
- Authority
- TW
- Taiwan
- Prior art keywords
- encoding
- pixel
- frame
- region
- pixel blocks
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 49
- 230000006835 compression Effects 0.000 claims abstract description 12
- 238000007906 compression Methods 0.000 claims abstract description 12
- 238000013139 quantization Methods 0.000 claims description 35
- 125000001475 halogen functional group Chemical group 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 238000005070 sampling Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 108091026890 Coding region Proteins 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/115—Selection of the code volume for a coding unit prior to coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/232—Content retrieval operation locally within server, e.g. reading video streams from disk arrays
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20004—Adaptive image processing
- G06T2207/20012—Locally adaptive
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20116—Active contour; Active surface; Snakes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20121—Active appearance model [AAM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20124—Active shape model [ASM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20128—Atlas-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20152—Watershed segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20156—Automatic seed setting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20161—Level set
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20164—Salient point detection; Corner detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20168—Radial search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/162—Detection; Localisation; Normalisation using pixel segmentation or colour matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本發明之實施例提供用於基於對視訊序列內之物體的偵測而有效率地編碼視訊資料的技術。一視訊編碼器可對圖框執行物體偵測,且在偵測到一物體時,產生該物體所位於的該圖框之一區域的統計。該視訊編碼器可比較鄰近於該物體位置之像素與該物體之統計,且可界定一物體區以包括對應於該物體位置之像素區塊及對應於具有類似於該經偵測物體之統計的鄰近像素的像素區塊。該編碼器可根據一基於區塊之壓縮演算法來編碼視訊圖框,其中根據產生相對較高品質編碼之編碼參數來編碼該物體區之像素區塊,且根據產生相對較低品質編碼之編碼參數來編碼在該物體區外之像素區塊。
Description
本發明係關於視訊編碼,且更特定而言,係關於節省頻寬同時保持影像品質之視訊編碼技術。
視訊編碼/解碼系統部署於多種不斷增加之消費型器件中。舉例而言,視訊編碼解碼器可見於現代智慧型手機及平板電腦中,其中通信頻寬由無線網路或提供相對較低且不可預測之頻寬的其他基礎設施來供應。此等應用明顯不同於大得多之頻寬可用於經編碼視訊資料的其他編碼解碼器應用(諸如,DVD播放器)。因此,此等編碼解碼器之現代應用對編碼解碼器設計者強加較高效能要求,以儘可能減小經編碼視訊之位元速率同時仍提供良好影像品質。
本發明者感知到此項技術中對如下視訊編碼器之需要:識別視訊圖框內之所關注物體且選擇編碼參數以提供包括該等物體之區的高品質編碼,節省圖框之其他區處的頻寬,且提供各種區之間的平滑編碼轉變。
本發明之實施例提供用於基於對視訊序列內之物體的偵測而有效率地編碼視訊資料的技術。根據該等實施例,視訊編碼器可對圖框執行物體偵測,且在偵測到物體時,產生該物體所位於的圖框之區域的統計。視訊編碼器可比較鄰近於物體位置之像素與該物體之統計,
且可界定物體區以包括對應於物體位置之像素區塊及對應於具有類似於經偵測物體之統計的鄰近像素的像素區塊。編碼器可根據基於區塊之壓縮演算法而編碼視訊圖框,其中根據產生相對較高品質編碼之編碼參數來編碼物體區之像素區塊,且根據產生相對較低品質編碼之編碼參數來編碼在物體區外之像素區塊。
其他實施例提供更複雜編碼技術。舉例而言,視訊編碼器可自個別像素區塊內區分為經偵測物體之部分的像素區塊之部分與並非經偵測物體之部分的像素區塊之其他部分。此等實施例進一步可將預處理操作應用於像素區塊之不同部分,以保持屬於經偵測物體之部分的高品質編碼且提供對非物體部分之高壓縮編碼。舉例而言,編碼器可在編碼之前將模糊濾波器應用於像素區塊之非物體部分。
100‧‧‧視訊編碼系統
110‧‧‧終端機
120‧‧‧第二終端機
130‧‧‧通信網路
131‧‧‧頻道
140‧‧‧視訊編碼器
142‧‧‧預處理器
143‧‧‧編碼引擎
144‧‧‧本端解碼器
145‧‧‧參考圖像快取記憶體
146‧‧‧物體偵測器
147‧‧‧控制器
150‧‧‧視訊解碼器
152‧‧‧解碼引擎
154‧‧‧參考圖像快取記憶體
156‧‧‧後處理器
158‧‧‧控制器
160‧‧‧攝影機
170‧‧‧傳輸器
180‧‧‧接收器
190‧‧‧顯示器
200‧‧‧圖框
300‧‧‧編碼視訊資料之圖框之像素區塊的方法
410‧‧‧區
420‧‧‧區
430‧‧‧子區
440‧‧‧子區
450‧‧‧子區
460‧‧‧子區
470‧‧‧子區
520‧‧‧物體區
530‧‧‧第一子區
540‧‧‧背景區
620‧‧‧物體區
630‧‧‧子區
640‧‧‧子區
700‧‧‧視訊編碼器
710‧‧‧圖框緩衝器
720‧‧‧像素區塊編碼器
721‧‧‧減法器
722‧‧‧變換單元
723‧‧‧量化器
724‧‧‧熵編碼器
725‧‧‧運動估計器
726‧‧‧像素區塊編碼器之控制器
730‧‧‧解碼器
740‧‧‧參考圖像快取記憶體
750‧‧‧物體偵測器
760‧‧‧控制器
圖1說明根據本發明之一實施例的視訊編碼系統之簡化方塊圖。
圖2說明根據本發明之一實施例的可由視訊編碼器處理之視訊資料的例示性圖框。
圖3說明根據本發明之一實施例的編碼視訊資料之圖框之像素區塊的方法。
圖4至圖6說明如應用於圖2中所說明之圖框資料的本發明之各種實施例的實例。
圖7說明根據本發明之一實施例的像素區塊編碼系統之簡化方塊圖。
圖1(a)說明根據本發明之一實施例的視訊編碼系統100之簡化方塊圖。系統100可包括經由網路130互連之複數個終端機110、120。終端機110、120各自可在本端位置處俘獲視訊資料且編碼該視訊資料以供經由網路130傳輸至另一終端機。每一終端機110、120可自網路130
接收另一終端機之經編碼視訊資料,解碼經編碼資料並顯示經恢復視訊資料。
在圖1(a)中,將終端機110、120說明為智慧型手機,但本發明之原理不限於此。本發明之實施例應用於個人電腦(桌上型電腦與膝上型電腦兩者)、平板電腦、電腦伺服器、媒體播放器及/或專用視訊會議設備。網路130表示在終端機110與120之間傳送經編碼視訊資料的任何數目個網路,包括(例如)有線及/或無線通信網路。通信網路130可在電路交換式及/或封包交換式頻道中交換資料。代表性網路包括電信網路、區域網路、廣域網路及/或網際網路。為達成本發明論述之目的,除非在下文中作出解釋,否則網路130之架構及拓撲對本發明之操作無關緊要。
圖1(b)進一步說明可在系統100內操作之視訊編碼器140及視訊解碼器150的功能方塊圖。終端機110可包括攝影機160、視訊編碼器140及傳輸器170。視訊編碼器140可編碼在攝影機160處俘獲之視訊資料且可將經編碼資料遞送至由網路130提供之頻道131。視訊編碼器140可基於視訊資料之內容而選擇編碼參數。傳輸器170可合併由視訊編碼器140提供之經編碼視訊資料與由音訊編碼解碼器或其他資料源(未圖示)提供之其他資料串流,且可調節資料以供傳輸至另一終端機120。
第二終端機120可包括接收器180、視訊解碼器150及顯示器190。接收器180可自頻道131接收資料且將頻道資料剖析成各種資料串流,包括經編碼視訊之串流。視訊解碼器150可解碼經編碼視訊資料,使由視訊編碼器140執行之編碼程序反轉,以自其恢復視訊資料。可藉由顯示器190呈現視訊資料或可儲存視訊資料以供稍後使用。
如所說明,視訊編碼器140可包括預處理器142、編碼引擎143、
本端解碼器144、參考圖像快取記憶體145、物體偵測器146及控制器147。預處理器142可接受來自攝影機160之來源視訊,且可對來源視訊執行各種處理操作以調節其以用於編碼。編碼引擎143可對經預處理視訊執行壓縮操作以減小經預處理視訊中之空間及/或時間冗餘。編碼引擎143可將經編碼視訊資料輸出至傳輸器170。解碼器144可解碼參考圖框之經編碼視訊資料且可將經解碼參考圖框儲存於參考圖像快取記憶體145中以用於在編碼稍後接收之視訊中使用。
如名稱所隱含的,物體偵測器146可識別來源視訊內之物體,例如,人臉或其他預定類型之物體。物體偵測器146可產生至控制器147之資料,該資料指示是否在圖框內偵測到物體且若偵測到物體,則指示物體在何處找到。作為回應,控制器147可界定圖框內之一或多個編碼區,且可將對編碼區中之每一者的編碼調整提供至編碼引擎143。
預處理器142可對自攝影機輸出之來源視訊執行多種視訊處理操作以調節來源視訊以用於編碼。預處理器142可包括濾波器陣列(未圖示),諸如去雜訊濾波器、清晰化濾波器、平滑濾波器、雙向濾波器及其類似者,可基於在視訊內觀測到之特性而將該等濾波器動態地應用於來源視訊。預處理器142可包括其自身之控制器(未圖示)以查核來自攝影機之來源視訊資料且選擇濾波器中之一或多者來應用。通常,預處理器142調節來源視訊資料以更有效率地呈現壓縮,或依據可能在編碼引擎143操作時招致之資料損失而保持影像品質。
編碼引擎143可根據多種不同編碼技術編碼輸入視訊資料以達成壓縮。編碼引擎143可藉由經運動補償預測來壓縮影像。可向輸入視訊之圖框指派編碼類型,諸如圖框內編碼(I編碼)、單向預測性編碼(P編碼)或雙向預測性編碼(B編碼)。可進一步將該等圖框剖析成複數個像素區塊,且可藉由變換編碼、量化及熵編碼來編碼該等圖框。編碼
引擎143可協同截斷低能變換係數之控制器147而選擇量化參數。可預測性地編碼經P編碼圖框及經B編碼圖框之像素區塊,在此狀況下,編碼引擎可計算識別儲存於參考圖像快取記憶體145中之經解碼圖框之像素區塊的運動向量(該等運動向量充當正經編碼之像素區塊之預測),且可在進行變換編碼之前產生預測殘餘。在一實施例中,視訊編碼器可根據由ITU H.263、H.264及其類似者定義之編碼協定來操作。
編碼引擎143進一步可指定某些經編碼圖框可用作參考圖框以用於在編碼稍後接收之輸入圖框中使用。解碼器144可解碼參考圖框之經編碼視訊資料且將自其恢復之視訊資料儲存於參考圖像快取記憶體145中。以此方式,視訊編碼器140具有如將在視訊解碼器150處解碼之參考圖框之經解碼複本。
如所註釋,物體偵測器146可偵測來源視訊圖框中之預定類型之物體的存在。通常,物體偵測器146可輸出表示來源視訊圖框內之經偵測物體之像素座標的資料。控制器147可使經偵測物體之座標與來源圖框之像素區塊相關且可自其界定預定數目個編碼區。控制器147可提供編碼參數以供編碼引擎143在編碼圖框之像素區塊時使用。大體而言,可設定編碼參數以提供最接近於經偵測物體之區中的像素區塊之高品質編碼,且提供遠離經偵測物體之像素區塊之相對較低品質編碼。
傳輸器170可將經編碼視訊資料傳輸至頻道131。在進行此操作中,傳輸器170可多工經編碼視訊資料與諸如經編碼音訊資料及控制資料(藉由在圖1中未說明之處理源提供)之待傳輸之其他資料。傳輸器170可執行頻道編碼操作(諸如,錯誤校正編碼、交錯、封包化及其類似者),且可調變資料並將資料傳輸至網路130。
視訊解碼器150可包括解碼引擎152、參考圖像快取記憶體154、
後處理器156及控制器158。解碼引擎152可參考儲存於參考圖像快取記憶體154中之參考圖像來解碼經由頻道131接收之經編碼視訊資料。解碼引擎152可將經解碼視訊資料輸出至後處理器156,後處理器156可對經解碼視訊資料執行額外操作以調節其以用於顯示。參考圖框之經解碼視訊資料亦可儲存至參考圖像快取記憶體154以供在隨後接收之經編碼視訊資料之解碼期間使用。
解碼引擎152可執行使由編碼引擎143執行之編碼操作反轉的解碼操作。解碼引擎152可執行熵解碼、解量化及變換解碼以產生經恢復之像素區塊資料。量化/解量化操作為有損程序,且因此經恢復之像素區塊資料可能將為由視訊編碼器140編碼之來源像素區塊的複製品但將包括某一錯誤。對於經預測性編碼之像素區塊,變換解碼可產生殘餘資料;解碼引擎152可使用與像素區塊(其在一些狀況下可為隱含的)相關聯之運動向量自參考圖像快取記憶體154擷取經預測像素區塊以與預測殘餘組合。可將經解碼像素區塊重新組譯為圖框且輸出至後處理器156。
在解碼引擎152解碼新參考圖框時,其可將經解碼參考圖框儲存於參考圖像快取記憶體154中以用於在解碼隨後接收之經編碼視訊資料中使用。
後處理器156可執行額外視訊處理以調節經恢復視訊資料以用於通常在顯示器件處呈現。典型後處理操作可包括應用解區塊濾波器、邊緣偵測濾波器、振鈴濾波器及其類似者。後處理器156可輸出經恢復視訊序列以用於在顯示器190上呈現或視情況將經恢復視訊序列儲存至記憶體以供稍後擷取及顯示。
圖1(b)中所說明之功能區塊僅支援一個方向上之視訊編碼及解碼。對於雙向通信,終端機120可包括用於視訊編碼本端俘獲之視訊的功能區塊(未圖示),且終端機110可包括用於解碼經由網路130自終
端機120接收之經編碼視訊資料的功能區塊(亦未圖示)。儘管預見到可在駐留於任一終端機110、120處之編碼器處應用本發明之原理,但僅為了簡化本發明而自圖1省略針對終端機120至終端機110編碼方向而提供之功能區塊。
圖2說明根據本發明之一實施例的可由視訊編碼器處理之視訊資料的例示性圖框。圖2說明已剖析成像素區塊陣列之圖框200。每一像素區塊可含有預定數目個像素,通常為正方形像素陣列(例如,8×8像素或16×16像素)或矩形像素陣列(例如,4×8像素、4×16像素、16×8像素等)。因此,圖框可含有像素區塊陣列。N×M像素區塊之例示性陣列說明於圖2中。
圖2亦說明如應用於圖框200之例示性物體偵測的操作。在此實例中,物體偵測為臉部偵測。臉部偵測演算法可識別影像資料內之人臉的存在,且產生識別圖框200內偵測到臉部之位置的一對座標(X1,Y1)、(X2,Y2)。該等座標可界定(例如)表示臉部之矩形的相對轉角。
圖3說明根據本發明之一實施例的編碼視訊資料之圖框之像素區塊的方法300。方法300可開始使用表示經偵測物體之位置的座標資料。方法300可識別對應於經偵測物體之位置的圖框之像素區塊(方框310)。方法300可對物體位置內之像素的資料進行取樣以判定物體之統計(方框320)。相關統計可包括色彩、明度/亮度、空間複雜度以及像素區塊內之像素值之方差及像素區塊之間的像素值之相對方差。此後,方法300可在鄰近於經偵測物體之像素區塊中搜尋統計類似於在經偵測物體之像素區塊內得到之統計的像素區塊。對於每一鄰近像素區塊,方法300可判定鄰近像素區塊是否具有類似於物體之統計的統計,且若鄰近像素區塊具有類似於物體之統計的統計,則該方法可將該鄰近像素區塊添加至物體區(方框330至340)。物體可遍及鄰近於經偵測物體之所有像素區塊而反覆,直至已將具有類似統計之所有相鄰
像素區塊添加至物體區為止。
一旦界定物體區,方法300即可建置遠離物體區而延伸預定距離之複數個子區(方框350)。此後,方法300可根據運動補償預測編碼圖框之像素區塊。可選擇物體區及每一子區之編碼參數,以強調物體區內之高編碼品質及距物體區之距離逐漸加大之子區中的愈來愈低之等級之編碼品質(方框360)。
如上文所描述,可基於已包括於物體區中之像素區塊之統計與鄰近於物體區中之像素區塊中之一者的候選像素區塊之統計的比較而執行是否將像素區塊包括至物體區中之決策(方框330)。在一實施例中,該比較可涉及相似性臨限值--若候選像素區塊與物體區之像素區塊的統計之間的差小於相似性臨限值,則可准許該候選像素區塊進入物體區(方框340)。根據觀測到之統計,反覆操作可使物體區在不同方向上擴展。在一些情形下,給定像素區塊可能未能被准許進入物體區,但可由被准許進入物體區之像素區塊環繞(部分地或完全地)。在一實施例中,方法300可修正鄰近於物體區之多個像素區塊或或者完全由物體區之像素區塊環繞的像素區塊的相似性臨限值。在此等情形下,可降低臨限值。在實務應用中,當一像素區塊在所有側上由亦屬於一物體之像素區塊環繞時,該像素區塊之影像內容傾向於屬於該經偵測物體。降低此等像素區塊之相似性臨限值可促進准許環繞之像素區塊進入物體區,尤其在環繞之像素區塊之統計大體上與物體區之像素區塊之統計一致但並非足夠接近以通過預設相似性臨限值時如此。
圖4說明圖3之方法至圖2之例示性圖框的應用。在圖4(a)中,將區410中所展示之像素區塊指派給物體區,此係因為彼等像素區塊涵蓋藉由圖3中之物體辨識(方框310)輸出的矩形。此後,在方法300搜尋具有與區410內之像素區塊類似的統計之鄰近像素區塊時,方法300可將彼等像素區塊包括於區420中。出於編碼目的,可將區420視為物
體區。
一旦識別物體區,方法即可界定其他區430至470以環繞物體區。在圖4(a)之實例中,可界定每一連續區以包括在任何方向上鄰近於先前區之像素區塊。因此,區430包括在任何方向上鄰近於區420之所有像素區塊,且區440包括鄰近於區430之所有像素區塊。此程序可繼續,直至圖框之所有像素區塊經指派給區為止。在此實例中,每一區有效地表示環繞前一區之一「暈圈」。
在將像素區塊指派給區之後,方法300(圖3)可將編碼參數調整指派給該等區。在圖4中所說明之實施例中,可將量化參數調整(△Qp)應用於每一區之像素區塊。如所論述,量化參數截斷在像素區塊編碼期間獲得之變換係數,且對於低能係數,可將其完全刪除。量化可引起資料損失,此係因為無法在解碼器處之解量化期間完全恢復經截斷資料。因此,在解碼器處獲得之經恢復視訊可能為來源視訊之複製品,但可由於編碼而具有顯著影像假影。
根據本發明之實施例,可將量化參數調整指派給圖框之各種區以在物體區處提供較低量化參數且在遠離物體區之區處提供愈來愈高之量化參數。圖4(b)說明可指派給圖4(a)之列5中所展示之像素區塊的例示性量化參數調整。如圖4(b)中所說明,量化參數調整可自對應於區470之像素區塊位置處的最大值經區460至430之中間值而變化至對應於區420之像素區塊位置處的最小值。儘管圖4(b)說明量化參數調整之均勻步長,但圖4(c)說明量化參數調整以非均勻方式變化之另一實施例。
本發明之實施例適應界定編碼區之方式的變化。圖5說明僅界定兩個子區530、540以環繞物體區520的實施例。在此實施例中,第一子區530環繞物體區520,且圖框之所有其他像素區塊經指派給背景區540。此實例中之子區530在每個方向上自區520延伸達兩個像素區塊
之距離。可針對物體區520將量化參數調整設定至最小等級,針對子區530將量化參數調整設定至中間等級,且針對背景子區540將量化參數調整設定至最大等級。
在圖6之實施例中,由每一子區消耗之區域可變化。舉例而言,子區630在每個方向上自物體區620延伸達單一像素區塊之距離,但子區640在每個方向上自子區630延伸達兩個像素區塊之距離。
圖3之方法在許多即時編碼環境(諸如,視訊編碼系統及其類似者)中為有效的,以準確地估計所要物體之位置。在許多此等應用中,物體偵測器146(圖1)之輸出與正由編碼引擎143編碼之圖框之間存在潛時。換言之,編碼引擎143可能正使用來自圖框X-偏移(Off)之位置資料編碼圖框X。圖3之方法減少否則可由於精細調整由物體偵測器146識別之物體矩形之位置而出現的可見假影。若臉部之部分係以高品質編碼但同一臉部之其他部分係以低品質編碼,則此等假影在臉部偵測系統之情境下將尤其成問題。
在本發明之其他實施例中,預處理操作可跨越圖框之不同空間區域根據其距經偵測物體之距離而變化。舉例而言,預處理器142(圖1)可將模糊濾波器應用於圖框,以減小遠離螢幕之區域處的清晰度。在此實施例中,預處理器142可基於距經偵測物體之距離而使模糊濾波器之強度變化。進行此操作可降低圖框之背景元素(不存在於經偵測物體之區中的彼等元素)之品質,但可提高壓縮效率,此係因為背景元素之較高頻率分量可能將得以減少。
在另一實施例中,預處理器142可基於圖框之經估計運動而使模糊濾波器之強度變化。可由預處理器142自視訊序列之分析來估計運動或或者可自提供於終端機110內之運動感測器(未圖示)來估計運動。模糊濾波器之強度可隨經估計運動增加而增加。
圖7說明根據本發明之另一實施例的視訊編碼器700。此處,將
視訊編碼器說明為包括圖框緩衝器710、像素區塊編碼器720、解碼器730、參考圖像快取記憶體740、物體偵測器750及控制器760。圖框緩衝器710可儲存來源視訊之圖框,且可將像素區塊自其供應至像素區塊編碼器720。像素區塊編碼器720可根據下文所論述之經運動補償編碼技術來編碼像素區塊。自像素區塊編碼器720輸出之經編碼像素區塊資料可儲存於輸出緩衝器(未圖示)中,直至其已準備好經傳輸為止。解碼器730可解碼參考圖框之經編碼視訊資料且將藉此恢復之視訊資料儲存於參考圖像快取記憶體740中。物體偵測器750及控制器760可合作以辨識每一視訊圖框內之物體,且自其界定物體區及子區。
如所註釋,像素區塊編碼器720可根據經運動補償預測技術來編碼像素區塊,其中可基於圖框內(I區塊)或圖框間(P區塊或B區塊)而編碼輸入像素區塊。另外,可將給定像素區塊編碼為SKIP區塊,其中根本不編碼像素區塊之內容而是自某一先前經編碼/經解碼圖框之共同定位像素區塊複製像素區塊之內容。
像素區塊編碼器720可包括減法器721、變換單元722、量化器723、熵編碼器724、運動估計器725及控制器726。給定輸入像素區塊,運動估計器725可在經快取之參考圖像圖框中執行對充當該輸入像素區塊之預測參考的像素區塊之搜尋。若找到適當匹配,則像素區塊編碼器720可將來源像素區塊編碼為P區塊或B區塊。若未找到適當匹配,則像素區塊編碼器720可將來源像素區塊編碼為I區塊。在適當情形下,像素區塊編碼器720亦可以SKIP模式編碼像素區塊。一旦選擇編碼模式,運動估計器725(或在適當情形下,控制器726)即可產生表示應用於來源像素區塊之編碼模式的後設資料。在許多狀況下,對於經圖框間編碼區塊,運動估計器725可產生識別經選擇之參考像素區塊的運動向量。
為了預測性地編碼輸入像素區塊,參考圖像快取記憶體740可將經預測之像素區塊資料輸出至減法器721。減法器721可產生表示來源像素區塊與經預測像素區塊之間的差異之資料。減法器721可在逐像素基礎上操作,在像素區塊上之每一像素位置處產生殘餘。若將非預測性地編碼給定像素區塊,則不將經預測像素區塊提供至減法器721;減法器721可輸出與來源像素資料相同之像素殘餘。
變換單元722可(諸如)藉由離散餘弦變換(DCT)程序或小波變換將由減法器721輸出之像素區塊資料轉換成變換係數陣列。通常,自變換產生之變換係數的數目將與提供至變換單元722之像素的數目相同。因此,可將8×8、8×16或16×16像素資料區塊變換至8×8、8×16或16×16係數資料區塊。量化器單元723可藉由量化參數Qp量化區塊之每一變換係數(對每一變換係數進行除法運算)。熵編碼器724可藉由變動值(run-value)編碼、變動長度(run-length)編碼或其類似者來編碼經量化係數資料。可將來自熵編碼器724之資料作為像素區塊之經編碼視訊資料輸出至頻道。
像素區塊編碼器之控制器726可根據編碼原則來選擇用於像素區塊之編碼模式,編碼原則表示經編碼視訊資料之預期位元速率、預期編碼品質及對抗編碼錯誤之穩建性間的平衡。因此,甚至在可找到給定來源像素區塊之適當預測匹配時,控制器726仍可強制實行將像素區塊編碼為I區塊之模式選擇。儘管I區塊大體上消耗比P區塊或B區塊高之位元速率,但I區塊可減輕傳輸錯誤及其類似者。類似地,控制器726可選擇用於像素區塊之量化參數以滿足位元速率目標。
根據本發明之一實施例,控制器760可將可影響對用於給定來源像素區塊之編碼參數之選擇的編碼參數調整提供至像素區塊編碼器之控制器726。因此,在像素區塊編碼器720正對屬於物體區(即,圖4(a)之區420)之像素區塊操作時,控制器760可使像素區塊編碼器720將相
對較低之量化參數用於圖框,且在像素區塊編碼器720正對屬於子區(圖4(a)之區430至470)之像素區塊操作時,控制器760可使像素區塊編碼器720使用適用於彼等區之量化參數。
在另一實施例中,控制器760可對子區中之某些子區強制實行編碼模式。使用圖5作為實例,控制器760可使像素區塊編碼器720以SKIP模式編碼區540之像素區塊,且分別對區520(最低Qp)及530(較高Qp)強制實行量化參數調整。
在其他實施例中,亦可基於經偵測物體之其他觀測到之特性而選擇編碼參數。舉例而言,在使用臉部偵測時,臉部偵測器可偵測臉部是否展現特定特性(例如,臉部正在眨眼抑或微笑,臉部旋轉多少度,為場景之百分比形式的臉部大小)。編碼器可基於此等特徵而選擇編碼參數。以實例說明,可能向旋轉之臉部指派較低優先權(相比往前看之臉部而言),且因此,指派相對較低品質之編碼參數。又,物體偵測器可指示在視訊序列中識別之物體之數目(例如,臉部之數目)。在僅具有兩個臉部之場景中,例如,編碼器可向該等臉部指派較高優先權(相比具有五十個臉部之場景中之臉部而言)。再次,較高優先權指派可導致選擇產生相對較高品質編碼之編碼參數。
在其他實施例中,可向物體之特定子區指派不同品質之編碼等級。舉例而言,經偵測臉部之眼部及口部可由臉部偵測器來偵測,且經給定較高編碼優先權(相比臉部之其他經偵測元素而言)。在此實施例中,系統可產生一對物體區--對應於經偵測物體之高優先權元素的第一物體區(例如,由眼部及口部佔據之區)、對應於經偵測物體之其他元素的第二物體區(例如,臉部之剩餘部分);及佔據圖框之剩餘部分的子區。
前文論述已在編碼器及解碼器之情境下描述了本發明之實施例的操作。通常,將視訊編碼器提供為電子器件。視訊編碼器可以諸如
特殊應用積體電路、場可程式化閘陣列及/或數位信號處理器之積體電路體現。或者,視訊編碼器可以在個人電腦、筆記型電腦或平板電腦或電腦伺服器上執行之電腦程式體現。類似地,解碼器可以諸如特殊應用積體電路、場可程式化閘陣列及/或數位信號處理器之積體電路體現,或解碼器可以在個人電腦、筆記型電腦或電腦伺服器上執行之電腦程式體現。解碼器通常封裝於諸如遊戲系統、智慧型手機、DVD播放器、攜帶型媒體播放器及其類似者之消費型電子器件中,且解碼器亦可封裝於諸如視訊遊戲、基於瀏覽器之媒體播放器及其類似者之消費型軟體應用程式中。
本文中特定說明及/或描述了本發明之若干實施例。然而,將瞭解,在不脫離本發明之精神及預期範疇的情況下,本發明之修改及變化由上述教示涵蓋且在所附申請專利範圍之範圍內。
100‧‧‧視訊編碼系統
110‧‧‧終端機
120‧‧‧第二終端機
130‧‧‧通信網路
131‧‧‧頻道
140‧‧‧視訊編碼器
142‧‧‧預處理器
143‧‧‧編碼引擎
144‧‧‧本端解碼器
145‧‧‧參考圖像快取記憶體
146‧‧‧物體偵測器
147‧‧‧控制器
150‧‧‧視訊解碼器
152‧‧‧解碼引擎
154‧‧‧參考圖像快取記憶體
156‧‧‧後處理器
158‧‧‧控制器
160‧‧‧攝影機
170‧‧‧傳輸器
180‧‧‧接收器
190‧‧‧顯示器
Claims (31)
- 一種視訊編碼方法,其包含:將待編碼之一圖框剖析成複數個像素區塊,對該圖框執行物體偵測,在偵測到一物體時,產生該物體所位於的該圖框之一區域的統計,比較鄰近於該物體位置之像素與該等物體統計,界定一物體區以包括對應於該物體位置之像素區塊及對應於藉由該比較識別之鄰近像素的像素區塊,及根據一基於區塊之壓縮演算法來編碼該視訊圖框,其中根據產生相對較高品質編碼之編碼參數來編碼該物體區之像素區塊,且根據產生相對較低品質編碼之編碼參數來編碼在該物體區外之像素區塊。
- 如請求項1之方法,其中該等編碼參數包括量化參數,且該等物體區像素區塊之該等量化參數大體上低於該等非物體區像素區塊之該等量化參數。
- 如請求項1之方法,其中該等編碼參數包括編碼模式選擇且非物體區像素區塊之編碼模式選擇經設定為SKIP。
- 如請求項1之方法,其進一步包含在編碼之前,將一模糊濾波器應用於在該等物體位置外之空間區域中的像素。
- 如請求項1之方法,其進一步包含:界定該圖框之複數個子區,根據在該物體區外之該等像素區塊距該物體區的距離將該等像素區塊指派給一各別子區,及根據該等像素區塊之各別子區來調整該等像素區塊之該等編 碼參數。
- 如請求項5之方法,其中該調整為一量化參數調整。
- 如請求項5之方法,其中該等子區在該物體區周圍形成像素區塊之暈圈。
- 如請求項1之方法,其中該物體偵測為臉部偵測。
- 一種視訊編碼方法,其包含:將待編碼之一圖框剖析成複數個像素區塊,對該圖框執行物體偵測,在偵測到一物體時,產生該物體所位於的該圖框之一區域的統計,比較鄰近於該物體位置之像素與該等物體統計,界定一物體區以包括對應於該物體位置之像素區塊及對應於藉由該比較識別之鄰近像素的像素區塊,及根據一基於區塊之壓縮演算法來編碼該視訊圖框,其中根據相對較低量化參數來編碼該物體區之像素區塊,且根據大體上較高量化參數來編碼在該物體區外之像素區塊。
- 如請求項9之方法,其進一步包含:界定該圖框之複數個子區,根據在該物體區外之該等像素區塊距該物體區的距離將該等像素區塊指派給一各別子區,及根據該等像素區塊之各別子區來調整該等像素區塊之編碼參數。
- 如請求項10之方法,其中該等像素區塊調整基於每一子區距該物體區之距離的一距離而線性地變化。
- 如請求項10之方法,其中該等像素區塊調整基於每一子區距該物體區之距離的一距離而非均勻地變化。
- 如請求項10之方法,其中該等子區在該物體區周圍形成像素區塊之暈圈。
- 如請求項9之方法,其中該等像素區塊之量化參數係根據每一像素區塊距該物體區之距離而調整。
- 如請求項9之方法,其進一步包含在編碼之前,將一模糊濾波器應用於在該等物體位置外之空間區域中的像素。
- 如請求項9之方法,其中該物體偵測為臉部偵測。
- 一種視訊編碼方法,其包含:對待編碼之一視訊圖框執行臉部偵測,當偵測到一臉部時,沿著藉由該臉部偵測識別之一臉部矩形的邊界對像素之內容進行取樣,比較該等經取樣像素之內容與該臉部矩形內之像素之內容,對該等比較判定為並非一臉部之部分所針對的像素之內容進行濾波,及根據使用一量化參數之一基於區塊之壓縮演算法來編碼該視訊圖框,相比針對在該臉部矩形外之區塊而言,該量化參數針對該臉部矩形內之區塊具有較低值。
- 如請求項17之方法,其進一步包含:界定在該臉部矩形周圍之該圖框之複數個子區,根據在該臉部矩形外之該等像素區塊距該臉部矩形的距離將該等像素區塊指派給一各別子區,及根據該等像素區塊之各別子區來調整該等像素區塊之編碼參數。
- 如請求項18之方法,其中該等子區在該臉部矩形周圍形成像素區塊之暈圈。
- 一種編碼裝置,其包含: 一編碼引擎,其用以根據應用於一視訊序列之圖框之像素區塊的預測性編碼技術而編碼該等圖框,一物體偵測器,其用以識別該視訊序列之圖框內的物體之位置,一控制器,其用以界定該等圖框內之編碼區,該等編碼區包括一物體區及複數個子區,該控制器調整由該編碼引擎應用之編碼參數,從而針對該物體區中之像素區塊提供相對較高品質編碼,且針對每一子區中之該等像素區塊根據該子區距該物體區之距離提供愈來愈低品質編碼。
- 如請求項20之裝置,其進一步包含一模糊濾波器,在由該編碼引擎編碼之前,該模糊濾波器將預處理應用於該視訊序列,該模糊濾波器將模糊應用於對應於該等子區之圖框資料。
- 如請求項21之裝置,其中該模糊濾波器針對距該物體區較高距離處之像素應用增大模糊等級,且針對距該物體區較低距離處之像素應用較低模糊等級。
- 如請求項21之裝置,其進一步包含一運動估計器,其中該模糊濾波器針對具有較高運動等級之圖框的在該物體區外之像素應用增大模糊等級,且針對具有較低運動等級之圖框的在該物體區外之像素應用較低模糊等級。
- 如請求項20之裝置,其中該物體偵測器為一臉部偵測器。
- 如請求項20之裝置,其中該控制器將包括對該等子區之像素區塊之較高量化參數調整的量化參數調整提供至該編碼引擎。
- 如請求項20之裝置,其中該控制器將包括用以選擇該等子區之像素區塊之SKIP模式指派的編碼模式選擇提供至該編碼引擎。
- 一種電腦可讀媒體,其儲存程式指令,該等程式指令在由一處理器執行時使該處理器執行以下步驟: 將待編碼之一圖框剖析成複數個像素區塊,對該圖框執行物體偵測,在偵測到一物體時,產生該物體所位於的該圖框之一區域的統計,比較鄰近於該物體位置之像素與該等物體統計,界定一物體區以包括對應於該物體位置之像素區塊及對應於藉由該比較識別之鄰近像素的像素區塊,及根據一基於區塊之壓縮演算法來編碼該視訊圖框,其中根據產生相對較高品質編碼之編碼參數來編碼該物體區之像素區塊,且根據產生相對較低品質編碼之編碼參數來編碼在該物體區外之像素區塊。
- 如請求項27之媒體,其中該等編碼參數包括量化參數,且該等物體區像素區塊之該等量化參數大體上低於該等非物體區像素區塊之該等量化參數。
- 如請求項27之媒體,其中該等編碼參數包括編碼模式選擇且非物體區像素區塊之編碼模式選擇經設定為SKIP。
- 如請求項27之媒體,其中該等指令進一步使該處理器在編碼之前將一模糊濾波器應用於在該等物體位置外之空間區域中的像素。
- 一種實體電腦可讀儲存媒體,其儲存由一編碼器產生的經編碼視訊資料,該編碼器執行以下步驟:將待編碼之一圖框剖析成複數個像素區塊,對該圖框執行物體偵測,在偵測到一物體時,產生該物體所位於的該圖框之一區域的統計,比較鄰近於該物體位置之像素與該等物體統計, 界定一物體區以包括對應於該物體位置之像素區塊及對應於藉由該比較識別之鄰近像素的像素區塊,及根據一基於區塊之壓縮演算法來編碼該視訊圖框,其中根據產生相對較高品質編碼之編碼參數來編碼該物體區之像素區塊,且根據產生相對較低品質編碼之編碼參數來編碼在該物體區外之像素區塊。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/359,377 US10205953B2 (en) | 2012-01-26 | 2012-01-26 | Object detection informed encoding |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201347549A true TW201347549A (zh) | 2013-11-16 |
Family
ID=47664457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW102103019A TW201347549A (zh) | 2012-01-26 | 2013-01-25 | 經物體偵測所告知的編碼 |
Country Status (8)
Country | Link |
---|---|
US (1) | US10205953B2 (zh) |
EP (1) | EP2807822A1 (zh) |
JP (1) | JP2015508954A (zh) |
KR (1) | KR20140110008A (zh) |
CN (1) | CN104160703A (zh) |
AU (1) | AU2013212013A1 (zh) |
TW (1) | TW201347549A (zh) |
WO (1) | WO2013112814A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9094681B1 (en) * | 2012-02-28 | 2015-07-28 | Google Inc. | Adaptive segmentation |
US20160112707A1 (en) * | 2014-10-15 | 2016-04-21 | Intel Corporation | Policy-based image encoding |
KR101886485B1 (ko) | 2015-12-30 | 2018-08-07 | 이화여자대학교 산학협력단 | 객체를 포함하는 영상에 대한 인코딩 방법 및 객체 정보를 포함하는 영상 데이터에 대한 디코딩 방법 |
WO2017138761A1 (ko) * | 2016-02-11 | 2017-08-17 | 삼성전자 주식회사 | 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치 |
JP6784032B2 (ja) * | 2016-02-22 | 2020-11-11 | 沖電気工業株式会社 | 符号化装置、符号化方法、プログラム、及び画像処理システム |
JP2017188739A (ja) * | 2016-04-04 | 2017-10-12 | 株式会社Ihiエアロスペース | 画像取得圧縮送信方法、移動体の遠隔操縦方法、画像取得圧縮送信装置、及び移動体の遠隔操縦システム |
CN106162177B (zh) * | 2016-07-08 | 2018-11-09 | 腾讯科技(深圳)有限公司 | 视频编码方法和装置 |
KR102584526B1 (ko) * | 2016-09-26 | 2023-10-05 | 한화비전 주식회사 | 영상 처리 장치 및 방법 |
JP6694902B2 (ja) * | 2018-02-28 | 2020-05-20 | 株式会社日立国際電気 | 映像符号化装置及び映像符号化方法 |
US10893281B2 (en) * | 2018-10-12 | 2021-01-12 | International Business Machines Corporation | Compression of a video stream having frames with relatively heightened quality parameters on blocks on an identified point of interest (PoI) |
CN110267041B (zh) * | 2019-06-28 | 2021-11-09 | Oppo广东移动通信有限公司 | 图像编码方法、装置、电子设备和计算机可读存储介质 |
CN113011210B (zh) * | 2019-12-19 | 2022-09-16 | 北京百度网讯科技有限公司 | 视频处理方法和装置 |
US11653047B2 (en) * | 2021-07-29 | 2023-05-16 | International Business Machines Corporation | Context based adaptive resolution modulation countering network latency fluctuation |
KR20230069817A (ko) | 2021-11-12 | 2023-05-19 | 한국전자통신연구원 | 가변 양자화 파라미터 기반의 영상 부호화 및 복호화 방법 및 장치 |
WO2023190053A1 (ja) * | 2022-03-31 | 2023-10-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法 |
WO2023223901A1 (ja) * | 2022-05-17 | 2023-11-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5852669A (en) | 1994-04-06 | 1998-12-22 | Lucent Technologies Inc. | Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video |
US6453069B1 (en) * | 1996-11-20 | 2002-09-17 | Canon Kabushiki Kaisha | Method of extracting image from input image using reference image |
US6173069B1 (en) | 1998-01-09 | 2001-01-09 | Sharp Laboratories Of America, Inc. | Method for adapting quantization in video coding using face detection and visual eccentricity weighting |
JP2000172852A (ja) | 1998-09-28 | 2000-06-23 | Canon Inc | 画像処理方法、装置および記録媒体 |
US7031517B1 (en) * | 1998-10-02 | 2006-04-18 | Canon Kabushiki Kaisha | Method and apparatus for segmenting images |
US6795577B2 (en) * | 1999-12-03 | 2004-09-21 | Canon Research Centre France S.A. | Digital signal analysis, with hierarchical segmentation |
JP2002300581A (ja) * | 2001-03-29 | 2002-10-11 | Matsushita Electric Ind Co Ltd | 映像符号化装置、及び映像符号化プログラム |
US6987889B1 (en) | 2001-08-10 | 2006-01-17 | Polycom, Inc. | System and method for dynamic perceptual coding of macroblocks in a video frame |
US7397937B2 (en) * | 2001-11-23 | 2008-07-08 | R2 Technology, Inc. | Region growing in anatomical images |
DE10300048B4 (de) | 2002-01-05 | 2005-05-12 | Samsung Electronics Co., Ltd., Suwon | Verfahren und Vorrichtung zur Bildcodierung und -decodierung |
US20040130546A1 (en) * | 2003-01-06 | 2004-07-08 | Porikli Fatih M. | Region growing with adaptive thresholds and distance function parameters |
US7620218B2 (en) * | 2006-08-11 | 2009-11-17 | Fotonation Ireland Limited | Real-time face tracking with reference images |
US7269292B2 (en) | 2003-06-26 | 2007-09-11 | Fotonation Vision Limited | Digital image adjustable compression and resolution using face detection information |
JP3955953B2 (ja) * | 2003-09-12 | 2007-08-08 | 国立大学法人広島大学 | 画像分割処理装置、画像分割処理方法及び画像分割処理集積化回路 |
US7310435B2 (en) * | 2003-11-25 | 2007-12-18 | General Electric Company | Method and apparatus for extracting multi-dimensional structures using dynamic constraints |
US9667980B2 (en) | 2005-03-01 | 2017-05-30 | Qualcomm Incorporated | Content-adaptive background skipping for region-of-interest video coding |
US8224102B2 (en) * | 2005-04-08 | 2012-07-17 | Agency For Science, Technology And Research | Method for encoding a picture, computer program product and encoder |
US7643659B2 (en) * | 2005-12-31 | 2010-01-05 | Arcsoft, Inc. | Facial feature detection on mobile devices |
US7995649B2 (en) * | 2006-04-07 | 2011-08-09 | Microsoft Corporation | Quantization adjustment based on texture level |
US8315466B2 (en) * | 2006-12-22 | 2012-11-20 | Qualcomm Incorporated | Decoder-side region of interest video processing |
JP2008199521A (ja) | 2007-02-15 | 2008-08-28 | Canon Inc | 画像処理装置およびその方法 |
US7873214B2 (en) * | 2007-04-30 | 2011-01-18 | Hewlett-Packard Development Company, L.P. | Unsupervised color image segmentation by dynamic color gradient thresholding |
JP4863936B2 (ja) | 2007-06-25 | 2012-01-25 | 株式会社ソニー・コンピュータエンタテインメント | 符号化処理装置および符号化処理方法 |
US8548049B2 (en) * | 2007-07-02 | 2013-10-01 | Vixs Systems, Inc | Pattern detection module, video encoding system and method for use therewith |
CN101211411B (zh) * | 2007-12-21 | 2010-06-16 | 北京中星微电子有限公司 | 一种人体检测的方法和装置 |
JP5109697B2 (ja) * | 2008-02-07 | 2012-12-26 | ソニー株式会社 | 画像送信装置、画像受信装置、画像送受信システム、画像送信プログラムおよび画像受信プログラム |
TWI420401B (zh) * | 2008-06-11 | 2013-12-21 | Vatics Inc | 一種回授式物件偵測演算法 |
KR20100002632A (ko) | 2008-06-30 | 2010-01-07 | 에스케이 텔레콤주식회사 | 영상 인코딩/디코딩 방법 및 그 장치 및 영상 서비스시스템 |
CN101316366A (zh) * | 2008-07-21 | 2008-12-03 | 北京中星微电子有限公司 | 图像编/解码方法和图像编/解码装置 |
US8385688B2 (en) * | 2008-08-27 | 2013-02-26 | International Business Machines Corporation | System and method for automatic recognition and labeling of anatomical structures and vessels in medical imaging scans |
DE102008056600A1 (de) * | 2008-11-10 | 2010-05-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und Vorrichtung zum Erkennen von Objekten |
US9215467B2 (en) | 2008-11-17 | 2015-12-15 | Checkvideo Llc | Analytics-modulated coding of surveillance video |
KR20100095833A (ko) | 2009-02-23 | 2010-09-01 | 주식회사 몬도시스템즈 | Roi 의존형 압축 파라미터를 이용하여 영상을 압축하는 장치 및 방법 |
US8787662B2 (en) * | 2010-11-10 | 2014-07-22 | Tandent Vision Science, Inc. | Method and system for identifying tokens in an image |
US8655102B2 (en) * | 2011-06-10 | 2014-02-18 | Tandent Vision Science, Inc. | Method and system for identifying tokens in an image |
JP6253331B2 (ja) * | 2012-10-25 | 2017-12-27 | キヤノン株式会社 | 画像処理装置及び画像処理方法 |
-
2012
- 2012-01-26 US US13/359,377 patent/US10205953B2/en active Active
-
2013
- 2013-01-25 AU AU2013212013A patent/AU2013212013A1/en not_active Abandoned
- 2013-01-25 KR KR1020147020857A patent/KR20140110008A/ko not_active Application Discontinuation
- 2013-01-25 EP EP13702716.5A patent/EP2807822A1/en not_active Withdrawn
- 2013-01-25 TW TW102103019A patent/TW201347549A/zh unknown
- 2013-01-25 WO PCT/US2013/023118 patent/WO2013112814A1/en active Application Filing
- 2013-01-25 CN CN201380011624.7A patent/CN104160703A/zh active Pending
- 2013-01-25 JP JP2014554851A patent/JP2015508954A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20140110008A (ko) | 2014-09-16 |
US20130195178A1 (en) | 2013-08-01 |
US10205953B2 (en) | 2019-02-12 |
AU2013212013A1 (en) | 2014-08-07 |
JP2015508954A (ja) | 2015-03-23 |
CN104160703A (zh) | 2014-11-19 |
EP2807822A1 (en) | 2014-12-03 |
WO2013112814A1 (en) | 2013-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201347549A (zh) | 經物體偵測所告知的編碼 | |
JP6714695B2 (ja) | 動的な解像度切換えを用いたリアルタイムビデオエンコーダレート制御 | |
KR100949917B1 (ko) | 적응적 인트라 예측을 통한 고속 부호화 방법 및 시스템 | |
US9414086B2 (en) | Partial frame utilization in video codecs | |
US10397574B2 (en) | Video coding quantization parameter determination suitable for video conferencing | |
WO2022088631A1 (zh) | 图像编码方法、图像解码方法及相关装置 | |
US9584832B2 (en) | High quality seamless playback for video decoder clients | |
US20120195356A1 (en) | Resource usage control for real time video encoding | |
WO2021238540A1 (zh) | 图像编码方法、图像解码方法及相关装置 | |
KR20140110221A (ko) | 비디오 인코더, 장면 전환 검출 방법 및 비디오 인코더의 제어 방법 | |
US20150350641A1 (en) | Dynamic range adaptive video coding system | |
US10812832B2 (en) | Efficient still image coding with video compression techniques | |
US9565404B2 (en) | Encoding techniques for banding reduction | |
TW201907715A (zh) | 無分割雙向濾波器 | |
US20160353107A1 (en) | Adaptive quantization parameter modulation for eye sensitive areas | |
CN112001854B (zh) | 一种编码图像的修复方法及相关系统和装置 | |
CN115428451A (zh) | 视频编码方法、编码器、系统以及计算机存储介质 | |
US12088801B2 (en) | Method and apparatus for temporal filter in video coding | |
KR100987921B1 (ko) | 선택적 움직임 검색영역을 이용한 움직임 보상기법이 적용되는 동영상 압축부호화장치및 복호화 장치와 움직임 보상을 위한 선택적 움직임 검색영역 결정방법. | |
US10735773B2 (en) | Video coding techniques for high quality coding of low motion content | |
RU2587412C2 (ru) | Управление скоростью передачи видео на основе гистограммы коэффициентов преобразования | |
JP2005295215A (ja) | 動画像符号化装置 | |
CN113225558B (zh) | 平滑定向和dc帧内预测 | |
JP2012105128A (ja) | 画像符号化装置 | |
KR100987922B1 (ko) | 선택적 참조영상을 이용한 움직임 보상기법을 적용한 동영상 압축부호화장치및 복호화 장치와 움직임 보상을 위한 선택적 참조영상 결정방법 |