TW202207053A - 影像品質評估裝置及其影像品質評估方法 - Google Patents
影像品質評估裝置及其影像品質評估方法 Download PDFInfo
- Publication number
- TW202207053A TW202207053A TW109126182A TW109126182A TW202207053A TW 202207053 A TW202207053 A TW 202207053A TW 109126182 A TW109126182 A TW 109126182A TW 109126182 A TW109126182 A TW 109126182A TW 202207053 A TW202207053 A TW 202207053A
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- quality
- evaluated
- quality assessment
- block
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
- H04N17/004—Diagnosis, testing or measuring for television systems or their details for digital television systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本發明實施例提供影像品質評估裝置及其影像品質評估方法。在此方法中,對視訊串流中的影像形成數個待評估區塊,將那些待評估區塊輸入品質評估模型,並依據品質評估模型的輸出結果決定影像的品質。此品質評估模型是基於機器學習演算法所訓練。藉此,可提升評估效率,並提供合適的主觀評價結果。
Description
本發明是有關於一種影像分析技術,且特別是有關於一種影像品質評估裝置及其影像品質評估方法。
近年來,機器學習(machine learning)技術在許多領域中己得到許多顯著的成果,更尤其是在電腦視覺和影像處理。然而,基於機器學習的視頻編碼(video coding)仍處於起步階段。視頻編碼(video coding)是網路電話(VoIP)的基礎,其效率直接影響到使用者的感受。相較於其他的背景雜訊抑制(background noise suppression)、回音消除(echo cancellation)及語音及臉部辨識(voice and facial recognition)等視頻領域應用,視頻編碼目前發展最快,並可透過機器學習提升或改善通話/視訊品質。值得注意的是,第五代(5G)行動通訊時代的來臨,在行動及高效傳輸的需求浮現後,影像傳輸品質的問題勢必再度被關注,且高效率的視頻編碼更不斷試圖突破網路傳輸的限制。
VoIP 在遠距離語音會議的應用方面,不但能節省費用,還能同時允許多人上線會談,且透過各種會議工具(例如,表達工具(presentation tool)、直播串流(live streaming)等)提供身臨其境的會議體驗。然而,隨著上線人數的增加,網路的頻寬需求與連線數量相對倍增,影像及語音延遲時間也因頻道擁塞而難以控制。此時,會議的品質(例如,服務品質(QoS)/體驗品質(OoE))往往大打折扣。VoIP 通常會經由有線網路連線至網際網路(Internet)上使用,但近年來有越來越多需求是經由行動通訊(例如,4G或5G行動網路)提供服務,使得管理和部署更多資源不僅會增加成本,有時更成為不可能的任務(例如,行動環境中,頻寬不能超過一個上限)。隨著視頻技術的進步,尤其是超高解析度(Ultra-High Definition,UHD)視頻的普及,需要將UHD視頻容納在有限的儲存空間和有限的傳輸頻寬。
因此,隨著網路頻寬不斷地提升,也相對帶動即時會議視訊服務的需求。在頻寬有限或分配不足的情況下,容易造成封包傳送延遲(Delay)、抖動(Jitter)或是封包遺失等網路效能降低的狀況,使得VoIP視頻的品質低落。因此,如何維持即時視訊傳輸品質,是業界期待解決的問題之一。
有鑑於此,本發明實施例提供一種影像品質評估裝置及其影像品質評估方法,以區塊分析了解使用者關注部分並考慮視覺感受,從而得到對視訊串流的主觀評價結果,進而作為編碼機制的改善依據。
本發明實施例的影像品質評估方法包括(但不僅限於)下列步驟:對視訊串流中的影像形成數個待評估區塊,將那些待評估區塊輸入品質評估模型,並依據品質評估模型的輸出結果決定影像的品質。此品質評估模型是基於機器學習演算法所訓練。
本發明實施例的影像品質評估裝置包括(但不僅限於)通訊收發器及處理器。通訊收發器用以接收視訊串流。處理器耦接通訊收發器,並經配置用以對視訊串流中的影像形成數個待評估區塊,將那些待評估區塊輸入品質評估模型,並依據品質評估模型的輸出結果決定影像的品質。此品質評估模型是基於機器學習演算法所訓練。
基於上述,本發明實施例的影像品質評估裝置及其影像品質評估方法,透過機器學習演算法訓練的品質評估模型對待評估區塊分析,進而決定整張影像的品質。藉此,可提升評估效率,還能結合學習演算的優點來綜合分析更多評斷因素。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1是依據本發明一實施例的視訊串流系統1的方塊圖。請參照圖1,視訊串流系統1包括(但不僅限於)視訊提供裝置50以及一台或更多台影像品質評估裝置100。
視訊提供裝置50可以是桌上型電腦、筆記型電腦、伺服器、雲端平台、或後台主機等裝置,也可以是視訊機上盒、或智慧型電視等影像播放裝置,更可以是攝影機、或相機等影像擷取裝置。在一實施例中,視訊提供裝置50用以傳送視訊串流。例如,視訊會議串流、直播串流、或電影串流等。
影像品質評估裝置100可以是桌上型電腦、筆記型電腦、智慧型手機、智慧型電視、平板、或機上盒等裝置。影像品質評估裝置100包括(但不僅限於)通訊收發器110、儲存器120、顯示器150及處理器170。
通訊收發器110可以是支援諸如乙太網路、光纖網路、行動網路、Wi-Fi或其他通訊技術的傳送電路及接收電路。在一實施例中,通訊收發器110用以連線至網際網路或區域網路,進而與視訊提供裝置50相互傳送資料。
儲存器120可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory,RAM)、唯讀記憶體(Read Only Memory,ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive,HDD)、固態硬碟(Solid-State Drive,SSD)或類似元件。在一實施例中,儲存器120用以儲存軟體模組、應用程式及其程式碼、以及其他暫存或永久資料或檔案(例如,影像序列、影像畫面、編碼資訊、視訊串流、品質評估模型),且這些資料將待後續實施例詳述。
顯示器150可以是液晶顯示器(Liquid-Crystal Display, LCD)、發光二極體(Light-Emitting Diode,LED)顯示器或有機發光二極體(Organic Light-Emitting Diode,OLED)顯示器。在一實施例中,顯示器150用以呈現影像畫面或使用者介面。在一些實施例中,影像品質評估裝置100可未包括顯示器150。
處理器170可以是中央處理單元(Central Processing Unit,CPU)、圖形處理單元(Graphic Processing Unit,GPU)、微控制單元(Micro Control Unit,MCU)、或特殊應用積體電路(Application-Specific Integrated Circuit,ASIC)等運算單元。在一實施例中,處理器170用以執行影像品質評估裝置100的所有運作,並可載入且執行儲存器120所儲存的軟體模組或應用程式,其詳細運作待後續實施例詳述。
下文中,將搭配視訊串流系統1中的各項裝置、元件及模組說明本發明實施例所述之方法。各個流程可依照實施情形而隨之調整,且並不僅限於此。
圖2是依據本發明一實施例的影像品質評估方法的流程圖。請參照圖2,影像品質評估裝置100的處理器170透過通訊收發器110接收來自視訊提供裝置50的視訊串流,並對視訊串流中的影像形成數個待評估區塊(步驟S210)。具體而言,視訊串流是經諸如高效率視訊編碼(High Efficiency Video Coding,HEVC)、進階視訊編碼(MPEG-4 Part 10, Advanced Video Coding,MPEG-4 AVC)或其他視訊編碼標準編碼的位元串流。初始影像序列中的一個或更多張影像畫面會被進一步分割成一個或更多個處理單元(例如,編碼樹單元(Coding Tree Block,CTU)、巨集區塊(macroblock)或其他基本編碼單元),且各處理單元還可能進一步對應分割成一個或更多個編碼單元。各編碼單元用於記錄所屬區塊的編碼資訊(例如,編碼模式、亮度、色彩、或語法等)。而對那些處理單元的編碼結果即可形成視訊串流。
值得注意的是,有別於傳統技術對於整張影像的所有像素進行影像品質評估,本發明實施例是以區塊為基本單位來評估。而待評估區塊可以是前述編碼單元、對編碼單元再切割的次編碼單元(例如,HEVC的轉換單元(Transform Unit,TU)或其他編碼標準的區塊)的單元大小或是其他大小。處理器170可將視訊串流解碼以重建影像畫面,並對重建的影像畫面分割成數個待評估區塊。
處理器170可將這些待評估區塊輸入品質評估模組(步驟S220)。具體而言,品質評估模組是基於機器學習演算法所訓練。此機器學習演算法可以是膠囊網路(Capsule network,CapsNet)、卷積神經網路(Convolutional neural network,CNN)、緊密卷積網路(Dense Convolutional Network,DenseNet)或其他演算法。
以膠囊網路為例,在影像識別上和CNN不同之處在於,使用接近生物神經組織(biological neural organization)的概念。當視角(viewpoint)改變時,部分(part)或物件(object)具有線性影響,而像素則是非線性影響。膠囊網路是帶有方向的向量,並可根據統計訊息進行特徵檢測。例如,根據五官辨識出一隻「貓」。此外,膠囊網路還可以對特徵進行理解。例如,若五官不在其特定的區域(例如,嘴在額頭、或眼睛在耳朵上方),則膠囊網路能透過檢測出物體的不同方向(例如,順時針旋轉),從而了解處於特定位置的貓五官才能被稱作是「貓」。
圖3是依據本發明一實施例的影像品質模型的訓練方法的流程圖。請參照圖3,在一實施例中,處理器170可將場景影像(例如,會議室、辦公室的視訊會議影像、或直播串流影像等)切割成數個待學習區塊,並將這些場景影像的那些待學習區塊作為學習資料(步驟S310),且將此學習資料作為訓練品質評估模型的訓練樣本。例如,會議影像作為場景影像,則訓練品質評估模型後即可將影像中的人臉作為重要資訊。即,取得影像特徵,並據以作為人臉感興趣區域。而影像特徵是指將待學習區塊輸入機器學習演算法的神經網路中,可針對待學習區塊學習出局部影像的特徵。例如,紋理和梯度資訊。而在膠囊網路中可以向量記錄紋理和梯度資訊、以及相對位置等資訊。此外,膠囊網路的作用可以確保重要資訊的位置正確,進而輕易地分辨出重要資訊。
在另一實施例中,處理器170可將例如是平均意見分數(Mean Opinion Score,MOS)或差分平均意見分數(Differential Mean Opinion Score,DMOS)影像資料庫中的資料作為學習資料,對學習資料中的影像切割成數個待學習區塊,並將這些待學習區塊作為訓練品質評估模型的學習樣本。
處理器170可決定觀感評估分數及統計分佈(步驟S330)。在一實施例中,處理器170可統計一位或更多位人員對那些待學習區塊主觀評斷的觀感評估分數。人類視覺評估分數是基於人類觀感實際的評分結果所得出。以國際標準化的協議電信聯盟(ITU)測試為例,ITU測試分為幾個段落,至少由15位觀察人員組成,觀察人員受要求以1到5的分數對待學習區塊評分。每個人的主觀影像質量評分標準可能不同,使得不同人通常給出的分數會不同。每位觀察人員給出的分數取決於自身經驗及喜好,甚至可能根據當天的心情及事物而變化。處理器170可將那些待學習區塊對應的觀感評估分數作為訓練品質評估模型的訓練樣本。而透過對區塊的觀感評估分數輸入至機器學習演算法的神經網路,可建立品質評估模型,並讓品質評估模型可用於推論其他情境下的視訊串流。在一些實施例中,處理器170可將MOS或DMOS資料庫中的評分結果作為觀感評估分數,並據以訓練品質評估模型。
此外,自然場景統計(Natural Scene Statistics,NSS)模型能描述自然影像中的統計性質。在另一實施例中,處理器170可對整張影像決定相關於自然影像的統計分佈,將影像切割成較小的評估區塊,並應用小波或拉普拉斯計算各評估區塊的統計分佈,以識別各評估區塊的特徵值。此統計分佈即是相關於自然影像的統計分布。透過對整張影像決定統計分佈後再分割成區塊的手段,處理器170可得知此評估區塊是否包括重要特徵。例如,假設一張人臉是很重要的,整張影像的統計分佈中對應人臉處的統計分佈將會顯示出具有重要特徵,但是分割後的評估區塊是一個眼睛,此時整張影像的統計分佈中對應眼睛的統計分佈亦可表現出此評估區塊重要(即,整張影像的人臉的統計分佈表現出其為重要特徵,而分割後的評估區塊中的眼睛為人臉中的一部分,亦可由對應眼睛的統計分佈識別眼睛為重要特徵)。這些評估區塊的特徵值可做為編碼過程中特徵提取的確認。在一些實施例中,前述場景影像也可被切成較小的評估區塊,並應用小波或拉普拉斯計算各評估區塊的統計分佈,以進行NSS規律評估。
接著,處理器170可決定目標函數(步驟S350)。在一實施例中,處理器170可依據那些待學習區塊對應的影像特徵、觀感評估分數及統計分佈決定數個目標函數中的一者,並作為訓練品質評估模型的訓練樣本。具體而言,目標函數可以是粒子群最佳化(Particle Swarm Optimization,PSO)的適應性函數(fitness function)、模糊決策的成本函數計算或其他最佳化函數。這些目標函數具有上限及下限,即目標函數的最佳解在上下及下限之間的可行區域(feasible region)(或稱容許範圍)內變動。在對影像序列編解碼的過程中,資訊減少或遺失是無避免的。因此,求取目標函數的解可在一個區間內,目標函數的上限及下限的目的是指影像品質提高或減損可在某個容忍範圍內。求得最佳解(即,和原始影像對應區塊相同的影像品質)是主要目標,其次可找尋其他相關的可行解(即,在容忍範圍內的影像品質提高或減損)。
以影像特徵、觀感評估分數及統計分佈三者皆作為目標函數的參數為例:…(1)…(2)
目標函數包括待評估區塊的影像特徵t
、觀感評估分數m
及基於自然場景統計的統計分佈n
。max_f
代表上限,min_f
代表下限,即求解目標可在上限max_f
和下限min_f
間變動。
須說明的是,方程式(1)、(2)僅是作為範例說明,其他實施例也可能是將影像特徵與觀感評估分數及統計分佈中的任一者作為目標函數的參數。
機器學習演算法的神經網路經訓練後即可建立品質評估模型(步驟S370)。品質評估模型即可用於對待評估區塊分類或辨識特定影像特徵、觀感評估分數、統計分佈及/或目標函數。
請返回圖2,處理器170可依據品質評估模型的輸出結果決定影像的品質(步驟S230)。具體而言,經訓練的品質評估模組可將待評估區塊作為輸入資料,並據以推論其對應的結果。圖4是依據本發明一實施例的影像品質模型的推論方法的流程圖。請參照圖4,在一實施例中,若場景影像及/或訓練資料的影像特徵、觀感評估分數、基於自然場景統計的統計分佈及目標函數作為品質評估模組的學習資料,則品質評估模型的輸出結果可包括特定的影像特徵、觀感評估分數、基於自然場景統計的統計分佈及目標函數(即,取得影像特徵、觀感評估分數、統計分佈及目標函數)(步驟S410)。例如,品質評估模組對視訊串流經重建後的影像畫面中的待評估區塊擷取影像特徵,並辨識出對應此影像特徵所屬類別(例如,人臉、眼睛、或嘴)的區塊,再依據此類別的區塊取得對應的觀感評估分數、統計分佈及目標函數。
接著,處理器170可依據輸出結果中的影像特徵、觀感評估分數及統計分佈及目標函數,決定各待評估區塊對應的目標函數的計算值(即,同時依據影像特徵、觀感評估分數及統計分佈決定對應待評估區塊的計算值)。處理器170可依據此計算值判斷對應待評估區塊的品質。即,計算值為影像品質的指標。
在一實施例中,處理器170可判斷計算值是否介於對應的目標函數的上限及下限之間(即,容許範圍內)(步驟S430)。若此計算值位於最佳解的上限及下限內,即代表使用者對此待評估區塊的感觀接受度在容許範圍內(差值代表容忍度,並可經由經驗而來或動態修正最佳解的上下限),並可進一步透過顯示器150播放重建的影像畫面(即,視訊串流經解碼後的影像畫面)(步驟S450)。若計算值未位於上限及下限內或無解,則代表目標函數無法得出最佳解、使用者對此待評估區塊的感觀接受度不在容許範圍內或畫面失真,並可進一步透過通訊收發器110發出對影像重新編碼的要求(顯示器150可能不播放此重建的影像畫面)(步驟S470)。而若計算值等於最佳解,則代表此待評估區塊可符合服務品質或體驗品質,並可進一步透過顯示器150播放重建的影像畫面(步驟S450)。
在另一實施例中,若場景影像及/或訓練資料的影像特徵、觀感評估分數及目標函數作為品質評估模組的學習資料,則品質評估模型的輸出結果可包括特定的影像特徵、觀感評估分數及目標函數(此實施例是依據影像特徵及觀感評估分數形成目標函數)。接著,處理器170可將輸出結果中的影像特徵及觀感評估分數輸入至輸出結果中的目標函數,並據以決定各待評估區塊對應的目標函數的計算值(即,依據影像特徵及觀感評估分數決定對應待評估區塊的計算值),並據以作為影像品質的指標。
又一實施例中,若場景影像及/或訓練資料的影像特徵、統計分佈及目標函數作為品質評估模組的學習資料,則品質評估模型的輸出結果可包括特定的影像特徵、統計分佈及目標函數(此實施例是依據影像特徵及統計分佈形成目標函數)。接著,處理器170可將輸出結果中的影像特徵及統計分佈輸入至輸出結果中的目標函數,並據以決定各待評估區塊對應的目標函數的計算值(即,依據影像特徵及統計分佈決定對應待評估區塊的計算值),並據以作為影像品質的指標。
由於影像畫面中的畫素分佈並非均勻分佈,因此影像畫面中的單一待評估區塊不一定可以反映出整張影像畫面的所有畫素,且各待評估區塊得到使用者關注的程度也許不同。一般而言,重要資訊(例如,會議室中的人比會議室背景更重要)或變化較大的資訊(例如,切換場景或換人發言)是使用者所關注的部份。
為了考慮不同待評估區塊對影像品質評估的影響,本發明實施例使用編碼等級做為待評估區塊的加權平均所用的權重。處理器170可決定各待評估區塊的編碼等級,且不同的編碼等級對應到不同的權重。例如,處理器170由輸出的影像特徵決定編碼等級,編碼等級b3(可能是影像畫面的邊緣像素,且畫面內的像素差異最大)、b2(可能具有較粗糙的紋理,且畫面內的像素差異次高)及b1 (畫面內的像素差異最小)分別對應到權重w3、w2及w1。相較於編碼等級b1,編碼等級b3會讓使用者有更多注意力,因此權重w3的值大於權重w1的值。即,編碼等級越高,權重的值越高。相反而言,編碼等級越低,權重的值越低。處理器170可依據那些待評估區塊的品質(例如是前述計算值)及其對應的權重決定整張影像畫面的品質。影像畫面的品質的計算公式如下:…(5)
Q為整張影像畫面的品質,為第k待評估區塊的品質,是第k待評估區塊的權重,假設影像畫面分割成L個待評估區塊,且L為正整數。
以影像畫面被分割成三個待評估區塊為例,其編碼等級b3、b2及b1對應到的權重分別為60%、30%及10%。整張影像畫面的品質為(*0.6+*0.3+*0.1)/(0.6+0.3+0.1)。須說明的是,前述權重的數值僅是作為範例說明,且設計者可依據需求自行調整數值或由處理器170自動設定。
在一些實施例中,處理器170可僅選擇編碼等級較高(即,像素間差異較大)的待評估區塊,並將選擇的這些待評估區塊的平均計算值作為整張影像的品質依據。
須說明的是,若影像畫面的品質的分數以DMOS或MOS來計分,則DMOS的分數越高表示品質越差,或MOS的分數越高表示品質越高。
此外,若得出品質不佳的回饋,影像品質評估裝置100可回饋影像品質評估結果來要求視訊提供裝置50改變編碼機制。在一實施例中,視訊提供裝置50更依據影像的品質(例如,前述整張影像畫面的品質、或部分待評估區塊的品質)改變需編碼的編碼等級。例如,若影像品質不佳(例如,其計算值不位於目標函數的容許範圍內),則視訊提供裝置50將要求降低編碼等級的區塊以取得更多編碼資訊(原先只編碼多個區塊中編碼等級較高的區塊,較低編碼等級的區塊不編碼,解碼時參考其他預測值進行重建),並且重新對多個區塊編碼。
在另一實施例中,視訊提供裝置50可依據影像的品質改變編碼區塊的決定。若影像品質不佳,則視訊提供裝置50可在編碼流程中對編碼區塊的尺寸大小的決定放寬條件。例如,視訊提供裝置50可降低編碼區塊的尺寸大小,使細節資訊增加,從而提升編碼品質。
綜上所述,本發明實施例影像品質評估裝置及其影像品質評估方法,採用無參考(no-reference,NR)影像品質評估概念,不需參考影像的比對,也不需要對影像中的所有畫素擷取影像特徵。由於參考NSS統計特性,因此本發明實施例機器學習演算法的神經網路擷取待評估區塊的影像特徵,並使用編碼等級對待評估區塊的像素進行加權,從而對整個影像進行品質評估。影像品質評估還能進一步回饋到編碼機制,讓調整後的編碼機制能符合人類視覺觀感的需求。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
1:視訊串流系統
50:視訊提供裝置
110:通訊收發器
120:儲存器
150:顯示器
170:處理器
100:影像品質評估裝置
S210~S230、S310~S370、S410~S470:步驟
圖1是依據本發明一實施例的視訊串流系統的方塊圖。
圖2是依據本發明一實施例的影像品質評估方法的流程圖。
圖3是依據本發明一實施例的影像品質模型的訓練方法的流程圖。
圖4是依據本發明一實施例的影像品質模型的推論方法的流程圖。
S210~S230:步驟
Claims (20)
- 一種影像品質評估方法,包括: 對一影像形成多個待評估區塊; 將該些待評估區塊輸入一品質評估模型,其中該品質評估模型是基於一機器學習演算法所訓練;以及 依據該品質評估模型的輸出結果決定該影像的品質。
- 如請求項1所述影像品質評估方法,其中該品質評估模型的輸出結果包括多個目標函數中的一者,且依據該品質評估模型的輸出結果決定該影像的品質的步驟包括: 決定每一該待評估區塊對應的該目標函數的計算值;以及 依據該計算值判斷對應該待評估區塊的品質, 其中該品質評估模型的輸出結果更包括該待評估區塊的影像特徵、觀感評估分數及統計分佈中的至少一者。
- 如請求項2所述的影像品質評估方法,其中該統計分佈相關於自然影像的統計分布,且決定每一該待評估區塊對應的該目標函數的計算值的步驟包括: 依據該統計分佈決定每一該待評估區塊對應的計算值。
- 如請求項2所述的影像品質評估方法,其中該觀感評估分數是基於人類觀感實際的評分結果、平均意見分數(Mean Opinion Score,MOS)資料庫或差分平均意見分數(Differential Mean Opinion Score,DMOS)資料庫所得出,且決定每一該待評估區塊對應的該目標函數的計算值的步驟包括: 依據該觀感評估分數決定每一該待評估區塊對應的計算值。
- 如請求項2所述的影像品質評估方法,其中每一該目標函數具有一上限及一下限,且依據該計算值判斷對應該待評估區塊的品質的步驟包括: 判斷該計算值是否介於對應的該目標函數的該上限及該下限值之間。
- 如請求項5所述影像品質評估方法,其中判斷該計算值是否介於對應的該目標函數的該上限及該下限值之間的步驟之後,更包括: 反應於該計算值介於該上限及該下限之間,播放該影像;以及 反應於該計算值不介於該上限及該下限之間或為無解,不播放該影像。
- 如請求項1所述影像品質評估方法,其中依據該品質評估模型的輸出結果決定該影像的品質的步驟包括: 決定每一該待評估區塊的編碼等級,其中不同的編碼等級對應到不同的權重;以及 依據該些待評估區塊的品質及其對應的權重決定該影像的品質。
- 如請求項1所述影像品質評估方法,更包括: 將至少一場景影像、平均意見分數影像資料庫或差分平均意見分數影像資料庫中的多個待學習區塊作為一學習資料;以及 將該學習資料作為訓練該品質評估模型的訓練樣本,其中: 統計該些待學習區塊主觀評斷的觀感評估分數;以及 將該些待學習區塊對應的觀感評估分數作為訓練該品質評估模型的訓練樣本。
- 如請求項1所述影像品質評估方法,更包括: 依據該些待學習區塊對應的影像特徵、觀感評估分數及統計分佈中的至少一者決定多個目標函數中的一者,並作為訓練該品質評估模型的訓練樣本。
- 如請求項1所述影像品質評估方法,更包括: 依據該影像的品質重新對該影像編碼。
- 一種影像品質評估裝置,包括: 一通訊收發器,用以接收一影像;以及 一處理器,耦接該通訊收發器,並經配置用以: 對該影像形成多個待評估區塊; 將該些待評估區塊輸入一品質評估模型,其中該品質評估模型是基於一機器學習演算法所訓練;以及 依據該品質評估模型的輸出結果決定該影像的品質。
- 如請求項11所述影像品質評估裝置,其中該品質評估模型的輸出結果包括多個目標函數中的一者,且該處理器經配置用以: 決定每一該待評估區塊對應的該目標函數的計算值;以及 依據該計算值判斷對應該待評估區塊的品質, 其中該品質評估模型的輸出結果更包括該待評估區塊的影像特徵、觀感評估分數及統計分佈中的至少一者。
- 如請求項12所述的影像品質評估裝置,其中該統計分佈相關於自然影像的統計分布,且該處理器經配置用以: 依據該統計分佈決定每一該待評估區塊對應的計算值。
- 如請求項12所述的影像品質評估裝置,其中該觀感評估分數是基於人類觀感實際的評分結果、平均意見分數資料庫或差分平均意見分數資料庫所得出,且該處理器經配置用以: 依據該觀感評估分數決定每一該待評估區塊對應的計算值。
- 如請求項12所述的影像品質評估裝置,其中每一該目標函數具有一上限及一下限,且該處理器經配置用以: 判斷該計算值是否介於對應的該目標函數的該上限及該下限值之間。
- 如請求項15所述影像品質評估裝置,更包括: 一顯示器,耦接該處理器,其中該處理器經配置用以: 反應於該計算值介於該上限及該下限之間,透過該顯示器播放該影像;以及 反應於該計算值不介於該上限及該下限之間或為無解,不透過該顯示器播放該影像。
- 如請求項11所述影像品質評估裝置,其中該處理器經配置用以: 決定每一該待評估區塊的編碼等級,其中不同的編碼等級對應到不同的權重;以及 依據該些待評估區塊的品質及其對應的權重決定該影像的品質。
- 如請求項11所述影像品質評估裝置,其中該處理器經配置用以: 將至少一場景影像、平均意見分數影像資料庫或差分平均意見分數影像資料庫中的多個待學習區塊作為一學習資料;以及 將該學習資料作為訓練該品質評估模型的訓練樣本,其中 統計該些待學習區塊主觀評斷的觀感評估分數;以及 將該些待學習區塊對應的觀感評估分數作為訓練該品質評估模型的訓練樣本。
- 如請求項11所述影像品質評估裝置,其中該處理器經配置用以: 依據該些待學習區塊對應的影像特徵、觀感評估分數及統計分佈中的至少一者決定多個目標函數中的一者,並作為訓練該品質評估模型的訓練樣本。
- 如請求項11所述影像品質評估裝置,其中該處理器經配置用以: 依據該影像的品質透過該通訊收發器發出對該影像重新編碼的要求。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109126182A TWI749676B (zh) | 2020-08-03 | 2020-08-03 | 影像品質評估裝置及其影像品質評估方法 |
US17/022,086 US11880966B2 (en) | 2020-08-03 | 2020-09-16 | Image quality assessment apparatus and image quality assessment method thereof |
CN202010973003.9A CN114071121B (zh) | 2020-08-03 | 2020-09-16 | 影像品质评估装置及其影像品质评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109126182A TWI749676B (zh) | 2020-08-03 | 2020-08-03 | 影像品質評估裝置及其影像品質評估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI749676B TWI749676B (zh) | 2021-12-11 |
TW202207053A true TW202207053A (zh) | 2022-02-16 |
Family
ID=80003160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109126182A TWI749676B (zh) | 2020-08-03 | 2020-08-03 | 影像品質評估裝置及其影像品質評估方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11880966B2 (zh) |
CN (1) | CN114071121B (zh) |
TW (1) | TWI749676B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI749676B (zh) * | 2020-08-03 | 2021-12-11 | 緯創資通股份有限公司 | 影像品質評估裝置及其影像品質評估方法 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3429450B2 (ja) * | 1998-09-09 | 2003-07-22 | 富士写真フイルム株式会社 | 画像処理装置及び画像補正方法 |
EP1175058A1 (en) | 2000-07-21 | 2002-01-23 | Alcatel | Processor system, and terminal, and network-unit, and method |
US7116372B2 (en) * | 2000-10-20 | 2006-10-03 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for deinterlacing |
US7269292B2 (en) * | 2003-06-26 | 2007-09-11 | Fotonation Vision Limited | Digital image adjustable compression and resolution using face detection information |
US7574016B2 (en) * | 2003-06-26 | 2009-08-11 | Fotonation Vision Limited | Digital image processing using face detection information |
US7844076B2 (en) * | 2003-06-26 | 2010-11-30 | Fotonation Vision Limited | Digital image processing using face detection and skin tone information |
US8948468B2 (en) * | 2003-06-26 | 2015-02-03 | Fotonation Limited | Modification of viewing parameters for digital images using face detection information |
KR20060043115A (ko) * | 2004-10-26 | 2006-05-15 | 엘지전자 주식회사 | 베이스 레이어를 이용하는 영상신호의 엔코딩/디코딩 방법및 장치 |
JP2007043651A (ja) * | 2005-07-05 | 2007-02-15 | Ntt Docomo Inc | 動画像符号化装置、動画像符号化方法、動画像符号化プログラム、動画像復号装置、動画像復号方法及び動画像復号プログラム |
CN100559880C (zh) | 2007-08-10 | 2009-11-11 | 中国传媒大学 | 一种基于自适应st区的高清视频图像质量评价方法及装置 |
JP2013507084A (ja) * | 2009-10-05 | 2013-02-28 | アイ.シー.ヴイ.ティー リミテッド | 画像処理のための方法およびシステム |
KR101216329B1 (ko) * | 2009-12-16 | 2012-12-27 | 한국전자통신연구원 | 복수 계층 영상의 품질 측정 방법 및 시스템 |
JP5487074B2 (ja) * | 2010-03-18 | 2014-05-07 | 日本電信電話株式会社 | 映像伝送方法、及び映像伝送システム |
TW201136298A (en) * | 2010-04-12 | 2011-10-16 | Novatek Microelectronics Corp | Filter and filtering method for reducing image noise |
GB2492163B (en) | 2011-06-24 | 2018-05-02 | Skype | Video coding |
US9456212B2 (en) | 2011-09-30 | 2016-09-27 | Broadcom Corporation | Video coding sub-block sizing based on infrastructure capabilities and current conditions |
JP5795525B2 (ja) | 2011-12-13 | 2015-10-14 | 日本電信電話株式会社 | 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラムおよび画像復号プログラム |
CA2898147C (en) | 2012-01-30 | 2017-11-07 | Samsung Electronics Co., Ltd. | Method and apparatus for video encoding for each spatial sub-area, and method and apparatus for video decoding for each spatial sub-area |
JP5943733B2 (ja) | 2012-06-20 | 2016-07-05 | キヤノン株式会社 | 画像符号化装置およびその制御方法ならびにプログラム |
US20140254659A1 (en) * | 2013-03-11 | 2014-09-11 | Mediatek Inc. | Video coding method using at least evaluated visual quality and related video coding apparatus |
JP5719410B2 (ja) | 2013-07-25 | 2015-05-20 | 日本電信電話株式会社 | 画像符号化方法、画像符号化装置及び画像符号化プログラム |
JP2015027022A (ja) | 2013-07-29 | 2015-02-05 | Kddi株式会社 | 動画像符号化装置、動画像符号化方法、およびプログラム |
US9699466B2 (en) | 2013-12-26 | 2017-07-04 | Mediatek Inc | Adaptive reference/non-reference frame determination for video encoding |
CN103916675B (zh) | 2014-03-25 | 2017-06-20 | 北京工商大学 | 一种基于条带划分的低延迟帧内编码方法 |
CN104079925B (zh) | 2014-07-03 | 2016-05-18 | 中国传媒大学 | 基于视觉感知特性的超高清视频图像质量客观评价方法 |
CN104333756B (zh) | 2014-11-19 | 2017-10-24 | 西安电子科技大学 | 基于时域相关性的hevc预测模式快速选择方法 |
US10134110B1 (en) * | 2015-04-01 | 2018-11-20 | Pixelworks, Inc. | Temporal stability for single frame super resolution |
US20170019454A1 (en) * | 2015-07-17 | 2017-01-19 | King Abdulaziz City For Science And Technology | Mobile video quality prediction systems and methods |
TWI585435B (zh) * | 2016-07-22 | 2017-06-01 | 緯創資通股份有限公司 | 人體定位方法、人體定位系統與定位伺服器 |
CN108174185B (zh) * | 2016-12-07 | 2021-03-30 | 中兴通讯股份有限公司 | 一种拍照方法、装置及终端 |
CN106791828B (zh) | 2016-12-21 | 2019-05-07 | 四川大学 | 基于机器学习的视频转码方法及其转码器 |
US10735761B2 (en) * | 2017-05-19 | 2020-08-04 | Mediatek Inc | Method and apparatus of video coding |
CN110999303B (zh) | 2017-08-22 | 2023-07-07 | 松下电器(美国)知识产权公司 | 图像编码器、图像解码器、图像编码方法和图像解码方法 |
US10666292B2 (en) * | 2017-11-02 | 2020-05-26 | Shenzhen China Star Optoelectronics Semiconductor Display Technology Co., Ltd. | Compressing method of a grayscale compensation table of an OLED display panel |
US11410074B2 (en) * | 2017-12-14 | 2022-08-09 | Here Global B.V. | Method, apparatus, and system for providing a location-aware evaluation of a machine learning model |
US20190045195A1 (en) | 2018-03-30 | 2019-02-07 | Intel Corporation | Reduced Partitioning and Mode Decisions Based on Content Analysis and Learning |
CN111212279B (zh) * | 2018-11-21 | 2021-06-29 | 华为技术有限公司 | 一种视频质量的评估方法及装置 |
CN110162799B (zh) * | 2018-11-28 | 2023-08-04 | 腾讯科技(深圳)有限公司 | 模型训练方法、机器翻译方法以及相关装置和设备 |
CN110324618A (zh) * | 2019-07-03 | 2019-10-11 | 上海电力学院 | 基于vmaf准则的提高视频质量的优化编码方法 |
CN110751702B (zh) * | 2019-10-29 | 2023-06-16 | 上海联影医疗科技股份有限公司 | 图像重建方法、系统、装置及存储介质 |
US11490099B2 (en) | 2019-12-23 | 2022-11-01 | Qualcomm Incorporated | Reference subpicture scaling ratios for subpictures in video coding |
KR20210092588A (ko) | 2020-01-16 | 2021-07-26 | 삼성전자주식회사 | 영상 처리 장치 및 방법 |
TWI749676B (zh) * | 2020-08-03 | 2021-12-11 | 緯創資通股份有限公司 | 影像品質評估裝置及其影像品質評估方法 |
TWI743919B (zh) * | 2020-08-03 | 2021-10-21 | 緯創資通股份有限公司 | 視訊處理裝置及視訊串流的處理方法 |
-
2020
- 2020-08-03 TW TW109126182A patent/TWI749676B/zh active
- 2020-09-16 CN CN202010973003.9A patent/CN114071121B/zh active Active
- 2020-09-16 US US17/022,086 patent/US11880966B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN114071121B (zh) | 2024-04-19 |
CN114071121A (zh) | 2022-02-18 |
TWI749676B (zh) | 2021-12-11 |
US11880966B2 (en) | 2024-01-23 |
US20220036535A1 (en) | 2022-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI743919B (zh) | 視訊處理裝置及視訊串流的處理方法 | |
WO2023134523A1 (zh) | 内容自适应视频编码方法、装置、设备和存储介质 | |
Jin et al. | Statistical study on perceived JPEG image quality via MCL-JCI dataset construction and analysis | |
Zhao et al. | QoE in video transmission: A user experience-driven strategy | |
US20170347159A1 (en) | Qoe analysis-based video frame management method and apparatus | |
Zadtootaghaj et al. | Quality estimation models for gaming video streaming services using perceptual video quality dimensions | |
US20200267396A1 (en) | Human visual system adaptive video coding | |
Zanforlin et al. | SSIM-based video admission control and resource allocation algorithms | |
Khan et al. | Content-Based Video Quality Prediction for MPEG4 Video Streaming over Wireless Networks. | |
WO2021129007A1 (zh) | 视频码率的确定方法、装置、计算机设备及存储介质 | |
Xue et al. | Mobile video perception: New insights and adaptation strategies | |
CN113784118A (zh) | 视频质量评估方法及装置、电子设备和存储介质 | |
Ahmadi et al. | Efficient bitrate reduction using a game attention model in cloud gaming | |
TWI749676B (zh) | 影像品質評估裝置及其影像品質評估方法 | |
Choi et al. | Video QoE models for the compute continuum | |
Leszczuk | Assessing task-based video quality—a journey from subjective psycho-physical experiments to objective quality models | |
WO2021082479A1 (zh) | 调整视频流的属性的方法和装置 | |
Zhang et al. | A QOE-driven approach to rate adaptation for dynamic adaptive streaming over http | |
US11936698B2 (en) | Systems and methods for adaptive video conferencing | |
Shi et al. | A user-perceived video quality assessment metric using inter-frame redundancy | |
Vučić et al. | Investigation of the relationship between subjective and objective video quality metrics for multiparty video calls on mobile devices | |
US20240357138A1 (en) | Human visual system adaptive video coding | |
Javadtalab et al. | On the suitability of current x264 rate controller algorithms for high definition video conferencing | |
Yang et al. | A multi-category task for bitrate interval prediction with the target perceptual quality | |
US20240291995A1 (en) | Video processing method and related apparatus |