TWI669947B - 圖片轉碼方法、計算設備及儲存介質 - Google Patents
圖片轉碼方法、計算設備及儲存介質 Download PDFInfo
- Publication number
- TWI669947B TWI669947B TW107113598A TW107113598A TWI669947B TW I669947 B TWI669947 B TW I669947B TW 107113598 A TW107113598 A TW 107113598A TW 107113598 A TW107113598 A TW 107113598A TW I669947 B TWI669947 B TW I669947B
- Authority
- TW
- Taiwan
- Prior art keywords
- picture
- target
- determining
- target picture
- transcoding
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Abstract
本申請揭示圖片轉碼方法、計算設備及儲存介質。該圖片轉碼方法應用於計算設備。該方法包括對目標圖片進行解碼;在依據解碼結果確定所述目標圖片為自然圖片時,採用有損壓縮方式進行轉碼,並對相應的轉碼結果進行視頻編碼;以及在依據解碼結果確定所述目標圖片為非自然圖片時,採用無損壓縮方式進行轉碼,並對相應的轉碼結果進行視頻編碼。
Description
本申請係關於圖像處理領域,特別有關一種圖片轉碼方法、計算設備及儲存介質。
隨著移動網際網路的發展,終端設備的下載流量大幅增長,用戶下載流量中,圖片消耗的流量佔據很大比例。大量的圖片傳輸給網路帶來了很大的承載壓力。目前在網路中傳輸的主流圖片格式包括:JPEG(Joint Photographic Experts Group,聯合圖像專家小組,是第一個國際圖像壓縮標準)、PNG(Portable Network Graphic,可攜式網路圖形)、GIF(Graphics Interchange Format,圖像互換格式)等。
對於以上提到的JPEG、PNG以及GIF格式圖片,目前對圖片的轉碼方案存在壓縮效率不高的問題,或者,導致有效訊息過量丟失的問題。
本申請實施例提供了一種圖片轉碼方案,能夠在保留圖片必要的有效訊息的前提下提升圖片壓縮效率。
根據本申請一方面,提供一種圖片轉碼方法,應用於計算設備,所述方法包括:對目標圖片進行解碼;在依據解碼結果確定所述目標圖片為自然圖片時,採用有損壓縮方式進行轉碼, 並對相應的轉碼結果進行視頻編碼;以及在依據解碼結果確定所述目標圖片為非自然圖片時,採用無損壓縮方式進行轉碼,並對相應的轉碼結果進行視頻編碼。
根據本申請一方面,提供一種圖片轉碼方法,應用於計算設備,所述方法包括:對目標圖片進行高分頻量檢測,獲得所述目標圖片的高分頻量;在目標圖片的高分頻量小於第一閾值時,採用有損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼;以及在所述目標圖片的高分頻量大於第二閾值的情況下,採用無損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼。
根據本申請一方面,提供一種圖片轉碼方法,應用於計算設備,所述方法包括:獲取目標圖片;在確定所述目標圖片包含文字訊息時,採用無損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼;以及在確定所述目標圖片未包含文字訊息時,採用有損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼。
根據本申請一方面,提供一種計算設備,包括:處理器和儲存器,所述儲存器中儲存有計算機可讀指令,使所述處理器:對目標圖片進行解碼;在依據解碼結果確定所述目標圖片為自然圖片時,採用有損壓縮方式進行轉碼,並對相應的轉碼結果進行視頻編碼;以及在依據解碼結果確定所述目標圖片為非自然圖片時,採用無損壓縮方式進行轉碼,並對相應的轉碼結果進行視頻編碼。
根據本申請一方面,提供一種計算設備,包括:處理器和儲存器,所述儲存器中儲存有計算機可讀指令,使所述處理器:對目標圖片進行高分頻量檢測,獲得所述目標圖片的高分頻量; 在目標圖片的高分頻量小於第一閾值時,採用有損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼;以及在所述目標圖片的高分頻量大於第二閾值的情況下,採用無損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼。
根據本申請一方面,提供一種計算設備,包括:處理器和儲存器,所述儲存器中儲存有計算機可讀指令,使所述處理器:獲取目標圖片;在確定所述目標圖片包含文字訊息時,採用無損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼;以及在確定所述目標圖片未包含文字訊息時,採用有損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼。
根據本申請一方面,提供一種非揮發性儲存介質,儲存有一個或多個程式,所述一個或多個程式包括指令,所述指令當由計算設備執行時,使得所述計算設備執行根據本申請的圖片轉碼的指令。
從以上技術方案可以看出,本申請實施例具有以下優點:將目標圖片的類型分為自然圖片和非自然圖片;其中,非自然圖片由於包含較多的高分頻量,使用較低比率的壓縮方式則可以儘量保留有效訊息;自然圖片會具有較少的高分頻量,可以使用更高壓縮比率達到更高的壓縮效率;因此,採用本申請實施例的方案可以在保留目標圖片必要的有效訊息的前提下提升圖片壓縮效率。
110‧‧‧終端設備
120‧‧‧伺服系統
130‧‧‧網路
301~305、302A~302A3、302B‧‧‧步驟
401‧‧‧轉碼單元
402‧‧‧解碼單元
403‧‧‧內容識別單元
501‧‧‧轉碼單元
502‧‧‧分量檢測單元
503‧‧‧內容識別單元
601‧‧‧輸入輸出設備
602‧‧‧處理器
603‧‧‧儲存器
701‧‧‧圖片解碼器
702‧‧‧訊源轉換器
703‧‧‧視頻編碼器
704‧‧‧訊源選擇器
800‧‧‧方法
S801~S803‧‧‧步驟
為了更清楚地說明本申請實施例中的技術方案,下面將對實施例描述中所需要使用的圖式作簡要介紹,顯而易見地,下 面描述中的圖式僅僅是本申請的一些實施例,對於所屬技術領域具有通常知識者來講,在不付出創造性勞動性的前提下,還可以根據這些圖式獲得其他的圖式。
第1A圖顯示根據本申請一些實施例的應用場景的示意圖;第1B圖為本申請實施例轉碼系統的系統架構圖;第2A圖為本申請實施例目標圖片的示意圖;第2B圖為本申請實施例目標圖片的示意圖;第2C圖為本申請實施例目標圖片的示意圖;第3圖為本申請實施例方法流程示意圖;第4圖為本申請實施例裝置結構示意圖;第5圖為本申請實施例裝置結構示意圖;第6圖為本申請實施例計算設備結構示意圖;第7圖為本申請實施例圖像處理設備結構示意圖;第8圖顯示根據本申請一些實施例的圖片轉碼方法的示意圖。
為了使本申請的目的、技術方案和優點更加清楚,下面將結合圖式對本申請作進一步地詳細描述,顯然,所描述的實施例僅僅是本申請一部份實施例,而不是全部的實施例。基於本申請中的實施例,所屬技術領域具有通常知識者在沒有做出創造性勞動前提下所獲得的所有其它實施例,都屬於本申請保護的範圍。
第1A圖顯示根據本申請一些實施例的應用場景的示意圖。如第1A圖所示,應用場景包括終端設備110和伺服系統120。終端設備110例如可以是桌上型電腦、行動電話、平板電腦等各種設備。伺服系統120可以包括一個或多個伺服器,本申請對此不做 限制。這裡,終端設備110例如可以包括社交類、新聞類等各種應用,例如,QQ空間、騰訊體育、天天快報、QQ瀏覽器等等。伺服系統120可以是社交類和新聞類等各種應用後臺,例如,社交平台伺服器或者即時通訊伺服器等等。終端設備110可以透過網路130與伺服系統120通訊。終端設備110可以從伺服系統120下載圖片,也可以向伺服系統120上傳圖片。本申請提出了圖片轉碼方案。在一個實施例中,圖片轉碼方案可以應用在終端設備110中。在又一個實施例中,圖片轉碼方案可以應用在伺服系統120中。為了簡化描述,本申請實施例可以將終端設備110和伺服系統統稱為計算設備。
第1B圖示出了根據本申請實施例轉碼系統的架構圖。第1B圖所示的轉碼系統例如可以駐留在終端設備110或者伺服系統120中。第1B圖所示轉碼系統包含如下幾個部分:圖片解碼器、訊源選擇器、訊源轉換器以及視頻編碼器。以上各部分可以透過匯流排連接,其中,圖片解碼器負責對輸入到轉碼系統的目標圖片進行解碼,並將解碼後的資料發送給訊源選擇器。訊源選擇器依據解碼後的資料進行判決,確定是使用有損壓縮還是無損壓縮,然後由訊源轉換器將解碼後的資料轉為相應的YUV格式的資料。訊源轉換器將YUV格式的資料發給視頻編碼器。後續流程依視頻編碼的流程,在此不再贅述。
本申請實施例提供了一種圖片轉碼方法。該圖片轉碼方法可以在計算設備110或者伺服系統120中執行。該方法包括:101A:在確定目標圖片為自然圖片的情況下,採用有損壓縮方式對目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼;102A:在確定上述目標圖片為非自然圖片的情況下,採 用無損壓縮方式對目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼。
可以理解的是,以上步驟101A和步驟102A並不具有邏輯先後次序,並且以上兩個步驟在執行過程中會擇一執行,也就是說並不會同時都執行。因為,這取決於目標圖像是自然圖片還是非自然圖片。自然圖片和非自然圖片,是基於圖片的生成方式進行的分類,自然圖片是自然生成的圖片,例如:相機拍攝的照片和自然風光圖像等。換言之,自然圖片來源於圖像採集設備所拍攝的圖像。非自然圖片通常是人參與生成或者計算設備渲染生成的圖片,例如:即時通訊界面的截圖、遊戲畫面等;即時通訊界面的截圖和遊戲畫面可以既包含人參與的部分,也包含計算設備渲染生成的部分。換言之,非自然圖片由計算設備渲染而成。更具地,以遊戲畫面為例,即時對戰遊戲中,玩家之間會使用文字進行交流,其中文字部分是人參與的部分;其他部分則是計算設備依計算機程式指令繪製的而成的圖片內容。可以理解的是,除了即時通訊界面的截圖,這裡非自然圖片還可以是整個桌面或者其他應用界面的截圖。除了遊戲畫面,非自然圖片還可以是其他任意由計算機繪製的圖片。以上關於自然圖片和非自然圖片的舉例不應理解為對本申請實施例的唯一性限定。另外,在本實施例中,目標圖片是輸入到轉碼系統的圖片,該圖片的格式可以是任意的圖片格式;例如:JPEG、PNG以及GIF格式,或者其他格式。
作為示例性說明,第2A圖、第2B圖以及第2C圖,為前述舉例中提到的三種目標圖片的示例。其中,第2A圖為相機拍攝的照片,第2B圖以及第2C圖分別為即時通訊界面的截圖和遊戲畫面截圖。第2A圖是自然圖片,其高分頻量會比較少,即圖像過渡較為柔和,邊界過渡更為自然。第2B圖以及第2C圖,是非自然圖 片,其高分頻量較多,即存在較多突變的邊界。例如,第2B圖中文字的線條與背景之間有鮮明的對比而且邊界過渡變化大。第2C圖中畫面元素之間也會有明顯的邊界,過渡不如自然圖片過渡柔和。
另外說明的是,在本實施例中有損壓縮方式和無損壓縮方式,是圖片的轉碼使用的壓縮算法,通常來說圖像壓縮都會使圖片的有效訊息發生減少。因此,在本申請實施例中,“無損”應當理解為相對的無損,也即是說無損壓縮方式相比於有損壓縮方式可以保留更多的目標圖片的有效訊息。例如:YUV444相對於YUV420而言,屬於無損壓縮方式。
從以上技術方案可以看出,本申請實施例具有以下優點:將目標圖片的類型分為自然圖片和非自然圖片;其中,非自然圖片由於包含較多的高分頻量,使用較低壓縮比率的壓縮方式則可以儘量保留有效訊息;自然圖片會具有較少的高分頻量,可以使用更高壓縮比率達到更高的壓縮效率;因此,採用本申請實施例的方案可以在保留目標圖片必要的有效訊息的前提下提升圖片壓縮效率。
在一種實現方式中,本申請實施例還提供了在確定目標圖片的類型之前進行的操作,具體地,上述方法還包括:將上述目標圖片輸入到轉碼系統後,對上述目標圖片進行解碼;確定上述目標圖片為自然圖片的情況包括:對上述目標圖片進行解碼後確定上述目標圖片為自然圖片;確定上述目標圖片為非自然圖片的情況包括:對上述目標圖片進行解碼後確定上述目標圖片為非自然圖片。
在本實施例中,目標圖片會被首先解碼,從而為後續識 別圖片的類型做準備。這裡,目標圖片可以解碼為RGB格式的資料。
在一種實現方式中,本申請實施例還提供了具體如何判斷非自然圖片的實現方案,如下:上述目標圖片為非自然圖片包括:上述目標圖片包含文字訊息,或者,上述目標圖片由計算設備渲染生成。
由於非自然圖片具有一些特性,例如包含文字訊息以及計算設備渲染生成,還可能具有其他特性導致其與自然圖片之間存在區別;透過這些特性可以迅速的確定目標圖片的類型。
在一種實現方式中,本申請實施例還提供了如何確定目標圖片包含文字訊息。具體地,在確定上述目標圖片的格式為PNG且上述目標圖片包含文字資料塊時,確定目標圖片包含文字訊息。或者,在確定上述目標圖片的格式為GIF並且目標圖片包含圖片檔擴展資料塊時,確定目標圖片包含文字訊息。
在一種實現方式中,本申請實施例還提供了另一種判斷非自然圖片和自然圖片的實現方案。本申請實施例可以對目標圖片進行內容識別。在此基礎上,本申請實施例可以依上述內容識別的結果確定上述目標圖片包含文字訊息。或者,本申請實施例可以依上述內容識別的結果確定上述目標圖片由計算設備渲染生成。
內容識別是指對目標圖片內所包含的具體內容進行識別的技術,例如:使用滑動窗模式進行文字檢測;透過連通區域分析進行文字檢測。另外,本申請實施例還可以基於深度學習方法來識別具體內容,例如:全卷積神經網路、模式識別以及速率失真優化等。具體如何進行內容識別以區分目標圖片的類型,後 續實施例將會給出詳細說明,在此不再贅述。
在一種實現方式中,本申請實施例還提供了能夠快速確定目標圖片為自然圖片的方案,具體如下:在確定上述目標圖片包含攝像鏡標頭訊息時確定目標圖片為自然圖片。
在前述實施例中,可以優先使用較為快速確定目標圖片類型的實現方案,在這些方案無法確定圖片格式的情況下,再使用內容識別的方式來確定目標圖片的類型。
在一種實現方式中,本申請實施例在轉碼時可以選擇YUV格式作為目標格式。有損的YUV壓縮方式例如是YUV420。無損的YUV壓縮方式例如是YUV444。
在一種實現方式中,上述對目標圖片進行解碼包括:將上述目標圖片解碼為RGB資料。
在一種實現方式中,依據所述解碼結果對所述目標圖片進行高分頻量檢測,獲得所述目標圖片的高分頻量。這樣,在目標圖片的高分頻量小於第一閾值時,本申請實施例可以確定目標圖片為自然圖片。在目標圖片的高分頻量大於第二閾值時,本申請實施例可以確定目標圖片為非自然圖片。這裡,第一閾值小於或等於第二閾值。
本申請實施例提供了一種圖片轉碼方法,例如可以在計算設備110或者伺服系統120中執行。本實施例使用高分頻量的大小來對圖片類型進行區分,區別於前一實施例使用自然圖片和非自然圖片來進行圖片類型區分,該方法包括:101B:在目標圖片的高分頻量小於第一閾值的情況下,採用有損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼;102B:在上述目標圖片的高分頻量大於第二閾值的情況 下,採用無損壓縮方式對目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼。
基於前述說明可知,高分頻量越多,那麼如果使用有損壓縮將會丟失過多的訊息,例如,第2B圖中文字會變得不清晰;而高分頻量較少的情況下,則可以使用比較高的壓縮比。
本實施例中,第一閾值和第二閾值是用於確定選用壓縮方式的臨界點。可以理解的是,為了避免衝突,第一閾值應當小於或等於第二閾值。如果第一閾值等於第二閾值,那麼目標圖片的高分頻量等於第一閾值或第二閾值。這種情況下,本申請實施例可以依圖片壓縮的技術需求來選用壓縮方式:選用有損壓縮方式可以獲得更高的壓縮比,選用無損壓縮方式則可以保留更多目標圖片的有用訊息。如果第一閾值小於第二閾值,那麼第一閾值和第二閾值之間會存在一個區間,即大於或等於第一閾值且小於或等於第二閾值這個區間。如果目標圖片的高分頻量落在這個區間內,本申請實施例可以參考前面關於“目標圖片的高分頻量等於第一閾值或第二閾值”的處理方案,在此不再贅述。
在一種實現方式中,目標圖片的高分頻量可以透過高分頻量檢測直接獲得,具體如下:確定上述目標圖片的高分頻量小於第一閾值包括:經對上述目標圖片進行高分頻量檢測,確定上述目標圖片的高分頻量小於第一閾值;確定上述目標圖片的高分頻量大於第二閾值包括:經對上述目標圖片進行高分頻量檢測,確定上述目標圖片的高分頻量大於第二閾值。
在一種實現方式中,目標圖片的高分頻量也可以不透過高分頻量檢測來獲得,在進行高分頻量檢測之前先對其內包含的 訊息進行確認,來分辨其所屬的類型,具體如下:
確定上述目標圖片的高分頻量大於第二閾值包括:確定上述目標圖片包含文字訊息,或者,確定上述目標圖片由計算設備渲染生成。
由於非自然圖片相對來說會有更高的高分頻量,如第2B圖和第2C圖所示,因此基於本實施例可以基於非自然圖片具有的一些特性,例如包含文字訊息以及計算設備渲染生成,還可能具有的其他特性導致其與自然圖片之間存在區別;透過這些特性可以迅速的確定目標圖片的類型,相應地確定其高分頻量是否高於了第二閾值。
在一種實現方式中,本申請實施例還提供了如何確定目標圖片包含文字訊息,具體如下:上述目標圖片包含文字訊息包括:上述目標圖片的格式為PNG,上述目標圖片包含文字資料塊;或者,上述目標圖片的格式為GIF,上述目標圖片包含圖片檔擴展資料塊。
在一種實現方式中,本申請實施例還提供了另一種判斷非自然圖片和自然圖片的實現方案,如下:上述目標圖片包含文字訊息,或者,上述目標圖片由計算設備渲染生成包括:對上述目標圖片進行內容識別,依上述內容識別的結果確定上述目標圖片包含文字訊息,或者,依上述內容識別的結果確定上述目標圖片由計算設備渲染生成。
內容識別是指對目標圖片內所包含的具體內容進行識別的技術,例如:使用滑動窗模式進行文字檢測;透過連通區域分析進行文字檢測。另外,本申請實施例還可以採用基於深度學 習方法來識別具體內容的實現方案,例如:全卷積神經網路、模式識別以及速率失真優化等。具體如何進行內容識別以區分目標圖片的類型,後續實施例將會給出詳細說明,在此不再贅述。
在一種實現方式中,發明實施例還提供了能夠快速確定目標圖片為自然圖片的方案,由於自然圖片通常具有較低的高分頻量,因此可以透過確定自然圖片來確定其高分頻量是否小於第一閾值。具體如下:上述目標圖片的高分頻量小於第一閾值包括:上述目標圖片包含攝像鏡標頭訊息。
在前述實施例中,可以優先使用較為快速確定目標圖片類型的實現方案,在這些方案無法確定圖片格式的情況下,再使用高分頻量檢測的方式來確定目標圖片的類型。
在一種實現方式中,本申請實施例還提供了在確定目標圖片的類型之前進行解碼的具體實現方案,如下:在對上述目標圖片進行內容識別之前,上述方法還包括:將上述目標圖片解碼為RGB資料。
在一種實現方式中,在本實施例中還給出了基於後續要進行視頻編碼,在轉碼時選擇YUV格式作為目標格式。有損壓縮方式的YUV格式例如包括:YUV420。上述無損壓縮方式的YUV格式例如包括:YUV444。
基於以上說明,本申請實施例還提供了一個實施例。在該實施例中,目標圖片被解碼為RGB資料、有損壓縮方式和無損壓縮方式分別為YUV420和YUV444。本實施例可以大大節省圖片流量頻寬及儲存成本,其應用場景廣泛,可以應用於社交類、新聞類、工具類等各種應用。例如:在手Q、QQ空間、QQ瀏覽器、騰訊體育、騰訊新聞、天天快報、騰訊手機管家等各種應用(Application,App)。這是由於設備內會存在各種圖片等待轉碼, 轉碼後進行資料傳輸或者儲存,因此具有節省流量或者節省儲存空間的需求。在前述第2A圖、第2B圖以及第2C圖給出的三個應用場景產生的圖片作為舉例,由於應用場景還有很多不再一一繪圖說明。
在本實施例中,由執行訊源選擇的模組利用原圖片的解碼訊息識別出視頻編碼器應該採用YUV420還是YUV444編碼,基本的方法流程,如第3圖所示,包括:
301:圖片輸入到轉碼系統,調用圖片解碼器,獲得圖片的標頭訊息,將原圖片解碼成RGB資料。
302:確定圖片類型。
在本實施例中確定圖片類型分為兩部分,可以先執行A部分,在A部分無法確定圖片類型的情況下,執行B部分。
A部分:
302A:依據圖片的標頭訊息對圖片進行格式區分。
在本實施例中,以聯合圖像組(Joint Photographic Group,JPG)、PNG以及GIF格式為例。可以理解的是圖片格式並不僅僅只有以上三種,例如還可以有:點陣圖(Bitmap,BMP)等。因此,輸入到轉碼系統內的圖片格式也不會只有JPG,PNG和GIF,以上舉例不應理解為對本申請實施例的限定。
302A1:如果圖片為JPG圖片,則讀取JPG解碼器中的解碼訊息,判斷是否帶有包含攝像鏡頭可交換圖檔格式(Exchangeable Image File,exif)訊息,如果帶有exif訊息,則判斷是自然拍照相片,即自然圖片,採用YUV420作為轉碼輸出格式,並對轉碼輸出結果進行視頻編碼。
302A2:如果為PNG圖片,則讀取PNG圖片訊息中是否包含文字資料塊(text或者ztxt),如果包含這些文字訊息則可以確 定為非自然圖片,直接採用YUV444作為轉碼輸出格式,並對轉碼輸出結果進行視頻編碼。
302A3:如果為GIF圖片,則讀取GIF圖片訊息中是否包含圖片檔擴展資料塊,如果包含圖片檔擴展資料塊則直接採用YUV444作為轉碼輸出格式,並對轉碼輸出結果進行視頻編碼。這裡,圖片檔擴展資料塊是指GIF格式的圖片所攜帶的關於文字的附加訊息。
B部分:
302B:透過內容識別確定圖片類型,如果是包含檔案訊息或者為計算機生成圖片,採用YUV444作為轉碼輸出格式,並對轉碼輸出結果進行視頻編碼。否則,採用YUV420作為轉碼輸出格式,並對轉碼輸出結果進行視頻編碼。B部分可以在以上A部分沒有直接決定視頻編碼器輸入訊源格式的情況下,採用圖片內容識別模組對解碼的RGB資料進行分析,來判決RGB是否包含檔案訊息或者為計算機生成圖片。具體的圖片內容識別包括以下而不限於以下幾個方面:
在一個實施例中,採用滑動窗模式的文字檢測方法:基於滑動窗口全圖掃描的方式,對每個滑動窗口基於方向梯度直方圖(Histogram of Oriented Gradient,HOG)、尺度不變特徵變換(Scale-invariant feature transform,SIFT)、加窗傅立葉變換(Gabor)、局部二值模式(Local Binary Patterns,LBP)等紋理特徵訓練Adaboost(一種迭代算法),支持向量機(Support Vector Machine,SVM)等二類分類器得到文字區域的概率響應值,然後再利用連通區域分析結合形態學等操作定位最終的文字框。如果檢測到文字區域則轉碼系統自動將訊源切換為YUV444作為輸入進行圖片轉碼,如果沒有檢測到文字則使用YUV420作為輸入進行 圖片轉碼。
在一個實施例中,採用連通區域分析的文字檢測方法。具體而言,本申請實施例可以基於底層規則,先分割得到連通的小區域。例如:區域特徵提取(Maximally Stable Extremal Regions,MSER)、標準窗口小部件工具包(Standard Widget Toolkit,SWT)分割得到連通的小區域。然後,本申請實施例可以利用顏色、亮度、邊緣、形狀等訊息進行過濾或者分類器判別的方式來分離文字區域與非文字區域。如果檢測到文字區域則轉碼系統自動將訊源切換為YUV444進行圖片轉碼。如果沒有檢測到文字則使用YUV420進行圖片轉碼。
在一個實施例中,基於深度學習方法的全卷積神經網路(Full Convolution Network,FCN)並採用模式識別方法對圖片內容進行分析。具體而言,本申請實施例透過機器學習的方法以及網際網路特有的大數據訓練實現對圖片內容識別。這裡,識別內容可以包括文字區域以及計算機生成的圖片。如果確定識別內容包括以上兩個部分,轉碼系統自動將訊源切換為YUV444進行圖片轉碼,如果沒有檢測到則使用YUV420進行圖片轉碼
在一個實施例中,採用編碼器速率失真優化(Rate-Distortion Optimization,RDO)方法。對於文字以及計算機等生成畫面圖像來說,如果採用YUV420編碼那麼會明顯的導致編碼BD-rate(用於表示碼率與性能之間關係的參數)結構相似性(structural similarity index,SSIM)或者BD-rate峰值訊躁比(Peak Signal to Noise Ratio,PSNR)相比YUV444有明顯的損失。因此,轉碼系統利用這個特性,可以對要轉碼的圖片採用全圖片或者部分區域圖片進行BD-rate SSIM以及BD-PSNR的比較,然後自動決定是採用哪一種訊源輸入作為轉碼系統的視頻編碼輸入。
303:基於圖片類型的判決資料,如果為非自然圖片,即:包含文字訊息或者為計算機生成圖片,則需要採用YUV444作為轉碼輸出格式,並對轉碼輸出結果進行視頻編碼。如果為自然圖片,即:不包含文字訊息或者為計算機生成圖片,則採用YUV420作為轉碼輸出格式,並對轉碼輸出結果進行視頻編碼。這裡,本申請實施例可以將RGB資料透過訊源格式轉換需求生成YUV420或者YUV444。
304:調用視頻編碼器對YUV420或者YUV444進行編碼操作。
視頻編碼器可能使用為H.265、AVS(Audio Video coding Standard,音頻視頻編碼標準,屬於一種訊源編碼標準)、H.264或者AVS2等。
305:將視頻編碼輸入的碼流以及相關的標頭訊息進行格式封裝,轉碼成新的圖片格式。
本申請實施例提供的採用視頻壓縮方法實現的智慧型圖片轉碼方法;由於視頻編碼壓縮效率要優於JPEG、PNG以及GIF等圖片壓縮標準,採用視頻壓縮標準(比如H.265、AVS2等)能夠大幅節省圖片的頻寬。因此,透過將傳統圖片格式透過轉碼系統生成新的圖片格式,本申請實施例能夠有效的節省應用的運營頻寬成本。
同時,本申請實施例針對傳統的視頻壓縮算法作為有損壓縮模式,在一些圖片(比如帶文字的圖片以及計算生成的圖片上)會造成主觀體驗的損失,透過引入YUV444的視頻壓縮方法,將RGB轉換成YUV444進行視頻壓縮,能夠減少由於RGB轉換成YUV420過程中造成的主觀效果損失。另外,本申請實施例透過引入智慧型的訊源格式選擇模組,能夠讓轉碼系統實現自動識別哪 些圖片應該使用YUV420,能夠保證最大力度的節省頻寬成本;同時,也能夠識別出哪些圖片應該使用YUV444進行壓縮,保證主觀體驗不受損失。綜上,智慧型轉碼系統能夠既最大限度的節省頻寬同時不讓用戶感受不出有主觀體驗的損失。
本申請實施例的方法採用了更高效的視頻編碼標準,同時採用有損壓縮模式進行編碼。因此,壓縮效率大大高於JPEG、PNG以及GIF等傳統圖片格式,這對節省圖片頻寬流量以及儲存成本具有重要意義。目前該方法與系統已經在手Q、QQ空間、QQ瀏覽器、騰訊體育、騰訊新聞、天天快報、手機管家等多個業務進行測試。根據業務統計,相比於JPEG壓縮能節省40%以上流量;對於PNG圖片,能節省60%以上流量,對於GIF圖片,流量節省更是達到了80%以上。
本申請實施例提供了一種圖片轉碼的裝置,該裝置例如可以駐留在終端設備110或者伺服系統120中。如第4圖所示,該裝置包括:
轉碼單元401,用於在目標圖片為自然圖片的情況下,採用有損壓縮方式作為輸入源進行轉碼視頻編碼輸入;在上述目標圖片為非自然圖片的情況下,採用無損壓縮方式作為輸入源進行轉碼視頻編碼輸入。
在本實施例中有損壓縮方式和無損壓縮方式,是圖片的轉碼使用的壓縮算法,通常來說圖像壓縮都會使圖片的有效訊息發生減少;因此,在本申請實施例中,“無損”應當理解為相對的無損,也即是說無損壓縮方式相比於有損壓縮方式可以保留更多的目標圖片的有效訊息。例如:YUV444相對於YUV420而言,屬於無損壓縮方式。
從以上技術方案可以看出,本申請實施例具有以下優 點:將目標圖片的類型分為自然圖片和非自然圖片;其中,非自然圖片由於包含較多的高分頻量,使用較低比率的壓縮方式則可以儘量保留有效訊息;自然圖片會具有較少的高分頻量,可以使用更高壓縮比率達到更高的壓縮效率;因此,採用本申請實施例的方案可以在保留目標圖片必要的有效訊息的前提下提升圖片壓縮效率。
在一種實現方式中,本申請實施例還提供了在確定目標圖片的類型之前進行的操作,以及這種操作對目標圖片的類型確認造成的影響,具體如下:上述裝置還包括:解碼單元402,用於將上述目標圖片輸入到轉碼系統後,對上述目標圖片進行解碼;上述轉碼單元401,具體用於在對上述目標圖片進行解碼後確定上述目標圖片為自然圖片;或者,在對上述目標圖片進行解碼後確定上述目標圖片為非自然圖片。
在本實施例中,目標圖片會被首先解碼,從而為後續識別圖片的類型做準備;在這裡解碼可以解碼為RGB格式的資料。
在一種實現方式中,本申請實施例還提供了具體如何判斷非自然圖片的實現方案,如下:上述目標圖片為非自然圖片包括:上述目標圖片包含文字訊息,或者,上述目標圖片由計算設備渲染生成。
在一種實現方式中,上述目標圖片包含文字訊息包括:上述目標圖片的格式為PNG,上述目標圖片包含文字資料塊;或者,上述目標圖片的格式為GIF,上述目標圖片包含圖片檔擴展資料塊。
由於非自然圖片具有一些特性,例如包含文字訊息以及計算設備渲染生成,還可能具有其他特性導致其與自然圖片之間存在區別;透過這些特性可以迅速的確定目標圖片的類型。
在一種實現方式中,本申請實施例還提供了如何確定目標圖片包含文字訊息或者計算設備渲染生成的方案,具體如下:上述裝置還包括:內容識別單元403,用於對上述目標圖片進行內容識別,依上述內容識別的結果確定上述目標圖片包含文字訊息,或者,依上述內容識別的結果確定上述目標圖片由計算設備渲染生成。
內容識別是指對目標圖片內所包含的具體內容進行識別的技術,例如:使用滑動窗模式進行文字檢測;透過連通區域分析進行文字檢測;還有基於深度學習方法來識別具體內容的實現方案,例如:全卷積神經網路、模式識別以及速率失真優化等。具體如何進行內容識別以區分目標圖片的類型,前面實施例已經給出了詳細說明,在此不再贅述。
在一種實現方式中,本申請實施例還提供了能夠快速確定目標圖片為自然圖片的方案,具體如下:上述目標圖片為自然圖片包括:上述目標圖片包含攝像鏡標頭訊息。
在前述實施例中,可以優先使用較為快速確定目標圖片類型的實現方案,在這些方案無法確定圖片格式的情況下,再使用內容識別的方式來確定目標圖片的類型。
在一種實現方式中,在本實施例中還給出了基於後續要進行視頻編碼,在轉碼時選擇YUV格式作為目標格式,對應已經確定的壓縮方式具體轉碼方案如下:上述有損壓縮方式包括: YUV420;上述無損壓縮方式包括:YUV444。
在一種實現方式中,本申請實施例還提供了在確定目標圖片的類型之前進行解碼的具體實現方案,如下:上述解碼單元402,具體用於將上述目標圖片解碼為RGB資料。
本申請實施例提供了一種圖片轉碼的裝置,如第5圖所示,包括:轉碼單元501,用於在目標圖片的高分頻量小於第一閾值的情況下,採用有損壓縮方式作為輸入源進行轉碼視頻編碼輸入;在上述目標圖片的高分頻量大於第二閾值的情況下,採用無損壓縮方式作為輸入源進行轉碼視頻編碼輸入。
基於前述說明可知,高分頻量越多,那麼如果使用有損壓縮將會丟失過多的訊息,例如,第2B圖中文字會變得不清晰;而高分頻量較少的情況下,則可以使用較高的壓縮比。
本實施例中,第一閾值和第二閾值是用於確定選用壓縮方式的臨界點,可以理解的是,為了避免衝突,第一閾值應當小於或等於第二閾值。如果第一閾值等於第二閾值,那麼目標圖片的高分頻量等於第一閾值或第二閾值,這種情況下,可以依圖片壓縮的技術需求來選用壓縮方式:選用有損壓縮方式可以獲得更高的壓縮比,選用無損壓縮方式則可以保留更多目標圖片的有用訊息。如果第一閾值小於第二閾值,那麼第一閾值和第二閾值之間會存在一個區間,即大於或等於第一閾值且小於或等於第二閾值這個區間,如果目標圖片的高分頻量落在這個區間內,可以參考前面關於“目標圖片的高分頻量等於第一閾值或第二閾值”的處理方案,在此不再贅述。
在一種實現方式中,目標圖片的高分頻量可以透過高分頻量檢測直接獲得,具體如下:上述裝置還包括: 分量檢測單元502,用於經對上述目標圖片進行高分頻量檢測,確定上述目標圖片的高分頻量小於第一閾值,或者,確定上述目標圖片的高分頻量大於第二閾值。
在一種實現方式中,目標圖片的高分頻量也可以不透過高分頻量檢測來獲得,在進行高分頻量檢測之前先對其內包含的訊息進行確認,來分辨其所屬的類型,具體如下:上述目標圖片的高分頻量大於第二閾值包括:上述目標圖片包含文字訊息,或者,上述目標圖片由計算設備渲染生成。
由於非自然圖片相對來說會有更高的高分頻量,如第2B圖和第2C圖所示,因此基於本實施例可以基於非自然圖片具有的一些特性,例如包含文字訊息以及計算設備渲染生成,還可能具有的其他特性導致其與自然圖片之間存在區別;透過這些特性可以迅速的確定目標圖片的類型,相應地確定其高分頻量是否高於了第二閾值。
在一種實現方式中,本申請實施例還提供了如何確定目標圖片包含文字訊息,具體如下:上述目標圖片包含文字訊息包括:上述目標圖片的格式為PNG,上述目標圖片包含文字資料塊;或者,上述目標圖片的格式為GIF,上述目標圖片包含圖片檔擴展資料塊。
在一種實現方式中,本申請實施例還提供了另一種判斷非自然圖片和自然圖片的實現方案,如下:上述裝置還包括:內容識別單元503,用於對上述目標圖片進行內容識別,依上述內容識別的結果確定上述目標圖片包含文字訊息,或 者,依上述內容識別的結果確定上述目標圖片由計算設備渲染生成。
內容識別是指對目標圖片內所包含的具體內容進行識別的技術,例如:使用滑動窗模式進行文字檢測;透過連通區域分析進行文字檢測;還有基於深度學習方法來識別具體內容的實現方案,例如:全卷積神經網路、模式識別以及速率失真優化等。具體如何進行內容識別以區分目標圖片的類型,後續實施例將會給出詳細說明,在此不再贅述。
在一種實現方式中,發明實施例還提供了能夠快速確定目標圖片為自然圖片的方案,由於自然圖片通常具有較低的高分頻量,因此可以透過確定自然圖片來確定其高分頻量是否小於第一閾值,具體如下:上述目標圖片的高分頻量小於第一閾值包括:上述目標圖片包含攝像鏡標頭訊息。
在前述實施例中,可以優先使用較為快速確定目標圖片類型的實現方案,在這些方案無法確定圖片格式的情況下,再使用高分頻量檢測的方式來確定目標圖片的類型。
在一種實現方式中,本申請實施例還提供了在確定目標圖片的類型之前進行解碼的具體實現方案,如下:上述轉碼單元501,還用於在上述內容識別單元503對上述目標圖片進行內容識別之前,將上述目標圖片解碼為RGB資料。
在一種實現方式中,在本實施例中還給出了基於後續要進行視頻編碼,在轉碼時選擇YUV格式作為目標格式,對應已經確定的壓縮方式具體轉碼方案如下:上述有損壓縮方式包括:YUV420;上述無損壓縮方式包括:YUV444。
本申請實施例提供了一種計算設備,如第6圖所示,計算設備包括:輸入輸出設備601、處理器602以及儲存器603;其中 輸入輸出設備601、處理器602以及儲存器603可以透過匯流排連接;
儲存器603包括但不限於是隨機存儲記憶體(英文:Random Access Memory,簡稱:RAM)、唯讀記憶體(Read-Only Memory,ROM)、可擦除可編程唯讀記憶體(Erasable Programmable Read Only Memory,EPROM)、或唯讀記憶光碟(Compact Disc Read-Only Memory,CD-ROM),該儲存器603用於相關指令及資料。輸入輸出設備601用於接收和發送資料。
處理器602可以是一個或多個中央處理器(Central Processing Unit,CPU),在處理器602是一個CPU的情況下,該CPU可以是單核CPU,也可以是多核CPU。
該計算設備中的處理器602用於讀取上述儲存器603中儲存的程式程式碼,執行本申請的圖片轉碼方法。在一個實施例中,處理器602可以執行以下操作:在目標圖片為自然圖片的情況下,採用有損壓縮方式對目標圖片進行轉碼,並對轉碼輸出結果進行視頻編碼;在上述目標圖片為非自然圖片的情況下,採用無損壓縮方式對目標圖片進行轉碼,並對轉碼輸出結果進行視頻編碼。
在本實施例中有損壓縮方式和無損壓縮方式,是圖片的轉碼使用的壓縮算法,通常來說圖像壓縮都會使圖片的有效訊息發生減少;因此,在本申請實施例中,“無損”應當理解為相對的無損,也即是說無損壓縮方式相比於有損壓縮方式可以保留更多的目標圖片的有效訊息。例如:YUV444相對於YUV420而言,屬於無損壓縮方式。
從以上技術方案可以看出,本申請實施例具有以下優點:將目標圖片的類型分為自然圖片和非自然圖片;其中,非自 然圖片由於包含較多的高分頻量,使用較低比率的壓縮方式則可以儘量保留有效訊息;自然圖片會具有較少的高分頻量,可以使用更高壓縮比率達到更高的壓縮效率;因此,採用本申請實施例的方案可以在保留目標圖片必要的有效訊息的前提下提升圖片壓縮效率。
在一種實現方式中,本申請實施例還提供了在確定目標圖片的類型之前進行的操作,以及這種操作對目標圖片的類型確認造成的影響,具體如下:上述處理器602,還用於將上述目標圖片輸入到轉碼系統後,對上述目標圖片進行解碼;確定上述目標圖片為自然圖片的情況包括:對上述目標圖片進行解碼後確定上述目標圖片為自然圖片;確定上述目標圖片為非自然圖片的情況包括:對上述目標圖片進行解碼後確定上述目標圖片為非自然圖片。
在本實施例中,目標圖片會被首先解碼,從而為後續識別圖片的類型做準備;在這裡解碼可以解碼為RGB格式的資料。
在一種實現方式中,本申請實施例還提供了具體如何判斷非自然圖片的實現方案。當確定上述目標圖片包含文字訊息,或者,確定上述目標圖片由計算設備渲染生成時,可以確定上述目標圖片為非自然圖片。
在一種實現方式中,上述目標圖片包含文字訊息包括:上述目標圖片的格式為PNG,上述目標圖片包含文字資料塊;或者,上述目標圖片的格式為GIF,上述目標圖片包含圖片檔擴展資料塊。
非自然圖片所具有的特性除了可以是圖片包含文字訊息或者由計算設備渲染生成以外,還可以是其他導致其與自然圖片之間存在區別的特性,本申請對此不做限制。透過利用這些特 性,本申請實施例可以迅速的確定目標圖片的類型。
在一種實現方式中,本申請實施例還提供了如何確定目標圖片包含文字訊息或者計算設備渲染生成的方案,具體如下。上述處理器602,還用於對上述目標圖片進行內容識別,依上述內容識別的結果確定上述目標圖片包含文字訊息,或者,依上述內容識別的結果確定上述目標圖片由計算設備渲染生成。
內容識別是指對目標圖片內所包含的具體內容進行識別的技術,例如:使用滑動窗模式進行文字檢測;透過連通區域分析進行文字檢測。另外,本申請實施例還可以基於深度學習方法來識別具體內容的實現方案,例如:全卷積神經網路、模式識別以及速率失真優化等。具體如何進行內容識別以區分目標圖片的類型,前面實施例已經給出了詳細說明,在此不再贅述。
在一種實現方式中,本申請實施例還提供了能夠快速確定目標圖片為自然圖片的方案,具體如下:上述目標圖片為自然圖片包括:上述目標圖片包含攝像鏡標頭訊息。
在前述實施例中,可以優先使用較為快速確定目標圖片類型的實現方案,在這些方案無法確定圖片格式的情況下,再使用內容識別的方式來確定目標圖片的類型。
在一種實現方式中,在本實施例中還給出了基於後續要進行視頻編碼,在轉碼時選擇YUV格式作為目標格式,對應已經確定的壓縮方式具體轉碼方案如下:上述有損壓縮方式包括:YUV420;上述無損壓縮方式包括:YUV444。
在一種實現方式中,本申請實施例還提供了在確定目標圖片的類型之前進行解碼的具體實現方案,如下:上述對上述目標圖片進行解碼包括:將上述目標圖片解碼為RGB資料。
在一個實施例中,上述處理器602還可以執行如下操作:在確定目標圖片的高分頻量小於第一閾值的情況下,採用有損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼;在上述目標圖片的高分頻量大於第二閾值的情況下,採用無損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼。
基於前述說明可知,高分頻量越多,那麼如果使用有損壓縮將會丟失過多的訊息,例如,第2B圖中文字會變得不清晰;而高分頻量較少的情況下,則可以使用較高的壓縮比。
在一種實現方式中,本申請實施例還提供了另一種判斷非自然圖片和自然圖片的實現方案,如下:上述處理器602,還用於對上述目標圖片進行內容識別,依上述內容識別的結果確定上述目標圖片包含文字訊息,或者,依上述內容識別的結果確定上述目標圖片由計算設備渲染生成。
在一種實現方式中,本申請實施例還提供了在確定目標圖片的類型之前進行解碼的具體實現方案,如下:上述處理器602,還用於在對上述目標圖片進行內容識別之前,將上述目標圖片解碼為RGB資料。
在一種實現方式中,在本實施例中還給出了基於後續要進行視頻編碼,在轉碼時選擇YUV格式作為目標格式,對應已經確定的壓縮方式具體轉碼方案如下:上述有損壓縮方式包括:YUV420;上述無損壓縮方式包括:YUV444。
本申請實施例還提供了一種圖像處理設備,如第7圖所示,包括:圖片解碼器701、訊源轉換器702以及視頻編碼器703,還包括:訊源選擇器704;目標圖片經上述圖片解碼器701解碼後,輸出給上述訊源選擇器704; 上述訊源選擇器704在確定上述目標圖片為自然圖片的情況下選擇有損壓縮方式,在確定上述目標圖片為非自然圖片的情況下選擇無損壓縮方式;上述訊源轉換器702器依上述訊源選擇器704確定的壓縮方式對解碼後的上述目標圖片進行轉換處理後輸出給上述視頻編碼器703。
在一種實現方式中,上述訊源選擇器704在確定上述目標圖片包含文字訊息的情況下,或者,確定上述目標圖片由計算設備渲染生成的情況下,確定上述目標圖片為非自然圖片。
在一種實現方式中,上述訊源選擇器704用於確定上述目標圖片包含文字訊息包括:確定上述目標圖片的格式為PNG,上述目標圖片包含文字資料塊的;或者,確定上述目標圖片的格式為GIF,上述目標圖片包含圖片檔擴展資料塊。
在一種實現方式中,上述訊源選擇器704用於確定上述目標圖片由計算設備渲染生成包括:對上述目標圖片進行內容識別,依上述內容識別的結果確定上述目標圖片包含文字訊息,或者,依上述內容識別的結果確定上述目標圖片由計算設備渲染生成。
在一種實現方式中,上述訊源選擇器704確定上述目標圖片為自然圖片包括:確定上述目標圖片包含攝像鏡標頭訊息。
在一種實現方式中,上述有損壓縮方式包括:YUV420;上述無損壓縮方式包括:YUV444。
在一種實現方式中,上述圖片解碼器701用於將上述目標圖片解碼為RGB資料。
在一個實施例中,上述訊源選擇器704在確定目標圖片的高分頻量小於第一閾值的情況下選擇有損壓縮方式,在確定上 述目標圖片的高分頻量大於第二閾值的情況下選擇無損壓縮方式; 上述訊源轉換器702依上述訊源選擇器704確定的壓縮方式對解碼後的上述目標圖片進行轉換處理後輸出給上述視頻編碼器703。
在一種實現方式中,上述訊源選擇器704,還用於對上述目標圖片進行高分頻量檢測,確定上述目標圖片的高分頻量小於第一閾值,或者,確定上述目標圖片的高分頻量大於第二閾值。
在一種實現方式中,上述訊源選擇器704用於確定上述目標圖片的高分頻量大於第二閾值包括:確定上述目標圖片包含文字訊息,或者,確定上述目標圖片由計算設備渲染生成。
在一種實現方式中,上述訊源選擇器704用於確定上述目標圖片包含文字訊息包括:確定上述目標圖片的格式為PNG,上述目標圖片包含文字資料塊;或者,確定上述目標圖片的格式為GIF,上述目標圖片包含圖片檔擴展資料塊。
在一種實現方式中,上述訊源選擇器704,還用於對上述目標圖片進行內容識別;依上述內容識別的結果確定上述目標圖片包含文字訊息,或者,依上述內容識別的結果確定上述目標圖片由計算設備渲染生成。
在一種實現方式中,上述訊源選擇器704,用於確定目標圖片的高分頻量小於第一閾值包括:確定上述目標圖片包含攝像鏡標頭訊息。
在一種實現方式中,上述有損壓縮方式包括:YUV420;上述無損壓縮方式包括:YUV444。
以上圖像處理設備可以是移動設備,例如:手機、個人電腦等;也可以是伺服器設備,例如:社交平台伺服器、即時通訊伺服器等。因此以上圖像處理設備可以是這些設備中的組成部分,因此可以基於這些設備的硬體結構,這些設備的硬體結構本申請實施例不贅述。其中第7圖和第8圖中各組成部分以硬體形式存在。
值得注意的是,上述圖像處理設備實施例中,所包括的各個單元只是按照功能邏輯進行劃分的,但並不局限於上述的劃分,只要能夠實現相應的功能即可;另外,各功能單元的具體名稱也只是為了便於相互區分,並不用於限制本申請的保護範圍。
第8圖示出根據本申請一些實施例的圖片轉碼方法800的示意圖。方法800例如可以在計算設備中執行。如第8圖所示,方法800包括步驟S801,獲取目標圖片。目標圖片可以由計算設備從本地獲取或者從網路獲取,本申請對此不做限制。在步驟S802中,在確定目標圖片包含文字訊息時,採用無損壓縮方式對目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼。在一個實施例中,在確定目標圖片的格式為PNG並且目標圖片包含文字資料塊時,步驟S802可以確定目標圖片包含文字訊息。在一個實施例中,在確定目標圖片的格式為GIF並且目標圖片包含圖片檔擴展資料塊時,確定目標圖片包含文字訊息。在一個實施例中,步驟S802可以對目標圖片進行內容識別,依內容識別的結果確定目標圖片包含文字訊息。
在步驟S803中,在確定目標圖片未包含文字訊息時,採用有損壓縮方式對目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼。綜上,方法800透過判斷圖片是否包含文字,可以自適應確定圖片的轉碼方式,從而可以在保證圖片有效訊息的前提下 挺高圖片壓縮率。方法800更具體的實施方式請參見第3圖描述,這裡不再贅述。
另外,所屬技術領域具有通常知識者可以理解實現上述各方法實施例中的全部或部分步驟是可以透過程式來指令相關的硬體完成,相應的程式可以儲存於一種計算機可讀儲存介質中,上述提到的儲存介質可以是唯讀記憶體,磁碟或光碟等。
以上僅為本申請較佳的具體實施方式,但本申請的保護範圍並不局限於此,任何所屬技術領域具有通常知識者在本申請實施例揭露的技術範圍內,可輕易想到的變化或替換,都應涵蓋在本申請的保護範圍之內。因此,本申請的保護範圍應該以後附之申請專利範圍為准。
Claims (18)
- 一種圖片轉碼方法,應用於計算設備,所述方法包括:對目標圖片進行解碼;若依據解碼結果確定所述目標圖片為自然圖片,採用有損壓縮方式進行轉碼,並對相應的轉碼結果進行視頻編碼;以及若依據解碼結果確定所述目標圖片為非自然圖片,採用無損壓縮方式進行轉碼,並對相應的轉碼結果進行視頻編碼,其中所述方法更包括:基於深度學習方法的全卷積神經網路(Full Convolution Network,FCN)並採用模式識別方式對所述目標圖片的內容進行分析,以確定所述目標圖片為自然圖片或非自然圖片,其中所述模式識別方式進行識別的內容包括文字區域以及由計算設備渲染生成的圖片。
- 如申請專利範圍第1項所述之方法,其中所述依據解碼結果確定目標圖片為非自然圖片,包括:在確定所述目標圖片包含文字訊息時,確定所述目標圖片為非自然圖片。
- 如申請專利範圍第1項所述之方法,其中所述依據解碼結果確定目標圖片為非自然圖片,包括:在確定所述目標圖片由計算設備渲染生成時,確定所述目標圖片為非自然圖片。
- 如申請專利範圍第2項所述之方法,其中所述確定目標圖片包含文字訊息,包括:在確定所述目標圖片的格式為PNG並且所述目標圖片包含文字資料塊時,確定所述目標圖片包含文字訊息。
- 如申請專利範圍第2項所述之方法,其中所述確定目標圖 片包含文字訊息,包括:在確定所述目標圖片的格式為GIF並且所述目標圖片包含圖片檔擴展資料塊時,確定所述目標圖片包含文字訊息。
- 如申請專利範圍第2項所述之方法,其中所述確定目標圖片包含文字訊息,包括:對所述目標圖片進行內容識別,依所述內容識別的結果確定所述目標圖片包含文字訊息。
- 如申請專利範圍第3項所述之方法,其中所述確定目標圖片由計算設備渲染生成,包括:對所述目標圖片進行內容識別,依所述內容識別的結果確定所述目標圖片由計算設備渲染生成。
- 如申請專利範圍第1項所述之方法,其中所述依據解碼結果確定目標圖片為自然圖片,包括:在確定所述目標圖片包含攝像鏡標頭訊息時,確定所述目標圖片為自然圖片。
- 如申請專利範圍第1項所述之方法,其中所述有損壓縮方式包括YUV420,所述無損壓縮方式包括YUV444。
- 一種圖片轉碼方法,應用於計算設備,所述方法包括:獲取目標圖片;若確定所述目標圖片包含文字訊息,採用無損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼;以及若確定所述目標圖片未包含文字訊息,採用有損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼,其中所述方法更包括:基於深度學習方法的全卷積神經網路(Full Convolution Network,FCN)並採用模式識別方式對所述目標圖片的內容進行 分析,以確定所述目標圖片包含文字訊息或未包含文字訊息,其中所述模式識別方式進行識別的內容包括文字區域。
- 一種計算設備,包括處理器和儲存器,所述儲存器中儲存有計算機可讀指令,使所述處理器:對目標圖片進行解碼;若依據解碼結果確定所述目標圖片為自然圖片,採用有損壓縮方式進行轉碼,並對相應的轉碼結果進行視頻編碼;以及若依據解碼結果確定所述目標圖片為非自然圖片,採用無損壓縮方式進行轉碼,並對相應的轉碼結果進行視頻編碼,其中所述儲存器中儲存的所述計算機可讀指令並使所述處理器:基於深度學習方法的全卷積神經網路(Full Convolution Network,FCN)並採用模式識別方式對所述目標圖片的內容進行分析,以確定所述目標圖片為自然圖片或非自然圖片,其中所述模式識別方式進行識別的內容包括文字區域以及由計算設備渲染生成的圖片。
- 如申請專利範圍第11項所述之計算設備,其中所述處理器進一步執行所述計算機可讀指令,用於:在確定所述目標圖片包含文字訊息時,確定所述目標圖片為非自然圖片。
- 如申請專利範圍第12項所述之計算設備,其中所述處理器進一步執行所述計算機可讀指令,用於:在確定所述目標圖片的格式為PNG並且所述目標圖片包含文字資料塊時,確定所述目標圖片包含文字訊息。
- 如申請專利範圍第12項所述之計算設備,其中所述處理器進一步執行所述計算機可讀指令,用於:在確定所述目標圖片的格式為GIF並且所述目標圖片包含圖片檔擴展資料塊時,確定 所述目標圖片包含文字訊息。
- 如申請專利範圍第12項所述之計算設備,其中所述處理器進一步執行所述計算機可讀指令,用於:對所述目標圖片進行內容識別,依所述內容識別的結果確定所述目標圖片包含文字訊息。
- 如申請專利範圍第11項所述之計算設備,其中所述處理器進一步執行所述計算機可讀指令,用於:在確定所述目標圖片包含攝像鏡標頭訊息時,確定所述目標圖片為自然圖片。
- 一種計算設備,包括:處理器和儲存器,所述儲存器中儲存有計算機可讀指令,使所述處理器:獲取目標圖片;若確定所述目標圖片包含文字訊息,採用無損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼;以及若確定所述目標圖片未包含文字訊息,採用有損壓縮方式對所述目標圖片進行轉碼,並對相應的轉碼結果進行視頻編碼,其中所述儲存器中儲存的所述計算機可讀指令並使所述處理器:基於深度學習方法的全卷積神經網路(Full Convolution Network,FCN)並採用模式識別方式對所述目標圖片的內容進行分析,以確定所述目標圖片包含文字訊息或未包含文字訊息,其中所述模式識別方式進行識別的內容包括文字區域。
- 一種非揮發性儲存介質,儲存有一個或多個程式,所述一個或多個程式包括指令,所述指令當由計算設備執行時,使得所述計算設備執行申請專利範圍第1至9項中任一項所述之方法的指令。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710283315.5A CN108810537B (zh) | 2017-04-26 | 2017-04-26 | 一种图片转码方法、装置及图像处理设备 |
??201710283315.5 | 2017-04-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201907714A TW201907714A (zh) | 2019-02-16 |
TWI669947B true TWI669947B (zh) | 2019-08-21 |
Family
ID=63919432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107113598A TWI669947B (zh) | 2017-04-26 | 2018-04-20 | 圖片轉碼方法、計算設備及儲存介質 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN108810537B (zh) |
TW (1) | TWI669947B (zh) |
WO (1) | WO2018196614A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308098B (zh) * | 2019-07-26 | 2024-06-07 | 杭州海康威视数字技术股份有限公司 | 一种图像处理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103873877A (zh) * | 2012-12-14 | 2014-06-18 | 华为技术有限公司 | 远程桌面的图像传输方法及装置 |
CN103886623A (zh) * | 2012-12-19 | 2014-06-25 | 华为技术有限公司 | 一种图像压缩方法、设备及系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7194140B2 (en) * | 2001-11-05 | 2007-03-20 | Canon Kabushiki Kaisha | Image processing apparatus and method which compresses image data of each region using a selected encoding method |
CN1224926C (zh) * | 2002-12-04 | 2005-10-26 | 中国科学院计算技术研究所 | 压缩域体育视频定位标题文字的方法 |
US7751483B1 (en) * | 2004-04-16 | 2010-07-06 | Majesco Entertainment Company | Video codec for embedded handheld devices |
JP4393319B2 (ja) * | 2004-09-08 | 2010-01-06 | キヤノン株式会社 | 画像符号化装置及び方法、並びにコンピュータプログラム及びコンピュータ可読記憶媒体 |
US7881384B2 (en) * | 2005-08-05 | 2011-02-01 | Lsi Corporation | Method and apparatus for H.264 to MPEG-2 video transcoding |
CN100425066C (zh) * | 2005-09-23 | 2008-10-08 | 逐点半导体(上海)有限公司 | 图像压缩的方法 |
CN100514366C (zh) * | 2006-11-30 | 2009-07-15 | 腾讯科技(深圳)有限公司 | 一种图像压缩方法和装置 |
FR2940577B1 (fr) * | 2008-12-23 | 2011-04-22 | Sagem Comm | Procede d'encodage par segmentation d'une image. |
CN102164167B (zh) * | 2011-02-21 | 2014-10-15 | 北京奇虎科技有限公司 | 一种用于远程控制的分类传输方法和系统 |
CN102611823B (zh) * | 2012-01-13 | 2014-06-04 | 百度在线网络技术(北京)有限公司 | 一种基于图片内容选择压缩算法的方法和设备 |
CN102630043B (zh) * | 2012-04-01 | 2014-11-12 | 北京捷成世纪科技股份有限公司 | 一种基于对象的视频转码方法和装置 |
CN104025561A (zh) * | 2012-11-23 | 2014-09-03 | 华为技术有限公司 | 图像压缩方法及图像处理装置 |
KR102437698B1 (ko) * | 2015-08-11 | 2022-08-30 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 이미지 인코딩 방법 |
-
2017
- 2017-04-26 CN CN201710283315.5A patent/CN108810537B/zh active Active
-
2018
- 2018-04-11 WO PCT/CN2018/082626 patent/WO2018196614A1/zh active Application Filing
- 2018-04-20 TW TW107113598A patent/TWI669947B/zh active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103873877A (zh) * | 2012-12-14 | 2014-06-18 | 华为技术有限公司 | 远程桌面的图像传输方法及装置 |
CN103886623A (zh) * | 2012-12-19 | 2014-06-25 | 华为技术有限公司 | 一种图像压缩方法、设备及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108810537A (zh) | 2018-11-13 |
TW201907714A (zh) | 2019-02-16 |
WO2018196614A1 (zh) | 2018-11-01 |
CN108810537B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111681167B (zh) | 画质调整方法和装置、存储介质及电子设备 | |
CN111954053B (zh) | 获取蒙版帧数据的方法、计算机设备及可读存储介质 | |
US20200380261A1 (en) | Resource optimization based on video frame analysis | |
JP7186877B2 (ja) | 映像デコーディング制御方法、装置、電子機器及び記憶媒体 | |
CN110139104B (zh) | 视频解码方法、装置、计算机设备和存储介质 | |
CN107404654B (zh) | 一种jpeg图像解压缩方法、装置及平台 | |
CN109120988B (zh) | 解码方法、装置、电子设备以及存储介质 | |
US11562772B2 (en) | Video processing method, electronic device, and storage medium | |
CN116524195B (zh) | 语义分割方法、装置、电子设备及存储介质 | |
CN111031032A (zh) | 云端视频转码方法及装置、解码方法及装置、及电子设备 | |
CN110691246B (zh) | 视频编码方法、装置及电子设备 | |
CN113068034A (zh) | 视频编码方法及装置、编码器、设备、存储介质 | |
CN110662080B (zh) | 面向机器的通用编码方法 | |
CN114390307A (zh) | 图像画质增强方法、装置、终端及可读存储介质 | |
TWI669947B (zh) | 圖片轉碼方法、計算設備及儲存介質 | |
US11902522B2 (en) | Character restoration method and apparatus, storage medium, and electronic device | |
CN114173137A (zh) | 视频编码方法、装置及电子设备 | |
CN113613024A (zh) | 视频预处理方法及设备 | |
CN108933945B (zh) | 一种gif图片的压缩方法、装置及存储介质 | |
CN111954081A (zh) | 获取蒙版数据的方法、计算机设备及可读存储介质 | |
CN116760983B (zh) | 用于视频编码的环路滤波方法及装置 | |
CN118761930A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112135142B (zh) | 图片解码方法及相关产品 | |
CN118429292A (zh) | 一种医学影像数据质量评价方法、装置和医学系统 | |
CN117689885A (zh) | 芯片图像的版图提取方法及装置、电子设备 |