TWI578757B - 場景形式之視訊串流編碼 - Google Patents

場景形式之視訊串流編碼 Download PDF

Info

Publication number
TWI578757B
TWI578757B TW101102946A TW101102946A TWI578757B TW I578757 B TWI578757 B TW I578757B TW 101102946 A TW101102946 A TW 101102946A TW 101102946 A TW101102946 A TW 101102946A TW I578757 B TWI578757 B TW I578757B
Authority
TW
Taiwan
Prior art keywords
scene
given
video stream
input video
encoder
Prior art date
Application number
TW101102946A
Other languages
English (en)
Other versions
TW201249210A (en
Inventor
羅德佛 瓦格斯 古耶瑞歐
Original Assignee
艾艾歐有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 艾艾歐有限公司 filed Critical 艾艾歐有限公司
Publication of TW201249210A publication Critical patent/TW201249210A/zh
Application granted granted Critical
Publication of TWI578757B publication Critical patent/TWI578757B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

場景形式之視訊串流編碼
對相關申請的交互引用此申請要求2011年1月28日遞交的美國臨時申請案61/437,193,以及2011年1月28日遞交的美國臨時申請案61/437,211的優先權。上述申請案的內容以參考方式被清楚地合併於此。
本發明涉及視訊編碼技術,尤其涉及用於視訊編碼的視訊編碼參數的自動選擇。
隨著視訊串流在日常用戶中的持續增長的普及和使用,有幾個固有的局限性需要被克服。例如,為獲得該視訊串流,用戶往往希望在只在有限頻寬的網際網路上觀看視訊。在實施例中,用户可能希望通過行動電話連接或家用無線連接獲得視訊串流。在某些情況下,通常利用預先下載(spooling content)內容的方式來補償頻寬的不足(即,下載內容至本地存儲後再觀看)。這種方法具有一些缺點。首先,用戶不能有真正的“運行時間”體驗,也就是說用户在打算觀看節目時不能夠即時觀看。相反的,在觀看節目之前,用戶不 得不體驗內容預先下載的明顯延遲。另一個缺點是存儲的可用性--無論是提供商還是用戶都不得不提供存儲資源以保證預先下載內容可以被存儲,即使是很短的時間內,仍導致了昂貴的存儲資源的不必要使用。
視訊串流(典型地包括圖像部分和聲音部分)可能需要大量的頻寬,特別是高分辨率的視訊串流(例如高清視訊)。音頻典型地需要少得多的頻寬,但是有時仍然需要考慮頻寬的問題。一個視訊串流的方法是大量壓縮視訊串流,以使得快速的視訊傳輸可允許用戶以運行時間(rune-time)或者實質上即時地觀看內容(即,無需經歷大量的預先下載延遲)。典型地,損失壓縮(即,壓縮並不是完全可逆的)提供比無損壓縮更多的壓縮,但是大量的損失壓縮提供了不良的用戶體驗。
為了減少傳輸數字視訊信號的頻寬需求,使用高效的數字視訊編碼,其中數字視訊信號的數據率可能會大幅減少(出於視訊數據壓縮的目的)是眾所周知的。為了保證互操作性,視訊編碼標準在促進數字視訊在很多專業-及消費應用程序中被採用發揮了關鍵作用。最有影響力的標準傳統由國際電信聯盟(ITU-T)或是ISO/IEC(標準化/國際電工委員會的國際組織)的MPEG(運動圖像專家組)15委員會開發。ITU-T標準,公認的優點是通常針對實時通信(例如視訊會議),而大多數MPEG標準是優化存儲(例如,數位多功能影音光碟(DVD)和廣播(例如數位視訊廣播(VOB)標準))。
目前,大多數標準化的視訊編碼算法是基於混合視訊編碼。混合視訊編碼方法通常結合數個不同的無損和損失(lossless and lossy)壓縮方案以達到所需的壓縮增益。混合視訊編碼也是ITV-T標準的基礎(H.26x標準例如H.261、H.263)和ISO/IEC標準(MPEG-X標準例如MPEG-1、MPEG-2和MPEG-4)。目前最新和最先進的視訊編碼標準是被稱為H.264/MPEG-4先進視訊編碼(AVC),是聯合視訊小組(JVT)、ITV-T聯合小組和ISO/IEC MPEG組的共同努力的結果。
該H.264標準應用了被稱為既定標準(例如MPEG-2)之基於塊的運動之補償混合轉換編碼的相同原則。因此,H.264的語法可依照標頭的一般階層而被組織,例如圖像塊、片塊和巨集塊標頭,以及數據例如運動向量、塊變換係數和量化規模等。然而,H.264標準分離了視訊編碼層(VCL,其描述了視訊數據的內容)以及網路應用層(NAL,其格式化數據並提供標題資訊)。
此外,H.264標準可以大幅提高編碼參數的選擇。例如,它允許巨集塊16x16的更詳細的劃分和操作,即如運動補償過程可以在大小為4x4尺寸的巨集塊分割上執行。並且,樣本塊的運動補償預測的選擇過程中可能涉及先前解碼存儲圖片的數量,而不是僅僅相鄰的圖片。即使在單一的幀內進行帧內編碼,也有可能使用來自於同樣幀的先前編碼樣本以形成塊的預測。再者,伴隨運動補償所造成預測錯誤可能基於4x4塊尺寸被轉換和量化,而非傳統的8x8的塊尺寸。此外,可使用回路程序分塊濾波器以減少可能使用的塊效應。
該H.264標準可被視為H.262/MPEG -2視訊編碼語法的超級集合,它使用相同的視訊數據的全局結構,同時延長了可能的編碼決策和參數的數量。具有多種編碼決策的後果是可能取得良好的位元率和圖像品質之間的權衡。然而,儘管H.264標準可能顯著降低基於塊編碼的典型產出而被普遍承認,它也可能突出其它產出。事實上,H.264允許各種編碼參數可能值的增加數量,因此導致改進編碼程序的潛力增加,但是也導致了選擇視訊編碼參數的敏感性的增加。
與其它標準相似,H.264不指定選擇視訊編碼參數的規範程序,但是通過參考實施例描述,各種標準可被用於選擇視訊編碼參數以達到編碼效率、視訊品質和實用性之間的適當平衡。然而,所述標準可能不會總是導致最佳或合適的適於所有類型內容和應用程序的編碼參數的選擇。例如,對於視訊信號的特徵而言,該標準可能不會導致視訊編碼參數的最優或可取選擇是,或者基於獲取編碼的信號特徵的標準可能對於當前的應用程序並不適合。
因此,視訊編碼的改進系統將是有利的。
前述相關領域示例和相關的特徵之目的係說明性質,而非排他性質。相關領域的其他特徵將基於說明書的解讀和附圖的研究而清楚可見。
本發明考慮了用於編碼視訊串流的各種方法、系統和編碼器。在此介紹的是用於編碼視訊串流的編碼器。編碼器接收輸入 視訊串流,並輸出被編碼的視訊串流,被编码的視訊串流可以在解碼器被解碼恢復為,至少近似地,輸入視訊串流。本發明的實施例中,編碼器通過第一識別場景邊界和場景邊界(即,“場景序列”包括一個或多個幀)間的編碼的幀,利用一組參數對視訊串流或存儲的序列進行編碼。
在本發明的一個實施例中,視訊串流中可以在相機突然從一個視角轉到另一個視角之地方識別場景改變,以使得場景改變的每一側上的兩幀之間差值並不像從相同角度拍攝的其他幀那樣可壓縮。兩組不同的參數被用於至少兩個不同的場景序列,這提供了適應性、基於場景的編碼。
本發明內容以簡化的形式提供一個概念的選擇,並將在下面的實施方式中進一步描述。本發明內容並非旨在確定所要保護的主題的關鍵特徵或基本特徵,也不用於限制所要保護的主題的範圍。
100‧‧‧編碼器
102‧‧‧輸入模組
104‧‧‧視訊處理模組
106‧‧‧視訊編碼模組
110‧‧‧輸入視訊串流
120‧‧‧視訊串流
601‧‧‧系統
610‧‧‧處理器
620‧‧‧記憶體
630‧‧‧編程器
640‧‧‧適配器
670‧‧‧I/O設備
680‧‧‧I/O設備
690‧‧‧互聯裝置
圖1闡述了編碼器的一個例子;圖2闡述了編碼输入視訊串流的方法步驟;圖3闡述了將輸入視訊串流分成多個场景序列的方法步驟;圖4闡述了確定場景序列的場景形式的方法步驟;圖5是解釋幀中運動判斷的區塊圖; 圖6是處理系統區塊圖,該處理系統可以被用於實現編碼器實施的所述的某些技術。
現在,將描述本發明的各個方面。下面的說明提供具體的細節以透徹理解說明中的例子。然而,本領域技術人員將理解本發明的實現並不需要諸多細節。此外,一些熟知的結構或功能可能不會被詳細顯示或描述,以避免對相關說明產生不必要的混淆。雖然附圖描述作為功能獨立的組件,但是這樣的描述僅僅為了說明的目的。 對於本領域技術人員而言,附圖中描繪的組件可以被任意組合或分開成單獨的組件。
在下面的說明書中使用的術語旨在以最合理的方式被解釋,即使它正被用於與本發明中某些具體例子的詳細說明配合使用。然而,在下文中某些術語可能需要被強調,任何試圖以限制方式進行解釋的術語將在實施方式部分被公開和明確界定。
本說明書中提及的“實施例”、“一個實施例”或類似的表示意味着所述的特定的功能、結構、特徵被包括在本發明的至少一個的實施例中。在說明書中這樣的表達的出現並不一定都是指代相同的實施例。
在本發明的一個實施例中,被提供的編碼器用於接收輸入視訊串流,並輸出被編碼的視訊串流,被编码的視訊串流可以在解碼器被解碼恢復為,至少近似地,輸入為視訊串流。編碼器包括: 輸入模組,接收輸入視訊串流視訊串流;視訊處理模組,基於場景邊界資訊將輸入視訊串流視訊串流分為多節,其中,視訊處理模組根據輸入視訊串流中的兩個暫時相鄰圖像幀的關係確定給定的場景邊界;視訊串流模組進一步確定多個場景中每一個場景的場景形式,每一個場景形式與多個預定的編碼器參數中的一個或多個相聯繫,以及視訊編碼模組根據與多個場景中的每一個場景相連的場景形式對多個場景進行編碼。
以此方式,編碼器能以最適合於將被編碼的輸入視訊串流中的每一個場景的品質對輸入視訊串流編碼。
圖1根據本發明的一個實施例闡述了編碼器100的例子。編碼器100接收輸入視訊串流110並輸出編碼視訊串流120,編碼視訊串流120可以在解碼器被解碼恢復。編碼器100包括輸入模組102、視訊處理模組104和視訊編碼模組106。編碼器100可以包括其它組件例如參數輸入模組、存儲參數的記憶體,等等。編碼器100可以執行未在此特別說明的其它視訊處理功能。
輸入模組102接收輸入視訊串流110。輸入視訊串流110可以採取任何適當的形式也可以源於任何適當的資源,如記憶體,或者源於現場節目。
視訊處理模組104分析輸入視訊串流110並將視訊串流110隨著其各自的多個場景中的每個場景的視訊編碼參數分為多個場景。在一個實施例中,視訊處理模組104基於場景邊界將視訊串流分為多個場景,其中場景邊界根據輸入視訊串流中的兩個暫時相鄰的 圖像幀而被確定。視訊處理模組104進一步確定了視訊編碼參數,視訊編碼參數由視訊編碼器106用於通過將每一場景形式與複數個預定編碼參數中的一個或多個相聯繫,而對每一個場景進行編碼。在視訊串流處理期間,參數對於每一個場景形式可能是預定的,或者可能是被計算和/或被調整的。視訊編碼模組106從視訊處理模組104接收多個場景及其各自的視訊編碼參數,根據其各自的編碼參數對複數個場景中的每個場景進行編碼,並輸出已編碼之視訊串流120。
圖2闡述了編碼輸入視訊串流的方法200的步驟。方法200編碼輸入視訊串流為被編碼的視訊位元流,可以在解碼器中被至少近似地解碼恢復為輸入視訊串流。步驟210中,接收將被編碼的視訊串流。步驟220中,視訊串流基於場景邊界被分為多個場景。在此,如將在圖3中進一步描述細節,根據輸入視訊串流中兩個暫時相鄰圖像幀的關係,確定場景邊界。然而,任何一種其他合適的結構均可能被用於區分場景形式。之後在步驟230中,處理過程確定多個場景中的每一個場景的場景形式。在步驟240中,處理過程確定視訊編碼參數以對每一個場景進行編碼,藉由以適合的預定編碼器參數映射每一個場景形式,如同其後進一步詳細討論。在步驟250中,處理過程根據每一場景的各自的視訊編碼參數(例如,在步驟240中所確定)對場景進行編碼。在步驟260中,處理過程輸出已編碼的視訊位元串流。
上述處理過程將在以下部分被詳盡闡述。輸入視訊串流通常包括多個圖像幀。每一圖像幀通常被基於輸入視訊串流中的不同的“時間位置”被識別。在實施例中,輸入視訊串流可以是提供給 編碼器的部分或不連續的片段的串流。在此情況下,甚至於在接收到整個輸入視訊串流之前,編碼器將被編碼的視訊位元流(例如,終端消耗設備如HDTV)作為滾動基礎上的串流進行輸出。
在實施例中,輸入視訊串流和被編碼的視訊位元串流被存儲作為串流序列。在此,編碼可提前進行並且被編碼的視訊串流稍後被串流至消費者設備。在此,在被流至消費者設備之前,在整個視訊串流上的編碼被完全實現。據悉視訊串流的前、後、或“順序的”編碼的其它例子,或者及其組合,可被本領域技術人員所實現,也可與此處所介紹的技術共同實現。
在實施例中,輸入視訊串流中的場景邊界通過先縮放並消除所有存在於每一圖像幀中的高頻元素而被確定。接下來,被確定的兩個圖像幀之間的差值在輸入視訊串流的時間表上是彼此暫時相鄰的。在一些示例中,例如,兩幀之間的差值可以利用遞歸(recursive)或自適應(adpative)濾波器進行區分。當計算的差值超過預定的(標示場景變化的)閾值時,兩個圖像幀被確定為兩個不同場景序列中的部分,且因此兩個圖像幀之間的場景邊界被建立。
在實施例中,如在上述參考圖2中所闡述的,場景形式可能被確定為與編碼程序相連的多個場景序列中的每一個場景。在一些例子中,場景序列形式可能利用一個或多個下列場景序列參數而被確定:(i)輸入視訊串流中場景序列的位置;(ii)場景序列的長度;(iii)其運動向量判斷;(iv)場景序列與之前幀的有效差值;(v)場景序列的光譜數據尺寸;(vi)利用光學性質識別所確定的場景文件內容 (vii)基於劇本結構資訊的場景劇本屬性,等等。此外,在一些例子中,面部識別可能被用於場景形式確定,以確定場景序列中是否包括人體的面部。
給定的場景形式可能包括,例如快進”、“靜止”、“頭部特寫”、“文件”、“滾動演職員名單(scroll credits)”、“大多是黑色的圖像”、“五幀或以下的短場景”等等。在一些例子中,場景序列可能並未被分配特定的場景形式。在其他例子中,被分配的場景序列可能包括場景形式:“雜項的”、“未知的”、“預設值”等等。
在一些實施例中,一旦場景形式被指定,場景序列就會被編碼。在一些實施例中,這種編碼通過根據一組軟件或硬件指令運行參數化編碼過程來執行。在此,一些例子中,一組高度優化的參數可能根據場景形式被用於控制編碼細節。多個參數可能被存儲在場景形式資料庫或其他數據結構或者機器學習系統中。在一個例子中,存儲在存儲器中可由編碼器進行訪問的資料庫可能具有如表1中所列舉的結構。用於編碼但並未特定設置於場景形式資料庫中的參數,可能使用在編碼過程開始時決定的預設值參數值。在一些例子中,預設值參數可能基於用於編碼輸入視訊串流的編碼標準所推薦的值而被決定。
圖3說明了決定輸入視訊串流中的場景邊界的方法或程序300的步驟。步驟310中,程序缩放來自於當前幀(i)和前一幀(i-1)的高頻率元素用於需要被確定的場景邊界。在至少一些實施例中,步驟320,程序從當前幀(i)和前一幀(i-1)移動高頻率元素。在一實施例中,轉換編碼器將圖像幀中的像素數據轉為頻率係數。在頻域中,低 頻數據具有比高頻數據更大的人類感知重要度。步驟310和320允許分析基於感知重要度的幀中的低頻元素。
步驟330中,當前幀(i)的亮度被計算。亮度值也被稱為光度,代表了圖像的亮度(“黑與白”或圖像的無色部分)。
步驟340中,基於當前幀(i)和前一幀(i-1)的預測的亮度值被計算。預測值是基於前一幀(i-1)的子空間上的當前幀(i)。子空間是由前一幀(i-1)的奇異值分解得到的。
步驟350中,基於步驟330和340中獲得的亮度值之間的差值而計算出餘值。步驟360中,程序使用例如遞歸或者自適應濾波器濾除任何餘值並且將餘值映射在0-1的分數範圍上。自適應濾波器幫助重複地濾除餘值中的任何非自然產物。步驟370中,當正歸化分數大於第一閾值時,程序用信號通知場景改變並對輸入視訊串流中的場景邊界進行標記。在一實施例中,此類第一閾值的示例值是0.65。 步驟380中,在一些例子中,對輸入視訊串流中的每一幀重複步驟310至步驟370以將輸入視訊串流分成有序的場景序列。
圖4闡述了確定給定的場景序列的場景形式的程序400的步驟。步驟410中,程序決定輸入視訊串流時間軸中的場景位置。基於該場景位置,在例如1-5的範圍上指定分數。在一示例中,1分表示場景在輸入視訊串流的開始,以及5分意味着場景在輸入視訊串流的末端。
步驟420中,程序決定場景序列的播放時間長度並指定相稱的分數(例如,1-5的範圍上)。在一示例子,1分可能表示小於10秒的場景長度以及5分可能表示大於50秒的場景長度。
步驟430中,程序執行場景序列中的運動判斷並指定相稱的分數(例如,1-5的範圍上)。例如,1分可能表示很少或沒有運動向量的場景,5分可能表示整個場景有很大的運動向量。運動判斷(Motion Estimation,ME)是通常用於在壓縮期間探測輸入視訊串流中的冗餘時間。冗餘時間產生於相鄰幀經常共享相似的像素區域的事實。因此,運動判斷的目標是判斷穿過相鄰幀的類似區域的轉移(巨集塊),如此使得它們被差分編碼。在基於塊的運動判斷中,類似區域的位移由運動向量表示,其由塊匹配算法(Block-Matching Algorithms)進行計算。
步驟440中,程序計算給定場景序列和前一場景序列之間的有效差值。基於有效差值,程序指定相稱的分數(例如,在1-5的範圍上)。在一示例中,1分可能表示場景間很小的差異而5分可能表示大於xyz域的差異。在示例中,有效差值可能使用上述關於步驟310至370中相同的評分原則進行計算。
步驟450中,程序決定場景序列的光譜數據大小。基於光谱数据大小,在例如1-5的範圍上指定分數。在一個例子中,1分可能表示具有低光譜數據的場景以及5分可能表示具有高光譜數據的場景。在一個實施例中,轉換編碼技術將視訊數據轉為頻率(或光譜)域,圖像幀的頻域範圍代表光譜數據大小。轉換編碼器將一個圖像幀 中的像素數據轉換為頻率系數。在頻域中,低頻數據具有比高頻數據更大的人類感知重要度。
步驟460中,程序可選地(或在某些情況下強制地)使用例如面部識別軟體執行對場景序列中面部結構的搜索。基於搜索結果,指定例如1-5範圍上的分數。此處,在一示例中,1分可能表示沒有被識別的面部結構而5分可能指示場景具有多個面部結構。
在步驟470中,程序執行場景序列中光學特徵識別(optical character recognition,OCR)以識別場景序列中的任何文件資訊。OCR幫助區分在一個圖像文件中的圖案和本文內容。OCR使用模式識別、人工智能和計算機視覺進行區分。基於OCR分析,程序指定相稱的分數(例如,在1-5分的範圍上)。在一個例子中,1分可能表示場景序列中沒有任何文字內容而5分可能表示場景序列中至少有30%的文件內容,即,電影的演職員名單。
步驟480中,程序決定與場景相聯繫的電影劇本結構資訊。在至少一些實施例中,劇本結構資訊是一相對注意參數。相對注意參數近似地估計為給定場景預計的觀眾關注之相對量。在一些實施例中,相對注意參數近似地估計預計的給定的視頻片段的觀眾關注相對量,給定場景序列是給定視頻片段的一部分。基於分析,程序指定相稱的分數(例如,在1-5分的範圍上)。在一示例中,1分可能表示觀眾興趣較低的場景序列內容而5分可能表示觀眾興趣較高的場景序列。
步驟490中,程序基於從步驟410至步驟480的分數決定場景序列的場景形式。在一個實施例中,場景形式的確定可基於瀑布程序(waterfall process)使用從步驟410至步驟480的分數。瀑布程序是一個線性的、開始到結束、連續的決策程序,程序在沿着其路徑至最終決定中,通常不會重複任何它已到達的中間結論。
在一示例中,包括電影結尾的演職員名單的場景通常有文字上下移動。這樣的場景序列通常具有小但連續的運動向量,記分為2以及更低,向上或向下取決於文字方向。此外,場景序列一般包括電影演職員名單形式的文件,構成多於例如30%的場景內容。光學特徵識別程序一般將場景記為4分或以上。鑒於電影演職員名单一般是電影的一部分並且構成結尾電影時間軸的材料部分,瀑布程序在檢測其他場景形式之前,首先檢測場景是否是“滾動演職員名單”形式。 在示例子,2分強烈建議了包括的場景形式是“滾動演職員名單”形式,因此,一旦場景被標記如此,場景的場景形式測定可被結束。如果確定場景形式不是“滾動演職員名單”形式,瀑布程序檢測場景序列可觀察其是否是除了“滾動演職員名單”形式以外的場景形式之一。同樣,一旦瀑布程序作出了給定的場景不是特定形式的決定,程序通常不再針對特定的場景形式再判斷該場景。
在另一示例中,捕捉紅杉樹的場景通常包括樹木的綠色葉子和周圍的環境。樹葉通常會構成場景內容的主要部分。這樣的場景具有很少或隨機的運動向量,因為樹木本身保持靜止而它們的枝幹和葉子也只有輕微的運動。運動判斷分數將接近0。此外,場景中的 任何文件識別一般是場景的簡要說明,產生很低的文件內容分數。然而,光譜分析將產生較高分數,因為場景中樹葉的綠色將被光譜數據的高頻域中被捕獲。如前所述,低頻光譜數據具有比高頻數據更大的人類感知重要度,使得高光譜數據的幀在較低品質編碼。基於分數,瀑布程序將決定場景序列是“靜止場景”,要求在第一幀的高編碼品質,第一幀伴隨着低品質剩餘編碼和低分塊濾波。
上述說明闡述了決定場景邊界及場景形式的程序。出於決定場景形式的目的,在至少一些例子中,為了確定在場景序列中由運動向量代表的運動幅度而決定和分析場景中的運動判斷是很有用的。圖5現在闡述了場景序列中運動判斷的程序示例,正如在此被進一步詳細地解釋。運動判斷通常是用於探測在壓縮期間的視訊序列中的時間冗餘度。時間冗餘度產生於相鄰幀非常頻繁地共享相似像素域的事實。因此運動判斷的目標是判斷這樣相似的穿越相鄰幀的域(巨集塊)的轉移。在基於塊的運動判斷中,相似域的位移由運動向量表示,其由塊匹配算法進行計算。
在一個實施例中,塊匹配算法(BMA)搜索在圖像幀中相似的塊並生成運動向量。BMA使用快速搜索方法,當相似塊被搜索時,只查看搜索窗口的特定點。在另一個辦法中,被稱為多分辨率運動判斷,分層地執行運動判斷,計算特定幀域的運動向量並將它們細化至每一層。運動判斷域一個幀中的不同的分辨率合作,連續地細化被創造的運動向量。其他方式可調查發現BMAs中的對應類似處(parallelism),為了同時執行運動判斷階段。
圖5闡述運動判斷的方法示例。這裡,在一個實施例中,在序列幀中被發現(例如,不同位置上的幀)的一個幀的巨集塊的圖像,通過使用運動向量被傳達。圖5.1和圖5.2分別表示參考幀和所需的幀。幀被分成巨集塊,例如,尺寸範圍從4x4到16x16。實施例中,參考幀中的每一巨集塊與所需幀中的每一巨集塊進行比較以檢測任何巨集塊之間的匹配。圖5.3和圖5.4闡述參考幀和所需幀分成它們各自的巨集塊,彼此進行比較。圖5.5表示來自參考幀的巨集塊與所需幀中的巨集塊匹配,雖然巨集塊不是在其各自幀中的相同的柵格位置。圖5.6表示由編碼器產生的運動向量傳達所需幀中關於參考幀中巨集塊位置的巨集塊位置。運動判斷因此幫助決定場景序列中的運動向量,使得場景形式的確定受場景序列中運動向量幅度的影響。
上述說明闡述了基於運動判斷決定場景形式的程序。 出於決定場景形式的目的,除了運動判斷外,在至少一些例子中,確定和分析與場景相聯繫的剧本結構資訊是很有用的。劇本結構資訊利用電影故事線的一般組織以決定合適的場景形式,允許為給定場景適當編碼。
電影通常基於劇本。劇本被組織以便抓住觀眾的注意力。電影劇本的第一部分稱為“短播和切換(bite and switch)”片段,通常是當大多數人決定是否觀看整個影片的時候。因此,此處的圖像品質可預計的非常高以便於不破壞觀眾的觀賞體驗。電影劇本的下一部分被稱為“角色發展”片段,一般得到很低的觀眾注意並可能因此是低於之前片段的圖像品質。電影接下來的片段構成電影的情 節,觀眾比之前的片段具有更高的注意。圖像品質高於之前的品質。電影的下一個片段是“高潮”,是電影最重要的部分並且圖像品質需要很高。最後的片段是電影的“演職員名單”,得到很低的觀眾注意。該片段可以使用不會影像觀眾觀賞體驗的較低品質圖像。
在一個實施例中,基於電影時間軸的劇本結構資訊用於決定場景形式。例如,當給定的場景序列是電影的開始部分時,場景序列可被列為“短播和切換”場景,得到高的觀眾注意。場景序列可以在範圍上被記為5分,表示觀眾興趣高。作為進一步的例子,當給定的場景序列是進入到電影的30分鐘時,可以假定電影片段包括角色發展。角色發展片段得到較低的觀眾注意。因此,任何是角色發展的一部分的場景序列可能在範圍上被記為2分或更少的分數。因此,時間軸資訊幫助決定場景形式。
在一個實施例中,劇本結構資訊被用於決定可能是相對注意參數的場景形式,相對注意參數近似估計觀眾興趣對於預計輸入視訊串流的給定片段。相對注意參數可以由觀眾預先設定或基於來自電影導演的輸入。該資訊可以作為輸入視訊串流元數據的一部分被包括在輸入視訊串流中。通過分析元數據,可以確定相對注意參數。 預先設定的相對注意參數可被定義為輸入視訊串流中的每一個給定的場景序列或包括複數個場景序列的輸入視訊串流中的給定片段。當相對注意參數表示高觀眾注意時,分數可能被設置為4分或更高。當相對注意參數表示低觀眾注意時,分數可能被設置為2分或更低。相對注意參數可能因此被用於決定場景形式。
在一個實施例中,劇本結構資訊被用於決定場景形式,場景形式可能是基於場景序列中的文件內容或者是基於與場景序列相聯繫的結束字幕。兩種情況下,文件資訊被用於決定電影場景的劇本序列。劇本序列稍後可以被用於決定觀眾對給定場景的注意。1分場景興趣低以及5分場景興趣高。文件內容資訊可能因此被用於決定場景形式。
在另一個實施例中,用於決定場景形式的劇本結構資訊可以基於與場景序列相聯繫的音頻內容。音頻內容可能是,例如,音頻內容的音量(振幅),人類語言,沉默,語言識別,語言差異,配樂,音效,環繞聲等。在一個例子中,音頻內容的音量可以用來確定劇本片段,場景序列是劇本片段的一部分。在電影中的動作片段一般有與其相關的響亮聲音內容。要得到觀眾的充分注意,需要響亮的音頻內容。此外,動作場面通常涉及的特殊效果,如爆炸,產生響亮的音頻內容。另一方面,與角色發展相關的電影片段,通常涉及在人類聲音振幅的正常範圍內的對話和小的特殊效果,如爆炸。在電影的角色發展階段,觀眾的注意程度通常很低。因此可以利用音頻內容的音量確定觀眾對於一個給定的場景的註意,1分為低音量場景以及5分高音量場景。因此可以根基於觀眾的註意力利用音頻內容的振幅(音量)確定場景形式。
在另一個例子中,場景序列相關的聲音效果可以用來確定劇本片段,場景序列是劇本片段的一部分。一般都是用特殊的聲音效果,如音頻內容的增加節奏,表明在電影中的有趣轉折的構建、 一個令人振奮的動作序列,等等,以得到高觀眾注意。另一方面,小的聲音效果與涉及談話的電影片段相聯繫。片段普遍缺乏聲音效果就像談話通常缺乏戲劇性的情緒轉變一樣,可以進一步強調聲音效果。 因此可以利用音頻內容的特殊效果確定觀眾對於一個給定的場景的注意,1分為低音效的場景而5分為豐富的音效場景。因此可以基於觀眾注意而利用音頻內容的聲音效果以確定場景形式。
圖6是用於實現上述任何技術的處理系統(例如編碼器)的區塊圖。注意在某些實施例中,至少一些圖6中所闡述的組件可能被分佈於兩個或更多物理上獨立的但是相連接的計算平臺或區塊間。處理可以代表傳統的服務器級的電腦、PC、移動通信設備(例如智慧型手機)、或者任何其它已知或傳統的處理/通信設備。
圖6中所示的處理系統601包括一個或多個處理器610,即中央處理單元(CPU)、記憶體620、至少一個通信設備620例如以太網適配器和/或無線通信子系統(例如蜂窩網絡、WiFi、藍牙或類似的設備),和一個或多個I/O設備670、680,所有的都通過互聯裝置690與彼此耦合。
處理器610控制計算機系統601的操作並可能是或包括一個或多個可編程的通用或專用的微處理器、微控制器、特定應用集成電路(ASICs)、可編程邏輯器件(PLDs),或這些設備的組合。 互聯裝置690可以包括一個或多個匯流排、直接連接和/或其它類型的物理連接,並可能包括本領域內所熟知的各種橋、控制器和/或適配器。進一步互聯裝置690可能包括“匯流排系統”,其可能是通過一 個或多個適配器連接到一個或多個擴展匯流排,如外圍組件互聯裝置(PCI)匯流排,HyperTransport標準或行業標準架構(ISA)匯流排、小型計算機系統接口(SCSI)匯流排、通用串行匯流排(USB)、或者電氣和電子工程師協會(IEEE)標準1394匯流排(有時也被稱為“火線”)。
記憶體620可能包括一或多種類型中的一個或多個記憶體設備,如唯讀記憶體(ROM)、隨機存取記憶體(RAM)、快閃記憶體、硬碟驅動器等等。適配器640是適合使處理系統601與遠程材料系統經由通信連接交流數據的設備,並可以是,例如,傳統的電話調製解調器、無線調製解調器、數字用戶線(DSL)調製解調器、電纜調製解調器、無線電收發器、衛星收發器、以太網適配器,或諸如此類的。I/O設備670、680可能包括,例如,一個或多個設備如:如滑鼠、軌跡球、搖杆、觸摸板,或類似的指點設備,鍵盤、具有語音識別接口的麥克風、音頻揚聲器、顯示設備等等。然而,注意這樣的I/O設備可能是系統中不必要的,完全作為服務器操作並沒有提供直接的用戶界面,在至少一些實施例中的服務器的情況。基於所述的一組組件的其它變化可以與符合本發明的方式實現。
軟體和/或韌體編程器630對處理器610進行編程以執行上述活動,可以存儲在記憶體620中。在某些實施例中,這樣的軟體和韌體可以通過經由計算機系統601從遠端系統的下載初步提供計算機系統601(例如,經由網路適配器640)。
說明介紹的技術可以由,例如,與特定的軟體和/或韌體編程的可編程電路(例如一個或多個微處理器),或完全專用的硬線電路,或者這樣形式的組合來實現。專用硬線電路可能的形式,例如,一個或多個特定應用集成電路(ASCI)、可編程邏輯器件(PLDs)、現場可編程門陣列(FPGAs),等等。
在此介紹的用於實現技術的軟體或韌體可以存儲在機器可讀的存儲介質上,並可以由一個或多個通用或專用的可編程微處理器執行。“機器可讀介質”,作為在此使用的術語,包括任何能以機器(機器可能是,例如,電腦、網絡設備、行動電話、個人數字助理(PDA)、生產工具、任何具有一個或多個處理器的設備,等等)可訪問的形式存儲資訊的機器。例如,機器可存取存儲媒體包括可錄製/非可錄製媒體(例如,唯讀記憶體(ROM)、隨機存取記憶體(RAM)、磁碟存儲媒體、光存儲媒體、快閃記憶體裝置等)等等。
在此使用的“邏輯”術語,可以包括,例如,與特定的軟體和/或韌體編程的可編程電路、專用硬線電路、或及其組合。
本發明前述各個實施例被提供用於說明和描述的目的。其並不意圖詳盡地或者限制本發明為所公開的精確形式。很多修改和變化對於本領域技術人員將是清楚易見的。被選擇和被描述的實施例是為了最好地描述發明的原則和它的實際應用,因此使相關領域的其他技術人員理解本發明,各種實施例之各種修改以適合特定的使用考量。
在此提供的本發明的啟示可以被用於其它系統,並不限於上述系統中。上述實施例的元素和行為可以被結合提供進一步的實施例。
雖然上述說明描述的本發明的某些實施例並介紹了所考慮的最佳模式,不論在上文中出現的有多細節,本發明可以以多種方式被實現。系統的細節在它的實施細節中可能有很大的不同,而仍被包含在此所述的發明中。如上所述,用於描述某些特徵或發明方面的特定術語不應採取暗示術語在此正在被重新定義為限制與任何具體的術語相關的特點、特徵,或發明的方面。一般情況下,在下面申請專利範圍中使用的術語不應被解釋為限制本發明在說明書中公開的具體實施例,觸發上述實施方式部分中明確定義了這樣的術語。因此,發明的實際範圍包括不僅被披露的實施例,也包括所有的實施或執行申請專利範圍中發明的同等的方式。
100‧‧‧編碼器
102‧‧‧輸入模組
104‧‧‧視訊處理模組
106‧‧‧視訊編碼模組
110‧‧‧輸入視訊串流
120‧‧‧視訊串流

Claims (32)

  1. 一種利用場景形式編碼視訊串流的方法,每一個場景形式有一或多個複數個編碼器參數之一預定義集,該編碼器參數被一視訊編碼器用於對任何給定場景形式進行編碼,該方法包括:接收一輸入視訊串流;基於場景邊界資訊,將該輸入視訊串流分成多個場景,每一場景包括複數個暫時相鄰之圖像幀,其中一給定的場景邊界係根據輸入該視訊串流中的兩個暫時相鄰圖像幀間的關係而被確定,其中確定輸入視訊串流中的兩個暫時相鄰圖像幀的關係之步驟包括:縮放每個圖像幀的一或多個高頻元素;消除每個圖像幀的一或多個高頻元素;分析圖像幀以確定暫時相鄰的圖像幀之間的一差值,其中一分數基於該差值被計算;以及當該分數超出一預設限制時,確定圖像幀之間的無關程度,其中該預設限制分數是在一場景發生變化處之一閾值;確定每一場景的場景形式;以及根據該場景形式對每一場景進行編碼。
  2. 如申請專利範圍第1項所述的方法,其中每一場景形式係基於一或多個標準而被確定,該一或多個標準包括:位於該輸入視訊串流的時間軸上的一給定場景位置;該給定場景的一長度;該給定場景中的一運動判斷; 從一先前場景之於該給定場景中的一有效差值;該給定場景的一光譜數據大小;該給定場景的一光學特徵識別;或該給定場景的一劇本結構資訊。
  3. 如申請專利範圍第1項所述的方法,其中該場景形式之決定進一步包括利用面部識別。
  4. 如申請專利範圍第2項所述的方法,其中該劇本結構資訊包括一相對注意參數,其中該相對注意參數近似估計一觀眾注意之相對量之一預定估計,該預定估計可預期地被用於包括給定場景之該輸入視訊串流之一視訊片段。
  5. 如申請專利範圍第2項所述的方法,其中劇本結構資訊進一步包括一或多項:一時間範圍定義;來自該給定場景之一文件資訊;與該給定場景相關的一音頻內容;與該給定場景相關的一結束字幕資訊;或與該給定的場景相關的一元數據。
  6. 如申請專利範圍第1項所述的方法,其中一給定場景形式包括一或多項:一快進;一靜止;一頭部特寫; 一文件;一大多是黑色的圖像;一短場景;一滾動演職員名單;一標題場景;一雜項;或一預設值。
  7. 如申請專利範圍第1項所述的方法,進一步包括:確定一第一圖像幀在當該第一圖像幀在該輸入視訊串流之時間軸上具有至少一相鄰於一第二圖像幀的位置時,該第一圖像幀是與該第二圖像幀暫時相鄰的。
  8. 如申請專利範圍第1項所述的方法,其中該差值是由一遞歸濾波器或一自適應濾波器所追蹤。
  9. 如申請專利範圍第1項所述的方法,其中該預定編碼器參數包括一或多個:一運動判斷範圍搜索;一分塊數量因素;一量化器;或一參照幀號。
  10. 一種利用場景形式編碼視訊串流的方法,每個場景形式有一或多個複數個編碼器參數之一預定義集,該編碼器參數被一 視訊編碼器用於對任何給定場景形式進行編碼,該方法包括:接收一輸入視訊串流;接收場景邊界資訊,該場景邊界資訊指示該輸入視訊串流中場景轉換發生的位置,其中一場景轉換基於輸入視訊串流中兩個暫時相鄰圖像幀的關係而被確定;基於場景邊界資訊將輸入視訊串流分成多個場景,每一場景包括多個暫時相鄰圖像幀;確定每一場景的場景形式;以及根據該場景形式對每一場景進行編碼。
  11. 如申請專利範圍第10項所述的方法,其中每一場景形式係基於一或多個標準而被確定,該一或多個標準包括:位於該輸入視訊串流的時間軸上的一給定場景位置;該給定場景的一長度;該給定場景中的一運動判斷;從一先前場景之於該給定場景中的一有效差值;該給定場景的光譜數據大小;該給定場景的光學特徵識別;或該給定場景的劇本結構資訊。
  12. 如申請專利範圍第11項所述的方法,其中劇本結構資訊包括相對注意參數,其中相對注意參數接近預先確定的觀眾注意預計輸入視訊串流片段的相對量,輸入視訊串流包括給定場景。
  13. 如申請專利範圍第11項所述的方法,其中劇本結構資訊進一步包括一或多項:一時間範圍定義;來自該給定場景之一文件資訊;與該給定場景相關的一音頻內容;與該給定場景相關的一結束字幕資訊;或與該給定的場景相關的一元數據。
  14. 如申請專利範圍第11項所述的方法,其中該場景形式之決定進一步包括利用面部識別。
  15. 如申請專利範圍第10項所述的方法,其中一給定場景形式包括一或多項:一快進;一靜止;一頭部特寫;一文件;一滾動演職員名單;一標題場景;一大多是黑色的圖像;或一短場景。
  16. 如申請專利範圍第10項所述的方法,其中一第一圖像幀在當該第一圖像幀在該輸入視訊串流之時間軸上具有至少一相 鄰於該第二圖像幀的位置時,該第一圖像幀是與該第二圖像幀暫時相鄰的。
  17. 如申請專利範圍第10項所述的方法,其中該預定編碼器參數包括一或多個:一運動判斷範圍搜索;一分塊數量因素;一量化器;或一參照幀號。
  18. 一種使用場景形式編碼視訊串流的視訊編碼設備,每一場景形式有一或多個複數個編碼器參數之一預定義集,該編碼器參數被一視訊編碼器用於對任何給定場景形式進行編碼,該設備包括:一輸入模組,用於接收一輸入視訊串流;一視訊處理模組,基於場景邊界將該視訊串流分成多個場景,每一場景包括複數個暫時相鄰之圖像幀;其中該視訊處理模組根據輸入視訊串流中兩個暫時相鄰圖像幀的關係而確定一給定的場景邊界,其中該視訊處理模組確定輸入視訊串流中的兩個暫時相鄰圖像幀的關係包括:縮放每個圖像幀的一或多個高頻元素;消除每個圖像幀的一或多個高頻元素;分析圖像幀以確定暫時相鄰的圖像幀之間的差值,其中一分數基於該差值被計算;以及 當該分數超出一預設限制時,確定圖像幀之間的無關程度,其中該預設限制分數是在一場景發生變化處之一閾值;該視訊處理模組,確定每一場景的一場景形式;以及一視訊編碼模組,根據該場景形式對每一個場景進行編碼。
  19. 如申請專利範圍第18項所述的設備,其中該視訊處理模組基於一或多個標準確定每一場景形式,該一或多個標準包括:位於該輸入視訊串流的時間軸上的一給定場景的位置;該給定場景的長度;該給定場景中的運動判斷;從一先前場景之於該給定場景中的一有效差值;該給定場景的光譜數據大小;該給定場景的光學特徵識別;或該給定場景的劇本結構資訊。
  20. 如申請專利範圍第19項所述的設備,其中該視訊編碼設備使用的該劇本結構資訊包括一相對注意參數,其中該相對注意參數近似估計一觀眾注意之相對量之一預定估計,該預定估計可預期地被用於包括給定場景之該輸入視訊串流之一區段。
  21. 如申請專利範圍第19項所述的設備,其中該視訊編碼設備使用的劇本結構資訊進一步包括一或多項:一時間範圍定義;來自該給定場景之一文件資訊;與該給定場景相關的一音頻內容; 與該給定場景相關的一結束字幕資訊;或與該給定的場景相關的一元數據。
  22. 如申請專利範圍第19項所述的設備,其中該視訊處理模組使用面部識別以決定場景形式。
  23. 申請專利範圍第18項所述的設備,其中由該視訊處理模組分配的一給定場景形式包括一或多個:一快進;一靜止;一頭部特寫;一文件;一大多是黑色的圖像;一短場景;一滾動演職員名單;一標題場景;一雜項;或一預設值。
  24. 如申請專利範圍第18項所述的設備,其中該視訊處理模組進一步包括:確定一第一圖像幀在當該第一圖像幀在該輸入視訊串流的時間軸上具有至少一相鄰於該第二圖像幀的位置時,該第一圖像幀是與該第二圖像幀暫時相鄰的。
  25. 如申請專利範圍第18項所述的設備,其中視訊處理模組使用一或多個遞歸濾波器或一自適應濾波器以追蹤該差值。
  26. 如申請專利範圍第18項所述的設備,其中由視訊編碼模組使用的該預定編碼器參數包括一或多個:一運動判斷範圍搜索;一分塊數量因素;一量化器;或一參照幀號。
  27. 一種使用場景形式編碼視訊串流的視訊編碼設備,每一場景形式具有一或多個複數個編碼器參數之一預定義集,該編碼器參數被一視訊編碼器用於對任何給定場景形式進行編碼,該設備包括:一接收元件,用於接收一輸入視訊串流;一切分元件,基於場景邊界將輸入視訊串流分成多個場景,每一場景包括複數個暫時相鄰圖像幀;其中該切分元件根據輸入視訊串流中兩個暫時相鄰圖像幀的關係而確定一給定場景邊界;一決定元件,用於透過執行一連續決策瀑布程序(waterfall process)所產生於一預定範圍內之一估計,藉以確定每一場景的場景形式,其中執行該連續決策瀑布程序,包含:決定該輸入視訊串流的一時間軸中的一給定場景之一位置,以基於根據該位置之一預定範圍而指定一分數; 決定該給定場景之一播放時間長度,以基於根據該播放時間長度之一預定範圍而指定一分數;決定該給定場景與前一場景之間的一差值,以基於根據該差值之一預定範圍而指定一分數;決定該給定場景之一光譜數據大小,以基於根據該光譜數據大小之一預定範圍而指定一分數;藉由利用面部識別確定面部結構,以基於根據複數個面部結構之一預定範圍而指定一分數;藉由使用光學特徵識別確定文件資訊,以基於根據該文件資訊的內容之一預定範圍而指定一分數;及自該給定場景的劇本結構資訊決定一高觀眾注意程度,以基於根據該高觀眾注意程度之一預定範圍而指定一分數;以及一編碼元件,基於該給定場景之先前確定的編碼器參數對每一場景進行編碼,以前確定的編碼器參數根據與每一場景相關的該場景形式而被確定。
  28. 一種利用場景形式編碼視訊串流的方法,每一個場景形式有一或多個複數個編碼器參數之一預定義集,該編碼器參數被一視訊編碼器用於對任何給定場景形式進行編碼,該方法包括:接收一輸入視訊串流;基於場景邊界資訊,將該輸入視訊串流分成多個場景,每一場景包括複數個暫時相鄰圖像幀,其中一給定的場景邊界係根據輸入 該視訊串流的劇本結構資訊被確定;透過執行一連續決策瀑布程序(waterfall process)所產生於一預定範圍內之一估計,藉以確定每一場景的場景形式;以及根據該場景形式對每一場景進行編碼。
  29. 如申請專利範圍第28項所述的方法,進一步包括:確定一第一圖像幀在當該第一圖像幀在該輸入視訊串流之時間軸上具有至少一相鄰於一第二圖像幀的位置時,該第一圖像幀是與該第二圖像幀暫時相鄰的。
  30. 如申請專利範圍第28項所述的方法,其中該劇本結構資訊包括一相對注意參數,其中該相對注意參數接近似估計一觀眾注意之相對量之一預定估計,該預定估計可預期地被用於該輸入視訊串流之複數個區段,其中每一視訊片段可以包括複數個場景。
  31. 如申請專利範圍第28項所述的方法,其中劇本結構資訊進一步包括一或多項:一時間範圍定義;來自該給定場景之一文件資訊;與該給定場景相關的一音頻內容;與該給定場景相關的一結束字幕資訊;或與該給定的場景相關的一元數據。
  32. 如申請專利範圍第28項所述的方法,其中一給定場景形式包括一或多項:一動作場景; 一慢動作場景;一標題場景;一開頭場景;一演職員名單場景;一頭部特寫場景;或一對話場景。
TW101102946A 2011-01-28 2012-01-30 場景形式之視訊串流編碼 TWI578757B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201161437211P 2011-01-28 2011-01-28
US201161437193P 2011-01-28 2011-01-28

Publications (2)

Publication Number Publication Date
TW201249210A TW201249210A (en) 2012-12-01
TWI578757B true TWI578757B (zh) 2017-04-11

Family

ID=46581400

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101102946A TWI578757B (zh) 2011-01-28 2012-01-30 場景形式之視訊串流編碼

Country Status (12)

Country Link
US (1) US9554142B2 (zh)
EP (1) EP2668785A4 (zh)
JP (2) JP2014511138A (zh)
KR (1) KR20140019335A (zh)
CN (1) CN103503454A (zh)
AU (1) AU2012211249B2 (zh)
BR (1) BR112013020071A2 (zh)
CA (1) CA2825937A1 (zh)
IL (1) IL227674A (zh)
MX (1) MX2013008755A (zh)
TW (1) TWI578757B (zh)
WO (1) WO2012103332A2 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150169960A1 (en) * 2012-04-18 2015-06-18 Vixs Systems, Inc. Video processing system with color-based recognition and methods for use therewith
US20130279573A1 (en) * 2012-04-18 2013-10-24 Vixs Systems, Inc. Video processing system with human action detection and methods for use therewith
US9805267B2 (en) * 2012-04-18 2017-10-31 Vixs Systems, Inc. Video processing system with photo generation and methods for use therewith
US9552124B2 (en) * 2012-04-27 2017-01-24 Mobitv, Inc. Character based search and discovery of media content
US8490006B1 (en) * 2012-09-04 2013-07-16 State Farm Mutual Automobile Insurance Company Scene creation for building automation systems
US9306989B1 (en) 2012-10-16 2016-04-05 Google Inc. Linking social media and broadcast media
US9699463B2 (en) 2012-12-26 2017-07-04 Intel Corporation Constant quality video encoding
CN103617797A (zh) 2013-12-09 2014-03-05 腾讯科技(深圳)有限公司 一种语音处理方法,及装置
US10834470B2 (en) * 2014-01-17 2020-11-10 Telefonaktiebolaget Lm Ericsson (Publ) Processing media content with scene changes
US9716888B2 (en) * 2014-03-26 2017-07-25 Vixs Systems, Inc. Video processing with static and dynamic regions and method for use therewith
US9723374B2 (en) * 2014-04-23 2017-08-01 Google Inc. Programmatically determining when credits appear during a video in order to provide supplemental information
US20160044340A1 (en) * 2014-08-07 2016-02-11 PathPartner Technology Consulting Pvt. Ltd. Method and System for Real-Time Video Encoding Using Pre-Analysis Based Preliminary Mode Decision
KR101897959B1 (ko) 2015-02-27 2018-09-12 쏘닉 아이피, 아이엔씨. 라이브 비디오 인코딩 및 스트리밍에서의 프레임 복제 및 프레임 확장을 위한 시스템 및 방법
WO2016163603A1 (ko) * 2015-04-05 2016-10-13 엘지전자 주식회사 Xml 자막에 기반한 방송 서비스를 위한 방송 신호 송수신 방법 및 장치
US9955191B2 (en) 2015-07-01 2018-04-24 At&T Intellectual Property I, L.P. Method and apparatus for managing bandwidth in providing communication services
US10602153B2 (en) * 2015-09-11 2020-03-24 Facebook, Inc. Ultra-high video compression
KR102618049B1 (ko) 2016-02-02 2023-12-27 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 비디오 스트리밍의 관심 장면 섹션 및 영역 처리
JP6649212B2 (ja) * 2016-09-06 2020-02-19 株式会社東芝 符号化装置、復号装置、および画像処理システム
CN110149517B (zh) * 2018-05-14 2022-08-23 腾讯科技(深圳)有限公司 视频处理的方法、装置、电子设备及计算机存储介质
KR20190134272A (ko) 2018-05-25 2019-12-04 삼성전자주식회사 영상 처리를 위한 네트워크 조정 방법 및 장치
US10638168B2 (en) 2018-09-06 2020-04-28 International Business Machines Corporation Detecting minimum viable display resolution of media content using optical character recognition
US10636451B1 (en) * 2018-11-09 2020-04-28 Tencent America LLC Method and system for video processing and signaling in transitional video scene
KR102153801B1 (ko) * 2018-12-21 2020-09-08 한국과학기술원 비디오 스트리밍 방법 및 장치
JP6900359B2 (ja) 2018-12-28 2021-07-07 株式会社ドワンゴ 画像送受信システム、データ送受信システム、送受信方法、コンピュータ・プログラム、画像送信システム、画像受信装置、送信システム、受信装置
CN110691246B (zh) * 2019-10-31 2022-04-05 北京金山云网络技术有限公司 视频编码方法、装置及电子设备
US11843772B2 (en) 2019-12-06 2023-12-12 Ati Technologies Ulc Video encode pre-analysis bit budgeting based on context and features
US11470327B2 (en) * 2020-03-30 2022-10-11 Alibaba Group Holding Limited Scene aware video content encoding
CN112203095B (zh) * 2020-12-04 2021-03-09 腾讯科技(深圳)有限公司 视频运动估计方法、装置、设备及计算机可读存储介质
CN113556544B (zh) * 2021-06-30 2024-04-19 北京锐马视讯科技有限公司 基于场景自适应的视频编码方法和装置、设备及存储介质
CN114302139A (zh) * 2021-12-10 2022-04-08 阿里巴巴(中国)有限公司 视频编码方法、视频解码方法及装置
CN114401404B (zh) * 2022-03-24 2022-07-26 深圳比特微电子科技有限公司 一种vpu编码策略的实现方法和装置
WO2024029812A1 (ko) * 2022-08-01 2024-02-08 배태면 적응적 인코딩 파라메터 운용 방법 및 이를 지원하는 전자 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026217A (en) * 1996-06-21 2000-02-15 Digital Equipment Corporation Method and apparatus for eliminating the transpose buffer during a decomposed forward or inverse 2-dimensional discrete cosine transform through operand decomposition storage and retrieval
US20010017887A1 (en) * 2000-02-29 2001-08-30 Rieko Furukawa Video encoding apparatus and method
US20020024999A1 (en) * 2000-08-11 2002-02-28 Noboru Yamaguchi Video encoding apparatus and method and recording medium storing programs for executing the method
US20070253699A1 (en) * 2006-04-26 2007-11-01 Jonathan Yen Using camera metadata to classify images into scene type classes
TWI301953B (en) * 2005-03-14 2008-10-11 Qisda Corp Methods and apparatuses for video encoding
TWI305467B (zh) * 2005-01-31 2009-01-11 Univ Nat Chiao Tung

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03256453A (ja) * 1990-03-07 1991-11-15 Ricoh Co Ltd 圧縮データ量制御方式
US5544284A (en) 1992-02-11 1996-08-06 Eastman Kodak Company Sequential product code quantization of digital color image
US5463702A (en) 1992-05-12 1995-10-31 Sony Electronics Inc. Perceptual based color-compression for raster image quantization
JPH05328142A (ja) 1992-05-18 1993-12-10 Hitachi Ltd 画像データ圧縮方法および画像表示装置
US5742796A (en) 1995-03-24 1998-04-21 3Dlabs Inc. Ltd. Graphics system with color space double buffering
US6292589B1 (en) * 1996-06-21 2001-09-18 Compaq Computer Corporation Method for choosing rate control parameters in motion-compensated transform-based picture coding scheme using non-parametric technique
US5995080A (en) * 1996-06-21 1999-11-30 Digital Equipment Corporation Method and apparatus for interleaving and de-interleaving YUV pixel data
JPH11112817A (ja) 1997-10-02 1999-04-23 Toshiba Corp カラーイメージデータ圧縮方法、その圧縮装置および圧縮処理用記憶媒体
JP3497988B2 (ja) 1998-04-15 2004-02-16 株式会社ルネサステクノロジ 図形処理装置及び図形処理方法
US7072521B1 (en) 2000-06-19 2006-07-04 Cadwell Industries, Inc. System and method for the compression and quantitative measurement of movement from synchronous video
US6834080B1 (en) * 2000-09-05 2004-12-21 Kabushiki Kaisha Toshiba Video encoding method and video encoding apparatus
US6909745B1 (en) * 2001-06-05 2005-06-21 At&T Corp. Content adaptive video encoder
JP4036328B2 (ja) * 2002-09-30 2008-01-23 株式会社Kddi研究所 動画像データのシーン分類装置
US7099389B1 (en) 2002-12-10 2006-08-29 Tut Systems, Inc. Rate control with picture-based lookahead window
US7657110B2 (en) 2003-01-21 2010-02-02 Sharp Laboratories Of America, Inc. Image compression using a color visual model
JP4396914B2 (ja) * 2003-02-27 2010-01-13 株式会社Kddi研究所 動画像データの分類装置
JP4565192B2 (ja) 2003-03-31 2010-10-20 オムニビジョン テクノロジーズ, インコーポレイテッド 画像システムにおける収差を生じる影響を最小化するための、システムおよび方法
US7088371B2 (en) 2003-06-27 2006-08-08 Intel Corporation Memory command handler for use in an image signal processor having a data driven architecture
JP4180497B2 (ja) 2003-12-05 2008-11-12 富士通株式会社 コード種類判別方法、およびコード境界検出方法
GB0406512D0 (en) * 2004-03-23 2004-04-28 British Telecomm Method and system for semantically segmenting scenes of a video sequence
JP2005318372A (ja) * 2004-04-30 2005-11-10 Nippon Telegr & Teleph Corp <Ntt> 注目度推定方法、注目度推定装置および注目度推定プログラム
TWI253053B (en) 2004-06-23 2006-04-11 Colorart Technology Inc Method for correcting nonlinear color mixing error and device thereof
DE102004034973A1 (de) 2004-07-16 2006-02-16 Carl Zeiss Jena Gmbh Verfahren zur Erfassung von Bildern einer Probe mit einem Lichtrastermikroskop
TWI246326B (en) 2004-08-16 2005-12-21 Realtek Semiconductor Corp Image processing circuit of digital TV
WO2006090334A2 (en) 2005-02-28 2006-08-31 Nxp B.V. New compression format and apparatus using the new compression format for temporarily storing image data in a frame memory
GB0512869D0 (en) * 2005-06-24 2005-08-03 Ibm Method and system for facial recognition in groups
US20070074251A1 (en) * 2005-09-27 2007-03-29 Oguz Seyfullah H Method and apparatus for using random field models to improve picture and video compression and frame rate up conversion
US8879635B2 (en) * 2005-09-27 2014-11-04 Qualcomm Incorporated Methods and device for data alignment with time domain boundary
US7912123B2 (en) 2006-03-01 2011-03-22 Streaming Networks (Pvt.) Ltd Method and system for providing low cost robust operational control of video encoders
EP1924097A1 (en) * 2006-11-14 2008-05-21 Sony Deutschland Gmbh Motion and scene change detection using color components
CN101663896A (zh) 2007-04-23 2010-03-03 汤姆森许可贸易公司 用于对视频数据进行编码的方法和设备、用于对编码的视频数据和编码的视频信号进行解码的方法和设备
US8743963B2 (en) 2007-08-13 2014-06-03 Ntt Docomo, Inc. Image/video quality enhancement and super-resolution using sparse transformations
JP5032936B2 (ja) * 2007-10-04 2012-09-26 キヤノン株式会社 動画像符号化装置及びその制御方法
US9628811B2 (en) * 2007-12-17 2017-04-18 Qualcomm Incorporated Adaptive group of pictures (AGOP) structure determination
WO2009087641A2 (en) 2008-01-10 2009-07-16 Ramot At Tel-Aviv University Ltd. System and method for real-time super-resolution
JP4539754B2 (ja) 2008-04-11 2010-09-08 ソニー株式会社 情報処理装置及び情報処理方法
US8396114B2 (en) * 2009-01-29 2013-03-12 Microsoft Corporation Multiple bit rate video encoding using variable bit rate and dynamic resolution for adaptive video streaming
US8270473B2 (en) 2009-06-12 2012-09-18 Microsoft Corporation Motion based dynamic resolution multiple bit rate video encoding
JP4746691B2 (ja) 2009-07-02 2011-08-10 株式会社東芝 動画像符号化装置および動画像符号化方法
US8837576B2 (en) * 2009-11-06 2014-09-16 Qualcomm Incorporated Camera parameter-assisted video encoding
US9992456B2 (en) * 2010-02-24 2018-06-05 Thomson Licensing Dtv Method and apparatus for hypothetical reference decoder conformance error detection
EP2577959A1 (en) 2010-05-26 2013-04-10 Qualcomm Incorporated Camera parameter- assisted video frame rate up conversion
MX2013008757A (es) * 2011-01-28 2014-02-28 Eye Io Llc Control de velocidad de bits adaptativa basado en escenas.
AU2012209231B2 (en) 2011-01-28 2016-09-22 Eye IO, LLC Color conversion based on an hvs model

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026217A (en) * 1996-06-21 2000-02-15 Digital Equipment Corporation Method and apparatus for eliminating the transpose buffer during a decomposed forward or inverse 2-dimensional discrete cosine transform through operand decomposition storage and retrieval
US20010017887A1 (en) * 2000-02-29 2001-08-30 Rieko Furukawa Video encoding apparatus and method
US20020024999A1 (en) * 2000-08-11 2002-02-28 Noboru Yamaguchi Video encoding apparatus and method and recording medium storing programs for executing the method
TWI305467B (zh) * 2005-01-31 2009-01-11 Univ Nat Chiao Tung
TWI301953B (en) * 2005-03-14 2008-10-11 Qisda Corp Methods and apparatuses for video encoding
US20070253699A1 (en) * 2006-04-26 2007-11-01 Jonathan Yen Using camera metadata to classify images into scene type classes

Also Published As

Publication number Publication date
US9554142B2 (en) 2017-01-24
JP2014511138A (ja) 2014-05-08
KR20140019335A (ko) 2014-02-14
IL227674A (en) 2017-07-31
CA2825937A1 (en) 2012-08-02
AU2012211249B2 (en) 2016-10-20
BR112013020071A2 (pt) 2016-10-25
WO2012103332A3 (en) 2012-11-01
EP2668785A4 (en) 2015-11-11
AU2012211249A1 (en) 2013-08-22
CN103503454A (zh) 2014-01-08
MX2013008755A (es) 2014-01-31
US20120195370A1 (en) 2012-08-02
IL227674A0 (en) 2013-09-30
JP2017123649A (ja) 2017-07-13
EP2668785A2 (en) 2013-12-04
WO2012103332A2 (en) 2012-08-02
TW201249210A (en) 2012-12-01

Similar Documents

Publication Publication Date Title
TWI578757B (zh) 場景形式之視訊串流編碼
JP2014511138A5 (zh)
TWI586177B (zh) 基於場景之適應性位元率控制
CA2374067C (en) Method and apparatus for generating compact transcoding hints metadata
US7738550B2 (en) Method and apparatus for generating compact transcoding hints metadata
US10165274B2 (en) Encoding of video stream based on scene type
Metkar et al. Motion estimation techniques for digital video coding
US20150312575A1 (en) Advanced video coding method, system, apparatus, and storage medium
US11743475B2 (en) Advanced video coding method, system, apparatus, and storage medium
US8139877B2 (en) Image processing apparatus, image processing method, and computer-readable recording medium including shot generation
US9654775B2 (en) Video encoder with weighted prediction and methods for use therewith
WO2016193949A1 (en) Advanced video coding method, system, apparatus and storage medium
Reddy Fast block matching motion estimation algorithms for video compression
KR101353289B1 (ko) 율-왜곡 비용함수를 이용한 트랜스코딩 방법 및 이를 이용한 트랜스코더

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees