TWI578757B

TWI578757B - 場景形式之視訊串流編碼

Info

Publication number: TWI578757B
Application number: TW101102946A
Authority: TW
Inventors: 羅德佛瓦格斯古耶瑞歐
Original assignee: 艾艾歐有限公司
Priority date: 2011-01-28
Filing date: 2012-01-30
Publication date: 2017-04-11
Also published as: US9554142B2; JP2014511138A; KR20140019335A; IL227674A; CA2825937A1; AU2012211249B2; BR112013020071A2; WO2012103332A3; EP2668785A4; AU2012211249A1; CN103503454A; MX2013008755A; US20120195370A1; IL227674A0; JP2017123649A; EP2668785A2; WO2012103332A2; TW201249210A

Description

場景形式之視訊串流編碼

對相關申請的交互引用此申請要求2011年1月28日遞交的美國臨時申請案61/437,193，以及2011年1月28日遞交的美國臨時申請案61/437,211的優先權。上述申請案的內容以參考方式被清楚地合併於此。

本發明涉及視訊編碼技術，尤其涉及用於視訊編碼的視訊編碼參數的自動選擇。

隨著視訊串流在日常用戶中的持續增長的普及和使用，有幾個固有的局限性需要被克服。例如，為獲得該視訊串流，用戶往往希望在只在有限頻寬的網際網路上觀看視訊。在實施例中，用户可能希望通過行動電話連接或家用無線連接獲得視訊串流。在某些情況下，通常利用預先下載(spooling content)內容的方式來補償頻寬的不足(即，下載內容至本地存儲後再觀看)。這種方法具有一些缺點。首先，用戶不能有真正的“運行時間”體驗，也就是說用户在打算觀看節目時不能夠即時觀看。相反的，在觀看節目之前，用戶不得不體驗內容預先下載的明顯延遲。另一個缺點是存儲的可用性--無論是提供商還是用戶都不得不提供存儲資源以保證預先下載內容可以被存儲，即使是很短的時間內，仍導致了昂貴的存儲資源的不必要使用。

視訊串流(典型地包括圖像部分和聲音部分)可能需要大量的頻寬，特別是高分辨率的視訊串流(例如高清視訊)。音頻典型地需要少得多的頻寬，但是有時仍然需要考慮頻寬的問題。一個視訊串流的方法是大量壓縮視訊串流，以使得快速的視訊傳輸可允許用戶以運行時間(rune-time)或者實質上即時地觀看內容(即，無需經歷大量的預先下載延遲)。典型地，損失壓縮(即，壓縮並不是完全可逆的)提供比無損壓縮更多的壓縮，但是大量的損失壓縮提供了不良的用戶體驗。

為了減少傳輸數字視訊信號的頻寬需求，使用高效的數字視訊編碼，其中數字視訊信號的數據率可能會大幅減少(出於視訊數據壓縮的目的)是眾所周知的。為了保證互操作性，視訊編碼標準在促進數字視訊在很多專業-及消費應用程序中被採用發揮了關鍵作用。最有影響力的標準傳統由國際電信聯盟(ITU-T)或是ISO/IEC(標準化/國際電工委員會的國際組織)的MPEG(運動圖像專家組)15委員會開發。ITU-T標準，公認的優點是通常針對實時通信(例如視訊會議)，而大多數MPEG標準是優化存儲(例如，數位多功能影音光碟(DVD)和廣播(例如數位視訊廣播(VOB)標準))。

目前，大多數標準化的視訊編碼算法是基於混合視訊編碼。混合視訊編碼方法通常結合數個不同的無損和損失(lossless and lossy)壓縮方案以達到所需的壓縮增益。混合視訊編碼也是ITV-T標準的基礎(H.26x標準例如H.261、H.263)和ISO/IEC標準(MPEG-X標準例如MPEG-1、MPEG-2和MPEG-4)。目前最新和最先進的視訊編碼標準是被稱為H.264/MPEG-4先進視訊編碼(AVC)，是聯合視訊小組(JVT)、ITV-T聯合小組和ISO/IEC MPEG組的共同努力的結果。

該H.264標準應用了被稱為既定標準(例如MPEG-2)之基於塊的運動之補償混合轉換編碼的相同原則。因此，H.264的語法可依照標頭的一般階層而被組織，例如圖像塊、片塊和巨集塊標頭，以及數據例如運動向量、塊變換係數和量化規模等。然而，H.264標準分離了視訊編碼層(VCL，其描述了視訊數據的內容)以及網路應用層(NAL，其格式化數據並提供標題資訊)。

此外，H.264標準可以大幅提高編碼參數的選擇。例如，它允許巨集塊16x16的更詳細的劃分和操作，即如運動補償過程可以在大小為4x4尺寸的巨集塊分割上執行。並且，樣本塊的運動補償預測的選擇過程中可能涉及先前解碼存儲圖片的數量，而不是僅僅相鄰的圖片。即使在單一的幀內進行帧內編碼，也有可能使用來自於同樣幀的先前編碼樣本以形成塊的預測。再者，伴隨運動補償所造成預測錯誤可能基於4x4塊尺寸被轉換和量化，而非傳統的8x8的塊尺寸。此外，可使用回路程序分塊濾波器以減少可能使用的塊效應。

該H.264標準可被視為H.262/MPEG -2視訊編碼語法的超級集合，它使用相同的視訊數據的全局結構，同時延長了可能的編碼決策和參數的數量。具有多種編碼決策的後果是可能取得良好的位元率和圖像品質之間的權衡。然而，儘管H.264標準可能顯著降低基於塊編碼的典型產出而被普遍承認，它也可能突出其它產出。事實上，H.264允許各種編碼參數可能值的增加數量，因此導致改進編碼程序的潛力增加，但是也導致了選擇視訊編碼參數的敏感性的增加。

與其它標準相似，H.264不指定選擇視訊編碼參數的規範程序，但是通過參考實施例描述，各種標準可被用於選擇視訊編碼參數以達到編碼效率、視訊品質和實用性之間的適當平衡。然而，所述標準可能不會總是導致最佳或合適的適於所有類型內容和應用程序的編碼參數的選擇。例如，對於視訊信號的特徵而言，該標準可能不會導致視訊編碼參數的最優或可取選擇是，或者基於獲取編碼的信號特徵的標準可能對於當前的應用程序並不適合。

因此，視訊編碼的改進系統將是有利的。

前述相關領域示例和相關的特徵之目的係說明性質，而非排他性質。相關領域的其他特徵將基於說明書的解讀和附圖的研究而清楚可見。

本發明考慮了用於編碼視訊串流的各種方法、系統和編碼器。在此介紹的是用於編碼視訊串流的編碼器。編碼器接收輸入視訊串流，並輸出被編碼的視訊串流，被编码的視訊串流可以在解碼器被解碼恢復為，至少近似地，輸入視訊串流。本發明的實施例中，編碼器通過第一識別場景邊界和場景邊界(即，“場景序列”包括一個或多個幀)間的編碼的幀，利用一組參數對視訊串流或存儲的序列進行編碼。

在本發明的一個實施例中，視訊串流中可以在相機突然從一個視角轉到另一個視角之地方識別場景改變，以使得場景改變的每一側上的兩幀之間差值並不像從相同角度拍攝的其他幀那樣可壓縮。兩組不同的參數被用於至少兩個不同的場景序列，這提供了適應性、基於場景的編碼。

本發明內容以簡化的形式提供一個概念的選擇，並將在下面的實施方式中進一步描述。本發明內容並非旨在確定所要保護的主題的關鍵特徵或基本特徵，也不用於限制所要保護的主題的範圍。

100‧‧‧編碼器

102‧‧‧輸入模組

104‧‧‧視訊處理模組

106‧‧‧視訊編碼模組

110‧‧‧輸入視訊串流

120‧‧‧視訊串流

601‧‧‧系統

610‧‧‧處理器

620‧‧‧記憶體

630‧‧‧編程器

640‧‧‧適配器

670‧‧‧I/O設備

680‧‧‧I/O設備

690‧‧‧互聯裝置

圖1闡述了編碼器的一個例子；圖2闡述了編碼输入視訊串流的方法步驟；圖3闡述了將輸入視訊串流分成多個场景序列的方法步驟；圖4闡述了確定場景序列的場景形式的方法步驟；圖5是解釋幀中運動判斷的區塊圖；圖6是處理系統區塊圖，該處理系統可以被用於實現編碼器實施的所述的某些技術。

現在，將描述本發明的各個方面。下面的說明提供具體的細節以透徹理解說明中的例子。然而，本領域技術人員將理解本發明的實現並不需要諸多細節。此外，一些熟知的結構或功能可能不會被詳細顯示或描述，以避免對相關說明產生不必要的混淆。雖然附圖描述作為功能獨立的組件，但是這樣的描述僅僅為了說明的目的。對於本領域技術人員而言，附圖中描繪的組件可以被任意組合或分開成單獨的組件。

在下面的說明書中使用的術語旨在以最合理的方式被解釋，即使它正被用於與本發明中某些具體例子的詳細說明配合使用。然而，在下文中某些術語可能需要被強調，任何試圖以限制方式進行解釋的術語將在實施方式部分被公開和明確界定。

本說明書中提及的“實施例”、“一個實施例”或類似的表示意味着所述的特定的功能、結構、特徵被包括在本發明的至少一個的實施例中。在說明書中這樣的表達的出現並不一定都是指代相同的實施例。

在本發明的一個實施例中，被提供的編碼器用於接收輸入視訊串流，並輸出被編碼的視訊串流，被编码的視訊串流可以在解碼器被解碼恢復為，至少近似地，輸入為視訊串流。編碼器包括：輸入模組，接收輸入視訊串流視訊串流；視訊處理模組，基於場景邊界資訊將輸入視訊串流視訊串流分為多節，其中，視訊處理模組根據輸入視訊串流中的兩個暫時相鄰圖像幀的關係確定給定的場景邊界；視訊串流模組進一步確定多個場景中每一個場景的場景形式，每一個場景形式與多個預定的編碼器參數中的一個或多個相聯繫，以及視訊編碼模組根據與多個場景中的每一個場景相連的場景形式對多個場景進行編碼。

以此方式，編碼器能以最適合於將被編碼的輸入視訊串流中的每一個場景的品質對輸入視訊串流編碼。

圖1根據本發明的一個實施例闡述了編碼器100的例子。編碼器100接收輸入視訊串流110並輸出編碼視訊串流120，編碼視訊串流120可以在解碼器被解碼恢復。編碼器100包括輸入模組102、視訊處理模組104和視訊編碼模組106。編碼器100可以包括其它組件例如參數輸入模組、存儲參數的記憶體，等等。編碼器100可以執行未在此特別說明的其它視訊處理功能。

輸入模組102接收輸入視訊串流110。輸入視訊串流110可以採取任何適當的形式也可以源於任何適當的資源，如記憶體，或者源於現場節目。

視訊處理模組104分析輸入視訊串流110並將視訊串流110隨著其各自的多個場景中的每個場景的視訊編碼參數分為多個場景。在一個實施例中，視訊處理模組104基於場景邊界將視訊串流分為多個場景，其中場景邊界根據輸入視訊串流中的兩個暫時相鄰的圖像幀而被確定。視訊處理模組104進一步確定了視訊編碼參數，視訊編碼參數由視訊編碼器106用於通過將每一場景形式與複數個預定編碼參數中的一個或多個相聯繫，而對每一個場景進行編碼。在視訊串流處理期間，參數對於每一個場景形式可能是預定的，或者可能是被計算和/或被調整的。視訊編碼模組106從視訊處理模組104接收多個場景及其各自的視訊編碼參數，根據其各自的編碼參數對複數個場景中的每個場景進行編碼，並輸出已編碼之視訊串流120。

圖2闡述了編碼輸入視訊串流的方法200的步驟。方法200編碼輸入視訊串流為被編碼的視訊位元流，可以在解碼器中被至少近似地解碼恢復為輸入視訊串流。步驟210中，接收將被編碼的視訊串流。步驟220中，視訊串流基於場景邊界被分為多個場景。在此，如將在圖3中進一步描述細節，根據輸入視訊串流中兩個暫時相鄰圖像幀的關係，確定場景邊界。然而，任何一種其他合適的結構均可能被用於區分場景形式。之後在步驟230中，處理過程確定多個場景中的每一個場景的場景形式。在步驟240中，處理過程確定視訊編碼參數以對每一個場景進行編碼，藉由以適合的預定編碼器參數映射每一個場景形式，如同其後進一步詳細討論。在步驟250中，處理過程根據每一場景的各自的視訊編碼參數(例如，在步驟240中所確定)對場景進行編碼。在步驟260中，處理過程輸出已編碼的視訊位元串流。

上述處理過程將在以下部分被詳盡闡述。輸入視訊串流通常包括多個圖像幀。每一圖像幀通常被基於輸入視訊串流中的不同的“時間位置”被識別。在實施例中，輸入視訊串流可以是提供給編碼器的部分或不連續的片段的串流。在此情況下，甚至於在接收到整個輸入視訊串流之前，編碼器將被編碼的視訊位元流(例如，終端消耗設備如HDTV)作為滾動基礎上的串流進行輸出。

在實施例中，輸入視訊串流和被編碼的視訊位元串流被存儲作為串流序列。在此，編碼可提前進行並且被編碼的視訊串流稍後被串流至消費者設備。在此，在被流至消費者設備之前，在整個視訊串流上的編碼被完全實現。據悉視訊串流的前、後、或“順序的”編碼的其它例子，或者及其組合，可被本領域技術人員所實現，也可與此處所介紹的技術共同實現。

在實施例中，輸入視訊串流中的場景邊界通過先縮放並消除所有存在於每一圖像幀中的高頻元素而被確定。接下來，被確定的兩個圖像幀之間的差值在輸入視訊串流的時間表上是彼此暫時相鄰的。在一些示例中，例如，兩幀之間的差值可以利用遞歸(recursive)或自適應(adpative)濾波器進行區分。當計算的差值超過預定的(標示場景變化的)閾值時，兩個圖像幀被確定為兩個不同場景序列中的部分，且因此兩個圖像幀之間的場景邊界被建立。

在實施例中，如在上述參考圖2中所闡述的，場景形式可能被確定為與編碼程序相連的多個場景序列中的每一個場景。在一些例子中，場景序列形式可能利用一個或多個下列場景序列參數而被確定：(i)輸入視訊串流中場景序列的位置；(ii)場景序列的長度；(iii)其運動向量判斷；(iv)場景序列與之前幀的有效差值；(v)場景序列的光譜數據尺寸；(vi)利用光學性質識別所確定的場景文件內容 (vii)基於劇本結構資訊的場景劇本屬性，等等。此外，在一些例子中，面部識別可能被用於場景形式確定，以確定場景序列中是否包括人體的面部。

給定的場景形式可能包括，例如快進”、“靜止”、“頭部特寫”、“文件”、“滾動演職員名單(scroll credits)”、“大多是黑色的圖像”、“五幀或以下的短場景”等等。在一些例子中，場景序列可能並未被分配特定的場景形式。在其他例子中，被分配的場景序列可能包括場景形式：“雜項的”、“未知的”、“預設值”等等。

在一些實施例中，一旦場景形式被指定，場景序列就會被編碼。在一些實施例中，這種編碼通過根據一組軟件或硬件指令運行參數化編碼過程來執行。在此，一些例子中，一組高度優化的參數可能根據場景形式被用於控制編碼細節。多個參數可能被存儲在場景形式資料庫或其他數據結構或者機器學習系統中。在一個例子中，存儲在存儲器中可由編碼器進行訪問的資料庫可能具有如表1中所列舉的結構。用於編碼但並未特定設置於場景形式資料庫中的參數，可能使用在編碼過程開始時決定的預設值參數值。在一些例子中，預設值參數可能基於用於編碼輸入視訊串流的編碼標準所推薦的值而被決定。

圖3說明了決定輸入視訊串流中的場景邊界的方法或程序300的步驟。步驟310中，程序缩放來自於當前幀(i)和前一幀(i-1)的高頻率元素用於需要被確定的場景邊界。在至少一些實施例中，步驟320，程序從當前幀(i)和前一幀(i-1)移動高頻率元素。在一實施例中，轉換編碼器將圖像幀中的像素數據轉為頻率係數。在頻域中，低頻數據具有比高頻數據更大的人類感知重要度。步驟310和320允許分析基於感知重要度的幀中的低頻元素。

步驟330中，當前幀(i)的亮度被計算。亮度值也被稱為光度，代表了圖像的亮度(“黑與白”或圖像的無色部分)。

步驟340中，基於當前幀(i)和前一幀(i-1)的預測的亮度值被計算。預測值是基於前一幀(i-1)的子空間上的當前幀(i)。子空間是由前一幀(i-1)的奇異值分解得到的。

步驟350中，基於步驟330和340中獲得的亮度值之間的差值而計算出餘值。步驟360中，程序使用例如遞歸或者自適應濾波器濾除任何餘值並且將餘值映射在0-1的分數範圍上。自適應濾波器幫助重複地濾除餘值中的任何非自然產物。步驟370中，當正歸化分數大於第一閾值時，程序用信號通知場景改變並對輸入視訊串流中的場景邊界進行標記。在一實施例中，此類第一閾值的示例值是0.65。步驟380中，在一些例子中，對輸入視訊串流中的每一幀重複步驟310至步驟370以將輸入視訊串流分成有序的場景序列。

圖4闡述了確定給定的場景序列的場景形式的程序400的步驟。步驟410中，程序決定輸入視訊串流時間軸中的場景位置。基於該場景位置，在例如1-5的範圍上指定分數。在一示例中，1分表示場景在輸入視訊串流的開始，以及5分意味着場景在輸入視訊串流的末端。

步驟420中，程序決定場景序列的播放時間長度並指定相稱的分數(例如，1-5的範圍上)。在一示例子，1分可能表示小於10秒的場景長度以及5分可能表示大於50秒的場景長度。

步驟430中，程序執行場景序列中的運動判斷並指定相稱的分數(例如，1-5的範圍上)。例如，1分可能表示很少或沒有運動向量的場景，5分可能表示整個場景有很大的運動向量。運動判斷(Motion Estimation,ME)是通常用於在壓縮期間探測輸入視訊串流中的冗餘時間。冗餘時間產生於相鄰幀經常共享相似的像素區域的事實。因此，運動判斷的目標是判斷穿過相鄰幀的類似區域的轉移(巨集塊)，如此使得它們被差分編碼。在基於塊的運動判斷中，類似區域的位移由運動向量表示，其由塊匹配算法(Block-Matching Algorithms)進行計算。

步驟440中，程序計算給定場景序列和前一場景序列之間的有效差值。基於有效差值，程序指定相稱的分數(例如，在1-5的範圍上)。在一示例中，1分可能表示場景間很小的差異而5分可能表示大於xyz域的差異。在示例中，有效差值可能使用上述關於步驟310至370中相同的評分原則進行計算。

步驟450中，程序決定場景序列的光譜數據大小。基於光谱数据大小，在例如1-5的範圍上指定分數。在一個例子中，1分可能表示具有低光譜數據的場景以及5分可能表示具有高光譜數據的場景。在一個實施例中，轉換編碼技術將視訊數據轉為頻率(或光譜)域，圖像幀的頻域範圍代表光譜數據大小。轉換編碼器將一個圖像幀中的像素數據轉換為頻率系數。在頻域中，低頻數據具有比高頻數據更大的人類感知重要度。

步驟460中，程序可選地(或在某些情況下強制地)使用例如面部識別軟體執行對場景序列中面部結構的搜索。基於搜索結果，指定例如1-5範圍上的分數。此處，在一示例中，1分可能表示沒有被識別的面部結構而5分可能指示場景具有多個面部結構。

在步驟470中，程序執行場景序列中光學特徵識別(optical character recognition,OCR)以識別場景序列中的任何文件資訊。OCR幫助區分在一個圖像文件中的圖案和本文內容。OCR使用模式識別、人工智能和計算機視覺進行區分。基於OCR分析，程序指定相稱的分數(例如，在1-5分的範圍上)。在一個例子中，1分可能表示場景序列中沒有任何文字內容而5分可能表示場景序列中至少有30%的文件內容，即，電影的演職員名單。

步驟480中，程序決定與場景相聯繫的電影劇本結構資訊。在至少一些實施例中，劇本結構資訊是一相對注意參數。相對注意參數近似地估計為給定場景預計的觀眾關注之相對量。在一些實施例中，相對注意參數近似地估計預計的給定的視頻片段的觀眾關注相對量，給定場景序列是給定視頻片段的一部分。基於分析，程序指定相稱的分數(例如，在1-5分的範圍上)。在一示例中，1分可能表示觀眾興趣較低的場景序列內容而5分可能表示觀眾興趣較高的場景序列。

步驟490中，程序基於從步驟410至步驟480的分數決定場景序列的場景形式。在一個實施例中，場景形式的確定可基於瀑布程序(waterfall process)使用從步驟410至步驟480的分數。瀑布程序是一個線性的、開始到結束、連續的決策程序，程序在沿着其路徑至最終決定中，通常不會重複任何它已到達的中間結論。

在一示例中，包括電影結尾的演職員名單的場景通常有文字上下移動。這樣的場景序列通常具有小但連續的運動向量，記分為2以及更低，向上或向下取決於文字方向。此外，場景序列一般包括電影演職員名單形式的文件，構成多於例如30%的場景內容。光學特徵識別程序一般將場景記為4分或以上。鑒於電影演職員名单一般是電影的一部分並且構成結尾電影時間軸的材料部分，瀑布程序在檢測其他場景形式之前，首先檢測場景是否是“滾動演職員名單”形式。在示例子，2分強烈建議了包括的場景形式是“滾動演職員名單”形式，因此，一旦場景被標記如此，場景的場景形式測定可被結束。如果確定場景形式不是“滾動演職員名單”形式，瀑布程序檢測場景序列可觀察其是否是除了“滾動演職員名單”形式以外的場景形式之一。同樣，一旦瀑布程序作出了給定的場景不是特定形式的決定，程序通常不再針對特定的場景形式再判斷該場景。

在另一示例中，捕捉紅杉樹的場景通常包括樹木的綠色葉子和周圍的環境。樹葉通常會構成場景內容的主要部分。這樣的場景具有很少或隨機的運動向量，因為樹木本身保持靜止而它們的枝幹和葉子也只有輕微的運動。運動判斷分數將接近0。此外，場景中的任何文件識別一般是場景的簡要說明，產生很低的文件內容分數。然而，光譜分析將產生較高分數，因為場景中樹葉的綠色將被光譜數據的高頻域中被捕獲。如前所述，低頻光譜數據具有比高頻數據更大的人類感知重要度，使得高光譜數據的幀在較低品質編碼。基於分數，瀑布程序將決定場景序列是“靜止場景”，要求在第一幀的高編碼品質，第一幀伴隨着低品質剩餘編碼和低分塊濾波。

上述說明闡述了決定場景邊界及場景形式的程序。出於決定場景形式的目的，在至少一些例子中，為了確定在場景序列中由運動向量代表的運動幅度而決定和分析場景中的運動判斷是很有用的。圖5現在闡述了場景序列中運動判斷的程序示例，正如在此被進一步詳細地解釋。運動判斷通常是用於探測在壓縮期間的視訊序列中的時間冗餘度。時間冗餘度產生於相鄰幀非常頻繁地共享相似像素域的事實。因此運動判斷的目標是判斷這樣相似的穿越相鄰幀的域(巨集塊)的轉移。在基於塊的運動判斷中，相似域的位移由運動向量表示，其由塊匹配算法進行計算。

在一個實施例中，塊匹配算法(BMA)搜索在圖像幀中相似的塊並生成運動向量。BMA使用快速搜索方法，當相似塊被搜索時，只查看搜索窗口的特定點。在另一個辦法中，被稱為多分辨率運動判斷，分層地執行運動判斷，計算特定幀域的運動向量並將它們細化至每一層。運動判斷域一個幀中的不同的分辨率合作，連續地細化被創造的運動向量。其他方式可調查發現BMAs中的對應類似處(parallelism)，為了同時執行運動判斷階段。

圖5闡述運動判斷的方法示例。這裡，在一個實施例中，在序列幀中被發現(例如，不同位置上的幀)的一個幀的巨集塊的圖像，通過使用運動向量被傳達。圖5.1和圖5.2分別表示參考幀和所需的幀。幀被分成巨集塊，例如，尺寸範圍從4x4到16x16。實施例中，參考幀中的每一巨集塊與所需幀中的每一巨集塊進行比較以檢測任何巨集塊之間的匹配。圖5.3和圖5.4闡述參考幀和所需幀分成它們各自的巨集塊，彼此進行比較。圖5.5表示來自參考幀的巨集塊與所需幀中的巨集塊匹配，雖然巨集塊不是在其各自幀中的相同的柵格位置。圖5.6表示由編碼器產生的運動向量傳達所需幀中關於參考幀中巨集塊位置的巨集塊位置。運動判斷因此幫助決定場景序列中的運動向量，使得場景形式的確定受場景序列中運動向量幅度的影響。

上述說明闡述了基於運動判斷決定場景形式的程序。出於決定場景形式的目的，除了運動判斷外，在至少一些例子中，確定和分析與場景相聯繫的剧本結構資訊是很有用的。劇本結構資訊利用電影故事線的一般組織以決定合適的場景形式，允許為給定場景適當編碼。

電影通常基於劇本。劇本被組織以便抓住觀眾的注意力。電影劇本的第一部分稱為“短播和切換(bite and switch)”片段，通常是當大多數人決定是否觀看整個影片的時候。因此，此處的圖像品質可預計的非常高以便於不破壞觀眾的觀賞體驗。電影劇本的下一部分被稱為“角色發展”片段，一般得到很低的觀眾注意並可能因此是低於之前片段的圖像品質。電影接下來的片段構成電影的情節，觀眾比之前的片段具有更高的注意。圖像品質高於之前的品質。電影的下一個片段是“高潮”，是電影最重要的部分並且圖像品質需要很高。最後的片段是電影的“演職員名單”，得到很低的觀眾注意。該片段可以使用不會影像觀眾觀賞體驗的較低品質圖像。

在一個實施例中，基於電影時間軸的劇本結構資訊用於決定場景形式。例如，當給定的場景序列是電影的開始部分時，場景序列可被列為“短播和切換”場景，得到高的觀眾注意。場景序列可以在範圍上被記為5分，表示觀眾興趣高。作為進一步的例子，當給定的場景序列是進入到電影的30分鐘時，可以假定電影片段包括角色發展。角色發展片段得到較低的觀眾注意。因此，任何是角色發展的一部分的場景序列可能在範圍上被記為2分或更少的分數。因此，時間軸資訊幫助決定場景形式。

在一個實施例中，劇本結構資訊被用於決定可能是相對注意參數的場景形式，相對注意參數近似估計觀眾興趣對於預計輸入視訊串流的給定片段。相對注意參數可以由觀眾預先設定或基於來自電影導演的輸入。該資訊可以作為輸入視訊串流元數據的一部分被包括在輸入視訊串流中。通過分析元數據，可以確定相對注意參數。預先設定的相對注意參數可被定義為輸入視訊串流中的每一個給定的場景序列或包括複數個場景序列的輸入視訊串流中的給定片段。當相對注意參數表示高觀眾注意時，分數可能被設置為4分或更高。當相對注意參數表示低觀眾注意時，分數可能被設置為2分或更低。相對注意參數可能因此被用於決定場景形式。

在一個實施例中，劇本結構資訊被用於決定場景形式，場景形式可能是基於場景序列中的文件內容或者是基於與場景序列相聯繫的結束字幕。兩種情況下，文件資訊被用於決定電影場景的劇本序列。劇本序列稍後可以被用於決定觀眾對給定場景的注意。1分場景興趣低以及5分場景興趣高。文件內容資訊可能因此被用於決定場景形式。

在另一個實施例中，用於決定場景形式的劇本結構資訊可以基於與場景序列相聯繫的音頻內容。音頻內容可能是，例如，音頻內容的音量(振幅)，人類語言，沉默，語言識別，語言差異，配樂，音效，環繞聲等。在一個例子中，音頻內容的音量可以用來確定劇本片段，場景序列是劇本片段的一部分。在電影中的動作片段一般有與其相關的響亮聲音內容。要得到觀眾的充分注意，需要響亮的音頻內容。此外，動作場面通常涉及的特殊效果，如爆炸，產生響亮的音頻內容。另一方面，與角色發展相關的電影片段，通常涉及在人類聲音振幅的正常範圍內的對話和小的特殊效果，如爆炸。在電影的角色發展階段，觀眾的注意程度通常很低。因此可以利用音頻內容的音量確定觀眾對於一個給定的場景的註意，1分為低音量場景以及5分高音量場景。因此可以根基於觀眾的註意力利用音頻內容的振幅(音量)確定場景形式。

在另一個例子中，場景序列相關的聲音效果可以用來確定劇本片段，場景序列是劇本片段的一部分。一般都是用特殊的聲音效果，如音頻內容的增加節奏，表明在電影中的有趣轉折的構建、一個令人振奮的動作序列，等等，以得到高觀眾注意。另一方面，小的聲音效果與涉及談話的電影片段相聯繫。片段普遍缺乏聲音效果就像談話通常缺乏戲劇性的情緒轉變一樣，可以進一步強調聲音效果。因此可以利用音頻內容的特殊效果確定觀眾對於一個給定的場景的注意，1分為低音效的場景而5分為豐富的音效場景。因此可以基於觀眾注意而利用音頻內容的聲音效果以確定場景形式。

圖6是用於實現上述任何技術的處理系統(例如編碼器)的區塊圖。注意在某些實施例中，至少一些圖6中所闡述的組件可能被分佈於兩個或更多物理上獨立的但是相連接的計算平臺或區塊間。處理可以代表傳統的服務器級的電腦、PC、移動通信設備(例如智慧型手機)、或者任何其它已知或傳統的處理/通信設備。

圖6中所示的處理系統601包括一個或多個處理器610，即中央處理單元(CPU)、記憶體620、至少一個通信設備620例如以太網適配器和/或無線通信子系統(例如蜂窩網絡、WiFi、藍牙或類似的設備)，和一個或多個I/O設備670、680，所有的都通過互聯裝置690與彼此耦合。

處理器610控制計算機系統601的操作並可能是或包括一個或多個可編程的通用或專用的微處理器、微控制器、特定應用集成電路(ASICs)、可編程邏輯器件(PLDs)，或這些設備的組合。互聯裝置690可以包括一個或多個匯流排、直接連接和/或其它類型的物理連接，並可能包括本領域內所熟知的各種橋、控制器和/或適配器。進一步互聯裝置690可能包括“匯流排系統”，其可能是通過一個或多個適配器連接到一個或多個擴展匯流排，如外圍組件互聯裝置(PCI)匯流排，HyperTransport標準或行業標準架構(ISA)匯流排、小型計算機系統接口(SCSI)匯流排、通用串行匯流排(USB)、或者電氣和電子工程師協會(IEEE)標準1394匯流排(有時也被稱為“火線”)。

記憶體620可能包括一或多種類型中的一個或多個記憶體設備，如唯讀記憶體(ROM)、隨機存取記憶體(RAM)、快閃記憶體、硬碟驅動器等等。適配器640是適合使處理系統601與遠程材料系統經由通信連接交流數據的設備，並可以是，例如，傳統的電話調製解調器、無線調製解調器、數字用戶線(DSL)調製解調器、電纜調製解調器、無線電收發器、衛星收發器、以太網適配器，或諸如此類的。I/O設備670、680可能包括，例如，一個或多個設備如：如滑鼠、軌跡球、搖杆、觸摸板，或類似的指點設備，鍵盤、具有語音識別接口的麥克風、音頻揚聲器、顯示設備等等。然而，注意這樣的I/O設備可能是系統中不必要的，完全作為服務器操作並沒有提供直接的用戶界面，在至少一些實施例中的服務器的情況。基於所述的一組組件的其它變化可以與符合本發明的方式實現。

軟體和/或韌體編程器630對處理器610進行編程以執行上述活動，可以存儲在記憶體620中。在某些實施例中，這樣的軟體和韌體可以通過經由計算機系統601從遠端系統的下載初步提供計算機系統601(例如，經由網路適配器640)。

說明介紹的技術可以由，例如，與特定的軟體和/或韌體編程的可編程電路(例如一個或多個微處理器)，或完全專用的硬線電路，或者這樣形式的組合來實現。專用硬線電路可能的形式，例如，一個或多個特定應用集成電路(ASCI)、可編程邏輯器件(PLDs)、現場可編程門陣列(FPGAs)，等等。

在此介紹的用於實現技術的軟體或韌體可以存儲在機器可讀的存儲介質上，並可以由一個或多個通用或專用的可編程微處理器執行。“機器可讀介質”，作為在此使用的術語，包括任何能以機器(機器可能是，例如，電腦、網絡設備、行動電話、個人數字助理(PDA)、生產工具、任何具有一個或多個處理器的設備，等等)可訪問的形式存儲資訊的機器。例如，機器可存取存儲媒體包括可錄製/非可錄製媒體(例如，唯讀記憶體(ROM)、隨機存取記憶體(RAM)、磁碟存儲媒體、光存儲媒體、快閃記憶體裝置等)等等。

在此使用的“邏輯”術語，可以包括，例如，與特定的軟體和/或韌體編程的可編程電路、專用硬線電路、或及其組合。

本發明前述各個實施例被提供用於說明和描述的目的。其並不意圖詳盡地或者限制本發明為所公開的精確形式。很多修改和變化對於本領域技術人員將是清楚易見的。被選擇和被描述的實施例是為了最好地描述發明的原則和它的實際應用，因此使相關領域的其他技術人員理解本發明，各種實施例之各種修改以適合特定的使用考量。

在此提供的本發明的啟示可以被用於其它系統，並不限於上述系統中。上述實施例的元素和行為可以被結合提供進一步的實施例。

雖然上述說明描述的本發明的某些實施例並介紹了所考慮的最佳模式，不論在上文中出現的有多細節，本發明可以以多種方式被實現。系統的細節在它的實施細節中可能有很大的不同，而仍被包含在此所述的發明中。如上所述，用於描述某些特徵或發明方面的特定術語不應採取暗示術語在此正在被重新定義為限制與任何具體的術語相關的特點、特徵，或發明的方面。一般情況下，在下面申請專利範圍中使用的術語不應被解釋為限制本發明在說明書中公開的具體實施例，觸發上述實施方式部分中明確定義了這樣的術語。因此，發明的實際範圍包括不僅被披露的實施例，也包括所有的實施或執行申請專利範圍中發明的同等的方式。