TW201720170A - 用戶變焦編碼內容解譯及表達方法及系統 - Google Patents

用戶變焦編碼內容解譯及表達方法及系統 Download PDF

Info

Publication number
TW201720170A
TW201720170A TW105131005A TW105131005A TW201720170A TW 201720170 A TW201720170 A TW 201720170A TW 105131005 A TW105131005 A TW 105131005A TW 105131005 A TW105131005 A TW 105131005A TW 201720170 A TW201720170 A TW 201720170A
Authority
TW
Taiwan
Prior art keywords
representation
interest
video stream
user
zoom
Prior art date
Application number
TW105131005A
Other languages
English (en)
Inventor
庫瑪爾 拉馬斯瓦米
傑佛瑞‧艾倫 庫伯
Original Assignee
Vid衡器股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vid衡器股份有限公司 filed Critical Vid衡器股份有限公司
Publication of TW201720170A publication Critical patent/TW201720170A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • H04N21/23106Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion involving caching operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234309Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4 or from Quicktime to Realvideo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

描述的實施方式涉及用於顯示關於跟蹤物件的資訊和接收選擇一或複數待跟蹤的物件的使用者輸入的系統和方法。一種實施方式採取方法的形式,該方法包括:從內容伺服器接收視訊串流的第一表示和資訊物件識別符,該資訊物件識別符指示該視訊串流中描繪所關注物件的部分的第二表示的可用性;使得顯示該視訊串流的該第一表示和該所關注物件識別符;回應於使用該所關注物件識別符對該視訊串流的該部分的第二表示的選擇,向該內容伺服器發送對該視訊串流的該部分的第二表示的請求;接收該視訊串流的該部分的第二表示以及使得顯示該視訊串流的該部分的第二表示。

Description

用戶變焦編碼內容解譯及表達方法及系統
相關申請的交叉引用 本申請要求2015年10月1日提交的名稱為“METHOD AND SYSTEMS FOR  CLIENT INTERPRETATION AND PRESENTATION OF ZOOM-CODED CONTENT”的美國臨時申請序號No. 62/236,023的權益。
數位視訊信號通常以包括以下的參數為特徵:i)解析度(例如亮度和色度解析度或者水平和垂直像素尺寸),ii)畫面速率,以及iii)動態範圍或位元深度(例如每個像素的位元)。數位視訊信號的解析度已經從標準畫質(SD)增加到8K超高畫質(UHD)。其他數位視訊信號參數也已經改善,畫面速率從每秒30畫面(fps)增加到240fps,並且位元深度從8位元增加到12位元。為了通過網路傳送數位視訊信號,MPEG/ITU標準化視訊壓縮已經在壓縮效率上經歷了若干代連續改善,包括MPEG2,MPEG4部分2,MPEG-4部分10/H.264和HEVC/H.265。在諸如電視或行動電話之類的消費者裝置上顯示數位視訊信號的技術也已經相應提高。
在網路連接裝置上請求較高品質數位視訊的消費者面臨來自視訊內容遞送網路的頻寬限制。在為了減輕頻寬限制的影響的努力中,若干方案已經湧現。視訊內容初始捕獲的解析度、畫面速率和動態範圍比將要用於分發的更高。例如,4:2:2、10位元HD視訊內容通常被下解析到4:2:0、8位元格式以用於分發。數位視訊在伺服器處以多種解析度被編碼和儲存,並且在不同解析度的這些版本可用於由具有可能不同能力的用戶檢索、解碼和表現。數位視訊在伺服器處以多種解析度被編碼和儲存。適應性位元速率(ABR)還解決了網路壅塞。在ABR中,數位視訊以多種位元速率被編碼(例如選擇相同或多種較低解析度、較低畫面速率等)並且具有不同位元速率的這些替換版本在伺服器處可用。用戶裝置可以基於用戶計算的可用網路頻寬或本地計算資源以週期間隔請求視訊內容的不同位元速率版本以用於消費。
變焦編碼(zoom coding)提供了跟蹤視訊中所關注物件的能力,提供使用者以最高可用解析度(例如以原始捕獲解析度)跟蹤和瀏覽那些物件的機會。變焦編碼在用於替換串流傳遞的使用者請求時提供這一能力。通常,除了在標準ABR傳遞系統中創建適應性位元速率串流,變焦編碼允許創建以較高解析度(例如以比視訊內容的常規瀏覽解析度更高的解析度)跟蹤特定所關注物件的串流。
揭露的實施方式涉及用於顯示關於哪些物件對於跟蹤可用(例如以變焦編碼串流的形式)的資訊和用於接收選擇將被跟蹤的物件的使用者輸入的系統和方法。
頭端編碼器基於確定瀏覽者應當能夠跟蹤哪些物件來創建變焦編碼串流。該確定可被自動作出或者基於人工選擇作出。在一些實施方式中,可跟蹤物件的可用性使用帶外機制被用信號通知給用戶。此處揭露的系統和方法使得已經接收到關於可跟蹤物件的這種資訊的用戶通知終端使用者哪些物件可以被跟蹤。在一些實施方式中,這一資訊被可被視覺化地提供。此處描述的實施方式提供了用於向終端使用者顯示物件的可用選擇的技術。使用者可以選擇可用的可跟蹤物件(例如使用游標或其它選擇機制),這引導用戶從伺服器獲取合適的變焦編碼串流。
一種實施方式採取方法的形式,該方法包括:從內容伺服器接收視訊串流的第一表示和資訊物件識別符,該資訊物件識別符指示該視訊串流中描繪所關注物件的部分的第二表示的可用性;使得顯示該視訊串流的該第一表示和該所關注物件識別符;回應於對該視訊串流的該部分的第二表示的使用者選擇,向該內容伺服器發送對該視訊串流的該部分的第二表示的請求;接收該視訊串流的該部分的第二表示; 以及使得顯示該視訊串流的該部分的第二表示。
一種實施方式採取方法的形式,該方法包括:從內容伺服器接收視訊串流的第一表示和所關注物件識別符,該所關注物件識別符指示該視訊串流中描繪所關注物件的部分(例如所關注物件的增強視圖)的第二表示的可用性;使得顯示該視訊串流的該第一表示和該所關注物件識別符;回應於使用該所關注物件識別符對該視訊串流的該部分的第二表示的選擇,向該內容伺服器發送對該視訊串流的該部分的第二表示的請求;接收該視訊串流的該部分的第二表示; 以及使得顯示該視訊串流的該部分的第二表示。
另一實施方式採取系統的形式,包括通訊介面、處理器和包括由該處理器可執行的指令的資料儲存器,該指令用於執行至少前述段落中的功能。
在至少一實施方式中,描繪該所關注物件的該視訊串流的該部分是該視訊串流的放大部分。
在至少一實施方式中,該所關注物件是該視訊串流中的被跟蹤物件。
在至少一實施方式中,使得顯示該所關注物件識別符包括顯示覆蓋在該視訊串流的第一表示上的設該視訊串流的該部分之邊界的矩形。
在至少一實施方式中,使得顯示該所關注物件識別符包括顯示描述該所關注物件的文本。在一這樣的實施方式中,該所關注物件是人,描述性文本是該人的名字。
在至少一實施方式中,使得顯示該所關注物件識別符包括顯示該所關注物件的靜止圖像。
在至少一實施方式中,該方法還包括顯示接近該所關注物件識別符的數位,並且其中該使用者選擇包括檢測在使用者介面中選擇該數位。
在至少一實施方式中,使得顯示該所關注物件識別符包括顯示指示該視訊串流期間該視訊串流的該部分的第二表示可用的時間的時間線。
在至少一實施方式中,使得顯示該所關注物件識別符包括在側邊欄功能表中顯示該所關注物件識別符。
在至少一實施方式中,該所關注物件識別符在清單檔案中被接收。
在至少一實施方式中,該視訊串流的該第一表示處於第一位元速率,並且該視訊串流的該部分的第二表示處於不同於該第一位元速率的第二位元速率。
在至少一實施方式中,該視訊串流為預先記錄的視訊串流。
在至少一實施方式中,該視訊串流的表達在從包括以下的組中選擇的裝置上顯示:電視、智慧型電話螢幕、電腦監控器、可穿戴裝置螢幕和平板螢幕。
在至少一實施方式中,該時間線針對至少兩個不同所關注物件顯示該視訊串流的該部分的第二表示的可用性的指示,其中每個不同所關注物件的可用性的指示由不同的顏色指示。
在至少一實施方式中,該時間線包括具有多個列的堆疊時間線,該複數列中的每一列對應於第二表示可用的不同跟蹤物件。
在至少一實施方式中,該選擇包括沿著該時間線的期望的回放時間,以及使得顯示該視訊串流的該部分的第二表示包括在該期望的回放時間顯示該第二表示。
在至少一實施方式中,該選擇是該第二表示的使用者選擇。
在至少一實施方式中,該選擇是該用戶裝置基於先前獲得的使用者偏好的自動選擇。
現在參照各種附圖對示例實施方式進行具體地描述。然而本描述提供了可能實施方式的具體示例,應當理解的是這些細節意在示例性並且絕不限制本申請的範圍。與視訊壓縮有關的系統和方法可以使用參照第1A圖和第1B圖描述的有線和無線通訊系統。首先,這些有線和無線系統將被描述。
第1A圖為可以實施一或者複數所揭露實施方式的示例通訊系統100的圖例。通訊系統100可以是將諸如語音、資料、視訊、訊息、廣播等之類的內容提供給多個無線使用者的多重存取系統。通訊系統100可以通過系統資源(包括有線和無線頻寬)的共用使得多個有線及無線使用者能夠存取這些內容。例如,通訊系統100可以使用一或複數通道存取方法,例如分碼多重存取(CDMA)、分時多重存取(TDMA)、分頻多重存取(FDMA)、正交FDMA(OFDMA)、單載波FDMA(SC-FDMA)等等。通訊系統100還可以利用一或複數有線通訊標準(例如,乙太網、DSL、通過同軸線纜的射頻(RF)、光纖等)。
如第1A圖所示,通訊系統100可以包括用戶裝置 102a,102b,102c和/或102d、無線電存取網路(RAN)103/104/105、核心網路106/107/109、公共交換電話網路(PSTN)108、網際網路110和其他網路112以及通訊鏈路115/116/117及119,但可以理解的是所揭露的實施方式涵蓋任意數量的用戶裝置、基地台、網路和/或網路元件。每個用戶裝置102a、102b、102c、102d可以是被配置成在有線或無線環境中操作和/或通訊的任何類型的裝置。作為示例,用戶裝置102a被描述為可擕式電腦,用戶裝置102b被描述為智慧型電話,用戶裝置102c被描述為電腦以及用戶裝置102d被描述為電視。
通訊系統100還可以包括基地台114a和基地台114b。基地台114a、114b中的每一個可以是被配置成與用戶裝置 102a、102b、102c、102d中的至少一者有無線介面,以便於存取一或複數通訊網路(例如核心網路106/107/109、網際網路110和/或網路112)的任何類型的裝置。用戶裝置可以為不同的無線發射/接收單元(WTRU)。例如,基地台114a、114b可以是基地台收發站(BTS)、節點B、e節點B、家用節點B、家用e節點B、網站控制器、存取點(AP)、無線路由器以及類似裝置。儘管基地台114a、114b每個均被描述為單個元件,但是可以理解的是基地台114a、114b可以包括任何數量的互聯基地台和/或網路元件。
基地台114a可以是RAN 103/104/105的一部分,該RAN 103/104/105還可以包括諸如基地台控制器(BSC)、無線電網路控制器(RNC)、中繼節點之類的其他基地台和/或網路元件(未示出)。基地台114a和/或基地台114b可以被配置成發送和/或接收特定地理區域內的無線信號,該特定地理區域可以被稱作胞元(未示出)。胞元還可以被劃分成胞元扇區。例如與基地台114a相關聯的胞元可以被劃分成三扇區。因此,在一種實施方式中,基地台114a可以包括三收發器,即針對該胞元的每個扇區都有一。在另一實施方式中,基地台114a可以使用多輸入多輸出(MIMO)技術,並且由此可以使用針對胞元的每個扇區的多個收發器。
基地台114a、114b可以通過空中介面115/116/117或通訊鏈路119與用戶裝置 102a、102b、102c和102d中的一者或多者通訊,該空中介面115/116/117或通訊鏈路119可以是任何合適的有線或無線通訊鏈路(例如射頻(RF)、微波、紅外(IR)、紫外(UV)、可見光等)。空中介面115/116/117可以使用任何合適的無線電存取技術(RAT)來建立。
更為具體地,如前所述,通訊系統100可以是多重存取系統,並且可以使用一或複數通道存取方案,例如CDMA、TDMA、FDMA、OFDMA、SC-FDMA以及類似的方案。例如,在RAN 103/104/105中的基地台114a和用戶裝置 102a、102b、102c可以實施諸如通用移動電信系統(UMTS)陸地無線電存取(UTRA)之類的無線電技術,其可以使用寬頻CDMA(WCDMA)來建立空中介面115/116/117。WCDMA可以包括諸如高速封裝存取(HSPA)和/或演進型HSPA(HSPA+)。HSPA可以包括高速下行鏈路封裝存取(HSDPA)和/或高速上行鏈路封裝存取(HSUPA)。
在另一實施方式中,基地台114a和用戶裝置 102a、102b、102c可以實施諸如演進型UMTS陸地無線電存取(E-UTRA)之類的無線電技術,其可以使用長期演進(LTE)和/或高級LTE(LTE-A)來建立空中介面115/116/117。
在其它實施方式中,基地台114a和用戶裝置 102a、102b、102c可以實施諸如IEEE 802.16(即全球互通微波存取(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、臨時標準2000(IS-2000)、臨時標準95(IS-95)、臨時標準856(IS-856)、全球移動通訊系統(GSM)、增強型資料速率GSM演進(EDGE)、GSM EDGE(GERAN)之類的無線電技術。
舉例來講,第1A圖中的基地台114b可以是有線路由器、無線路由器、家用節點B、家用e節點B或者存取點,並且可以使用任何合適的有線通訊標準或RAT,以用於促進在諸如公司、家庭、車輛、校園之類的局部區域的無線通訊連接。在一種實施方式中,基地台114b和用戶裝置 102c、102d可以實施諸如IEEE 802.11之類的無線電技術以建立無線區域網路(WLAN)。在另一種實施方式中,基地台114b和用戶裝置 102c、102d可以實施諸如IEEE 802.15之類的無線電技術以建立無線個人區域網路(WPAN)。在又一種實施方式中,基地台114b和用戶裝置 102c,102d可以使用基於胞元的RAT(例如WCDMA、CDMA2000、GSM、LTE、LTE-A等)以建立微微型(picocell)胞元或毫微微胞元(femtocell)。在又一實施方式中,基地台114b與用戶裝置102a、102b、102c和102d通過通訊鏈路119進行通訊。如第1A圖所示,基地台114b可以具有至網際網路110的直接連接。因此,基地台114b不必經由核心網路106/107/109來存取網際網路110。
RAN 103/104/105可以與核心網路106/107/109通訊,該核心網路可以是被配置成將語音、資料、應用程式和/或網際網路協定語音(VoIP)服務提供到用戶裝置 102a、102b、102c、102d中的一者或多者的任何類型的網路。例如,核心網路106/107/109可以提供呼叫控制、帳單服務、基於移動位置的服務、預付費呼叫、網際網路互聯、視訊分配等,和/或執行高級安全性功能,例如使用者驗證。儘管第1A圖中未示出,應該理解的是RAN 103/104/105和/或核心網路106/107/109可以直接或間接地與其他RAN進行通訊,這些其他RAT可以使用與103/104/105相同的RAT或者不同的RAT。例如,除了連接到可以採用E-UTRA無線電技術的RAN 103/104/105,核心網路106/107/109也可以與使用GSM無線電技術的其他RAN(未顯示)通訊。
核心網路106/107/109也可以用作用戶裝置 102a、102b、102c、102d存取PSTN 108、網際網路110和/或其他網路112的閘道。PSTN 108可以包括提供普通老式電話服務(POTS)的電路交換電話網路。網際網路110可以包括互聯電腦網路的全球系統以及使用公共通訊協定的裝置,該公共通訊協定例如傳輸控制協定(TCP)/網際網路協定(IP)網際網路協定套件的中的TCP、使用者資料包通訊協定(UDP)和IP。網路112可以包括由其他服務提供方擁有和/或操作的無線和/或有線通訊網路。例如,網路112可以包括連接到一或複數RAN的另一核心網路,這些RAN可以使用與RAN 103/104/105相同的RAT或者不同的RAT。
通訊系統100中的用戶裝置 102a、102b、102c、102d中的一些或者全部可以包括多模式能力,即用戶裝置 102a、102b、102c、102d可以包括用於通過多個不同通訊鏈路與不同的有線或無線網路進行通訊的多個收發器。例如,第1A圖中顯示的WTRU 102c可以被配置成與使用基於胞元的無線電技術的基地台114a進行通訊,並且與使用IEEE 802無線電技術的基地台114b進行通訊。
第1B圖描繪了在第1A圖的通訊系統範圍內使用的示例用戶裝置。特別地,第1B圖為示例用戶裝置 102的系統方塊圖。如第1B圖所示,用戶裝置102可以包括處理器118、收發器120、發射/接收元件122、揚聲器/麥克風124、數字鍵盤126、顯示器/觸控板128、不可移除記憶體130、可移除記憶體132、電源134、全球定位系統晶片組136和其他週邊設備138。應該理解的是,在保持與實施方式一致的同時,用戶裝置 102表示用戶裝置102a、102b、102c和102d的任何一者並且可以包括上述元件的任何子集。此外,實施方式涵蓋基地台114a和114b和/或基地台114a和114b表示的節點,諸如但不限於收發器站(BTS)、節點B、網站控制器、存取點(AP)、家用節點B、演進型家用節點B(e節點B)、家用演進型節點B(HeNB)、家用演進型節點B閘道以及代理節點,除此之外還包括第1B圖以及此處描述的部分或所有元素。
處理器118可以是通用目的處理器、專用目的處理器、常規處理器、數位訊號處理器(DSP)、多個微處理器、與DSP核心相關聯的一或複數微處理器、控制器、微控制器、專用積體電路(ASIC)、現場可程式設計閘陣列(FPGA)電路、其他任何類型的積體電路(IC)、狀態機等。處理器118可以執行信號編碼、資料處理、功率控制、輸入/輸出處理和/或使得用戶裝置 102能夠操作在有線或無線環境中的其他任何功能。處理器118可以耦合到收發器120,該收發器120可以耦合到發射/接收元件122。儘管第1B圖中將處理器118和收發器120描述為分別的組件,應該理解的是處理器118和收發器120可以被一起整合到電子封裝或者晶片中。
發射/接收元件122可以被配置成通過空中介面115/116/117或通訊鏈路119將信號發送到基地台(例如基地台114a),或者從基地台(例如基地台114a)接收信號。例如,在一種實施方式中,發射/接收元件122可以是被配置成發送和/或接收RF信號的天線。在另一實施方式中,發射/接收元件122可以是被配置成發送和/或接收例如IR、UV或者可見光信號的發射器/檢測器。在又一實施方式中,發射/接收元件122可以被配置成發送和接收RF信號和光信號兩者。在又一實施方式中,發射/接收元素可以為有線通訊埠諸如乙太網埠。應該理解的是發射/接收元件122可以被配置成發送和/或接收有線或無線信號的任意組合。
此外,儘管發射/接收元件122在第1B圖中被描述為單個元件,但是用戶裝置 102可以包括任何數量的發射/接收元件122。更特別地,用戶裝置 102可以使用MIMO技術。因此,在一種實施方式中,WTRU 102可以包括兩個或更多個發射/接收元件122(例如多個天線)以用於通過空中介面115/116/117發射和接收無線信號。
收發器120可以被配置成對將由發射/接收元件122發送的信號進行調變,並且被配置成對由發射/接收元件122接收的信號進行解調。如以上所述,用戶裝置 102可以具有多模式能力。因此,收發器120可以包括多個收發器以用於使得用戶裝置 102能夠經由多個RAT進行通訊,例如UTRA和IEEE 802.11。
用戶裝置102的處理器118可以被耦合到揚聲器/麥克風124、數字鍵盤126和/或顯示器/觸控板128(例如,液晶顯示(LCD)單元或者有機發光二極體(OLED)顯示單元),並且可以從上述裝置接收使用者輸入資料。處理器118還可以向揚聲器/麥克風124、數字鍵盤126和/或顯示器/觸控板128輸出資料。此外,處理器118可以存取來自任何類型的合適的記憶體中的資訊,以及在任何類型的合適的記憶體中儲存資料,該記憶體例如可以是不可移除記憶體130和/或可移除記憶體132。不可移除記憶體130可以包括隨機存取記憶體(RAM)、可讀記憶體(ROM)、硬碟或者任何其他類型的記憶體儲存裝置。可移除記憶體132可以包括訂戶身分模組(SIM)卡、記憶棒、安全數位(SD)記憶卡等類似裝置。在其它實施方式中,處理器118可以存取來自實體上未位於用戶裝置 102(諸如伺服器或者家用電腦(未示出))上的記憶體的資料,以及在上述記憶體中儲存資料。
處理器118可以從電源134接收電力,並且可以被配置成將電力分配給用戶裝置 102中的其他元件和/或對至用戶裝置 102中的其他元件的功率進行控制。電源134可以是任何適用於給WTRU 102供電的裝置。例如,電源134可以包括一或複數乾電池(鎳鎘(NiCd)、鎳鋅(NiZn)、鎳氫(NiMH)、鋰離子(Li-ion)等)、太陽能電池、燃料電池、牆面插座等。
處理器118還可以耦合到GPS晶片組136,該GPS晶片組136可以被配置成提供關於用戶裝置 102的目前位置的位置資訊(例如經度和緯度)。WTRU 102可以通過空中介面115/116/117從基地台(例如基地台114a,114b)接收加上或取代GPS晶片組136資訊之位置資訊,和/或基於從兩個或更多個相鄰基地台接收到的信號的定時來確定其位置。應該理解的是,在保持與實施方式一致的同時,用戶裝置 102可以通過任何合適的位置確定方法來獲取位置資訊。根據實施方式,用戶裝置102不包括GPS晶片組並且不獲取位置資訊。
處理器118還可以耦合到其他週邊設備138,該週邊設備138可以包括提供附加特徵、功能性和/或無線或有線連接的一或複數軟體和/或硬體模組。例如,週邊設備138可以包括加速度計、電子指南針(e-compass)、衛星收發器、數位相機(用於照片或者視訊)、通用序列匯流排(USB)埠、震動裝置、電視收發器、免持耳機、藍芽®模組、調頻(FM)無線電單元、數位音樂播放機、媒體播放機、視訊遊戲播放機模組、網際網路瀏覽器等等。變焦編碼。
第2圖描繪了被用於從伺服器到用戶的串流傳送的在適應性位元速率機制的背景中的變焦編碼的整體串 流。如所示,第2圖描繪了系統200,其包括輸入視訊串流202,適應性位元速率編碼器204,變焦編碼編碼器(zoom coding encoder)208,串流傳送伺服器216,包括內容分發網路214的網際網路協定(IP)網路212,以及用戶裝置218A-C。該示例系統200可以發生在第1A圖所描述的示例通訊系統100的環境中。例如,適應性位元速率(ABR)編碼器204和串流傳送伺服器216兩者都可以是在通訊系統100中描述的任何網路中的實體。用戶裝置218A-C可以是在通訊系統100中描述的用戶裝置102a-d。
變焦編碼編碼器208接收未壓縮或先前壓縮格式的源視訊串流,將源視訊串流編碼或轉碼為多個變焦編碼串流210,其中每個變焦編碼串流代表整體源視訊串流的一部分(例如,片段,分段或象限)。變焦編碼串流以比傳統的降低解析度的ABR串流更高的解析度編碼。在一些實施例中,變焦編碼串流以完全捕獲解析度編碼。考慮源視訊串流具有4K的解析度的實施例。相應的ABR表示可以是在HD解析度和較低解析度。相應的變焦編碼串流也可以是在HD解析度,但這對應於變焦區段的捕獲解析度。這裡,變焦編碼串流由第一表示的第一物件的串流210-A,第二表示的第一物件的串流210-B表示,並且任何其他數量的物件和表示由串流210-N 描述。
在使用將視訊串流從一種壓縮格式轉換為另一種壓縮格式的轉碼的實施例中,執行解碼處理,其使視訊返回到在其全解析度的未壓縮域,接著是創建例如表示不同解析度、位元速率或畫面速率的新的壓縮視訊串流之重新編碼程序。變焦編碼串流210可以源視訊的原始解析度和/或以一或複數較低解析度編碼。在一些實施例中,變焦編碼串流的解析度高於未變焦ABR串流的解析度。變焦編碼串流被傳送到串流傳送伺服器或被放置到串流傳送伺服器上以進一步傳送到用戶裝置。在一些實施例中,ABR編碼器204和變焦編碼編碼器208(coding encoder)是相同的編碼器,被配置為將源視訊編碼為ABR串流和變焦編碼串流。
根據實施例,適應性位元速率編碼器204或轉碼器接收未壓縮或壓縮的輸入視訊串流,並將視訊串流編碼或轉碼為多個表示206。多個表示可以改變解析度、畫面速率、位元速率和/或等等,並且由串流206-A、206-B和206-N表示。根據多個表示的編碼視訊串流可以被傳送到串流傳送伺服器216。串流傳送伺服器216經由網路(212和/或214)將編碼視訊串流傳送到用戶裝置218A-C。傳輸可以通過任何可用的通訊介面(例如通訊鏈路115/116/117或119)發生。變焦編碼內容的解譯。
一般來說,對於給定視訊序列,可能創建任何數目的變焦編碼串流,其中至少一些變焦編碼串流與一或複數以上跟蹤物件相關聯。被跟蹤物件可以是例如球、運動員、人、汽車、建築物、球門,或可以被跟蹤並且變焦編碼串流是可用的任何物件。
用於物件跟蹤的各種技術在例如A.Yilmaz,O.Javed,M.Shah,“Object Tracking-A Survey”,ACM Computing Surveys,第38卷,第4期,第13章,2006年12月中描述。基於內容的類型,編碼器可以從可用技術中進行選擇以跟蹤所關注的運動物件,並且因此可以產生一或複數以物件為中心的所關注區域。
示例場景如下。除了原始串流之外,編碼器還創建兩個額外的變焦編碼串流。編碼串流的可用性由串流傳送伺服器以帶外“清單”檔的形式傳送給用戶。這取決於編碼器多常改變要跟蹤的所關注物件來週期性地進行。串流資訊可以(x,y)座標以及關於每個變焦編碼串流選項的視窗大小的資訊的形式在用戶中有效地傳送。該串流資訊可以作為補充資料在清單資訊中發送。傳統用戶將忽略該串流資訊,因為它不能解譯該補充資料欄位。然而,能夠處理變焦編碼串流的用戶能夠解譯串流資訊並將其儲存以用於表現(例如,如果終端使用者請求使用變焦編碼特徵)。在一些實施例中,在正常觀看節目的程序中的終端使用者可以請求查看是否有任何變焦編碼串流可用。在一些實施例中,這可以來自遙控器的簡單IR命令的形式進行(例如,特殊一觸式按鈕,其可將請求發送回機上盒(STB)或其它用戶裝置,以在靜止的圖像上突出顯示對正被跟蹤並且因此可被請求觀看的其他變焦編碼物件)。在包括雙向交互裝置(諸如平板電腦或電話)的實施例中,介面可以更豐富。例如,使用者可以點擊雙向交互裝置的觸控式螢幕以產生可以識別可用的變焦編碼物件的介面作用,並且可以經由裝置的觸控式螢幕介面來實現對變焦編碼物件的選擇和/或交互。可以利用用戶裝置(或其遙控器)上的按鈕來實現請求,當按下時,該按鈕導致清單資訊的解譯和/或顯示,並且向使用者示出可以觀看什麼變焦編碼物件。
在一些實施例中,可以為跟蹤物件提供表現參考點或“表現點”,以指示與所跟蹤的所關注物件(或區域)的一或複數位置相關聯的表現位置。表現參考點可以例如指示在某個時間點包含所關注物件的可表現區域的位置(例如,角或原點)。表現參考點可以指示可表現區域的大小或範圍。表現參考點可以定義邊界方塊,其定義所關注的物件/區域或包含所關注的物件/區域的可表現區域的位置和範圍。用戶可以使用表現參考點資訊從一或複數變焦編碼串流或分段提取可表現區域,並且可以將該區域作為變焦所關注區域表現在用戶顯示器上。表現參考點可以被傳送到用戶裝置。例如,表現參考點可以作為視訊串流或視訊段的一部分在帶內傳輸,或者作為與視訊串流或視訊段一起發送的旁資訊傳輸。或者,可以在帶外通訊中(例如,作為諸如DASH MPD的檔案中的元資料)指定表現參考點。傳送到用戶的表現參考點可以在逐畫面的基礎上更新,這可以允許用戶連續地改變所提取的可表現區域的位置,並且因此可以在用戶顯示器上平滑地跟蹤所關注物件。或者,可以在時間上更粗略地更新表現參考點,在這種情況下,用戶可以在更新之間內插表現位置,以便當在用戶顯示器上顯示可表現區域時平滑地跟蹤所關注對象。表現參考點包括由(x, y)表示的兩個參數:垂直距離和水平距離。表現參考點可以例如作為補充增強資訊(SEI)訊息傳送到用戶裝置。
第3圖描繪了根據實施例的示例使用者介面表達。示例使用者介面允許使用者選擇變焦編碼串流以供觀看。如圖所示,第3圖描繪了視圖300,其包括用戶裝置,在用戶裝置上顯示具有對應於三可用變焦編碼串流的三區域的靜態圖像,然而任何數量的可用變焦編碼串流都是可能的。儘管第3圖描繪了靜態圖像,但是用戶裝置可以表達視訊串流,並且當不同物件改變視訊串流內的位置時,可以在顯示中突出顯示每個區域的位置。區域310描繪了捕獲足球運動員的變焦編碼串流,區域320描繪了捕捉足球的變焦編碼串流,而區域330描繪了捕捉球門的變焦編碼串流。區域310、320和330被示出以說明變焦編碼串流可以跟蹤人(或動物),物件(足球)和/或區域(球門區域),然而這不應被解譯為限制。第3圖中給出的示例是用於足球,但不應被認為是限制性的。
在第3圖中,除了編碼正常節目之外,編碼器創建所關注物件的變焦編碼串流(例如,對應於不同區域310、320和330)。變焦編碼串流可以表示在視訊內容中跟蹤的物件的變焦視圖(例如,全解析度視圖)。識別和/或提供對變焦編碼串流(例如每個所關注物件的興趣物件識別符)的存取的資訊可以或者在視訊內容的帶內或者在帶外被恒定地傳送(例如在清單檔案中,其可以被週期性地更新)。在一些實施例中,當使用者請求關於哪些變焦編碼視圖可用的資訊時,使用者接收具有圖形覆蓋(例如,第3圖中描述的矩形方塊310、320和330)的靜態圖像表示(例如,由用戶解碼的最後畫面或最近的即時解碼器刷新(IDR)畫面),其可以識別變焦編碼串流選項。在一些實施例中,變焦編碼表示視圖可以是較低解析度壓縮視訊序列的形式。在一些實施例中,覆蓋表示的顏色可以根據底層靜態圖像的背景資訊(例如背景顏色和/或紋理)而變化。然後可以與背景形成對比的一種或多種顏色來表達方塊。在其他實施例中,方塊的顏色是使用者可選擇的。在不同的實施例中,向使用者提供用於選擇可用物件的不同選項。在第一實施例中,由用戶裝置表達的顯示器底部的時間線指示器示出(例如,通過顏色編碼)一或複數可變焦/可跟蹤的所關注物件是否在過去可用(例如,在直播串流傳送情況)。在示例性隨選視訊(VOD)回放系統中,存在前向和後向時間線,其通過顏色編碼和圖例指示一或複數所關注物件的過去和未來可用性,以指示如何解譯顏色編碼。在這樣的實施例中,頭端可以向用戶裝置傳送關於物件的可用性(在直播的過去中,或者在隨選的過去和未來兩者中)的元資料。用戶裝置解譯元資料。關於物件的可用性的資訊隨後連續地或根據需要顯示給使用者,從而使得能夠選擇這樣的可用物件或所關注區域。本文描述的實施例通過將變焦編碼清單資訊轉換為用戶裝置處的使用者介面元素來操作,這使得終端使用者在視覺上容易理解什麼變焦編碼串流可用(以及可能在沿著時間線的什麼時間變焦編碼串流可用)並選擇可用串流。
存在來自伺服器的元資料資訊的許多替代使用者介面表達。在第3圖中,示出了使用具有由邊界方塊勾勒出的可跟蹤物件的靜態圖像的實施例。在替代實施例中,不是覆蓋在靜態圖像上,而是將使用者介面覆蓋在運動圖像上,例如視訊圖像(例如,迴圈視訊短片被標記以識別突出顯示的物件)。
第4圖描繪了根據實施例的第二示例使用者介面表達。類似於第3圖的視圖300,第4圖描繪了包括用戶裝置的視圖400,用戶裝置顯示正被跟蹤的視訊內的特定物件隨時間的表示。在一些實施例中,該表示可用於VOD內容。在內容表達的開始,傳達指示包含特定運動員的變焦編碼串流的元資料(當在該體育示例中使用運動員時,變焦編碼串流可以指變焦編碼串流可用的任何被跟蹤物件)。使用者可以使用使用者介面選擇要跟蹤的運動員。基於使用者對要跟蹤的運動員的選擇,將包含所選擇的運動員或所選運動員的部分的不同的變焦編碼段從VOD伺服器傳送到用戶裝置。
視圖400包括與第3圖相同的視訊內容圖像,並且分別跟蹤310/320/330的相同人/物件/區域。然而,儘管第3圖的圖形覆蓋示出了整個變焦編碼串流(如果被選擇則將在螢幕上顯示的)的區域,第4圖突出顯示可用變焦編碼串流內的所關注部分。例如,圖形覆蓋410突出顯示足球運動員的面部,然而如果選擇區域410則可以被顯示的變焦編碼串流可以是第3圖中的圖形覆蓋310突出顯示的區域。類似地,圖形覆蓋420僅突出顯示足球,但是如果選擇420,則可以顯示包括足球的更大的區域(例如第3圖的區域320)。第4圖進一步描繪了顯示器介面中的側面板440。側面板440可以包括(但不限於)可用變焦編碼串流的突出顯示的物件的圖片,以及可以用於選擇期望的變焦編碼串流的數字索引。元資料(例如,在諸如傳遞給用戶的MPD檔案的清單檔案中)可以包含識別所關注部分(例如所關注部分410、420和430)的資訊,其可以對應於變焦編碼串流可用所針對的可跟蹤對象。
第5圖描繪了顯示介面的第三示例使用者介面表達。如圖所示,第5圖描繪了與視圖300和400類似的視圖500,但是進一步包括物件標示的時間線指示符550。時間線指示符可以用於顯示某些所關注物件或其相關聯的變焦編碼串流可用的時間點(例如,時間間隔)。在第一實施例中,時間線指示符可以描述多個變焦編碼串流,如第5圖所示。每個變焦編碼串流的時間指示可以是彩色編碼的,或者包括不同的模式(如圖所示)以便在它們之間進行區分。在一些實施例中,可以給出圖例。在第5圖中在側板內繪示了圖例。然而,其他實施例也是可用的。通常,多個串流可在相同時刻可用,並且可能難以辨別在重疊期間一些變焦編碼串流何時可用。在第5圖中,時間指示510和520(分別表示物件410和420的可用性)重疊,並且可能難以判斷何時510結束或何時520開始。在一些實施例中,使用者可以選擇變焦編碼串流,並且時間線指示符將僅顯示所選變焦編碼串流的可用時間。這樣的實施例在第6圖的視圖600中示出。
第6圖描繪了根據實施例的第四示例使用者介面表達。第6圖中,使用者已經選擇了與足球運動員410相關聯的變焦編碼串流,並且僅示出了用於所選變焦編碼串流的時間指示。
在另外的實施例中,可以示出一或複數所關注物件的所有可用的變焦編碼片段的表示。可以使用具有顏色編碼或模式編碼區域的單個時間線列,如第6圖所示。替代的視覺描繪可以使用多個時間線列,其中多個時間線列中的每一對應於變焦編碼串流可用的被跟蹤物件。多個時間線列可以以垂直不相交或堆疊的形式顯示,使得使用者能夠清楚地解譯在可用性方面重疊的多個物件的相同時間間隔。如第6圖的示例所示,物件可以是運動中的運動員。向終端使用者顯示針對整個序列的特定運動員的所有可用的變焦編碼片段。甚至進一步的實施例包括所有物件的所有變焦編碼序列。為了實現該特徵,頭端將傳送具有以下資訊的帶外元資料(其可以是私有資料的形式):         - 總內容長度         - 被跟蹤物件的總數(包括無生命物件、特徵和所關注區域(ROI)等)         - 對於每個跟蹤對象,跟蹤的開始時間和持續時間的指示。如果物件出現多   次,則提供關於實體出現的每個時間的開始時間和持續時間的資訊。          - 對於每個被跟蹤物件,指定對應於至少一示例畫面(例如,使用者介面可以被覆蓋於上的“靜態畫面”)的被跟蹤對象(見第3圖)的矩形方塊或突出顯示邊界的資訊。 - 對於每個跟蹤物件,指定對應於至少一示例畫面(例如使用者介面可以覆蓋於上的“靜態畫面”)的跟蹤物件(第4圖)的變焦編碼串流內的代表性所關注部分的資訊。
在用戶裝置處,可以以各種方式解譯和表達上述元資料。例如,在一實施例中,聚集資訊可以在螢幕的底部表達,其中時間線和物件/特徵/ ROI在側面板上的圖像中顯示,如第5圖所示。在一些實施例中,當正在跟蹤角色或物件時,在螢幕上示出所有可跟蹤物件或腳色,並且向使用者提供僅選擇所關注的物件或腳色的選項。在一些實施例中,然後,向使用者表達針對每個運動員/所關注物件在個體化基礎上的時間線(例如,使用者可能已經在使用者介面中或通過偏好設定選擇為使用者所關注的每個物件)。然後向使用者提供在個體基礎或其組合上選擇這些實體中的每一個的能力。
在示例性實施例中,針對在觀察瀏覽時間窗內變焦編碼串流的可用性,終端使用者在觀察時間窗內被視覺化地提示(例如,利用在時間線軸下方的帶的圖像或顏色選擇)。然後,終端使用者可以快進、倒回或搜索變焦編碼串流或所關注串流的附近(例如,使用IR遙控器,觸控式螢幕介面或其他合適的輸入裝置)。例如,使用者可以使用這樣的輸入裝置來選擇或觸摸物件標注的時間線的一部分,以便在可用時間選擇所關注物件,並且作為回應,用戶裝置可以請求、檢索、解碼和顯示在所選擇的時間開始的相關聯的變焦編碼串流的片段。這可以使用如第5圖和第6圖所示的單個時間線視圖來完成,或者可以使用之前描述的多個“堆疊”時間線視圖來完成。在任一種情況下,使用者沿著物件標注的時間線的單個選擇動作可以同時選擇要顯示的變焦編碼的物件以及顯示物件所需的尋找時間。在另一實施例中,通過重複選擇或觸摸表示角色/物件的圖像,向使用者提供跳到相同角色/物件的特定變焦編碼串流的能力。在直播內容中,這樣的特徵僅可用於過去,但是對於VOD內容,可以針對相對於目前觀看時間的兩個方向(過去和未來)的資料提供這樣的特徵。所有這些機制是可能的,因為如所述的使用通過HTTP的動態適應性串流傳送(DASH)或其他適當機制,描述在每個角色/物件基礎上的變焦編碼串流的元資料是可用的(在直播的過去中並且在VOD的兩個方向上)。相關資料從頭端發送到用戶裝置。這使得用戶裝置能夠向終端使用者可視地表達該資訊以使得能夠容易地進行交互作用。
在另一實施例中,用戶裝置(基於終端使用者對使用者所關注的一或複數跟蹤物件的選擇)僅將包含所跟蹤的使用者所關注物件的場景或區域(例如,時間線間隔)連接(concatenate)在一起。然後,用戶裝置可以向終端使用者表達具有自動編輯的動作的拼貼,其例如將所關注的物件、運動員或場景的變焦編碼串流縫合在一起。在一些實施例中,基於使用者的過去觀看體驗,用戶裝置被提示基於輸入資料自動選擇某些物件/特徵/ ROI。例如,如果使用者過去傾向於在觀看特別足球隊的視訊內容時選擇特別足球運動員,則用戶裝置可以識別目前視訊表達中同一足球運動員可用為變焦編碼串流,並且因此用戶可以自動選擇相同的足球運動員,以便向使用者表達該足球運動員的變焦編碼串流內容。其他眾所周知的屬性,諸如比賽中的運動員的球衣編號或他們的名字,可以由使用者在使用者簡檔中或在遊戲開始時或在觀看會話期間預先選擇。利用該資訊,可能為終端使用者特定地創建涉及該運動員的場景的個性化拼貼。在用戶中使用 MPEG-DASH 的變焦編碼賦能的示例。
MPEG-DASH(ISO / IEC 23009-1:2014)是定義用於IP網路上的媒體傳送的適應性串流傳送協定的新的ISO標準。 DASH預期將被廣泛使用(代替目前的專有方案,例如Apple HLS,Adobe Flash和微軟Silverlight)。以下實施例概述了使用MPEG DASH的變焦編碼的傳遞。
在一些實施例中,變焦編碼系統中的用戶裝置遵循以下程序:                     1)確定變焦編碼表示可用以及如何訪問該內容。這使用MPD(媒體表達描述符)中的語法用信號通知DASH用戶。如ISO DASH標準的修正2中所述,MPD提供“補充串流”。該補充串流可用於變焦編碼。在一些實施例中,空間關係描述符(SRD)語法元素描述圖像的空間部分(參見ISO 23009-1AM2的附錄H)。 2)使用視訊位元串流中提供的物件表現點來表現具有正在跟蹤的物件的運動的變焦區段。例如,可以在用於一或複數片段的使用者資料中發送物件(或多個物件)表現點作為補充增強資訊(SEI)訊息。可以用信號通知每個片段的零個或多個物件。
在示例性實施例中,用於物件表現點的片段使用者資料包括以下資訊:Object_ID :範圍0-255。此語法元素為每個物件提供唯一的識別符。Object_x_position [n] :對於每個物件ID n,物件邊界方塊的x位置。Object_y_position [n] :對於每個物件ID n,物件邊界方塊的y位置。Object_x_size_in_slice [n] :對於每個物件ID n,物件邊界方塊的  x_dimension(x尺寸)。Object_y_size_in_slice [n] :對於每個物件ID n,物件邊界方塊的y_dimension(y尺寸)。
物件邊界方塊表示包圍物件的矩形區域。在示例性實施例中,(x, y)位置是對象邊界方塊的左上角位置。在某些畫面期間,一些物件可以在多於1個片段上被分割。在這種情況下,物件位置和大小可以屬於包含在包含使用者資料的片段中的物件的部分。
上述位置和大小資料可以是以片段為中心的,並且可以不描述整個物件的位置和大小。物件邊界方塊可以是給定物件的所有以片段為中心的矩形邊界方塊的聯合。
在一些實施例中,整個物件邊界方塊可能不是矩形的。然而,為了在標準矩形螢幕上顯示之目的,這裡將物件邊界方塊的這些聯合示為矩形。
使用Object_ID以及在用戶裝置中的位置和大小資訊,可以在螢幕上表現區域。該資訊可以通過SEI訊息來更新(例如週期性地或不斷地更新)。如第3圖所示,三所關注物件具有可用的變焦編碼串流,並且可以被表達為分別的變焦區域。它們每一個將具有不同的Object_ID,並且將隨著時間而不同地演變。
在示例性實施例中,當使用者在用戶裝置上進行選擇(例如通過按下按鈕)以獲得關於可以被下載/跟蹤的變焦編碼串流的資訊時,用戶裝置通過在靜態圖像上顯示邊界方塊來回應。在一些實施例中,靜態圖像是儲存在伺服器上的視訊畫面。靜態圖像可以是由用戶從從伺服器接收的視訊段解碼的單個圖像。靜態圖像可以是例如由用戶最近解碼的畫面,最近接收的IDR畫面或由用戶選擇以包含所有可用跟蹤物件或最大數量的可用跟蹤物件的畫面。其他替換方式包括使用特定角色的範本手動標注序列。例如,靜態圖像可以是在序列中被跟蹤的運動員的圖像。使用者可以例如識別運動員並請求該角色的所有可用的變焦編碼串流。
使用者通過例如滑鼠或簡單的編號或顏色編碼機制提供輸入以選擇一或複數變焦編碼物件。基於使用者輸入,伺服器開始將適當的變焦編碼串流以串流傳送到使用者的用戶裝置。在第3圖中,例如,使用者可以拾取物件320(足球)。使用者對物件320的選擇被轉換為適當的串流請求,其被發送到伺服器。串流請求可以請求對應於所選物件的單個變焦編碼串流,或者它可以請求對應於一起組成所選物件的部分或片段的多個變焦編碼串流。然後,伺服器向用戶裝置提供一或複數變焦編碼串流,並且在該示例中,顯示所選擇的所關注的物件(足球)。
第7圖描繪了根據實施例的包括向使用者表達變焦編碼串流的變焦編碼方案的總體流程的示例。第7圖描繪了說明串流傳送伺服器702、網路伺服器704、用戶裝置706和終端使用者708之間的交互作用的流程700。
當終端使用者708作出節目請求時(在710),用戶裝置向網路伺服器704發送請求訊息(在712),並且網路伺服器704將該請求重定向(在712-716)到適當的串流傳送伺服器702。串流傳送伺服器702向使用者的用戶裝置706下發媒體表達描述符檔(包括變焦編碼串流選項)的適當清單(在718)。然後解碼和顯示正常節目(在720)。(例如,該正常節目可以對應於如第2圖所示的傳統ABR串流中的一或複數,其可以由用戶選擇和/或請求)。當終端使用者708做出查看什麼變焦選項可用的請求時(在722),用戶裝置706例如在靜止圖像上創建可用變焦選項串流的組合物(例如在724),並將該靜止圖像發送到用戶裝置706上的顯示器。終端使用者708然後進行使用者想要跟隨的變焦編碼串流的選擇(在726處)。在一些實施例中,這可以通過適當地將箭頭移動到圖像的位置使用高級遙控器來完成。在標準遙控器上,可以採用數字選擇機制,其中每個區域用數字標記,然後使用數字鍵盤選擇該數字。替代地,終端使用者708可以使用遙控器上的方向鍵(上、下、左、右)在選擇之間導航,並且可以按遙控器上的按鈕以選擇目前突出顯示的物件或物件部分。當終端使用者708選擇特定變焦節目時,用戶裝置706將請求發送回(在728)串流傳送伺服器702,串流傳送伺服器702隨後傳遞(在730)變焦串流的適當表示。(變焦串流可以像常規ABR串流一樣適應網路條件)。用戶裝置706然後解碼並且顯示(在732)變焦串流(向終端使用者708)。基於使用者輸入的用戶與網路交換。
在至少一實施例中,請求變焦編碼資訊的用戶裝置執行以下步驟:           a)用戶裝置接收包含關於可用變焦編碼串流和什麼片段構成目前變焦編 碼畫面之資訊的“清單”(或媒體表達描述符,DASH中的MPD)。            b)用戶裝置在使用者介面上向終端使用者表達清單資訊。可以以各種方 式表達對終端使用者可用的元資料。一例子是具有可跟蹤物件的靜態圖像。另一視圖是可以在指定時間視窗中跟蹤的所有物件的清單。又一表示是可以例如利用遙控器選擇的物件號。使用者介面可以例如採取第3圖至第6圖中所示的任何形式。           c)用戶裝置從使用者接收使用者希望觀看的變焦串流的選擇。使用者的選  擇被轉換成由用戶裝置發送到伺服器的請求。與請求的串流相對應的片段被向下發送到用戶裝置。如果帶內方法用於表現點資訊的傳輸,則串流在適當的一或複數片段中包括表現點資訊。            d)如果變焦編碼串流是ABR編碼的,則用戶裝置請求變焦編碼串流的適當表示。            e)可以跟蹤多於一變焦編碼物件,並且這些變焦編碼物件中的每一個可以具有完全不同的、部分重疊或完全重疊的片段集合。每個集合的表現點資訊將針對每個這樣的集合被獨立地編碼,並且可以包含在不同的片段或相同的片段中。用戶裝置檢索適當的表現點(對應於目前變焦編碼的物件串流),並相應地應用表現點偏移。             f)當物件移動通過螢幕時(例如),可能存在表示新的變焦視圖的片段的改變。在這種情況下,可以更新清單以用信號通知該改變。(或者,可以使用其他機制來代替全新的清單。)然後,用戶裝置使用更新的清單資訊來適當地請求表示更新的視圖的片段集合。             g)在一些實施例中,用戶裝置請求個別地對應於目前物件串流的所有片段。在其他實施例中,用戶裝置使用物件ID發出請求,然後伺服器基於該物件ID遞送對應於目前物件串流的整個片段集合。(執行此操作的機制可能是帶內或帶外的。)               h)在一些實施例中,用戶裝置可以僅針對由使用者選擇的一或複數物件  可用的時間間隔請求變焦編碼串流資料。用戶裝置可以基於描述可用跟蹤物件並指示可用性時間的帶外元資料來確定適當的時間間隔。如前所述,這樣的元資料可以包括每個可用跟蹤物件的各種開始時間和跟蹤持續時間。
第8圖描繪了根據實施例的用於典型DASH類型會話的這種資訊交換(具有個別片段請求)的示例。特別地,第8圖描繪了典型的DASH類型會話交換的流程800。流程800描繪了DASH類型串流傳送伺服器802、網路伺服器804和DASH類型的終端使用者用戶806之間的交互作用。在808,網路伺服器804從用戶裝置806接收內容請求,並且提供串流傳送伺服器重定向到終端使用者用戶裝置806。在810,終端使用者用戶裝置806從串流傳送伺服器802請求內容並且接收MPD,MPD可以是具有變焦編碼串流可用性資訊的擴展MPD。在812,終端使用者用戶裝置806解譯可用的物件,解譯要為每個物件請求的片段,並且形成對第一片段的HTTP請求。在814,終端使用者用戶裝置806將第一片段的HTTP請求發送到串流傳送伺服器802,並從串流傳送伺服器802接收第一片段的HTTP回應。在816-818,終端使用者用戶裝置806針對所請求的每個附加片段重複812-814。在820,終端使用者用戶裝置806組成用於所請求的物件的變焦編碼串畫面以用於顯示。對DASH的一些擴展可以被實施以支援跟蹤具有可能需要被檢索以表現那些物件的重疊片段的多個物件的功能。(術語“DASH類型”在這裡是指使用在DASH中尚未實施的特徵的交換)。其他變形
在一些實施例中,在子母畫面顯示類型的顯示器中,可以以完全原始解析度提供變焦編碼資訊的多個視圖。在一些實施例中,各種變焦編碼視圖以平鋪格式表達。
一些實施例使得能夠利用單觸機制(在遠端或鍵盤或平板電腦處)在整體未變焦視圖和變焦編碼視圖之間進行平滑切換,
在一些實施例中,用戶裝置允許自動切換到變焦編碼視圖(即使沒有使用者被提示)。這樣的實施例可能吸引僅僅想要跟蹤使用者的所關注物件的使用者。在這樣的實施例中,使用者能夠在不經過突出顯示機制的情況下跟蹤所關注的物件。作為示例,使用者可以在他們的用戶裝置中設置每當運動員在照相機的視野中時他們希望看到他們喜歡的運動員的變焦編碼視圖的偏好。一些這樣的實施例結合了訓練模式,以用於使用者在表達之前指定這樣的偏好。
第9圖描繪了根據實施例的示例方法。特別地,第9圖描繪了方法900。方法900包括在902處接收第一表示和識別符,在904處顯示第一表示和識別符,在906處發送對第二表示的請求,在910處接收第二表示,及在912處使得顯示第二表示。
在902,從內容伺服器接收視訊串流的第一表示和所關注物件識別符。所關注物件識別符指示視訊串流中描繪所關注物件的部分的第二表示的可用性。在904,使得視訊串流的第一表示和所關注物件識別符在用戶裝置處顯示。在906,回應於使用者對視訊串流的該部分的第二表示的選擇(例如,由使用者選擇所顯示的所關注物件識別符),針對視訊串流的該部分的第二表示的請求被發送到內容伺服器。在910處,接收視訊串流的該部分的第二表示,且在912處,顯示視訊串流的該部分的第二表示。
雖然本發明的特徵和元素以特定的結合在以上進行了描述,但本領域普通技術人員可以理解的是,每個特徵或元素可以在沒有其它特徵和元素的情況下單獨使用,或在與本發明的任何其它特徵和元素結合的各種情況下使用。此外,以上描述的流程可以在由電腦或處理器執行的電腦程式、軟體或韌體中實施,其中該電腦程式、軟體或韌體被包含在電腦可讀儲存媒體中。電腦可讀儲存媒體的實例包括但不侷限於唯讀記憶體(ROM)、隨機存取記憶體(RAM)、暫存器、快取記憶體、半導體記憶裝置、磁媒體(例如但不限於,內部硬碟及抽取式磁碟)、磁光媒體和CD-ROM光碟和數位多功能光碟(DVD)之類的光媒體。與軟體有關的處理器可以被用於實施在WTRU、UE、終端、基地台、RNC或任何主機電腦中使用的無線電頻率收發器。
100‧‧‧通訊系統
102、102a、102b、102c、102d、706‧‧‧用戶裝置
103、104、105‧‧‧無線電存取網路(RAN)
106、107、109‧‧‧核心網路
108‧‧‧公共交換電話網路(PSTN)
110‧‧‧網際網路
112‧‧‧其他網路
114a、114b‧‧‧基地台
115、116、117‧‧‧空中介面
118‧‧‧處理器
120‧‧‧收發器
122‧‧‧發射/接收元件
124‧‧‧揚聲器/麥克風
126‧‧‧數字鍵盤
128‧‧‧顯示器/觸控板
130‧‧‧不可移除記憶體
132‧‧‧可移除記憶體
134‧‧‧電源
136‧‧‧全球定位系統(GPS)晶片組
138‧‧‧週邊設備
200‧‧‧系統
202‧‧‧輸入視訊串流
204‧‧‧適應性位元速率編碼器
206‧‧‧多個表示
208‧‧‧變焦編碼編碼器(zoom coding encoder)
210‧‧‧變焦編碼串流
212‧‧‧網際網路協定(IP)網路
214‧‧‧內容分發網路
216‧‧‧串流傳送伺服器
218A、218B、218C‧‧‧用戶裝置
300、400、500、600‧‧‧視圖
310、320、330‧‧‧區域
410、420、430‧‧‧圖形覆蓋
440‧‧‧側面板
510、520‧‧‧時間指示
550‧‧‧時間線指示符
700、800‧‧‧流程
702、802‧‧‧串流傳送伺服器
704、804‧‧‧網路伺服器
708‧‧‧終端使用者
806‧‧‧終端使用者客戶裝置
900‧‧‧方法
DASH‧‧‧動態適應性串流傳送
更詳細的理解將從結合附圖作為示例呈現的以下描述中獲得。附圖(其中類似的附圖標記在分別的視圖中指代相同或功能類似的元件)與以下的詳細描述一起,被併入和形成說明書的一部分,用作進一步描述包括要求保護的發明的概念的實施方式,並且解釋那些實施方式中的各種規則和益處。 第1A圖描繪了可以實施一或複數揭露實施方式的示例通訊系統。 第1B圖描繪了在第1A圖的通訊系統範圍內使用的示例用戶裝置。 第2圖描繪了根據實施方式的示例編碼系統。 第3圖描繪了根據實施方式的示例使用者介面表達。 第4圖描繪了根據實施方式的第二示例使用者介面表達。 第5圖描繪了根據實施方式的第三示例使用者介面表達。 第6圖描繪了根據實施方式的第四示例使用者介面表達。 第7圖描繪了根據實施方式的包括向使用者表達變焦編碼串流的變焦編碼方案的總體流程的示例。 第8圖描繪了根據實施方式的用於通過HTTP的示例動態適應性串流傳送(DASH)類型會話的資訊交換(具有個別的片段請求)示例。 第9圖描繪了根據實施方式的示例方法。 本領域技術人員將理解,附圖中的元件是為了簡單和清楚而示出的,並且不一定按比例繪製。例如,附圖中的一些元件的尺寸可以相對於其他元件被放大,以有助於改進對本發明的實施例的理解。 在附圖中已經通過常規符號適當地表示了系統和方法元件,僅示出了與理解本發明的實施例相關的那些具體細節,以便不會使本揭露內容與對於那些本領域普通技術人員受益於此處的描述將是顯而易見的細節混淆。
102‧‧‧用戶裝置
115、116、117‧‧‧空中介面
118‧‧‧處理器
120‧‧‧收發器
122‧‧‧發射/接收元件
124‧‧‧揚聲器/麥克風
126‧‧‧數字鍵盤
128‧‧‧顯示器/觸控板
130‧‧‧不可移除記憶體
132‧‧‧可移除記憶體

Claims (16)

  1. 一種方法,該方法包括: 從一內容伺服器接收一視訊串流的一第一表示和所關注物件識別符,該所關注物件識別符指示該視訊串流中描繪所關注之一物件的部分的一第二表示的可用性; 造成所述視訊串流的該第一表示和所關注物件識別符之該顯示; 回應於使用該所關注物件識別符對該視訊串流的該部分的該第二表示的一選擇,向該內容伺服器發送對該視訊串流的該部分的該第二表示的一請求; 接收該視訊串流的該部分的該第二表示; 以及 造成該視訊串流的該部分的該第二表示之該顯示。
  2. 如申請專利範圍第1項所述的方法,其中描繪該所關注物件的該視訊串流的所述部分是該視訊串流的一放大部分。
  3. 如申請專利範圍第1項至第2項中任一項所述的方法,其中該所關注物件是該視訊串流中的一被跟蹤物件。
  4. 如申請專利範圍第1項至第3項中任一項所述的方法,其中,造成該所關注物件識別符之該顯示包括顯示覆蓋在該視訊串流的該第一表示上的圍繞該視訊串流的該部分的一矩形。
  5. 如申請專利範圍第1項至第4項中任一項所述的方法,其中,造成該所關注物件識別符之該顯示包括顯示描述該所關注物件的文本。
  6. 如申請專利範圍第1項至第5項中任一項所述的方法,其中,造成該所關注物件識別符之該顯示包括顯示該所關注物件的一靜止圖像。
  7. 如申請專利範圍第1項至第6項中任一項所述的方法,該方法還包括顯示接近該所關注物件識別符的一數位,並且其中該使用者選擇包括該所顯示的數位的一使用者選擇。
  8. 如申請專利範圍第1項至第7項中任一項所述的方法,其中,造成該所關注物件識別符之該顯示包括顯示指示該視訊串流期間該視訊串流的該部分的該第二表示可用的時間的一時間線。
  9. 如申請專利範圍第1項至第8項中任一項所述的方法,其中,造成該所關注物件識別符之該顯示包括在一側邊欄功能表中顯示該所關注物件識別符。
  10. 如申請專利範圍第1項至第9項中任一項所述的方法,其中該視訊串流的該第一表示處於一第一位元速率,並且該視訊串流的該部分的第二表示處於不同於該第一位元速率的一第二位元速率。
  11. 如申請專利範圍第8項至第10項中任一項所述的方法,其中該時間線針對至少兩個不同所關注物件顯示該視訊串流的該部分的第二表示的可用性的指示,其中每個不同所關注物件的可用性的一指示由一不同的顏色指示。
  12. 如申請專利範圍第8項至第11項中任一項所述的方法,其中該時間線包括具有多個列的一堆疊時間線,該多個列中的每一列對應於一第二表示可用的一不同跟蹤物件。
  13. 如申請專利範圍第8項至第12項中任一項所述的方法,其中: 該選擇包括沿著該時間線的一期望的回放時間,以及 造成該視訊串流的該部分的該第二表示之顯示包括在該期望的回放時間顯示該第二表示。
  14. 如申請專利範圍第1項至第13項中任一項所述的方法,其中該選擇是該第二表示的一使用者選擇。
  15. 如申請專利範圍第1項至第14項中任一項所述的方法,其中該選擇是該用戶裝置基於先前獲得的使用者偏好的一自動選擇。
  16. 一種視訊解碼器,該視訊解碼器包括一處理器和儲存操作性之指令的非暫時性儲存媒體,當該指令在該處理器上執行時執行一組功能,該組功能包括: 從一內容伺服器接收一視訊串流的一第一表示和一所關注物件識別符,該所關注物件識別符指示該視訊串流中描繪一所關注物件的部分的一第二表示的可用性; 造成該視訊串流的該第一表示和該所關注物件識別符兩者之該顯示; 回應於使用該所關注物件識別符對該視訊串流的該部分的該第二表示的該選擇,向該內容伺服器發送對該視訊串流的該部分的該第二表示的一請求; 接收該視訊串流的該部分的該第二表示;以及 造成該視訊串流的該部分的該第二表示之顯示。
TW105131005A 2015-10-01 2016-09-26 用戶變焦編碼內容解譯及表達方法及系統 TW201720170A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201562236023P 2015-10-01 2015-10-01

Publications (1)

Publication Number Publication Date
TW201720170A true TW201720170A (zh) 2017-06-01

Family

ID=57124137

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105131005A TW201720170A (zh) 2015-10-01 2016-09-26 用戶變焦編碼內容解譯及表達方法及系統

Country Status (3)

Country Link
US (1) US20180270515A1 (zh)
TW (1) TW201720170A (zh)
WO (1) WO2017058665A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117278537A (zh) * 2015-02-11 2023-12-22 Vid拓展公司 用于dash中的一般化http头的系统和方法
US11146608B2 (en) * 2017-07-20 2021-10-12 Disney Enterprises, Inc. Frame-accurate video seeking via web browsers
WO2019046095A1 (en) * 2017-08-30 2019-03-07 Vid Scale, Inc. VIDEO ZOOM FOLLOW
CN113453046B (zh) * 2020-03-24 2022-07-12 腾讯科技(深圳)有限公司 沉浸式媒体提供方法、获取方法、装置、设备及存储介质
US10939159B1 (en) * 2020-07-31 2021-03-02 Arkade, Inc. Systems and methods for enhanced remote control
CN113126863B (zh) * 2021-04-20 2023-02-17 深圳集智数字科技有限公司 对象选择实现方法及装置、存储介质及电子设备
US20230108426A1 (en) * 2021-10-05 2023-04-06 Tencent America LLC Method and apparatus for dynamic dash picture-in-picture streaming

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7796162B2 (en) * 2000-10-26 2010-09-14 Front Row Technologies, Llc Providing multiple synchronized camera views for broadcast from a live venue activity to remote viewers
US7876978B2 (en) * 2005-10-13 2011-01-25 Penthera Technologies, Inc. Regions of interest in video frames
EP2594080A4 (en) * 2010-07-12 2014-11-12 Cme Advantage Inc SYSTEMS AND METHOD FOR CONNECTED AND CONTEXT-INTEGRATED PICTURE DISPLAY WITH HIGH RESOLUTION
US8789095B2 (en) * 2012-05-15 2014-07-22 At&T Intellectual Property I, Lp Apparatus and method for providing media content
US9420331B2 (en) * 2014-07-07 2016-08-16 Google Inc. Method and system for categorizing detected motion events
US10200725B2 (en) * 2015-06-15 2019-02-05 Intel Corporation Adaptive data streaming based on virtual screen size

Also Published As

Publication number Publication date
US20180270515A1 (en) 2018-09-20
WO2017058665A1 (en) 2017-04-06

Similar Documents

Publication Publication Date Title
CN110036641B (zh) 一种处理视频数据的方法、设备及计算机可读存储介质
TW201720170A (zh) 用戶變焦編碼內容解譯及表達方法及系統
US10313417B2 (en) Methods and systems for auto-zoom based adaptive video streaming
US9384424B2 (en) Methods and systems for customizing a plenoptic media asset
US10623816B2 (en) Method and apparatus for extracting video from high resolution video
US9385913B2 (en) Method and system for sharing digital media content
US20140219634A1 (en) Video preview creation based on environment
WO2018049321A1 (en) Method and systems for displaying a portion of a video stream with partial zoom ratios
US20130081089A1 (en) Contents sharing method and display apparatus using the same
KR102190718B1 (ko) Dash 에서 피쉬아이 가상 현실 비디오에 대한 강화된 하이레벨 시그널링
US11240552B2 (en) Multi-stream placeshifting
KR20130138263A (ko) 케이블 텔레비전 시스템을 이용하는 비디오 장치들 간의 디지털 비디오의 스트리밍
WO2016199607A1 (ja) 情報処理装置および情報処理方法
JP6481206B2 (ja) 情報処理装置、コンテンツ要求方法およびコンピュータプログラム
CN111919452A (zh) 用于发送信号通知相机参数信息的系统和方法
AU2018299902A1 (en) Enhanced high-level signaling for fisheye virtual reality video
JP2019110542A (ja) サーバ装置、クライアント装置、コンテンツ配信方法およびコンピュータプログラム
CN107534797B (zh) 一种增强媒体记录的方法和系统
US20200014740A1 (en) Tile stream selection for mobile bandwith optimization
WO2017180439A1 (en) System and method for fast stream switching with crop and upscale in client player
WO2017030865A1 (en) Method and systems for displaying a portion of a video stream
KR101295002B1 (ko) Sns 정보를 이용한 파노라마 영상 인터페이스 제공 시스템 및 방법
Thomas et al. State‐of‐the‐Art and Challenges in Media Production, Broadcast and Delivery
JP2018520546A (ja) オーディオビデオ・コンテンツをレンダリングする方法、この方法を実施するためのデコーダ、及びこのオーディオビデオ・コンテンツをレンダリングするためのレンダリング装置
Yanagihara et al. Latest Cable TV-Related Technologies and Services and Their Future Observation