TWI674791B - 用於發信視埠與感興趣區域的方法與設備 - Google Patents

用於發信視埠與感興趣區域的方法與設備 Download PDF

Info

Publication number
TWI674791B
TWI674791B TW107100634A TW107100634A TWI674791B TW I674791 B TWI674791 B TW I674791B TW 107100634 A TW107100634 A TW 107100634A TW 107100634 A TW107100634 A TW 107100634A TW I674791 B TWI674791 B TW I674791B
Authority
TW
Taiwan
Prior art keywords
region
interest
track
video
roi
Prior art date
Application number
TW107100634A
Other languages
English (en)
Other versions
TW201832555A (zh
Inventor
新 王
魯林 陳
柏霖 賴
杉 劉
Original Assignee
聯發科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 聯發科技股份有限公司 filed Critical 聯發科技股份有限公司
Publication of TW201832555A publication Critical patent/TW201832555A/zh
Application granted granted Critical
Publication of TWI674791B publication Critical patent/TWI674791B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本文所介紹的技術涉及配置成編碼或解碼與視訊資料關聯的感興趣區域的方法、設備以及電腦可讀媒體。球形區域結構與該視訊資料關聯,其指定在球體上的該感興趣區域,該球形區域結構包括在該球體上的該感興趣區域的參照點,以及指示一組邊界點的資料,該組邊界點包含用於在該球體上的該感興趣區域的每一側的邊界點。在該視訊資料中的該感興趣區域基於該參照點和該組邊界點進行決定。該視訊資料可為複合視訊資料。該球形區域結構,及/或基於該球形區域結構的元資料可隱含地或明確地與該視訊資料關聯。

Description

用於發信視埠與感興趣區域的方法與設備 【相關申請的交叉引用】
本申請根據35 U.S.C.§ 119(e)要求2017年1月6日提出的申請號為62/443,006且名稱為“METHODS OF SIGNALING REGIONS OF INTEREST IN VIRTUAL REALITY CONTENT IN ISOBMFF(發信ISOBMFF中的虛擬實境內容中的感興趣區域的方法)”的美國臨時申請、2017年1月12日提出的申請號為62/445,282且名稱為“METHODS AND APPARATUS OF SIGNALING FOR VR VIEWPORTS AND ROIS IN ISOBMFF USING COMPOSITE TRACKS(採用複合軌在ISOBMFF中為VR視埠和ROI發信的方法和設備)”的美國臨時申請以及2017年1月13日提出的申請號為62/445,834且名稱為“METHODS AND APPARATUS OF SIGNALING OF VR VIEWPORTS AND ROIS IN DASH(發信DASH中的VR視埠ROI的方法和設備)”的美國臨時申請的優先權,其以全文引用的方式併入本文中。
本文所描述的技術大致涉及視訊編碼(video coding),並且尤其涉及在視訊內容中的視埠(viewports)及/或感興趣區域(regions of interest),包括發信(signaling)並且處理在視訊內容中的視埠及/或感興趣區域。
目前存在有各種類型的3D內容和多方向內容。例如,全方向視訊是採用一組相機進行捕捉的一類視訊,這與完成傳統單向視訊的僅僅單個相機不同。例如,相機可被放置在特定中心點周圍,以便各個相機捕捉場景的球形覆蓋範圍上的一部分視訊從而捕捉360度視訊。來自多個相機的視訊可被拼合,可能被旋轉,並且被投影來生成表現球形內容的投影的二維圖片。例如,相等的矩形投影可被用來將球形地圖放入到二維圖像中。這可例如採用二維編碼和壓縮技術來完成。最後,經編碼和經壓縮的內容採用期望的傳送機制(例如,拇指驅動器(thumb drive)、數碼視訊光碟(DVD)及/或在線流媒體)進行儲存和傳送。這種視訊可被用於虛擬實境(VR)及/或3D視訊。
在用戶端,當客戶處理內容時,視訊解碼器解碼經編碼的視訊並且執行反向投影來將該內容放回到球體上。使用者然後可觀看經渲染的內容,諸如使用頭戴式觀看裝置。該內容經常根據使用者的視埠進行渲染,其表示使用者觀看內容所處的角度。視埠還可包括表示觀看區域的組件(component),其可描述正在被觀看者以特定角進行觀看的區域有多大,以及為何種形狀。
當視訊處理不是以依據視埠的方式來完成時,使得視訊轉碼器不知道用戶實際上將觀看到什麼,則整個編碼和解碼流程將處理全部的球形內容。這例如可允許用戶以任何特定的視埠及/或區域來觀看內容,因為所有的球形內容都被傳 送和解碼。
然而,處理所有的球形內容會是電腦計算密集的並且會消耗大量的頻寬。例如,對於在線流媒體應用而言,處理所有的球形內容會在給網路頻寬上帶來大的負擔。因此,當頻寬資源及/或計算資源有限時,會難以保持用戶的體驗。一些技術僅僅處理被使用者觀看的內容。例如,如果用戶在觀看前面(例如,或者北極),則不需要傳送內容的後部(例如,南極)。如果使用者改變視埠,則內容可為新視埠相應地進行傳送。作為另一例子,對於自由視點TV(FTV)應用(例如,其採用多個相機捕捉場景的視頻視訊)而言,內容可依據使用者以何角度觀看場景來進行傳送。例如,如果用戶在從一個視埠(例如,相機及/或鄰近相機)觀看內容,則大概不需要為其他視埠傳送內容。
根據所揭露的主題,提供了設備、系統和方法來表現在球形內容中的感興趣區域(ROI)或視埠,並且使這種ROI或視埠與媒體軌(media tracks)關聯。
一些實施例涉及一種用於解碼視訊資料的解碼方法。該方法包括接收包含感興趣區域的視訊資料,識別(identifying)指定在球體上的該感興趣區域的與該視訊資料相關聯的球形區域結構(spherical region structure),該球形區域結構包括在該球體上的感興趣區域的參照點(reference point)和指示一組邊界點的資料,該組邊界點包含用於在該球體上的感興趣區域的各側的邊界點,並且基於該參照點和該組 邊界點決定該視訊資料中的感興趣區域。
在一些例子中,決定該感興趣區域包括決定指示一組邊界點的資料被設置為零,並且決定該感興趣區域對應於在該參照點處的點。
在一些例子中,指示該組邊界點的資料包含水平範圍和豎直範圍,該參照點是該感興趣區域的中心點,並且決定該感興趣區域包括基於該水平範圍決定用於該感興趣區域的左側的中心的左中心點和用於該感興趣區域的右側的中心的右中心點,基於該豎直範圍決定用於該感興趣區域的上側的中心的上中心點和用於該感興趣區域的底側的中心的底中心點,並且基於延伸越過各個左中心點、右中心點、上中心點和底中心點的四個大圓決定該感興趣區域,其中大圓中的每一個大圓由穿過該球體的中心的關聯的二維平面限定。
在一些例子中,指示該組邊界點的資料包含水平範圍和豎直範圍,該參照點是該感興趣區域的中心點,並且決定該感興趣區域包括基於該水平範圍決定用於該感興趣區域的左側的中心的左中心點和用於該感興趣區域的右側的中心的右中心點,基於該豎直範圍決定用於該感興趣區域的上側的中心的上中心點和該感興趣區域的底側的中心的底中心點,並且基於延伸越過該左中心點和右中心點中的每一個的兩個大圓和延伸越過該上中心點和底中心點中的每一個的兩個小圓決定該感興趣區域,其中該兩個大圓中的每一個大圓由穿過該球體的中心的關聯的二維平面限定,其中該兩個小圓中的每一個小圓由不穿過該球體的中心的關聯的二維平面限定。
在一些例子中,該球形區域結構的至少一部分在時變元資料軌中發信(signaled in a timed metadata track),並且在該時變元資料軌中的軌參照盒(track reference box)使該球形區域結構的該部分與該視訊資料關聯。
在一些例子中,該時變元資料軌包含指示該感興趣區域的類型的資料。
在一些例子中,該感興趣區域的類型包含基於若干觀看的該感興趣區域的排名,該感興趣區域與導演的觀看關聯的指示,或他們的一些組合。
在一些例子中,該時變元資料軌包含指示該感興趣區域的品質的資料,該感興趣區域的排名,或他們的一些組合。
在一些例子中,所接收的視訊資料包含來自複合視訊軌的資料,並且識別該球形區域結構包含識別用於與該複合視訊軌關聯的該球形區域結構的元資料。
在一些例子中,該元資料包含具有與該球形區域結構關聯的元資料的時變元資料軌。
在一些例子中,該複合視訊軌基於選自多個二維圖塊軌(two-dimensional tile tracks)的軌而組成,其中各個二維圖塊軌與品質、加密模式或兩者關聯。
一些實施例涉及一種配置成解碼視訊資料的設備。該設備包括與記憶體通訊的處理器。該處理器配置成執行促使該處理器接收包含感興趣區域的存儲在該記憶體內的視訊資料的指令,識別指定在球體上的該感興趣區域的與該視訊 資料關聯的球形區域結構,該球形區域結構包括在該球體上的該感興趣區域的參照點,以及指示一組邊界點的資料,該組邊界點包含用於在該球體上的該感興趣區域的各側的邊界點,並且基於該參照點和該組邊界點決定該視訊資料中的該感興趣區域。
在一些例子中,決定該感興趣區域包括決定指示一組邊界點的資料被設置為零,並且決定該感興趣區域對應於在該參照點處的點。
在一些例子中,指示該組邊界點的資料包含水平範圍和豎直範圍,該參照點是該感興趣區域的中心點,並且決定該感興趣區域包括基於該水平範圍決定用於該感興趣區域的左側的中心的左中心點和用於該感興趣區域的右側的中心的右中心點,基於該豎直範圍決定用於該感興趣區域的上側的中心的上中心點和該感興趣區域的底側的中心的底中心點,並且基於延伸越過該左中心點、右中心點、上中心點和底中心點中的每一個的四個大圓決定該感興趣區域,其中該四個大圓中的每一個大圓由穿過該球體的中心的關聯的二維平面限定。
在一些例子中,指示該組邊界點的資料包含水平範圍和豎直範圍,該參照點是該感興趣區域的中心點,並且決定該感興趣區域包括基於該水平範圍決定用於該感興趣區域的左側的中心的左中心點和用於該感興趣區域的右側的中心的右中心點,基於該豎直範圍決定用於該感興趣區域的上側的中心的上中心點和該感興趣區域的底側的中心的底中心點,並且基於延伸越過該左中心點和右中心點中的每一個的兩個大 圓和延伸越過該上中心點和底中心點中的每一個的兩個小圓決定該感興趣區域,其中該兩個大圓中的每一個大圓由穿過該球體的中心的關聯的二維平面限定,其中該兩個小圓中的每一個小圓由不穿過該球體的中心的關聯的二維平面限定。
在一些例子中,該球形區域結構的至少一部分在時變元資料軌中發信,並且在該時變元資料軌中的軌參照盒使該球形區域結構的該部分與該視訊資料關聯。
在一些例子中,該時變元資料軌包含指示該感興趣區域的類型的資料。
在一些例子中,該感興趣區域的類型包含基於若干觀看的該感興趣區域的排名,該感興趣區域與導演的觀看關聯的指示,或他們的一些組合。
在一些例子中,該時變元資料軌包含指示該感興趣區域的品質的資料,該感興趣區域的排名,或他們的一些組合。
在一些例子中,所接收的視訊資料包含來自複合視訊軌的資料,並且識別該球形區域結構包含識別用於與該複合視訊軌關聯的該球形區域結構的元資料。
在一些例子中,該元資料包含具有與該球形區域結構關聯的元資料的時變元資料軌。
在一些例子中,該複合視訊軌基於選自多個二維圖塊軌的軌而組成,其中各個二維圖塊軌與品質、加密模式或兩者關聯。
一些實施例涉及一種用於編碼視訊資料的編碼方 法。該方法包括編碼包含感興趣區域的視訊資料,包含生成指定在球體上的該感興趣區域的球形區域結構,該球形區域結構包含在該球體上的該感興趣區域的參照點,以及指示一組邊界點的資料,該組邊界點包含用於在該球體上的該感興趣區域的每一側的邊界點,並且使該球形區域結構與該視訊資料關聯以便指定在該視訊資料中的該感興趣區域。
在一些例子中,該方法包括在時變元資料軌中發信該球形區域結構的至少一部分,使得在該時變元資料軌中的軌參照盒使該球形區域結構的該部分與該視訊資料關聯。
在一些例子中,編碼該視訊資料包含編碼複合視訊軌,並且使該球形區域結構與該視訊資料關聯包括生成用於該球形區域結構的元資料,以及使所生成的元資料與該複合視訊軌關聯。
在一些例子中,生成該元資料包括生成具有與該球形區域結構關聯的元資料的時變元資料軌。
在一些例子中,編碼該複合視訊軌包括基於選自多個二維圖塊軌的軌編碼該複合視訊軌,其中各個二維圖塊軌與品質、加密模式或兩者關聯。
一些實施例涉及一種用於編碼視訊資料的設備。該設備包括與記憶體通訊的處理器。該處理器配置成執行促使該處理器編碼包含感興趣區域的視訊資料的存儲在該記憶體中的指令,包含生成指定在球體上的該感興趣區域的球形區域結構,該球形區域結構包括在該球體上的該感興趣區域的參照點,以及指示一組邊界點的資料,該組邊界點包含用於在該球 體上的該感興趣區域的每一側的邊界點,並且使該球形區域結構與該視訊資料關聯以便指定在該視訊資料中的該感興趣區域。
在一些例子中,該處理器配置成執行促使該處理器在時變元資料軌中發信該球形區域結構的至少一部分的存儲在該記憶體中的指令,使得在該時變元資料軌中的軌參照盒使該球形區域結構的該部分與該視訊資料關聯。
在一些例子中,編碼該視訊資料包含編碼複合視訊軌,並且使該球形區域結構與該視訊資料關聯包括生成用於該球形區域結構的元資料,以及使所生成的元資料與該複合視訊軌關聯。
在一些例子中,生成該元資料包括生成具有與該球形區域結構關聯的元資料的時變元資料軌。
在一些例子中,編碼該複合視訊軌包含基於選自多個二維圖塊軌的軌編碼該複合視訊軌,其中各個二維圖塊軌與品質、加密模式或兩者關聯。
因此,所揭露的主題的特徵已經被相當廣泛地概括了,以便其下文的詳細說明書可被更好地理解,並且以便對技術的當前貢獻可被更好地領會。當然,存在著將在以下進行說明的所揭露的主題的額外特徵並且其將形成所附的申請專利範圍的主題。要理解的是,本文所用的措辭和術語是用來說明的目的,而不應被視為限制。
100‧‧‧視訊編碼配置
102A-102N‧‧‧相機
104‧‧‧編碼裝置
106‧‧‧視訊處理器
108‧‧‧編碼器
110‧‧‧解碼裝置
112‧‧‧解碼器
114‧‧‧渲染器
116‧‧‧顯示器
200、250、800、900、1000、1100‧‧‧簡圖
202、252‧‧‧DASH
204、206、208‧‧‧表現
220、270‧‧‧ISOBMFF
222、272‧‧‧“主視訊”‘trak’
224、274‧‧‧“ROI視訊”‘trak’
226‧‧‧“ROI元資料”‘trak’
254‧‧‧ROI元資料表現
300‧‧‧球體
302‧‧‧大圓
304‧‧‧小圓
350、410、420、430、440、450‧‧‧ROI
352、430C、454‧‧‧視點
410A、420A‧‧‧中心視點
410B、420B‧‧‧第一大圓
410C、420C‧‧‧第二大圓
410D‧‧‧第三大圓
410E‧‧‧第四大圓
420D‧‧‧第一小圓
420E‧‧‧第二小圓
430A、458‧‧‧射線
430B‧‧‧球體中心
430D‧‧‧半徑
430E‧‧‧交叉點
440A‧‧‧邊界
440F‧‧‧ROI_中心
452‧‧‧3D幾何形狀
456‧‧‧面
500‧‧‧3D球面座標樣品條目
510‧‧‧3D球面坐標系樣品條目等級
520‧‧‧ROI語法
530、600‧‧‧表格
532‧‧‧類型
534‧‧‧球體上的形狀邊界
536‧‧‧發信
602‧‧‧使用情況
604‧‧‧ROI發信的目的
606‧‧‧支持
610‧‧‧內容預取
612‧‧‧最多觀看區域
614‧‧‧來自藝術意圖的導演視圖
616‧‧‧用於按需內容的初始視埠
618‧‧‧隨機存取視埠
620‧‧‧用於非VR裝置的可用視圖
622‧‧‧背景紋理
624‧‧‧特寫視圖(視訊到視訊)
626‧‧‧注解
628‧‧‧品質排名
630‧‧‧3D基於面的ROI
700、850‧‧‧流程
701‧‧‧球形視埠
702、704、706、708、710、712、714‧‧‧方塊
802、804A-D、806、808、810、1104‧‧‧軌
852、854、856、858、860‧‧‧步驟
1002‧‧‧ISOBMFF部分
1004、1006A、1006N、1008、1010‧‧‧‘trak’
1050‧‧‧DASH部分
1052、1054A、1054N、1056、1058、1152、1154A-N、1156、1158‧‧‧表現
1102‧‧‧ISOBMFF表現
1150‧‧‧DASH格式
在圖式中,在多個圖式中進行圖示的每個相同或 接近相同的元件由類似的參照符號表示。為了清楚,不是每一個元件都會被標記在每一個圖式中。圖式未必依比例繪製,重點而是放在對本文所說明的技術和裝置的各種方面進行圖示。
第1圖顯示了根據一些實施例的示範性視訊編碼配置。
第2A圖顯示了根據一些例子的採用時變元資料發信主視訊具有ROI視訊的簡圖。
第2B圖顯示了根據一些例子的採用視訊軌元資料發信主視訊具有ROI視訊的簡圖。
第3A圖顯示了根據一些例子的具有一個大圓和兩個小圓的球體。
第3B圖顯示了根據一些例子的球體的北(N)極和南(S)極。
第3C圖顯示了根據一些實施例的具有大致矩形形狀的ROI。
第4A圖顯示了根據一些實施例的矩形ROI。
第4B圖顯示了根據一些實施例的第二矩形ROI。
第4C圖顯示了根據一些實施例的圓形ROI。
第4D圖顯示了根據一些實施例的由多邊形表現的ROI。
第4E圖顯示了根據一些實施例的由三維形狀的面表現的ROI。
第5A圖顯示了根據一些實施例的3D球面座標樣品條目(sample entry)。
第5B圖顯示了根據一些實施例的3D球面座標樣品條目等級。
第5C圖顯示了根據一些實施例的ROI語法的例子。
第5D圖是顯示了根據一些實施例的ROI的類型,在用於ROI的球體上的說明,和關聯的用於ROI的發信的表格。
第6圖顯示了根據一些實施例的示範性ROI使用情況的表格。
第7圖顯示了根據一些例子的用於VR內容的依賴於視埠之內容流程。
第8A圖顯示了根據一些實施例的採用複合軌來發信視埠/ROI的示範性簡圖。
第8B圖顯示了根據一些實施例的採用複合軌來發信視埠/ROI的示範性流程。
第9圖顯示了根據一些實施例的複合軌及其輸入軌的簡圖。
第10圖顯示了根據一些實施例的採用時變元資料軌發信視埠和ROI的簡圖。
第11圖顯示了根據一些實施例的採用視訊軌元資料發信視埠和ROI的簡圖。
各種技術可被用來表現感興趣區域(ROI)及/或視埠,並且發信這種ROI表現,包括以檔案格式的複合軌(例如,ISOBMFF)以及以流媒體格式(例如,MPEG DASH)。
需要一種方式來表現在球形內容(例如,3D內容)中的ROI/視埠。本文所揭露的技術提供用來表現在球形內容中的ROI/視埠,諸如圓形ROI、矩形ROI、多邊形ROI及/或類似 者。該ROI可按照3D球體進行限定。本文所揭露的技術因此可將ROI擴展至例如3D內容,諸如VR內容。例如,該技術可被用來將ROI擴展至基於內容高效視訊編碼(HEVC)圖塊的內容,基於可適性視訊編碼(SVC)的內容,基於子圖片的內容(例如,像在360度視訊中的),及/或基於多源的內容(例如,像在FTV中的)。該技術提供用來識別3D視訊內容是否包括一或多個ROI,以及識別該ROI內容。例如,內容可被編碼成圖塊(例如,子圖片)。本文所論述的技術可被用來支持依賴於視埠之處理,其決定與ROI或用戶的視埠關聯的特定圖塊,並且僅僅傳送那些圖塊。本發明人已明白用於球形內容的ROI/視埠表現需要與基本內容關聯。本文所揭露的技術提供用來隱含地或明確地關聯這種ROI內容。
ROI和視埠資訊可發信在時變元資料軌或視訊軌元資料內。然而,在一些情況下,當這些媒體軌攜帶各自的圖塊或子圖片的內容時,使時變元資料軌或視訊軌元資料與個別媒體軌關聯可能是不想要(及/或不可行)。為了避免這種困難,本文所介紹的技術提供用來採用複合軌發信視埠或ROI。本技術提供用來使時變元資料軌及/或視訊軌元資料與相應的複合軌關聯。例如,視埠/ROI可被明確地為3D球形內容而發信,例如,藉由視埠/ROI時變元資料軌與藉由複合軌衍生出的3D內容的關聯。
如本文所述,文檔和流媒體格式類型包括ISOBMFF和MPEG DASH。當VR內容採用MPEG DASH進行傳送時,許多使用案例(例如,最常用的ROI、導演ROI等)經 常需要將視埠和ROI發信在用於VR內容的MPD內。這可說明解碼器/客戶決定哪個(如果有的話)視埠和ROI來傳送和渲染。現存的包括DASH的流媒體格式可能不支持發信採用本文所揭露的技術表現的視埠/ROI(例如,用於球形內容)。為了在DASH中發信視埠或ROI表現,本文所介紹的技術使元資料表現與以檔案格式的複合(碎片化)軌的媒體表現關聯。DASH媒體表現可包括對相應於該複合軌所衍生自的變體軌的表現的依賴性。
在以下的說明中,關於所揭露的主題的系統和方法以及其中這種系統和方法可操作的環境等陳述了許多具體細節,以便提供所揭露的主題的透徹理解。另外,需要理解的是,在下面所提供的例子是示範性的,並且預期存在著在所揭露的主題的範圍內的其他系統和方法。
第1圖顯示了根據一些實施例的示範性視訊編碼配置100。相機102A-102N是N個相機,並且可為任何類型的相機(例如,包括音訊記錄能力的相機,及/或單獨的相機與音訊記錄功能)。該編碼裝置104包括視訊處理器106和編碼器108。該視訊處理器106處理從相機102A-102N接收的視訊,諸如拼合、投影及/或映射。該編碼器108編碼及/或壓縮二維視訊資料。該解碼裝置110接收經編碼的資料。該解碼裝置110可通過廣播網路,通過移動網路(例如,蜂窩網路),及/或通過網際網路接收視訊作為視訊產品(例如,數碼視訊光碟,或其他電腦可讀媒體)。該解碼裝置110可為例如電腦,頭戴顯示器的一部分,或具有解碼能力的任何其他設備。該解碼裝置110 包括配置成解碼經編碼的視訊的解碼器112。該解碼裝置110還包括用於將二維內容渲染回為球體的渲染器114。顯示器116顯示來自該渲染器114的經渲染的內容。
感興趣區域(ROI)在概念上稍微類似於視埠。ROI例如可表現全方向視訊的3D或2D編碼中的區域。ROI可具有不同的形狀(例如,正方形或圓形),其可關於3D或2D視訊(例如,基於位置、高度等)進行限定。例如,感興趣區域可表現可被放大的圖片中的區域,並且相應的ROI視訊可被顯示為被放大視訊內容。在一些實施中,該ROI視訊是已經準備好的。在這種實施中,感興趣區域典型地具有攜帶ROI內容的單獨的視訊軌。因此,經編碼的視訊指定ROI,以及該ROI視訊如何與潛在的視訊相關聯。
諸如靜態構造的ROI軌的ROI或視埠軌可與主視訊關聯。例如,ROI可與主視訊關聯以促進放大和縮小操作,其中該ROI用以為放大區域提供內容。例如,MPEG-B,第10部分,日期為2016年6月2日(w16191)的題為“Carriage of Timed Metadata Metrics of Media in ISO Base Media File Format(以ISO基媒體檔案格式的媒體時變元資料度量的攜帶)”,其因此通過全文引用的方式併入到本文中,其介紹了採用時變元資料軌來發信主2D視訊軌具有2D ROI軌的ISO基礎媒體檔案格式(ISOBMFF)檔案格式。作為另一例子,HTTP上的動態適配流(DASH)包括空間關係描述符來發信在主2D視訊表現及其關聯的2D ROI視訊表現之間的空間關係。2016年7月29日的ISO/IEC 23009-1第三版草案(w16225),提及了DASH,並且 因此通過全文引用的方式併入到本文中。
本文所介紹的技術提供用於動態ROI及/或視埠(例如,回應於用戶的選擇的ROI及/或視埠)。本文所揭露的技術將ROI擴展至例如3D內容,諸如VR內容。例如,該技術可被用來將ROI擴展至為基於高效視訊編碼(HEVC)圖塊的內容,基於可適性視訊編碼(SVC)的內容,基於子圖片的內容(例如,像在360度視訊中的),及/或基於多來源的內容(例如,像在FTV中的)的內容。該技術提供用於識別3D視訊內容是否包括一或多個ROI,以及識別ROI內容。例如,內容可被編碼成圖塊(例如,子圖片)。本文所論述的技術可被用來支持依賴於視埠之處理,其決定與ROI或用戶的視埠關聯的特定圖塊,並且僅僅傳送那些圖塊。
當發信ROI時,可生成各種資訊,包括與該ROI的特性有關的信息(例如,識別、類型(例如,位置、形狀、大小)、目的、品質、等級等)。資訊可被生成來使內容與ROI關聯,包括視覺(3D)球形內容,及/或球形內容的投影的和映射的(2D)幀。ROI可以若干屬性為特徵,諸如其識別,在其所關聯的內容中的位置,及其形狀和大小(例如,關於球形及/或3D內容)。還可添加像區域的品質與等級排名的附加的屬性,如本文進一步所述。
在一些實施例中,為了指定在該球體上的ROI的形狀和大小,可採用某些球形概念。第3A圖顯示了具有一個大圓302和兩個小圓304的球體300。如圖所示,該大圓302跨越球形表面與穿過該球體300的中心的2D平面(圖未示)的交叉。因 此,該大圓302是包含該球體300的直徑的該球體300的截面。該小圓304顯示了球形表面與不穿過該球體300的中心的2D平面(圖未示)的交叉,並且因此各自與不包含該球體300的直徑的該球體300的截面關聯。
可有若干不同的方式來結合或用線連接在採用大及/或小圓的球體上的兩個點。在該球體上的任何兩個點可通過唯一大圓的部段結合,其提供了在該球體上的他們之間的最短路徑。這兩個點也可通過(例如,無限數量的)小圓結合,這些小圓被包含這兩個點的2D平面交叉。當採用小圓時,在這兩個點之間的路徑在2D平面被固定(例如,正交於該球體特定軸線而固定)時是唯一的。出於示範性目的,下述的視埠的說明假定了第3B圖中所示的北(N)和南(S)極是固定的,連同偏航角(yaw),俯仰角(pitch)和翻滾角(roll)(圖未示)的默認坐標系。各個ROI可具有ROI中心,其是在該球體上的點,限定為視點,該視點採用其俯仰角和偏航角來指示該ROI是包含該視點的在該球體上的區域。例如,第3C圖顯示了根據一些實施例的具有大致矩形形狀的ROI 350。該ROI 350包括作為其中心的視點352。該ROI 350包括沿著水平方向的兩個點:處在該視點的左側的中心的左點(LL),以及處在該視點的右側的中心的右點(RR)。該ROI 350包括沿著豎直方向的兩個點:處在該視點的上側的中心的頂點(TT),以及處在該視點的底側的中心的底點(BB)。
在下面進一步論述的第4A-4E圖顯示了根據一些實施例的ROI形狀的示範性表現。如本文所述,在一些實施例 中,該ROI可呈矩形的形狀。也可採用其他形狀,諸如圓形、三角形、三維形狀以及類似者。一些實施例提供了技術來採用一系列的特性來說明這樣的各種ROI以便限定具有不同的形狀、位置及/或關於ROI的其他附加的資訊的視埠,如本文進一步所述。
矩形ROI可以各種方式來表達。例如,矩形面積可在該球體的表面上說明,其可被採用小圓、大圓及/或小圓和大圓的組合來表達。第4A圖顯示了根據一些實施例的矩形ROI 410。該矩形ROI 410在(偏航角,俯仰角)處具有其中心視點410A(例如,其可關於如上所述的潛在的默認坐標系進行指定,並且圖未示)。矩形ROI 410具有在大圓上的水平和豎直邊界。第一大圓410B交叉了點LL,第二大圓410C交叉了點RR,第三大圓410D交叉了點TT,並且第四大圓410E交叉了點BB。該矩形ROI 410具有沿著這些點(LL-視點-RR)限定的寬度,其可當做是偏航角_寬度。該矩形ROI 410具有沿著這些點(TT-視點-BB)限定的高度,其可當做是俯仰角_高度。在一些實施例中,該矩形ROI 410可用偏航角,俯仰角,偏航角_寬度,和俯仰角_高度來發信。偏航角_寬度的值可指定在豎直邊界之間的寬度。俯仰角_高度的值可指定在水平邊界之間的高度。
第4B圖顯示了根據一些實施例的第二矩形ROI 420。該矩形ROI 420在(偏航角,俯仰角)處具有其中心視點420A。該矩形ROI 420具有在大圓上的豎直邊界。第一大圓420B交叉了點LL,並且第二大圓420C交叉了點RR。該矩形ROI 420具有在小圓上的水平邊界。第一小圓420D交叉了點TT,並且 第二小圓420E交叉了點BB。該矩形ROI 420具有沿著這些點(TT-視點-BB)限定的高度,其可當做是俯仰角_高度。該矩形ROI 420具有沿著這些點(LL-視點-RR))限定的寬度,其可當做是偏航角_寬度。在一些實施例中,該矩形ROI 420可用偏航角,俯仰角,偏航角_寬度,和俯仰角_高度來發信。偏航角_寬度的值可指定在豎直邊界之間的寬度。俯仰角_高度的值可指定在水平邊界之間的高度。
在一些實施例中,矩形ROI可通過相對於第4B圖中所示的來對換大圓和小圓的使用而進行表現。例如,大圓可用在水平方向(例如,帶(band)),而小圓可用在豎直方向(例如,帶)。這種示範性ROI可在(偏航角,俯仰角)處具有其中心視點,並且具有在水平邊界之間的高度(TT-視點-BB)的在大圓上的水平邊界為俯仰角_高度,並且具有在豎直邊界之間的寬度(LL-視點-RR)的在小圓上的豎直邊界為偏航角_寬度。這一示範性ROI可採用(偏航角,俯仰角,偏航角_寬度,俯仰角_高度)來發信。
在一些實施例中,矩形ROI可採用在水平和豎直方向(例如,帶)上的小圓來表現。這種示範性矩形ROI在(偏航角,俯仰角)處具有其中心視點,並且具有在豎直邊界之間的寬度(LL-視點-RR)的在小圓上的水平和豎直邊界為偏航角_寬度,並且在水平邊界之間的高度(TT-視點-BB)為俯仰角_高度。這一示範性ROI可作為(偏航角,俯仰角,偏航角_寬度,俯仰角_高度)來發信。
在一些實施例中,本文所述的矩形ROI可採用其他 技術進行指定。例如,矩形ROI可採用(偏航角,俯仰角,偏航角_左,偏航角_右,俯仰角_上,俯仰角_底)進行指定,其中中心在(偏航角,俯仰角)處並且該ROI的LL,RR,TT和BB點分別由偏航角_左,偏航角_右,俯仰角_上和俯仰角_底進行限定。例如,LL處在(偏航角_左,俯仰角_底+(俯仰角_上-俯仰角_底)/2)。
第4C圖顯示了根據一些實施例的圓形ROI 430。該圓形ROI 430是圓形,其由垂直於從該球體中心430B到在(偏航角,俯仰角)處的視點430C的射線430A的平面(圖未示)限定,他的點全部具有從射線430A的交叉點430E和該平面的在該平面上的距離半徑430D。在一些實施例中,當半徑430D等於零時,則該ROI 430成為在(偏航角,俯仰角)處的單視點。在一些實施例中,該圓形ROI 430可用偏航角、俯仰角和半徑來發信。
多邊形可被用來說明ROI。多邊形可表達為在該球體上的一系列點。這一系列點可以特定方式連結在一起,諸如以順時針方向或逆時針方向將他們連結在一起。第4D圖顯示了根據一些實施例的由多邊形表現的ROI 440。該多邊形ROI 440由邊界440A形成,該邊界440A由連接在包含ROI_中心440F的區域周圍的任何兩個相鄰視點的大圓限定。該多邊形ROI 440可用(偏航角,俯仰角,偏航角_1,俯仰角_1,....偏航角_n,俯仰角_n)來發信,其中n是該多邊形的點的數量。例如,當n=3時,有三個點,其限定三角形形狀的ROI。作為另一例子,當n=4時,有四個點,其限定矩形。
第4E圖顯示了根據一些實施例的由三維形狀452的面表現的ROI 450。基於面的ROI 450是包含在(偏航角,俯仰角)處的視點454的3D幾何形狀452(在這個例子中,盒)的面,示為面456。在一些實施例中,該ROI 450是與從該球體中心到該視點454的射線458交叉的3D幾何形狀452的面。儘管示範性的第4E圖顯示了作為三維形狀的盒,但是其他三維形狀可被採用,諸如金字塔和更複雜的多邊形狀。基於面的ROI 450可用(偏航角,俯仰角)來發信。
如下面進一步論述的,如果支持多個ROI,則各個ROI可與索引數或形狀數關聯。例如,如果支持兩個ROI,則那兩個ROI可用索引數1和2來支持以便識別ROI的類型,如下面進一步論述的。作為另一例子,第4A-4E圖中所示的各個ROI可採用索引數或形狀數1-5來表現。
ROI可採用樣品條目、樣品格式或兩者來指定。ROI規範可與視訊(例如,描述ROI的元資料)關聯。例如,該ROI規範可被攜帶在ISO基礎媒體檔案格式的時變元資料軌中,以及在視訊軌中。該ISO基礎媒體檔案格式被限定在參見上文並且通過全部引用而併入到本文中的w16191中。
第5A圖顯示了根據一些實施例的示範性3D球面座標樣品條目(3dsc)500。該3D球面座標樣品條目500提供關於以三維球面座標(偏航角,俯仰角,翻滾角)表達的所參照的一或多個軌的空間資訊。樣品條目(sample entry)是‘3dsc’的類型,容器是‘stsd’樣品描述盒(description box),條目是非強制性的,並且數量可為或0或1。
第5B圖顯示了根據一些實施例的3D球面坐標系樣品條目等級510。該樣品條目等級是3D球面坐標系樣品條目,其擴展了第5A圖中所論述的元資料樣品條目‘3dsc’。該樣品條目包括三個16位不帶正負號的整數參照_偏航角,參照_俯仰角,和參照_翻滾角。用於參照_俯仰角,參照_偏航角和參照_翻滾角的條目可分別給出在參照系統中的俯仰角,偏航角和翻滾角的參照(或偏移)值,在該參照系統中計算球形點的偏航角和翻滾角。在一些實施例中,參照_偏航角,參照_俯仰角,和參照_翻滾角的最大範圍可分別為[0,180],[0,360]和[0,360],表現用於俯仰角,偏航角和翻滾角的最大角範圍[-90,90],[-180,180],[-180,180]。在一些實施例中,最大值範圍也可選擇來表現用於俯仰角,偏航角和翻滾角的最大角範圍[-90,90],[0,360],[0,360]。在一些實施例中,這三個條目的值可被設置為0,例如,如果北極和南極以標準方式固定並且沒有引入附加的翻滾角。
第5C圖顯示了根據一些實施例的ROI語法520的例子。這一語法520僅僅是出於示範性目的。可採用不同的語法,例如,根據ROI的類型(例如,如上所述的),以及視埠的類型,及/或類似者。第5C圖中的例子ROI語法520是等級ROI定義樣品。
“源_id”是8位不帶正負號的整數,其可提供為球形內容的源唯一識別碼。在一些實施例中,分享相同源_id值的ROI可分享相同的球面座標。
“roi_id”是8位不帶正負號的整數,其可關於用源 _id識別的球形內容為該ROI提供唯一識別碼。
“roi_類型”是8位不帶正負號的整數,其可為ROI類型提供代碼。如上所述,不同的ROI形狀可採用索引或形狀數而在其中進行區別。例如,第5D圖是表格530,其顯示了根據一些實施例的類型532,在該球體上的形狀邊界534的說明,以及關聯的發信536。例如,一個類型(1)可表現圓形ROI,四個類型值(2-5)可被用來表現四個矩形ROI,一個類型值(6)可被用來表現多邊形類型,並且一個類型值(7)可被用來表現3D幾何ROI。
“偏航角”和“俯仰角”是16位不帶正負號的整數,其可分別提供在該球體上的點或視點的偏航角和俯仰角的值。在一些實施例中,其為該ROI所包含的這個點。
“半徑”是16位不帶正負號的整數,其可指示圓形ROI的半徑(例如,如第5D圖中所示的具有等於1的roi_類型)。
“偏航角_寬度”和“俯仰角_高度”是16位不帶正負號的整數,其可為在該球體上的四個矩形ROI類型中的每一個關於偏航角和俯仰角分別給出寬度和高度值。例如,這些欄位(field)可被用於具有第5D圖中所示的等於2,3,4和5“roi_類型”的ROI。
“num_頂點”是16位不帶正負號的整數,其可指示多邊形ROI(例如,具有第5D圖中等於6的roi_類型)的頂點的數量。在一些實施例中,這個值典型地大於或等於3。對於該多邊形的各個頂點,“頂點_偏航角”和“頂點_俯仰角”是16位不帶正負號的整數,其可限定關聯的頂點的偏航角和俯仰角值。
“目的”是8位元不帶正負號的整數,其可給出用於該ROI定義的目的的代碼值。該目的例如可包括被保留(0的值),渲染(1的值),注釋(2的值),預取(3的值),及/或類似者。
“品質”是8位不帶正負號的整數,其可給出用於ROI的內容品質的代碼值。例如,“品質”值可在0到255的範圍內,其中0是最低,並且255為最高。
“排名”是8位不帶正負號的整數,其可給出用於ROI的內容排名的代碼值。例如,“品質”值可在0到255的範圍內,其中0是最低,並且255為最高。
“插值”是1位不帶正負號的整數(例如,用以表現真或假值),其可指示連續樣品在時間上的連續性。例如,當為真值時,應用可將相應的ROI元資料屬性的值線性地插值在前一個樣品和當前樣品之間。當為假值時,在前一個樣品和當前樣品之間不應有任何的值的插值。在一些實施例中,當採用插值時,經插值的樣品可在所參照的軌中匹配樣品的呈現時間。例如,對於視訊軌的各個視訊樣品,計算一個經插值的ROI定義樣品。
如上所指出的,僅僅這些示範性欄位子集可被用於特定ROI。例如,語法可根據ROI或視埠的類型而省略一些欄位及/或可不填充一些欄位(例如,或者用空值填充這種欄位)。例如,對於圓形ROI,則可用“偏航角”和“俯仰角”欄位來指定方向,並且可用“半徑”欄位來指定半徑。作為另一例子,對於矩形ROI,則可用“偏航角_寬度”和“俯仰角_高度”欄 位來指定該矩形ROI的尺寸。
編碼器和解碼器可被配置成處理這種ROI/視埠資訊。例如,編碼器可被配置成存儲描述ROI的元資料,諸如採用指定ROI的球形區域結構。該元資料可包括在該球體上的ROI的中心點,以及附加的資料。例如,該元資料可包括指示一組邊界點的資料,諸如用於在該球體上的該感興趣區域的每一側的邊界點(例如,左、右、上和底中心邊界點)。例如,該元資料可包括水平範圍和豎直範圍,其可基於關聯的一組邊界點(例如,用於該水平範圍的左和右邊界點)和在該球體上的該ROI的中心點進行計算。如本文所述,該元資料可描述圓形ROI,矩形ROI,多邊形ROI,基於3D形狀的ROI,及/或類似者。
作為另一例子,解碼器可接收包括感興趣區域的視訊資料,並且識別與指定在球體上的該感興趣區域的視訊資料關聯的球形區域結構(例如,元資料)。該球形區域結構可指定足以描述ROI的資料,如本文所述(例如,在3D資料中的ROI)。解碼器可基於該球形區域結構決定在該視訊資料中的該感興趣區域。
本文所介紹的技術提供用於使ROI與其基本內容(例如,ROI是其部分的內容)關聯的技術。可隱含地或明確地做出該關聯。例如,在單個圖塊中,可存在攜帶球形內容的多個片或他們的投影的版本的多個視訊軌。因此,需要指示或發信哪個軌(或多個軌)具有與僅僅一個球形表面有關的內容。隱含的關聯可取決於ROI資訊被放置在哪裡。例如,如果 ROI資訊被放置在具有該內容的視訊軌內,則其可自然地暗示該ROI是該內容的部分。例如,ROI可與其中該ROI資訊的發信是其部分的視訊軌的內容關聯。在一些實施例中,在檔案格式中,如果ROI在時變元資料軌中發信並且該檔僅僅包含具有一個或多個視訊軌(可能具有不同的品質)的單片內容,則該ROI隱含地與檔中的媒體內容關聯。
在一些實施例中,如果ROI在視訊軌中作為其元資料發信,則其與該軌的視訊內容關聯。例如,在MPEG DASH中,如果ROI在媒體演示描述(MPD)的元資料表現中發信,並且該MPD僅僅包含媒體類型視訊的一個媒體元件,則其與MPD中的視訊元件的內容關聯。作為另一例子,如果ROI作為元資料元素或視訊表現的元資料屬性發信,則其隱含地與包含的視訊表現的內容關聯。
在一些實施例中,ROI與內容的關聯可更加明確地完成。尤其是,由於經常視訊內容是視訊內容,因此ROI實際上取決於誰在觀看內容以及誰考慮什麼區域是有趣的。做出關聯的靈活方式可以是從視訊內容中取出ROI。例如,雖然兩個觀看者(例如,編輯或終端使用者)可在觀看相同的內容,但各個觀看者的興趣在於觀看內容的完全不同的區域。因此各個觀看者可為視訊內容限定ROI(或視埠)資訊,並且然後給視訊標示以便指示該視訊具有兩個ROI(例如,用於各個觀看者的ROI)。
在一些實施例中,ROI可明確地對於視覺(例如,3D)球形內容及/或與投影的和映射的(例如,2D)幀進行關 聯。對於例如2D關聯,ROI可映射至2D內容,然後該2D內容可映射至球形內容,使得該ROI關聯以2D水平來完成。對於例如3D關聯,3D球形內容可具有在時變元資料軌中指定的視埠/ROI資訊。例如,以檔案格式的軌與以MPEG DASH的適應組和表現的分群和關聯機制可被用來明確地做出關聯。例如,在檔案格式中,如果ROI在時變元資料軌中發信,則其可通過該元資料軌中的軌參照盒與視訊軌或視訊軌關聯以便將其聯合至視訊軌或軌。作為另一例子,ROI可採用元資料和視訊軌的軌群組盒機制進行關聯來將視訊軌集合在一起,以便指示視訊軌作為相同源的一群媒體軌被關聯在一起。作為進一步的例子,在MPEG DASH中,如果ROI在元資料表現中發信並且視訊表現採用@關聯Id和@關聯類型屬性與該元資料表現關聯,則該ROI可與該視訊表現的視訊內容關聯。
在一些實施例中,ROI可與由投影、映射及/或劃分3D球形內容的源而產生的2D視訊幀的軌關聯。該軌可包含可被用來重建3D ROI的內容。在一些實施例中,2D視訊幀的單個軌可與例如零或多個ROI關聯,以便指示該軌促成那些零或多個ROI。
ROI語法和關聯技術可被用於各種使用情況。第6圖顯示了根據一些實施例的示範性ROI使用情況的表格600。表格600顯示了各種使用情況602,用於使用情況的ROI發信的目的604,以及用於使用情況的支持606。如表格600中所示,使用情況可包括內容預取610,最多觀看區域612,來自藝術意圖的導演視圖614,用於按需內容的初始視埠616,隨機存取視埠 618,用於非VR裝置的可用視圖620,背景紋理622,特寫視圖(視訊到視訊)624,注解626,品質排名628,以及3D基於面的ROI 630。
如所論述的那樣,ROI和視埠資訊可在時變元資料軌或者視訊軌元資料中發信,例如,類似於用於2D視訊的空間資訊的運輸。然而,在一些情況下可能不想要(及/或不可行)使時變元資料軌或視訊軌元資料與ROI和視埠元資料資訊所關聯的媒體軌關聯(例如,什麼元資料被關聯,以及元資料與哪些媒體軌關聯)。例如,如果內容被投影至2D平面並且然後被分成圖塊/子圖片,則各自將被攜帶在單個視訊軌中。然而,如果想要指定VR內容,而球形內容具有ROI或視埠,則需要技術來將該ROI或視埠關聯至所有的關聯的圖塊/子圖片。作為一般性例子,使視埠與圖塊/子圖片關聯的一個方式是在元資料軌中限定ROI,並且然後在元資料軌中捕捉該ROI資訊(例如,矩形形狀)。然而,這可能不與現有的視訊編碼技術一致,這是因為如果該元資料軌被關聯至視訊軌,則該視訊軌自身具有由該元資料軌指定的ROI。例如,如果有一批子圖片軌,則不期望指示出每一個都具有ROI,這是因為其是具有ROI的球形表面。
第7圖顯示了根據一些例子的用於VR內容的依賴於視埠之內容流程700。如圖所示,球形視埠701(例如,其可包括全部的球體)在方塊702經歷拼合,投影,映射(以便生成投影的和映射的區域),在方塊704被編碼(以便以多種品質生成經編碼/轉碼的圖塊),在方塊706被傳送(作為圖塊), 在方塊708被解碼(以便生成解碼的圖塊),在方塊710被構建(以便構建球形經渲染的視埠),並且在方塊712被渲染。在方塊714的用戶互動可選擇視埠,其藉由虛線箭頭啟動如圖所示的若干“及時”處理步驟。
在流程700中,由於當前網路頻寬限制和各種適應需求(例如,關於不同的品質,編碼解碼器和保護方案),3D球形VR內容被首先處理(拼合、投影和映射)在2D平面上(通過方塊702)並且然後封裝成若干基於圖塊的(或基於子圖片的)和分割檔(在方塊704)用於重播和傳送。在這種基於圖塊的和分割段檔中,在2D平面中的空間圖塊(例如,其通常以2D平面內容的矩形形狀來表現空間部分)典型地封裝為其的一批變體(例如,諸如以不同的品質和位元速率,或以不同的編碼解碼器和保護方案(例如,不同的加密演算法和模式))。在一些例子中,這些變體對應於以MPEG DASH的適應組內的表現。在一些例子中,其是基於用戶的對視埠的選擇,以至於當放在一起時提供所選擇視埠的覆蓋的不同的圖塊的這些變體的一些被接收器恢復或傳送給接收器(通過傳送方塊706),並且然後被解碼(在方塊708)以便構建和渲染所期望的視埠(在方塊710和712)。
為了避免在編碼相同內容中的冗餘,存在典型地不同大小的圖塊(例如,較大或較小圖塊),其表現其他圖塊的相同內容。因此,當圖塊變體被分別地封裝在個別軌中時,在圖塊變體包含中典型地沒有層級結構,其可導致在檔內及/或在不同的檔的軌包含的層級結構的缺乏。因此,典型地沒有 用於成批圖塊(例如,用於球形內容的全部圖塊)的性能和元資料可關聯的單個軌。因此,為這批圖塊和軌指定元資料會是困難的及/或不可行的。
ISOBMFF包括用於軌的一些分組機制(例如,其可被用來分組圖塊)。例如,諸如軌群組盒'trgr'和軌選擇盒'tsel'的盒可被用來標注軌並且將他們分別發信為一群軌和一候補群軌。通過採用這種盒,具有相同群識別字和群類型的個別軌屬於相同的群。然而,通過標注個別軌的這種軌分組機制當用在一般依賴於視埠之內容流程的情況下時可表現若干問題。這些問題可起因於例如沒有表現圖塊的變體軌的內容的單個“圖塊”軌的事實,沒有表現全部的球形VR內容的內容(其是全部個別“圖塊”軌的組合)的單個軌的事實,及/或類似者。該問題可包括例如,決定多少軌屬於特定群的低效率,沒有掃描通過檔或全部相關檔中的全部的軌。該問題可包括例如在使關於全部的球形VR內容的任何全域資訊(例如,諸如投影和映射資訊,視埠,ROI,以及其他元資料)與任何特定軌關聯中的不可行性,如果不是與每一個“變體”軌關聯的話。這可例如由任何元資料軌(例如,諸如空間資訊的時變元資料)典型地與媒體軌(其通過‘cdsc’(內容描述)軌參照描述)的事實造成。空間資訊的時變元資料可例如,根據m39974中Geneva CH的2017年1月的題為“VR ROI Signaling(VR ROI發信)”所描述的來實施,其因此通過全文引用而併入到本文中。使各個元資料軌與每一個媒體“變體”軌關聯會是麻煩且繁瑣的,例如,特別是如果圖塊的數量和各個圖塊的變體的數量的乘法變得相當 大時。該問題還可包括在支持由一群現有軌的新軌的構建以便支持例如及時視埠構建來覆蓋一些目標ROI中的困難。
在一些實施例中,視埠或ROI可採用複合軌發信。因此,複合媒體軌可衍生出來,並且時變元資料軌和視訊軌元資料可與他們的相應的複合軌關聯。例如,視埠/ROI可明確地為3D球形內容發信,例如,藉由視埠/ROI時變元資料軌和藉由複合軌衍生出來的3D內容的關聯。採用複合軌提供了單個軌,其可被用來表現圖塊的變體軌的內容。此外,採用複合軌可避免使各個元資料軌與每一個媒體變體軌關聯的需要。進一步地,採用複合軌可允許全域資訊只與該複合軌關聯,並且可避免編碼器/解碼器需要決定多少軌屬於特定群。作為進一步的例子,採用複合軌可幫助建立軌層級以便指示軌在複合關係方面如何相關,例如,當該複合軌由變體軌和(複合)圖塊軌衍生出來時。
衍生的軌可被包含類型‘dtrk’的樣品條目的軌識別。衍生的樣品可包含操作的序列表,其待被順序地執行在來自輸入軌的序列表的相應的圖像或樣品的序列表上。各個操作可由轉換特性指定或指示。例如,一系列轉換特性操作可包括身份('idtt');純淨光圈('clap');旋轉('srot');疊化畫面('dslv');裁切('2dcc');及/或類似者。
為了支持VR依賴於視埠之內容流程,附加的轉換特性項可被用來從現有軌衍生出複合軌。可生成複合軌的各種類型,諸如全部視訊軌(‘cmpa’)的複合,僅僅一個軌的複合(‘cmp1’,其可允許在樣品和樣品群層面上的切換),任何軌 的複合(‘cmpn’,其可允許在樣品和樣品群層面上的切換),僅僅一個軌的選擇(‘sel1’,其可為軌層面上選擇,並且可不包括在樣品層面上的切換),任何軌的選擇(‘seln’,其可為軌層面上選擇,並且可不包括在樣品層面上的切換),縮放(‘scal’),調整大小(‘resz’),及/或類似者。
例如,‘cmpa’轉換特性可指定衍生的樣品的參照寬度和高度,並且可在其相應的指定x,y位置和指定大小將各個輸入圖像放置(例如,組成)在衍生的樣品上。‘cmp1’轉換特性可指定衍生的樣品的參照寬度和高度,並且可在其相應的位置和相應的大小將輸入圖像中的一個、任意一個與僅僅一個放置在衍生的樣品上。‘cmpn’轉換特性可指定衍生的樣品的參照寬度和高度,並且可在他們的相應的位置並且用他們的相應的大小將輸入圖像中的一個或多個放置在衍生的樣品上。‘sel1’轉換特性可指定衍生的樣品的參照寬度和高度,並且可在他們的相應的位置和相應的大小將輸入圖像中的一個或多個放置在衍生的樣品上。‘sel1’轉換特性可以像從一系列輸入軌選擇一個軌。‘seln’轉換特性可指定衍生的樣品的參照寬度和高度,並且可在他們的相應的位置並且用他們的相應的大小將來自從全部的轉換中選擇的輸入軌的相同子集的一個或多個輸入圖像放置在衍生的樣品上。‘seln’轉換特性可以像從一系列輸入軌選擇n(n>0)軌。
基本上,‘cmpa’,‘cmp1’,‘cmpn’,‘sel1’,和‘seln’操作指定像提供2D空間資訊的欄位的若干‘2dcc’用於根據他們的各自定義和語義將輸入2D圖像樣品組成到衍生的2D圖像 樣品上。根據一些實施例,用這些附加的轉換特性項,“圖塊”軌可採用‘cmp1’或‘sel1”被指定為其“變體”軌的衍生的複合軌。當被投影在2D平面上時,全部的VR球形內容的軌可採用‘cmpa’被指定為其“圖塊”軌的衍生的複合軌。視埠或ROI軌可採用‘cmpn’或‘seln’被指定為其“圖塊”的軌衍生的複合軌。該技術描述在2017年1月的題為“Deriving Composite Tracks in ISOBMFF(在ISOBMFF中衍生出複合軌)”的m33971中,其因此通過全文引用而併入到本文中,其提供了用於將2D複合軌映射回為球形3D內容的技術。
本文所介紹的技術提供了用於將VR視埠或ROI軌衍生為複合軌的技術。根據一些實施例,VR(投影的和映射的)視埠或ROI軌可由圖塊軌限定。例如,視埠或ROI軌可採用轉換特性‘cmpn’或‘seln’限定。作為另一例子,若干視埠或ROI軌可採用‘cmpa’由圖塊變體軌限定(例如,根據某些變體特點),其然後可採用‘sel1’通過選擇他們中的一個被複合在一起。用於VR視埠或ROI的時變元資料軌或視訊軌元資料可被限定。該元資料軌或元資料然後可例如通過‘cdsc’(內容描述)軌參照及/或通過將該元資料放置在內容軌內而與這樣限定的複合VR視埠或ROI內容軌關聯。
第8A圖顯示了根據一些實施例的採用複合軌對視埠/ROI發信的示範性簡圖800。第8B圖顯示了根據一些實施例的採用複合軌對視埠/ROI發信的示範性流程850。在步驟852,該編碼器將2D子圖片/圖塊編碼成一個或多個不同的品質及/或一個或多個不同的加密模式。例如,參照簡圖800,在步驟 852,四個2D子圖片(或圖塊)軌t1-t4(802)被編碼用於兩個不同的品質(例如,用於HD的‘h’和用於SD的‘s’)和兩個不同的加密模式(例如,具有用於CTR的加密模式‘a’和用於CBC的加密模式‘b’的常見加密方案(CENC))。編碼和加密為總共16軌生成四個軌804A-D(大致稱為經編碼軌804)的四個不同的群。經編碼圖塊804A對應於採用第一加密模式(‘a’)編碼的高品質(‘h’)(因此,‘ha’)。經編碼圖塊804B對應於採用第二加密模式(‘b’)編碼的高品質(‘h’)(因此,‘hb’)。經編碼圖塊804C對應於採用第一加密模式(‘a’)編碼的低品質(‘l’)(因此,‘la’)。經編碼圖塊804D對應於採用第二加密模式(‘b’)編碼的低品質(‘l’)(因此,‘lb’)。
該複合軌基於經編碼軌804生成。在步驟854,圖塊選自經編碼的軌804。該圖塊可基於一個或多個轉換特性(例如,在如上所述的一系列轉換特性中)選擇。參照第8A圖,例如,四個圖塊s1-s4根據用於這一例子的如下所示的操作進行選擇:s1=sel1{cmp1{t1ha,t1la},cmp1{t1hb,t1lb}}
s2=sel1{cmp1{t2ha,t2la},cmp1{t2hb,t2lb}}
s3=sel1{cmp1{t3ha,t3la},cmp1{t3hb,t3lb}}
s4=sel1{cmp1{t4ha,t4la},cmp1{t4hb,t4lb}}
參照以上的示範性操作,採用了組合(cmp1)和選擇(sel1),這是因為該複合軌來自採用不同的品質和加密模式編碼的若干不同的軌。首先採用‘cmp1’組成品質變體並且然後採用‘sel1’組成加密變體。例如,假定m x n個格的子圖片 軌,其各個子圖片具有q個不同的品質並且以2個模式加密,因此有m x n x q x 2軌。但是當適應性地流化該內容時,僅僅用於潛在的連接頻寬的品質被動態地選擇,而加密模式被靜態地選擇。因此,‘cmp1’被用以在樣品或樣品群水平選擇適當品質圖塊,並且‘sel1’被用以在軌水平選擇適當經加密圖塊,如上所述。
進一步參見第8B圖,在步驟856,被選擇的圖塊軌被組成到2D內容軌中以便生成一個或多個2D內容軌。例如,參照第8A圖,組合在選擇的軌806上執行以便將子圖片複合到2D內容軌中。組合流程生成組合軌C 808和組合軌r 810。組合軌C 808可包括來自選擇的軌806的全部的資料,而組合軌r 810可包括選擇的軌806的子集的資料。組合軌C可採用例如cmpa{s1,s2,s3,s4}生成,其複合全部的圖塊。在一些實施例中,如果ROI或視埠包含或由任一個圖塊t1,t2,t3和t4覆蓋,則ROI或視埠軌可採用‘cmpn’(例如,及/或也許其他轉換特性,如果包含了裁切、調整大小或旋轉)決定。例如,該ROI或視埠組合軌r 810可採用cmpn{s1,s2,s3,s4}決定。在一些實施例中,如果ROI或視埠包含或僅僅由圖塊t1和t2覆蓋,則ROI或視埠軌可採用‘cmpa’(例如,及/或也許其他轉換特性,如果包含了裁切,調整大小或旋轉)決定。例如,組合軌r 810可生成為cmpa{s1,s2}。
進一步參見第8B圖,在步驟858,該編碼器用該ROI或視埠資訊生成元資料軌。在步驟860,該編碼器使用於該ROI或視埠的元資料與一個或多個組成的軌關聯。例如,參照第8A 圖,該編碼器可在時變元資料軌m 812中指定用於ROI(或視埠)資訊的時變元資料軌。該編碼器可採用該時變元資料軌m 812來使ROI軌關聯至組合軌C 808或r 810,諸如通過‘cdsc’(內容描述)軌參照。
當採用MPEG DASH傳送VR內容時,第6圖中的表格600內顯示的許多使用情況經常需要在用於VR內容的MPD內發信視埠和ROI。這可說明解碼器/客戶決定哪個(若有的話)視埠和ROI來傳送和渲染。為了在DASH中發信視埠或ROI,本文所介紹的技術使元資料表現與檔案格式中的複合(碎片化)軌的媒體表現關聯,並且該媒體表現具有對對應于該複合軌所衍生自的變體軌的依賴性。
不同的技術可被用來在ISOBMF中攜帶ROI(例如,或通常空間的)資訊。一個例子在於將資訊處理為他們的關聯的媒體軌的時變元資料,並且在時變元資料軌中攜帶該ROI資訊。另一個例子在於將資訊處理為他們的關聯的媒體軌的樣品說明,並且在媒體軌中攜帶該ROI資訊。
MPEG DASH規範採用@關聯Id提供SRD(空間關係描述符)的機制和表現關聯,以便在表現中間發信空間關係和元資料關係。第2A圖顯示了根據一些例子的發信“主視訊”具有“ROI視訊”的簡圖200,其可採用時變元資料提供ROI的特寫視圖。DASH 202表現包括三個表現204,206和208:“主視訊”204的表現,“ROI視訊”206的表現,和“ROI元資料”208的表現,其採用@關聯Id與“ROI視訊”表現關聯。ISOBMFF 220表現包括三個‘trak’,“主視訊”‘trak’222,“ROI視訊”‘trak’224, 和“ROI元資料”‘trak’226。此外,如圖所示各個軌具有關聯的元資料。“主視訊”‘trak’222包括用於主視訊樣品的元資料,“ROI視訊”‘trak’224包括用於該ROI視訊樣品的元資料,並且“ROI元資料”‘trak’226包括用於該元資料樣品的元資料。
第2B圖顯示了根據一些例子的發信“主視訊”具有“ROI視訊”的簡圖250,其可採用視訊軌元資料提供ROI的特寫視圖。相比於第2B圖,DASH表現252包括相同的首先兩個表現204和206。DASH 252包括不同的ROI元資料表現254,其與主視訊(而不是該ROI視訊)關聯。ISOBMFF表現僅僅包括兩個‘trak’,即“主視訊”‘trak’272和“ROI視訊”‘trak’274。“主視訊”‘trak’272包括“ROI元資料”。
現有技術沒有提供用於使ROI及/或視埠與複合軌關聯。本文所揭露的技術提供用於發信的機制,從而在DASH中發信視埠和ROI資訊(例如,用於依賴於視埠之VR內容處理流程)。如在m33971中所介紹,“變體”軌可被組成為“圖塊”軌,並且“圖塊”軌然後成為“內容”軌。這可採用例如在2016年10月的題為“Technologies under Consideration for ISOBMFF(為ISOBMFF而考慮的技術)”的N16420中所介紹的衍生的軌機制來完成。基本上,衍生的軌自身不包含任何媒體樣品,而是該衍生的軌僅僅指定一系列輸入媒體軌和一系列轉換特性,其限定輸入媒體軌的樣品應如何進行處理來產生衍生的軌的樣品。在m39971中所提議的複合軌是衍生的軌,該衍生的軌是其輸入媒體軌的根據一些空間關係資訊和邏輯關係(例如,全部、任何一個和任意的)的複合。複合軌可用來指定例如來 自“變體”軌的“圖塊”軌和來自“圖塊”軌的“內容”軌。
第9圖顯示了根據一些實施例的複合軌及其輸入軌的簡圖900。“複合視訊”包括對視訊源“視訊1”到“視訊N”的“N”個參照。各個視訊源軌與用於那些視訊樣品的元資料關聯。在一些例子中,當複合軌對應於VR球形內容(及/或該VR球形內容的一部分)時,視埠和ROI資訊可以不同的方式進行攜帶。例如,視埠和ROI資訊可被攜帶在時變元資料軌中並且與該複合軌關聯,處理為複合軌元資料並且在該複合軌內攜帶,及/或類似者。在一些例子中,該複合軌可如m39973中的題為“Signaling for VRViewports and ROIs in ISOBMFF using Composite Tracks(採用複合軌在ISOBMFF中為VR視埠和ROI發信)”所論述的那樣進行實施,其因此通過全文引用的方式併入到本文中。該複合軌視埠和ROI資訊可如2017年1月的m39629中的題為“ROI Signaling for VR Content(用於VR內容的ROI發信)”所論述的那樣進行實施,其因此通過全文引用的方式併入到本文中。
第10圖顯示了根據一些實施例的採用時變元資料軌發信視埠和ROI的簡圖1000。參照ISOBMFF部分1002,“複合視訊”被顯示在上‘trak’1004中,構建其從“視訊1”到“視訊N”軌進行構建。如通過包括mdat( )的‘trak’1004所示的那樣,“複合視訊”軌並沒有內容,這是因為其沒有存儲任何樣品。實際的視訊在‘trak’1006A(用於“視訊1”)到1006N(用於“視訊N”)中。例如,為了播放軌,實際的內容來自‘trak’1006A-N。在‘trak’1008處,“v/r視訊”是視埠/ROI視訊。‘trak’1010是元資料軌, 其包括回到‘trak’1004中的主“複合視訊”軌的參照(‘tref’)。因此,如簡圖1000中所示,當‘trak’1010中的元資料攜帶ROI及/或視點數據時,則該ROI及/或視點數據聯合回到該複合視訊。
參照DASH部分1050,DASH具有對應於全部軌的不同表現。表現1052對應于“複合視訊”,其具有對視訊表現1到N的依賴性(採用@依賴性Id來指示)。表現1054A到1054N分別對應於視訊1到視訊N。表現1056對應於“v/r視訊”,其為視埠/ROI視訊。表現1058包括元資料。該元資料採用@關聯ID進行關聯以便指向該複合視訊表現的表現的ID(其實表現0,具有該複合視訊的表現1052)。
如圖所示,DASH表現與ISOBMFF‘trak’有關。尤其是,複合DASH表現1052與‘trak’1004有關;視訊1表現1054A到視訊N表現1054N分別與‘trak’1006A到‘trak’1006N有關;v/r視訊表現1056與v/r‘trak’1008有關;並且元資料表現1058與‘trak’1010有關。
因此,對於DASH,可存在該複合視訊表現1052的對視訊表現1054A-N的依賴性。這一依賴性提供了機制來支持例如視埠的預取和ROI相關的表現部段。
第11圖顯示了採用視訊軌元資料發信視埠和ROI的簡圖1100。DASH格式1150包括關於第10圖(分別為表現1052,1054A-N,1056和1058,)中的那些的類似的表現1152,1154A-N,1156和1158。參照該ISOBMFF表現1102,軌1006A-N和1008與第10圖中的那些相同。第11圖中的第一軌1104現在包 括元資料,這是因為該例子採用了視訊軌元資料。因此,不存在用於ISOBMFF表現1102的像第10圖中的軌1010的相應的最後軌。而是,該元資料表現1158與第一ISOBMFF軌1104有關。剩餘的軌1154A-N和1156與軌1006A-N和1008有關,類似於第10圖。因此,在DASH中,當該元資料被攜帶在視訊軌中時,DASH仍然包括單獨的表現1158,而ISOBMFF不包括單獨的元資料‘trak’。因此,當視埠和ROI資訊被存儲作為若干其他軌的複合媒體軌的視訊軌元資料時,並且資訊被攜帶在用於ISOBMFF的複合軌內,而對應于該複合軌的附加的元資料表現用於DASH。第10-11圖中所示的示意圖可轉變成用於MPEG DASHMPD的適當的XML表達,以便支持視埠和ROI相關的使用情況。
根據本文所介紹的原則的技術操作可以任何適當的方式進行實施。上面的流程圖的處理和決策塊表示可包括在執行這些各種處理的演算法內的步驟和動作。從這些處理衍生的演算法可實施為與一個或多個單一或多目的處理器集成並且指導一個或多個單一或多目的處理器的操作的軟體,可實施為功能等同的電路諸如數位信號處理(DSP)電路或特定用途積體電路(ASIC),或可以任何其他適當方式實施。應明白的是,本文中所包括的流程圖沒有描述任何特定電路的或任何特定程式設計語言的語法或操作或程式設計語言的類型。而是,流程圖圖示了功能資訊,本領域技術人員可用來製造電路或用來實施電腦軟體演算法從而執行特定設備的處理,該特定設備執行本文所介紹的類型的技術。還應明白的是,除非本文中另 外指出,在各個流程圖中所介紹的步驟及/或動作的特定順序僅僅是可實施的說明性的演算法,並且其可在本文所介紹的原則的實現和實施例內進行變化。
因此,在一些實施例中,本文所介紹的技術可體現在電腦可執行指令中,該電腦可執行指令實施為軟體,包括實施為應用軟體,系統軟體,固件,中間軟體,嵌式碼,或任何其他適當類型的電腦編碼。這種電腦可執行指令可採用若干適當程式設計語言及/或程式設計或腳本工具中的任一種寫成,並且還可編輯為在框架或虛擬機器上執行的可執行的機器語言代碼或中間代碼。
當本文所介紹的技術體現為電腦可執行指令時,這些電腦可執行指令可以任何適當的方式實施,包括實施為若干功能設施,各自提供一個或多個操作來根據這些技術完成演算法操作的執行。然而,具現化的“功能設施”是電腦系統的結構元件,其在集成於一個或多個電腦並且由該一個或多個電腦執行時促使該一個或多個電腦執行具體的操作角色。功能設施可為部分的或全部的軟體元素。例如,功能設施可實施為處理的函數,或實施為離散處理,或實施為任何其他適當處理單元。如果本文所介紹的技術實施為多個功能設施,則各個功能設施可以其自身的方式實施;一切都不需要以同樣的方式實施。此外,這些功能設施可視情況而並行地或串列地執行,並且可採用消息傳遞協定或以任何其他適當方式在使用他們所執行的電腦(或多個電腦)上的共用記憶體的彼此之間傳遞資訊。
大致上,功能設施包括常式、程式、物件、元件、資料結構等,其執行特定任務或實施特定抽象資料類型。典型地,功能設施的功能可根據其所操作的系統中的需要進行結合或分佈。在一些實施中,執行本文所介紹的技術的一個或多個功能設施可一起形成完整的套裝軟體。這些功能設施在備選的實施例中可適於與其他無關的功能設施及/或處理交互,以便實施軟體程式應用。
一些示範性功能設施已經在本文中進行了介紹,用於執行一個或多個任務。應明白的是,儘管所介紹的功能設施和任務分工僅僅是可實施本文所介紹的示範性技術的功能設施的說明性的類型,但實施例不限於以任何具體數目、分工或功能設施的類型來實施。在一些實施中,全部功能可以單個功能設施來實施。還應明白的是,在一些實施中,本文所介紹的一些功能設施可與其他的一起或分開地進行實施(即,作為單個單元或獨立的單元),或者這些功能設施中的一些可不被實施。
實施本文所介紹的技術的電腦可執行指令(當實施為一個或多個功能設施或以任何其他方式實施時)在一些實施例中可被編碼在一個或多個電腦讀媒體上以便給媒體供功能。電腦可讀媒體包括諸如硬碟驅動器的磁媒體,諸如光碟(CD)或數位光碟(DVD)的光學媒體,持久性或非持久性固態記憶體(例如,閃速記憶體,磁性RAM等),或任何其他適當存儲媒體。這種電腦可讀媒體可以任何適當方式實施。如本文中所用的,“電腦可讀媒體”(還稱“電腦可讀存儲媒體”) 指的是有形的存儲媒體。有形的存儲媒體是非暫時性的並且具有至少一個物理的結構元件。在如本文中所用的“電腦可讀媒體”中,至少一個物理的結構元件具有至少一個物理特性,其可在一下流程器件以一些方式改變:用嵌入資訊生成媒體的流程,在其上記錄資訊的流程,或用資訊編碼媒體的任何其他流程。例如,電腦可讀媒體的實體結構的一部分的磁化狀態可在記錄流程期間被改變。
進一步地,以上所介紹的一些技術包含以某些方式存儲資訊(例如,資料及/或指令)的動作,以便由這些技術使用。在這些技術的一些實施中一諸如其中技術被實施為電腦可執行指令的實施一資訊可被編碼在電腦可讀存儲媒體上。在具體結構在本文中被介紹為將這一資訊存儲在其中的有利格式的情況下,這些結構可用以給當被編碼在存儲媒體上時的資訊賦予物理組織。這些有利結構然後可通過實現與資訊交互的一個或多個處理器的操作而提供功能給存儲媒體;例如,通過增加由該處理器(或多個處理器)執行的電腦操作的效率。
在其中技術可體現為電腦可執行指令的一些而非全部的實施中,這些指令可在以任何適當電腦系統運行的一個或多個適當的計算裝置上執行,或者一個或多個計算裝置(或一個或多個計算裝置的一個或多個處理器)可被程式設計來執行電腦可執行指令。當指令以可訪問計算裝置或處理器的方式存儲時,諸如在資料存儲中(例如,片上快取記憶體或指令寄存器,可藉由匯流排訪問的電腦可讀存儲媒體,可藉由一個或多個網路訪問並且通過裝置/處理器訪問的電腦可讀存儲媒體 等),計算裝置或處理器可被程式設計來執行該執行指令。包含這些電腦可執行指令的功能設施可與下述集成並且指導他們的操作:單個多目的可程式設計數碼計算裝置,共用處理能力並且共同執行本文所介紹的技術的兩個或多個多目的計算裝置的協作系統,專用于執行本文所介紹的技術的單個計算裝置或計算裝置的協作系統(同地協作的或地理分佈的),用於執行本文所介紹的技術的一個或多個現場可程式設計閘陣列(FPGAs),或任何其他適當系統。
計算裝置可包含至少一個處理器、網路適配器和電腦可讀存儲媒體。計算裝置可例如為桌上型電腦或筆記型電腦、個人數位助理(PDA)、智慧型行動電話、伺服器或任何其他適當計算裝置。網路適配器可為任何適當硬體及/或軟體以便使得計算裝置能夠在任何適當計算網路上與任何其他適當計算裝置有線及/或無線通訊。計算網路可包括無線接入點、交換機、路由器、閘道及/或其他網路設備以及用於在兩個或多個電腦(包括網際網路)之間交換資料的任何適當有線及/或無線通訊媒介或媒體。電腦可讀媒體可適於存儲待被處理器處理的及/或指令待被處理器執行的資料。該處理器使得能夠處理資料和執行指令。該資料和指令可被存儲在電腦可讀存儲媒體上。
計算裝置可另外具有一個或多個元件和週邊設備,包括輸入和輸出裝置。這些裝置除了別的以外還可用來呈現使用者介面。可被用來提供使用者介面的輸出裝置的例子包括用於輸出的視覺表現的印表機或顯示幕以及用於輸出的聲 音表現的揚聲器或其他聲音生成裝置。可被用於使用者介面的輸入裝置的例子包括鍵盤和定點裝置,諸如滑鼠、觸控板和數字面板。作為另一例子,計算裝置可通過語音辨識或以其他聲音格式接收輸入資訊。
已經介紹了實施例,其中技術以電路及/或電腦可執行指令實施。應明白的是,一些實施例可為方法的形式,其中已經提供了至少一個例子。作為方法的部分而被執行的動作可以任何適當的方式排序。因此,實施例可被構建,其中的動作以不同於所示的順序來執行,其可包括同時執行一些動作,即使在所示的實施例中被顯示為連續動作。
以上所介紹的實施例的各種方面可單獨地、相結合地或以未在上文中所介紹的實施例中具體論述的各種佈置使用,並且因此在其應用方面不限於前述說明書所述的或圖中所示的組件的細節和佈置。例如,在一個實施例中所介紹的方面可與其他實施例中所介紹的方面以任何方式進行結合。
在申請專利範圍中用以修飾要求保護的元件的諸如“第一”、“第二”、“第三”等的序數詞的使用自身並不意味著要求保護的元件相比於另一個要求保護的元件具有任何優先,居先,或順序或其中執行方法的動作的時序要求保護的元件,而僅是用作標注來區分具有某些命名的一個要求保護的元件與具有相同命名的另一個元件(但是對於序數詞的使用)從而區分這些要求保護的元件。
而且,本文所用的措辭和術語是用於說明的目的,而不應看做是限制。在本文中使用的“包括”、“包含”、“具 有”、“含有”、“涉及”以及他們的變體意在包括其後列出的專案及其等同物以及附加的項目。
用語“示範性”在本文中用來意味著作為例子、比方或例證。本文中作為示範介紹的任何實施例、實施、處理、特徵等因此應理解為說明性的例子,而不應理解為優選的或有利的例子,除非另外指出。
因此已經介紹了至少一個實施例的若干方面,應明白的是,各種變化、變型和改進將易於被本領域技術人員所想到。這種變化、變型和改進意在成為這一公開內容的部分,並且意在落入本文所介紹的原則的精神和範圍內。從而,前述的說明書和圖式只是舉例的方式。

Claims (18)

  1. 一種用於解碼視訊資料的解碼方法,該方法包含:接收包含感興趣區域的視訊資料;識別與該視訊資料關聯的球形區域結構,其指定在球體上的該感興趣區域,該球形區域結構包含:在該球體上的該感興趣區域的參照點;指示一組邊界點的資料,該組邊界點包含用於在該球體上的該感興趣區域的每一側的邊界點;以及基於該參照點與該組邊界點決定在該視訊資料中的該感興趣區域。
  2. 如申請專利範圍第1項所述之用於解碼視訊資料的解碼方法,其中決定該感興趣區域包含:決定指示一組邊界點的資料被設置為零;以及決定該感興趣區域對應於在該參照點處的一點。
  3. 如申請專利範圍第1項所述之用於解碼視訊資料的解碼方法,其中:指示該組邊界點的資料包含水平範圍與豎直範圍;該參照點是該感興趣區域的中心點;以及決定該感興趣區域包含:基於該水平範圍決定用於該感興趣區域的左側的中心的左中心點與用於該感興趣區域的右側的中心的右中心點;基於該豎直範圍決定用於該感興趣區域的上側的中心的上中心點與該感興趣區域的底側的中心的底中心點;基於延伸越過該左中心點、右中心點、上中心點與底中心 點中的每一個的四個大圓決定該感興趣區域,其中該四個大圓中的每一個大圓由穿過該球體的中心的關聯的二維平面限定。
  4. 如申請專利範圍第1項所述之用於解碼視訊資料的解碼方法,其中:指示該組邊界點的資料包含水平範圍與豎直範圍;該參照點是該感興趣區域的中心點;並且決定該感興趣區域包含:基於該水平範圍決定用於該感興趣區域的左側的中心的左中心點與用於該感興趣區域的右側的中心的右中心點;基於該豎直範圍決定用於該感興趣區域的上側的中心的上中心點與該感興趣區域的底側的中心的底中心點;基於下述來決定該感興趣區域:延伸越過該左中心點與右中心點中的每一個的兩個大圓,其中該兩個大圓中的每一個大圓由穿過該球體的中心的關聯的二維平面限定;以及延伸越過該上中心點和底中心點中的每一個的兩個小圓,其中該兩個小圓中的每一個小圓由不穿過該球體的中心的關聯的二維平面限定。
  5. 如申請專利範圍第1項所述之用於解碼視訊資料的解碼方法,其中:該球形區域結構的至少一部分在時變元資料軌中發信;並且在該時變元資料軌中的軌參照盒使該球形區域結構的該部 分與該視訊資料關聯。
  6. 如申請專利範圍第5項所述之用於解碼視訊資料的解碼方法,其中該時變元資料軌包含指示該感興趣區域的類型的資料。
  7. 如申請專利範圍第6項所述之用於解碼視訊資料的解碼方法,其中該感興趣區域的類型包含基於若干觀看的該感興趣區域的排名,該感興趣區域與導演的視圖關聯的指示,或他們的一些組合。
  8. 如申請專利範圍第5項所述之用於解碼視訊資料的解碼方法,其中該時變元資料軌包含指示該感興趣區域的品質的資料,該感興趣區域的排名,或他們的一些組合。
  9. 如申請專利範圍第1項所述之用於解碼視訊資料的解碼方法,其中:所接收的視訊資料包含來自複合視訊軌的資料;並且識別該球形區域結構包含識別用於與該複合視訊軌關聯的該球形區域結構的元資料。
  10. 如申請專利範圍第9項所述之用於解碼視訊資料的解碼方法,其中該元資料包含具有與該球形區域結構關聯的元資料的時變元資料軌。
  11. 如申請專利範圍第9項所述之用於解碼視訊資料的解碼方法,其中該複合視訊軌基於選自多個二維圖塊軌的軌而組成,其中各個二維圖塊軌與品質、加密模式或兩者關聯。
  12. 一種配置成解碼視訊資料的設備,該設備包含與記憶體通訊的處理器,該處理器配置成執行存儲在該記憶體中的指 令,該指令促使該處理器來:接收包含感興趣區域的視訊資料;識別與該視訊資料關聯的球形區域結構,其指定在球體上的該感興趣區域,該球形區域結構包含:在該球體上的該感興趣區域的參照點;指示一組邊界點的資料,該組邊界點包含用於在該球體上的該感興趣區域的每一側的邊界點;以及基於該參照點和該組邊界點決定在該視訊資料中的該感興趣區域。
  13. 一種用於編碼視訊資料的編碼方法,該方法包含:編碼包含感興趣區域的視訊資料,包含生成指定在球體上的該感興趣區域的球形區域結構,該球形區域結構包含:在該球體上的該感興趣區域的參照點;指示一組邊界點的資料,該組邊界點包含用於在該球體上的該感興趣區域的每一側的邊界點;以及使該球形區域結構與該視訊資料關聯以便指定在該視訊資料中的該感興趣區域。
  14. 如申請專利範圍第13項所述之用於編碼視訊資料的編碼方法,進一步包含在時變元資料軌中發信該球形區域結構的至少一部分,使得在該時變元資料軌中的軌參照盒使該球形區域結構的該部分與該視訊資料關聯。
  15. 如申請專利範圍第13項所述之用於編碼視訊資料的編碼方法,其中:編碼該視訊資料包含編碼複合視訊軌;並且 使該球形區域結構與該視訊資料關聯包含:生成用於該球形區域結構的元資料;以及使所生成的元資料與該複合視訊軌關聯。
  16. 如申請專利範圍第15項所述之用於編碼視訊資料的編碼方法,其中生成該元資料包含生成具有與該球形區域結構關聯的元資料的時變元資料軌。
  17. 如申請專利範圍第15項所述之用於編碼視訊資料的編碼方法,其中編碼該複合視訊軌包含基於選自多個二維圖塊軌的軌編碼該複合視訊軌,其中各個二維圖塊軌與品質、加密模式或兩者關聯。
  18. 一種用於編碼視訊資料的設備,該設備包含與記憶體通訊的處理器,該處理器配置成執行存儲在該記憶體中的指令,該指令促使該處理器來:編碼包含感興趣區域的視訊資料,包含生成球形區域結構,其指定在球體上的該感興趣區域,該球形區域結構包含:在該球體上的該感興趣區域的參照點;指示一組邊界點的資料,該組邊界點包含用於在該球體上的該感興趣區域的每一側的邊界點;並且使該球形區域結構與該視訊資料關聯以便指定在該視訊資料中的該感興趣區域。
TW107100634A 2017-01-06 2018-01-08 用於發信視埠與感興趣區域的方法與設備 TWI674791B (zh)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US201762443006P 2017-01-06 2017-01-06
US62/443,006 2017-01-06
US201762445282P 2017-01-12 2017-01-12
US62/445,282 2017-01-12
US201762445834P 2017-01-13 2017-01-13
US62/445,834 2017-01-13
US15/861,503 2018-01-03
US15/861,503 US10742999B2 (en) 2017-01-06 2018-01-03 Methods and apparatus for signaling viewports and regions of interest

Publications (2)

Publication Number Publication Date
TW201832555A TW201832555A (zh) 2018-09-01
TWI674791B true TWI674791B (zh) 2019-10-11

Family

ID=62783747

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107100634A TWI674791B (zh) 2017-01-06 2018-01-08 用於發信視埠與感興趣區域的方法與設備

Country Status (4)

Country Link
US (1) US10742999B2 (zh)
CN (1) CN110169076B (zh)
TW (1) TWI674791B (zh)
WO (1) WO2018127123A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106797499A (zh) 2014-10-10 2017-05-31 索尼公司 编码装置和方法、再现装置和方法以及程序
KR102598082B1 (ko) * 2016-10-28 2023-11-03 삼성전자주식회사 영상 표시 장치, 모바일 장치 및 그 동작방법
WO2018131813A1 (en) * 2017-01-10 2018-07-19 Samsung Electronics Co., Ltd. Method and apparatus for generating metadata for 3d images
US10839480B2 (en) * 2017-03-22 2020-11-17 Qualcomm Incorporated Sphere equator projection for efficient compression of 360-degree video
US11532128B2 (en) 2017-03-23 2022-12-20 Qualcomm Incorporated Advanced signaling of regions of interest in omnidirectional visual media
KR102277267B1 (ko) * 2017-03-29 2021-07-14 엘지전자 주식회사 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
KR102233667B1 (ko) * 2017-07-13 2021-03-31 삼성전자주식회사 네트워크 시스템에서 데이터를 전송하는 방법 및 장치
US11115451B2 (en) * 2018-03-26 2021-09-07 Mediatek Singapore Pte. Ltd. Methods and apparatus for signaling viewports and regions of interest
WO2019245303A1 (en) * 2018-06-22 2019-12-26 Lg Electronics Inc. Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, and apparatus for receiving 360-degree video
JP2021536163A (ja) * 2018-08-30 2021-12-23 シャープ株式会社 サブピクチャ時限メタデータ情報をシグナリングするシステム及び方法
WO2020068284A1 (en) * 2018-09-26 2020-04-02 Futurewei Technologies, Inc. Virtual reality (vr) viewpoint grouping
US10779014B2 (en) 2018-10-18 2020-09-15 At&T Intellectual Property I, L.P. Tile scheduler for viewport-adaptive panoramic video streaming
CN111263191B (zh) * 2018-11-30 2023-06-27 中兴通讯股份有限公司 视频数据的处理方法、装置、相关设备及存储介质
US11295541B2 (en) * 2019-02-13 2022-04-05 Tencent America LLC Method and apparatus of 360 degree camera video processing with targeted view
CN112148115A (zh) 2019-06-28 2020-12-29 中兴通讯股份有限公司 媒体处理方法、装置、系统和可读存储介质
CN112511866B (zh) * 2019-12-03 2024-02-23 中兴通讯股份有限公司 媒体资源播放方法、装置、设备和存储介质
GB2590435B (en) * 2019-12-17 2023-12-20 Canon Kk Method, device, and computer program for improving encapsulation of media content
EP4165877A1 (en) * 2020-06-16 2023-04-19 Dolby Laboratories Licensing Corporation Representing volumetric video in saliency video streams
US20220124135A1 (en) * 2020-09-25 2022-04-21 Mediatek Singapore Pte. Ltd. Systems and methods of server-side streaming adaptation in adaptive media streaming systems
US20220337800A1 (en) * 2021-04-19 2022-10-20 Mediatek Singapore Pte. Ltd. Systems and methods of server-side dynamic adaptation for viewport-dependent media processing
WO2024072732A1 (en) * 2022-09-28 2024-04-04 Bytedance Inc. Enhanced signalling of extended dependent random access sample point samples in a media file

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104735464A (zh) * 2015-03-31 2015-06-24 华为技术有限公司 一种全景视频交互传输方法、服务器和客户端
CN106162177A (zh) * 2016-07-08 2016-11-23 腾讯科技(深圳)有限公司 视频编码方法和装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4526648B2 (ja) * 1999-09-09 2010-08-18 株式会社日立メディコ 磁気共鳴イメージング装置
US20070024706A1 (en) 2005-08-01 2007-02-01 Brannon Robert H Jr Systems and methods for providing high-resolution regions-of-interest
US9344612B2 (en) * 2006-02-15 2016-05-17 Kenneth Ira Ritchey Non-interference field-of-view support apparatus for a panoramic facial sensor
US9131033B2 (en) * 2010-07-20 2015-09-08 Qualcomm Incoporated Providing sequence data sets for streaming video data
US9282333B2 (en) 2011-03-18 2016-03-08 Texas Instruments Incorporated Methods and systems for masking multimedia data
CN102970529B (zh) * 2012-10-22 2016-02-17 北京航空航天大学 一种基于对象的多视点视频分形编码压缩与解压缩方法
US9781490B2 (en) * 2013-03-15 2017-10-03 Samir B. Makhlouf System and method for engagement and distribution of media content
US9262671B2 (en) * 2013-03-15 2016-02-16 Nito Inc. Systems, methods, and software for detecting an object in an image
EP2894852A1 (en) 2014-01-14 2015-07-15 Alcatel Lucent Process for increasing the quality of experience for users that watch on their terminals a high definition video stream
US9917877B2 (en) * 2014-10-20 2018-03-13 Google Llc Streaming the visible parts of a spherical video
CN105120290B (zh) * 2015-08-04 2017-12-05 宁波大学 一种深度视频快速编码方法
US10339629B2 (en) * 2015-10-09 2019-07-02 Samsung Electronics Co., Ltd. Method for providing indication in multi-dimensional media in electronic device
GB201601140D0 (en) * 2016-01-21 2016-03-09 Oxehealth Ltd Method and apparatus for estimating heart rate
CN105812759A (zh) * 2016-04-15 2016-07-27 杭州当虹科技有限公司 一种360度全景视频的平面投射方法及编码方法
CN105828063B (zh) * 2016-04-22 2018-01-19 上海乐相科技有限公司 一种显示方法、移动终端及虚拟现实vr眼镜
JP7022077B2 (ja) * 2016-05-25 2022-02-17 コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ 空間的にタイリングされた全方位ビデオのストリーミング
CN106199066B (zh) * 2016-07-08 2019-09-24 上海与德通讯技术有限公司 智能终端的方向校准方法、装置
EP3485643B1 (en) * 2016-07-14 2023-09-06 Koninklijke KPN N.V. Video coding
CN106060554A (zh) 2016-07-26 2016-10-26 公安部第研究所 基于感兴趣区域的空间可分级编码装置及其方法
EP3287947A1 (en) * 2016-08-25 2018-02-28 Dolby Laboratories Licensing Corp. Automatic video framing of conference participants
CN109644279B (zh) * 2016-09-02 2023-09-22 Vid拓展公司 用于用信号通知360度视频信息的方法和系统
EP3526974B1 (en) * 2016-10-12 2021-06-30 Koninklijke KPN N.V. Processing spherical video data on the basis of a region of interest
US10979721B2 (en) * 2016-11-17 2021-04-13 Dolby Laboratories Licensing Corporation Predicting and verifying regions of interest selections
US10652553B2 (en) * 2016-12-07 2020-05-12 Qualcomm Incorporated Systems and methods of signaling of regions of interest
US10560660B2 (en) * 2017-01-04 2020-02-11 Intel Corporation Rectilinear viewport extraction from a region of a wide field of view using messaging in video transmission

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104735464A (zh) * 2015-03-31 2015-06-24 华为技术有限公司 一种全景视频交互传输方法、服务器和客户端
CN106162177A (zh) * 2016-07-08 2016-11-23 腾讯科技(深圳)有限公司 视频编码方法和装置

Also Published As

Publication number Publication date
CN110169076B (zh) 2022-09-09
US10742999B2 (en) 2020-08-11
US20180199042A1 (en) 2018-07-12
CN110169076A (zh) 2019-08-23
WO2018127123A1 (en) 2018-07-12
TW201832555A (zh) 2018-09-01

Similar Documents

Publication Publication Date Title
TWI674791B (zh) 用於發信視埠與感興趣區域的方法與設備
TWI740347B (zh) 發信點雲多媒體資料的視埠以及興趣區域的方法及裝置
CN109792563B (zh) 基于感兴趣区域处理球面视频数据
TWI734951B (zh) 用於編碼和解碼虛擬實境內容的方法和裝置
TWI735038B (zh) 將軌道推導用於基於網路的媒體處理的方法和裝置
US11178377B2 (en) Methods and apparatus for spherical region presentation
TWI768372B (zh) 用於沉浸式媒體資料軌道的空間分組以及坐標信令的方法及裝置
US11115451B2 (en) Methods and apparatus for signaling viewports and regions of interest
TWI793602B (zh) 用以傳訊沉浸式媒體中多種類型視域的方法和裝置
US20240114168A1 (en) Methods and apparatus for signaling 2d and 3d regions in immersive media
US11922561B2 (en) Methods and systems for implementing scene descriptions using derived visual tracks
US11743441B2 (en) Methods and apparatus for selecting and switching input video tracks using track derivations
US20220337800A1 (en) Systems and methods of server-side dynamic adaptation for viewport-dependent media processing