TW201301865A

TW201301865A - 處理信號之方法及其系統

Info

Publication number: TW201301865A
Application number: TW101103400A
Authority: TW
Inventors: Xuemin Chen; Nambi Seshadri; Jeyhan Karaoguz; Chris Boross
Original assignee: Broadcom Corp
Priority date: 2011-02-03
Filing date: 2012-02-02
Publication date: 2013-01-01
Also published as: EP2485495A2; CN102630025B; TWI526044B; CN102630025A; HK1167968A1; EP2485495A3

Abstract

本發明公開了一種處理信號的方法及系統。單像視頻傳感設備的圖像感測器和深度感測器用於捕獲2D視頻和相應深度資訊。基於捕獲的相應深度資訊選擇捕獲的2D視頻的感興趣區域(ROI)。單像視頻傳感設備基於選擇的ROI選擇性處理捕獲的2D視頻和捕獲的相應深度資訊。從處理的2D視頻合成用於顯示的3D視頻。將與捕獲的2D視頻同步的捕獲的深度資訊儲存為中繼資料，並且可對其進行插補以匹配捕獲的2D視頻的視頻解析度。捕獲的2D視頻和捕獲的相應深度資訊通過可伸縮視頻編碼得以增強。隨著3D視頻渲染，基於選擇的ROI選擇捕獲的2D視頻的相關圖像/視頻分量，從而連同相應深度資訊合成3D視頻。

Description

處理信號之方法及其系統

本發明涉及視頻處理。更具體地，本發明涉及從單像(monoscopic)2D視頻和相應深度資訊創建3D視頻的方法及系統。

數位視訊功能可納入很多設備中，例如，數位電視、數位直播系統、數位錄音設備及類似設備。較之於常規的類比視頻系統，在處理和傳輸視頻序列方面數位視訊設備可提供頻寬效率增加的顯著改進。

可以二維(2D)格式或三維(3D)格式記錄視頻內容。在各種應用中，例如，DVD電影和數位電視，由於其對觀眾而言比2D副本更真實，3D視頻通常是有吸引力的。3D視頻包括左視圖視頻和右視圖視頻。3D視頻框可由分別組合左視圖視頻分量和右視圖視頻分量的方式產生。

比較本發明後續將要結合附圖介紹的系統，現有技術的其它局限性和弊端對於本領域的技術人員來說是顯而易見的。

本發明提供一種從單像2D視頻和相應深度資訊創建3D視頻的系統和/或方法，並結合至少一幅附圖進行展示和/或描述，且在申請專利範圍中更加完整地闡明。

根據本發明的一個方面，提供一種處理信號的方法，所述方法包括：通過單像視頻傳感設備的一個或多個圖像感測器捕獲二維視頻；通過所述單像視頻傳感設備的深度感測器捕獲所述捕獲的二維視頻的相應深度資訊；基於所述捕獲的相應深度資訊選擇所述捕獲的二維視頻的一個或多個感興趣區域(regions of interest)；基於所述選擇的一個或多個感興趣區域選擇性地處理所述捕獲的二維視頻和所述捕獲的相應深度資訊；及從所述處理的二維視頻和所述處理的相應深度資訊合成(compose)三維視頻。

較佳地，所述方法還包括使所述捕獲的相應深度資訊與所述捕獲的二維視頻同步。

較佳地，所述方法還包括將所述同步的深度資訊儲存為所述捕獲的二維視頻的中繼資料。

較佳地，所述方法還包括使所述儲存的深度資訊的解析度與所述捕獲的二維視頻的視頻解析度相匹配。

較佳地，所述方法還包括在各圖元間和/或各視頻框間插補所述儲存的深度資訊以匹配所述捕獲的二維視頻的所述視頻解析度。

較佳地，所述方法還包括分別將所述捕獲的二維視頻和所述儲存的深度資訊可伸縮視頻編碼為基礎層視頻和增強層視頻。

較佳地，所述方法還包括在所述可伸縮視頻編碼期間，基於所述選擇的一個或多個感興趣區域選擇性地壓縮所述捕獲的二維視頻和所述儲存的深度資訊。

較佳地，所述方法還包括，解壓縮所述壓縮的二維視頻和所述壓縮的深度資訊；及基於所述選擇的一個或多個感興趣區域，確定所述解壓縮的二維視頻的視頻分量的相關性。

較佳地，所述方法還包括基於所述確定的相關性，從所述解壓縮的二維視頻和所述解壓縮的深度資訊合成所述三維視頻。

較佳地，所述方法還包括渲染所述合成的三維視頻。

根據本發明的一個方面，提供一種處理信號的系統，所述系統包括：應用於單像視頻傳感設備的一個或多個處理器和/或電路，所述一個或多個處理器和/或電路包括一個或多個圖像感測器和深度感測器，其中所述一個或多個處理器和/或電路用於：通過所述一個或多個圖像感測器捕獲二維視頻；通過所述深度感測器捕獲所述捕獲的二維視頻的相應深度資訊；基於所述捕獲的相應深度資訊選擇所述捕獲的二維視頻的一個或多個感興趣區域；基於所述選擇的一個或多個感興趣區域選擇性地處理所述捕獲的二維視頻和所述捕獲的相應深度資訊；及從所述處理的二維視頻和所述處理的相應深度資訊合成三維視頻。

較佳地，所述一個或多個電路用於使所述捕獲的相應深度資訊與所述捕獲的二維視頻同步。

較佳地，所述一個或多個電路用於將所述同步的深度資訊儲存為所述捕獲的二維視頻的中繼資料。

較佳地，所述一個或多個電路用於使所述儲存的深度資訊的解析度與所述捕獲的二維視頻的視頻解析度相匹配。

較佳地，所述一個或多個電路用於在各圖元間和/或各視頻框間插補所述儲存的深度資訊以匹配所述捕獲的二維視頻的所述視頻解析度。

較佳地，所述一個或多個電路用於分別使所述捕獲的二維視頻和所述儲存的深度資訊可伸縮視頻編碼為基礎層視頻和增強層視頻。

較佳地，所述一個或多個電路用於在所述可伸縮視頻編碼期間，基於所述選擇的一個或多個感興趣區域選擇性地壓縮所述捕獲的二維視頻和所述儲存的深度資訊。

較佳地，所述一個或多個電路用於解壓縮所述壓縮的二維視頻和所述壓縮的深度資訊；及基於所述選擇的一個或多個感興趣區域，確定所述解壓縮的二維視頻的視頻分量的相關性。

較佳地，所述一個或多個電路用於基於所述確定的相關性，從所述解壓縮的二維視頻和所述解壓縮的深度資訊合成所述三維視頻。

較佳地，所述一個或多個電路用於渲染所述合成的三維視頻。

本發明的這些及其它的一些優點、方面和新穎性連同實施例的具體實施方式，將會在下面的描述和圖解中更全面的闡明。

本發明的特定實施例涉及從單像2D視頻和相應深度資訊創建3D視頻的方法及系統。在本發明的各個實施例中，單像傳感設備的一個或多個圖像感測器，例如單像視訊攝影機(monoscopic video camera)，可捕獲二維(2D)視頻。單像視訊攝影機的深度感測器可為捕獲的2D視頻捕獲相應深度資訊。基於捕獲的相應深度資訊，單像視訊攝影機可用於選擇捕獲的2D視頻的一個或多個感興趣區域(ROI)。基於選擇的ROI可選擇性地處理捕獲的2D視頻和捕獲的相應深度資訊。例如，相比於較小興趣的那些區域，單像視訊攝影機可為選擇的ROI指定或分配更多比特和/或記憶體。單像視訊攝影機可從捕獲的2D視頻合成用於顯示的3D視頻。捕獲的相應深度資訊可與捕獲的2D視頻同步。同步的深度資訊可作為捕獲的2D視頻的中繼資料儲存。單像視訊攝影機可在各圖元間和/或各框間插補儲存的深度資訊以匹配捕獲的2D視頻的視頻解析度。通過基於選擇的ROI選擇性實施的可伸縮編碼可增強捕獲的2D視頻和捕獲的相應深度資訊。隨著3D視頻的渲染，可基於選擇的ROI選擇捕獲的2D視頻中的相關圖像/視頻分量。單像視訊攝影機可利用選擇的圖像/視頻分量和相應深度資訊合成用於3D視頻渲染和/或重播的3D視頻。

圖1是依照本發明實施例的、用於從單像二維(2D)視頻和相應深度資訊創建三維(3D)視頻的示例性視頻通信系統的示意圖。參照圖1，顯示視頻通信系統100。視頻通信系統100包括單像視訊攝影機110和3D視頻渲染設備140。

單像視訊攝影機110可包括處理器112、深度感測器114、一個或多個圖像感測器116、控制單元118、鏡頭(lens)120、光學系統122、視頻編碼/解碼器124、發射器126、光學取景器128、顯示器130、記憶體132、數位訊號處理器(DSP)134、輸入/輸出模組136、音訊編碼/解碼器137、揚聲器138、和/或麥克風139。

處理器112可包括適當的邏輯、電路、介面、和/或代碼，其用於管理和/或處理各種設備元件的操作，例如，深度感測器114、圖像感測器116、和/或控制單元118的操作。處理器112可用於利用圖像感測器116通過與鏡頭120對應的單視點捕獲2D視頻。處理器112可利用一個或多個圖像感測器116收集亮度和/或色度資訊。處理器112還可利用深度感測器114為捕獲的2D視頻捕獲深度資訊。處理器112可對捕獲的2D視頻執行各種視頻處理，例如通過視頻編碼/解碼器124的視訊壓縮/解壓縮。由此產生的處理視頻可通過光學取景器128和/或顯示器130呈現或顯示給使用者。

深度感測器114可包括適當的邏輯、電路、介面、和/或代碼，其用於檢測紅外光譜中的電磁(EM)波。深度感測器114可基於相應的紅外EM波確定或檢測目標的深度資訊。例如，基於發射器126發射的和從目標反射回深度感測器114的紅外EM波的渡越時間，深度感測器114可確定或捕獲目標的深度資訊。

圖像感測器116可各自包括適當的邏輯、電路、介面、和/或代碼，其用於檢測鏡頭120聚焦的光信號。圖像感測器116可將光信號轉換為電信號以捕獲亮度和/或色度資訊。例如，每個圖像感測器116可包括電荷耦合器件(CCD)圖像感測器或互補金屬氧化物半導體(CMOS)圖像感測器。

控制單元118可包括可使能用戶與單像視訊攝影機110進行交互的適當的邏輯、電路、介面、和/或代碼。例如，控制單元可管理或控制錄影和/或重播。

鏡頭120是可用於捕獲或檢測EM波的光學元件。捕獲的EM波可通過圖像感測器116上的光學系統122得到充分聚焦，從而形成或產生鏡頭120前場景的2D圖像。

光學系統122可包括用於調節和對準通過鏡頭120接收的EM波的光學器件。光學系統122可分別把可見光譜中的EM波對準圖像感測器、和把紅外光譜中的EM波對準深度感測器114。例如，光學系統122包括一個或多個透鏡、棱鏡、亮度和/或顏色篩檢程式、和/或反射鏡。

視頻編碼/解碼器124可包括適當的邏輯、電路、介面、和/或代碼，其可用於實現視訊壓縮和/或解壓縮。視頻編碼/解碼器124可使用各種視訊壓縮和/或解壓縮演算法進行視頻編碼，所述演算法例如MPEG-2和/或其它視頻格式中指定的視頻編碼演算法。

發射器126可包括適當的邏輯、電路、介面、和/或代碼，例如，其可用於產生和/或發射紅外光譜中的電磁波。

光學取景器128可包括適當的邏輯、電路、介面、和/或代碼，其可用於呈現和/或顯示鏡頭120向使用者投射的內容。換而言之，光學取景器128可使能用戶看到鏡頭120“看到”的東西，即“框內”(in frame)的東西。

顯示器130可包括適當的邏輯、電路、介面、和/或代碼，其可用於為使用者顯示圖像/視頻。顯示器130可包括液晶顯示器(LCD)、發光二極體(LED)顯示器和/或其它可將通過單像視訊攝影機110捕獲的圖像/視頻顯示給使用者的顯示技術。

記憶體132可包括適當的邏輯、電路、介面、和/或代碼，其可用於儲存資訊，例如，可由單像視訊攝影機110利用的可執行指令和資料。所述可執行指令可包括各種視訊壓縮/解壓縮演算法，所述演算法可用於通過視頻編碼/解碼器124進行視頻編碼。所述資料可包括捕獲的圖像/視頻和/或編碼的視頻。記憶體132可包括RAM、ROM、低延遲非易失性記憶體(例如快閃記憶體)和/或其它適當的電子資料記憶體。

數位訊號處理器(DSP)134可包括適當的邏輯、電路、介面、和/或代碼，其可用於實現捕獲的圖像資料、捕獲的深度資訊、和/或捕獲的音訊資料的信號處理。

輸入/輸出(I/O)模組136可包括適當的邏輯、電路、介面、和/或代碼，其可使能單像視訊攝影機110依照一個或多個標準(例如USB、PCI-X、IEEE1394、HDMI、顯示埠、和/或模擬音訊和/或類比視頻標準)介面連接其它設備。例如，I/O模組136可用於從控制單元118發送和接收信號、輸出視頻到顯示器130、從音訊編碼/解碼器137向揚聲器138輸出音訊、處理來自麥克風139的音訊輸入、從盒式磁帶或快閃記憶體卡或其它與單像視訊攝影機110連接的外部記憶體讀取和寫入其中、和/或通過一個或多個用於傳輸和/或渲染的埠(例如IEEE1394埠、HDMI和/或USB埠)向外部輸出音訊和/或視頻。

音訊編碼/解碼器137可包括適當的邏輯、電路、介面、和/或代碼，其可用於實現音訊編碼。音訊編碼/解碼器137可用於使用各種音訊壓縮和/或解壓縮演算法進行音訊編碼，所述演算法包括例如MPEG-2和/或其它音訊格式中指定的音訊壓縮/解壓縮演算法。

3D視頻渲染設備140可包括適當的邏輯、電路、介面、和/或代碼，其可用於渲染由單像視訊攝影機110捕獲的圖像/視頻。3D視頻渲染設備140可外部或內部連接單像視訊攝影機110。3D視頻渲染設備140可能適合於渲染來自單像視訊攝影機110的3D視頻輸出。

儘管圖1中示出的單像視訊攝影機110支援從單像2D視頻和相應深度資訊創建3D視頻，但本發明並不受限於此。在這一點上，在沒有背離本發明的各種實施例的精神和範圍的情況下，包括一個或多個圖像感測器和一個或多個深度感測器的單像視頻傳感設備可用於從單像2D視頻和相應深度資訊創建3D視頻。圖像感測器可包括一個或多個光發射器和/或一個或多個光接收器。

在一示例性操作中，單像視訊攝影機110可用於通過鏡頭120的單視點捕獲2D視頻。可通過深度感測器114捕獲和/或收集與捕獲的2D視頻對應的深度資訊。

在本發明的一示例性實施例中，檢索的深度資訊可與捕獲的2D視頻的亮度和/或顏色資訊同步或相關、以形成或產生深度圖像。深度圖像可儲存在記憶體132中以作為捕獲的2D視頻的中繼資料。儲存的深度圖像可提供可由單像視訊攝影機110將其用於視頻渲染和/或重播的附加層資訊。

在本發明的一示例性實施例中，可修改或調整捕獲的2D視頻的深度圖像的解析度，以匹配捕獲的2D視頻的相應圖像的解析度。在這一點上，單像視訊攝影機110可對深度圖像執行圖像插補、以提供亮度和/或顏色資訊的每個圖元或圖元組的深度資訊。例如，當深度感測器114的解析度小於圖像感測器116的解析度時，單像視訊攝影機110可用於在捕獲的2D視頻的各圖元間插補深度資訊，從而產生或提供亮度和/或顏色資訊的每個圖元或圖元組的深度資訊。當深度感測器114的框頻小於圖像感測器116的框頻時，單像視訊攝影機110可用於在捕獲的2D視頻的各框間插補深度資訊，從而產生或提供亮度和/或顏色資訊的每個框的深度資訊。

在本發明的一示例性實施例中，單像視訊攝影機110可在2D或3D模式下進行操作。在2D模式下，單像視訊攝影機110可通過光學取景器128和/或顯示器130向使用者呈現或顯示捕獲的2D視頻。在3D模式下，單像視訊攝影機110可從捕獲的2D視頻和相應深度圖像形成或合成用於顯示的3D視頻。在這一點上，合成的3D視頻可能是適合光學取景器128和/或顯示器130的格式。

在本發明的一示例性實施例中，捕獲的2D視頻和相應深度資訊可分別用作基礎層視頻和增強層視頻。在這一點上，可基於增強層視頻中的相應深度資訊識別或選擇捕獲的2D視頻(基礎層視頻)的感興趣區域(ROI)。可通過可伸縮視頻編碼(SVC)來增強選擇的以深度為基礎的ROI的圖像/視頻分量和相應深度資訊。基於選擇的以深度為基礎的ROI，單像視訊攝影機110可用於選擇性壓縮捕獲的2D視頻的圖像/視頻分量和相應深度資訊。例如，較之於較小興趣的那些區域，可為選擇的以深度為基礎的ROI指定或分配更多比特和/或記憶體資源。單像視訊攝影機110可能為較小興趣區域逐漸分配或指定較少比特和/或記憶體。

在本發明的一示例性實施例中，基於選擇的以深度為基礎的ROI，單像視訊攝影機110可用於從捕獲的2D視頻和相應深度資訊合成3D視頻。例如，選擇的以深度為基礎的ROI可分別提供關於圖片前後深度資訊的範圍的資訊。在這一點上，深度資訊的範圍可表明捕獲的2D視頻中的圖像/視頻分量與3D視頻如何相關聯。換而言之，選擇的以深度為基礎的ROI的深度資訊可用於向3D視頻的各個區域映射捕獲的2D視頻的圖像/視頻分量、或者使捕獲的2D視頻的圖像/視頻分量與3D視頻的各個區域相關聯。可對捕獲的2D視頻的相關圖像/視頻分量連同相應深度資訊進行組合，從而形成或合成用於顯示的3D視頻。

圖2是依照本發明實施例的對單像2D視頻和相應深度資訊進行處理以生成3D視頻的示意圖。參照圖2，顯示2D圖像210、深度圖像220和3D圖像230。2D圖像210可包括亮度和/或顏色資訊。深度圖像220可包括與2D圖像210的亮度和/或顏色資訊對應的深度資訊。深度圖像220中，較深區域表示目標遠離使用者，而較淺區域表明目標更接近使用者。

在本發明的各個實施例中，深度圖像220中的深度資訊與2D圖像210中的亮度和/或顏色資訊相關或同步。深度圖像220可作為2D圖像210的中繼資料儲存。在需要時，可調整或修改深度圖像220的解析度以匹配2D圖像210的解析度。可基於深度圖像220中的深度資訊選擇ROI 201。由此產生的以深度為基礎的ROI 210可用於選擇性處理2D圖像210和深度圖像220。例如，對於2D圖像210和深度圖像220，更多比特可分配至或用於增強以深度為基礎的ROI 201中的資訊。3D圖像230可從2D圖像210和深度圖像220形成或合成。以深度為基礎的ROI 201可表明關於深度資訊範圍的資訊，所述深度資訊範圍用來合成和/或渲染3D圖像230。

圖3是依照本發明實施例的、單像2D視頻和相應深度資訊的可伸縮視頻編碼的框圖。參照圖3，顯示視訊壓縮單元300，所述視訊壓縮單元包括ROI檢測器320、基礎層視訊轉碼器330a和增強層視訊轉碼器330b。

視訊壓縮單元300可包括適當的邏輯、電路、介面、和/或代碼，其可用於同時編碼捕獲的2D和捕獲的相應深度資訊。視訊壓縮單元300可分別將捕獲的2D視頻編碼為基礎層視頻310a、和將捕獲的相應深度資訊編碼為增強視頻310b。

ROI檢測器320可包括適當的邏輯、電路、介面、和/或代碼，其可用於基於增強層視頻310b的深度資訊檢測或選擇一個或多個ROI。有關選擇的ROI的資訊可分別傳送到基礎層視訊轉碼器330a和增強層視訊轉碼器330b。

基礎層視訊轉碼器330a可包括適當的邏輯、電路、介面、和/或代碼，其可用於對捕獲的2D視頻進行逐框編碼。基礎層視訊轉碼器330a可基於選擇的ROI選擇性地壓縮捕獲的2D視頻。在這一點上，基礎層視訊轉碼器330a可指定或分配更多的處理資源(例如比特和/或記憶體)、以壓縮選擇的以深度為基礎的ROI中的資訊。根據應用，基礎層視訊轉碼器330a可為較小興趣的區域逐漸分配較少比特和/或記憶體。基礎層視訊轉碼器330a可用於使用各種視訊壓縮演算法(例如MPEG-2、MPEG-4、AVC、VC1、VP6、和/或其它視頻格式中指定的壓縮演算法)形成捕獲的2D 視頻的壓縮或編碼視頻內容。基本視圖(base view)編碼的資訊(例如場景資訊)可傳送到增強層視訊轉碼器330b以用於增強層視頻編碼。當需要時，基礎層視訊轉碼器330a可輸出或提供用於傳輸的基礎層位元流。

增強層視訊轉碼器330b可包括適當的邏輯、電路、介面、和/或代碼，其可用於對捕獲的2D視頻的捕獲的相應深度資訊進行逐框編碼。增強層視訊轉碼器330b可基於選擇的ROI選擇性地壓縮捕獲的相應深度資訊。在這一點上，增強層視訊轉碼器330b可分配較多比特和/或記憶體、以壓縮選擇的以深度為基礎的ROI中的深度資訊。根據應用，增強層視訊轉碼器330b可為較小興趣區域逐漸分配較少比特和/或記憶體。增強層視訊轉碼器330b可用於使用各種視訊壓縮演算法(例如MPEG-2、MPEG-4、AVC、VC1、VP6、和/或其它視頻格式中指定的壓縮演算法)形成捕獲的2D視頻的深度資訊的壓縮或編碼視頻內容。當需要時，增強層視訊轉碼器330b可輸出或提供用於傳輸的增強層位元流。

儘管在圖3中描述單個基礎層視訊轉碼器330a和單個增強層視訊轉碼器330b分別用於處理捕獲的2D視頻和捕獲的2D視頻的捕獲的相應深度資訊，但本發明並不受限於此。因此，在沒有背離本發明的各個實施例的精神和範圍的情況下，除了基礎層視訊轉碼器330a以外，任何數量的增強視圖視訊轉碼器可用於處理捕獲的2D視頻。

在一示例性操作中，單像視訊攝影機110可用於捕獲2D視頻和相應深度資訊。捕獲的2D視頻和捕獲的相應深度資訊可作為基礎層視頻310a和增強層視頻310b分別同時進行處理。基於捕獲的相應深度資訊可選擇捕獲的2D視頻的一個或多個ROI。基於選擇的ROI，基礎層視訊轉碼器330a和增強層視訊轉碼器330b可分別選擇性對捕獲的2D視頻和捕獲的相應深度資訊執行視訊壓縮。在這一點上，可為處理選擇的ROI內的資訊分配和/或指定更多處理資源(例如比特、功率和/或記憶體)。基礎層視訊轉碼器330a和增強層視訊轉碼器330b可為編碼較小興趣區域內的資訊逐漸分配較少的處理資源。可合併由此產生的基礎層位元流和增強層位元流，當需要時將其用於傳輸。

圖4是依照本發明實施例的、可由單像視訊攝影機實施的選擇性壓縮2D視頻和相應深度資訊的示例性步驟的流程圖。參照圖4，示例性步驟可開始於步驟402，該步驟中，單像視訊攝影機110通電並啟用3D模式。在步驟404，單像視訊攝影機110可利用圖像感測器116捕獲2D視頻和利用深度感測器114為捕獲的2D視頻捕獲相應深度資訊。在步驟405，單像視訊攝影機110可用於使捕獲的深度資訊的解析度與捕獲的2D視頻的視頻解析度相匹配。例如，單像視訊攝影機110可在各圖元間和/或各框間插補捕獲的深度資訊，從而提供捕獲的2D視頻中的每個圖元或圖元組的深度資訊。在步驟406，基於相應深度資訊，單像視訊攝影機110可用於選擇捕獲的2D視頻的每個圖像中的一個或多個ROI。在步驟408，基於選擇的ROI，單像視訊攝影機110可用於對捕獲的2D視頻和捕獲的相應深度資訊進行選擇性逐框壓縮。在這一點上，單像視訊攝影機110可基於選擇的ROI分配處理資源(例如比特、功率和/或記憶體)，從而壓縮每個圖像或框中的資訊。相比於較小興趣的那些區域，更多比特、功率和/或記憶體分配到選擇的ROI。此外，可逐漸減少分配到較小興趣區域的處理資源以節能。在步驟409，壓縮的2D視頻和壓縮的相應深度資訊可儲存到記憶體132，當需要時將其用於傳輸。

圖5是依照本發明實施例的、可由單像視訊攝影機實施的從2D視頻和相應深度資訊合成用於3D視頻渲染的3D視頻的示例性步驟的流程圖。參照圖5，示例性步驟可開始於步驟502，該步驟中，單像視訊攝影機110通電並啟用3D模式。在步驟504，單像視訊攝影機110的處理器112可接收壓縮的2D視頻、壓縮的相應深度資訊和/或ROI。

在步驟506，單像視訊攝影機110可用於通過視頻編碼/解碼器124、基於ROI對壓縮的2D視頻和壓縮的相應深度資訊進行逐框解壓縮。在步驟508，單像視訊攝影機110可基於ROI識別或確定解壓縮的2D視頻中的圖像/視頻分量的相關性。例如，ROI中的深度資訊可表明用於3D視頻渲染的、選擇的解壓縮2D視頻的圖像/視頻分量。在步驟510，選擇的圖像/視頻分量連同相應深度資訊可用於合成顯示用的3D視頻。在步驟512，單像視訊攝影機110可向3D視頻渲染設備140傳送合成的3D視頻以進行3D視頻渲染。

本發明提供了從單像2D視頻和相應深度資訊創建3D視頻的方法及系統的各個方面。在本發明的各個示例性實施例中，單像視頻傳感設備，例如單像視訊攝影機110，用於利用圖像感測器116捕獲2D視頻。單像視訊攝影機110可利用深度感測器114為捕獲的2D視頻捕獲相應深度資訊。基於捕獲的相應深度信息可選擇或識別捕獲的2D視頻的一個或多個ROI。單像視訊攝影機110可基於選擇的ROI 選擇性處理捕獲的2D視頻和捕獲的相應深度資訊。例如，可為處理選擇的ROI內的信息分配更多比特或記憶體。根據應用，單像視訊攝影機110可用於從捕獲的2D視頻和捕獲的相應深度資訊合成或創建顯示用的3D視頻。在這一點上，單像視訊攝影機110可使捕獲的相應深度資訊與捕獲的2D視頻同步。同步的相應深度資訊可儲存在記憶體132中以作為捕獲的2D視頻的中繼資料。

儲存的深度資訊可提供用於視頻渲染和/或重播的附加層資訊。可調節或修改儲存的深度資訊的解析度、以匹配捕獲的2D視頻的視頻解析度，以便提供捕獲的2D視頻中的每個圖元或圖元組的深度資訊。捕獲的2D視頻和捕獲的相應深度資訊可通過可伸縮視頻編碼得以增強。在這一點上，捕獲的2D視頻和捕獲的相應深度資訊可分別編碼成基礎層視頻和增強層視頻。基於選擇的ROI可分別通過基礎層視訊轉碼器330a和增強層視訊轉碼器330b對捕獲的2D視頻和捕獲的相應深度資訊進行選擇性壓縮。在某些情況下，3D視頻渲染是捕獲的2D視頻所需的。在這一點上，單像視訊攝影機110可通過視頻編碼/解碼器124對壓縮的2D視頻和壓縮的相應深度資訊進行解壓縮。例如，可基於選擇的ROI表明的深度資訊範圍確定或識別由此產生的解壓縮2D視頻中的圖像/視頻分量的相關性。單像視訊攝影機110可用於組合識別的相關圖像/視頻分量，以從解壓縮的2D視頻和解壓縮的相應深度資訊合成或創建3D視頻。可通過3D視頻渲染設備140對由此產生的合成的3D視頻進行渲染。

本發明的其他實施例提供一種機器和/或電腦可讀記憶體和/或介質，其上儲存的機器代碼和/或電腦程式具有至少一個可由機器和/或電腦執行的程式碼片段，使得機器和/或電腦能夠實現本文所描述的從單像2D視頻和相應深度資訊創建3D視頻的步驟。

本發明可以通過硬體、軟體，或者軟、硬體結合來實現。本發明可以在至少一個電腦系統中以集中方式實現，或者由分佈在幾個互連的電腦系統中的不同部分以分散方式實現。任何可以實現所述方法的電腦系統或其它設備都是可適用的。常用軟硬體的結合可以是安裝有電腦程式的通用電腦系統，通過安裝和執行所述程式控制電腦系統，使其按所述方法運行。

本發明還可以通過電腦程式產品進行實施，所述套裝程式含能夠實現本發明方法的全部特徵，當其安裝到電腦系統中時，通過運行，可以實現本發明的方法。本申請文件中的電腦程式所指的是：可以採用任何程式語言、代碼或符號編寫的一組指令的任何運算式，該指令組使系統具有資訊處理能力，以直接實現特定功能，或在進行下述一個或兩個步驟之後，a)轉換成其它語言、代碼或符號；b)以不同的格式再現，實現特定功能。

本發明是通過幾個具體實施例進行說明的，本領域技術人員應當理解，在不脫離本發明範圍的情況下，還可以對本發明進行各種變換及等同替代。另外，針對特定情形或具體情況，可以對本發明做各種修改，而不脫離本發明的範圍。因此，本發明不局限於所公開的具體實施例，而應當包括落入本發明申請專利範圍範圍內的全部實施方式。

100‧‧‧視頻通信系統

110‧‧‧單像視訊攝影機

112‧‧‧處理器

114‧‧‧深度傳感器

116‧‧‧圖像傳感器

118‧‧‧控制單元

120‧‧‧鏡頭

122‧‧‧光學系統

124‧‧‧視頻編碼/解碼器

126‧‧‧發射器

128‧‧‧光學取景器

130‧‧‧顯示器

132‧‧‧記憶體

134‧‧‧數字信號處理器(DSP)

136‧‧‧輸入/輸出(I/O)模塊

137‧‧‧音頻編碼/解碼器

138‧‧‧揚聲器

139‧‧‧麥克風

140‧‧‧三維(3D)視頻渲染設備

210‧‧‧二維(2D)圖像

220‧‧‧深度圖像

230‧‧‧3D圖像

300‧‧‧視頻壓縮單元

310a‧‧‧基礎層視頻

310b‧‧‧增強視頻

320‧‧‧感興趣區域(ROI)檢測器

330a‧‧‧基礎層視頻編碼器

330b‧‧‧增強層視頻編碼器

圖1是依照本發明實施例的、用於從單像二維(2D)視頻和相應深度資訊創建三維(3D)視頻的示例性視頻通信系統的示意圖。

圖2是依照本發明實施例的、對單像2D視頻和相應深度資訊進行處理以產生3D視頻的示意圖。

圖3是依照本發明實施例的、單像2D視頻和相應深度資訊的可伸縮視頻編碼的框圖。

圖4是依照本發明實施例的、可由單像視訊攝影機實施的選擇性壓縮2D視頻和相應深度資訊的示例性步驟的流程圖。

圖5是依照本發明實施例的、可由單像視訊攝影機實施的從2D視頻和相應深度資訊合成用於3D視頻渲染的3D視頻的示例性步驟的流程圖。