TWI618408B

TWI618408B - 校準複數個３６０度重構音頻/視頻軌道的方法和裝置

Info

Publication number: TWI618408B
Application number: TW106107745A
Authority: TW
Inventors: 李佳盈; 施信瑋; 許肇凌; 張勝凱; 鄭堯文
Original assignee: 聯發科技股份有限公司
Priority date: 2016-03-11
Filing date: 2017-03-09
Publication date: 2018-03-11
Also published as: CN108574867A; TW201733332A; US20170264942A1

Abstract

發明公開了從由複數個捕獲設備捕獲的複數個音頻/視頻軌道來重構360度音頻/視頻文件的方法和裝置。根據本發明，對於包括第一音頻軌道和第二音頻軌道以及第一視頻軌道和第二視頻軌道的多軌音頻/視頻資料，如果視頻同步資訊可用，則通過利用從第一視頻軌道和第二視頻軌道導出的視頻同步資訊，將第一音頻軌道和第一視頻軌道與第二音頻軌道和第二視頻軌道分別校準。當視頻同步資訊可用時，通過利用視頻同步資訊，第一音頻軌道和第一視頻軌道與第二音頻軌道和第二視頻軌道分別校準。

Description

校準複數個360度重構音頻/視頻軌道的方法和裝置

【相關申請的交叉引用】

本申請要求於2016年3月11日提交的申請號為62/306,663的美國臨時申請案的優先權。在此合並參考該美國臨時申請案的申請標的。

本發明所揭露之實施例有關於從複數個捕獲設備產生的複數個音頻和視頻軌道的360度音頻和視頻重構(reconstruction)。具體地說，本發明涉及不同音頻和視頻軌道(track)之間的音頻和視頻同步。

360度視頻，也稱為沉浸式視頻(immersive video)，是一種新興的技術，它能提供“感覺身臨其境(feeling as sensation of present)”。通過圍繞用戶覆蓋全景(panoramic view)的環繞場景，特別是360度視野，使用戶獲得沉浸感。“感覺身臨其境”可以進一步通過立體渲染來提高。因此，全景視頻被廣泛應用於虛擬現實(Virtual Reality，VR)應用中。

360度視頻涉及使用多台攝像機來捕獲一個場景，以覆蓋全景，如360度視野。伴隨著音頻，一組相機(或捕獲設備)被安排捕獲每個視頻的360度視野。通常兩個或更多捕獲設備用於捕獲與相關音頻的360度視頻。來自複數個捕獲設備的視頻和音頻被用來形成重構的360度視頻和重構的360度音頻。在本發明中，來自每個捕獲設備的音頻和視頻分別被稱為音頻軌道和視頻軌道。

在360度音頻/視頻錄製方案中，從複數個捕獲設備記錄的視頻和音頻軌道需要校準(aligned)。每個捕獲設備可以使用自己的設置。360度音頻和360度視頻也分別被縮寫為“360音頻”和“360視頻”。通常每個捕獲設備都可以在自己的時脈上操作，並且在不同的捕獲設備之間沒有共同時脈(common clock)。因此，來自各種捕獲設備的音頻/視頻軌道可能不是校準的。也有其他因素造成的各種捕獲設備之間的校準問題。例如，捕獲設備的設備設置可能是不同的。

第1圖為在360度音頻和視頻重構處理中的校準問題的方案。如第1圖所示，使用N個捕獲設備(110-1，110，…，110-N)以及N是等於或大於2的整數。每個捕獲設備產生相應的音頻軌道(120-1，120-2，…，或120-N)和相應的視頻軌道(130-1，130-2，…，或130-N)。這些音頻軌道被提供給360度音頻重構單元140，以生成重構的360度音頻，這些視頻軌道被提供給360度視頻重構單元150，以生成重構的360度視頻。重構的360度音頻和重構的360度視頻都被包含在360度文件160中。由於不同的捕獲設備的音頻軌道和視頻軌道可能是不同步的，對於360度音頻重構和360度視頻重構來說，如何同步這些音頻和視頻軌道成為一個問題。

在該領域中衆所周知各種各樣的360度音頻重構技術。例如，音頻信號處理可以作為產生360度音頻的一種手段，用來產生空間音頻(spatial audio)。關於360度音頻重構，用戶可以根據他/她的觀看方向聽到聲音，實現身臨其境的聲音體驗。有多種不同的360度音頻形式被廣泛使用，如基於信道的，基於對象的或基於場景的。在本領域中，已知各種圖像/視頻拼接技術。也有各種虛擬現實視頻格式(VR video formats)或各種360度視頻格式，如球形格式(spherical format)和立方格式(cubic format)。這些技術是本領域熟知的技術。由於本發明的重點是在各種音頻/視頻軌道之間的同步問題，因此在本申請中省略360度音頻重構和360度視頻重構的細節。

由於各種音頻/視頻軌道之間的同步問題，因此希望開發出音頻/視頻校準技術，以正確校準來自各種捕獲設備的音頻/視頻軌道，以提高重構的360度音頻和視頻的質量。

本發明公開了從由複數個捕獲設備捕獲的複數個音頻/視頻軌道來重構360度音頻/視頻文件的方法和裝置。根據本發明，對於包括第一音頻軌道和第二音頻軌道以及第一視頻軌道和第二視頻軌道的多軌音頻/視頻資料，如果視頻同步資訊可用，則通過利用從第一視頻軌道和第二視頻軌道導出的視頻同步資訊，將第一音頻軌道和第一視頻軌道與第二音頻軌道和第二視頻軌道分別校準。當視頻同步資訊可用時，通過利用視頻同步資訊，第一音頻軌道和第一視頻軌道與第二音頻軌道和第二視頻軌道分別校準，以及從包括第一音頻軌道和第二音頻軌道的校準音頻軌道生成360度音頻，從包括第一視頻軌道和第二視頻軌道的校準視頻軌道生成360度視頻。

在一個實施例中，將明顯特徵段檢測應用於第一音頻軌道和第二音頻軌道，並且將明顯物體運動檢測應用於第一視頻軌道和第二視頻軌道。可以通過將音頻信號能量與音頻閾值進行比較來檢測明顯特徵段，並且如果音頻段的音頻信號能量超過音頻閾值，則該音頻段為明顯特徵段。

如果沒有檢測到明顯特徵段並且檢測到明顯物體運動，則根據明顯物體運動，來自第一視頻軌道和第二視頻軌道的視頻同步點被導出作為視頻同步資訊。視頻同步點用於將第一音頻軌道和第一視頻軌道與第二音頻軌道和第二視頻軌道分別校準。通過使用視頻同步點作為第一音頻軌道和第二音頻軌道之間的自相關(auto-correlation)的參考起始點，自相關用於將第一音頻軌道與第二音頻軌道校準以改善音頻校準。具有特徵匹配的視頻拼接用於從校準視頻軌道生成360度視頻。

如果檢測到至少一個明顯特徵段並且還檢測到明顯物體運動，則從明顯特徵段導出音頻同步點，並且根據明顯物體運動從第一視頻軌道和第二視頻軌道導出視頻同步點作為視頻同步資訊。檢查音頻同步點和視頻同步點是否匹配。如果音頻同步點和視頻同步點不匹配，則再次檢測新的明顯特徵段和新的明顯物體運動，以獲得具有更好的匹配的新的音頻同步點和新的視頻同步點。如果音頻同步點和視頻同步點匹配，則基於音頻同步點和視頻同步點評估音頻/視頻匹配誤差。基於能够實現更小的音頻/視頻匹配誤差的一個選擇，來選擇音頻同步點或視頻同步點以用於音頻/視頻校準。如果音頻同步點能實現較小的音頻/視頻匹配誤差，則音頻同步點用於校準第一視頻軌道和第二視頻軌道。如果視頻同步點能够實現較小的音頻/視頻匹配誤差，則通過使用視頻同步點作為第一音頻軌道與第二音頻軌道之間的自相關的參考起始點，使用自相關來校準第一音頻軌道與第二音頻軌道，以改善音頻校準。基於音頻同步點的音頻/視頻匹配誤差是基於校準音頻軌道和校準視頻軌道來計算的，其中根據音頻同步點使用自相關來校準第一音頻軌道和第二音頻軌道，並且使用最接近音頻同步點的視頻同步點來校準第一視頻軌道和第二視頻軌道。基於視頻同步點的音頻/視頻匹配誤差是基於校準音頻軌道和校準視頻軌道來計算的，其中通過使用視頻同步點作為第一音頻軌道和第二音頻軌道之間的自相關的參考起始點來校準第一音頻軌道和第二音頻軌道，以改善音頻校準，並且使用視頻同步點來校準第一視頻軌道和第二視頻軌道。

如果沒有檢測到明顯物體運動，並且沒有檢測到明顯特徵段，則降低音頻閾值，直到檢測到至少一個明顯特徵段。在檢測到該至少一個明顯特徵段之後，使用第一音頻軌道和第二音頻軌道之間的自相關，從該至少一個明顯特徵段導出音頻同步點，並且使用音頻同步點來校準第一音頻軌道和第二音頻軌道。根據音頻同步點來校準第一視頻軌道和第二視頻軌道，其中選擇最接近音頻同步點的視頻同步點以校準第一視頻軌道和第二視頻軌道。

110-1、110-2、110-3‧‧‧設備

120-1、120-2、120-N‧‧‧音頻軌道

130-1、130-2、130-N‧‧‧視頻軌道

140‧‧‧360度音頻重構單元

150‧‧‧360度視頻重構單元

160‧‧‧360度文件

210、220‧‧‧波峰

310、320‧‧‧特徵段

410、420、430‧‧‧圖像

432‧‧‧關鍵點

440‧‧‧單色對照

450‧‧‧拼接全景圖

510、710、910、1010‧‧‧360度音頻/視頻捕獲資料

520、530、540、720、730、740‧‧‧步驟

525、725、925、1025‧‧‧自相關處理

535、1035‧‧‧視頻拼接處理

550、750、950、1050‧‧‧360度音頻/視頻文件

610-1、610-2‧‧‧明顯特徵信號

735、935‧‧‧具有特徵匹配的視頻拼接處理

920、930、940、942、944‧‧‧步驟

1020、1030、1040、1042、1044、1046‧‧‧步驟

1110、1120、1130、1140、1150、1160‧‧‧步驟

第1圖為在360度音頻和視頻重構處理中的校準問題的方案，其中來自N個捕獲設備的N個音頻/視頻軌道被重構以分別形成360度音頻和360度視頻，以及音頻/視頻軌道可能會偏移。

第2圖為基於校準技術的波峰的實施例，在音頻軌道# 1中的波峰和在音頻軌道# 2中的相應的波峰被識別並用於音頻校準。

第3圖為基於信號能量的特徵段檢測的實施例，其中在音頻軌道# 1檢測到三個特徵段，以及在音頻軌道# 2檢測到相應的三個特徵段。

第4圖為使用尺度不變特徵變換(Scale-Invariant Feature Transform，SIFT)的視頻拼接的實施例。

第5圖為根據本發明的實施例的方案1的音頻/視頻校準處理的示例，其中檢測到明顯特徵段，並且沒有檢測到明顯物體運動。

第6A圖為根據本發明的方案1的一實施例的基於明顯特徵段的音頻同步點確定的示例，其中在音頻軌道# 1和音頻軌道# 2中檢測到明顯特徵信號。

第6B圖為根據本發明的方案1的一實施例的使用音頻同步點的音頻軌道和視頻軌道校準的示例。

第7圖為根據本發明一實施例的方案2的音頻/視頻校準處理的示例，其中沒有檢測到明顯特徵段，但檢測到明顯物體運動。

第8A圖為根據本發明的方案2的一實施例的基於明顯物體運動的音頻同步點確定的示例，其中在視頻軌道#1和視頻軌道#2檢測到明顯物體運動。

第8B圖為根據本發明的方案2的一實施例的音頻/視頻校準的示例，其中使用視頻同步點來輔助音頻校準。

第9圖為根據本發明一實施例的方案3的音頻/視頻校準處理的示例，其中檢測到明顯特徵音頻信號和明顯物體運動。

第10圖為根據本發明一實施例的方案4的音頻/視頻校準處理的示例，其中沒有檢測到明顯特徵音頻信號和明顯物體運動。

第11圖為根據本發明一實施例的系統重構由複數個捕獲設備從複數個音頻/視頻軌道捕獲的360度音頻/視頻(AV)文件的流程圖。

下面的描述為實施本發明的示範性實施例。以下實施例僅用來說明本發明的一般原理，並非用來限制本發明的範圍。本發明的範圍應以權利要求書所界定的為准。

如前所述，通常使用複數個與獨立視角(separate perspective)相關的捕獲設備來捕獲360度音頻和視頻。個別(individual)音頻和視頻軌道被重構，以形成360度音頻和視頻。根據習知技術，當音頻/視頻捕獲開始時，通過刻意製作出的聲音造成在音頻上的波峰(wave spike)，來校準音頻軌道，其中可以製作出的聲音可以是拍板聲或人聲，或其他。這兩個聲波，然後手動校準。第2圖為基於校準技術的波峰的實施例。在音頻軌道#1中的波峰210和在音頻軌道# 2中的相應的波峰220被識別。如第2圖左側部分所示，這兩個波峰(即，210和220)是有偏移的。由於這兩個波峰對應於同一時間發生的聲音，因此，這兩個波峰(即，210和220)應當校準，如第2圖的右側部分所示。這種技術可能不適合所有的場合，因為它需要在錄音開始時產生一個明顯的聲音。

有一個類似的技術，其使用自動音頻校準。根據這種自動音頻校準技術，使用音頻匹配技術(例如，自相關)自動識別音頻軌道中的特徵段(featured segment)。如音頻熵計算、信號能量或信號噪聲(SNR)等各種技術，可以用來區分“特徵段”和噪聲。如第3圖所示，在音頻軌道# 1中檢測到三個特徵段310以及在音頻軌道# 1中檢測到相應的三個特徵段320。在第3圖的左側部分顯示了兩個音頻軌道的特徵段之間的偏移。在候選特徵段之間應用自相關，以實現自動音頻校準。在第3圖中，兩個音頻軌道被校準，如第3圖右側部分所示。雖然自動音頻校準可以在不需手動處理的情况下校準音頻軌道，但是這種方法存在幾個問題。例如，在特徵段檢測期間，信號閾值可能設置得太高，因此沒有檢測到匹配的特徵段。另一方面，信號閾值也可能設置得太低，使得檢測到太多的特徵段以進行匹配，這將導致計算複雜度過高。

通過“拼接(stitching)”來自捕獲設備的視頻軌道來重構360度視頻。在習知技術中存在多種拼接技術。在兩個圖像可以被拼接之前，兩個圖像之間的對應關係(correspondence)必須被識別(即，配准(registration))。例如，可以使用基於特徵的配准和拼接，其中兩個圖像(特別是在兩個圖像之間的重叠區域)的對應的特徵相匹配，以確定對應關係。這兩個圖像，然後可以根據匹配的特徵來進行拼接。尺度不變特徵變換(Scale-Invariant Feature Transform，SIFT)是一種常用的圖像拼接技術。第4圖為使用SIFT的視頻拼接的實施例。圖像410表示來自視頻軌道#1的圖像和圖像420代表來自視頻軌道#2的圖像。識別該對圖像430的特徵點(即關鍵點432)。這兩個圖像的單色對照440和拼接全景圖450，如第4圖所示。對於從不同的視頻軌道進行的360度視頻拼接，當方案是靜態的時，難以確定視頻同步點。

為了改善不同音頻/視頻軌道之間的音頻/視頻同步，以便產生更好的360度音頻/視頻重構，本發明公開了利用音頻和視頻資訊進行自動360度音頻/視頻重構的技術。雖然常規方法只檢查是否可以確定音頻同步點，本發明進一步利用視頻軌道導出視頻同步點。基於音頻同步點和視頻同步點的組合條件，可以選擇合適的音頻/視頻校準處理來調整音頻軌道和視頻軌道。本發明公開了音頻同步點和視頻同步點的各種條件的校準處理。

方案1：在音頻的輔助下同步視頻

在這種情况下，為音頻軌道檢測明顯特徵音頻信號，但是，在視頻軌道中沒有檢測到明顯物體運動。因此，可確定音頻同步點並用於輔助視頻軌道的視頻校準。

第5圖為根據本發明的實施例的方案1的音頻/視頻校準處理的示例。將360度音頻/視頻(audio/video，AV)捕獲資料510提供給校準處理。360度音頻/視頻捕獲資料510可以對應於預先錄製的360度音頻/視頻資料或來自捕獲設備的現場360度音頻/視頻資料。可以通過無綫鏈路(例如WiFi)從捕獲設備提供360度音頻/視頻捕獲資料。在步驟520中對音頻軌道執行明顯特徵信號檢測。例如，前面提到的自動特徵分割可以用於從音頻軌道中提取特徵片段。在這種情况下，信號能量可以與閾值進行比較(例如threshold_a)，以確定在音頻軌道中是否存在任何明顯特徵信號。另一方面，在步驟530中對視頻軌道執行明顯物體運動檢測。例如，可以為每個視頻軌道得出特徵運動，如果運動超過閾值(例如threshold_v)，則可以確定明顯物體運動。從步驟520得到的音頻的檢測結果和從步驟530得到的視頻的檢測結果提供給步驟540，其中檢查(check)是否存在任何明顯特徵信號，以及檢查是否沒有檢測到明顯物體運動(即方案1的兩個條件)。如果兩個條件都滿足，通過從步驟540提供控制(即“是”路徑)，應用音頻軌道的自相關處理(auto-correlation process)525和視頻軌道的視頻拼接處理535，以使能(enable)音頻軌道的自相關處理525，以及使能視頻軌道的視頻拼接處理535。否則(即步驟540中的“否”路徑)，校準處理結束。在這種情况下，它意味著滿足其他條件以及其他校準處理被應用到音頻軌道和視頻軌道。如第5圖所示，使用自相關處理525，相應地可以得到音頻同步點以及可以校準音頻軌道。此外，音頻同步點(即，sp_audio)的資訊被提供給視頻拼接處理535以輔助視頻校準。例如，最接近音頻同步點的視頻同步點(即sp_video)也可以選擇來用於視頻校準。360重構音頻和視頻，然後被包括在360度音頻/視頻文件550中。

第6A圖和第6B圖為根據本發明的方案1的一實施例的音頻/視頻校準的示例。如第6A圖所示，360度音頻/視頻捕獲資料包括音頻軌道#1、視頻軌道#1、音頻軌道#2和視頻軌道#2。在音頻軌道# 1和音頻軌道# 2檢測到明顯特徵信號(610-1和610-2)。這些明顯特徵信號可以用來確定音頻同步點。可以使用自相關處理525來獲得音頻同步點，音頻同步點也可以用來校準音頻軌道。另一方面，在視頻軌道沒有檢測到明顯物體運動。因此，根據上述實施例的音頻/視頻校準被應用於音頻軌道和視頻軌道。如第6B圖所示，根據音頻同步點校準複數個音頻/視頻軌道。根據音頻同步點校準相應的視頻軌道。如第6B圖所示，兩個音頻/視頻軌道大約偏移1個視頻幀周期。在這種情况下，視頻同步點可以被選為與音頻同步點最近的一個。

方案2：在視頻的輔助下同步音頻

在本方案中，在音頻軌道沒有檢測到明顯特徵音頻信號，但是，在視頻軌道檢測到明顯物體運動。因此，確定視頻同步點並用於輔助音頻軌道的音頻校準。

第7圖為根據本發明一實施例的方案2的音頻/視頻校準處理的示例。360度音頻/視頻捕獲資料710被提供給校準處理。在步驟720中對音頻軌道執行明顯特徵信號檢測。另一方面，在步驟730中對視頻軌道執行明顯物體運動檢測。從步驟720得到的音頻的檢測結果和從步驟730得到的視頻的檢測結果被提供給步驟740，其中檢查是否沒有檢測到明顯特徵信號，以及檢查是否存在任何明顯物體運動(即方案2的兩個條件)。如果兩個條件都滿足，通過從步驟740提供控制(即“是”路徑)，應用音頻軌道的自相關處理725和視頻軌道的視頻拼接處理735，以使能音頻軌道的自相關處理725，以及使能視頻軌道的視頻拼接處理735。否則(即步驟740中的“否”路徑)，校準處理結束。在這種情况下，它意味著滿足另一個條件以及其他校準處理被應用到音頻軌道和視頻軌道。如第7圖所示，使用具有特徵匹配的視頻拼接處理735，相應地可以得到視頻同步點以及可以校準視頻軌道。此外，視頻同步點(即sp_video)的資訊被提供給音頻自相關處理725以輔助音頻校準。例如，視頻同步點(即sp_video)可以作為音頻自相關的參考起點。由於視頻采樣點(如視頻時間戳)比音頻自相關處理的起點要粗得多(much coarser)，可能需要更精細(finer)的音頻校準方式。有了已知的視頻同步點，它可以減少音頻自相關的搜索範圍。360重構音頻和視頻，然後被包括在360度音頻視頻文件750中。

第8A圖和第8B圖為根據本發明的方案2的一實施例的音頻/視頻校準的示例。如第8A圖所示，360度音頻/視頻捕獲的資料包括音頻軌道#1、視頻軌道#1、音頻軌道#2和視頻軌道#2。在音頻軌道# 1和音頻軌道# 2沒有明顯檢測到明顯特徵信號。然而，在視頻軌道檢測到明顯物體運動。例如，在視頻軌道# 1的幀1和幀2之間檢測到明顯運動。在視頻軌道#2的幀2和幀3之間也檢測到相應的明顯運動。由於複數個捕獲設備的配置是已知的，相鄰攝像機的重叠區域可以被確定。對象檢測和運動估計至少可以應用於給定攝像機的連續幀的重叠區域。重叠區域中明顯物體運動可以據此確定。因此，通過校準視頻軌道# 1的幀1和視頻軌道# 2的幀2，可以確定視頻同步點以及可以校準視頻軌道，如第8B圖所示。相似地，視頻軌道# 1的幀2可與視頻軌道# 2的幀3校準。音頻軌道首先根據視頻同步點校準。音頻自相關可以使用視頻同步點作為參考起點以加快進程。

方案3：具有明顯視頻運動和明顯特徵音頻信號的同步

在本方案中，在音頻軌道中檢測到明顯特徵音頻信號，並且在視頻軌道中檢測到明顯物體運動。因此，確定視頻同步點和音頻同步點並用於音頻和視頻校準。

第9圖為根據本發明一實施例的方案3的音頻/視頻校準處理的示例。360度音頻/視頻捕獲資料910被提供給校準處理。在步驟920中對音頻軌道執行明顯特徵信號檢測。另一方面，在步驟930中對視頻軌道執行明顯物體運動檢測。從步驟920得到的音頻的檢測結果和從步驟930得到的視頻的檢測結果被提供給步驟940，其中檢查是否檢測到任何明顯特徵信號，以及檢查是否檢測到任何明顯物體運動(即方案3的兩個條件)。如果兩個條件都滿足，通過從步驟940提供控制(即“是”路徑)，應用音頻軌道的自相關處理925和視頻軌道的具有特徵匹配的視頻拼接處理935，以使能音頻軌道的自相關處理925，以及使能視頻軌道的視頻拼接處理935。否則(即從步驟940的“否”路徑)，校準處理結束。在這種情况下，它意味著滿足另一個條件，並且其他校準處理被應用到音頻軌道和視頻軌道。可以得出音頻同步點和視頻同步點。使用具有特徵匹配的視頻拼接處理935，可以相應地校準視頻軌道，如第9圖所示。此外，視頻同步點(即sp_video)的資訊被提供給音頻自相關處理925以輔助音頻校準。可以應用基於音頻/視頻同步的音頻同步點，以及可以確定匹配音頻/視頻誤差(簡稱error_1)。可以應用基於音頻/視頻校準的視頻同步點，以及也可以確定匹配音頻/視頻誤差(簡稱error_2)。基於校準的音頻同步點的匹配的音頻/視頻誤差(即error_1)和基於校準的視頻同步點的匹配的音頻/視頻誤差(即error_2)可進行比較。具有較低匹配音頻/視頻誤差的360重構音頻和視頻被包括在360度文件950中。當在音頻軌道中檢測到明顯特徵信號，並且在視頻軌道中檢測到明顯物體運動時，得到的音視頻同步點和視頻同步點可能不匹配。因此，在另一實施例中，在步驟942中檢查音頻同步點和視頻同步點是否匹配。如果同步點匹配(即，從步驟942的“是”路徑)，根據音頻或視頻同步點，實現了較低匹配音頻/視頻誤差的360重構音頻和視頻被包括在360度文件950中。否則(即從步驟942的“否”路徑)，在步驟944中執行處理以找到更好的同步點。例如，通過對隨後的音頻/視頻資料再次執行步驟920和930，直到找到更好的同步點為止，可以找到更好的同步點。換句話說，本發明的實施例選擇最佳同步點，以在音頻同步點和視頻同步點之間達到最低匹配誤差。

方案4：沒有明顯視頻運動和沒有明顯特徵音頻信號的同步

在本方案中，在音頻軌道中沒有檢測到明顯特徵音頻信號，並且在視頻軌道中沒有檢測到明顯物體運動。

第10圖為根據本發明一實施例的方案4的音頻/視頻校準處理的示例。360度音頻/視頻捕獲資料1010被提供給校準處理。在步驟1020中對音頻軌道執行明顯特徵信號檢測。另一方面，在步驟1030中對視頻軌道執行明顯物體運動檢測。從步驟1020得到的音頻的檢測結果和從步驟1030得到的視頻的檢測結果被提供給步驟1040，其中檢查是否沒有檢測到明顯特徵信號，以及檢查是否沒有檢測到明顯物體運動(即方案4的兩個條件)。如果兩個條件都滿足，則降低該音頻閾值(即threshold_a)，比提供新的threshold_a給明顯特徵信號檢測1044，以執行明顯特徵信號檢測。檢測結果被提供給步驟1046，檢查是否檢測到明顯特徵信號。如果檢測盜明顯特徵信號(即從步驟1046的“是”路徑)，通過從步驟1040提供控制(即“是”路徑)，應用音頻軌道的自相關處理1025和視頻軌道的視頻拼接處理1035，以使能音頻軌道的自相關處理1025，以及使能視頻軌道的視頻拼接處理1035。否則(即從步驟1046“否”的路徑)，該音頻閾值(即threshold-a)被再次降低，直到檢測到明顯特徵信號。由於可以得到音頻同步點，因此可以根據音頻同步點校準視頻軌道，以及使用基於音頻同步點的視頻拼接1035，可以拼接校準的視頻軌道，如第10圖所示。例如，最接近音頻同步點的視頻同步點可用於視頻校準。在步驟 1040中，如果結果是“否”，則進程結束。在這種情况下，它意味著滿足另一個條件和其他校準處理應用到音頻軌道和視頻軌道。360重構音頻和視頻，然後被包括到360度音頻/視頻文件1050中。

第11圖為根據本發明一實施例的系統重構由複數個捕獲設備從複數個音頻/視頻軌道捕獲的360度音頻/視頻(AV)文件的流程圖。在流程圖中顯示的步驟以及本發明中的其他流程圖，可由在編碼器側和/或解碼器側的一個或複數個處理器(例如，一個或複數個CPU)可執行的程序代碼來實現。流程圖中所示的步驟也可以基於硬件來實現，例如一個或複數個電子設備或處理器，它們被布置以執行流程圖中的步驟。根據該方法，在步驟1110，接收由複數個捕獲設備捕獲的複數個音頻軌道和複數個視頻軌道，其中該複數個音頻軌道至少包括第一音頻軌道和第二音頻軌道，該複數個視頻軌道至少包括第一視頻軌道和第二視頻軌道，第一捕獲設備捕獲第一音頻軌道和第一視頻軌道，以及第二捕獲設備捕獲第二音頻軌道和第二視頻軌道。如第5圖、7、9和10所示，360度視頻捕獲資料(即，由複數個捕獲設備捕獲的複數個音頻軌道和複數個視頻)被提供以進行明顯特徵信號檢測和明顯物體運動檢測。在步驟1120中，檢查關於“來自第一視頻軌道和第二視頻軌道的視頻同步資訊是否可用”的條件。此步驟包括第7圖中的步驟740和第9圖中的步驟940。在步驟1120中，如果滿足條件(即“是”路徑)，則執行步驟1130至步驟1160。否則(即從步驟1120的“否”路徑)，處理結束。在這種情况下，它意味著滿足另一個條件，並且其他校準處理被應用到音頻軌道和視頻軌道上。在步驟1130中，通過使用視頻同步資訊，將第一音頻軌道和第一視頻軌道與第二音頻軌道和第二視頻軌道校準。在步驟1140中，從包括第一音頻軌道和第二音頻軌道的校準音頻軌道生成360度音頻，以及在步驟1150中，從包括第一視頻軌道和第二視頻軌道的校準視頻軌道生成360度視頻。在步驟1160中，提供包括360度音頻和360度視頻的360度音頻和視頻資料。

本領域的技術人員可以修改每個步驟、重新安排步驟的順序、拆分步驟或者結合某些步驟來實現本發明，而不脫離本發明的精神。

以上的描述是使本領域的技術人員在本文提供的特定應用和需求下能够實踐本發明。本領域的技術人員將容易地觀察到，在不脫離本發明的精神和範圍內，可以進行多種修改和變動。因此，本發明並非限定在所示和描述的特定的實施例上，而本發明公開是為了符合原則和新穎性的最廣泛的範圍。在上述詳細的描述中，各種具體的細節，用以提供對本發明的透徹的瞭解。儘管如此，將被本領域的技術人員理解的是，本發明能够被實踐。

如上述所述的本發明的實施例，可以使用硬件、軟件或其組合來實現。例如，本發明的一實施例可以是集成到視頻壓縮芯片中的電路或集成到視頻壓縮軟件中的程序代碼，以執行所描述的處理。本發明的實施例也可以是將在數字信號處理器上執行的程序代碼來執行所描述的處理。本發明還涉及一系列的由計算機處理器、數字信號處理器、微處理器和現場可編程門陣列(FPGA)執行的功能。根據本發明，這些處理器可以被配置為執行特定任務，通過執行定義特定方法的計算機可讀軟件代碼或固件代碼來實現。軟件代碼或固件代碼可以用不同的編程語言和不同的格式或樣式來開發。軟件代碼也可以為不同的目標平臺所編譯。然而，軟件代碼的不同的代碼格式、風格和語言，以及配置代碼的其他方式以執行任務，均不脫離本發明之精神和範圍。

本發明可以以其它具體形式實施而不背離其精神或本質特徵。所描述的實施例在所有方面都僅是說明性的而不是限制性。本發明的範圍因此由所附權利要求為准而不是由前面的描述所界定。因此，各種修改、改編以及所描述的實施例的各種特徵的組合可以在不脫離本發明的範圍如權利要求書中闡述的情况下實施。

Claims

一種重構360度音頻/視頻文件的方法，該360度音頻/視頻文件是由複數個捕獲設備從複數個音頻/視頻軌道捕獲的，包括：接收由該複數個捕獲設備捕獲的複數個音頻軌道和複數個視頻軌道，其中該複數個音頻軌道至少包括第一音頻軌道和第二音頻軌道，該複數個視頻軌道至少包括第一視頻軌道和第二視頻軌道，該第一音頻軌道和該第一視頻軌道由第一捕獲設備捕獲，以及該第二音頻軌道和該第二視頻軌道由第二捕獲設備捕獲；以及如果從該第一視頻軌道和該第二視頻軌道獲得的視頻同步資訊可用：使用該視頻同步資訊將該第一音頻軌道和該第一視頻軌道分別與該第二音頻軌道和該第二視頻軌道校準；從包括該第一音頻軌道和該第二音頻軌道的校準音頻軌道生成360度音頻；從包括該第一視頻軌道和該第二視頻軌道的校準視頻軌道生成360度視頻；以及提供包括該360度音頻和該360度視頻的360度音頻和視頻資料。
如申請專利範圍第1項所述之方法，其中該方法還包括：檢測該第一音頻軌道和該第二音頻軌道中的一個或複數個明顯特徵段，並檢測該第一視頻軌道和該第二視頻軌道中的明顯物體運動。
如申請專利範圍第3項所述之方法，其中通過將音頻信號能量與音頻閾值進行比較來檢測該一個或複數個明顯特徵段，如果一個音頻段的該音頻信號能量超過該音頻閾值，則該一個音頻段為一個明顯特徵段。
如申請專利範圍第2項所述之方法，其中如果沒有檢測到該一個或複數個明顯特色段，並且檢測到該明顯物體運動，根據該明顯物體運動從該第一視頻軌道和該第二視頻軌道獲得的視頻同步點被作為視頻同步資訊，以及該視頻同步點被用於將該第一音頻軌道和該第一視頻軌道分別與該第二音頻軌道和該第二視頻軌道校準。
如申請專利範圍第4項所述之方法，其中通過使用該視頻同步點作為該第一音頻軌道與該第二音頻軌道之間的自相關的參考起始點，使用自相關來將該第一音頻軌道與該第二音頻軌道校準，從而改善音頻校準。
如申請專利範圍第4項所述之方法，其中使用具有特徵匹配的視頻拼接以從該校準視頻軌道產生該360度視頻。
如申請專利範圍第2項所述之方法，其中如果檢測到至少一個明顯特徵段以及檢測到該明顯物體運動，從該至少一個明顯特徵段獲得音頻同步點，以及根據該明顯物體運動從該第一視頻軌道和該第二視頻軌道獲得視頻同步點以作為該視頻同步資訊。
如申請專利範圍第7項所述之方法，其中該方法還包括：確定該音頻同步點和該視頻同步點是否匹配。
如申請專利範圍第8項所述之方法，其中如果該音頻同步點和該視頻同步點不匹配，再次執行該檢測該第一音頻軌道和該第二音頻軌道中的一個或複數個明顯特徵段以及檢測該第一視頻軌道和該第二視頻軌道中的明顯物體運動，以得到具有更好的匹配的新的音頻同步點和新的視頻同步點。
如申請專利範圍第8項所述之方法，其中如果該音頻同步點和該視頻同步點相匹配，該方法還包括基於該音頻同步點和該視頻同步點評估音頻/視頻匹配誤差，基於可以達到較小的音頻/視頻匹配誤差的一個選擇，選擇該音頻同步點或該視頻同步點以用於音頻/視頻校準。
如申請專利範圍第10項所述之方法，其中如果該音頻同步點可以達到該較小的音頻/視頻匹配錯誤，則使用該音頻同步點以校準該第一視頻軌道和該第二視頻軌道。
如申請專利範圍第10項所述之方法，其中如果該視頻同步點可以達到該較小的音頻/視頻匹配誤差，通過使用該視頻同步點作為該第一音頻軌道和該第二音頻軌道之間的自相關的參考起點，使用自相關來將該第一音頻軌道與該第二音頻軌道校準，從而改善音頻校準。
如申請專利範圍第10項所述之方法，其中基於該音頻同步點的該音頻/視頻匹配誤差是基於校準音頻軌道和校準視頻軌道來計算的，其中根據該音頻同步點使用自相關來校準該第一音頻軌道和該第二音頻軌道，以及使用最接近該音頻同步點的該視頻同步點來校準該第一視頻軌道和該第二視頻軌道。
如申請專利範圍第10項所述之方法，其中基於該視頻同步點的該音頻/視頻匹配誤差是基於校準音頻軌道和校準視頻軌道來計算的，其中通過使用該視頻同步點作為該第一音頻軌道和該第二音頻軌道之間的自相關的參考起點來校準該第一音頻軌道和該第二音頻軌道以改善音頻校準，以及使用該視頻同步點來校準該第一視頻軌道和該第二視頻軌道。
如申請專利範圍第2項所述之方法，其中通過將音頻信號能量與音頻閾值進行比較來檢測該一個或複數個明顯特色段，以及如果一個音頻段的該音頻信號能量超過該音頻閾值，則該一個音頻段為一個明顯特徵段；如果沒有檢測到該明顯物體運動和該明顯特徵段，降低該音頻閾值直到檢測到至少一個明顯特徵段。
如申請專利範圍第15項所述之方法，其中在檢測到該至少一個明顯特徵段之後，使用該第一音頻軌道和該第二音頻軌道之間的自相關，從該至少一個明顯特徵段獲得音頻同步點，該音頻同步點用於校準該第一音頻軌道和該第二音頻軌道。
如申請專利範圍第16項所述之方法，其中根據該音頻同步點來校準該第一視頻軌道和該第二視頻軌道，其中選擇與該音頻同步點最接近的視頻同步點來校準該第一視頻軌道和該第二視頻軌道。
一種重構360度音頻/視頻文件的裝置，該360度音頻/視頻文件是由複數個捕獲設備從複數個音頻/視頻軌道捕獲的，該裝置包括一個或複數個電子電路或處理器，並用於執行以下步驟：接收由該複數個捕獲設備捕獲的複數個音頻軌道和複數個視頻軌道，其中該複數個音頻軌道至少包括第一音頻軌道和第二音頻軌道，該複數個視頻軌道至少包括第一視頻軌道和第二視頻軌道，該第一音頻軌道和該第一視頻軌道由第一捕獲設備捕獲，以及該第二音頻軌道和該第二視頻軌道由第二捕獲設備捕獲；以及如果從該第一視頻軌道和該第二視頻軌道獲得的視頻同步資訊可用：使用該視頻同步資訊將該第一音頻軌道和該第一視頻軌道與該第二音頻軌道和該第二視頻軌道校準；從包括該第一音頻軌道和該第二音頻軌道的校準音頻軌道生成360度音頻；從包括該第一視頻軌道和該第二視頻軌道的校準視頻軌道生成360度視頻；以及提供包括該360度音頻和該360度視頻的360度音頻和視頻資料。
如申請專利範圍第18項所述之裝置，其中該一個或複數個電子電路或處理器進一步用以執行以下步驟：檢測該第一音頻軌道和該第二音頻軌道中的一個或複數個明顯特徵段，並檢測該第一視頻軌道和該第二視頻軌道中的明顯物體運動。
如申請專利範圍第19項所述之裝置，其中通過將音頻信號能量與音頻閾值進行比較來檢測該一個或複數個明顯特徵段，如果一個音頻段的該音頻信號能量超過該音頻閾值，則該一個音頻段為一個明顯特徵段。