TW202406344A - 一種點雲幾何資料增強、編解碼方法、裝置、碼流、編解碼器、系統和儲存媒介 - Google Patents

一種點雲幾何資料增強、編解碼方法、裝置、碼流、編解碼器、系統和儲存媒介 Download PDF

Info

Publication number
TW202406344A
TW202406344A TW112125921A TW112125921A TW202406344A TW 202406344 A TW202406344 A TW 202406344A TW 112125921 A TW112125921 A TW 112125921A TW 112125921 A TW112125921 A TW 112125921A TW 202406344 A TW202406344 A TW 202406344A
Authority
TW
Taiwan
Prior art keywords
point cloud
data
network
scale
geometric data
Prior art date
Application number
TW112125921A
Other languages
English (en)
Inventor
馬展
薛瑞翔
魏紅蓮
Original Assignee
大陸商Oppo廣東移動通信有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商Oppo廣東移動通信有限公司 filed Critical 大陸商Oppo廣東移動通信有限公司
Publication of TW202406344A publication Critical patent/TW202406344A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一種點雲幾何資料增強、編解碼方法、裝置和系統。本申請實施例的方法在編碼端對第N尺度的幾何資料進行多次像素下採樣和特徵提取,得到用於增強第N+1尺度點雲幾何資料的特徵資料;在解碼端,對該特徵資料進行像素上採樣和特徵推理後,輸出的特徵資料與第N+1尺度點雲的幾何資料拼接,得到第N+1尺度點雲增強後的幾何資料,再用於後續的解碼處理,得到第N尺度點雲的重建幾何特徵。本申請實施例可提高點雲編碼性能,且使用的自編碼器模型方便訓練和使用。

Description

一種點雲幾何資料增強、編解碼方法、裝置、碼流、編解碼器、系統和儲存媒介
本申請實施例涉及但不限於點雲壓縮技術,更具體地,涉及一種點雲幾何資料的增強方法、編解碼方法、裝置和系統。
點雲是空間中一組無規則分佈的、表達三維物體或場景的空間結構及表面屬性的離散點集,點雲是一種三維資料,是在一個三維坐標系統下的一組向量的集合,這些向量可以表示(x,y,z)三維座標,還可以表示顏色、反射率等屬性資訊。隨著增強現實、虛擬實境、自動駕駛和機器人等新興技術的蓬勃發展,點雲資料因其對三維空間的簡潔表達成為其主要的資料形式之一,但是點雲資料量龐大,直接儲存點雲資料會消耗大量記憶體,不利於傳輸,因此需要不斷提高點雲壓縮的性能。
以下是對本文詳細描述的主題的概述。本概述並非是為了限制申請專利範圍的保護範圍。
本申請一實施例提供了一種點雲幾何資料增強方法,應用於點雲解碼器,包括:
解析碼流,得到用於增強第i+1尺度點雲幾何資料的特徵資料;
透過第i解碼器網路的部分解碼器對所述特徵資料進行M i-1次體素上採樣和特徵推理,輸出的特徵資料與第i+1尺度點雲待增強的幾何資料拼接,得到第i+1尺度點雲增強後的幾何資料;
其中,i為大於等於1的整數, M i是大於等於2的整數。
本申請一實施例還提供了一種點雲幾何資料的解碼方法,應用於點雲解碼器,包括:
解析碼流,得到的第N+1尺度點雲的幾何資料作為待增強的幾何資料,按照本申請任一實施例所述的點雲幾何資料增強方法進行資料增強,得到第N+1尺度點雲增強後的幾何資料,N⩾1;
透過第N解碼器網路其餘的解碼器對第N+1尺度點雲增強後的幾何資料進行一次體素上採樣和特徵推理,輸出的資料再經過概率預測和點雲裁剪,得到第N尺度點雲的重建幾何資料。
本申請一實施例還提供了一種點雲幾何資料的編碼方法,應用於點雲編碼器,包括:
對第一尺度點雲的幾何資料進行N次體素下採樣,得到第二尺度點雲至第N+1尺度點雲的幾何資料,N⩾1;
將第N尺度點雲的幾何資料輸入第N自編碼器模型的第N編碼器網路進行MN次體素下採樣和特徵提取,輸出用於增強第N+1尺度點雲幾何資料的特徵資料,MN⩾2;
對所述第N+1尺度點雲的幾何資料和所述第N編碼器網路輸出的所述特徵資料進行熵編碼。
本申請一實施例還提供了一種點雲幾何碼流,其中,所述幾何碼流按照本申請任一實施例所述的點雲幾何資料的編碼方法得到,包括第N+1尺度點雲的幾何資料和第N編碼器網路輸出的所述特徵資料。
本申請一實施例還提供了一種點雲幾何資料增強裝置,包括處理器以及儲存有電腦程式的記憶體,其中,所述處理器執行所述電腦程式時能夠實現如本申請任一實施例所述的點雲幾何資料增強方法。
本申請一實施例還提供了一種點雲解碼器,包括處理器以及儲存有電腦程式的記憶體,其中,所述處理器執行所述電腦程式時能夠實現如本申請任一實施例所述的點雲幾何資料的解碼方法。
本申請一實施例還提供了一種點雲編碼器,包括處理器以及儲存有電腦程式的記憶體,其中,所述處理器執行所述電腦程式時能夠實現如本申請任一實施例所述的點雲幾何資料的編碼方法。
本申請一實施例還提供了一種點雲編解碼系統,其中,包括本申請任一實施例所述的點雲編碼器,及本申請任一實施例所述的點雲解碼器。
本申請一實施例還提供了一種非瞬態電腦可讀儲存媒介,所述電腦可讀儲存媒介儲存有電腦程式,其中,所述電腦程式時被處理器執行時能夠實現本申請任一實施例所述的點雲幾何資料增強方法,或能夠實現本申請任一實施例所述的點雲幾何資訊的解碼方法,或能夠實現本申請任一實施例所述的點雲幾何資訊的編碼方法。
本申請一實施例還提供了一種點雲裁剪方法,應用於點雲解碼器,包括:
解析碼流,得到待裁剪點雲中的被佔據體素的數量K;
確定所述待裁剪點雲中的體素的佔據概率;
將所述待裁剪點雲中由同一體素分解得到的M個體素分為一組,將每一組中佔據概率最高的m個體素的佔據概率置為1,然後對所述待裁剪點雲中所有體素的佔據概率排序,將佔據概率最高的K個體素確定為所述待裁剪點雲中的被佔據體素,1⩽m<M<K。
在閱讀並理解了附圖和詳細描述後,可以明白其他方面。
本申請描述了多個實施例,但是該描述是示例性的,而不是限制性的,並且對於本領域的普通技術人員來說顯而易見的是,在本申請所描述的實施例包含的範圍內可以有更多的實施例和實現方案。
本申請的描述中,“示例性的”或者“例如”等詞用於表示作例子、例證或說明。本申請中被描述為“示例性的”或者“例如”的任何實施例不應被解釋為比其他實施例更優選或更具優勢。本文中的“和/或”是對關聯物件的關聯關係的一種描述,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。“多個”是指兩個或多於兩個。另外,為了便於清楚描述本申請實施例的技術方案,採用了“第一”、“第二”等字樣對功能和作用基本相同的相同項或相似項進行區分。本領域技術人員可以理解“第一”、“第二”等字樣並不對數量和執行次序進行限定,並且“第一”、“第二”等字樣也並不限定一定不同。
在描述具有代表性的示例性實施例時,說明書可能已經將方法和/或過程呈現為特定的步驟序列。然而,在該方法或過程不依賴於本文所述步驟的特定順序的程度上,該方法或過程不應限於所述的特定順序的步驟。如本領域普通技術人員將理解的,其它的步驟順序也是可能的。因此,說明書中闡述的步驟的特定順序不應被解釋為對權利要求的限制。此外,針對該方法和/或過程的權利要求不應限於按照所寫循序執行它們的步驟,本領域技術人員可以容易地理解,這些順序可以變化,並且仍然保持在本申請實施例的精神和範圍內。
點雲壓縮演算法包括基於幾何的點雲壓縮(Geometry-based Point Cloud Compression,G-PCC),G-PCC中的幾何壓縮主要透過八叉樹模型和/或三角形表面模型實現。
為了便於對本申請實施例所提供的技術方案的理解,首先提供一種G-PCC編碼的流程框圖和G-PCC解碼的流程框圖。需要說明的是,本申請實施例描述的G-PCC編碼的流程框圖和G-PCC解碼的流程框圖僅是為了更加清楚地說明本申請實施例的技術方案,並不構成對於本申請實施例的限定。本領域技術人員可知,隨著點雲壓縮技術的演變和新業務場景的出現,本申請實施例提供的技術方案對於類似G-PCC的點雲壓縮架構同樣適用,本申請實施例壓縮的點雲可以是視訊中的點雲,但不局限於此。
在點雲G-PCC編碼器框架中,將輸入三維圖像模型的點雲進行切片(slice)劃分後,對每一個slice進行獨立編碼。
如圖1所示的G-PCC編碼的流程框圖中,應用於點雲編碼器中,針對待編碼的點雲資料,先透過slice劃分,將點雲資料劃分為多個slice。在每一個slice中,點雲的幾何資訊和屬性資訊是分開進行編碼的。在幾何編碼過程中,對幾何資訊進行座標轉換,使點雲全都包含在一個包圍盒(bounding box)中,然後再進行量化,量化主要起到縮放的作用,由於量化取整,使得一部分點雲的幾何資訊相同,可以基於參數來決定是否移除重複點,量化和移除重複點這一過程又被稱為體素化過程。接著對bounding box進行八叉樹劃分。在基於八叉樹的幾何資訊編碼流程中,將包圍盒八等分為8個子立方體,對非空的(包含點雲中的點)的子立方體繼續進行八等分,直到劃分得到的葉子結點為1x1x1的單位立方體時停止劃分,對葉子結點中的點進行算術編碼,生成二進位的幾何位元流,即幾何碼流。在基於三角面片集(triangle soup,trisoup)的幾何資訊編碼過程中,同樣也要先進行八叉樹劃分,但區別於基於八叉樹的幾何資訊編碼,該trisoup不需要將點雲逐級劃分到邊長為1x1x1的單位立方體,而是劃分到子塊(block)邊長為W時停止劃分,基於每個block中點雲的分佈所形成的表面,得到該表面與block的十二條邊所產生的至多十二個交點(vertex),對vertex進行算術編碼(基於交點進行表面擬合),生成二進位的幾何位元流(即幾何碼流)。vertex還用於在幾何重建的過程的實現,而重建的幾何資訊在對點雲的屬性編碼時使用。
在屬性編碼過程中,進行顏色轉換,將顏色資訊(即屬性資訊)從RGB顏色空間轉換到YUV顏色空間。然後,利用重建的幾何資訊對點雲重新著色,使得未編碼的屬性資訊與重建的幾何資訊對應起來。在顏色資訊編碼過程中,主要有兩種變換方法,一是依賴於細節層次(Level of Detail,LOD)劃分的基於距離的提升變換,二是直接進行區域自適應分層變換(Region Adaptive Hierarchal Transform,RAHT)的變換,這兩種方法都會將顏色資訊從空間域轉換到頻域,透過變換得到高頻係數和低頻係數,最後對係數進行量化(即量化係數),最後,將經過八叉樹劃分及表面擬合的幾何編碼資料與量化係數處理屬性編碼資料進行slice合成後,依次編碼每個block的vertex座標(即算數編碼),生成二進位的屬性位元流,即屬性碼流。
如圖2所示的G-PCC解碼的流程框圖,應用於點雲解碼器中。解碼器獲取二進位碼流,針對二進位碼流中的幾何位元流(即幾何碼流)和屬性位元流分別進行獨立解碼。在對幾何位元流的解碼時,透過算術解碼、八叉樹合成、表面擬合、重建幾何和反座標變換,得到點雲的幾何資訊;在對屬性位元流的解碼時,透過算術解碼、反量化、基於LOD的反提升或者基於RAHT的反變換、及反顏色轉換,得到點雲的屬性資訊,基於幾何資訊和屬性資訊還原點雲資料的三維圖像模型。
神經網路和深度學習技術也可應用於點雲幾何壓縮技術,例如,基於三維卷積神經網路(3D Convolution Neural Network, 3D CNN)的體積模型壓縮技術,直接對點座標集合利用基於多層感知機(Multi-Layer Perceptron, MLP)的神經網路的壓縮技術,對八叉樹的節點符號利用MLP或3D CNN進行概率估計和熵編碼的壓縮技術,以及基於三維稀疏卷積神經網路的壓縮技術,等等。點雲按照點的密度可以分為稀疏點雲和稠密點雲,其中稀疏點雲在三維空間有表示範圍大,分佈稀疏的特點,可以表示一個場景;而稠密點雲則具有表示範圍小,分佈密集的特點,可以表示一個物體。以上壓縮技術在這兩種點雲上的壓縮性能往往具有較大差異,在稠密點雲上表現較好,在稀疏點雲上則表現較差。
為了提高基於神經網路的編解碼方法在稀疏點雲上的性能,本申請實施例提供了一種基於自編碼器模型的點雲幾何編解碼方法,可以實現對點雲的失真壓縮。
本申請實施例點雲幾何資料的編碼方法可以應用於如圖1所示的G-PCC的幾何資訊編碼流程中,替代體素化完成之後的編碼處理(如八叉樹劃分、表面擬合等),得到幾何碼流。本申請實施例點雲幾何資料的解碼方法可以應用於如圖2所示的G-PCC的幾何資訊解碼流程中,替代反座標變換之前的對幾何碼流的解碼處理(如八叉樹合成、表面擬合等),得到點雲的重建幾何資料。本申請實施例的編碼方法中的熵編碼可以使用圖1中的算術編碼方法,本申請實施例的解碼方法中的熵解碼可以使用圖2中的算術解碼方法。但本申請實施例點雲幾何資料的編解碼方法也可以用於G-PCC之外的其他點雲編碼和解碼流程中。
本申請一實施例點雲幾何資料的編解碼方法的示意圖如圖3所示,在編碼端,對第一尺度點雲的幾何資料進行兩次體素下採樣。該第一尺度點雲可以是待編碼的原始尺度點雲,對第一尺度點雲的幾何資料進行一次體素下採樣後,得到第二尺度點雲的幾何資料;對第二尺度點雲的幾何資料再進行一次體素下採樣後,得到第三尺度點雲的幾何資料。第三尺度點雲的幾何資料經熵編碼後生成幾何碼流。解碼端經熵解碼可得到第三尺度點雲無損的幾何資料,且需要基於第三尺度點雲的幾何資料得到更高尺度(如第二尺度點雲、第一尺度點雲)的重建幾何資料。
為了提高更高尺度的重建幾何資料的準確性,本申請實施例透過自編碼器模型增強低尺度點雲的幾何資料。具體地,本實施例在編碼端,透過編碼器網路對第二尺度點雲的幾何資料進行至少兩次的體素下採樣和特徵提取,得到用於增強第三尺度點雲幾何資料的特徵資料,圖中是透過兩個編碼器分別進行一次體素下採樣(步長2×2×2)和特徵提取,以提取出真正對重建有説明的特徵資料,且減少要傳輸的資料量。文中將透過神經網路提取的特徵資料稱為隱式特徵(latent feature)資料。編碼器網路輸出的特徵資料經量化、熵編碼寫入碼流,也可以直接經熵編碼寫入碼流。
在解碼端,經熵解碼得到第三尺度點雲無損的幾何資料和用於增強第三尺度點雲幾何資料的特徵資料。該無損的幾何資料即第三尺度點雲待增強的幾何資料。透過解碼器網路的一個解碼器對所述特徵資料進行一次體素上採樣和特徵推理後,輸出的特徵資料與第三尺度點雲待增強的幾何資料拼接,得到第三尺度點雲增強後的幾何資料,圖中表示為第三尺度點雲的幾何資料+特徵資料。
如圖3所示,得到第三尺度點雲增強後的幾何資料後,再透過解碼器網路的另一解碼器對第三尺度點雲增強後的幾何資料進行一次體素上採樣和特徵推理,該解碼器輸出的資料再經過概率預測和點雲裁剪,得到第二尺度點雲的重建幾何資料。第三尺度點雲的幾何資料經特徵增強後,再解碼得到的第二尺度點雲的重建幾何資料更接近於第二尺度點雲原始的幾何資料,可以明顯提升解碼性能。上述編碼器網路和解碼器網路屬於同一自編碼器模型,兩者的網路參數透過共同訓練得到。
第二尺度點雲的重建幾何資料可以繼續送入概率預測模型,進行一次體素上採樣和特徵推理,以及概率預測和點雲裁剪,得到第一尺度點雲的重建幾何資料。這裡用於進行一次體素上採樣和特徵推理的解碼器可以與解碼器網路中的解碼器採用相同的結構,也可以另行設計。
圖示的實施例沒有對第二尺度點雲的重建幾何資料進行增強,但在其他實施例中,也可以用類似的方式對第二尺度點雲的重建幾何資料進行增強,得到第二尺度點雲增強後的幾何資料,再送入概率預測模型得到第一尺度點雲的重建幾何資料。是否需要增強,可以根據所需的開銷和性能提升的幅度來確定,本申請對此不做局限。
本申請實施例在點雲幾何資料的編解碼過程中,可以靈活地對不同尺度點雲的幾何資料進行增強,自編碼器模型的訓練可以基於兩個相鄰尺度點雲的幾何資料來實現,不必如其他方法那樣為所有尺度的點雲設計好編碼網路和解碼網路後再一起訓練,簡單方便,可攜性好。
本申請一實施例點雲幾何資料的編解碼方法的示意圖如圖4所示,本實施例對第一尺度點雲的幾何資料進行體素下採樣的次數i大於等於3次,比圖3所示的實施例更多。圖中所示的第i+1尺度點雲是最小尺度的點雲,該點雲的幾何資料透過熵編碼無失真壓縮。本實施例除了對該最小尺度即第i+1尺度點雲的幾何資料進行增強外,還對次小尺度即第i尺度點雲的重建幾何資料進行增強。其中增強第i+1尺度點雲幾何資料的方法可以參見圖3所示實施例中增強第三尺度點雲幾何資料的方法,兩者是相同的,僅點雲、編解碼網路的編號不同。其中使用的第i編碼器網路(包括兩個編碼器)和第i解碼器網路(包括兩個解碼器)同屬於第i自編碼器模型。
如圖所示,本實施例為了增強第i尺度點雲的重建幾何資料,在編碼端使用第i-1編碼器網路(包括兩個編碼器)對第i-1尺度點雲的幾何資料進行M i-1次體素下採樣和特徵提取,得到用於增強第i尺度點雲幾何資料的特徵資料。這裡使用的第i-1編碼器網路和第i編碼器網路的結構可以相同或不同,可以分別進行訓練。對第i-1尺度點雲的幾何資料進行體素下採樣和特徵提取的次數M i-1和對第i尺度點雲的幾何資料進行體素下採樣和特徵提取的次數M i均大於2,也可以相同或不同。用於增強第i尺度點雲幾何資料的特徵資料經量化和熵編碼寫入幾何碼流,或者經熵編碼寫入幾何碼流。
在解碼端,經熵解碼得到用於增強第i尺度點雲幾何資料的特徵資料,同時透過對第i+1尺度點雲經特徵增強的幾何資料進行一次體素上採樣和特徵推理,以及概率預測和點雲裁剪,可以得到第i尺度點雲的重建幾何資料即待增強的幾何資料。透過第i-1解碼器網路的一個解碼器對用於增強第i尺度點雲幾何資料的特徵資料進行一次體素上採樣和特徵推理後,輸出的特徵資料與第i尺度點雲待增強的幾何資料拼接,得到第i尺度點雲增強後的幾何資料。
如圖4所示,得到第i尺度點雲增強後的幾何資料後,再透過概率預測模型對第i尺度點雲增強後的幾何資料進行一次體素上採樣和特徵推理,以及概率預測和點雲裁剪,輸出第i-1尺度點雲的重建幾何資料。在該概率預測模型中,是使用第i-1解碼器網路的另一解碼器對第i尺度點雲增強後的幾何資料進行一次體素上採樣和特徵推理。第i-1解碼器網路和第i-1編碼器網路同屬於第i-1自編碼器模型。圖示示例中的第i-1解碼器網路包括兩個編碼器,第i-1編碼器網路包括兩個解碼器。但在其他實施例中可以採用更多的編碼器來實現更多次數的體素下採樣和特徵提取,以及採用更多的解碼器來實現更多次數的體素上採樣和特徵推理。
本實施例是對最小尺度點雲和次小尺度點雲的幾何資料進行增強,但這僅僅是示例性的,在其他實施例中,也可以對更多尺度點雲的幾何資料進行增強,或者對最小尺度點雲和除次小尺度之外的其他尺度點雲的幾何資料進行增強,實現方式都是類似的,這裡不再贅述。對哪些尺度點雲的幾何資料進行增強,可以根據所需的開銷和性能提升的幅度來確定。
以圖3為例,對自編碼器模型在訓練時,按照圖示連接好編碼器網路和解碼器網路,但圖中熵編碼和熵解碼可以取消,可以採用常用的對深度神經網路訓練時的點雲樣本,訓練損失函數可以設定為BCE(Binary Cross Entropy) loss,即透過概率預測得到的第三尺度點雲中體素的佔據概率與第三尺度點雲中體素的實際佔據符號的交叉熵。
本申請實施例還提供了一種點雲幾何資料的編碼方法,如圖5所示,包括:
步驟110,對第一尺度點雲的幾何資料進行N次體素下採樣,得到第二尺度點雲至第N+1尺度點雲的幾何資料,N⩾1;
步驟120,將第N尺度點雲的幾何資料輸入第N自編碼器模型的第N編碼器網路進行MN次體素下採樣和特徵提取,輸出用於增強第N+1尺度點雲幾何資料的特徵資料,MN⩾2;
步驟130,對所述第N+1尺度點雲的幾何資料和所述第N編碼器網路輸出的所述特徵資料進行熵編碼。
在上述步驟110中,對第一尺度點雲的幾何資料進行體素下採樣之前,需要完成對點雲幾何資訊的體素化。體素化之後,點雲呈現為體素網格的形式。體素是體素網格中的最小單元,點雲中的一個點對應一個被佔據的體素(即非空體素),而未被佔據的體素(即空體素)表示該位置沒有點。點雲的幾何資料可以有不同的表示方式。例如,點雲的幾何資料可以用點雲中體素的佔據符號(也可稱為預留位置號、預留位置等)來表示,將被佔據的體素標記為1,未被佔據的體素標記為0,得到一個二進位的符號序列。又如,點雲的幾何資料也可以用以稀疏張量的形式表示,將點雲中所有點的座標資料按照約定的順序排列。不同的表示方式之間可以相互轉換。
本申請實施例點雲幾何資料的編碼方法在編碼端,將第N尺度點雲的幾何資料輸入第N自編碼器模型的第N編碼器網路進行MN次體素下採樣和特徵提取,輸出用於增強第N+1尺度點雲幾何資料的特徵資料。該特徵資料經熵編碼後,隨幾何碼流傳輸到解碼端。該特徵資料是以第N尺度點雲的幾何資料為輸入提取到的特徵資料,其中包含了第N+1尺度點雲的幾何資料沒有覆蓋的更高尺度點雲的隱式的幾何資訊,可以説明解碼端增強第N+1尺度點雲的幾何資料,從而得到更為準確的第N尺度點雲的重建幾何資料。提高重建點雲的品質,而該特徵資料經過多次體素下採樣,需要傳輸的資料量少,可以提升點雲壓縮的效率。
在本申請一示例性的實施例中,對第一尺度點雲的幾何資料進行體素下採樣時,可以透過簡單的池化方式實現。如採用步長為2×2×2的最大池化層,將第一尺度點雲的8個體素合併為第二尺度點雲中的1個體素,從而實現一次體素下採樣,每次下採樣將點雲在三個維度上的尺寸均縮小為原來的一半。兩個尺度點雲之間,尺寸較大的可稱為高尺度點雲,尺寸較小的可稱為低尺度點雲。透過N次體素下採樣得到的點雲中,第N+1尺度點雲是尺度最小的點雲,其資料量最少,可以經熵編碼寫入碼流。
請參見圖3,圖中第三尺度點雲包括2×2×1個體素,而第二尺度點雲包括4×4×2個體素,第一尺度點雲包括8×8×4個體素。圖中僅用實的立方塊示出了各尺度點雲中被佔據的體素。圖3所示的點雲僅僅是示例性的,實際的點雲通常包括更多的體素。低尺度點雲的幾何資料和高尺度點雲的幾何資料存在一定程度的相關性,例如,低尺度點雲中一個被佔據的體素的周圍均是被佔據的體素(如該體素為位於一個物體的中部時),則該體素分解為高尺度點雲中的多個體素後,分解得到的該多個體素有較大的概率也是被佔據的體素。這些相關性可以透過神經網路提取的特徵來體現。
在本申請一示例性的實施例中,對所述特徵資料進行熵編碼之前,所述方法還包括:對所述特徵資料進行量化。量化可以減少傳輸特徵資料所需的碼字,也會帶來一定的損失。
在本申請一示例性的實施例中,所述方法還包括:對所述第N尺度點雲中被佔據的體素的數量KN進行熵編碼。數量KN經熵編碼寫入幾何碼流後,可以用於解碼端的點雲裁剪,提高點雲裁剪的精准度。
在本申請一示例性的實施例中,所述方法還包括:
當N⩾2時,將第j尺度點雲的幾何資料輸入第j自編碼器模型的第j編碼器網路進行M j次體素下採樣和特徵提取,輸出用於增強第j+1尺度點雲幾何資料點雲的特徵資料;
對所述第j編碼器網路輸出的所述特徵資料進行量化和熵編碼,M j⩾2,j的取值為{1,2,…,N-1}中的任意一個或更多個。
也即,本實施例在存在3個以上尺度的點雲時,不僅對最小尺度點雲的幾何資料進行增強,還對除第一尺度點雲外的其他一個或多個尺度點雲的幾何資料進行增強,可以參見圖4所示的編碼過程。例如,在N=4的情況下,共存在第一尺度到第五尺度共5個尺度的點雲。除對最小尺度即第五尺度點雲的幾何資料進行增強外,j的取值可以為3時,表示還對第四尺度點雲的幾何資料進行增強,j的取值為2時,表示還對第三尺度點雲的幾何資料進行增強,j的取值為2和3時,表示還對第三尺度點雲和第四尺度點雲的幾何資料進行增強,以此類推。j值不同時,M j的值可以相同或不同。
本文中所記載的編碼器網路進行體素下採樣和特徵提取,並不表示編碼器網路先進行體素下採樣再進行特徵提取,體素下採樣可以在特徵提取之前進行,也可以在特徵提取之後進行,也可以在多次特徵提取之間進行,本申請對此不做任何局限。同樣地,本文記載的解碼器網路進行體素上採樣和特徵推理,也不表示解碼器網路先進行體素上採樣再時行特徵推理,體素上採樣可以在特徵推理之前進行,也可以在特徵推理之後進行,也可以在多次特徵推理之間進行,本申請對此也不做任何局限。
在本申請一示例性的實施例中,每一次所述體素下採樣和特徵提取包括:
透過基於稀疏卷積的第一殘差網路和第一自注意力網路中的至少一種對輸入資料進行特徵提取;
透過步長為2×2×2的稀疏卷積層對第一殘差網路或第一自注意力網路輸出的資料進行一次體素下採樣;
透過基於稀疏卷積的第二殘差網路和第二自注意力網路中的至少一種對所述稀疏卷積層輸出的資料進行特徵提取。
本實施例編碼器網路每次進行體素下採樣和特徵提取時,是按特徵提取、體素下採樣、特徵提取的方式進行的。
在本實施例的一個示例中,所述第一殘差網路和第二殘差網路包括一個或多個基於稀疏卷積的殘差層,每一殘差層如圖6所示,包括三個以上的分支,分支一將輸入資料直接輸出,其他分支透過不同數量的稀疏卷積層對輸入資料進行特徵推理,所述其他分支的輸出拼接後再與分支一的輸出相加,得到該殘差層的輸出。圖6中示出了三個分支,分支二包括2個稀疏卷積層,分支三包括3個稀疏卷積層,相鄰稀疏卷積層之間設有啟動函數。
在本實施例的一個示例中,每一次所述體素下採樣和特徵提取透過基於神經網路的一編碼器實現,如圖7所示,該編碼器依次包括:第一稀疏卷積網路、第一自注意力網路、第一殘差網路、步長為2×2×2的稀疏卷積層、第二殘差網路、第二自注意力網路、及第二稀疏卷積網路;在所述第一稀疏卷積網路和所述第一自注意力網路之間,以及所述第一殘差網路和所述稀疏卷積層之間設有啟動函數,所述第一稀疏卷積網路和第二稀疏卷積網路包括一個或多個稀疏卷積層。
在本申請一示例性的實施例中,所述第一自注意力網路和/或第二自注意力網路包括一個或多個自注意力層,每一自注意力層執行的處理包括:
對點雲中的每一個點,基於該點的座標資料查找該點的鄰居點,並對該點到所述鄰居點的距離資訊進行線性變換得到位置特徵,將所述位置特徵與所述鄰居點的特徵相加,得到位置編碼後的聚合特徵;
對輸入的特徵資料進行第一線性變換得到第一向量,將所述第一向量與對所述聚合特徵進行第二線性變換得到的第二向量作矩陣乘法,所得結果經啟動後,得到點雲中每一個點相對於該點的鄰居點的注意力權重;
將所述注意力權重和第三向量相乘,得到包含所述鄰域上下文特徵的資料,所述第三向量透過對所述聚合特徵進行第三線性變換得到。
在本實施例的一個示例中,如圖8所示,所述自注意力層包括依次連接的點雲鄰域自注意力層、第一歸一化層、線性層和第二歸一化層,點雲鄰域自注意層用於實現從輸入資料中得到點雲空間中的鄰域上下文特徵,點雲鄰域自注意層的輸出資料和輸入資料相加後輸入到第一歸一化層進行批量歸一化,結果再輸入到線性層進行線性變換,線性層的輸出資料和輸入資料相加後輸入到第二歸一化層進行批量歸一化後,得到所述自注意力層的輸出。
本實施例的一個示例中,如圖9所示。輸入點雲鄰域自注意力層的點雲資料(input)包括特徵資料 和座標 ,座標 用於鄰居點的查找。n為點雲的總點數, 為輸入的特徵資料的維度。
如圖所示,點雲鄰域自注意力層執行的處理包括:
K近鄰(KNN)搜索:
對點雲中的每個點 ,用K近鄰搜索演算法(k nearest neighbor, KNN) 找到距離該點最近的k個鄰居點{ },並聚集得到k個鄰居點的座標 和特徵 。在一些演算法中,可以將該點也算成是該點的k個鄰居點中的一個,在另一些演算法中,該點不作為該點的鄰居點,對此本申請不做局限。
位置編碼:
將每個點 作為中心點,求 的k個鄰居點{ }與中心點 的相對距離{ },得到相對距離資訊 。再透過線性層 的維度從1映射到 維,得到的相對位置特徵與特徵 相加(即附加在特徵 之後),實現位置編碼:
其中, 是位置編碼後的聚合特徵, 。透過位置編碼,為特徵賦予了對應點之間相對位置的感知資訊,每個鄰居點的特徵都具有了空間位置資訊。
QKV向量生成:
將輸入的特徵資料 透過線性層 變換,得到Q向量,將經過位置編碼的聚合特徵 分別透過線性層 和線性層 變換,得到K向量和V向量,即:
其中, , 表示3個不同的線性變換。Q向量代表查詢向量(Query),K向量代表被查詢資訊與其他資訊的相關性的向量(Key),V向量代表被查詢資訊的向量(Value)。上述維度參數 可以等於 ,如均設置為32。 也可以不等於 即可以進行維度變換。
注意力權重生成及基於注意力的特徵聚合:
得到Q向量、K向量和V向量後,將Q向量與K向量作矩陣乘法,結果經過Softmax啟動函數啟動,輸出每一個點作為中心點時相對於其鄰居點的注意力權重A,最後將注意力權重A和V向量相乘,得到輸出的點雲的特徵資料 。即:
本示例在啟動前,還可以對Q向量與K向量作矩陣乘法的結果乘以比例因數
本申請上述實施例相比單純基於稀疏卷積的神經網路,透過引入注意力機制網路,能夠增強在稀疏點雲上的空間建模能力。因為卷積核尺寸固定的卷積網路難以在分佈稀疏的點雲上提取有效的鄰居特徵(即鄰域上下文的特徵),而本申請上述實施例引入基於注意力機制的網路,直接在點集合上基於k近鄰演算法得到中心點周圍的k個點,然後透過注意力機制得到中心點對於其他點的注意力權重,能更加有效地提取鄰域上下文的特徵資訊,提高在稀疏點雲上的壓縮性能。
本申請一實施例提供了一種點雲幾何資料增強方法,如圖10所示,所述方法包括:
步驟210,解析碼流,得到用於增強第i+1尺度點雲幾何資料的特徵資料;所述特徵資料是透過第i編碼器網路對第i尺度點雲的幾何資料進行M i次體素下採樣和特徵提取而得到,i⩾1,M i⩾2;
本實施例的第i編碼器網路可以設置級聯的M i個編碼器,每個編碼器對輸入資料進行一次體素下採樣和特徵提取。但在其他實施例中,編碼器的個數是可變的,單個編碼器也可以實現多次體素下採樣和特徵提取。
步驟220,透過第i解碼器網路的部分解碼器對所述特徵資料進行M i-1次體素上採樣和特徵推理,輸出的特徵資料與第i+1尺度點雲待增強的幾何資料拼接,得到第i+1尺度點雲增強後的幾何資料;
其中,所述第i編碼器網路和第i解碼器網路同屬於第i自編碼器模型。
在本實施例的一示例中,所述輸出的特徵資料包括L i+1個特徵資料,所述第i+1尺度點雲的重建幾何資料包括L i+1個點的座標資料;所述拼接是將所述L i+1個特徵資料和L i+1個點的座標資料一一對應拼接,得到L i+1個點的座標及特徵資料,L i+1為第i+1尺度點雲中點的數量。在編碼端對第i尺度點雲的幾何資料進行體素下採樣和特徵提取時,得到的特徵資料(如特徵值)與幾何資料(如點的座標)是按照順序一一對應的。在解碼端再將兩者拼接起來,就可以得到點雲中每一個點的座標和特徵資料。或者說,可以得到點雲中每一個被佔據體素的特徵值。
在本實施例的一示例中,所述第i編碼器網路透過步長為2×2×2的稀疏卷積實現所述體素下採樣;所述第i解碼器網路透過步長為2×2×2的轉置稀疏卷積實現所述體素上採樣。在編碼器網路透過稀疏卷積實現體素下採樣,在解碼器網路中透過轉置稀疏卷積實現體素上採樣,稀疏卷積和轉置稀疏卷積的參數都是可學習的,有利於提升壓縮編碼的性能。
本申請一實施例還提供了一種點雲幾何資料的解碼方法,如圖11所示,包括:
步驟310,解析碼流,得到的第N+1尺度點雲的幾何資料作為待增強的幾何資料,按照本申請任一實施例所述的點雲幾何資料增強方法進增強,得到第N+1尺度點雲增強後的幾何資料,N⩾1;
步驟320,透過第N解碼器網路其餘的解碼器對第N+1尺度點雲增強後的幾何資料進行一次體素上採樣和特徵推理,輸出的資料再經過概率預測和點雲裁剪,得到第N尺度點雲的重建幾何資料。
上述第N解碼器網路其餘的解碼器、以及用於執行概率預測和點雲裁剪的網路構成了第N概率預測模型,第N概率預測模型的輸出即第N尺度點雲的重建幾何資料。概率預測可以透過概率預測器實現,點雲裁剪可以透過用於點雲的裁剪器實現。
本申請實施例點雲幾何資料的解碼方法在解碼端,利用解碼得到的特徵資料對第N+1尺度點雲的幾何資料進行增強,再基於第N+1尺度點雲增強後的幾何資料進行體素上採樣和特徵推理,以及概率預測和點雲裁剪,得到第N尺度點雲的重建幾何資料。該特徵資料是對第N尺度點雲的幾何資料進行MN次體素下採樣和特徵提取而得到,包含了第N尺度點雲的隱式特徵資訊,可以説明解碼端更為準確的第N尺度點雲的重建幾何資料。提高重建點雲的品質,而該特徵資料經過多次體素下採樣,需要傳輸的資料量少,可以提升點雲壓縮的效率。
在本申請一示例性的實施例中,所述方法還包括:
當N⩾2時,將第N尺度點雲的重建幾何資料輸入級聯的N-1個概率預測模型,在每一所述概率預測模型中進行一次體素上採樣和特徵推理,及概率預測和點雲裁剪,輸出相應尺度點雲的重建幾何資料;
從最後一個概率預測模型的輸出得到第一尺度點雲的重建幾何資料。
本實施例在對第一尺度點雲進行2次以上的體素下採樣的情況下,只對最小尺度的幾何資料進行特徵增強,不對其他尺度的重建幾何資料進行增強。透過將第N尺度的重建幾何資料輸入一個概率預測模型得到第N-1尺度點雲的重建幾何資料,再將第N-1尺度的重建幾何資料輸入一個概率預測模型得到第N-2尺度點雲的重建幾何資料,直到得到第一尺度點雲的重建幾何資料。該過程可以參見圖3及其相關說明。
在本申請一示例性的實施例中,所述方法還包括:
當N⩾2時,將第j尺度點雲的重建幾何資料或者第j尺度點雲增強後的幾何資料輸入第j-1概率預測模型,在所述第j-1概率預測模型中進行一次體素上採樣和特徵推理,以及進行概率預測和點雲裁剪後,輸出第j-1尺度點雲的重建幾何資料,j=2,3,…,N;
其中,第j尺度點雲增強後的幾何資料是將第j尺度點雲的重建幾何資料作為第j尺度點雲待增強的幾何資料,按照本申請任一實施例所述的點雲幾何資料增強方法進行增強後得到的。
本實施例除對最小尺度點雲的幾何資料進行增強外,還可以對除第一尺度點雲之外的一個或多個尺度點雲的重建幾何資料進行增強。圖4所示的編解碼過程是本實施例的一個示例,可參見圖4及相關說明。在輸入的資料是經特徵增強的幾何資料時,第j-1概率預測模型中應使用第j-1解碼器網路中餘下的解碼器進行一次體素上採樣和特徵推理,而與該第j-1解碼器網路同屬於一個自編碼器模型的第j-1編碼器網路,則用於對第j-1尺度點雲進行多次體素下採樣和特徵提取,得到用於增強第j尺度點雲幾何資料的特徵資料。而在輸入的資料是未經增強的重建幾何資料時,第j-1概率預測模型中進行一次體素上採樣和特徵推理的解碼器可以單獨設計。
在本申請一示例性的實施例中,所述概率預測透過多個稀疏卷積層和sigmod函數實現。在本實施例的一個示例中,可以採用如圖12所示的概率預測器來實現概率預測。該概率預測器包括3個稀疏卷積層、設在相鄰稀疏卷積層之間的2個啟動函數(如ReLU函數),以及設置在最後一層的Sigmod函數,Sigmod函數輸出推理得到的點雲中體素的佔據概率。可以將佔據概率的數值範圍限制到0到1之間。稀疏卷積層可以使用SConv K13,S13,C32,其三個維度上的卷積核大小為1,步長為1,其通道數為32。
在得到某一尺度點雲中點的佔據概率後,可以採用簡單的二分類法來確定點雲中被佔據的體素,參見圖3,圖13A示出了圖3中第二尺度點雲中體素被佔據的情況,而圖13B示出了圖3中第三尺度點雲中體素被佔據的情況,圖13C是經概率預測得到的第二尺度點雲中體素的佔據概率(表示被佔據的概率)。使用二分類時,可以將佔據概率不小於設定閾值(如0.5)的體素作為被佔據的體素,將佔據概率小於設定閾值(如0.5)的體素作為末被佔據的體素,從而得到點雲的重建幾何資料。但是,使用二分類法進行點雲裁剪有時不夠準確。
為了提高點雲裁剪的準確度。本申請一示例性的實施例提供了一種基於點雲中點的數量輔助裁剪的方法。在編碼端將要裁剪的一種或多種尺度的點雲中點的數量熵編碼,解碼端根據該數量來輔助確定被佔據的體素。
本實施例的解碼方法還包括:解析碼流,得到第N尺度點雲中被佔據的體素的數量KN,KN也是第N尺度點雲中點的數量;以及,透過以下方式實現點雲裁剪:將概率預測後得到的第N尺度點雲中由同一體素分解得到的M個體素為一組,將每一組體素中佔據概率最高的m個體素的佔據概率置為1,然後對第N尺度點雲中所有體素的佔據概率排序,將佔據概率最高的KN個體素確定為第N尺度點雲的被佔據體素,1⩽m<M。
在一示例中,可以將同一體素分解得到的8個體素為一組,將每一組體素中佔據概率最高的1個或2個或3個體素的佔據概率置為1。對低尺度點雲的體素進行分解時,未被佔據的體素是不需要分解的,因此分解出來的8個體素中至少有1個為1。在其他示例中,M也可以等於64等其他值,在M較大時,m的值也可以相應增大。
本實施例在統一排序前先將每一組體素中佔據概率最高的至少一個體素的佔據概率置為1,再以點雲中點的數量為約束條件選出佔據概率最高的KN個體素為被佔據的體素,可明顯提高點雲裁剪的準確度。
在本申請一示例性的實施例中,每一次所述體素上採樣和特徵推理包括:
透過基於稀疏卷積的第一殘差網路和第一自注意力網路中的至少一種對輸入資料進行特徵推理;
透過步長為2×2×2的轉置稀疏卷積層對第一殘差網路或第一自注意力網路輸出的資料進行一次體素上採樣;
透過基於稀疏卷積的第二殘差網路和第二自注意力網路中的至少一種對所述轉置稀疏卷積層輸出的資料進行特徵推理。
本實施例解碼器網路每次進行體素上採樣和特徵提取時,是按特徵提取、體素上採樣、特徵提取的方式進行的。
在本實施例的一個示例中,所述第一殘差網路和第二殘差網路包括一個或多個基於稀疏卷積的殘差層,每一殘差層可參見圖6,包括三個以上的分支,分支一將輸入資料直接輸出,其他分支透過不同數量的稀疏卷積層對輸入資料進行特徵推理,所述其他分支的輸出拼接後再與分支一的輸出相加,得到該殘差層的輸出。圖6中示出了三個分支,分支二包括2個稀疏卷積層,分支三包括3個稀疏卷積層,相鄰稀疏卷積層之間設有啟動函數。
在本實施例的一個示例中,每一次所述體素上採樣和特徵提取透過基於神經網路的一解碼器實現,如圖14所示,該編碼器依次包括:第一稀疏卷積網路、第一自注意力網路、第一殘差網路、步長為2×2×2的轉置稀疏卷積層、第二殘差網路、第二自注意力網路、及第二稀疏卷積網路;所述第一稀疏卷積網路和所述第一自注意力網路之間,以及所述第一殘差網路和所述轉置稀疏卷積層之間設有啟動函數,所述第一稀疏卷積網路和第二稀疏卷積網路包括一個或多個稀疏卷積層。
雖然本申請實施例以及上述實施例給出了一種解碼器和編碼器的結構,但可以實現特徵提取和特徵推理的神經網路是各種各樣的,在本申請中均可能使用。因此本申請並不局限於本文申請的某種特定的網路結構,能夠基於稀疏卷積實現特徵提取或特徵推理的神經網路均可以使用。特別地,實現特徵提取和特徵推理的網路結構可以是相同的,在編碼網路中稱為特徵提取,而在解碼網路中的稱為特徵推理。
在本實施例的一個示例中,所述第一自注意力網路和/或第二自注意力網路包括一個或多個自注意力層,每一自注意力層執行的處理包括:透過以下方式從輸入資料中得到點雲空間中的鄰域上下文特徵:
對點雲中的每一個點,基於該點的座標資料查找該點的鄰居點,並對該點到所述鄰居點的距離資訊進行線性變換得到位置特徵,將所述位置特徵與所述鄰居點的特徵相加,得到位置編碼後的聚合特徵;
對輸入的特徵資料進行第一線性變換得到第一向量,將所述第一向量與對所述聚合特徵進行第二線性變換得到的第二向量作矩陣乘法,所得結果經啟動後,得到點雲中每一個點相對於該點的鄰居點的注意力權重;
將所述注意力權重和第三向量相乘,得到包含所述鄰域上下文特徵的資料,所述第三向量透過對所述聚合特徵進行第三線性變換得到。
在一個示例中,請參見圖8,自注意力層包括依次連接的點雲鄰域自注意力層、第一歸一化層、線性層和第二歸一化層,所述點雲鄰域自注意層用於從輸入資料中得到點雲空間中的鄰域上下文特徵,所述點雲鄰域自注意層的輸出資料和輸入資料相加後輸入到所述第一歸一化層進行批量歸一化,結果再輸入到所述線性層進行線性變換,所述線性層的輸出資料和輸入資料相加後輸入到所述第二歸一化層進行批量歸一化後,得到所述自注意力層的輸出。其中,點雲鄰域自注意層從輸入資料中得到點雲空間中的鄰域上下文特徵的過程可參見圖9及相關說明,這裡不再贅述。
本申請一些實施例提供的點雲編解碼方法可以實現點雲幾何失真壓縮。透過將注意力機制和卷積神經網路相結合,構建自編碼器模型和概率預測模型,注意力機制相比現有基於卷積的結構提升了模型提取特徵的能力,提高了模型的壓縮性能。
本申請一些實施例針對點雲的局部密度,提出了一種基於概率的點雲裁剪方法,可以提高模型復原點雲局部密度的能力。
本申請上述實施例的編解碼方法可用於多個尺度點雲之間,且每一個尺度的壓縮互相獨立,可以實現尺度可伸縮的編碼,靈活性強。
本申請實施例實現點雲幾何失真壓縮的點雲編解碼方法和G-PCC點雲壓縮方案進行了對比,對比指標為BD-rate。結果如下:
相對於GPCC的BD-rate 增益 本申請實施例
Arco_Valentino_Dense_vox12 -25%
Egyptian_mask_vox12 -16%
Facade_00009_vox12 -61%
House_without_roof_00057_vox12 -56%
Shiva_00035_vox12 -44%
Staue_Klimt_vox12 -43%
Average -41%
表中的“Arco_Valentino_Dense_vox12”是GPCC申請測試條件中提供的12bit點雲資料。從上表可以看出,本申請實施例方法對比G-PCC點雲壓縮方案,在各個碼率點都體現出一定的優勢,對比MPEG G-PCC平均BD-rate提高41%。相比於MPEG G-PCC方法實現了更好的壓縮性能。
本申請一實施例還提供了一種點雲幾何碼流,其中,所述幾何碼流按照本申請任一實施例所述的點雲幾何資料的編碼方法得到,包括第N+1尺度點雲的幾何資料和第N編碼器網路輸出的所述特徵資料。
本申請一實施例還提供了一種點雲幾何資料增強裝置,如圖15所示,包括處理器5以及儲存有電腦程式的記憶體6,其中,所述處理器5執行所述電腦程式時能夠實現如本申請任一實施例所述的點雲幾何資料增強方法。
本申請一實施例還提供了一種點雲解碼器,參見圖15,包括處理器以及儲存有電腦程式的記憶體,其中,所述處理器執行所述電腦程式時能夠實現如本申請任一實施例所述的點雲幾何資料的解碼方法。
本申請一實施例還提供了一種點雲編碼器,參見圖15,包括處理器以及儲存有電腦程式的記憶體,其中,所述處理器執行所述電腦程式時能夠實現如本申請任一實施例所述的點雲幾何資料的編碼方法。
本申請一實施例還提供了一種點雲編解碼系統,其中,包括如本申請任一實施例所述的點雲編碼器,及如本申請任一實施例所述的點雲解碼器。
本申請上述實施例的處理器可以是通用處理器,包括中央處理器(Central Processing Unit,簡稱CPU)、網路處理器(Network Processor,簡稱NP)、微處理器等等,也可以是其他常規的處理器等;所述處理器還可以是數位訊號處理器(DSP)、專用積體電路(ASIC)、現成可程式設計閘陣列(FPGA)、離散邏輯或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件;也可以是上述器件的組合。即上述實施例的處理器可以是實現本發明實施例中申請的各方法、步驟及邏輯框圖的任何處理器件或器件組合。如果部分地以軟體來實施本申請實施例,那麼可將用於軟體的指令儲存在合適的非易失性電腦可讀儲存媒體中,且可使用一個或多個處理器在硬體中執行所述指令從而實施本申請實施例的方法。
本申請上述實施例的裝置和系統可基於終端或伺服器等計算設備來實現。其中終端可以包括諸如手機、平板電腦、筆記型電腦、掌上型電腦、個人數位助理(Personal Digital Assistant,PDA)、便捷式媒體播放機(Portable Media Player,PMP)、導航裝置、可穿戴設備、智慧手環、計步器等移動終端,以及諸如數位TV、桌上型電腦等固定終端。
本申請一實施例還提供了一種非瞬態電腦可讀儲存媒介,所述電腦可讀儲存媒介儲存有電腦程式,其中,所述電腦程式時被處理器執行時能夠實現如本申請任一實施例所述的點雲幾何資料增強方法,或能夠實現如本申請任一實施例所述的點雲幾何資訊的解碼方法,或能夠實現如本申請任一實施例所述的點雲幾何資訊的編碼方法。
本申請一實施例還提供了一種點雲裁剪方法,應用於點雲解碼器,包括:
解析碼流,得到待裁剪點雲中的被佔據體素的數量K;
確定所述待裁剪點雲中的體素的佔據概率;
將所述待裁剪點雲中由同一體素分解得到的M個體素分為一組,將每一組中佔據概率最高的m個體素的佔據概率置為1,然後對所述待裁剪點雲中所有體素的佔據概率排序,將佔據概率最高的K個體素確定為所述待裁剪點雲中的被佔據體素,1⩽m<M<K。
本實施例的一示例中,m=1或2或3,M=8。但本申請不局限於此,例如M也可以為64,M越大,m也可以設置的較大。
本實施例不僅透過解碼得到待裁剪點雲中的被佔據體素的準確數量K,而且在對概率排序時,將同一體素分解得到的M個體素分為一組,將每一組中佔據概率最高的m個體素的佔據概率置為1。因為未被佔據的體素不進行概率預測,而分解得到的體素至少有一個是被佔據的,因此本實施的方法利用了點雲分解的規律,可以明顯提高點雲裁剪(即確定點雲中的被佔據體素)的準確性。
在一個或多個示例性實施例中,所描述的功能可以硬體、軟體、固件或其任一組合來實施。如果以軟體實施,那麼功能可作為一個或多個指令或代碼儲存在電腦可讀媒介上或經由電腦可讀媒介傳輸,且由基於硬體的處理單元執行。電腦可讀媒介可包含對應於例如資料儲存媒介等有形媒介的電腦可讀儲存媒介,或包含促進電腦程式例如根據通訊協定 從一處傳送到另一處的任何媒介的通訊媒介。以此方式,電腦可讀媒介通常可對應於非暫時性的有形電腦可讀儲存媒介或例如訊號或載波等通訊媒介。資料儲存媒介可為可由一個或多個電腦或者一個或多個處理器存取以檢索用於實施本申請中描述的技術的指令、代碼和/或資料結構的任何可用媒介。電腦程式產品可包含電腦可讀媒介。
舉例來說且並非限制,此類電腦可讀儲存媒介可包括RAM、ROM、 EEPROM、CD-ROM 或其它光碟儲存裝置、磁片儲存裝置或其它磁性儲存裝置、快閃記憶體或可用來以指令或資料結構的形式儲存所要程式碼且可由電腦存取的任何其它媒介。而且,還可以將任何連接稱作電腦可讀媒介舉例來說,如果使用同軸電纜、光纖電纜、雙絞線、數位訂戶線 (DSL)或例如紅外線、無線電及微波等無線技術從網站、伺服器或其它遠端源傳輸指令,則同軸電纜、光纖電纜、雙紋線、DSL或例如紅外線、無線電及微波等無線技術包含於媒介的定義中。然而應瞭解,電腦可讀儲存媒介和資料儲存媒介不包含連接、載波、訊號或其它暫態(瞬態)媒介,而是針對非暫態有形儲存媒介。如本文中所使用,磁片及光碟包含壓縮光碟(CD) 、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟碟或藍光光碟等,其中磁片通常以磁性方式再生資料,而光碟使用雷射以光學方式再生資料。上文的組合也應包含在電腦可讀媒介的範圍內。
可由例如一個或多個數位訊號理器(DSP)、通用微處理器、專用積體電路(ASIC) 現場可程式設計邏輯陣列(FPGA)或其它等效集成或離散邏輯電路等一個或多個處理器來執行指令。因此,如本文中所使用的術語“處理器”可指上述結構或適合於實施本文中所描述的技術的任一其它結構中的任一者。另外,在一些方面中,本文描述的功能性可提供於經配置以用於編碼和解碼的專用硬體和/或軟體模組內,或併入在組合式編解碼器中。並且,可將所述技術完全實施於一個或多個電路或邏輯元件中。
本申請實施例的技術方案可在廣泛多種裝置或設備中實施,包含無線手機、積體電路(IC) 或一組IC(例如,晶片組)。本申請實施例中描各種元件、模組或單元以強調經配置以執行所描述的技術的裝置的功能方面,但不一定需要透過不同硬體單元來實現。而是,如上所述,各種單元可在編解碼器硬體單元中組合或由交互操作硬體單元(包含如上所述的一個或多個處理器)的集合結合合適軟體和/或固件來提供。
110~130:步驟 210~220:步驟 310~320:步驟 5:處理器 6:記憶體
附圖用來提供對本申請實施例的理解,並且構成說明書的一部分,與本申請實施例一起用於解釋本申請的技術方案,並不構成對本申請技術方案的限制。
圖1是G-PCC編碼的流程框圖;
圖2是G-PCC解碼的流程框圖;
圖3是本申請一實施例點雲幾何資訊的編解碼方法的示意圖;
圖4是本申請另一實施例點雲幾何資料的編解碼方法的示意圖;
圖5是本申請一實施例點雲幾何資料的編碼方法的流程圖;
圖6是本申請一實施例殘差層的網路結構示意圖;
圖7是本申請一實施例編碼器的網路結構示意圖;
圖8是本申請一實施例自注意力層的網路結構示意圖;
圖9是本申請一實施例點雲鄰域自注意力層從輸入資料中得到點雲空間中的鄰域上下文特徵的過程的示意圖;
圖10是本申請一實施例點雲幾何資料增強方法的流程圖;
圖11是本申請一實施例點雲幾何資料的解碼方法的流程圖;
圖12是本申請一實施例概率預測器的網路結構示意圖;
圖13A是本申請一實施例第二尺度點雲中體素被佔據情況的示意圖;
圖13B是本申請一實施例第三尺度點雲中體素被佔據情況的示意圖;
圖13C是本申請一實施例概率預測後得到的第二尺度點雲中體素的佔據概率的示意圖;
圖14是本申請一實施例解碼器的網路結構示意圖;
圖15是本申請一實施例點雲幾何資料增強裝置的示意圖。
110~130:步驟

Claims (30)

  1. 一種點雲幾何資料增強方法,應用於點雲解碼器,包括: 解析碼流,得到用於增強第i+1尺度點雲幾何資料的特徵資料; 透過第i解碼器網路的部分解碼器對所述特徵資料進行M i-1次體素上採樣和特徵推理,輸出的特徵資料與第i+1尺度點雲待增強的幾何資料拼接,得到第i+1尺度點雲增強後的幾何資料; 其中,i為大於等於1的整數, M i是大於等於2的整數。
  2. 如請求項1所述的方法,其中: 所述特徵資料是透過第i編碼器網路對第i尺度點雲的幾何資料進行M i次體素下採樣和特徵提取而得到的; 所述第i編碼器網路和第i解碼器網路同屬於第i自編碼器模型。
  3. 如請求項1所述的方法,其中: 所述輸出的特徵資料包括L i+1個特徵資料,所述第i+1尺度點雲的重建幾何資料包括Li+1個點的座標資料; 所述拼接是將所述L i+1個特徵資料和L i+1個點的座標資料一一對應拼接,得到Li+1個點的座標及特徵資料,L i+1為第i+1尺度點雲中點的數量。
  4. 一種點雲幾何資料的解碼方法,應用於點雲解碼器,包括: 解析碼流,得到的第N+1尺度點雲的幾何資料作為待增強的幾何資料,按照如請求項1至3中任一所述的方法進行點雲幾何資料增強,得到第N+1尺度點雲增強後的幾何資料,N是大於等於1的整數; 透過第N解碼器網路其餘的解碼器對所述第N+1尺度點雲增強後的幾何資料進行一次體素上採樣和特徵推理,輸出的資料再經過概率預測和點雲裁剪,得到第N尺度點雲的重建幾何資料。
  5. 如請求項4所述的方法,其中,所述方法還包括: 當N⩾2時,將所述第N尺度點雲的重建幾何資料輸入級聯的N-1個概率預測模型,在每一所述概率預測模型中進行一次體素上採樣和特徵推理,以及概率預測和點雲裁剪,輸出相應尺度點雲的重建幾何資料; 從最後一個概率預測模型的輸出得到第一尺度點雲的重建幾何資料。
  6. 如請求項4所述的方法,其中,所述方法還包括: 當N⩾2時,將第j尺度點雲的重建幾何資料或者第j尺度點雲增強後的幾何資料輸入第j-1概率預測模型,在所述第j概率預測模型中進行一次體素上採樣和特徵推理,以及進行概率預測和點雲裁剪後,輸出第j-1尺度點雲的重建幾何資料,j=2,3,…,N; 其中,第j尺度點雲增強後的幾何資料是將第j尺度點雲的重建幾何資料作為第j尺度點雲待增強的幾何資料,按照如請求項1至3中任一所述的方法進行點雲幾何資料增強後得到的。
  7. 如請求項4所述的方法,其中: 所述方法還包括:解析碼流,得到第N尺度點雲中被佔據的體素的數量KN; 所述點雲裁剪透過以下方式實現:將概率預測後得到的第N尺度點雲中由同一體素分解得到的M個體素為一組,將每一組體素中佔據概率最高的m個體素的佔據概率置為1,然後對第N尺度點雲中所有體素的佔據概率排序,將佔據概率最高的KN個體素確定為第N尺度點雲的被佔據體素,1⩽m<M。
  8. 如請求項4至6中任一所述的方法,其中: 每一次所述體素上採樣和特徵推理包括: 透過基於稀疏卷積的第一殘差網路和第一自注意力網路中的至少一種對輸入資料進行特徵推理; 透過步長為2×2×2的轉置稀疏卷積層對第一殘差網路或第一自注意力網路輸出的資料進行一次體素上採樣; 透過基於稀疏卷積的第二殘差網路和第二自注意力網路中的至少一種對所述轉置稀疏卷積層輸出的資料進行特徵推理。
  9. 如請求項8所述的方法,其中: 所述第一殘差網路和第二殘差網路包括一個或多個基於稀疏卷積的殘差層,每一殘差層包括三個以上的分支,分支一將輸入資料直接輸出,其他分支透過不同數量的稀疏卷積層對輸入資料進行特徵推理,所述其他分支的輸出拼接後再與分支一的輸出相加,得到該殘差層的輸出。
  10. 如請求項8所述的方法,其中: 所述第一自注意力網路和/或第二自注意力網路包括一個或多個自注意力層,每一自注意力層執行的處理包括:透過以下方式從輸入資料中得到點雲空間中的鄰域上下文特徵: 對點雲中的每一個點,基於該點的座標資料查找該點的鄰居點,並對該點到所述鄰居點的距離資訊進行線性變換得到位置特徵,將所述位置特徵與所述鄰居點的特徵相加,得到位置編碼後的聚合特徵; 對輸入的特徵資料進行第一線性變換得到第一向量,將所述第一向量與對所述聚合特徵進行第二線性變換得到的第二向量作矩陣乘法,所得結果經啟動後,得到點雲中每一個點相對於該點的鄰居點的注意力權重; 將所述注意力權重和第三向量相乘,得到包含所述鄰域上下文特徵的資料,所述第三向量透過對所述聚合特徵進行第三線性變換得到。
  11. 如請求項10所述的方法,其中: 所述自注意力層包括依次連接的點雲鄰域自注意力層、第一歸一化層、線性層和第二歸一化層,所述點雲鄰域自注意層用於從輸入資料中得到點雲空間中的鄰域上下文特徵,所述點雲鄰域自注意層的輸出資料和輸入資料相加後輸入到所述第一歸一化層進行批量歸一化,結果再輸入到所述線性層進行線性變換,所述線性層的輸出資料和輸入資料相加後輸入到所述第二歸一化層進行批量歸一化後,得到所述自注意力層的輸出。
  12. 如請求項8所述的方法,其中: 每一次所述體素上採樣和特徵推理透過基於神經網路的一解碼器實現,所述解碼器依次包括:第一稀疏卷積網路、第一自注意力網路、第一殘差網路、步長為2×2×2的轉置稀疏卷積層、第二殘差網路、第二自注意力網路、及第二稀疏卷積網路;所述第一稀疏卷積網路和所述第一自注意力網路之間,以及所述第一殘差網路和所述轉置稀疏卷積層之間設有啟動函數,所述第一稀疏卷積網路和第二稀疏卷積網路包括一個或多個稀疏卷積層。
  13. 如請求項4所述的方法,其中: 所述概率預測透過多個稀疏卷積層和sigmod函數實現。
  14. 一種點雲幾何資料的編碼方法,應用於點雲編碼器,包括: 對第一尺度點雲的幾何資料進行N次體素下採樣,得到第二尺度點雲至第N+1尺度點雲的幾何資料,N⩾1; 將第N尺度點雲的幾何資料輸入第N自編碼器模型的第N編碼器網路進行MN次體素下採樣和特徵提取,輸出用於增強第N+1尺度點雲幾何資料的特徵資料,MN⩾2; 對所述第N+1尺度點雲的幾何資料和所述第N編碼器網路輸出的所述特徵資料進行熵編碼。
  15. 如請求項14所述的方法,其中: 對所述特徵資料進行熵編碼之前,所述方法還包括:對所述特徵資料進行量化。
  16. 如請求項14所述的方法,其中: 所述方法還包括:對所述第N尺度點雲中被佔據的體素的數量KN進行熵編碼。
  17. 如請求項14所述的方法,其中,所述方法還包括: 當N⩾2時,將第j尺度點雲的幾何資料輸入第j自編碼器模型的第j編碼器網路進行M j次體素下採樣和特徵提取,輸出用於增強第j+1尺度點雲幾何資料點雲的特徵資料; 對所述第j編碼器網路輸出的所述特徵資料進行量化和熵編碼,M j⩾2,j的取值為{1,2,…,N-1}中的任意一個或更多個。
  18. 如請求項14或17所述的方法,其中: 每一次所述體素下採樣和特徵提取包括: 透過基於稀疏卷積的第一殘差網路和第一自注意力網路中的至少一種對輸入資料進行特徵提取; 透過步長為2×2×2的稀疏卷積層對第一殘差網路或第一自注意力網路輸出的資料進行一次體素下採樣; 透過基於稀疏卷積的第二殘差網路和第二自注意力網路中的至少一種對所述稀疏卷積層輸出的資料進行特徵提取。
  19. 如請求項18所述的方法,其中: 所述第一殘差網路和第二殘差網路包括一個或多個基於稀疏卷積的殘差層,每一殘差層包括三個以上的分支,分支一將輸入資料直接輸出,其他分支透過不同數量的稀疏卷積層對輸入資料進行特徵推理,所述其他分支的輸出拼接後再與分支一的輸出相加,得到該殘差層的輸出。
  20. 如請求項18所述的方法,其中: 所述第一自注意力網路和/或第二自注意力網路包括一個或多個自注意力層,每一自注意力層執行的處理包括:透過以下方式從輸入資料中得到點雲空間中的鄰域上下文特徵: 對點雲中的每一個點,基於該點的座標資料查找該點的鄰居點,並對該點到所述鄰居點的距離資訊進行線性變換得到位置特徵,將所述位置特徵與所述鄰居點的特徵相加,得到位置編碼後的聚合特徵; 對輸入的特徵資料進行第一線性變換得到第一向量,將所述第一向量與對所述聚合特徵進行第二線性變換得到的第二向量作矩陣乘法,所得結果經啟動後,得到點雲中每一個點相對於該點的鄰居點的注意力權重; 將所述注意力權重和第三向量相乘,得到包含所述鄰域上下文特徵的資料,所述第三向量透過對所述聚合特徵進行第三線性變換得到。
  21. 如請求項20所述的方法,其中: 所述自注意力層包括依次連接的點雲鄰域自注意力層、第一歸一化層、線性層和第二歸一化層,所述點雲鄰域自注意層用於從輸入資料中得到點雲空間中的鄰域上下文特徵,所述點雲鄰域自注意層的輸出資料和輸入資料相加後輸入到所述第一歸一化層進行批量歸一化,結果再輸入到所述線性層進行線性變換,所述線性層的輸出資料和輸入資料相加後輸入到所述第二歸一化層進行批量歸一化後,得到所述自注意力層的輸出。
  22. 如請求項18所述的方法,其中: 每一次所述體素下採樣和特徵提取透過基於神經網路的一編碼器實現,所述編碼器依次包括:第一稀疏卷積網路、第一自注意力網路、第一殘差網路、步長為2×2×2的稀疏卷積層、第二殘差網路、第二自注意力網路、及第二稀疏卷積網路;在所述第一稀疏卷積網路和所述第一自注意力網路之間,以及所述第一殘差網路和所述稀疏卷積層之間設有啟動函數,所述第一稀疏卷積網路和第二稀疏卷積網路包括一個或多個稀疏卷積層。
  23. 一種點雲幾何碼流,其中,所述幾何碼流按照如請求項14至22中任一所述的點雲幾何資料的編碼方法得到,包括所述第N+1尺度點雲的幾何資料和所述第N編碼器網路輸出的所述特徵資料。
  24. 一種點雲幾何資料增強裝置,包括處理器以及儲存有電腦程式的記憶體,其中,所述處理器執行所述電腦程式時能夠實現如請求項1至3中任一所述的點雲幾何資料增強方法。
  25. 一種點雲解碼器,包括處理器以及儲存有電腦程式的記憶體,其中,所述處理器執行所述電腦程式時能夠實現如請求項4至13中任一所述的點雲幾何資料的解碼方法。
  26. 一種點雲編碼器,包括處理器以及儲存有電腦程式的記憶體,其中,所述處理器執行所述電腦程式時能夠實現如請求項14至22中任一所述的點雲幾何資料的編碼方法。
  27. 一種點雲編解碼系統,其中,包括如請求項26所述的點雲編碼器和如請求項25所述的點雲解碼器。
  28. 一種非瞬態電腦可讀儲存媒介,所述電腦可讀儲存媒介儲存有電腦程式,其中,所述電腦程式時被處理器執行時能夠實現如請求項1至3中任一所述的點雲幾何資料增強方法,或能夠實現如請求項4至13中任一所述的點雲幾何資料的解碼方法,或能夠實現如請求項14至22中任一所述的點雲幾何資料的編碼方法。
  29. 一種點雲裁剪方法,應用於點雲解碼器,包括: 解析碼流,得到待裁剪點雲中的被佔據體素的數量K; 確定所述待裁剪點雲中的體素的佔據概率; 將所述待裁剪點雲中由同一體素分解得到的M個體素分為一組,將每一組中佔據概率最高的m個體素的佔據概率置為1,然後對所述待裁剪點雲中所有體素的佔據概率排序,將佔據概率最高的K個體素確定為所述待裁剪點雲中的被佔據體素,1⩽m<M<K。
  30. 如請求項29所述的點雲裁剪方法,其中,所述m=1或2或3,所述M=8。
TW112125921A 2022-07-12 2023-07-11 一種點雲幾何資料增強、編解碼方法、裝置、碼流、編解碼器、系統和儲存媒介 TW202406344A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
PCT/CN2022/105285 WO2024011426A1 (zh) 2022-07-12 2022-07-12 一种点云几何数据增强、编解码方法、装置和系统
WOPCT/CN2022/105285 2022-07-12

Publications (1)

Publication Number Publication Date
TW202406344A true TW202406344A (zh) 2024-02-01

Family

ID=89535305

Family Applications (1)

Application Number Title Priority Date Filing Date
TW112125921A TW202406344A (zh) 2022-07-12 2023-07-11 一種點雲幾何資料增強、編解碼方法、裝置、碼流、編解碼器、系統和儲存媒介

Country Status (2)

Country Link
TW (1) TW202406344A (zh)
WO (1) WO2024011426A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726885B (zh) * 2024-02-18 2024-04-26 南京航空航天大学 一种基于三维几何自注意力机制的车身缝隙分类方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3948794B1 (en) * 2019-03-23 2023-01-25 Uatc, Llc Systems and methods for generating synthetic sensor data via machine learning
CN116016917A (zh) * 2020-06-05 2023-04-25 Oppo广东移动通信有限公司 点云压缩方法、编码器、解码器及存储介质
US20230388557A1 (en) * 2020-10-07 2023-11-30 Lg Electronics Inc. Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
CN113012177A (zh) * 2021-04-02 2021-06-22 上海交通大学 基于几何特征提取和边缘感知编码的三维点云分割方法
CN113613010A (zh) * 2021-07-07 2021-11-05 南京大学 基于稀疏卷积神经网络的点云几何无损压缩方法
CN114373023A (zh) * 2022-01-12 2022-04-19 杭州师范大学 一种基于点的点云几何有损压缩重建装置与方法
CN114565738A (zh) * 2022-03-01 2022-05-31 北京工业大学 一种基于局部几何一致性与特征一致性的点云补全方法

Also Published As

Publication number Publication date
WO2024011426A1 (zh) 2024-01-18

Similar Documents

Publication Publication Date Title
US20210125070A1 (en) Generating a compressed representation of a neural network with proficient inference speed and power consumption
JP7408799B2 (ja) ニューラルネットワークモデルの圧縮
TW202406344A (zh) 一種點雲幾何資料增強、編解碼方法、裝置、碼流、編解碼器、系統和儲存媒介
Kumar et al. Gaussian Hermite polynomial based lossless medical image compression
Fred et al. Bat optimization based vector quantization algorithm for medical image compression
CN117242493A (zh) 点云解码、上采样及模型训练方法与装置
US20230086264A1 (en) Decoding method, encoding method, decoder, and encoder based on point cloud attribute prediction
CN114598883A (zh) 点云属性的预测方法、编码器、解码器及存储介质
WO2023172703A1 (en) Geometry point cloud coding
WO2023055614A1 (en) Embedding compression for efficient representation learning in graph
WO2023205969A1 (zh) 点云几何信息的压缩、解压缩及点云视频编解码方法、装置
JP7394980B2 (ja) ブロック分割を伴うニューラルネットワークを復号する方法、装置及びプログラム
WO2024011427A1 (zh) 一种点云帧间补偿方法、编解码方法、装置和系统
Naaman Image Compression Technique Based on Fractal Image Compression Using Neural Network–A Review
WO2023248486A1 (ja) 情報処理装置および方法
CN115474041B (zh) 点云属性的预测方法、装置及相关设备
US20240087174A1 (en) Coding and decoding point cloud attribute information
CN114998457B (zh) 图像压缩方法、图像解压方法及相关设备、可读存储介质
US20240242467A1 (en) Video encoding and decoding method, encoder, decoder and storage medium
WO2024082105A1 (zh) 编解码方法、解码器、编码器及计算机可读存储介质
WO2024011417A1 (zh) 编解码方法、解码器、编码器及计算机可读存储介质
WO2023024842A1 (zh) 点云编解码方法、装置、设备及存储介质
Shaw et al. Cellular automata based encoding technique for wavelet transformed data targeting still image compression
Sriram et al. Low-loss data compression using deep learning framework with attention-based autoencoder
WO2024086154A1 (en) Tree-based deep entropy model for point cloud compression