TW202203159A - 使用拓樸友善表示之用於圖形條件自動編碼器(gcae)之方法、設備、及系統 - Google Patents

使用拓樸友善表示之用於圖形條件自動編碼器(gcae)之方法、設備、及系統 Download PDF

Info

Publication number
TW202203159A
TW202203159A TW110119618A TW110119618A TW202203159A TW 202203159 A TW202203159 A TW 202203159A TW 110119618 A TW110119618 A TW 110119618A TW 110119618 A TW110119618 A TW 110119618A TW 202203159 A TW202203159 A TW 202203159A
Authority
TW
Taiwan
Prior art keywords
nnbd
input data
graph
module
data representation
Prior art date
Application number
TW110119618A
Other languages
English (en)
Inventor
家昊 龐
棟 田
Original Assignee
美商內數位專利控股公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商內數位專利控股公司 filed Critical 美商內數位專利控股公司
Publication of TW202203159A publication Critical patent/TW202203159A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Image Processing (AREA)
  • Error Detection And Correction (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

揭示藉由一基於神經網路之解碼器(NNBD)所實施的方法、設備、及系統。在一方法中,該NNBD可得到或接收作為一輸入資料表示之一描述符的一碼字。一第一神經網路模組可基於至少該碼字及一初始圖形判定該輸入資料表示之一初步重建。該NNBD可基於至少該初步重建及該碼字判定一經修飾圖形。該第一神經網路模組可基於至少該碼字及該經修飾圖形判定該輸入資料表示之一精製重建。經修飾圖形可指示與輸入資料表示相關聯的拓樸資訊。

Description

使用拓樸友善表示之用於圖形條件自動編碼器(GCAE)之方法、設備、及系統
本文中所揭示之實施例大致上係關於用於處理及/或壓縮及重建資料表示之自動編碼器,且例如係關於使用學習拓樸友善表示之用於處理、分析、內插、表示、及/或理解包括例如點雲(point cloud, PC)、視訊、影像、及音訊的資料表示之方法、設備、及系統。
在某些實施例中,無監督的學習程序、操作、方法、及/或功能可例如使用TearingNet或圖形條件式自動編碼器(Graph Conditional AutoEncoder, GCAE)等針對3D PC及/或其他實施方案實施。例如,無監督的學習操作可包括在無任何標示資訊的情況下學習3D PC、視訊、影像、及/或音訊等的緊密表示。以此方式,代表性特徵可提取(例如自動地提取)自3D PC及/或其他資料表示,並可作為輔助及/或先前資訊應用至任意的後續任務。無監督的學習可係有益的,因為標示巨量資料(例如,PC資料或其他資料)可係耗時及/或可係昂貴的。
在某些實施例中,一種自動編碼器可經實施以例如基於其緊密表示及/或一語意描述符重建一PC。例如,假若一語意描述符對應於一物件,則可還原代表該特定物件的一PC。此一重建可在一普及無監督的學習框架(例如一自動編碼器)內實施(例如擬合)為一解碼器,其中該編碼器可輸出具有語意解譯之一特徵描述符。
在某些實施例中,該自動編碼器可經實施以例如考慮/使用拓樸(例如經由拓樸推論及/或拓樸資訊)。當處理一PC重建時,一圖形拓樸可經實施以判定/考慮(例如,明確地判定/考慮)點之間的關係。一完全連接圖形之拓樸在表示一PC拓樸的過程中反而可係不準確的,因為其並未跟隨該物件表面,且當處理具有一高虧格數的一物件及/或具有多個物件的場景時可係較無效的。學習一完整圖形可係昂貴的及/或可使用大量的記憶體及/或運算,因為鑑於該經重建之PC中的N 點而存在欲學習的N 2 圖形參數(圖形權重)。
在某些實施例中,方法、設備、系統、及/或程序可經實施以學習(例如有效地學習)一PC拓樸表示。該實施方案不僅可有益於針對複雜的物件/場景重建PC,且亦可在分類、分段、及/或識別等中應用至弱監督的PC任務。
用於實施實施例之實例網路
圖1A係繪示一或多個經揭示實施例可實施於其中之實例通訊系統100的圖。通訊系統100可係提供內容(諸如語音、資料、視訊、傳訊、廣播等)至多個無線使用者的多存取系統。通訊系統100可使多個無線使用者能夠通過系統資源(包括無線頻寬)的共用而存取此類內容。例如,通訊系統100可採用一或多個通道存取方法,諸如分碼多重存取(code division multiple access, CDMA)、分時多重存取(time division multiple access, TDMA)、分頻多重存取(frequency division multiple access, FDMA)、正交FDMA (orthogonal FDMA, OFDMA)、單載波FDMA (single-carrier FDMA, SC-FDMA)、零尾唯一字DFT擴展OFDM (ZT UW DTS-s OFDM)、唯一字OFDM (UW-OFDM)、資源區塊濾波OFDM、濾波器組多載波(filter bank multicarrier, FBMC)、及類似者。
如圖1A所示,通訊系統100可包括無線傳輸/接收單元(WTRU) 102a、102b、102c、102d、RAN 104/113、CN 106/115、公共交換電話網路(public switched telephone network, PSTN) 108、網際網路110、及其他網路112,雖然將理解所揭示的實施例設想任何數量的WTRU、基地台、網路、及/或網路元件。WTRU 102a、102b、102c、102d之各者可經組態以在無線環境中操作及/或通訊的任何類型的裝置。舉實例而言,WTRU 102a、102b、102c、102d(其等之任一者可稱為「站台」及/或「STA」)可經組態以傳輸及/或接收無線信號,並可包括使用者設備(user equipment, UE)、行動台、固定或行動訂戶單元、基於訂閱的單元、呼叫器、蜂巢式電話、個人數位助理(personal digital assistant, PDA)、智慧型手機、膝上型電腦、輕省筆電、個人電腦、無線感測器、熱點或Mi-Fi裝置、物聯網(Internet of Things, IoT)裝置、手錶或其他可穿戴式、頭戴式顯示器(head-mounted display, HMD)、車輛、無人機、醫療裝置及應用(例如,遠端手術)、工業裝置及應用(例如,在工業及/或自動化處理鏈背景中操作的機器人及/或其他無線裝置)、消費性電子裝置、在商業及/或工業無線網路上操作的裝置、及類似者。WTRU 102a、102b、102c、及102d的任一者可互換地稱為UE。
通訊系統100亦可包括基地台114a及/或基地台114b。基地台114a、114b之各者可經組態以與WTRU 102a、102b、102c、102d中之至少一者無線地介接之任何類型的裝置,以促進存取一或多個通訊網路(諸如CN 106/115、網際網路110、及/或其他網路112)。舉實例而言,基地台114a、114b可係基礎收發站台(base transceiver station, BTS)、節點B、eNode B (eNB)、家庭節點B (HNB)、家庭eNode B (HeNB)、gNB、NR節點B、網站控制器、存取點(AP)、無線路由器、及類似者。雖然將基地台114a、114b各描繪成單一元件,但將理解基地台114a、114b可包括任何數目的互連基地台及/或網路元件。
基地台114a可係RAN 104/113的部分,該RAN亦可包括其他基地台及/或網路元件(未圖示),諸如基地台控制器(base station controller, BSC)、無線電網路控制器(radio network controller, RNC)、中繼節點等。基地台114a及/或基地台114b可經組態以在一或多個載波頻率上傳輸及/或接收無線信號,其可稱為小區(cell)(未圖示)。此等頻率可在授權頻譜、非授權頻譜、或授權頻譜及非授權頻譜的組合中。小區可對可係相對固定或可隨時間變化的特定地理區提供無線服務的涵蓋範圍。該小區可進一步劃分成小區扇區(cell sector)。例如,與基地台114a關聯的小區可劃分成三個扇區。因此,在一個實施例中,基地台114a可包括三個收發器,亦即,一個收發器用於小區的各扇區。在一實施例中,基地台114a可採用多輸入多輸出(multiple-input multiple output, MIMO)技術,且可將多個收發器用於小區的各扇區。例如,波束成形可用以在所欲空間方向上傳輸及/或接收信號。
基地台114a、114b可透過空中介面116與WTRU 102a、102b、102c、102d的一或多者通訊,該空中介面可係任何合適的無線通訊鏈路(例如,射頻(radio frequency, RF)、微波、厘米波、微米波、紅外線(infrared, IR)、紫外線(ultraviolet, UV)、可見光等)。空中介面116可使用任何合適的無線電存取技術(radio access technology, RAT)建立。
更具體地說,如上文提到的,通訊系統100可係多存取系統且可採用一或多個通道存取方案,諸如CDMA、TDMA、FDMA、OFDMA、SC-FDMA、及類似者。例如,RAN 104/113中的基地台114a及WTRU 102a、102b、102c可實施無線電技術,諸如可使用寬頻CDMA (wideband CDMA, WCDMA)建立空中介面115/116/117的通用移動電信系統(Universal Mobile Telecommunications System, UMTS)地面無線電存取(UTRA)。WCDMA可包括通訊協定,諸如高速封包存取(High-Speed Packet Access, HSPA)及/或演進HSPA (HSPA+)。HSPA可包括高速下行(DL)封包存取(HSDPA)及/或高速UL封包存取(HSUPA)。
在一實施例中,基地台114a及WTRU 102a、102b、102c可實施無線電技術,諸如可使用長期演進技術(Long Term Evolution, LTE)及/或進階LTE (LTE-Advanced, LTE-A)及/或進階LTE加強版(LTE-Advanced Pro, LTE-A Pro)建立空中介面116的演進UMTS地面無線電存取(Evolved UMTS Terrestrial Radio Access, E-UTRA)。
在一實施例中,基地台114a及WTRU 102a、102b、102c可實施無線電技術,諸如可使用新無線電(New Radio, NR)建立空中介面116的NR無線電存取。
在一實施例中,基地台114a及WTRU 102a、102b、102c可實施多個無線電存取技術。例如,基地台114a及WTRU 102a、102b、102c可一起實施LTE無線電存取及NR無線電存取,例如使用雙連接性(dual connectivity, DC)原理。因此,由WTRU 102a、102b、102c利用的空中介面可藉由多種類型的無線電存取技術及/或發送至/自多種類型之基地台(例如,eNB及gNB)的傳輸特徵化。
在其他實施例中,基地台114a及WTRU 102a、102b、102c可實施無線電技術,諸如IEEE 802.11(亦即,無線保真度(Wireless Fidelity, WiFi)、IEEE 802.16(亦即,全球互通微波接取(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、暫時性標準2000 (IS-2000)、暫時性標準95 (IS-95)、暫時性標準856 (IS-856)、全球行動通訊系統(GSM)、GSM演進增強型資料速率(EDGE)、GSM EDGE (GERAN)、及類似者。
圖1A中的基地台114b可係無線路由器、家庭節點B、家庭eNode-B、或存取點,例如,且可利用任何合適的RAT以用於促進局部化區(諸如營業場所、家庭、車輛、校園、工業設施、空中走廊(例如,用於由無人機使用)、道路、及類似者)中的無線連接性。在一個實施例中,基地台114b及WTRU 102c、102d可實施無線電技術,諸如IEEE 802.11以建立無線區域網路(wireless local area network, WLAN)。在一實施例中,基地台114b及WTRU 102c、102d可實施無線電技術,諸如IEEE 802.15以建立無線個人區域網路(wireless personal area network, WPAN)。在又另一實施例中,基地台114b及WTRU 102c、102d可利用基於蜂巢式的RAT(例如,WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NR等)以建立微微型小區或毫微微型小區。如圖1A所示,基地台114b可具有至網際網路110的直接連接。因此,基地台114b可能不需要經由CN 106/115存取網際網路110。
RAN 104/113可與CN 106/115通訊,其可經組態以提供語音、資料、應用、及/或網際網路協定上的語音(voice over internet protocol, VoIP)服務至WTRU 102a、102b、102c、102d的一或多者的任何類型的網路。資料可具有不同的服務品質(quality of service, QoS)需求,諸如不同的通量需求、延遲需求、容錯需求、可靠性需求、資料通量需求、移動性需求、及類似者。CN 106/115可提供呼叫控制、帳單服務、基於行動定位的服務、預付電話、網際網路連接、視訊分布等,及/或執行高階安全功能,諸如使用者認證。雖然未圖示於圖1A中,將理解RAN 104/113及/或CN 106/115可與採用相同於RAN 104/113之RAT或不同RAT的其他RAN直接或間接通訊。例如,除了經連接至RAN 104/113(其可利用NR無線電技術)以外,CN 106/115亦可與採用GSM、UMTS、CDMA 2000、WiMAX、E-UTRA、或WiFi無線電技術的另一RAN(未圖示)通訊。
CN 106/115亦可作用為用於WTRU 102a、102b、102c、102d的閘道,以存取PSTN 108、網際網路110、及/或其他網路112。PSTN 108可包括提供簡易老式電話服務(plain old telephone service, POTS)的電路交換電話網路。網際網路110可包括使用共同通訊協定的互連電腦網路及裝置的全球系統,諸如TCP/IP網際網路協定套組中的傳輸控制協定(transmission control protocol, TCP)、使用者資料包協定(user datagram protocol, UDP)、及/或網際網路協定(internet protocol, IP)。網路112可包括由其他服務供應商所擁有及/或操作的有線及/或無線通訊網路。例如,網路112可包括經連接至一或多個RAN的另一CN,該一或多個RAN可採用相同於RAN 104/113的RAT或不同的RAT。
通訊系統100中的WTRU 102a、102b、102c、102d的一些或全部可包括多模式能力(例如,WTRU 102a、102b、102c、102d可包括用於透過不同的無線鏈路與不同的無線網路通訊的多個收發器)。例如,顯示於圖1A中的WTRU 102c可經組態以與可採用基於蜂巢式的無線電技術的基地台114a通訊,且與可採用IEEE 802無線電技術的基地台114b通訊。
圖1B係繪示實例WTRU 102的系統圖。如圖1B所示,WTRU 102可尤其包括處理器118、收發器120、傳輸/接收元件122、揚聲器/麥克風124、鍵板126、顯示器/觸控板128、非可移除式記憶體130、可移除式記憶體132、電源134、全球定位系統(global positioning system, GPS)晶片組136、及/或其他週邊設備138等。將理解WTRU 102可包括上述元件的任何次組合,同時仍與一實施例保持一致。
處理器118可係一般用途處理器、特殊用途處理器、習知處理器、數位信號處理器(digital signal processor, DSP)、複數個微處理器、與DSP核心關聯的一或多個微處理器,控制器、微控制器、特殊應用積體電路(Application Specific Integrated Circuit, ASIC)、現場可程式化閘陣列(Field Programmable Gate Array, FPGA)電路、任何其他類型的積體電路(integrated circuit, IC)、狀態機、及類似者。處理器118可執行信號編解碼、資料處理、電力控制、輸入/輸出處理、及/或使WTRU 102能在無線環境中操作的任何其他功能性。處理器118可耦接至收發器120,該收發器可耦接至傳輸/接收元件122。雖然圖1B將處理器118及收發器120描繪成分開的組件,但將理解處理器118及收發器120可在電子封裝或晶片中整合在一起。
傳輸/接收元件122可經組態以透過空中介面116傳輸信號至基地台(例如,基地台114a)或自該基地台接收信號。例如,在一個實施例中,傳輸/接收元件122可經組態以傳輸及/或接收RF信號的天線。在一實施例中,例如,傳輸/接收元件122可經組態以傳輸及/或接收IR、UV、或可見光信號的發射器/偵測器。在又另一實施例中,傳輸/接收元件122可經組態以傳輸及/或接收RF及光信號二者。應理解傳輸/接收元件122可經組態以傳輸及/或接收無線信號的任何組合。
雖然在圖1B中將傳輸/接收元件122描繪成單一元件,但WTRU 102可包括任何數目的傳輸/接收元件122。更具體地說,WTRU 102可採用MIMO技術。因此,在一個實施例中,WTRU 102可包括二或更多個傳輸/接收元件122(例如,多個天線)以用於透過空中介面116傳輸及接收無線信號。
收發器120可經組態以調變待藉由傳輸/接收元件122傳輸的信號及解調變藉由傳輸/接收元件122接收的信號。如上文提到的,WTRU 102可具有多模式能力。因此,例如,收發器120可包括用於使WTRU 102能經由多個RAT(諸如,NR及IEEE 802.11)通訊的多個收發器。
WTRU 102的處理器118可耦接至揚聲器/麥克風124、鍵板126、及/或顯示器/觸控板128(例如,液晶顯示器(liquid crystal display, LCD)顯示器單元或有機發光二極體(organic light-emitting diode, OLED)顯示器單元)並可接收來自其等的使用者輸入資料。處理器118亦可將使用者資料輸出至揚聲器/麥克風124、鍵板126、及/或顯示器/觸控板128。額外地,處理器118可存取來自任何類型的合適記憶體(諸如非可移除式記憶體130及/或可移除式記憶體132)的資訊及將資料儲存在任何類型的合適記憶體中。非可移除式記憶體130可包括隨機存取記憶體(random-access memory, RAM)、唯讀記憶體(read-only memory, ROM)、硬碟、或任何其他類型的記憶體儲存裝置。可移除式記憶體132可包括用戶辨識模組(subscriber identity module, SIM)卡、記憶棒、安全數位(secure digital, SD)記憶卡、及類似者。在其他實施例中,處理器118可存取來自未實體位於WTRU 102(諸如在伺服器或家庭電腦(未圖示)上)上之記憶體的資訊及將資料儲存在該記憶體中。
處理器118可接收來自電源134的電力,並可經組態以分布及/或控制至WTRU 102中之其他組件的電力。電源134可係用於對WTRU 102供電的任何合適裝置。例如,電源134可包括一或多個乾電池電池組(例如,鎳-鎘(NiCd)、鎳-鋅(NiZn)、鎳氫(NiMH)、鋰離子(Li-離子)等)、太陽能電池、燃料電池、及類似者。
處理器118亦可耦接至GPS晶片組136,該GPS晶片組可經組態以提供關於WTRU 102之目前位置的位置資訊(例如,經度和緯度)。除了(或替代)來自GPS晶片組136的資訊外,WTRU 102可透過空中介面116接收來自基地台(例如,基地台114a、114b)的位置資訊,及/或基於從二或更多個附近基地台接收之信號的時序判定其位置。將理解WTRU 102可藉由任何合適的位置判定方法獲得位置資訊,同時仍與一實施例保持一致。
處理器118可進一步耦接至其他週邊設備138,該等週邊設備可包括提供額外特徵、功能性、及/或有線或無線連接性的一或多個軟體及/或硬體模組。例如,週邊設備138可包括加速度計、電子羅盤、衛星收發器、數位相機(用於相片及/或視訊)、通用串列匯流排(universal serial bus, USB)埠、振動裝置、電視機收發器、免持式頭戴裝置、藍牙®模組、調頻(frequency modulated, FM)無線電單元、數位音樂播放器、媒體播放器、視訊遊戲機模組、網際網路瀏覽器、虛擬實境及/或擴增實境(virtual reality and/or augmented reality, VR/AR)裝置、活動追蹤器、及類似者。周邊設備138可包括一或多個感測器,該等感測器可係陀螺儀、加速度計、霍爾效應感測器、磁力計、定向感測器、近接感測器、溫度感測器、時間感測器;地理位置感測器;高度計、光感測器、觸控感測器、磁力計、氣壓計、手勢感測器、生物特徵感測器、及/或濕度感測器的一或多者。
WTRU 102之處理器118在操作上可與各種周邊設備138通訊,包括例如下列之任何者:一或多個加速度計、一或多個陀螺儀、USB埠、其他通訊介面/埠、顯示器及/或其他視覺/音訊指示器,以實施本文所揭示的代表性實施例。
WTRU 102可包括一些或所有信號(例如,與用於UL(例如,用於傳輸)及DL(例如,用於接收)二者的特定子訊框關聯)針對其的傳輸及接收可係並行及/或同時的全雙工無線電。全雙工無線電可包括干擾管理單元,以經由硬體(例如,扼流器)或經由處理器(例如,分開的處理器(未圖示)或經由處理器118)的信號處理的其中一者降低及或實質消除自干擾。在一實施例中,WTRU 102可包括一些或所有信號(例如,與用於UL(例如,用於傳輸)或DL(例如,用於接收)其中一者的特定子訊框關聯)針對其的傳輸及接收的半雙工無線電。
圖1C係根據一實施例繪示RAN 104及CN 106的系統圖。如上文提到的,RAN 104可採用E-UTRA無線電技術以透過空中介面116與WTRU 102a、102b、102c通訊。RAN 104亦可與CN 106通訊。
RAN 104可包括eNode B 160a、160b、160c,雖然應理解RAN 104可包括任何數量的eNode B,同時仍與一實施例保持一致。eNode B 160a、160b、160c各可包括一或多個收發器以用於透過空中介面116與WTRU 102a、102b、102c通訊。在一個實施例中,eNode B 160a、160b、160c可實施MIMO技術。因此,eNode B 160a可例如使用多個天線以傳輸無線信號至WTRU 102a及/或接收來自該WTRU的無線信號。
eNode B 160a、160b、160c之各者可與特定小區(未圖示)關聯,並可經組態以處理無線電資源管理決策、交遞決策、UL及/或DL中之使用者的排程、及類似者。如圖1C所示,eNode B 160a、160b、160c可透過X2介面彼此通訊。
顯示於圖1C中的CN 106可包括移動性管理實體(mobility management entity, MME) 162、服務閘道器(serving gateway, SGW) 164、及封包資料網路(packet data network, PDN)閘道(或PGW)166。雖然將上述元件之各者描繪成CN 106的部分,將理解此等元件的任何者可由CN操作者以外的實體擁有及/或操作。
MME 162可經由S1介面連接至RAN 104中的eNode B 160a、160b、160c之各者,並可作用為控制節點。例如,MME 162可負責在WTRU 102a、102b、102c、及類似者的最初附接期間認證WTRU 102a、102b、102c的使用者、承載啟動/停用、選擇特定的服務閘道。MME 162可提供控制平面功能以用於在RAN 104與採用其他無線電技術(諸如GSM及/或WCDMA)的其他RAN(未圖示)之間切換。
SGW 164可經由S1介面連接至RAN 104中的eNode B 160a、160b、160c之各者。SGW 164大致可將使用者資料封包路由及轉發至WTRU 102a、102b、102c/路由及轉發來自該等WTRU的使用者資料封包。SGW 164可執行其他功能,諸如在eNode-B間交遞期間錨定使用者平面、在DL資料可用於WTRU 102a、102b、102c時觸發呼叫、管理及儲存WTRU 102a、102b、102c的背景、及類似者。
SGW 164可連接至PGW 166,該PDN閘道可將對封包交換網路(諸如網際網路110)的存取提供給WTRU 102a、102b、102c,以促進WTRU 102a、102b、102c與IP啟用裝置之間的通訊。
CN 106可促進與其他網路的通訊。例如,CN 106可將對電路交換網路(諸如PSTN 108)的存取提供給WTRU 102a、102b、102c,以促進WTRU 102a、102b、102c與傳統陸地線路通訊裝置之間的通訊。例如,CN 106可包括作用為CN 106與PSTN 108之間的介面的IP閘道(例如,IP多媒體子系統(IP multimedia subsystem, IMS)伺服器)或可與該IP閘道通訊。額外地,CN 106可將對其他網路112的存取提供給WTRU 102a、102b、102c,該等其他網路可包括由其他服務供應商擁有及/或操作的其他有線及/或無線網路。
雖然在圖1A至圖1D中將WTRU描述為無線終端,但設想到在某些代表性實施例中,此一終端可與通訊網路一起使用(例如,暫時地或永久地)有線通訊介面。
在代表性實施例中,其他網路112可係WLAN。
在基礎設施基本服務集(Basic Service Set, BSS)模式中的WLAN可具有用於BSS的存取點(AP)及與AP關聯的一或多個站台(STA)。AP可具有對分配系統(Distribution System, DS)或將流量載入及/或載出BSS之另一類型的有線/無線網路的存取或介面。源自BSS外側之至STA的流量可通過AP到達並可遞送至該等STA。可將源自STA至BSS外側之目的地的流量發送至AP以遞送至各別目的地。在BSS內的STA之間的流量可通過AP發送,例如其中來源STA可將流量發送至AP且AP可將流量遞送至目的地STA。可將BSS內的STA之間的流量視為及/或稱為同級間流量。同級間流量可使用直接鏈路設定(direct link setup, DLS)在來源STA與目的地STA之間(例如,直接於其間)發送。在某些代表性實施例中,DLS可使用802.11e DLS或802.11z隧道式DLS (tunneled DLS, TDLS)。使用獨立BSS (Independent BSS, IBSS)模式的WLAN可不具有AP,且在IBSS內或使用該IBSS的STA(例如,所有的STA)可彼此直接通訊。IBSS通訊模式在本文中有時可稱為「特定(ad-hoc)」通訊模式。
當使用802.11ac基礎設施操作模式或類似操作模式時,AP可在固定通道(諸如主通道)上傳輸信標。主通道可係固定寬度的(例如,20 MHz寬的頻寬)或經由信令動態地設定寬度。主通道可係BSS的操作通道並可由STA使用以建立與AP的連接。在某些代表性實施例中,可將具有碰撞避免的載波感測多重存取(Carrier Sense Multiple Access with Collision Avoidance, CSMA/CA)實施例如在802.11系統中中。對於CSMA/CA,包括AP的STA(例如,每一個STA)可感測主通道。若主通道由特定STA感測/偵測及/或判定成忙碌,該特定STA可退出。一個STA(例如,僅一個站台)可在給定BSS中的任何給定時間傳輸。
高通量(High Throughput, HT) STA可使用40 MHz寬的通道以用於通訊,例如經由20 MHz主頻道與相鄰或不相鄰的20 MHz通道的組合以形成40 MHz寬的通道。
非常高通量(Very High Throughput, VHT) STA可支援20 MHz、40 MHz、80 MHz、及/或160 MHz寬的通道。40 MHz及/或80 MHz通道可藉由組合連續的20 MHz通道形成。160 MHz通道可藉由組合8個連續的20 MHz通道,或藉由組合二個非連續的80 MHz通道(其可稱為80+80組態)形成。對於80+80組態,在通道編碼後,可將資料傳過可將資料分成二個串流的區段剖析器。快速傅立葉逆變換(Inverse Fast Fourier Transform, IFFT)處理及時域處理可在各串流上分開完成。可將串流映射至二個80 MHz通道上,且資料可藉由傳輸STA傳輸。在接收STA的接收器處,用於80+80組態的上述操作可反轉,並可將經組合資料發送至媒體存取控制(Medium Access Control, MAC)。
1 GHz操作子模式係由802.11af及802.11ah所支援。通道操作頻寬及載波在802.11af及802.11ah中相對於使用在802.11n及802.11ac中的通道操作頻寬及載波係降低的。802.11af在電視空白頻段(TV White Space, TVWS)頻譜中支援5 MHz、10 MHz、及20 MHz頻寬,且802.11ah使用非TVWS頻譜支援1 MHz、2 MHz、4 MHz、8 MHz、及16 MHz頻寬。根據一代表性實施例,802.11ah可支援儀表型控制/機器型通訊(諸如在巨型涵蓋區中的MTC裝置)。MTC裝置可具有某些能力,例如包括支援(例如,僅支援)某些及/或有限頻寬的有限能力。MTC裝置可包括具有高於臨限之電池組壽命的電池組(例如,以維持非常長的電池組壽命)。
可支援多個通道及通道頻寬(諸如802.11n、802.11ac、802.11af、及802.11ah)的WLAN系統包括可指定成主通道的通道。主通道可具有等於由BSS中的所有STA支援的最大共同操作頻寬的頻寬。主通道的頻寬可由在BSS中操作的所有STA之中的支援最小頻寬操作模式的STA設定及/或限制。在802.11ah的實例中,即使AP(及BSS中的其他STA)支援2 MHz、4 MHz、8 MHz、16 MHz、及/或其他頻道頻寬操作模式,主通道對於支援(例如,僅支援)1 MHz模式的STA(例如,MTC類型裝置)可係1 MHz寬。載波感測及/或網路配置向量(Network Allocation Vector, NAV)設定可取決於主通道的狀態。例如,若主通道例如因為STA(其僅支援1 MHz操作模式)傳輸至AP而係忙碌的,即使大部分的頻帶維持閒置且可係可用的,可將整個可用頻帶視為係忙碌的。
在美國,可用頻帶(其可由802.11ah使用)係從902 MHz至928 MHz。在韓國,可用頻帶係從917.5 MHz至923.5 MHz。在日本,可用頻帶係從916.5 MHz至927.5 MHz。取決於國家碼,可用於802.11ah的總頻寬係6 MHz至26 MHz。
圖1D係根據一實施例之繪示RAN 113及CN 115的系統圖。如上文提到的,RAN 113可採用NR無線電技術以透過空中介面116與WTRU 102a、102b、102c通訊。RAN 113亦可與CN 115通訊。
RAN 113可包括gNB 180a、180b、180c,雖然應理解RAN 113可包括任何數目的gNB,同時仍與一實施例保持一致。gNB 180a、180b、180c各可包括一或多個收發器以用於透過空中介面116與WTRU 102a、102b、102c通訊。在一個實施例中,gNB 180a、180b、180c可實施MIMO技術。例如,gNB 180a、180b可利用波束成形以傳輸信號至gNB 180a、180b、180c及/或接收來自該等gNB的信號。因此,gNB 180a,例如,可使用多個天線以傳輸無線信號至WTRU 102a,及/或接收來自該WTRU的無線信號。在一實施例中,gNB 180a、180b、180c可實施載波聚合技術。例如,gNB 180a可將多個組成載波傳輸至WTRU 102a(未圖示)。此等組成載波的子集可在非授權頻譜上,而其餘的組成載波可在授權頻譜上。在一實施例中,gNB 180a、180b、180c可實施協調多點(Coordinated Multi-Point, CoMP)技術。例如,WTRU 102a可接收來自gNB 180a及gNB 180b(及/或gNB 180c)的經協調傳輸。
WTRU 102a、102b、102c可使用與可縮放參數集(numerology)關聯的傳輸來與gNB 180a、180b、180c通訊。例如,OFDM符號間距及/或OFDM次載波間距可針對不同傳輸、不同小區、及/或無線傳輸頻譜的不同部分變化。WTRU 102a、102b、102c可使用子訊框或各種長度或可縮放長度的傳輸時間間隔(transmission time interval, TTI)(例如,含有變化數量的OFDM符號及/或持續變化的絕對時間長度)來與gNB 180a、180b、180c通訊。
gNB 180a、180b、180c可經組態以與以獨立組態及/或非獨立組態的WTRU 102a、102b、102c通訊。在獨立組態中,WTRU 102a、102b、102c可與gNB 180a、180b、180c通訊而無需亦存取其他RAN(例如,諸如eNode B 160a、160b、160c)。在獨立組態中,WTRU 102a、102b、102c可將gNB 180a、180b、180c的一或多者使用為行動錨點。在獨立組態中,WTRU 102a、102b、102c可使用在非授權頻帶中的信號來與gNB 180a、180b、180c通訊。在非獨立組態中,WTRU 102a、102b、102c可與gNB 180a、180b、180c通訊/連接至該等gNB,同時亦與另一RAN(諸如eNode B 160a、160b、160c)通訊/連接至該另一RAN。例如,WTRU 102a、102b、102c可實施DC原理以實質同時地與一或多個gNB 180a、180b、180c及一或多個eNode B 160a、160b、160c通訊。在非獨立組態中,eNode B 160a、160b、160c可作用為WTRU 102a、102b、102c的移動錨點,且gNB 180a、180b、180c可提供用於服務WTRU 102a、102b、102c的額外涵蓋範圍及/或通量。
gNB 180a、180b、180c之各者可與特定小區(未圖示)關聯,並可經組態以處理無線電資源管理決策、交遞決策、UL及/或DL中之使用者的排程、網路切片的支援、雙連接性、NR與E-UTRA之間的交互工作、使用者平面資料朝向使用者平面功能(User Plane Function, UPF) 184a、184b的路線、控制平面資訊朝向存取及移動性管理功能(Access and Mobility Management Function, AMF) 182a、182b的路線、及類似者。如圖1D所示,gNB 180a、180b、180c可透過Xn介面彼此通訊。
顯示於圖1D中的CN 115可包括至少一個AMF 182a、182b、至少一個UPF 184a、184b、至少一個對話管理功能(Session Management Function, SMF) 183a、183b、及可能包括一資料網路(Data Network, DN) 185a、185b。雖然將上述元件之各者描繪成CN 115的部分,但將理解此等元件的任何者可由CN操作者之外的實體擁有及/或操作。
AMF 182a、182b可經由N2介面連接至RAN 113中的gNB 180a、180b、及180c的一或多者,並可作用為控制節點。例如,AMF 182a、182b可負責認證WTRU 102a、102b、102c的使用者、支援網路切片(例如,具有不同需求之不同協定資料單元(Protocol Data Unit, PDU)對話的處理)、選擇特定的SMF 183a、183b、登錄區的管理、NAS信令的終止、移動性管理、及類似者。網路切片可由AMF 182a、182b使用,以基於正使用之WTRU 102a、102b、102c之服務的類型將用於WTRU 102a、102b、102c的CN支援客製化。例如,不同網路切片可針對不同的使用情形建立,諸如依賴超可靠低延時(ultra-reliable low latency, URLLC)存取的服務、依賴增強大量行動寬頻(enhanced massive mobile broadband, eMBB)存取的服務、用於機器型通訊(MTC)存取的服務、及/或類似者。AMF 162可提供用於在RAN 113與其他RAN(未圖示)之間切換的控制平面功能,該等其他RAN採用其他無線電技術(諸如LTE、LTE-A、LTE-A Pro及/或非3GPP存取技術(諸如WiFi))。
SMF 183a、183b可經由N11介面連接至CN 115中的AMF 182a、182b。SMF 183a、183b亦可經由N4介面連接至CN 115中的UPF 184a、184b。SMF 183a、183b可選擇及控制UPF 184a、184b並組態通過UPF 184a、184b之流量的路線。SMF 183a、183b可執行其他功能,諸如管理及分配UE IP位址、管理PDU對話、控制政策執行及QoS、提供DL資料通知、及類似者。PDU對話類型可係基於IP的、非基於IP的、基於乙太網路的、及類似者。
UPF 184a、184b可經由N3介面連接至RAN 113中的gNB 180a、180b、180c的一或多者,該介面可將對封包交換網路(諸如網際網路110)的存取提供給WTRU 102a、102b、102c,以促進WTRU 102a、102b、102c與IP啟用裝置之間的通訊。UPF 184、184b可執行其他功能,諸如路由及轉發封包、執行使用者平面政策、支援多連接(multi-homed) PDU對話、處理使用者平面QoS、緩衝DL封包、提供移動性錨定、及類似者。
CN 115可促進與其他網路的通訊。例如,CN 115可包括作用為CN 115與PSTN 108之間的介面的IP閘道(例如,IP多媒體子系統(IMS)伺服器)或可與該IP閘道通訊。額外地,CN 115可將對其他網路112的存取提供給WTRU 102a、102b、102c,該等其他網路可包括由其他服務供應商擁有及/或操作的其他有線及/或無線網路。在一個實施例中,WTRU 102a、102b、102c可經由至UPF 184a、184b的N3介面及UPF 184a、184b與DN 185a、185b之間的N6介面通過UPF 184a、184b連接至區域資料網路(DN) 185a、185b。
鑑於圖1A至圖1D及圖1A至圖1D的對應描述,相關於下列一或多者於本文描述之功能的一或多者或全部可藉由一或多個模仿裝置(未圖示)執行:WTRU 102a至102d、基地台114a至114b、eNode B 160a至160c、MME 162、SGW 164、PGW 166、gNB 180a至180c、AMF 182a至182b、UPF 184a至184b、SMF 183a至183b、DN 185a至185b、及/或本文描述的任何其他(多個)裝置。模仿裝置可經組態以模仿本文描述之功能的一或多者或全部的一或多個裝置。例如,模仿裝置可用以測試其他裝置及/或模擬網路及/或WTRU功能。
模仿裝置可經設計以在實驗室環境及/或操作者網路環境中實施其他裝置的一或多個測試。例如,一或多個模仿裝置可在完全或部分地實施及/或部署為有線及/或無線通訊網路的部分的同時執行該一或多個或全部的功能以測試通訊網路內的其他裝置。一或多個模仿裝置可在暫時地實施/部署成有線及/或無線通訊網路的部分的同時執行一或多個或全部的功能。模仿裝置可針對測試的目的直接耦接至另一裝置及/或可使用空中無線通訊執行測試。
一或多個模仿裝置可在未實施/部署成有線及/或無線通訊網路的部分的同時執行一或多個(包括全部)功能。例如,模仿裝置可使用在測試實驗室及/或非部署(例如,測試)的有線及/或無線通訊網路中的測試場景中,以實施一或多個組件的測試。一或多個模仿裝置可係測試儀器。直接RF耦合及/或經由RF電路系統(例如,其可包括一或多個天線)的無線通訊可由模仿裝置使用以傳輸及/或接收資料。
WTRU 120可包括自動編碼器之解碼器部分或整個自動編碼器,以在WTRU 102處實現本文所揭示的各種實施例。代表性 PC 資料格式
點雲(PC)資料格式係跨許多業務領域的通用資料格式,該等業務領域包括自動駕駛、機器人、擴增實境/虛擬實境(AR/VR)、土木工程、電腦繪圖、及/或動畫/電影。3D光達感測器可部署用於自駕車。新興且可負擔的光達感測器可實施於眾多產品(例如Apple iPad Pro 2020及/或Intel RealSense光達相機L515)中。隨著感測技術的大幅進展,3D PC資料可變得比以往更具實用性,並可係本文所討論的應用中之致能器(例如終極致能器)。
設想PC資料可消耗大部分的網路流量(例如,在透過5G網路連接的車輛之間或之中、及/或針對沉浸式通訊(諸如VR/AR))。PC理解及通訊可導致更有效率的表示格式。例如,原始PC資料可需要經適當組織或可經組織及處理,以供3D世界建模及/或感測之目的所用。
PC可代表可含有一或多個移動物件之相同場景的循序更新。相較於可擷取自靜態場景或靜態物件之靜態PC (SPC),此類PC係稱為動態PC (DPC)。DPC一般係組織成訊框,其中不同訊框係在不同時間擷取。用於 PC 資料的代表性使用案例
汽車產業及自動駕駛車亦係可使用PC的領域。自動駕駛車能夠「探測(probe)」環境,以基於緊鄰處(例如自動駕駛車的緊密毗鄰處/直接環境的實境)作出良好的駕駛決策。一般感測器(如光達)可生成決策引擎可使用的DPC。這些PC可不或並未意欲由人眼觀看,且PC可係小型的、可不一定係有色的、且可係以高頻擷取的動態。PC可具有其他屬性(如光達所提供的反射率)。反射率在所感測之物件的材料上可係良好的資訊,並可提供更多關於決策的資訊(例如,可協助作出決策)。
許多人預見,可使用PC的VR及沉浸式世界未來將取代2D平面視訊。對VR及沉浸式世界而言,觀看者可沉浸在環境中(例如,該環境在觀看者四周均可觀看)。這與標準TV相反,在標準TV中,觀看者僅可觀看觀看者前方的虛擬世界。依據觀看者在環境中的自由度而有若干的沉浸等級。PC係一種用以發布VR世界的格式(例如,良好的格式候選者)。用於與VR及沉浸式世界併用的PC可係靜態或動態,並可具有例如在至多一次1億點(例如,一次不超過數百萬點)的範圍內之平均大小。
PC可用於各種目的(諸如在其中以3D掃描如雕像或建築之物件的文化資產/建築),以例如共享物件的空間組態而不發送及/或參訪物件,及/或以確保萬一物件遭受毀壞時保存物件知識(例如,遭地震摧毀的廟宇)。此類PC一般係靜態、有色的,且係大尺寸的(例如巨大,例如大於臨限大小)。
PC可用在拓樸及/或製圖中,其中3D表示及/或地圖並不限於平面而可包括起伏(諸如,指示高地及窪地)。Google地圖係3D地圖的良好實例。PC可係用於3D地圖的合適資料格式,且此類PC可係靜態、有色、及/或大的(例如,高於臨限大小及/或巨大)。
經由PC的世界建模及感測可係一種技術(例如,有用及/或基本技術),以例如允許機器針對本文所討論的應用獲取關於它們周圍的3D世界的知識。代表性 PC 資料格式
作為3D空間中之連續表面的普及離散表示,PC係分類成兩個類別:經組織PC (OPC)(例如,藉由類相機的3D感測器或3D雷射掃描器所收集並配置在網格上者)及未經組織PC (UPC)。例如,UPC可具有複雜的結構。UPC可掃描自多個視點,且隨後可融合在一起,導致損失索引定序。OPC可更容易處理,因為下伏網格意味著天然的空間連接性,其可反映感測順序。UPC的處理可更具挑戰性(例如,由於UPC不同於1D語音資料及/或2D影像),其等與規則格子相關聯。UPC可係或通常稀疏且不規則地分散在3D空間中,其可使傳統的基於格子的演算法難以處理3D PC。例如,卷積算子在規則格子上經適當定義,且無法直接應用至3D PC。
在某些實例中,離散化的3D PC可經實施,以例如將PC(例如UPC)轉換成下列之任一者:(1)3D立體像素及/或(2)多視影像等等,其可導致體積冗餘及/或一或多個量化假影。在一實例中,基於深度神經網路的受監督程序可使用點態多層感知器(MLP)隨後再進行池化(例如最大池化),以提供/保證排列不變性以及以達成一系列受監督的學習任務(諸如,3D PC的識別、分段、及語意場景分段)的成功。所屬技術領域中具有通常知識者理解到,類似的技術可應用至許多其他任務(諸如,3D PC偵測、分類、及/或上取樣)。
在某些代表性實施例中,無監督的學習程序、操作、方法、及/或功能可例如使用TearingNet或圖形條件式自動編碼器(GCAE)等等針對3D PC及/或其他實施方案實施。例如,無監督的學習操作可包括在無任何標示資訊的情況下學習3D PC、視訊、影像、及/或音訊等的緊密表示。以此方式,代表性特徵可提取(例如自動地提取)自3D PC及/或其他資料表示,並可作為輔助及/或先前資訊應用至任意的後續任務。無監督的學習可係有益的,因為標示巨量資料(例如,PC資料或其他資料)可係耗時及/或可係昂貴的。
在某些代表性實施例中,一種自動編碼器可經實施以例如基於其緊密表示及/或語意描述符重建PC。例如,假若一語意描述符對應於一物件,則可還原代表該特定物件的一PC。此一重建可在一普及無監督的學習框架(例如一自動編碼器)內實施(例如擬合)為一解碼器,其中該編碼器可輸出具有語意解譯之一特徵描述符。
在某些代表性實施例中,自動編碼器可經實施以例如考慮/使用拓樸(例如經由拓樸推論及/或拓樸資訊)。當處理一PC重建時,一圖形拓樸可經實施以判定/考慮(例如,明確地判定/考慮)點之間的關係。完全連接圖形之拓樸在表示PC拓樸的過程中反而可係不準確的,因為其並未遵循物件表面,且當處理具有高特點的物件及/或具有多個物件的場景時可係較無效的。學習一完整圖形可係昂貴的及/或可使用大量的記憶體及/或運算,因為鑑於該經重建之PC中的
Figure 02_image001
點而存在欲學習的
Figure 02_image003
圖形參數(圖形權重)。
在某些代表性實施例中,方法、設備、系統、及/或程序可經實施以學習(例如有效地學習)PC拓樸表示。該實施方案不僅可有益於針對複雜的物件/場景重建PC,且亦可在分類、分段、及/或識別等等中應用至弱監督的PC任務。
雖然本文所揭示之實例的許多者係關於PC實施方案,其他實施方案同樣可行(諸如,將圖形拓樸用於影像、視訊、音訊、及其他可具有與其等相關聯之拓撲的資料表示)。用於 PC 之代表性無監督學習程序
用於PC的無監督學習可採取編碼器-解碼器框架。3D點可離散化為3D立體像素,且3D卷積可用以設計及/或實施編碼器及/或解碼器。離散化可導致無可避免的離散化誤差,且使用3D卷積可係昂貴的。在將PointNet用作編碼器且完全連接的層用作解碼器之某些實例中,3D點可經處理(例如,直接處理)且可係有效的。在某些代表性實施例中,方法、設備、系統、及/或程序可針對PC重建實施,其可在不使用/需要大量訓練參數的情況下使用圖形拓樸以例如改善PC重建。針對 PC 之使用諸如 FoldingNet AtlasNet 之自動編碼器的代表性程序
FoldingNet解碼器係有效率的解碼器設計/實施方案,與完全連接之網路實施方案/設計相比,其實現減少的訓練參數。FoldingNet解碼器採用(例如來自編碼器之)語意描述符作為輸入,並學習將一組2D樣本點映射至3D空間中的投影函數。該組2D點可在2D網格上規則地取樣。該等操作對於具有簡單拓樸的單一物件而言係有效率的(例如非常有效率),但在處理具有複雜拓樸的物件或具有多個物件的場景時則無法令人滿意。
圖2係繪示包括編碼器及解碼器之代表性自動編碼器(例如,FoldingNet架構)之高階結構/架構的圖。編碼器及解碼器兩者均包括神經網路,其產生及儲存所學習之網路節點參數/權重。
參照圖2,代表性自動編碼器200可包括編碼器220及解碼器260。編碼器220可具有作為輸入的一組點210(例如,一組3D點及/或點雲),並可具有作為輸出的描述符向量230。解碼器260可具有作為輸入的描述符向量230,並可具有作為輸出的重建點雲270。解碼器260可包括神經網路(NN)及/或折疊模組(FM) 250。至NN/FM 250的輸入可由下列組成及/或可包括下列:描述符向量230及在網格240(例如2D網格)上預取樣的點集合。
圖3係繪示另一代表性自動編碼器結構/架構(例如,AtlasNet型架構)的圖。
參照圖3,代表性自動編碼器300可包括編碼器320及解碼器360。編碼器320可具有作為輸入的一組點310(例如,一組3D點及/或點雲),並可具有作為輸出的描述符向量330。解碼器360可具有作為輸入的描述符向量330,並可具有作為輸出的重建點雲370。解碼器360可包括例如並聯的複數個NN/FM 350-1、350-2…350-K。至各NN/FM的輸入可由下列組成及/或可包括下列:描述符向量330及在N維網格340(例如,各NN/FM可包括2D網格340-1、340-2、或340-K)上預取樣的點集合。在某些實例中,網格340-1、340-2…340-K可相同。在其他實例中,各網格340可不同。
代表性自動編碼器300(例如,AtlasNet型自動編碼器及/或AtlasNet2型自動編碼器)藉由在解碼器360中包括多個
Figure 02_image005
FM 350而提供單純的方式處理複雜的拓樸。在AtlasNet型編碼器中,各FM 350映射地圖集補片(2D網格)至物件部分。當補片數量
Figure 02_image007
改變時,自動編碼器/NN 300可必須經再訓練。隨著FM 350之數量增加(例如達
Figure 02_image007
FM),所需的網路大小及記憶體可按比例線性地增大以儲存網路參數/資料。提前設定補片數量
Figure 02_image007
可使得其難以或不可能調適網路,以涵蓋具有相當大範圍的複雜度之PC。重建的性能可對補片數量敏感(例如,視覺品質可隨補片數量而改善;但更多假影可隨更多參數化而出現)。
在某些代表性實施例中,可實施程序以使用拓樸資訊(例如拓樸圖形)以改善折疊程序/操作。用於 PC 之代表性自動編碼器(例如,具有圖形拓樸推論之 FoldingNet++
圖4係繪示進一步的代表性自動編碼器(例如FoldingNet++)的圖。
參照圖4,具有圖形拓樸推論之代表性自動編碼器400(例如,FoldingNet++型自動編碼器)可經實施以實現拓樸(例如點雲PC拓撲)的表示。自動編碼器400可包括編碼器420及解碼器460。編碼器420可具有作為輸入的一組點410(例如,一組3D點及/或點雲),並可具有作為輸出的描述符向量430。解碼器460可具有作為輸入的描述符向量430,並可具有作為輸出的重建點雲470及/或與點雲410相關聯之完全連接圖形455。解碼器460可包括複數個模組,該等模組包括NN/FM 450及/或圖形推論模組454。至NN/FM 450的輸入可由下列組成及/或可包括下列:描述符向量430及在網格440上預取樣的點集合。至圖形推論模組454的輸入可係鄰接矩陣452(例如完全鄰接矩陣),其描述網格狀圖形拓樸及/或描述符向量430。圖形干擾模組454的輸出可係另一鄰接矩陣/連接圖形455(例如,所學習之完全連接圖形的完全鄰接矩陣)。鄰接矩陣/連接圖形455及/或重建點雲470可係至圖形過濾模組480的輸入。圖形過濾器模組480可以圖形455過濾重建點雲470以產生最終(例如精製)的重建點雲490。
設想FM、圖形推論模組、及/或圖形過濾模組可係或可包括一或多個NN。
NN可經設計/實施以擷取圖形拓樸。例如,可部署完全連接圖形455,其中任何點對可由圖形邊緣連接。然而,完全連接圖形拓樸並非PC拓樸之良好近似(例如,相對於局部連接圖形拓樸),因為其允許遠隔點對之間的連接,且因此並未跟隨由PC表示的2D流形。
相對於FoldingNet自動編碼器結構,FoldingNet++自動編碼器可包括圖形推論模組454及圖形過濾模組480。設想至圖形推論模組480的輸入可係描述網格狀圖形拓樸之完全鄰接矩陣,且圖形干擾模組454的輸出係所學習之完全連接圖形的另一完全鄰接矩陣。圖形過濾模組454可修飾來自折疊模組(例如變形模組)之粗糙的重建,並輸出點雲(PC) 410的最終重建。
相對於AtlasNet自動編碼器結構,FoldingNet++自動編碼器之圖形推論模組454可不隨著複雜拓樸按比例增大,且仍可因為巨量的圖形參數(例如圖形權重)而使用/需要大量記憶體及大量運算。給定重建PC中的點數量N ,圖形參數的數量係N 2
在某些代表性實施例中,方法、設備、系統、操作、及/或程序可經實施以實現自動編碼器架構(例如,具有TearingNet模組),以學習拓樸友善表示(例如,用於PC、影像、視訊、及/或音訊等具有拓樸的資料表示)。
在某些代表性實施例中,方法、設備、系統、操作、及/或程序可經實施以提供資料表示的拓樸。例如,在一個代表性方法中,可藉由將2D網格撕裂成多個補片來實施PC拓樸的明確表示。不同於彼此完全獨立之AtlasNet自動編碼器中的補片,這些實施例中的補片可包括在相同的2D平面及相同的座標系中,無論是否重疊。
對FoldingNet自動編碼器而言,從2D網格取樣的點集合係提供作為至折疊程序的輸入以從語意描述符重建PC,相對於完全連接網路,其在運算上係有效率的。對FoldingNet自動編碼器中之來自2D網格的初始樣本而言,初始樣本代表最簡單的拓樸,其具有虧格數
Figure 02_image010
。觀察到FoldingNet自動編碼器無法適當地處理具有複雜拓樸的物件或具有多個物件的場景。設想2D網格之過度簡化的拓樸可係無法處理此一複雜拓樸的原因。
圖形拓樸可用以近似PC拓樸,但已觀察到兩個弱點,即是:(1)完全連接圖形拓樸與PC拓樸之間存在不匹配;及(2)圖形過濾程序可無法(例如常無法)校正表面外之映射錯誤的點。
在某些代表性實施例中,TearingNet自動編碼器(例如,具有撕裂模組及/或拓樸演化網格表示)可經實施,並可將2D拓樸(例如,n-1維網格拓樸)與3D拓樸(例如,n維PC拓樸或與資料表示相關聯的其他n維拓樸)對準。例如,規則的2D網格可撕裂成多個補片,以提供具有補片之2D網格(例如,拓樸友善2D網格及/或拓撲演化網格表示)。
在某些代表性實施例中,TearingNet自動編碼器可經實施,並可促進局部連接圖形作為3D PC拓樸的較佳近似。
在某些代表性實施例中,TearingNet自動編碼器可經實施,並可設定/使用具有經修飾拓樸之撕裂2D網格作為至折疊模組的輸入,使得可直接在3D PC重建中計數/考慮所學習的2D拓樸。例如,規則的2D網格初始可用作至折疊模組的輸入,且隨後,經修飾及/或演化的2D網格可用作至折疊模組的下一輸入。
在某些代表性實施例中,T-Net模組可經實施,並可產生經修飾/演化的網格,其可藉由將規則網格(例如2D網格)撕裂成撕裂網格(例如2D網格,例如具有一或多個補片之經演化的2D網格)來表示(例如明確地表示)拓樸(例如PC拓樸),其可作用為後續折疊網路(F-Net)模組或變形模組的輸入。例如,基於撕裂2D網格,可建構局部連接圖形,其可跟隨3D拓樸(例如,3D PC拓樸或其他3D拓樸)。所建構的局部連接圖形可用以精製輸出PC。
在某些代表性實施例中,自動編碼器(例如,TearingNet)可經實施,並可針對具有多樣拓樸結構的PC(例如,所具有的物件具有不同屬之PC及/或具有多個物件的場景)使PC能夠重建。自動編碼器可產生反映(例如良好地反映)輸入PC之下伏拓樸的表示(例如,碼字)。
在某些代表性實施例中,可實施多階段(例如,二或更多個階段)訓練程序,以例如解決使用例如斜面距離(Chamfer distance)可導致的點塌縮。
在某些代表性實施例中,可實施TearingNet自動編碼器/具有多個迭代(例如多於兩個迭代)的圖形條件自動編碼器(GCAE)以處理具有複雜拓樸的PC場景及/或其他場景(例如,視訊及/或資料表示等)。代表性 TearingNet 自動編碼器
圖5係繪示額外的自動編碼器(例如TearingNet自動編碼器)及與TearingNet自動編碼器併用之無監督的訓練框架/程序的圖。
參照圖5,TearingNet自動編碼器500可包括編碼器520及解碼器560。編碼器520可具有作為輸入的一組點510(例如,一組3D點及/或點雲),並可具有作為輸出的描述符向量530。解碼器560可具有作為輸入的描述向量530,並可具有作為輸出的重建點雲570及/或與點雲510相關聯之局部連接圖形558。解碼器560可包括複數個模組,該等模組包括一或多個NN及/或複數個FM 550-1及550-2及/或撕裂模組556。至第一NN/FM 550-1的輸入可由下列組成及/或可包括下列:描述符向量530及在網格540上預取樣的點集合。至撕裂模組556的輸入可包括在網格540上預取樣的點集合、描述符向量530、及/或第一NN/FM 550-1的輸出。撕裂模組556之輸出可與網格540上預取樣的點集合組合及/或加總,以產生局部連接圖形558。至第二NN/FM 550-2的輸入可由下列組成及/或可包括下列:描述符向量530及/或局部連接圖形558。解碼器560之NN/FM 550-1及550-2可共享相同的神經網路架構及相同的經學習NN參數。至第二NN/FM 550-2之輸出可包括重建點雲570。局部連接圖形558及/或重建點雲570可係至圖形過濾模組580的輸入。圖形過濾器模組580可以圖形558過濾重建點雲570以產生最終(例如精製)的重建點雲590。
設想FM、撕裂模組、及/或圖形過濾模組可係或可包括一或多個NN。
例如,編碼器520可係類PointNet編碼器(例如,用在FoldingNet或FoldingNet++編碼器中)或任何其他可輸出描述符向量530的神經網路編碼器。解碼器560可包括一或複數個F-Net/變形模組550(例如,一或多個F-Net/變形神經網路)、一或多個T-Net模組556(例如,一或多個T-Net神經網路)、及2D網格540。至第一F-Net模組550-1的輸入可包括描述符向量530及初始2D網格540。至T-Net模組556的輸入可包括描述符向量530、初始2D網格540、及第一F-Net模組550-1的輸出。T-Net模組556的輸出可包括撕裂2D網格558(例如,經演化的2D網格及/或具有補片的2D網格,該等補片代表經由編碼器產生描述符向量之資料表示的拓樸)。至第一F-Net模組550-1的後續輸入或至具有相同神經網路架構之另一F-Net模組550-2的輸入以及相同的經學習NN參數/權重可包括描述符向量540及來自第一T-Net模組558的撕裂2D網格輸出。T-Net模組556的輸出可包括局部連接圖形558。
類似於F-Net模組550,變形模組可使輸入變形以重建輸入資料表示,使得F-Net模組及變形模組可互換地使用。
最後的F-Net模組550-2之輸出及最後的經演化2D網格558可係至圖形過濾模組580的輸入。圖形過濾模組580之輸出可係最終的重建PC 590。
雖然兩個F-Net模組及一個T-Net模組係顯示於圖5中,可在解碼器中實施任何數量的F-Net模組(例如,N個F-Net模組),且亦可實施對應數量的T-Net模組(例如,N或N-1個T-Net模組)。在某些實施例中,可在具有迭代程序的解碼器中實施單一F-Net模組及單一T-Net模組,其產生一系列演化撕裂2D網格。各撕裂2D網格可作為至F-Net模組的輸入用於重建PC的一個迭代。
如圖2及圖4所繪示般,分別比較TearingNet自動編碼器與FoldingNet及FoldingNet++自動編碼器,少數模組可以類似的方式實施/設計,包括編碼器(E-Net)模組、折疊(F-Net)模組、作為至F-Net模組之第一執行的輸入之2D點集合、及圖形過濾(G-Filter)模組。
在某些實施方案中,E-Net模組可基於PointNet,其採用PC
Figure 02_image012
作為輸入並輸出描述符向量。
可將描述符向量發送至解碼器,該解碼器包括F-Net模組及T-Net模組。F-Net模組及T-Net模組兩者可以索引
Figure 02_image014
Figure 02_image016
針對各2D點調用。
對F-Net模組的第一執行而言,可將輸入設定為描述符向量
Figure 02_image018
及使用預先定義的取樣操作(例如,均勻地以相等間距取樣)之來自2D網格
Figure 02_image020
之2D點
Figure 02_image022
的序連。F-Net模組可輸出PC的第一重建
Figure 02_image023
。接下來,可調用T-Net模組。至T-Net模組的輸入可包括描述符向量
Figure 02_image025
、取樣自2D網格
Figure 02_image026
的2D點
Figure 02_image028
、及PC的第一重建
Figure 02_image029
。例如,輸入可係來自
Figure 02_image031
Figure 02_image033
Figure 02_image035
、及
Figure 02_image037
維梯度向量
Figure 02_image039
的序連向量,如下列方程式1中所提出者:
Figure 02_image041
(1)
T-Net模組可輸出(例如,最終輸出)經加至或加在
Figure 02_image026
頂部上之2D點集合上的修飾,並可導致如方程式2所提出之經修飾2D點,如下所示:
Figure 02_image044
(2)
可調用F-Net模組之第二執行。設想此操作/執行中及來自先前操作/執行的F-Net模組可使用/共享共用的F-Net模組。針對此操作,可將輸入設定為描述符向量
Figure 02_image046
及經修飾2D網格
Figure 02_image047
(例如,一組經修飾2D點或經修飾2D取樣)的序連。F-Net模組可輸出PC的第二重建
Figure 02_image049
類似於F-Net模組,T-Net模組可經由神經網路實施,該神經網路的參數係基於一或多個PC資料集(例如訓練資料集)經由訓練來達成。
可從經修飾的2D樣本
Figure 02_image051
建構最近鄰圖形
Figure 02_image053
(例如,局部連接圖形)。可使用可基於最近鄰圖形
Figure 02_image055
之圖形過濾器在第二重建PC
Figure 02_image057
上執行圖形過濾。圖形過濾可輸出最終的PC重建
Figure 02_image059
欲訓練TearingNet自動編碼器(例如TearingNet框架),在某些實施方案中,可基於具有
Figure 02_image061
個點的輸入PC
Figure 02_image063
與具有
Figure 02_image065
個點的輸出PC
Figure 02_image067
之間的斜面距離定義/使用如方程式3中所提出的損失函數:
Figure 02_image069
(3)
雖然將損失函數繪示為基於斜面距離,基於其他距離相關測量(例如,Hausdorff距離或移土者距離(Earth Mover’s distance)等等)之其他損失函數係可行的。代表性 T-Net 模組
圖6係代表性撕裂(T-Net)模組的圖。
參照圖6,代表性撕裂/T-Net模組600可包括複數組(例如,二或更多組)NxN卷積神經網路(Convolutional Neural Network, CNN) 610及620(例如,3 × 3 CNN)及/或一或多個多層感知器(MLP)(例如,完全連接神經網路)等等類型的神經網路。
碼字
Figure 02_image071
(例如,描述符向量530)可在
Figure 02_image072
矩陣630中複製
Figure 02_image074
次(例如,若碼字
Figure 02_image076
Figure 02_image077
維,不過其他維度係可行的(諸如128、256、1024、2048、或4096等等))。可將來自
Figure 02_image079
的複製矩陣630序連以產生第一序連矩陣640(例如,
Figure 02_image080
矩陣,其可包括來自網格/點540(例如2D網格/點
Figure 02_image082
)的
Figure 02_image084
矩陣645、來自3D點
Figure 02_image086
Figure 02_image088
矩陣、及來自梯度650(例如梯度
Figure 02_image090
)的
Figure 02_image092
矩陣)。3D點
Figure 02_image094
可係來自F-Net模組550-1的輸出。第一序連矩陣640(例如
Figure 02_image096
矩陣)之各列可通過撕裂/T-Net模組556之第一神經網路610(例如,共享的3 × 3 CNN或MLP)。第一神經網路610(例如第一CNN)可包括N層(例如3層)或由N層組成。第一序連矩陣640可係至CNN系列(未圖示)之第一CNN(未圖示)的輸入。第一系列CNN可具有分別用於第一層、第二層、及第三層之
Figure 02_image098
Figure 02_image100
、及
Figure 02_image102
的輸出維度)。
用於神經網路系列之第二神經網路620(例如,第二CNN)的輸入矩陣可類似於先前操作般形成、產生、及/或建構,並可包括第二序連矩陣660,其包括第一序連矩陣645及輸出自第一CNN 610之來自先前操作的
Figure 02_image102
維特徵輸出(例如,N x 64 矩陣655)。第二序連矩陣660(其可係
Figure 02_image105
矩陣)可係用於第二神經網路620(例如,串聯之第二CNN或MLP)之輸入矩陣
Figure 02_image105
。輸入矩陣之各列可通過第二CNN 620(例如,共享的3 × 3 CNN或MLP)。第二系列CNN可包括3層(未圖示)或由該等層組成,其等具有分別用於第一層、第二層、及第三層之
Figure 02_image108
Figure 02_image110
、及
Figure 02_image112
的輸出維度。撕裂/T-Net模組556的最終輸出矩陣
Figure 02_image114
665可表示2D網格540(例如2D網格
Figure 02_image116
)的修飾/演化。
相對於FoldingNet++的複雜度,針對具有
Figure 02_image118
個點之相同大小的2D網格,用於FoldingNet++的輸入及輸出維度係
Figure 02_image119
Figure 02_image121
,而用於TearingNet的輸入及輸出維度係
Figure 02_image122
Figure 02_image124
。比較AtlasNet與TearingNet的複雜度,在AtlasNet中,F-Net模組的數量等於地圖集(Atlas)的預設大小,對實際場景而言,該數量應係或必須係大的。無論場景複雜度為何,TearingNet在解碼器中總共可僅需要/使用一個F-Net模組及一個T-Net模組。
T-Net模組可使用神經網路作為映射函數,如下列,
Figure 02_image125
(4)
描述符
Figure 02_image127
可驅動T-Net模組以將2D網格/點撕裂成補片。例如,針對具有3個物件的PC,2D網格/點可係或經撕裂成三個補片,且T-Net模組可產生經修飾/演化的2D網格/點。
圖7A係繪示輸入PC之一實例的圖。圖7B係繪示與圖7A之輸入PC相關聯之經撕裂/演化的2D網格之一實例的圖。圖7C係繪示與圖7A之輸入PC相關聯的重建PC之一實例的圖。圖7B之經撕裂2D網格可包括補片A1、B1、C1、及D1。撕裂/T-Net模組556可產生經撕裂/演化的2D網格。輸入PC包括四個物件(例如,三台車輛(物件A、C、及D)及騎腳踏車的人(物件B)),且經撕裂的2D網格包括通常對應於輸入PC中之各物件周圍區域的撕裂。代表性雕塑訓練程序
在某些代表性實施例中,訓練程序(例如,二階段雕塑訓練程序)可例如使用距離測量(例如,斜面距離、移土者距離、或其他距離度量)來實施以訓練TearingNet。斜面距離不如移土者距離複雜,但具有點塌縮的問題。使用方程式3之斜面距離的損失函數可重寫為方程式5及6中所提出者,如下所示。
Figure 02_image129
(5)
Figure 02_image131
(6) 其中
Figure 02_image133
中的兩距離項目係分別指稱為
Figure 02_image135
Figure 02_image137
。兩距離項目可以兩種不同方式有助於PC評定。設想作為輸入PC的
Figure 02_image139
係固定的;且作為搜尋下之重建的
Figure 02_image141
係待評估的。
Figure 02_image143
係指稱為超集合距離,且只要重建PC
Figure 02_image144
係輸入PC
Figure 02_image145
的超集合就可減輕。例如,當重建係確切的輸入超集合時,超集合距離可等於零,且
Figure 02_image145
外之任何餘留的點將不會償罰超集合距離。
Figure 02_image147
係指稱為子集合距離,且只要重建PC
Figure 02_image149
係輸入PC
Figure 02_image151
的子集合就可減輕。例如,當重建係確切的輸入子集合時,子集合距離將等於零。
欲開始訓練,隨機地初始化作為網路參數之飛濺在空間周圍的重建點。給定數量充足的點及具有充沛拓樸結構的資料集,子集合距離可能比超集合距離更大且更佔優勢。此可藉由將重建作為在給定潛碼字的情況下於各空間位置處之學習條件發生概率而處理來解譯/判定。當用於訓練的形狀(例如PC)劇烈波動時,所學習之分布可跨空間更均勻地散佈。因此,存在重建點落在地表實況輸入PC外的更多可能性。子集合距離的償罰可多於超集合距離,其可使子集合距離在訓練期間佔優勢。
具有優勢子集合距離之未經良好平衡的斜面距離可導致點塌縮,即使在訓練開始處亦然。考慮資料集中的所有物件之間存在有單一共享點,用以最小化子集合距離(至0)的明顯解係欲使所有點塌縮至共享點。即使在物件形狀之間沒有交點,針對用以最小化子集合距離的明顯解,點仍可塌縮至靠近表面的單一點估計量。
雕塑訓練程序/策略可經實施,並可包括至少兩訓練階段。在第一階段中,超集合距離(例如,僅超集合距離)可用作訓練損失以粗擬出初步形式。在第二階段中,包括子集合距離的斜面距離可用以潤飾(例如,精製)重建。用以訓練TearingNet之雕塑訓練程序可類似扣減雕塑程序/過程。在從第一階段建構/產生粗略形式之後,T-Net模組可在第二階段中刻去(例如可明確地刻去)非最終雕像所要的材料,並可產生經撕裂的2D網格(例如,包括補片,如圖7B所示者)。兩階段雕塑訓練程序可包括例如: (1)        在FoldingNet架構下訓練F-Net模組,其中超集合距離係損失函數(在某些實施例中,學習率可設定為
Figure 02_image153
);及 (2)        預訓練的F-Net模組係載入TearingNet架構中,且繼續在斜面距離作為損失函數的情況下訓練F-Net模組及T-Net模組(例如,可計數超集合距離及子集合距離兩者,並可將學習率調整得更小(例如
Figure 02_image155
))。代表性迭代 TearingNet 架構 / 實施方案
圖8係繪示支援多個迭代之代表性迭代TearingNet架構的圖。參照圖8,迭代TearingNet 800可包括相同或相似於圖6者的模組。例如,迭代TearingNet 800可包括編碼器820及解碼器860,該解碼器可包括T-Net模組856及F-Net模組850,並可使用演化的2D網格858。使用迴圈結構,可允許F-Net模組850及T-Net模組856運行任何數量的迭代(例如,數次迭代)。在各迭代中,F-Net模組850可採用來自先前迭代之輸出自T-Net模組856的2D網格858作為至F-Net模組850的一個輸入,T-Net模組856可採用來自當前迭代之輸出自F-Net模組850的3D點(及梯度)作為至T-Net模組856的輸入。具有多個迭代的TearingNet 800可用以處理具挑戰性(例如,甚至更具挑戰性)的物件/場景拓樸。
至編碼器820的輸入可係或可包括例如點雲810。
編碼器820可輸出描述符向量830。在迭代TearingNet 800的第一迭代之第一操作/步驟中(在圖8中顯示為第一步驟虛線),F-Net模組850可從描述符向量830及初始2D網格858-1接收輸入。初始2D網格858-1可輸出作為局部連接圖形。在迭代TearingNet 800的第一迭代之第二操作/步驟中(在圖8中顯示為第二步驟虛線),T-Net 856可接收來自第一操作之F-Net 850的輸出、描述符向量830、及初始2D網格858-1作為輸入。第二操作/步驟中之F-Net 850的輸出可係重建點雲870。在迭代TearingNet 800的第一迭代之第三操作/步驟中(在圖8中顯示為第三步驟虛線),T-Net 856可輸出第一經修飾2D網格858-2。
在迭代TearingNet 800的第二迭代之第一操作/步驟中(在圖8中顯示為第一步驟虛線),F-Net模組850可從描述符向量830及第一經修飾2D網格858-2接收輸入。第一經修飾2D網格858-2可輸出作為局部連接圖形。在迭代TearingNet 800的第二迭代之第二操作/步驟中(在圖8中顯示為第二步驟虛線),T-Net 856可接收來自第二迭代中之第一操作之F-Net 850的輸出、描述符向量830、及第一經修飾2D網格858-2作為輸入。第二迭代之第二操作/步驟中之F-Net 850的輸出可係第一經修飾重建點雲870。在迭代TearingNet 800的第二迭代之第三操作/步驟中(在圖8中顯示為第三步驟虛線),T-Net 856可輸出第二經修飾2D網格858-3。
針對各迭代,2D網格/經修飾2D網格的輸出(例如,當前的局部連接圖形858-1、858-2、或858-3、及重建或經修飾重建的點雲870可輸入至圖形過濾模組880,以提供圖形過濾並產生最終的重建點雲。
雖然在圖8中顯示兩次迭代,但TearingNet 800之任何數量的迭代係可行的。
在某些代表性實施例中,初始點集合可在2D網格(例如,第一/初始2D網格858)上規則地取樣。可選擇球體或立方體表面以取代2D網格,及/或可以N維網格取代2D網格。在某些實施例中,另一取樣操作可取代表面上的均勻取樣。
TearingNet 800可提供無監督的學習框架。用於重建資料表示(諸如PC)的程序係在本文中揭示,並可包括初始學習操作,其中在端對端操作中針對E-Net模組、T-Net模組、及F-Net模組建立神經網路權重/參數。在初始學習操作之後,可分開地操作自動編碼器800之編碼器820及解碼器860(例如,具有已建立的神經網路權重/參數)。設想描述符
Figure 02_image157
可作用為拓樸感知表示。TearingNet 800可推動編碼器820以在特徵空間中輸出對物件/場景拓樸更友善的描述符。此一拓樸感知表示可有益於許多任務,如物件分類、分段、偵測、藉由減輕對標示資料的需求來完成場景。TearingNet可用在PC壓縮中,因為其提供與重建PC不同的方式。
在某些代表性實施例中,可以T-Net模組實施神經網路,以例如學習與資料表示(諸如PC、視訊、影像、及/或音訊等等)相關聯的拓樸友善表示。例如,藉由使用演化的2D網格/點,神經網路可處理具有複雜拓撲之物件/場景。神經網路可常駐在端對端自動編碼器之解碼器部分中,以供無監督學習。在其他代表性實施例中,雕塑訓練程序/策略可例如實現經較佳調諧的神經網路權重/參數。合併 T-Net 及第二 F-Net 模組之代表性設計 / 架構
在某些實施例中,與T-Net模組之第一迭代及F-Net模組之第二迭代相關聯的功能可在一體化架構/模組(例如,組合式TearingFolding網路(TF-Net)架構/模組)中實施。至TF-Net模組之輸入可以與至F-Net模組的輸入相同的方式配置(例如,潛碼字及來自2D網格的2D點集合)。TF-Net模組之輸出可係3D點之修飾。針對最終的PC重建,3D修飾可應用至來自第一F-Net模組的輸出。TF-Net模組可視為3D空間中的直接撕裂而非2D網格的撕裂。例如,TF-Net模組實施方案的益處可係相較於圖8簡化總體架構。代表性 GCAE
圖9係繪示代表性GCAE 900的圖。參照圖9,GCAE重點顯示如何如具有多個迭代的TearingNet般針對通用資料類型促進拓樸學習。GCAE 900可包括與TearingNet 800中相同或類似的模組(例如,編碼器E及解碼器D)。解碼器D可包括折疊模組F及撕裂模組T。編碼器E之輸出可係描述符向量c,其可係至解碼器D的輸入。解碼器D之輸出可包括重建資料表示
Figure 02_image141
(例如,重建PC、重建視訊、重建影像、及/或重建音訊)及可指示輸入資料表示的拓樸之經演化的網格û 。GCAE 900可促進自動編碼器實施方案/設計中之訊號中的拓樸之利用。GCAE架構/設計可應用至拓樸在其等之相關應用中至關重要的任何信號(例如,資料表示),該等相關應用例如影像/視訊編碼、影像處理、PC處理、及/或資料處理等等。
GCAE 900在具有撕裂模組T之迴圈結構中可包括折疊模組F。至折疊模組F的輸入可針對各迭代修飾。初始,2D網格u可係至折疊模組F之輸入。在第二及進一步的迭代中,組合輸出Δu(例如,與初始2D網格u加總)以得到û,其係至折疊模組F的輸入。
取代雙模組的習知自動編碼器,GCAE可包括三模組架構/設計,其可包括編碼器模組(例如,E-Net模組(E))、折疊模組(例如,F-Net模組(F))、及撕裂模組(例如,T-Net模組(T))。亦可實施具有特定初始化的圖形,如各種圖式所示者。圖形可明確地表示解碼操作(例如,解碼運算)中之資料表示的拓樸。
在圖9之自動編碼器的解碼器D中,F-Net模組及T-Net模組係經介接(例如,以迭代方式彼此交談)。在互動期間,F-Net模組可將圖形拓樸嵌入重建信號中。例如,若在空間域中取樣信號(例如,影像或PC),則拓樸可由取樣點(像素及/或點)的關係隱含地表示。T-Net模組可從重建信號提取隱含拓樸,並可以圖形域表示拓樸。可選擇T-Net模組的輸出(例如,T-Net模組的直接輸出)作為對原始圖形的修飾,以使訓練更容易針對最佳組態收斂。
在實際系統中,迭代的數量可係顯著、確定、或預定的,並設想圖形拓樸隨著迭代之各者演化。
本文所揭示之用於PC自動編碼器的TearingNet係GCAE之一實例,且所屬技術領域中具有通常知識者從TearingNet理解到,可如何為了學習用於信號(例如,資料表示)(諸如用於PC)的拓樸友善表示而利用GCAE。當PC係用於具有高虧格數的物件或用於具有多個物件的場景時,GCAE可提供益處(例如,明顯的益處)。T-Net 模組之代表性設計 / 架構
T-Net模組可以若干不同方式實施,包括使用MLP網路作為建構區塊。使用MLP實施方案,相對於圖形之F-Net模組的輸出梯度可係有幫助的,因為梯度提供鄰域資訊。在其他實施例中,T-Net模組可使用一或多個CNN(例如,具有卷積神經網路層作為設計/架構,例如使用3 × 3卷積核心)實施。此一核心可計數背景,且可或可不略過引入/使用梯度作為至T-Net模組的輸入。用於人體動作識別的代表性 GCAE 程序
人體骨架能夠以各種方式偵測。常用於人體動作識別。可考慮自動編碼器用於人體動作識別的任務。輸入信號可係人體骨架之2D(或3D)座標的序列,設想來自E-Net模組的碼字可用於動作識別,且GCAE解碼器(其包括F-Net模組)及T-Net模組可從碼字重建人體骨架。例如,在某些實施例中,針對此任務,可根據人體的關節連接選擇初始的圖形拓樸。可從T-Net模組的輸出更新連接上的圖形權重。F-Net模組可以採用圖形作為輸入的方式實施/設計,並預測骨架關節位置之座標。由於骨架的圖形涉及相當小量的點(關節),可將至F-Net模組的圖形輸入配置為圖形的鄰接矩陣。設想F-Net模組及T-Net模組兩者除了圖形以外,亦可採用碼字作為輸入。為了簡潔起見,將不會詳細地回顧碼字處理。焦點將集中在拓撲背景。損失函數可定義為用於骨架之輸入資料表示與用於骨架之輸出資料表示之間的均方誤差。例如,可計算各關節中的誤差,且之後可計算均方誤差。用於影像搜尋及檢索之代表性 GCAE 程序
針對影像搜尋及檢索應用,可係有用/需要的是識別影像資料集之間的群集。在影像搜尋及檢索應用中,可採用影像資料集作為背景。欲施加GCAE,可將影像輸入至E-Net模組以輸出碼字。解碼器可初始化表示輸入影像與資料集中之其他影像的類似性之圖形。F-Net模組可預測輸入影像與影像資料集中的各影像之類似性得分。T-Net模組可採用預測得分作為輸入,並可更新圖形,使得圖形可更佳地預測類似性拓樸。最後,損失函數可定義為輸入影像與具有最高得分的影像之間的影像類似性。影像資料集上的圖形拓樸實際上係用於搜尋及檢索應用的資產(例如,重要資產)。使用GCAE,可建構及精製此類拓撲。因此,圖形拓樸可係GCAE解碼器在影像資料集內執行查詢之後的輸出。用於影像分析之代表性 GCAE 程序
針對影像分析應用,影像中的拓樸係資產(例如,關鍵資產)。如何提取影像的代表性描述可係應用的目標。可實施GCAE設計/架構以學習用於影像搜尋的表示。E-Net模組可採用影像作為輸入;並可產生用於影像的潛碼字。E-Net模組可選擇已知的影像特徵提取器(例如,AlexNet、ResNet等)。經由端對端訓練,解碼器設計/架構可驅動/修飾編碼器的輸出(例如,經由在訓練期間設定神經網路權重)。圖形可初始化為2D網格,因為影像像素係以2D組織。可以恆定權重在相鄰像素之間(例如,僅在相鄰像素之間)建構圖形邊緣。除了碼字以外,F-Net模組可採用圖形作為輸入,並可產生作為輸出的影像。T-Net模組可評估來自輸出影像的圖形修飾。
可基於均方誤差(mean square error, MSE)或另一基於距離的誤差函數計算輸入影像與輸出影像之間的損失函數。採取重取樣以對準輸入解析度與輸出解析度,以促成MSE的計算。用於影像編碼之代表性 GCAE 程序
類似於影像搜尋及檢索應用,針對影像編碼,可係有用/需要的是識別類似的影像補片以移除冗餘。GCAE可經調適以促成基於區塊的影像編碼,其中影像可分割成區塊以用於編碼/壓縮(例如,編碼/壓縮目的)。除了類似於用於影像分析者之實施例以外,可選擇欲學習之不同的圖形拓樸。例如,可將1D圖形(例如線圖形)應用為用於編碼微小圖像的影像區塊。例如,微小圖像的成像(例如,影像編碼)可使用單筆劃來完成。損失函數可以與本文稍早提出的相同方式定義。用於視訊編碼之代表性 GCAE 程序
相較於影像編碼,視訊編碼係不同的,例如,導因於框間預測,其引入第3維(例如,時間方向)。對某些實施例而言,由GCAE解碼器中之迭代所產生的演化拓樸可用以編碼影像訊框之間的運動場。設想在一個框架內處理訊框群及/或圖像群(group of picture, GOP)。例如,至視訊編碼GCAE的輸入可係GOP。GCAE解碼器之各迭代可輸出GOP中的訊框。在此實例中,圖形可初始化為影像,其中所有像素均等於0。T-Net模組可解碼運動場,且F-Net模組可將運動場應用至先前的訊框。在某些實施例中,GOP可在時間方向上修飾為較小的體積,且此經修飾GOP可稱為區塊群(group of block, GOB)。用於場景分析之代表性 GCAE 程序
GCAE及/或TearingNet可用於場景分析,包括例如物件計數及偵測。從編碼器(E-Net)模組得到的碼字特徵化輸入場景的拓樸。例如,具有類似拓撲的兩個場景應具有類似的碼字。由GCAE生成/產生的碼字可實現場景分析任務(諸如,物件計數及/或偵測)。例如,分類器可經訓練以採用碼字作為輸入,並可輸出場景中的物件數。除了分類器輸出以外或代替分類器輸出,經撕裂的2D網格亦可用以例如基於所偵測的補片執行物件計數及/或偵測。用於 PC 編碼之代表性 GCAE 程序
所屬技術領域中具有通常知識者理解,本文中用於影像編碼及/或用於視訊編碼的實例適用(例如,原則上適用)於PC編碼。這些程序可用以編碼靜態PC及/或動態PC。
圖10係繪示代表性方法的方塊圖(例如,由基於神經網路之解碼器(NNBD)所實施者)。
參照圖10,代表性方法1000在方塊1010處可包括NNBD得到或接收碼字作為輸入資料表示的描述符。在方塊1020處,NNBD之第一神經網路(NN)模組可基於至少碼字及初始圖形判定輸入資料表示之初步重建。在方塊1030處,NNBD可基於至少初步重建及碼字判定經修飾圖形。在方塊1040處,第一NN模組可基於至少碼字及經修飾圖形判定輸入資料表示之精製重建。例如,經修飾圖形可指示與輸入資料表示相關聯的拓樸資訊。
在某些代表性實施例中,經修飾圖形可藉由組合初始圖形與第二NN模組之輸出來判定。
在某些代表性實施例中,經修飾圖形可係局部連接圖形。
在某些代表性實施例中,NNBD可藉由序連至少下列而藉由一或多個卷積神經網路(CNN)產生用於處理的序連矩陣:(1)複製的碼字、(2)初始圖形或經修飾圖形、及(3)重建的資料表示。例如,NNBD可使用所產生的序連矩陣執行一系列卷積層操作。用於各卷積層操作之核心大小可係(2n+1)x(2n+1)核心大小,其中n係非負整數。
在某些代表性實施例中,輸入資料表示可係或可包括下列之任一者:(1)點雲、(2)影像、(3)視訊、及/或(4)音訊。
在某些代表性實施例中,NNBD可係或可包括圖形條件NNBD。
在某些代表性實施例中,輸入資料表示之精製重建的判定可經由至少第一NN模組的複數個迭代操作來執行。
在某些代表性實施例中,NNBD可包括下列之任一者:一或多個卷積神經網路(CNN)或一或多個多層感知器(MLP)。
在某些代表性實施例中,NNBD可包括一或多個多層感知器(MLP)。例如,資料表示之經修飾圖形及/或精製重建可基於或進一步基於由一或多個MLP所產生之梯度資訊。
在某些代表性實施例中,NNBD可根據經修飾圖形所指示之拓樸資訊識別下列之任一者:(1)輸入資料表示中所表示的一或多個物件;(2)若干物件;(3)輸入資料表示中所表示的物件表面;及/或(4)與輸入資料表示中所表示的物件相關聯之運動向量。
在某些代表性實施例中,碼字可係表示物件或具有多個物件之場景的描述符向量。
在某些代表性實施例中,初始圖形及經修飾圖形可係2維(2D)點集合。輸入資料表示可係點雲。
在某些代表性實施例中,輸入資料表示之初步重建的判定可包括NNBD基於描述符向量及以平面中之預定取樣初始化的2D點集合來執行變形操作。
在某些代表性實施例中,輸入資料表示之初步重建的判定可包括NNBD產生點雲的初步重建。
在某些代表性實施例中,經修飾圖形的判定可包括NNBD基於點雲的初步重建、描述符向量、及初始圖形執行撕裂操作以產生經修飾圖形。
在某些代表性實施例中,NNBD可產生經修飾圖形作為局部連接圖形。
在某些代表性實施例中,NNBD可在輸入資料表示之精製重建上執行圖形過濾,及/或可將輸入資料表示之經過濾及精製重建輸出作為輸入資料表示的最終重建。
在某些代表性實施例中,局部連接圖形可基於下列來建構:(1)在初始圖形及經修飾圖形中針對最接近的鄰域產生圖形邊緣;(2)基於經修飾圖形中的點距離分派圖形邊緣權重;及/或(3)以小於臨限的圖形權重修剪圖形邊緣。
在某些代表性實施例中,在輸入資料表示之精製重建上執行圖形過濾可包括產生經平滑化及重建的輸入資料表示,使得輸入資料表示的最終重建在圖形域中經平滑化。
在某些代表性實施例中,NNBD可根據兩階段訓練操作設定NNBD中之神經網路權重。例如,在兩階段訓練操作的第一階段中,第一NN模組可以包括在第一階段損失函數中之超集合距離進行訓練;且在兩階段訓練操作之第二階段中,第一NN模組及第二NN模組可基於子集合距離及超集合距離以包括在第二階段損失函數中的斜面距離進行訓練。
在某些代表性實施例中,初始圖形可係包括點矩陣之2D網格,各點指示2D位置。例如,2D網格可與流形相關聯,各點指示流形上的固定位置,及/或2D網格可係來自2D平面之一組固定取樣點。
在某些代表性實施例中,經修飾圖形的判定可包括下列之任一者:(1)複製所接收或得到的碼字K次以產生KxD碼字矩陣,其中K係初始圖形中的若干節點,且D係碼字的長度;(2)將KxD碼字矩陣及初始圖形序連為KxN矩陣以產生Kx(D+N)序連矩陣;(3)將序連矩陣輸入至一或多個CNN及/或MLP;(4)藉由一或多個CNN或MLP從序連矩陣產生經修飾圖形;及/或(5)基於經修飾圖形更新輸入資料表示之精製重建以產生輸入資料表示之最終重建。
在某些代表性實施例中,NNBD可將碼字矩陣序連至第一組CNN或MLP層的輸出,以作為序連中介矩陣;及/或可將序連中介矩陣輸入至接續第一組CNN或MLP層的下一組CNN或MLP層。
圖11係繪示使用多階段訓練操作之代表性訓練方法的方塊圖。
參照圖11,代表性方法1100在方塊1110處可在多階段訓練操作之第一階段中包括使用第一損失函數訓練之第一NN(例如,第一NN模組)。在方塊1120處,在多階段訓練操作之第二階段中,可使用第二損失函數訓練第一NN(例如,第一NN模組)及經介接至第一NN的第二NN(例如,第二NN模組)。例如,第一損失函數可基於超集合距離,且第二損失函數可基於子集合距離及超集合距離。在某些實例中,第一NN可包括折疊模組,且第二NN可包括撕裂模組。
在某些代表性實施例中,於多階段訓練操作之第一階段中,訓練可包括以迭代方式判定與第一NN中之節點相關聯的參數值,其等滿足與輸入資料表示與經重建輸入資料表示之間的差相關聯的第一損失條件;及/或在多階段訓練操作之第二階段中,訓練可包括以迭代方式判定與第一及第二NN中之節點相關聯的參數值,其等滿足與輸入資料表示與經重建輸入資料表示之間的差相關聯的第二損失條件。例如,與多階段訓練操作之第一階段中的第一NN中之節點相關聯的判定值可係初始用於多階段訓練操作之第二階段中的第一NN之節點的值。
圖12係繪示另一代表性方法的方塊圖(例如,由NNBD所實施者)。
參照圖12,在方塊1210處,代表性方法1200可包括NNBD得到或接收碼字作為輸入資料表示的描述符。在方塊1220處,NNBD可基於碼字判定輸入資料表示的初步重建。在方塊1230處,NNBD可基於下列判定經修飾圖形:(1)與輸入資料表示相關聯的初始圖形、(2)輸入資料表示的初步重建、及(3)碼字。經修飾圖形可指示與輸入資料表示相關聯的拓樸資訊。
在某些代表性實施例中,經修飾圖形、經演化圖形、及/或精製及經修飾圖形可輸出並用以提供與輸入資料表示相關聯之拓樸資訊。
在某些代表性實施例中,NNBD可根據經修飾圖形所指示之拓樸資訊識別下列之任一者:(1)輸入資料表示中所表示的一或多個物件;(2)若干物件;(3)輸入資料表示中所表示的物件表面;及/或(4)輸入資料表示中所表示的物件之運動向量。
在某些代表性實施例中,NNBD可基於碼字及經修飾圖形判定輸入資料表示的精製重建,及/或可基於下列判定精製經修飾圖形:(1)經修飾圖形、(2)輸入資料表示的精製重建、及(3)碼字,其中精製經修飾圖形可指示與輸入資料表示相關聯之精製拓樸資訊。
圖13係繪示進一步之代表性方法的方塊圖(例如,由例如包括編碼網路(E-Net)模組及基於神經網路之解碼器(NNBD)之基於神經網路的自動編碼器(NNBAE)所實施者。
參照圖13,在方塊1310處,代表性方法1300可包括NNBAE的E-Net模組基於輸入資料表示判定作為輸入資料表示的描述符之碼字。在方塊1320處,NNBAE之F-Net/折疊模組可基於至少碼字及具有K個點的初始圖形判定輸入資料表示之初步重建。在方塊1330處,NNBD之T-Net/撕裂模組可基於至少碼字及初始圖形判定演化自初始圖形的經修飾N圖形。在方塊1340處,NNBD之F-Net模組可基於至少碼字及經修飾圖形判定輸入資料表示之精製重建。經修飾圖形可指示與輸入資料表示相關聯的拓樸資訊,且E-Net模組可與NNBD共同進行訓練。
圖14係繪示額外之代表性方法的方塊圖(例如,由NNBD所實施者)。
參照圖14,在方塊1410處,代表性方法1400可包括NNBD得到或接收碼字作為輸入資料表示的描述符。在方塊1420處,第一NN及/或折疊網路(F-Net)模組可基於至少碼字及具有K個點的N維點集合(其中N係整數)判定輸入資料表示的初步重建。在方塊1430處,NNBD可基於至少碼字及N維點集合判定演化自N維點集合的經修飾N維點集合。在方塊1440處,第一NN及/或F-Net模組可基於至少碼字及經修飾N維點集合判定輸入資料表示之精製重建。經修飾N維點集合可指示與輸入資料表示相關聯的拓樸資訊。
在某些代表性實施例中,第二NN及/或撕裂網路(T-Net)模組可基於至少碼字及N維點集合判定對N維點集合的修飾。經修飾N維點集合的判定可包括將M維點集合與對N維點集合的修飾組合,以產生經修飾N維點集合。
在某些代表性實施例中,對N維點集合之修飾的判定可包括下列之任一者:(1)將所複製的碼字及N維點集合序連為序連矩陣;(2)將序連矩陣輸入至一或多個CNN;(3)藉由一或多個CNN從序連矩陣在M維特徵空間中產生第二點集合;(3)將所複製之碼字、N維點集合、及第二點集合序連為第二序連矩陣;及/或(5)藉由一或多個CNN從第二序連矩陣產生對N維點集合的修飾。
在某些代表性實施例中,NNBD可使用一或多個NN在序連矩陣上執行一系列卷積層操作以產生經修飾N維點集合,且用於各卷積層操作之核心大小可係下列之任一者:(1)1 × 1核心大小、(2)3 × 3核心大小、及/或(3)5 × 5核心大小等等。
在某些代表性實施例中,輸入資料表示可係或可包括下列之任一者:(1)點雲、(2)影像、(3)視訊、或(4)音訊。
在某些代表性實施例中,N等於2;且輸入資料表示可係或可包括點雲。
在某些代表性實施例中,NNBD可係或包括圖形條件NNBD。
在一些實例中,輸入資料表示之精製重建的判定可經由至少F-Net模組的迭代操作來執行。
在某些代表性實施例中,NNBD可包括下列之任一者:一或多個CNN及/或一或多個MLP。
在某些代表性實施例中,NNBD可包括一或多個MLP。例如,經修飾N維點集合可進一步基於由一或多個MLP所產生之梯度資訊。
在某些代表性實施例中,NNBD可根據由經修飾N維點集合所指示的拓樸資訊識別輸入資料表示中所表示的一或多個物件。例如,NNBD或另一裝置可使用拓樸資訊來識別輸入資料表示中之一或多個物件,及/或根據由經修飾N維點集合所指示的拓樸資訊識別輸入資料表示中所表示的若干物件。
作為另一實例,NNBD或另一裝置可根據由經修飾N維點集合所指示的拓樸資訊識別輸入資料表示中所表示的物件表面。
在某些代表性實施例中,NNBD可從經修飾N維點集合判定識別輸入資料表示之不同拓撲區域的補片。
在某些代表性實施例中,碼字可係或可包括表示物件或具有多個物件之場景的描述符向量。
在某些代表性實施例中,N維點集合可係或可包括2D點集合。例如,輸入資料表示可係或可包括點雲,及/或輸入資料表示之初步重建的判定可包括基於描述符向量及以平面中之預定取樣初始化的2D點集合執行變形操作。
在某些代表性實施例中,輸入資料表示之初步重建的判定可包括產生點雲的初步重建。
在某些代表性實施例中,演化自2D點集合之經修飾N維點集合的判定可包括:基於點雲的初步重建、描述符向量、及2D點集合執行撕裂操作;及/或從2D點集合產生經修飾N維點集合作為經修飾2D點雲。
在某些代表性實施例中,NNBD可基於2D點集合及經修飾2D點集合產生局部連接圖形。
在某些代表性實施例中,NNBD或另一裝置(例如,諸如圖形過濾器)可建構/實施圖形過濾(例如,可在來自F-Net模組之點雲的精製重建上使用所產生的圖形過濾器執行圖形過濾,及/或可輸出點雲之經過濾及精製的重建)。
在某些代表性實施例中,局部連接圖形可基於下列建構:(1)在2D點集合中針對最接近的鄰域產生圖形邊緣;(2)基於經修飾2D點集合中的點距離分派圖形邊緣權重;及/或以小於臨限的圖形權重修剪圖形邊緣。
在某些代表性實施例中,在點雲之精製重建上執行圖形過濾可包括產生經平滑化及重建的精製點雲,使得精製的重建點雲在圖形域中可經平滑化。
在某些代表性實施例中,NNBD可根據兩階段訓練操作設定NNBD中之神經網路權重。例如,在兩階段訓練操作的第一階段中,F-Net模組可使用超集合距離作為損失函數進行訓練,及/或在兩階段訓練操作的第二階段中,F-Net模組及T-Net模組可基於超集合距離及子集合距離使用斜面距離作為損失函數進行訓練。
在某些代表性實施例中,N維點集合可係或可包括包括點矩陣之2D網格,各點可指示2D位置。例如,2D網格可與流形相關聯,各點可指示流形上的固定位置,及/或2D網格可係來自作為流形之2D平面、球體、或立方盒表面之一組固定取樣點。
在某些代表性實施例中,NNBD可複製所接收或得到的碼字以產生可係2D網格大小之複製碼字的碼字矩陣,及/或可將碼字矩陣序連成序連矩陣。
在某些代表性實施例中,經修飾N維點集合之判定可包括下列之任一者:將來自複製碼字的KxD矩陣及來自N維點集合的KxN矩陣序連以產生Kx(D+N)序連矩陣,將序連矩陣輸入至一或多個CNN及/或MLP;藉由一或多個CNN及/或MLP從序連矩陣產生對N維點集合的修飾;及/或基於修飾更新N維點集合以產生經修飾N維點集合。
在某些代表性實施例中,NNBD可係下列之任一者:(1)將來自複製碼字的KxD矩陣序連至第一CNN或MLP層之輸出;及/或(2)可將序連矩陣輸入至接續第一CNN或MLP層的下一CNN或MLP層。
圖15係繪示使用多階段訓練操作之代表性訓練方法的方塊圖(例如,由神經網路(NN)所實施者)。
參照圖15,代表性方法1500在方塊1510處可在多階段訓練操作之第一階段中包括使用超集合距離作為損失函數所訓練之NN的第一神經網路。在方塊1520處,於多階段訓練操作的第二階段中,第一神經網路及經介接至第一神經網路的第二神經網路可基於超集合距離及子集合距離使用斜面距離作為損失函數進行訓練。
圖16係繪示代表性訓練方法的方塊圖(例如,由包括E-Net模組及NNBD之NNBAE所實施者)。
參照圖16,在方塊1610處,代表性方法1600可包括基於輸入資料表示由E-Net模組判定作為輸入資料表示的描述符之碼字。在方塊1620處,NNBD的F-Net模組可基於至少碼字及具有K個點的N維點集合(其中N係整數)判定輸入資料表示的初步重建。在方塊1630處,NNBD可基於至少碼字及N維點集合判定演化自N維點集合的經修飾N維點集合。在方塊1640處,F-Net模組可基於至少碼字及經修飾N維點集合判定輸入資料表示之精製重建。例如,經修飾N維點集合可指示與輸入資料表示相關聯的拓樸資訊及/或E-Net可與NNBD共同進行訓練。
在某些代表性實施例中,NNBD或另一裝置可根據嵌入拓樸友善碼字中之拓樸資訊識別輸入資料表示中所表示的一或多個物件。
在某些代表性實施例中,NNBD或另一裝置可根據嵌入拓樸友善碼字中之拓樸資訊識別輸入資料表示中所表示的若干物件。
在某些代表性實施例中,撕裂網路(T-Net)模組可基於至少碼字及N維點集合判定對N維點集合的修飾。例如,經修飾N維點集合的判定可包括將M維點集合與對N維點集合的修飾組合,以產生經修飾N維點集合。
根據代表性實施例之用於處理資料的系統及方法可藉由一或多個處理器執行,該一或多個處理器執行記憶體裝置中所含之指令序列。此類指令可從其他電腦可讀媒體(諸如(多個)第二資料儲存裝置)讀取至記憶體裝置中。執行記憶體裝置中所含的指令序列導致處理器例如如上述般進行操作。在替代實施例中,可使用硬佈線電路系統取代軟體指令或與該等軟體指令組合以實施本發明。
硬體(例如,處理器、GPU、、或其他硬體)及適當軟體可實施一或多個具有各種架構之神經網路,該等架構諸如感知神經網路架構、前饋神經網路架構、徑向基底網路架構、深度前饋神經網路架構、遞迴神經網路架構、長期/短期記憶神經網路架構、閘式遞迴單元神經網路架構、自動編碼器(AE)神經網路架構、變異AE神經網路架構、去雜訊AE神經網路架構、稀疏AE神經網路架構、馬可夫鏈神經網路架構、霍普菲爾網路神經網路架構、波茲曼機(BM)神經網路架構、受限BM神經網路架構、深度信念網路神經網路架構、深度卷積網路網路架構、反卷積網路架構、深度卷積逆向圖形網路k架構、生成式對抗網路架構、液態機神經網路架構、極限學習機神經網路架構、回聲狀態網路架構、深度殘差網路架構、Kohonen網路架構、支援向量機神經網路架構、及神經圖靈機神經網路架構等等。各種架構中之各小區可實施為反饋小區、輸入小區、有噪輸入小區、隱藏小區、機率式隱藏小區、尖端隱藏小區、輸出小區、匹配輸入輸出小區、遞迴小區、記憶小區、不同的記憶小區、核心小區、或卷積/池小區。神經網路之小區的子集合可形成複數個層。這些神經網路可經手動訓練或透過自動化訓練程序。
雖然於上文描述採特定組合的特徵及元件,所屬技術領域中具有通常知識者將理解各特徵或元件可單獨使用或與其他特徵及元件組合使用。額外地,本文描述的方法可以併入電腦可讀媒體中以用於由電腦或處理器執行的電腦程式、軟體、或韌體實施。非暫時性電腦可讀儲存媒體的實例包括但不限於唯讀記憶體(ROM)、隨機存取記憶體(RAM)、暫存器、快取記憶體、半導體記憶體裝置、磁性媒體(諸如內接硬碟及可移除式磁碟)、磁光媒體、及光學媒體(諸如,CD-RAM光碟、及數位多功能光碟(digital versatile disk, DVD))。與軟體關聯的處理器可用以實施用於在WTRU 102、UE、終端機、基地台、RNC、或任何主機電腦中使用的射頻收發器。
此外,在上文所述的實施例中,提到處理平台、計算系統、控制器、及含有處理器的其他裝置。此等裝置可含有至少一個中央處理單元(「CPU」)及記憶體。根據電腦程式化技術領域中具有通常知識者的實務,對行動及操作或指令的符號表示的參考可藉由各種CPU及記憶體執行。此類行動及操作或指令可稱為「經執行(executed)」、「經電腦執行(computer executed)」、或「經CPU執行(CPU executed)」。
所屬技術領域中具有通常知識者將理解行動及以符號表示的操作或指令包括藉由CPU操縱電信號。電系統表示其可導致電信號的結果變換或降低及資料位元在記憶體系統中的記憶體位置的資料位元維持,藉此重組態或以其他方式改變CPU的操作以及信號的其他處理。維持資料位元的記憶體位置係具有對應於或代表資料位元的特定電、磁、光學、或有機性質的實體位置。應理解代表性實施例不限於上文提及的平台或CPU,且其他平台及CPU可支援所提供的方法。
資料位元亦可維持在電腦可讀媒體上,該媒體包括磁碟、光碟、及可由CPU讀取的任何其他揮發性(例如,隨機存取記憶體(「RAM」))或非揮發性(例如,唯讀記憶體(「ROM」))大量儲存系統。電腦可讀媒體可包括協作或互連電腦可讀媒體,其排他地存在於處理系統上或分布在可在處理系統本地或遠端的多個互連處理系統之中。須理解代表性實施例不限於上文提及的記憶體,且其他平台及記憶體可支援所述的方法。
在一說明性實施例中,可將本文描述的操作、程序等的任何者實施為儲存在電腦可讀媒體上的電腦可讀指令。電腦可讀指令可由行動單元、網路元件、及/或任何其他計算裝置的處理器執行。
在系統之態樣的硬體與軟體實施方案之間留有極少的區別。硬體或軟體的用途通常(但非總是,在特定情境中,硬體與軟體之間的選擇可變得顯著的)係表示成本之於效率的取捨的設計選擇。可存在本文描述的程序及/或系統及/或其他技術可受其影響的各種載體(例如,硬體、軟體、及/或韌體),且較佳載體可隨程序及/或系統及/或其他技術部署於其中的背景而變化。例如,若實施者判定速度及準確度係最重要的,實施者可選擇主要係硬體及/或韌體的載體。若彈性係最重要的,實施者可選擇主要係軟體的實施方案。替代地,實施者可選擇硬體、軟體、及/或韌體的某種組合。
前述實施方式已經由使用方塊圖、流程圖、及/或實例闡述裝置及/或程序的各種實施例。在此類方塊圖、流程圖、及/或實例含有一或多個功能及/或操作的情況下,所屬技術領域中具有通常知識者將理解此類方塊圖、流程圖、或實例內的各功能及/或操作可藉由多種硬體、軟體、韌體、或實際上其等的任何組合個別地或共同地實施。舉實例而言,合適的處理器包括一般用途處理器、特殊用途處理器、習知處理器、數位信號處理器(digital signal processor, DSP)、複數個微處理器、與DSP核心關聯的一或多個微處理器、控制器、微控制器、特殊應用積體電路(Application Specific Integrated Circuit, ASIC)、應用特定標準產品(Application Specific Standard Products, ASSP);現場可程式化閘陣列(FPGA)電路、任何其他類型的積體電路(IC)、及/或狀態機。
雖然於上文提供採特定組合的特徵及元件,所屬技術領域中具有通常知識者將理解各特徵或元件可單獨使用或與其他特徵及元件組合使用。本揭露並未在本申請案中描述之意圖作為各種態樣之說明的特定實施例方面受限。可作出許多修改及變化而不脫離其精神及範圍對所屬技術領域中具有通常知識者將係顯而易見的。如此除非明確地提供,否則不應將使用在本申請案之描述中的元件、動作、或指令解讀成對本發明係關鍵或必要的。除了列舉於本文中之該等外,在本揭露之範圍內的功能等效方法及設備對所屬技術領域中具有通常知識者從前述說明將係顯而易見的。此類修改及變化意圖落在隨附之申請專利範圍的範圍內。本揭露僅受限於隨附之申請專利範圍的用語連同此申請專利範圍享有的均等物之全部範圍。應理解本揭露不限於特定方法或系統。
亦應理解本文所使用之術語僅用於描述特定實施例的目的,並未意圖成為限制。如本文中所使用,當在本文中提及時,用語「站台(station)」及其縮寫「STA」、「使用者設備(user equipment)」及其縮寫「UE」可意指(i)無線傳輸及/或接收單元(WTRU)(諸如下文所述者);(ii)WTRU之若干實施例的任何者(諸如下文所述者);(iii)尤其係以WTRU的一些或全部結構及功能性組態的具有無線能力及/或有線能力(例如,可接線)的裝置(諸如下文所述者);(iii)以少於WTRU的全部結構及功能性組態之具有無線能力及/或有線能力的裝置(諸如下文所述者);或(iv)類似者。可代表本文所敘述的任何UE之實例WTRU的細節係在下文針對圖1A至圖1D提供。
在某些代表性實施例中,本文描述之標的的數個部分可經由特殊應用積體電路(ASIC)、現場可程式化閘陣列(FPGA)、數位信號處理器(DSP)、及/或其他積體格式實施。然而,所屬技術領域中具通常知識者將認知到本文所揭露之實施例的一些態樣可整體地或部分地在積體電路中等效地實施為在一或多個電腦上運行的一或多個電腦程式(例如,在一或多個電腦系統上運行的一或多個程式)、在一或多個處理器上運行的一或多個程式(例如,在一或多個微處理器上運行的一或多個程式)、韌體、或實際上其等的任何組合,並認知到設計電路系統及/或撰寫用於軟體及/或韌體的程式碼將係完全在按照本揭露之所屬技術領域中具有通常知識者的技術內。額外地,所屬技術領域中具通常知識者將理解本文所揭示之標的的機制可分布為以多種形式的程式產品,且將理解本文所揭示之標的的說明性實施例與用以實際實行分布的特定類型的信號承載媒體無關地施用。信號承載媒體的實例包括但不限於下列者:可記錄類型媒體(諸如軟碟、硬碟機、CD、DVD、數位磁帶、電腦記憶體等)、及傳輸類型媒體(諸如數位及/或類比通訊媒體(例如,光纖纜線、波導、有線通訊鏈路、無線通訊鏈路等))。
本文所描述的標的有時說明含在不同其他組件內或與該等不同其他組件連接的不同組件。應理解如此描繪的架構僅係實例,且事實上,可實施實現相同功能性的許多其他架構。在概念上,達成相同功能性之組件的任何配置係有效「關聯的(associated)」,使得所欲的功能性可實現。因此,可將經組合以達成特定功能性之本文中的任兩個組件視為彼此「相關聯(associated with)」,使得所欲功能性可無關於架構或中間組件而達成。同樣地,亦可將如此關聯的任何二個組件視為彼此「可操作地連接(operably connected)」或「可操作地耦接(operably coupled)」,以實現所欲功能性,且亦可將能夠如此關聯的任何二個組件視為「可操作地耦接(operably couplable)」彼此以實現所欲功能性。可操作地耦接的具體實例包括但不限於可實體配對及/或實體互動的組件及/或可無線地互動及/或無線地互動的組件及/或邏輯地互動及/或可邏輯地互動的組件。
關於任何實質複數及/或單數用語於本文中的使用,所屬技術領域中具有通常知識者可對上下文及/或應用適當地從複數形轉換成單數形及/或從單數形轉換成複數形。為了清楚起見,各種單數/複數排列可明確地敘述於本文中。
所屬技術領域中具有通常知識者將理解,通常在本文中且特別在隨附之申請專利範圍(例如,隨附之申請專利範圍的主體)中使用的用語通常意圖作為「開放(open)」用語(例如,用語「包括(including)」應解讀為「包括但不限於(including but not limited to)」、用語「具有(having)」應解讀為「具有至少(having at least)」、用語「包括(include)」應解讀為「包括但不限於(includes but not limited to)」等)。所屬技術領域中具有通常知識者將進一步理解若所引入的請求項敘述的具體數字係有意圖的,此種意圖將在該請求項中明確敘述,且缺少此種敘述的情況中沒有此種意圖存在。例如,用語「單一(single)」或類似語言可用於僅意欲一個項目處。作為輔助理解,下文隨附的申請專利範圍及/或本文的描述可含有引導式片語「至少一個(at least one)」及「一或多個(one or more)」的使用以引入請求項敘述。然而,即使當相同的請求項包括引導式片語「一或多個(one or more)」或「至少一個(at least one)」及不定冠詞(諸如,「一(a)」或「一(an)」(例如,「一(a)」或「一(an)」應解讀為意指「至少一個」或「一或多個」))時,不應將此種片語的使用解讀成意味藉由不定冠詞「一(a)」或「一(an)」引入的請求項敘述將含有此種引入的請求項敘述的任何特定請求項限制在僅含有一個此種敘述的實施例。此對用以引入請求項敘述的定冠詞的使用亦為真。此外,即使明確地敘述所引入請求項敘述的特定數目,所屬技術領域中具有通常知識者將認知到應將此種敘述解讀成意指至少該敘述數字(例如,無其他修飾詞的「二個敘述」的裸敘述(bare recitation)意指至少二個敘述,或二個或更多個敘述)。此外,在使用類似於「A、B、及C等中之至少一者(at least one of A, B, and C, etc.)」之慣例的該等情況中,此一構造在某個程度上通常意圖使所屬技術領域中具有通常知識者將理解該慣例(例如「具有A、B、及C中之至少一者的系統(a system having at least one of A, B, and C)」將包括但不限於單獨具有A、單獨具有B、單獨具有C、一起具有A及B、一起具有A及C、一起具有B及C、及/或一起具有A、B、及C等的系統)。在使用類似於「A、B、或C等中之至少一者」之慣例的該等情況中,此一構造在某個程度上通常意圖使所屬技術領域中具有通常知識者將理解該慣例(例如「具有A、B、或C中之至少一者的系統」將包括但不限於單獨具有A、單獨具有B、單獨具有C、一起具有A及B、一起具有A及C、一起具有B及C、及/或一起具有A、B、及C等的系統)。所屬技術領域中具有通常知識者將進一步地瞭解無論是在說明書、申請專利範圍、或圖式中,呈現二個或更多個替代性用語的任何轉折詞/或片語實際上均應理解為設想包括用語之一者、用語的任一者、或二個用語的可能性。例如,片語「A或B (A or B)」將理解成包括「A」或「B」或「A及B」的可能性。進一步地,如本文所使用的,後續接著複數個項目及/或複數個類別之項目的列表的用語「任何者(any of)」意圖個別地或與其他項目或其他類別之項目結合地包括該等項目及/或該等類別的項目的「任何者(any of)」、「任何組合(any combination of)」、「任何多者(any multiple of)」、及/或「多者的任何組合(any combination of multiples of)」。此外,如本文中所使用,用語「集合(set)」或「群(group)」係意欲包括任何數量(包括零)的項目。額外地,如本文所使用的,用語「數目(number)」意圖包括任何數目(包括零)。
此外,在本揭露之特徵或態樣係按照馬庫西群組(Markush group)描述處,所屬技術領域中具有通常知識者將認知到本揭露亦藉此按照馬庫西群組的任何個別成員或成員的子群組描述。
如所屬技術領域中具有通常知識者所將理解的,對於任何及所有目的,諸如就提供書面描述而言,本文所揭露的所有範圍亦涵蓋任何及所有可能的子範圍及其子範圍的組合。任何列出的範圍可輕易地認為足以描述並啟用將相同範圍分解成至少相等的二分之一、三分之一、四分之一、五分之一、十分之一等。作為一非限制性實例,本文討論的各範圍可輕易地分解成下方三分之一、中間三分之一、及上方三分之一等。亦如所屬技術領域中具有通常知識者所將理解的,諸如「至多(up to)」、「至少(at least)」、「大於(greater than)」、「小於(less than)」、及類似者的所有語言包括所敘述的數字,且可指隨後可如上文所討論地分解成子範圍的範圍。最後,如所屬技術領域中具有通常知識者所將理解的,範圍包括各個別成員。因此,例如,具有1至3個單元的群組係指具有1、2、或3個單元的群組。類似地,具有1至5個單元的群組係指具有1、2、3、4、或5個單元的群組並依此類推。
此外,除非陳述出該效果,否則不應將申請專利範圍解讀成受限於所提供的順序或元件。此外,在任何請求項中使用用語「用於…的手段(means for)」係意欲援引35 U.S.C. §112、¶ 6或手段加功能(means-plus-function)的請求項格式,且不具有用語「用於…的手段」的任何請求項並無此意圖。
與軟體相關聯的處理器可用以實施無線傳輸接收單元(WTRU)、使用者設備(UE)、終端機、基地台、移動管理實體(MME)、或演進式封包核心(EPC)、或任何主電腦中所用的射頻收發器。WTRU可與以硬體及/或軟體(包括軟體定義無線電(SDR))實施之模組及其他組件聯合使用,該等組件諸如相機、攝影機模組、視訊電話、揚聲電話、振動裝置、揚聲器、麥克風、電視收發器、免持耳機、鍵盤、藍牙®模組、調頻(FM)無線電單元、近場通訊(NFC)模組、液晶顯示器(LCD)顯示單元、有機發光二極體(OLED)顯示單元、數位音樂播放器、媒體播放器、電子遊戲播放器模組、網際網路瀏覽器、及/或任何無線區域網路(WLAN)或超寬頻(UWB)模組。
雖然本發明已就通訊系統加以描述,設想可在微處理器/通用型電腦(未圖示)上以軟體實施系統。在某些實施例中,各種組件之功能的一或多者可以控制通用型電腦的軟體實施。
此外,雖然在本文中參照特定實施例說明及描述本發明,本發明並非意欲受限於所示細節。反倒是,在申請專利範圍之等同物的範疇及範圍內且在不偏離本發明的情況下可對細節作出各種修改。
在本揭露全文中,在所屬技術領域中具有通常知識者理解到,某些代表性實施例可用在替代例中或與其他代表性實施例組合使用。
雖然於上文描述採特定組合的特徵及元件,所屬技術領域中具有通常知識者將理解各特徵或元件可單獨使用或與其他特徵及元件組合使用。額外地,本文描述的方法可以併入電腦可讀媒體中以用於由電腦或處理器執行的電腦程式、軟體、或韌體實施。非暫時性電腦可讀儲存媒體的實例包括但不限於唯讀記憶體(ROM)、隨機存取記憶體(RAM)、暫存器、快取記憶體、半導體記憶體裝置、磁性媒體(諸如內接硬碟及可移除式磁碟)、磁光媒體、及光學媒體(諸如,CD-RAM光碟、及數位多功能光碟(digital versatile disk, DVD))。與軟體關聯的處理器可用以實施用於在WTRU、UE、終端機、基地台、RNC、或任何主機電腦中使用的射頻收發器。
此外,在上文所述的實施例中,提到處理平台、計算系統、控制器、及含有處理器的其他裝置。此等裝置可含有至少一個中央處理單元(「CPU」)及記憶體。根據電腦程式化技術領域中具有通常知識者的實務,對行動及操作或指令的符號表示的參考可藉由各種CPU及記憶體執行。此類行動及操作或指令可稱為「經執行(executed)」、「經電腦執行(computer executed)」、或「經CPU執行(CPU executed)」。
所屬技術領域中具有通常知識者將理解行動及以符號表示的操作或指令包括藉由CPU操縱電信號。電系統表示其可導致電信號的結果變換或降低及資料位元在記憶體系統中的記憶體位置的資料位元維持,藉此重組態或以其他方式改變CPU的操作以及信號的其他處理。維持資料位元的記憶體位置係具有對應於或代表資料位元的特定電、磁、光學、或有機性質的實體位置。
資料位元亦可保存在電腦可讀媒體上,該等電腦可讀媒體包括磁碟、光碟、及可由CPU讀取的任何其他揮發性(例如,隨機存取記憶體(「RAM」))或非揮發性(例如,唯讀記憶體(「ROM」))大量儲存系統。電腦可讀媒體可包括協作或互連電腦可讀媒體,其排他地存在於處理系統上或分布在可在處理系統本地或遠端的多個互連處理系統之中。須理解代表性實施例不限於上文提及的記憶體,且其他平台及記憶體可支援所述的方法。
舉實例而言,合適的處理器包括一般用途處理器、特殊用途處理器、習知處理器、數位信號處理器(digital signal processor, DSP)、複數個微處理器、與DSP核心關聯的一或多個微處理器、控制器、微控制器、特殊應用積體電路(Application Specific Integrated Circuit, ASIC)、  應用特定標準產品(Application Specific Standard Products, ASSP);現場可程式化閘陣列(FPGA)電路、任何其他類型的積體電路(IC)、及/或狀態機。
雖然本發明已就通訊系統加以描述,設想可在微處理器/通用型電腦(未圖示)上以軟體實施系統。在某些實施例中,各種組件之功能的一或多者可以控制通用型電腦的軟體實施。
此外,雖然在本文中參照特定實施例說明及描述本發明,本發明並非意欲受限於所示細節。反倒是,在申請專利範圍之等同物的範疇及範圍內且在不偏離本發明的情況下可對細節作出各種修改。
100:實例通訊系統 102:無線傳輸/接收單元(WTRU) 102a:無線傳輸/接收單元(WTRU) 102b:無線傳輸/接收單元(WTRU) 102c:無線傳輸/接收單元(WTRU) 102d:無線傳輸/接收單元(WTRU) 104:RAN 106:CN 108:公共交換電話網路(PSTN) 110:網際網路 112:其他網路 113:RAN 114a:基地台 114b:基地台 115:CN 116:空中介面 118:處理器 120:收發器 122:傳輸/接收元件 124:揚聲器/麥克風 126:鍵板 128:顯示器/觸控板 130:非可移除式記憶體 132:可移除式記憶體 134:電源 136:全球定位系統(GPS)晶片組 138:其他週邊設備 160a:eNode B 160b:eNode B 160c:eNode B 162:移動性管理實體(MME) 164:服務閘道器(SGW) 166:封包資料網路(PDN)閘道(或PGW) 180a:gNB 180b:gNB 180c:gNB 182a:存取及移動性管理功能(AMF) 182b:存取及移動性管理功能(AMF) 183a:對話管理功能(SMF) 183b:對話管理功能(SMF) 184a:使用者平面功能(UPF) 184b:使用者平面功能(UPF) 185a:資料網路(DN) 185b:資料網路(DN) 200:自動編碼器 210:一組點 220:編碼器 230:描述符向量 240:網格 250:神經網路(NN)及/或折疊模組(FM) 260:解碼器 270:重建點雲 300:自動編碼器 310:一組點 320:編碼器 330:描述符向量 340-1:2D網格 340-2:2D網格 340-K:2D網格 350:FM 350-1:NN/FM 350-2:NN/FM 350-K:NN/FM 360:解碼器 370:重建點雲 400:自動編碼器 410:一組點/點雲 420:編碼器 430:描述符向量 440:網格 450:NN/FM 452:鄰接矩陣 454:圖形推論模組 455:完全連接圖形/鄰接矩陣/連接圖形 460:解碼器 470:重建點雲 480:圖形過濾模組 490:重建點雲 500:TearingNet自動編碼器 510:一組點 520:編碼器 530:描述符向量 540:網格 550-1:NN及/或FM 550-2:NN及/或FM 556:撕裂模組 558:局部連接圖形 560:解碼器 570:重建點雲 580:圖形過濾模組 590:重建點雲/重建PC 600:撕裂/T-Net模組 610:NxN卷積神經網路(CNN) 620:NxN卷積神經網路(CNN) 630:矩陣 640:第一序連矩陣 645:矩陣 650:梯度 655:矩陣 660:第二序連矩陣 665:最終輸出矩陣 800:迭代TearingNet 810:點雲 820:編碼器 830:描述符向量 850:F-Net模組 856:T-Net 858:第一/初始2D網格 858-1:初始2D網格/當前的局部連接圖形 858-2:第一經修飾2D網格/當前的局部連接圖形 858-3:第二經修飾2D網格/當前的局部連接圖形 860:解碼器 870:重建點雲 880:圖形過濾模組 900:圖形條件自動編碼器(GCAE) 1000:方法 1010:方塊 1020:方塊 1030:方塊 1040:方塊 1100:方法 1110:方塊 1120:方塊 1200:方法 1210:方塊 1220:方塊 1230:方塊 1300:方法 1310:方塊 1320:方塊 1330:方塊 1340:方塊 1400:方塊 1410:方塊 1420:方塊 1430:方塊 1440:方塊 1500:方法 1510:方塊 1520:方塊 1600:方塊 1610:方塊 1620:方塊 1630:方塊 1640:方塊
更詳細瞭解可藉由舉與隨附至其之圖式結合之實例的方式從下文的實施方式得到。本說明書中之圖式係實例。如此,不將圖式及實施方式視為係限制,且其他同等有效實例係可行且可能的。此外,圖式中的相似元件符號指示相似元件,且其中: [圖1A]係繪示一或多個經揭示實施例可實施於其中之實例通訊系統的系統圖; [圖1B]係繪示根據一實施例之可使用在繪示於圖1A中的通訊系統內的實例無線傳輸/接收單元(wireless transmit/receive unit, WTRU)的系統圖; [圖1C]係繪示根據一實施例之可使用在繪示於圖1A中的通訊系統內的實例無線電存取網路(radio access network, RAN)及實例核心網路(core network, CN)的系統圖; [圖1D]係繪示根據一實施例之可使用在繪示於圖1A中的通訊系統內的進一步實例RAN及進一步實例CN的系統圖; [圖2]係繪示代表性自動編碼器(例如FoldingNet)的圖; [圖3]係繪示另一代表性自動編碼器(例如AtlasNet)的圖; [圖4]係繪示進一步的代表性自動編碼器(例如FoldingNet++)的圖; [圖5]係繪示額外的代表性自動編碼器(例如TearingNet)的圖,其例如具有撕裂網路(Tearing Network, T-Net)模組; [圖6]係繪示代表性T-Net模組的圖; [圖7A]、[圖7B]、及[圖7C]係繪示輸入PC及所得之撕裂2D網格及經重建PC之一實例的圖; [圖8]係繪示例如將T-Net模組用於PC之代表性GCAE自動編碼器的圖; [圖9]係繪示使用T-Net模組之代表性GCAE的圖,其例如用於在一般化操作中使用(例如,諸如用於與PC、影像、視訊、及/或音訊等等併用); [圖10]係繪示代表性方法的方塊圖(例如,由基於神經網路之解碼器(neural network-based decoder, NNBD)所實施者); [圖11]係繪示使用多階段訓練操作之代表性訓練方法的方塊圖; [圖12]係繪示另一代表性方法的方塊圖(例如,由NNBD所實施者); [圖13]係繪示進一步之代表性方法的方塊圖(例如,由例如包括編碼網路(E-Net)模組及NNBD之基於神經網路的自動編碼器(neural network-based autoencoder, NNBAE)所實施者); [圖14]係繪示額外之代表性方法的方塊圖(例如,由NNBD所實施者); [圖15]係繪示使用多階段訓練操作之另一代表性訓練方法的方塊圖(例如,由神經網路(NN)所實施者);及 [圖16]係繪示尚有進一步的代表性方法的方塊圖(例如,由包括E-Net模組及NNBD之NNBAE所實施者)。
100:實例通訊系統
102a:無線傳輸/接收單元(WTRU)
102b:無線傳輸/接收單元(WTRU)
102c:無線傳輸/接收單元(WTRU)
102d:無線傳輸/接收單元(WTRU)
104:RAN
106:CN
108:公共交換電話網路(PSTN)
110:網際網路
112:其他網路
114a:基地台
114b:基地台
116:空中介面

Claims (22)

  1. 一種藉由一基於神經網路之解碼器(NNBD)實施之方法,其包含: 藉由該NNBD得到或接收作為一輸入資料表示之一描述符的一碼字; 基於至少該碼字及一初始圖形藉由一第一神經網路模組判定該輸入資料表示的一初步重建; 基於至少該初步重建及該碼字判定一經修飾圖形;及 基於至少該碼字及該經修飾圖形藉由該第一神經網路模組判定該輸入資料表示之一精製重建, 其中該經修飾圖形指示與該輸入資料表示相關聯的拓樸資訊。
  2. 如請求項1之方法,其中: 該NNBD係一圖形條件NNBD;且 該輸入資料表示之該精製重建的該判定係經由至少該第一神經網路模組的複數個迭代操作來執行。
  3. 如請求項1或請求項2之方法,其中該輸入資料表示係下列之任一者:(1)一點雲、(2)一影像、(3)一視訊、或(4)一音訊。
  4. 如請求項1或請求項2之方法,其中: 該NNBD包括一或多個多層感知器(MLP);且 該資料表示之該經修飾圖形及該精製重建係進一步基於由該一或多個MLP所產生之梯度資訊。
  5. 如請求項1或請求項2之方法,其進一步包含根據該經修飾圖形所指示之該拓樸資訊識別下列之任一者:(1)該輸入資料表示中所表示的一或多個物件;(2)若干該等物件;(3)該輸入資料表示中所表示的一物件表面;及/或(4)與該輸入資料表示中所表示的一物件相關聯之一運動向量。
  6. 如請求項1或請求項2之方法,其中: 該初始圖形及該經修飾圖形係2維(2D)點集合; 該輸入資料表示係一點雲;且 該輸入資料表示之該初步重建的該判定包括基於該描述符向量及以一平面中之一預定取樣初始化的該2D點集合來執行一變形操作。
  7. 如請求項1或請求項2之方法,其中該經修飾圖形的該判定包括:基於該點雲的該初步重建、該描述符向量、及該初始圖形執行一撕裂操作以產生該經修飾圖形。
  8. 如請求項7之方法,其進一步包含: 產生該經修飾圖形作為一局部連接圖形, 在該輸入資料表示之該精製重建上執行圖形過濾;及 將該輸入資料表示之該經過濾及精製重建輸出作為該輸入資料表示的一最終重建。
  9. 如請求項1或請求項2之方法,其進一步包含根據一兩階段訓練操作設定該NNBD中之神經網路權重。
  10. 如請求項9之方法,其中: 在該兩階段訓練操作的一第一階段中,以包括在一第一階段損失函數中之一超集合距離訓練該第一神經網路模組;及 在該兩階段訓練操作之一第二階段中,基於一子集合距離及該超集合距離以包括在一第二階段損失函數中的一斜面距離(Chamfer distance)訓練該第一神經網路模組及該第二神經網路模組。
  11. 一種基於神經網路之解碼器(NNBD),其包含: 一接收器單元,其經組態以接收或得到作為一輸入資料表示之一描述符的一碼字; 一第一神經網路(NN)模組,其經組態以:基於至少該碼字及一初始圖形判定該輸入資料表示之一初步重建;及 一第二NN模組,其經組態以基於至少該初步重建及該碼字判定一經修飾圖形, 其中: 該第一NN模組係進一步經組態以基於至少該碼字及該經修飾圖形判定該輸入資料表示之一精製重建,且 該經修飾圖形指示與該輸入資料表示相關聯的拓樸資訊。
  12. 如請求項11之NNBD,其中: 該NNBD係一圖形條件NNBD;且 該第一NN模組經組態以執行複數個迭代操作。
  13. 如請求項11或請求項12之NNBD,其中該輸入資料表示係下列之任一者:(1)一點雲、(2)一影像、(3)一視訊、或(4)一音訊。
  14. 如請求項11或請求項12之NNBD,其中: 該第一NN模組包括一或多個多層感知器(MLP),該一或多個MLP經組態以產生梯度資訊;且 該第二NN模組經組態以基於由該一或多個MLP所產生之該梯度資訊輸出該經修飾圖形。
  15. 如請求項11或請求項12之NNBD,其中該NNBD經組態以根據該經修飾圖形所指示之該拓樸資訊識別下列之任一者:(1)該輸入資料表示中所表示的一或多個物件;(2)若干該等物件;(3)該輸入資料表示中所表示的一物件表面;或(4)與該輸入資料表示中所表示的一物件相關聯之一運動向量。
  16. 如請求項11或請求項12之NNBD,其中: 該初始圖形及該經修飾圖形係2維(2D)點集合; 該輸入資料表示係一點雲,且 該第一NN模組經組態以基於該描述符向量及以一平面中之一預定取樣初始化的該2D點集合來執行一變形操作。
  17. 如請求項11或請求項12之NNBD,其中該第二NN模組經組態以基於該點雲的該初步重建、該描述符向量、及該初始圖形執行一撕裂操作以產生該經修飾圖形。
  18. 如請求項17之NNBD,其中: 該第二NN模組經組態以產生該經修飾圖形作為一局部連接圖形;且 該NNBD經組態以在該輸入資料表示之該精製重建上執行圖形過濾,並將該輸入資料表示之該經過濾及精製重建輸出作為該輸入資料表示之一最終重建。
  19. 如請求項18之NNBD,其中該局部連接圖形係基於具有高於一臨限值之指定權重之在該初始圖形或該經修飾圖形中用於最接近鄰域的圖形邊緣而建構。
  20. 如請求項18之NNBD,其中該NNBD經組態以產生一經平滑化及重建的輸入資料表示,使得該輸入資料表示之該最終重建在一圖形域中經平滑化。
  21. 如請求項11或請求項12之NNBD,其中該NNBD係進一步經組態以根據一兩階段訓練操作設定該NNBD中之神經網路權重。
  22. 如請求項21之NNBD,其中: 在該兩階段訓練操作的一第一階段中,該NNBD經組態以使用包括在一第一階段損失函數中之一超集合距離訓練該第一NN模組;及 在該兩階段訓練操作之一第二階段中,該NNBD經組態以基於一子集合距離及該超集合距離使用包括在一第二階段損失函數中的一斜面距離訓練該第一NN模組及該第二NN模組。
TW110119618A 2020-07-02 2021-05-31 使用拓樸友善表示之用於圖形條件自動編碼器(gcae)之方法、設備、及系統 TW202203159A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202063047446P 2020-07-02 2020-07-02
US63/047,446 2020-07-02

Publications (1)

Publication Number Publication Date
TW202203159A true TW202203159A (zh) 2022-01-16

Family

ID=79316846

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110119618A TW202203159A (zh) 2020-07-02 2021-05-31 使用拓樸友善表示之用於圖形條件自動編碼器(gcae)之方法、設備、及系統

Country Status (7)

Country Link
US (1) US20230222323A1 (zh)
JP (1) JP2023532436A (zh)
KR (1) KR20230034309A (zh)
BR (1) BR112022026240A2 (zh)
MX (1) MX2023000126A (zh)
TW (1) TW202203159A (zh)
WO (1) WO2022005653A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023177431A1 (en) * 2022-03-14 2023-09-21 Interdigital Vc Holdings, Inc. Unsupervised 3d point cloud distillation and segmentation
CN117271969A (zh) * 2023-09-28 2023-12-22 中国人民解放军国防科技大学 辐射源个体指纹特征在线学习方法、系统、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633856B2 (en) * 2001-06-15 2003-10-14 Flarion Technologies, Inc. Methods and apparatus for decoding LDPC codes
GB2398976B (en) * 2003-02-28 2006-03-08 Samsung Electronics Co Ltd Neural network decoder
US11196992B2 (en) * 2015-09-03 2021-12-07 Mediatek Inc. Method and apparatus of neural network based processing in video coding

Also Published As

Publication number Publication date
BR112022026240A2 (pt) 2023-01-17
JP2023532436A (ja) 2023-07-28
US20230222323A1 (en) 2023-07-13
MX2023000126A (es) 2023-02-09
KR20230034309A (ko) 2023-03-09
WO2022005653A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
US11373319B2 (en) System and method for optimizing dynamic point clouds based on prioritized transformations
US11816786B2 (en) System and method for dynamically adjusting level of details of point clouds
US20220261960A1 (en) Super-resolution reconstruction method and related apparatus
US20220124543A1 (en) Graph neural network and reinforcement learning techniques for connection management
US11961264B2 (en) System and method for procedurally colorizing spatial data
US11202051B2 (en) System and method for distributing and rendering content as spherical video and 3D asset combination
TW202203159A (zh) 使用拓樸友善表示之用於圖形條件自動編碼器(gcae)之方法、設備、及系統
US20220261616A1 (en) Clustering-based quantization for neural network compression
WO2022040232A1 (en) Object scanning using planar segmentation
Qureshi et al. Neurocomputing for internet of things: object recognition and detection strategy
CN111542111A (zh) 用于提供定时同步的方法和装置
WO2020139766A2 (en) System and method for optimizing spatial content distribution using multiple data systems
JP2024509670A (ja) 分割可能なディープニューラルネットワークにおける動的特徴サイズ適応
US11531578B1 (en) Profiling and debugging for remote neural network execution
US12062195B2 (en) System and method for optimizing dynamic point clouds based on prioritized transformations
WO2024102920A1 (en) Heterogeneous mesh autoencoders
WO2024015454A1 (en) Learning based bitwise octree entropy coding compression and processing in light detection and ranging (lidar) and other systems
WO2024086165A1 (en) Context-aware voxel-based upsampling for point cloud processing
US11727602B2 (en) Resolution of a picture
US20240054351A1 (en) Device and method for signal transmission in wireless communication system
EP4381422A1 (en) Methods, architectures, apparatuses and systems for continuous assessment, training and deployment of ai/ml model
WO2024015400A1 (en) Deep distribution-aware point feature extractor for ai-based point cloud compression