TW202117611A - 電腦視覺訓練系統及訓練電腦視覺系統的方法 - Google Patents
電腦視覺訓練系統及訓練電腦視覺系統的方法 Download PDFInfo
- Publication number
- TW202117611A TW202117611A TW109137018A TW109137018A TW202117611A TW 202117611 A TW202117611 A TW 202117611A TW 109137018 A TW109137018 A TW 109137018A TW 109137018 A TW109137018 A TW 109137018A TW 202117611 A TW202117611 A TW 202117611A
- Authority
- TW
- Taiwan
- Prior art keywords
- loss
- image
- supervised
- estimated
- unsupervised
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012549 training Methods 0.000 title claims abstract description 64
- 238000002645 vision therapy Methods 0.000 title abstract description 20
- 230000006870 function Effects 0.000 claims description 136
- 230000003287 optical effect Effects 0.000 claims description 70
- 238000005457 optimization Methods 0.000 claims description 7
- 230000033001 locomotion Effects 0.000 description 35
- 238000013528 artificial neural network Methods 0.000 description 21
- 239000003550 marker Substances 0.000 description 20
- 238000010586 diagram Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 230000009977 dual effect Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
- G06T3/4076—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19167—Active pattern learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/08—Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Graphics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一種電腦視覺訓練系統及訓練電腦視覺系統的方法。電腦視覺(CV)訓練系統,包含:監督學習系統,用以根據目標CV應用來估計來自一或多個輸入影像的監督輸出,且根據監督輸出及監督輸出的地面實況來判定監督損失;無監督學習系統,用以根據監督輸出及一或多個輸入影像來判定無監督損失;弱監督學習系統,用以根據監督輸出及對應於一或多個輸入影像的弱標記來判定弱監督損失;以及聯合最佳化器,用以同時最佳化監督耗損、無監督耗損以及弱監督損失。
Description
本揭露的一或多個實例實施例是關於一種電腦視覺系統,及一種使用機器學習來訓練電腦視覺系統的方法。
在真實情境中已廣泛使用電腦視覺應用,諸如深度估計及影像/視訊增強。舉例而言,深度估計可用於影像散景(Bokeh)的前景/背景分割,且影像/視訊增強現已成為大多數現代蜂巢式電話攝影機的許多影像信號處理器(image signal processor;ISP)的標準特徵。
最近,電腦視覺領域已自統計方法轉移至深度學習神經網路方法。舉例而言,深度學習神經網路方法可使得單個模型能夠自影像學習意義以執行特定電腦視覺任務,從而避免對專用的手工製作方法的管線的需求。大體而言,深度學習神經網路方法可利用單一機器學習技術及對應損失函數來針對特定電腦視覺應用進行訓練,其可限制其準確度。
此背景技術部分中揭露的上述資訊用於增強對本揭露的背景技術的理解,且因此,其可含有不構成先前技術的資訊。
本揭露的一或多個實例實施例是針對一種具有針對各種電腦視覺應用進行訓練的多個機器學習策略構架的電腦視覺系統,及一種用於訓練電腦視覺系統的方法。
根據本揭露的一或多個實例實施例,電腦視覺(computer vision;CV)訓練系統包含:監督學習系統,經組態以根據目標CV應用來估計來自一或多個輸入影像的監督輸出,且根據監督輸出及監督輸出的地面實況來判定監督損失;無監督學習系統,經組態以根據監督輸出及一或多個輸入影像來判定無監督損失;弱監督學習系統,經組態以根據監督輸出及對應於一或多個輸入影像的弱標記來判定弱監督損失;以及聯合最佳化器,經組態以最佳化監督損失、無監督損失以及弱監督損失。
在一實例實施例中,目標CV應用可對應於單眼深度估計,且監督輸出可對應於由來自一或多個輸入影像的目標影像估計的深度。
在一實例實施例中,無監督學習系統可經組態以根據所估計深度來將對應於一或多個輸入影像的2維(2-dimensional;2D)影像座標轉換成3維(3-dimensional;3D)座標,且至少基於3D座標而計算無監督損失。
在一實例實施例中,目標CV應用可對應於立體匹配,且監督輸出可對應於在來自一或多個輸入影像的左影像與右影像之間估計的視差。
在一實例實施例中,無監督學習系統可經組態以根據所估計視差來移位左影像及右影像中的一者以生成扭曲影像,且至少基於扭曲影像而計算無監督損失。
在一實例實施例中,目標CV應用可對應於影像/視訊增強,且監督輸出可對應於由來自一或多個輸入影像的低解析度輸入影像估計的高解析度影像。
在一實例實施例中,無監督學習系統可經組態以估計對應於所估計高解析度影像的光流,且至少基於所估計光流及所估計高解析度影像而計算無監督損失。
在一實例實施例中,目標CV應用可對應於多視角深度估計,且監督輸出可對應於在來自一或多個輸入影像的多個輸入圖框中的每一者中估計的深度。
在一實例實施例中,無監督學習系統可經組態以根據多個輸入圖框中的每一者中的所估計深度來生成用於多個輸入圖框中的每一者的3D點雲,且至少基於3D點雲的經對準座標之間的距離來計算無監督損失。
在一實例實施例中,聯合最佳化器可經組態以根據聯合損失函數來同時最佳化監督損失、無監督損失以及弱監督損失,所述聯合損失函數包含監督損失、無監督損失以及弱監督損失的對應權重。
在一實例實施例中,系統可更包含弱標記生成器,所述弱標記生成器用以生成弱標記作為具有區塊對的基於區塊的弱標記,所述區塊對對應於一或多個輸入影像的不同裁剪區,所述基於區塊的弱標記界定對應於區塊對的裁剪區之間的監督輸出的關係。
根據本揭露的一或多個實例實施例,用於訓練電腦視覺(CV)系統的方法包含:根據目標CV應用來估計來自一或多個輸入影像的監督輸出;根據監督輸出及監督輸出的地面實況來判定監督損失;根據監督輸出及一或多個輸入影像來判定無監督損失;根據監督輸出及對應於一或多個輸入影像的弱標記來判定弱監督損失;以及最佳化監督損失、無監督損失以及弱監督損失。
在一實例實施例中,目標CV應用可對應於單眼深度估計,且監督輸出可對應於由來自一或多個輸入影像的目標影像估計的深度。
在一實例實施例中,方法可更包含:根據所估計深度來將對應於一或多個輸入影像的2維(2D)影像座標轉換成3維(3D)座標;以及至少基於3D座標而計算無監督損失。
在一實例實施例中,目標CV應用可對應於立體匹配,且監督輸出可對應於在來自一或多個輸入影像的左影像與右影像之間估計的視差。
在一實例實施例中,方法可更包含:根據所估計視差來移位左影像及右影像中的一者以生成扭曲影像;以及至少基於扭曲影像而計算無監督損失。
在一實例實施例中,目標CV應用可對應於影像/視訊增強,且監督輸出可對應於由來自一或多個輸入影像的低解析度影像估計的高解析度影像。
在一實例實施例中,方法可更包含:估計對應於所估計高解析度影像的光流;以及至少基於所估計光流及所估計高解析度影像而計算無監督損失。
在一實例實施例中,目標CV應用可對應於多視角深度估計,且監督輸出可對應於在來自一或多個輸入影像的多個輸入圖框中的每一者中估計的深度。
在一實例實施例中,方法可更包含:根據多個輸入圖框中的每一者中的所估計深度來生成用於多個輸入圖框中的每一者的3D點雲;以及至少基於3D點雲的經對準座標之間的距離來計算無監督損失。
在一實例實施例中,最佳化可包含:根據聯合損失函數來同時最佳化監督損失、無監督損失以及弱監督損失,所述聯合損失函數包含監督損失、無監督損失以及弱監督損失的對應權重。
在一實例實施例中,方法可更包含:生成弱標記作為具有區塊對的基於區塊的弱標記,所述區塊對對應於一或多個輸入影像的不同裁剪區,所述基於區塊的弱標記界定對應於區塊對的裁剪區之間的監督輸出的關係。
在下文中,將參看隨附圖式更詳細地描述實例實施例,在該等圖式中,相同圖式元件符號始終指相同元件。然而,本揭露可以各種不同形式體現,且不應解釋為僅限於本文中的所說明實施例。確切而言,提供這些實施例以使得本發明將為透徹且完整的,且將向本領域的技術人員充分傳達本揭露的態樣及特徵。因此,可能未描述不為於本領域具有通常知識者完整理解本揭露的態樣及特徵所必需的過程、元件以及技術。除非另外指出,否則相同圖式元件符號貫穿附圖以及書面描述指相同元件,且因此,可不重複其描述。
本揭露的一或多個實例實施例是針對用於電腦視覺訓練系統的多個學習策略構架。多個學習策略構架可組合多達三種不同機器學習技術以改良各種不同電腦視覺應用的訓練準確度,但並無用於預測程序的額外計算成本。舉例而言,在一些實施例中,多個學習策略構架可組合監督學習技術、無監督學習技術以及弱監督學習技術以針對各種不同電腦視覺應用及情境進行訓練。
在一些實施例中,監督輸出(例如,監督目標輸出或監督目標項)可根據監督學習技術來生成(例如,可估計)。監督輸出可自一或多個輸入影像生成,且可對應於自可為對應CV應用所要的一或多個輸入影像估計的資訊。舉例而言,監督輸出可對應於深度、視差、高解析度影像、多視角深度及/或類似者。在一些實施例中,監督損失可根據監督學習技術在監督輸出與監督輸出的地面實況之間進行計算。
在一些實施例中,監督輸出可用作用以根據無監督學習技術來計算無監督損失的輸入,且用作用以根據弱監督學習技術來計算弱監督損失的輸入。舉例而言,監督輸出可用於變換(例如,扭曲)輸入影像,其可用於根據無監督學習技術來計算無監督損失,且監督輸出可與弱標記進行比較以根據弱監督學習技術來計算弱監督損失。因此,監督輸出的準確度可在無監督損失及弱監督損失的最佳化期間進一步細化(例如,進一步改良)。
在一些實施例中,用於計算弱監督損失的弱標記可為基於像素或基於區塊的,且可自輸入影像生成或自地面實況生成。因此,在一些實施例中,相較於可僅支援基於像素的弱標記的電腦視覺系統可改良靈活性。
在一些實施例中,多個學習策略構架可應用於具有多圖框/多影像輸入的任何合適的基於電腦視覺的應用。多圖框/多影像輸入可自同一源(例如,來自單個攝影機的連續圖框)生成或自不同源(例如,來自雙攝影機或不同攝影機的具有不同視角或不同視野的影像)生成。
在一些實施例中,電腦視覺系統可藉由彼此同時最佳化監督損失函數、無監督損失函數以及弱監督損失函數(例如,聯合地、同時或在同一時間)來針對目標電腦視覺應用進行端對端訓練。在一些實施例中,彼此同時最佳化監督損失函數、無監督損失函數以及弱監督損失函數可包含其中監督損失函數、無監督損失函數以及弱監督損失函數的最佳化過程可至少部分地時間上彼此重疊的情況。
圖1為根據本揭露的一或多個實例實施例的電腦視覺訓練系統的方塊圖。
簡要概述,電腦視覺(CV)訓練系統102可包含用以根據多個機器學習技術針對各種不同類型的電腦視覺(CV)應用進行訓練的深度學習神經網路(deep learning neural network;DNN)構架。舉例而言,在一些實施例中,CV訓練系統102可利用監督學習技術(S)、無監督學習技術(U)以及弱監督學習技術(W)來針對各種不同CV應用情境進行訓練。CV應用的一些非限制性實例可包含單眼深度估計、立體匹配、影像/視訊增強、多視角深度估計及/或類似者。
在一些實施例中,CV訓練系統102可生成(例如,可估計)對應於目標CV應用的監督輸出,且可根據監督學習技術(S)在監督輸出與監督輸出的對應地面實況之間生成(例如,可最小化)監督損失函數。監督輸出可對應於自可為目標CV應用所要(例如,可為其的目標)的一或多個輸入影像獲得(例如,估計、計算、提取、轉換及/或類似操作)的資訊,例如,深度、視差、對應高解析度影像、多視角深度及/或類似者。換言之,自一或多個輸入影像獲得的監督輸出可為對應CV應用的目標,所述對應CV應用用於根據對應目標CV應用來處理、分析、分類、變換、扭曲及/或類似操作一或多個輸入影像。
在一些實施例中,監督輸出可用作用以根據無監督學習技術(U)來生成無監督損失函數的輸入,且用作用以根據弱監督學習技術(W)來生成弱監督損失函數的輸入。舉例而言,在一些實施例中,CV訓練系統102可基於監督輸出而變換或扭曲輸入影像中的一或多者以根據無監督學習技術(U)來生成無監督損失函數,且可將對應於一或多個輸入影像的弱標記與監督輸出進行比較以根據弱監督學習技術(W)來生成弱監督損失函數。因此,監督輸出的準確度可例如在無監督損失函數及弱監督損失函數的最佳化期間進一步細化。
更詳細地,參看圖1,在一些實施例中,CV訓練系統102可接收多圖框/多視角影像104及地面實況(例如,地面實況值、地面實況影像及/或類似者)105。舉例而言,可自一或多個成像裝置(例如,一或多個攝影機)俘獲多圖框/多視角影像104。在此情況下,多圖框/多視角影像104可來自同一成像裝置(例如,來自同一攝影機),或可來自不同成像裝置(例如,來自雙攝影機、兩個或大於兩個不同攝影機及/或類似者)。舉例而言,在一些實施例中,多圖框/多視角影像104可包含自同一攝影機(例如,自單個攝影機)俘獲的多個連續圖框,或可包含自兩個或大於兩個攝影機(例如,雙攝影機、兩個或大於兩個不同攝影機及/或類似者)俘獲的多個視角(例如,立體視角、不同視野或類似者)。
在一些實施例中,地面實況105可包含對應於監督輸出的目標值或影像的一或多個值或影像。舉例而言,在一些實施例中,CV訓練系統102可根據目標CV應用來生成(例如,可估計)監督輸出(例如,生成目標CV應用所要的監督輸出),且可將監督輸出與監督輸出的對應地面實況105進行比較。舉例而言,在一些實施例中,CV訓練系統102可根據監督輸出及對應地面實況來生成(例如,可最小化或減小)監督損失函數。
在一些實施例中,CV訓練系統102可包含一或多個處理電路106,其包含一或多個處理器108及記憶體110。處理器108中的每一者可為通用處理器或專用處理器、特殊應用積體電路(application specific integrated circuit;ASIC)、一或多個場可程式化閘陣列(field programmable gate array;FPGA)、處理組件的群組或其他合適的處理組件。處理器108中的每一者可整合於單個裝置內或分佈於多個分離系統、伺服器或裝置(例如,電腦)。舉例而言,處理器108中的每一者可為相對於CV訓練系統102的內部處理器,或處理器108中的一或多者可為例如作為一或多個伺服器的部分或作為基於雲的計算系統實施的外部處理器。處理器108中的每一者可經組態以執行儲存於記憶體110中及/或自其他電腦可讀媒體(例如,CDROM、網路儲存裝置、遠端伺服器及/或類似者)接收到的電腦程式碼或指令。
記憶體110可包含用於儲存資料的一或多個裝置(例如,記憶體單元、記憶體裝置、儲存裝置及/或類似者)及/或用於執行及/或促進本揭露中所描述的各種過程的電腦程式碼。記憶體110可包含隨機存取記憶體(random access memory;RAM)、唯讀記憶體(read-only memory;ROM)、硬盤驅動器儲存裝置、暫時性儲存裝置、非揮發性記憶體、快閃記憶體、光學記憶體或用於儲存軟體對象及/或電腦指令的任何其他合適的記憶體。記憶體110可包含資料庫組件、目標程式碼組件、腳本組件及/或用於支援本揭露中所描述的各種活動及資訊結構的任何其他類型的資訊結構。記憶體110可可通信地連接至一或多個處理電路106中的一或多個處理器108,且可包含用於(例如,藉由一或多個處理器108)執行本文中所描述的一或多個過程的電腦程式碼。
在一些實施例中,記憶體110可包含監督學習(S)模組(例如,監督學習系統、監督學習神經網路、監督學習構架及/或類似者)112、無監督學習(U)模組(例如,無監督學習系統、無監督學習神經網路、無監督學習構架及/或類似者)114、弱監督學習(W)模組(例如,弱監督學習系統、弱監督學習神經網路、弱監督學習構架及/或類似者)116、弱標記生成器118以及聯合最佳化器120。
在各種實施例中,監督學習模組112、無監督學習模組114、弱監督學習模組116、弱標記生成器118以及聯合最佳化器120可實施於單個裝置(例如,單個電腦、單個伺服器、單個殼體及/或類似者)內,或其至少一些可分佈於多個裝置(例如,分佈於多個電腦、多個伺服器、多個殼體及/或類似者)。在各種實施例中,監督學習模組112、無監督學習模組114、弱監督學習模組116、弱標記生成器118以及聯合最佳化器120中的每一者可包含任何合適的處理器(例如,處理器108中的一或多者)、記憶體(例如,記憶體110的一或多個記憶體裝置)、編碼器解碼器對、邏輯裝置、神經網路(例如,卷積神經網路(convoluted neural network;CNN)、遞歸神經網路(recursive neural network;RNN)及/或類似者)、控制器、電路(例如,積體電路(integrated circuit;IC))及/或類似者以支援本揭露中所描述的各種功能、過程、活動及/或類似者。
在一些實施例中,監督學習模組112可使用訓練實例(例如,使用地面實況)來訓練以生成對應於目標CV應用的預測模型(例如,監督輸出)。舉例而言,訓練實例可包含指示其地面實況的標記。在一些實施例中,無監督學習模組114可在不利用地面實況的情況下進行訓練。根據一或多個實例實施例,無監督學習模組114可根據由監督學習模組112生成的監督輸出來分析、提取、組織、變換、扭曲及/或類似操作一或多個輸入影像。在一些實施例中,弱監督學習模組116可用經標記資料及未標記資料兩者進行訓練。舉例而言,在一些實施例中,弱監督學習模組116可根據弱標記及監督輸出來訓練。
舉例而言,如下文參考圖2將更詳細地描述,在一些實施例中,監督學習模組112可基於多圖框/多視角影像104根據目標CV應用來生成(例如,可估計)監督輸出。監督學習模組112可生成(例如,可最小化)在監督輸出與對應地面實況105之間的監督損失函數。無監督學習模組114可根據多圖框/多視角影像104及監督輸出來生成(例如,可最小化)無監督損失函數。舉例而言,在一些實施例中,無監督學習模組114可根據監督輸出來變換或可扭曲多圖框/多視角影像104,且經變換或扭曲影像可用於生成(例如,最小化)無監督損失函數。
弱監督學習模組116可根據監督輸出來生成(例如,可最小化)弱監督損失函數。舉例而言,在一些實施例中,弱監督學習模組116可生成(例如,可最小化)在對應於多圖框/多視角影像104的弱標記與監督輸出之間的弱監督損失函數,所述弱標記可由弱標記生成器118生成。弱標記生成器118可自多圖框/多視角影像104生成弱標記(例如,基於像素或基於區塊),或自對應於監督輸出的地面實況105生成弱標記。
在一些實施例中,聯合最佳化器120可根據監督損失函數、無監督損失函數以及弱監督損失函數來生成(例如,可最小化)聯合損失函數,以根據目標CV應用來訓練CV訓練系統102。在一些實施例中,對應權重可用於聯合損失函數中以平衡聯合損失函數中的監督損失函數、無監督損失函數及弱監督損失函數中的每一者的重要性。
圖2為根據本揭露的一或多個實例實施例的電腦視覺訓練系統的多個學習策略構架的圖解。
參考圖2,在一些實施例中,對於可由單個源(例如,單個攝影機)或多個源(例如,雙攝影機或多個攝影機)生成的多圖框/多視角影像的輸入(例如,),監督學習模組112可根據目標CV應用(例如,藉由)來生成(例如,可估計)監督輸出(例如,)。在此情況下,網路()可藉由最小化或減小在監督輸出(例如,)與對應地面實況值(例如,)之間的監督損失()函數而最佳化。舉例而言,在一些實施例中,監督學習模組112可最小化或減小監督損失函數、監督損失函數、監督損失函數。
對於非限制性實例,當CV應用對應於單眼深度估計時,監督學習模組112可估計多圖框/多視角影像(例如,)中的對象的深度(例如,)作為監督輸出(例如,)。在另一非限制性實例中,當CV應用對應於立體匹配時,監督學習模組112可估計多圖框/多視角影像(例如,)的左影像(例如,)與右影像(例如,圖)之間的視差(例如,)作為監督輸出(例如,圖)。在又另一非限制性實例中,當CV應用對應於影像/視訊增強時,監督學習模組112可估計對應於多圖框/多視角影像(例如,)的低解析度輸入圖框(例如,)的高解析度圖框(例如,)作為監督輸出(例如,)。在又另一非限制性實例中,當CV應用對應於多視角深度估計時,監督學習模組112可估計多圖框/多視角影像(例如,)中的多個視角中的每一者的多視角深度(例如,)作為監督輸出(例如,)。
在一些實施例中,無監督學習模組114可接收多圖框/多視角影像(例如,)及監督輸出(例如,)作為輸入,且可最小化或減小無監督損失()函數。舉例而言,在一些實施例中,無監督學習模組114可最小化或減小無監督損失函數。在一些實施例中,弱監督學習模組116可接收所估計監督輸出(例如,),且可最小化或減小弱標記(例如,)與監督輸出(例如,)之間的弱監督損失()函數。舉例而言,在一些實施例中,弱監督學習模組116可最小化或減小弱監督損失函數、弱監督損失函數、弱監督損失函數。在一些實施例中,在訓練期間,可最佳化弱監督損失函數、弱監督損失函數、弱監督損失函數。
在一些實施例中,弱標記生成器118可自多圖框/多視角影像(例如,)或直接自地面實況(例如,)生成弱標記(例如,)。舉例而言,在一些實施例中,弱標記生成器118可根據輔助任務(例如,經由語意分割)來生成弱標記(例如,)。在此情況下,可根據與輔助任務相關聯的試探式規則來生成弱標記(例如,)。作為一非限制性實例,可自具有一些先驗知識(諸如天空永遠遠於樹木)的語意分割圖(semantic segmentation map)生成弱標記深度。
在一些實施例中,由弱標記生成器118生成的弱標記(例如,)可為基於像素或基於區塊的。基於像素的弱標記界定影像的個別像素之間的關係,而基於區塊的弱標記界定影像的不同裁剪區之間的關係,其中每一區包含多個像素。也就是說,基於區塊的弱標記具有對應於一或多個輸入影像的不同裁剪區的區塊對,並且基於區塊的弱標記可界定對應於區塊對的裁剪區之間的監督輸出的關係。因此,基於區塊的弱標記可比基於像素的順序弱標記更靈活。舉例而言,在基於區塊的弱標記的情況下,在一些實施例中,弱標記生成器118可生成基於區塊的弱標記作為區塊對(p,q)及因素(例如,二進位關係、分佈、統計及/或類似者)。在訓練期間,弱監督學習模組116可檢查監督輸出(例如,)的區塊對(p,q)是否與生成的弱標記()一致(例如,類似)。對於非限制性實例,在其中CV應用用於影像/視訊增強的情況中,若p來自天空且q來自樹木,則p應比q在超解析度中更『藍』。
在一些實施例中,CV訓練系統102可例如藉由同時最佳化監督損失()函數、無監督損失()函數以及弱監督損失()函數來端對端訓練。舉例而言,在一些實施例中,聯合最佳化器120(例如,見圖1)可根據監督損失()函數、無監督損失()函數、弱監督損失()函數以及對應權重()來生成聯合損失函數()。權重()可用於平衡用於目標CV應用的聯合損失函數()中的監督損失()函數、無監督損失()函數以及弱監督損失()函數中的每一者。在一些實施例中,可根據用於目標CV應用的消融研究(ablation study)來判定(例如,可設置)權重()。舉例而言,在一些實施例中,聯合最佳化器120可生成(例如,可最小化或減小)聯合損失函數()以根據等式1中展示的聯合損失函數()針對對應CV應用來訓練CV訓練系統102。
在等式1中,可對應於監督損失函數,可對應於應用於監督損失函數()的權重,可對應於無監督損失函數,可對應於應用於無監督損失函數()的權重,可對應於弱監督損失函數,且可對應於應用於弱監督損失函數()的權重。
雖然圖2說明包含三個輸入圖框或視角的多圖框/多視角影像(),但本揭露不限於此。舉例而言,CV訓練系統102的多個學習策略構架可應用於針對具有任何合適數目個圖框或視角的任何合適的CV應用進行訓練。另外,雖然圖2展示CV訓練系統102包含監督學習模組112、無監督學習模組114以及弱監督學習模組116,但本揭露不限於此,且CV訓練系統102可使用(例如,可包含)來自監督學習模組112、無監督學習模組114以及弱監督學習模組116的任何合適的組合。舉例而言,若監督項的地面實況不可用,則CV訓練系統102可使用無監督學習模組114及弱監督學習模組116。作為另一實例,若多圖框/多視角影像104包含僅單圖框/單影像輸入,則CV訓練系統102可使用監督學習模組112及弱監督學習模組116。
在一些實施例中,多圖框/多視角影像()可用於訓練CV訓練系統102(例如,在訓練及/或開發期間),但多圖框/多視角影像()可不為終端使用者裝置用於目標CV應用的預測程序所需要(例如,可不為其使用或可不為其必需)以便利用針對目標CV應用訓練CV訓練系統102。舉例而言,終端使用者裝置的目標CV應用的預測程序可基於單圖框影像輸入,且預測時間可不增加或不實質上增加。因此,除了基於視訊的CV應用之外,CV訓練系統102可用於具有單圖框影像輸入的基於影像的CV應用。
圖3為根據本揭露的一或多個實例實施例的用於單眼深度估計的電腦視覺訓練系統的多個學習策略構架的圖解。
在本揭露的一或多個實例實施例中,CV訓練系統102的多個學習策略構架可應用於單眼深度估計。大體而言,單眼深度估計為可用於估計影像的逐像素(pixelwise)深度圖的CV應用。
簡要概述,給定多個連續輸入圖框,監督學習模組可估計在輸入圖框中展示的對象的深度作為監督輸出,且可計算在所估計深度與深度的地面實況之間的監督損失。無監督學習模組114可使用所估計深度來補償3D空間中的輸入圖框中的對象的剛性運動,且可根據剛性運動及3D空間的3D座標來計算輸入圖框之間的無監督光度損失。弱監督學習模組116可計算在所估計深度與弱標記深度之間的弱監督損失,所述弱標記深度可自輸入圖框或自地面實況生成。在一些實施例中,可藉由同時最佳化監督損失、無監督光度損失以及弱監督損失來訓練CV訓練系統102。
更詳細地,參考圖3,在一些實施例中,CV訓練系統102可接收多個連續輸入影像圖框(),可由單個源(例如,單個攝影機)生成。舉例而言,輸入影像圖框()可包含可彼此鄰近的前一圖框()、目標圖框()以及下一圖框()。
在一些實施例中,監督學習模組112可估計目標圖框()中的對象的深度()作為監督輸出。舉例而言,在一些實施例中,監督學習模組112可包含深度估計器(例如,深度估計網路)308以使用如本領域的技術人員應已知的任何合適的深度估計方法或演算法(例如,條件式隨機場、編碼器解碼器網路及/或類似者)來估計深度()。舉例而言,在一些實施例中,深度估計器308可包含一或多個編碼器解碼器對(例如,編碼器解碼器對的網路)以估計目標圖框()中的對象的深度()。
在一些實施例中,無監督學習模組114可使用所估計深度()來補償3D空間中的輸入影像圖框()中的對象的剛性運動。舉例而言,在一些實施例中,無監督學習模組114可包含位姿估計器(例如,位姿估計網路)302以及投影及扭曲影像變換器304。
在一些實施例中,位姿估計器302可判定對象自輸入影像圖框()的圖框至圖框的剛性運動。舉例而言,在一些實施例中,位姿估計器302可將對象自目標圖框()至前一圖框()的剛性運動判定為例如,且將對象自目標圖框()至下一圖框()的剛性運動判定為例如。此處,M可為對象的運動向量,且每一運動向量M可包含旋轉(R)及平移(T)。位姿估計器302可使用如本領域的技術人員應已知的任何合適的位姿估計方法或演算法(例如,線性n點估計、poseCNN或其他合適的深度神經網路及/或類似者)來判定對象的剛性運動,以輸出運動向量M。舉例而言,在一些實施例中,位姿估計器302可包含一或多個編碼器解碼器對(例如,編碼器解碼器對的網路)以根據對象自圖框至圖框的剛性運動來輸出對象的運動向量M。
在一些實施例中,位姿估計器302可具有與深度估計器308類似(例如,相同或實質上相同)的編碼器解碼器架構。在一些實施例中,位姿估計器302的編碼器解碼器對中的至少一者可與深度估計器308共用。因此,可減小計算成本。然而,本揭露不限於此。
在一些實施例中,投影及扭曲影像變換器304可補償輸入影像圖框()的2D影像中的對象的剛性運動,且可根據所估計深度()將經補償2D影像變換至3D空間(例如,3D座標)中。舉例而言,在一些實施例中,投影及扭曲影像變換器304可根據自位姿估計器302輸出的運動向量M來扭曲輸入影像圖框()的2D影像,以將2D影像中的對象與輸入影像圖框()中的剛性運動隔離。在一些實施例中,投影及扭曲影像變換器304可根據所估計深度()將經補償2D影像中的對象的2D座標投影(例如,可轉換)至3D座標。舉例而言,2D座標可對應於經補償2D影像中的對象的影像座標(x, y),且所估計深度()可提供對象的對應於3D座標的第三座標(z)的深度尺寸。因此,在一些實施例中,投影及扭曲影像變換器304可根據由監督學習模組112生成的所估計深度()來補償3D空間(例如,3D座標)中的對象的剛性運動。
在一些實施例中,無監督學習模組114可根據3D座標及剛性運動補償來計算輸入影像圖框()之間的無監督光度損失()。舉例而言,在一些實施例中,無監督學習模組114可根據在等式3中展示的無監督損失函數來計算無監督光度損失()。
在等式3中,可對應於無監督損失,可對應於前一輸入影像圖框,可對應於目標輸入影像圖框,可對應於下一輸入影像圖框,K可對應於內部矩陣,可對應於自目標輸入影像圖框()至前一輸入影像圖框()的剛性運動的運動向量,可對應於自目標輸入影像圖框()至下一輸入影像圖框()的剛性運動的運動向量,可對應於由監督學習模組112輸出的所估計深度,可對應於2D與3D之間的座標投影,且可對應於3D空間中的剛性運動補償。
在一些實施例中,弱監督學習模組116可基於目標圖框()而計算在對應於目標圖框()的弱標記深度()與由監督學習模組112生成的所估計深度()之間的弱監督損失()。舉例而言,在一些實施例中,弱標記生成器118可自資訊(例如,語義分割圖、粗略深度估計結果及/或類似者)生成弱標記深度(),所述資訊自輸入影像圖框()(或自地面實況深度())推導出。在各種實施例中,弱標記深度()可為基於像素或基於區塊的。因此,弱標記深度()可包含像素對(i,j)或區塊對(p,q),且可界定在像素對(i,j)的像素之間或在區塊對(p,q)的區之間的深度關係(例如,更靠近/更遠)。
在等式4中,可對應於弱監督損失,可對應於圖框t中的像素i的所估計深度,可對應於圖框t中的像素j的所估計深度,可對應於常數以避免不連續,且可對應於像素i及像素j的常數像素對值。在此情況下,若像素i比像素j更遠,則,且否則(例如,若像素j比像素i更遠,則)。
在等式5中,可對應於弱監督損失,可對應於圖框t中的區p的所估計深度,可對應於圖框t中的區q的所估計深度,var可對應於偏差以抑制離群值(例如,當計算時),且平均(mean
)可對應於平均操作。在此情況下,若區p比區q更遠,則,且否則(例如,若區q比區p更遠,則)。
在一些實施例中,當生成包含區塊對(p,q)的弱標記深度()時,可評估在所估計深度()中來自區p及區q的深度統計的差異。舉例而言,若區p及區q來自同一語義類,則其深度分佈可彼此類似。在此情況下,弱監督學習模組116可根據在區p的所估計深度()的直方圖與區q的所估計深度()的直方圖之間的卡方(Chi-square)直方圖距離來計算弱監督損失()。舉例而言,在一些實施例中,弱監督學習模組116可根據在等式6中展示的弱監督損失函數來計算弱監督損失()。
在一些實施例中,CV訓練系統102可經訓練以藉由同時最佳化監督損失函數(例如,等式2中所展示)、無監督損失函數(例如,等式3中所展示)以及弱監督損失函數(例如,等式4、等式5或等式6中所展示)來改良單眼深度估計。舉例而言,在一些實施例中,因為所估計深度()用於計算監督損失()、無監督損失()以及弱監督損失()中的每一者,故聯合最佳化器120可根據例如如等式1中所展示的聯合損失函數()來聯合地最佳化監督損失函數、無監督損失函數以及弱監督損失函數。
圖4為根據本揭露的一或多個實例實施例的用於立體匹配的電腦視覺訓練系統的多個學習策略構架的圖解。
在本揭露的一或多個實例實施例中,CV訓練系統102的多個學習策略構架可應用於立體匹配(例如,視差估計)。大體而言,立體匹配(例如,視差估計)為CV應用,所述CV應用可用於匹配來自具有同一場景的不同視角(例如,不同立體視角)的影像(例如,左影像及右影像)的像素。
簡要概述,給定對應於同一場景的不同立體視角的多個輸入影像(例如,左影像及右影像),監督學習模組112可估計在第一影像(例如,左影像)與第二影像(例如,右影像)之間的視差作為監督輸出,且可計算在所估計視差與視差的地面實況之間的監督損失。無監督學習模組114可使用所估計視差來生成對應於第一影像及第二影像中的一者的根據所估計視差來補償的扭曲影像,且可計算在扭曲影像與第一影像及第二影像中的另一者(例如,不用於生成扭曲影像的影像)的真實影像(例如,原始影像)之間的無監督光度損失。弱監督學習模組116可計算在所估計視差與弱標記視差之間的弱監督損失,所述弱標記視差可自輸入影像中的對應一者或自地面實況生成。在一些實施例中,可藉由同時最佳化監督損失、無監督光度損失以及弱監督損失來訓練CV訓練系統102。
更詳細地,參考圖4,在一些實施例中,CV訓練系統102可接收對應於同一場景的不同視角(例如,不同立體視角)的多個輸入影像()。舉例而言,多個輸入影像()可包含可由不同源(例如,雙攝影機或不同攝影機)(例如,左攝影機及右攝影機)生成的左影像()及右影像()。
在一些實施例中,監督學習模組112可估計多個輸入影像()之間的視差()。舉例而言,視差可對應於左影像()與右影像()之間的差,其可類似於在一個方向(例如,左影像()與右影像()之間的移位方向)上的剛性運動。在此情況下,在一些實施例中,監督學習模組112可包含視差估計器(例如,視差估計網路)406以使用如本領域的技術人員應已知的任何合適的視差估計方法或演算法(例如,像素匹配、PSMNet或其他合適的深度神經網路及/或類似者)來估計左影像()與右影像()之間的視差()。舉例而言,在一些實施例中,視差估計器406可包含經訓練以估計左影像()與右影像()之間的視差()的神經網路(例如,CNN、RNN及/或類似者)。
在一些實施例中,無監督學習模組114可使用所估計視差()來生成扭曲影像()。在此情況下,扭曲影像()可自多個輸入影像()中的任一者生成。舉例而言,在一些實施例中,無監督學習模組114可包含扭曲影像變換器402。
在一些實施例中,扭曲影像變換器402可根據所估計視差()藉由扭曲左影像()及右影像()中的任一者來生成扭曲影像()。舉例而言,扭曲影像變換器402可基於所估計視差()而移位左影像()及右影像()中的一者以生成扭曲影像(例如,或)。在此情況下,因為視差可對應於左影像()與右影像()之間的差,若恰當地生成所估計視差(),則扭曲影像()可與另一影像(例如,左影像()及右影像()中的另一者的原始影像或真實影像)相同或實質上相同。舉例而言,若恰當地生成所估計視差(),若左影像()用於根據所估計視差()來生成扭曲影像(),則扭曲影像()可與右影像()相同或實質上相同。類似地,若恰當地生成所估計視差(),若右影像()用於根據所估計視差()來生成扭曲影像(),則扭曲影像()可與左影像()相同或實質上相同。
在一些實施例中,無監督學習模組114可根據基於估計視差()生成的扭曲影像()及多個輸入影像()中的另一者的(例如,不用於生成扭曲影像()的影像)原始影像來計算無監督光度損失()。舉例而言,在一些實施例中,無監督學習模組114可根據在等式8中展示的無監督損失函數來計算無監督光度損失()。
在等式8中,可對應於無監督損失,可對應於扭曲影像(例如,對應於如圖4的實例中所展示的左影像()),可對應於扭曲影像(例如,在圖4中所展示的實例中的左影像())的原始影像(或真實影像),可對應於來自多個輸入影像()的另一影像(例如,在圖4中所展示的實例中的右影像())的原始影像(或真實影像),可對應於由監督學習模組112輸出的所估計視差,且W可對應於扭曲運算符。
在一些實施例中,弱監督學習模組116可計算在弱標記視差()與由監督學習模組112生成的所估計視差()之間的弱監督損失()。因為視差可與深度成反比,故在一些實施例中,弱標記視差()可由弱標記生成器118以與弱標記深度()類似的方式生成。舉例而言,在一些實施例中,弱標記生成器118可自資訊(例如,語義分割圖及/或類似者)生成弱標記視差(),所述資訊自扭曲影像()的原始影像(或自地面實況視差())推導出。在各種實施例中,弱標記視差()可為基於像素或基於區塊的。因此,弱標記視差()可包含像素對(i,j)或區塊對(p,q),且可界定視差關係(例如,較小/較大),其可與像素對(i,j)的像素或區塊對(p,q)的區之間的深度成反比(例如,若區塊p的深度比區塊q更遠,則區塊p的深度大於區塊q的深度且區塊p的視差小於區塊q的視差)。
在一些實施例中,除了對應於所估計視差()及弱標記視差()的資訊可用作輸入以計算弱標記視差()與所估計視差()之間的弱監督損失()之外,弱監督學習模組116可使用與用於上文參考圖3所論述的單眼深度估計相同或實質上相同的弱監督損失函數(例如,等式4、等式5或等式6)來計算用於立體匹配的弱監督損失()。舉例而言,如於本領域具有通常知識者應瞭解,弱監督損失()可根據上文所論述的等式4、等式5或等式6中的任何合適的一者藉由以下來計算:使用對應於弱標記視差()的像素(i,j)或區(p,q)中的每一者的所估計視差資訊,而非使用對應於如在上文參考圖3所論述的單眼深度估計情況下對應於弱標記深度()的像素(i,j)或區(p,q)中的每一者的所估計深度()的深度關係。因此,可不重複其冗餘描述。
在一些實施例中,CV訓練系統102可經訓練以藉由最佳化監督損失函數(例如,等式7中所展示)、無監督損失函數(例如,等式8中所展示)以及弱監督損失函數(例如,等式4、等式5或等式6中所展示,其中對應於所估計視差()及弱標記視差()進行適當取代)來改良立體匹配。舉例而言,在一些實施例中,因為所估計視差()可用於計算監督損失()、無監督損失()以及弱監督損失()中的每一者,故聯合最佳化器120可根據例如如等式1中所展示的聯合損失函數()來聯合地最佳化監督損失函數、無監督損失函數以及弱監督損失函數。
圖5A及圖5B為根據本揭露的一或多個實例實施例的用於影像/視訊增強的電腦視覺訓練系統的多個學習策略構架的圖解。
在本揭露的一或多個實例實施例中,CV訓練系統102的多個學習策略構架可應用於影像/視訊增強。大體而言,影像/視訊增強為可用於將低解析度影像調整(例如,增強)為高解析度影像的CV應用。下文中,可參考圖5A及圖5B描述在超解析度(super-resolution;SR)網路的情形下的影像/視訊增強的非限制性實例,但本揭露不限於此,且參考圖5A及圖5B所描述的相同或實質上相同(例如,類似)架構(例如,多個學習策略構架)可用於具有適當修改的其他影像/視訊增強CV應用,如於本領域具有通常知識者應瞭解。
簡要概述,給定多個連續低解析度(low resolution;LR)輸入圖框,監督學習模組112可估計對應高解析度(high resolution;HR)影像作為監督輸出,且可計算所估計HR影像與HR影像的地面實況之間的監督損失。無監督學習模組114可生成(例如,可估計)對應於所估計HR影像的光流,且可根據光流來補償所估計HR影像中的光學運動。無監督學習模組114可計算扭曲的所估計HR影像之間的無監督光度損失。弱監督學習模組116可計算在所估計HR影像與弱標記HR影像之間的弱監督損失,所述弱標記HR影像可自LR輸入圖框或自地面實況生成。在一些實施例中,可藉由同時最佳化LR輸入圖框監督損失、無監督光度損失以及弱監督損失來訓練CV訓練系統102。
更詳細地,參考圖5A及圖5B,在一些實施例中,CV訓練系統102可接收多個連續LR輸入影像圖框(),其可由單個源(例如,單個攝影機)生成。舉例而言,多個連續LR輸入影像圖框()可包含可彼此鄰近的第一圖框()、第二圖框()以及第三圖框()。
在一些實施例中,監督學習模組112可估計來自LR輸入圖框()的HR影像()作為監督輸出。舉例而言,在一些實施例中,監督學習模組112可包含單個影像超解析度(single image super resolution;SISR)網路510以使用如本領域的技術人員應已知的任何合適的方法或演算法(例如,上取樣(例如,雙線性/雙三次上取樣)、基於稀疏碼的字典學習、CT-SRCNN或其他合適的神經網路及/或類似者)來估計來自LR輸入圖框()的HR影像()。舉例而言,在一些實施例中,SISR網路510可包含經訓練以估計來自LR輸入圖框()的HR影像()的神經網路(例如,CNN、RNN及/或類似者)。
在一些實施例中,監督學習模組112可計算在所估計HR影像()與HR影像的地面實況(或稱為地面實況HR影像()之間的監督損失()。舉例而言,在一些實施例中,監督學習模組112可根據在等式9中展示的監督損失函數來計算所估計HR影像()的每一對應圖框對與地面實況HR影像()之間的監督損失()。
在一些實施例中,無監督學習模組114可補償所估計HR影像()中的光學運動。舉例而言,在一些實施例中,無監督學習模組114可生成(例如,可估計)HR光流()以補償所估計HR影像()中的光學運動。光學運動可類似於剛性運動,但可為基於全局而非基於對象的。因此,雖然剛性運動考慮3D運動(例如,包含深度尺寸),但光學運動可考慮所估計HR影像()的2D空間(例如2D影像座標)中的運動。
在各種實施例中,無監督學習模組114可生成(例如,可估計)自LR輸入圖框()的圖框至圖框的HR光流(),例如,如圖5A中所展示,或可生成(例如,可估計)直接自所估計HR影像()的圖框至圖框的HR光流(),例如如圖5B中所展示。因此,在一些實施例中,無監督學習模組114可包含光流估計器502及光流SR生成器504以如圖5A中所展示自LR輸入圖框()生成HR光流(),或可包含光流估計器503以如圖5B中所展示直接自所估計HR影像()生成HR光流()。
參考圖5A,在一些實施例中,光流估計器502可生成自LR輸入圖框()的圖框至圖框的LR光流()。舉例而言,在一些實施例中,光流估計器502可生成自LR輸入圖框()的圖框()至圖框()的LR光流(),以及自圖框()至圖框()的LR光流()。光流估計器502可使用如本領域的技術人員應已知的任何合適的光流估計方法或演算法(例如,TV-L1光流估計、PWCNet或其他合適的神經網路及/或類似者)來生成LR光流()。舉例而言,在一些實施例中,光流估計器502可包含經訓練以估計自LR輸入圖框()的圖框至圖框的LR光流()的神經網路(例如,CNN、RNN及/或類似者)。
在一些實施例中,光流SR生成器504可對LR光流()上取樣以生成(例如,估計)HR光流()。舉例而言,在一些實施例中,光流SR生成器504可使用任何合適的上取樣方法或演算法(例如,雙線性/雙三次內插)來對LR光流()上取樣,或可包含經訓練以自LR光流()生成HR光流()的深度神經網路(例如,CNN、RNN及/或類似者)。
參考圖5B,在一些實施例中,光流估計器503可生成直接自所估計HR影像()的圖框至圖框的HR光流()。在此情況下,可省略光流SR生成器504(例如,見圖5A)。舉例而言,在一些實施例中,光流估計器503可生成直接自所估計HR影像()的圖框()至圖框()的HR光流(),以及自圖框()至圖框()的HR光流()。光流估計器503可使用如本領域的技術人員應已知的任何合適的光流估計方法或演算法(例如,TV-L1光流估計、PWCNet或其他合適的神經網路及/或類似者)來生成HR光流()。舉例而言,在一些實施例中,光流估計器503可包含經訓練以估計直接自所估計HR影像()的圖框至圖框的HR光流()的神經網路(例如,CNN、RNN及/或類似者)。
在一些實施例中,無監督學習模組114可使用HR光流()(例如,由光流SR生成器504或由光流估計器503輸出)及所估計HR影像()來補償所估計HR影像()中的光學運動。舉例而言,如圖5A及圖5B中所展示,在一些實施例中,無監督學習模組114可包含2D扭曲影像變換器506。在一些實施例中,2D扭曲影像變換器506可根據HR光流()來扭曲所估計HR影像()的2D影像,以將光學運動與所估計HR影像()隔離。
在一些實施例中,無監督學習模組114可基於HR光流()及所估計HR影像()來計算無監督光度損失()。舉例而言,在一些實施例中,無監督學習模組114可根據在等式10中展示的無監督損失函數來計算無監督光度損失()。
在等式10中,可對應於無監督損失,可對應於第一LR輸入影像圖框()的所估計高解析度影像,可對應於第二LR輸入影像圖框()的所估計高解析度影像,可對應於第三LR輸入影像圖框()的所估計高解析度影像,可對應於自圖框至圖框的光流,可對應於自圖框至圖框的光流,可對應於2D扭曲,且W可對應於扭曲運算符。
在一些實施例中,弱監督學習模組116可計算在弱標記HR圖框(,)與由監督學習模組112生成的對應所估計HR影像()之間的弱監督損失()。舉例而言,在一些實施例中,弱標記生成器118可自資訊(例如,語義分割圖及/或類似者)生成弱標記LR圖框(,),所述資訊自LR輸入影像圖框()推導出。在此情況下,在一些實施例中,弱監督學習模組116可包含上取樣器514以對弱標記LR圖框(,)上取樣從而生成弱標記HR圖框(,),但本揭露不限於此。舉例而言,在其他實施例中,弱標記生成器118可直接自地面實況HR影像()生成弱標記HR圖框(,),且在此情況下,可省略上取樣器514。
在各種實施例中,弱標記HR圖框(,)可為基於像素或基於區塊的。因此,弱標記HR圖框(,)可包含像素對(i,j)或區塊對(p,q),且可界定像素對(i,j)的像素與區塊對(p,q)的區之間的強度關係(例如,更亮/更暗)。
在一些實施例中,除了對應於所估計HR影像()及弱標記HR圖框(,)的資訊可用作輸入以計算弱標記HR圖框(,)與所估計HR影像()之間的弱監督損失()之外,弱監督學習模組116可使用與用於上文參考圖3所論述的單眼深度估計相同或實質上相同的弱監督損失函數(例如,等式4、等式5或等式6)來計算用於影像/視訊增強的弱監督損失()。舉例而言,如於本領域具有通常知識者應瞭解,弱監督損失()可根據上文所論述的等式4、等式5或等式6中的任何合適的一者藉由以下來計算:使用對應於用於對應於弱標記HR圖框(,)的像素(i,j)或區(p,q)中的每一者的所估計HR影像()的強度關係(例如,更亮/更暗),而非使用對應於如在上文參考圖3所論述的單眼深度估計情況下對應於弱標記深度()的像素(i,j)或區(p,q)中的每一者的所估計深度()的深度關係(例如,更靠近/更遠)。因此,可不重複其冗餘描述。
在一些實施例中,CV訓練系統102可經訓練以藉由最佳化監督損失函數(例如,等式9中所展示)、無監督損失函數(例如,等式10中所展示)以及弱監督損失函數(例如,等式4、等式5或等式6中所展示,其中對應於所估計HR影像()及弱標記HR圖框(,)進行適當取代)來改良影像/視訊增強。舉例而言,在一些實施例中,因為所估計HR影像()可用於計算監督損失()、無監督損失()以及弱監督損失()中的每一者,故聯合最佳化器120可根據例如如等式1中所展示的聯合損失函數()來聯合地最佳化監督損失函數、無監督損失函數以及弱監督損失函數。
圖6為根據本揭露的一或多個實例實施例的用於多視角深度估計的電腦視覺訓練系統的多個學習策略構架的圖解。
在本揭露的一或多個實例實施例中,CV訓練系統102的多個學習策略構架可應用於多視角深度估計。大體而言,多視角深度估計為CV應用,所述CV應用可用於對準具有彼此不同視角(例如,不同視野)的不同輸入影像的逐像素深度圖。類似於立體匹配,用於多視角深度估計的輸入影像可自不同源(例如,不同攝影機)生成,但與其中不同源可彼此良好對準的立體匹配不同,生成用於多視角深度估計的多個視角的源(例如,攝影機)可彼此並不良好對準。對於非限制性實例,一個視角可為對象或場景的正視角,且另一視角可為對象或場景的側視角。
簡要概述,給定包含彼此不同視角(例如,不同視野)的多個輸入影像,監督學習模組112可估計輸入影像中的每一者中展示的對象的深度作為監督輸出,且可計算在用於輸入影像中的每一者的所估計深度與對應於用於輸入影像中的每一者的所估計深度的地面實況之間的監督損失。無監督學習模組114可根據用於輸入影像中的每一者的所估計深度來生成用於輸入影像中的每一者的3D點雲,且可基於輸入影像的3D點雲中的對準特徵點的3D座標之間的距離而計算無監督光度損失。弱監督學習模組116可計算在用於輸入影像中的每一者的所估計深度與用於輸入影像中的每一者的弱標記深度之間的弱監督損失,所述弱標記深度可自輸入影像或自地面實況生成。在一些實施例中,可藉由同時最佳化監督損失、無監督光度損失以及弱監督損失來訓練CV訓練系統102。
更詳細地,參考圖6,在一些實施例中,CV訓練系統102可接收對應於同一場景的不同視角(例如,不同視野)的多個輸入影像()。舉例而言,多個輸入影像()可包含可由具有彼此不同視野的不同源(例如,不同攝影機)(例如,前置攝影機及側視攝影機)生成的第一影像()及第二影像()。雖然作為簡化實例,圖6展示兩個影像()及影像()作為輸入影像(),但本揭露不限於此,且輸入影像可包含大於兩個輸入影像()。
在一些實施例中,監督學習模組112可估計輸入影像()中的每一者中的對象的深度()作為監督輸出。舉例而言,在一些實施例中,監督學習模組112可包含深度估計器(例如,深度估計網路)606以使用如本領域的技術人員應已知的任何合適的深度估計方法或演算法(例如,條件式隨機場、編碼器解碼器網路及/或類似者)來估計輸入影像()中的每一者中的深度()。舉例而言,在一些實施例中,深度估計器606可包含一或多個編碼器解碼器對(例如,編碼器解碼器對的網路)以估計輸入影像()中的每一者中的對象的深度()。
在一些實施例中,監督學習模組112可計算在輸入影像()中的每一者的所估計深度()與用於輸入影像()中的每一者的所估計深度的地面實況()之間的監督損失()。舉例而言,在一些實施例中,監督學習模組112可根據在等式11中展示的監督損失函數來計算監督損失()。
在一些實施例中,無監督學習模組114可包含逆投影及校準影像變換器602以根據輸入影像()的所估計深度()將輸入影像()中的每一者逆投影至3D空間(例如,攝影機座標),且藉由外部矩陣進一步逆投影至世界座標。在一些實施例中,逆投影及校準影像變換器602可生成世界座標中的用於輸入影像()中的每一者的3D點雲,且可校準(例如,可對準)彼此對應的3D點雲中的每一者中的共同特徵點。換言之,在一些實施例中,逆投影及校準影像變換器602可基於所估計深度()根據3D世界座標來識別輸入影像()中的共同區,且可根據識別出的共同區來將輸入影像()的3D世界座標彼此校準(例如,可對準)。
在一些實施例中,無監督學習模組114可基於輸入影像()中的每一者的3D點雲中的經對準特徵點的3D座標之間的距離而計算無監督光度損失()。舉例而言,在一些實施例中,無監督學習模組114可根據在等式12中展示的無監督損失函數來計算無監督光度損失()。
在等式12中,可對應於無監督損失,x可對應於兩個攝影機的共同區中出現的像素,可對應於由第一攝影機對準的像素x的3D世界座標,可對應於由第二攝影機對準的像素x的3D世界座標,且可對應於兩個座標之間的歐氏距離(Euclidean distance)。
在一些實施例中,弱監督學習模組116可計算在對應於輸入影像()中的每一者的弱標記深度()與由用於輸入影像()中的每一者的監督學習模組112生成的所估計深度()之間的弱監督損失()。舉例而言,在一些實施例中,弱標記生成器118可生成用於輸入影像()中的每一者的弱標記深度(),且弱監督學習模組116可以與上文參考圖3在單眼深度估計情況下所描述的那些相同或實質上相同的方式計算弱標記深度()與所估計深度()之間的弱監督損失(),且因此,可不重複其冗餘描述。
在一些實施例中,CV訓練系統102可經訓練以藉由同時最佳化監督損失函數(例如,等式11中所展示)、無監督損失函數(例如,等式12中所展示)以及弱監督損失函數(例如,等式4、等式5或等式6中所展示)來改良多視角深度估計。舉例而言,在一些實施例中,因為所估計深度()可用於計算監督損失()、無監督損失()以及弱監督損失()中的每一者,故聯合最佳化器120可根據例如如等式1中所展示的聯合損失函數()來聯合地最佳化監督損失函數、無監督損失函數以及弱監督損失函數。
下表1說明根據本揭露的一或多個實例實施例的CV訓練系統102的各種不同多個學習策略構架的有效性。作為一非限制性實例,表1說明適用於上文參考圖3所描述的使用KITTI街道視角資料集作為訓練資料集的單眼深度估計CV應用的CV訓練系統102的各種不同學習策略構架。
表1:
ML 構架 | RMSE ( 以米為單位 , 愈低愈好 ) | REL ( 以 % 為單位 , 愈低愈好 ) |
S | 3.454 | 6.64 |
S+U | 2.362 | 5.32 |
S+W | 3.147 | 5.78 |
S+U+W | 2.191 | 4.62 |
在表1中,RMSE可對應於均方根誤差,REL可對應於相對誤差,S可僅表示監督學習構架,S+U可表示監督學習構架加上無監督學習構架,S+W可表示監督學習構架加上弱監督學習構架,且S+U+W可表示監督學習構架加上無監督學習構架加上弱監督學習構架。
如表1中所展示,監督學習構架加上無監督學習構架S+U及監督學習構架加上弱監督學習構架S+W中的每一者比僅監督學習構架S更佳地執行。另外,監督學習構架加上無監督學習構架加上弱監督學習構架S+U+W可比監督學習構架加上無監督學習構架S+U及監督學習構架加上弱監督學習構架S+W中的每一者更佳地執行。因此,更準確深度學習神經網路可藉由組合此等構架中的至少兩者提供,如根據本揭露的一或多個實例實施例在上文所描述。
圖7A及圖7B為根據本揭露的一或多個實例實施例的說明適用於上文所描述的各種不同電腦視覺應用的電腦視覺訓練系統的多個學習策略構架的概述的表格。圖8為根據本揭露的一或多個實例實施例的訓練電腦視覺訓練系統的方法的流程圖。本揭露不限於圖8中展示的方法800的操作的順序或數目,且可更改成如於本領域具有通常知識者所公認的操作的任何所要順序或數目。舉例而言,在一些實施例中,次序可變化,或方法可包含更少或額外操作。另外,方法800中展示的操作可由上文所描述的一或多個實例實施例的那些的組件中的任何合適一者或組件的任何合適組合執行。
參考圖7A、圖7B及圖8,多圖框/多影像輸入可由CV訓練系統102接收且方法800可開始。舉例而言,視目標CV應用而定,多圖框/多影像輸入可由單個源(例如,單個攝影機)或由多個源(例如,雙攝影機或不同攝影機)生成。可在區塊805處估計多圖框/多影像輸入的監督輸出。在一些實施例中,監督學習模組112可根據目標CV應用來估計監督輸出。舉例而言,監督輸出(例如,所估計監督項)可在目標CV應用對應於單眼深度估計的情況下對應於深度(),在目標CV應用對應於立體匹配的情況下對應於視差(),在目標CV應用對應於影像/視訊增強的情況下對應於HR影像(),及/或在目標CV應用對應於多視角深度估計的情況下對應於多視角深度()。
在一些實施例中,可在區塊810處根據所估計監督輸出及地面實況來判定監督損失。舉例而言,在一些實施例中,監督學習模組112可根據所估計監督輸出及對應於監督輸出的地面實況來判定(例如,可生成、可計算、可最小化及/或類似操作)監督損失()函數。在此情況下,例如,監督損失()可在目標CV應用對應於單眼深度估計的情況下在深度()與地面實況深度()之間對應,在目標CV應用對應於立體匹配的情況下在視差()與地面實況視差()之間對應,在目標CV應用對應於影像/視訊增強的情況下在HR影像()與地面實況HR影像()之間對應,及/或在目標CV應用對應於多視角深度估計的情況下在多視角深度()與地面實況多視角深度()之間對應。
在一些實施例中,可在區塊815處根據多圖框/多影像輸入及所估計監督輸出來判定無監督損失。舉例而言,在一些實施例中,無監督學習模組114可使用監督輸出來變換或扭曲對應於多圖框/多影像輸入中的一或多者的影像。舉例而言,變換或扭曲影像可在目標CV應用對應於單眼深度估計的情況下對應於基於所估計深度()的剛性運動補償及2D至3D座標投影,在目標CV應用對應於立體匹配的情況下對應於基於所估計視差()的所生成扭曲影像(),在目標CV應用對應於影像/視訊增強的情況下對應於基於所估計HR影像()的光流估計及2D HR影像扭曲,及/或在目標CV應用對應於多視角深度估計的情況下對應於基於所估計多視角深度()的3D點雲中的對準點的視角投影及校準。
在一些實施例中,無監督學習模組114可使用變換或扭曲影像來判定(例如,生成、計算、最小化及/或類似者)無監督損失()函數。舉例而言,在一些實施例中,無監督損失()函數可在目標CV應用對應於單眼深度估計的情況下對應於基於所估計深度()的剛性運動補償及2D至3D座標投影與多圖框/多影像輸入的對應原始(或真實影像)之間的光度損失,在目標CV應用對應於立體匹配的情況下對應於基於所估計視差()的所生成扭曲影像()與扭曲影像的原始(或真實影像)之間的光度損失,在目標CV應用對應於影像/視訊增強的情況下對應於基於所估計HR影像()的光流估計及2D HR影像扭曲與所估計HR光流之間的光度損失,及/或在目標CV應用對應於多視角深度估計的情況下對應於基於所估計多視角深度()的3D點雲中的對準點之間的距離。
在一些實施例中,可在區塊820處弱標記(例如,弱監督標記)可對應於生成竹多圖框/多影像輸入。舉例而言,在一些實施例中,弱標記生成器118可自多圖框/多影像輸入或自對應地面實況生成弱標記。由弱標記生成器118生成的弱標記可為基於像素或基於區塊的,且可界定用於目標CV應用的弱標記的像素對或區塊對之間的合適的關係(例如,深度關係、視差關係、強度關係及/或類似者)。
在一些實施例中,可在區塊825處根據弱標記及所估計監督輸出來判定弱監督損失。舉例而言,在一些實施例中,弱監督學習模組116可判定(例如,可生成、可計算、可最小化及/或類似操作)弱監督損失()函數以將弱標記與所估計監督輸出進行比較。在此情況下,弱監督損失()函數可在目標CV應用對應於單眼深度估計的情況下評估在弱標記深度()與所估計深度()之間的一致性,在目標CV應用對應於立體匹配的情況下評估在弱標記視差()與所估計視差()之間的一致性,在目標CV應用對應於影像/視訊增強的情況下評估在弱標記HR圖框(,)與所估計HR影像()之間的一致性,及/或在目標CV應用對應於多視角深度估計的情況下評估在弱標記深度()與所估計深度()之間的一致性。
在一些實施例中,可在區塊830處根據監督損失、無監督損失以及弱監督損失來計算組合損失函數。舉例而言,在一些實施例中,聯合最佳化器120可根據監督損失()函數、無監督損失()函數以及弱監督損失()函數來生成(例如,可判定、可計算、可最小化及/或類似操作)聯合損失函數(),例如,如等式1中所展示。在一些實施例中,聯合最佳化器120可應用合適的權重()以平衡聯合損失函數()中的監督損失()函數、無監督損失()函數以及弱監督損失()函數中的每一者。舉例而言,在一些實施例中,可根據用於對應CV應用的消融研究來判定(例如,可設置)權重()。
在一些實施例中,可在區塊835處最佳化組合損失函數,且方法800可結束。舉例而言,在一些實施例中,CV訓練系統102可藉由最佳化(例如,最小化)對應於監督損失()函數、無監督損失()函數以及弱監督損失()函數的聯合損失函數()來針對對應CV應用進行端對端訓練。根據本揭露的一或多個實例實施例,因為所估計監督輸出可用於計算監督損失()、無監督損失()以及弱監督損失()中的每一者,故聯合最佳化器120可使用例如如等式1中所展示的聯合損失函數()來同時最佳化監督損失()函數、無監督損失()函數以及弱監督損失()函數。因此,可改良CV訓練系統102的效能。
在圖式中,為了清楚起見,可能會放大及/或簡化元件、層以及區的相對大小。出於易於解釋之目的,可在本文中使用空間相對術語,諸如「在…以下」、「在…下方」、「下部」、「在…下」、「在…上方」、「上部」以及類似者,以描述如圖式中所說明的一個元件或特徵與另一(一些)元件或特徵的關係。應理解,除圖式中所描繪的定向外,空間相對術語意欲涵蓋裝置在使用或操作中的不同定向。舉例而言,若圖中的裝置翻轉,則描述為「在」其他元件或特徵「下方」或「以下」或「下面」的元件將接著定向為「在」其他元件或特徵「上方」。因此,實例術語「在…下方」及「在…下」可涵蓋上方及下方的定向兩者。裝置可以其他方式定向(例如,旋轉90度或處於其他定向),且本文中所使用的空間相對描述詞可相應地進行解釋。
應理解,儘管在本文中可使用術語「第一」、「第二」、「第三」等以描述各種元件、組件、區、層及/或區段,但這些元件、組件、區、層及/或區段不應受這些術語限制。這些術語用於區分一個元件、組件、區、層及/或區段與另一元件、組件、區、層或區段。因此,在不脫離本揭露的精神及範疇的情況下,下文描述的第一元件、組件、區、層或區段可稱為第二元件、組件、區、層或區段。
應理解,當稱元件或層在另一元件或層「上」、「連接至」另一元件或層或「耦接至」另一元件或層時,其可直接在所述另一元件或層上、連接至所述另一元件或層或耦接至所述另一元件或層,或可存在一或多個介入元件或層。另外,亦將理解當元件或層稱作「在」兩個元件或層「之間」時,所述元件或層可為在兩個元件或層之間的唯一元件或層,或亦可存在一或多個介入元件或層。
本文中所使用的術語出於描述特定實施例的目的,且並不意欲限制本揭露。如本文中所使用,除非上下文另外明確指示,否則單數形式「一(a/an)」亦意欲包含複數形式。應進一步瞭解,術語「包括(comprises/comprising)」、「包含(includes/including)」以及「具有(has/have/having)」當用於本說明書中時指定所陳述特徵、整數、步驟、操作、元件及/或組件的存在,但不排除一或多個其他特徵、整數、步驟、操作、元件、組件及/或其群組的存在或新增。如本文中所使用,術語「及/或」包含相關聯所列項目中的一或多者的任何及所有組合。諸如「…中的至少一者」的表述在位於元件清單之前時修飾元件的整個清單,而並不修飾清單的個別元件。
如本文中所使用,術語「實質上」、「約」以及類似術語用作表示近似的術語且並不用作表示程度的術語,且意欲考慮將由於本領域具有通常知識者所公認的量測值或計算值的固有偏差。另外,當描述本揭露的實施例時,「可」的使用指代「本揭露的一或多個實施例」。如本文中所使用,術語「使用(use/using/used)」可分別視為與術語「利用(utilize/utilizing/utilized)」同義。此外,術語「例示性」意欲指代實例或說明。
本文中所描述的根據本揭露的實施例的電子裝置或電氣裝置及/或任何其他相關裝置或組件可利用任何合適的硬體、韌體(例如特殊應用積體電路)、軟體或軟體、韌體以及硬體的組合來實施。舉例而言,這些裝置的各種組件可形成於一個積體電路(integrated circuit;IC)晶片上或單獨IC晶片上。另外,這些裝置的各種組件可實施於可撓性印刷電路膜、帶載體封裝(tape carrier package;TCP)、印刷電路板(printed circuit board;PCB)上或形成於一個基板上。另外,這些裝置的各種組件可為程序或執行緒,其在一或多個處理器上運行、在一或多個計算裝置中運行、執行電腦程式指令且與其他系統組件交互以用於執行本文中所描述的各種功能性。電腦程式指令儲存於記憶體中,所述記憶體可使用諸如隨機存取記憶體(random access memory;RAM)的標準記憶體裝置來實施於計算裝置中。電腦程式指令亦可儲存於諸如CD-ROM、快閃驅動器或類似者的其他非暫時性電腦可讀媒體中。此外,本領域的技術人員應認識到,在不脫離本揭露的例示性實施例的精神及範疇的情況下,各種計算裝置的功能性可經組合或整合至單個計算裝置中,或特定計算裝置的功能性可橫跨一或多個其他計算裝置分佈。
除非另外定義,否則本文所使用的所有術語(包含技術及科學術語)具有與於本揭露所屬領域具有通常知識者所通常理解的相同的意義。應進一步理解,術語(諸如常用詞典中所定義的那些術語)應解釋為具有與其在相關技術及/或本說明書的上下文中的含義一致的含義,且不應以理想化或過分正式意義進行解釋,除非本文中明確地如此定義。
雖然已描述一些實例實施例,但本領域的技術人員將易於理解在不脫離本揭露的精神及範疇的情況下各種修改在實例實施例中為可能的。將理解,除非另外描述,否則每一實施例內的特徵或態樣的描述應通常視為可用於其他實施例中的其他類似特徵或態樣。因此,應理解,前述內容為各種實例實施例的說明且並不解釋為限於本文中揭露的特定實例實施例,且對所揭露實例實施例以及其他實例實施例的各種修改意欲包含於如隨附申請專利範圍及其等效物所定義的本揭露的精神及範疇內。
102:電腦視覺訓練系統
104:多圖框/多視角影像
105:地面實況
106:處理電路
108:處理器
110:記憶體
112:監督學習模組
114:無監督學習模組
116:弱監督學習模組
118:弱標記生成器
120:聯合最佳化器
302:位姿估計器
304:投影及扭曲影像變換器
308、606:深度估計器
402:扭曲影像變換器
406:視差估計器
502、503:光流估計器
504:光流SR生成器
506:2D扭曲影像變換器
510:SISR網路
514:上取樣器
602:逆投影及校準影像變換器
800:方法
805、810、815、820、825、830、835:區塊
參考隨附圖式,本揭露的以上及其他態樣及特徵將自實例實施例的以下詳細描述變得對本領域的技術人員更顯而易見。
圖1為根據本揭露的一或多個實例實施例的電腦視覺訓練系統的方塊圖。
圖2為根據本揭露的一或多個實例實施例的電腦視覺訓練系統的多個學習策略構架的圖解。
圖3為根據本揭露的一或多個實例實施例的用於單眼深度估計的電腦視覺訓練系統的多個學習策略構架的圖解。
圖4為根據本揭露的一或多個實例實施例的用於立體匹配的電腦視覺訓練系統的多個學習策略構架的圖解。
圖5A至圖5B為根據本揭露的一或多個實例實施例的用於影像/視訊增強的電腦視覺訓練系統的多個學習策略構架的圖解。
圖6為根據本揭露的一或多個實例實施例的用於多視角深度估計的電腦視覺訓練系統的多個學習策略構架的圖解。
圖7A至圖7B為根據本揭露的一或多個實例實施例的說明應用於各種電腦視覺應用的電腦視覺訓練系統的多個學習策略構架的概述的表格。
圖8為根據本揭露的一或多個實例實施例的訓練電腦視覺訓練系統的方法的流程圖。
112:監督學習模組
114:無監督學習模組
116:弱監督學習模組
118:弱標記生成器
120:聯合最佳化器
502:光流估計器
504:光流SR生成器
506:2D扭曲影像變換器
510:SISR網路
514:上取樣器
Claims (20)
- 一種電腦視覺(CV)訓練系統,包括: 監督學習系統,經組態以根據目標電腦視覺應用來估計來自一或多個輸入影像的監督輸出,且根據所述監督輸出及所述監督輸出的地面實況來判定監督損失; 無監督學習系統,經組態以根據所述監督輸出及所述一或多個輸入影像來判定無監督損失; 弱監督學習系統,經組態以根據所述監督輸出及對應於所述一或多個輸入影像的弱標記來判定弱監督損失;以及 聯合最佳化器,經組態以最佳化所述監督損失、所述無監督損失以及所述弱監督損失。
- 如請求項1所述的系統,其中所述目標電腦視覺應用對應於單眼深度估計,且所述監督輸出對應於自來自所述一或多個輸入影像的目標影像估計的深度。
- 如請求項2所述的系統,其中所述無監督學習系統經組態以根據所估計的所述深度來將對應於所述一或多個輸入影像的2維(2D)影像座標轉換成3維(3D)座標,且至少基於所述3維座標而計算所述無監督損失。
- 如請求項1所述的系統,其中所述目標電腦視覺應用對應於立體匹配,且所述監督輸出對應於在來自所述一或多個輸入影像的左影像與右影像之間估計的視差。
- 如請求項4所述的系統,其中所述無監督學習系統經組態以根據所估計的所述視差來移位所述左影像及所述右影像中的一者以生成扭曲影像,且至少基於所述扭曲影像而計算所述無監督損失。
- 如請求項1所述的系統,其中所述目標電腦視覺應用對應於影像/視訊增強,且所述監督輸出對應於自來自所述一或多個輸入影像的低解析度輸入影像估計的高解析度影像。
- 如請求項6所述的系統,其中所述無監督學習系統經組態以估計對應於所估計的所述高解析度影像的光流,且至少基於所估計的所述光流及所估計的所述高解析度影像而計算所述無監督損失。
- 如請求項1所述的系統,其中所述目標電腦視覺應用對應於多視角深度估計,且所述監督輸出對應於在來自所述一或多個輸入影像的多個輸入圖框中的每一者中估計的深度。
- 如請求項1所述的系統,其中所述聯合最佳化器經組態以根據聯合損失函數來同時最佳化所述監督損失、所述無監督損失以及所述弱監督損失,所述聯合損失函數包含所述監督損失、所述無監督損失以及所述弱監督損失的對應權重。
- 如請求項1所述的系統,更包括弱標記生成器,所述弱標記生成器用以生成所述弱標記作為具有區塊對的基於區塊的弱標記,所述區塊對對應於所述一或多個輸入影像的不同裁剪區,所述基於區塊的弱標記界定對應於所述區塊對的所述裁剪區之間的所述監督輸出的關係。
- 一種用於訓練電腦視覺(CV)系統的方法,所述方法包括: 根據目標電腦視覺應用來估計來自一或多個輸入影像的監督輸出; 根據所述監督輸出及所述監督輸出的地面實況來判定監督損失; 根據所述監督輸出及所述一或多個輸入影像來判定無監督損失; 根據所述監督輸出及對應於所述一或多個輸入影像的弱標記來判定弱監督損失;以及 最佳化所述監督損失、所述無監督損失以及所述弱監督損失。
- 如請求項11所述的方法,其中所述目標電腦視覺應用對應於單眼深度估計,且所述監督輸出對應於自來自所述一或多個輸入影像的目標影像估計的深度。
- 如請求項12所述的方法,更包括: 根據所估計的所述深度來將對應於所述一或多個輸入影像的2維(2D)影像座標轉換成3維(3D)座標;以及 至少基於所述3維座標而計算所述無監督損失。
- 如請求項11所述的方法,其中所述目標電腦視覺應用對應於立體匹配,且所述監督輸出對應於在來自所述一或多個輸入影像的左影像與右影像之間估計的視差。
- 如請求項14所述的方法,更包括: 根據所估計的所述視差來移位所述左影像及所述右影像中的一者以生成扭曲影像;以及 至少基於所述扭曲影像而計算所述無監督損失。
- 如請求項11所述的方法,其中所述目標電腦視覺應用對應於影像/視訊增強,且所述監督輸出對應於自來自所述一或多個輸入影像的低解析度輸入影像估計的高解析度影像。
- 如請求項16所述的方法,更包括: 估計對應於所估計的所述高解析度影像的光流;以及 至少基於所估計的所述光流及所估計的所述高解析度影像而計算所述無監督損失。
- 如請求項11所述的方法,其中所述目標電腦視覺應用對應於多視角深度估計,且所述監督輸出對應於在來自所述一或多個輸入影像的多個輸入圖框中的每一者中估計的深度。
- 如請求項11所述的方法,其中所述最佳化包括: 根據聯合損失函數來同時最佳化所述監督損失、所述無監督損失以及所述弱監督損失,所述聯合損失函數包含所述監督損失、所述無監督損失以及所述弱監督損失的對應權重。
- 如請求項11所述的方法,更包括: 生成所述弱標記作為具有區塊對的基於區塊的弱標記,所述區塊對對應於所述一或多個輸入影像的不同裁剪區,所述基於區塊的弱標記界定對應於所述區塊對的所述裁剪區之間的所述監督輸出的關係。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962927625P | 2019-10-29 | 2019-10-29 | |
US62/927,625 | 2019-10-29 | ||
US202062966975P | 2020-01-28 | 2020-01-28 | |
US62/966,975 | 2020-01-28 | ||
US16/872,199 | 2020-05-11 | ||
US16/872,199 US11429805B2 (en) | 2019-10-29 | 2020-05-11 | System and method for deep machine learning for computer vision applications |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202117611A true TW202117611A (zh) | 2021-05-01 |
Family
ID=75585924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109137018A TW202117611A (zh) | 2019-10-29 | 2020-10-26 | 電腦視覺訓練系統及訓練電腦視覺系統的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11429805B2 (zh) |
KR (1) | KR20210053202A (zh) |
CN (1) | CN112750133A (zh) |
TW (1) | TW202117611A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI823416B (zh) * | 2022-06-08 | 2023-11-21 | 鴻海精密工業股份有限公司 | 深度估計網路之訓練方法、裝置、電子設備及存儲介質 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11868439B2 (en) * | 2020-11-13 | 2024-01-09 | Toyota Research Institute, Inc. | Mixed-batch training of a multi-task network |
US20220189049A1 (en) * | 2020-12-12 | 2022-06-16 | Niantic, Inc. | Self-Supervised Multi-Frame Monocular Depth Estimation Model |
US20230035454A1 (en) * | 2021-07-23 | 2023-02-02 | Waymo Llc | Generating optical flow labels from point clouds |
CN113780390B (zh) * | 2021-08-31 | 2023-06-09 | 中国人民解放军战略支援部队信息工程大学 | 基于重构映射一致的无监督密集匹配方法及系统 |
CN114299429A (zh) * | 2021-12-24 | 2022-04-08 | 宁夏广天夏电子科技有限公司 | 一种基于深度学习的人体识别方法、系统及装置 |
US20230245450A1 (en) * | 2022-02-03 | 2023-08-03 | Robert Bosch Gmbh | Learning semantic segmentation models in the absence of a portion of class labels |
US11856203B1 (en) * | 2022-03-22 | 2023-12-26 | Apple Inc. | Neural face video compression using multiple views |
CN116563549B (zh) * | 2023-05-16 | 2023-12-15 | 中国人民解放军国防科技大学 | 基于粗粒度弱标注的磁共振图像心脏分割方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2467401A1 (en) | 2001-11-16 | 2003-05-30 | Yuan Yan Chen | Pausible neural network with supervised and unsupervised cluster analysis |
US7039239B2 (en) | 2002-02-07 | 2006-05-02 | Eastman Kodak Company | Method for image region classification using unsupervised and supervised learning |
US8296247B2 (en) | 2007-03-23 | 2012-10-23 | Three Palm Software | Combination machine learning algorithms for computer-aided detection, review and diagnosis |
US9104186B2 (en) | 2012-06-04 | 2015-08-11 | Brain Corporation | Stochastic apparatus and methods for implementing generalized learning rules |
US9224071B2 (en) | 2012-11-19 | 2015-12-29 | Microsoft Technology Licensing, Llc | Unsupervised object class discovery via bottom up multiple class learning |
US9594983B2 (en) | 2013-08-02 | 2017-03-14 | Digimarc Corporation | Learning systems and methods |
US10115055B2 (en) | 2015-05-26 | 2018-10-30 | Booking.Com B.V. | Systems methods circuits and associated computer executable code for deep learning based natural language understanding |
US10824916B2 (en) * | 2018-09-10 | 2020-11-03 | Sri International | Weakly supervised learning for classifying images |
-
2020
- 2020-05-11 US US16/872,199 patent/US11429805B2/en active Active
- 2020-10-21 KR KR1020200136606A patent/KR20210053202A/ko unknown
- 2020-10-26 TW TW109137018A patent/TW202117611A/zh unknown
- 2020-10-29 CN CN202011179933.3A patent/CN112750133A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI823416B (zh) * | 2022-06-08 | 2023-11-21 | 鴻海精密工業股份有限公司 | 深度估計網路之訓練方法、裝置、電子設備及存儲介質 |
Also Published As
Publication number | Publication date |
---|---|
KR20210053202A (ko) | 2021-05-11 |
US11429805B2 (en) | 2022-08-30 |
CN112750133A (zh) | 2021-05-04 |
US20210124985A1 (en) | 2021-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW202117611A (zh) | 電腦視覺訓練系統及訓練電腦視覺系統的方法 | |
KR102295403B1 (ko) | 깊이 추정 방법 및 장치, 전자 기기, 프로그램 및 매체 | |
US10867430B2 (en) | Method and system of 3D reconstruction with volume-based filtering for image processing | |
WO2019223382A1 (zh) | 单目深度估计方法及其装置、设备和存储介质 | |
US20220391632A1 (en) | System and method for deep machine learning for computer vision applications | |
US20220222776A1 (en) | Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution | |
JP6902122B2 (ja) | ダブル視野角画像較正および画像処理方法、装置、記憶媒体ならびに電子機器 | |
KR100793838B1 (ko) | 카메라 모션 추출장치, 이를 이용한 해상장면의 증강현실 제공 시스템 및 방법 | |
CN111028155B (zh) | 一种基于多对双目相机的视差图像拼接方法 | |
Zhu et al. | Cross-modality 3d object detection | |
CN115205489A (zh) | 一种大场景下的三维重建方法、系统及装置 | |
CN107767339B (zh) | 一种双目立体图像拼接方法 | |
KR20120021666A (ko) | 파노라마 영상 생성 방법 | |
CN109389667B (zh) | 一种基于深度学习的高效全局光照明绘制方法 | |
CN106447602A (zh) | 一种图像拼接方法及装置 | |
WO2021027543A1 (zh) | 基于单目图像的模型训练方法、装置及数据处理设备 | |
Cheng et al. | Omnidirectional depth extension networks | |
WO2021017589A1 (zh) | 一种基于梯度域映射的图像融合方法 | |
TW201436552A (zh) | 用於使用至少一較高訊框率之影像流而增加影像流之訊框率之方法及裝置 | |
Koch et al. | Comparison of monocular depth estimation methods using geometrically relevant metrics on the IBims-1 dataset | |
Mehl et al. | M-fuse: Multi-frame fusion for scene flow estimation | |
Arampatzakis et al. | Monocular Depth Estimation: A Thorough Review | |
Fu et al. | Image Stitching Techniques Applied to Plane or 3D Models: A Review | |
WO2022247394A1 (zh) | 图像拼接方法及装置、存储介质及电子设备 | |
US20220321859A1 (en) | Real-time omnidirectional stereo matching method using multi-view fisheye lenses and system thereof |