TW202334899A - 用於產生合成景深效果的系統和方法 - Google Patents
用於產生合成景深效果的系統和方法 Download PDFInfo
- Publication number
- TW202334899A TW202334899A TW111134911A TW111134911A TW202334899A TW 202334899 A TW202334899 A TW 202334899A TW 111134911 A TW111134911 A TW 111134911A TW 111134911 A TW111134911 A TW 111134911A TW 202334899 A TW202334899 A TW 202334899A
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- image data
- image sensor
- depth
- trained
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 130
- 230000005669 field effect Effects 0.000 title description 3
- 238000010801 machine learning Methods 0.000 claims abstract description 230
- 238000012545 processing Methods 0.000 claims abstract description 91
- 230000002829 reductive effect Effects 0.000 claims description 59
- 238000004891 communication Methods 0.000 claims description 38
- 230000003287 optical effect Effects 0.000 claims description 23
- 239000002131 composite material Substances 0.000 claims description 19
- 230000009467 reduction Effects 0.000 claims description 10
- 238000003384 imaging method Methods 0.000 abstract description 102
- 238000013528 artificial neural network Methods 0.000 description 143
- 230000007246 mechanism Effects 0.000 description 63
- 238000010586 diagram Methods 0.000 description 58
- 239000000463 material Substances 0.000 description 54
- 230000008569 process Effects 0.000 description 49
- 238000012549 training Methods 0.000 description 38
- 230000006870 function Effects 0.000 description 36
- 230000000007 visual effect Effects 0.000 description 34
- 230000011218 segmentation Effects 0.000 description 28
- 239000010432 diamond Substances 0.000 description 25
- 229910003460 diamond Inorganic materials 0.000 description 25
- 238000004422 calculation algorithm Methods 0.000 description 20
- 238000001514 detection method Methods 0.000 description 20
- 239000003638 chemical reducing agent Substances 0.000 description 19
- 230000008054 signal transmission Effects 0.000 description 19
- 239000003086 colorant Substances 0.000 description 10
- 239000011521 glass Substances 0.000 description 10
- 238000003709 image segmentation Methods 0.000 description 10
- 239000002184 metal Substances 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 230000002093 peripheral effect Effects 0.000 description 8
- 238000011176 pooling Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 241001465754 Metazoa Species 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 239000004744 fabric Substances 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 229910044991 metal oxide Inorganic materials 0.000 description 2
- 150000004706 metal oxides Chemical class 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 208000003164 Diplopia Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- NNBFNNNWANBMTI-UHFFFAOYSA-M brilliant green Chemical compound OS([O-])(=O)=O.C1=CC(N(CC)CC)=CC=C1C(C=1C=CC=CC=1)=C1C=CC(=[N+](CC)CC)C=C1 NNBFNNNWANBMTI-UHFFFAOYSA-M 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 208000029444 double vision Diseases 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000005022 packaging material Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/128—Adjusting depth or disparity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/156—Mixing image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/243—Image signal generators using stereoscopic image cameras using three or more 2D image sensors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20004—Adaptive image processing
- G06T2207/20012—Locally adaptive
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
描述了用於處理圖像資料以產生具有合成景深(DoF)的圖像的系統和技術。成像系統接收場景的由第一圖像感測器擷取的第一圖像資料。成像系統接收場景的由第二圖像感測器擷取的第二圖像資料。第一圖像感測器以偏移距離偏移於第二圖像感測器。成像系統藉由至少將第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有與模擬光圈大小對應的合成景深的圖像。模擬光圈大小與偏移距離相關聯。成像系統輸出圖像。
Description
本申請案係關於圖像處理。更具體地說,本申請案係關於將多個圖像感測器擷取的圖像資料用作一或多個機器學習系統的輸入來產生具有合成景深(depth of field,DoF)的圖像的系統和方法。
攝像頭的景深(DoF)是指為了圖像的主體在圖像中呈現為焦點對準且清晰而不是焦點未對準且模糊而可以將圖像的主體定位到攝像頭的距離的範圍。攝像頭的DoF通常是攝像頭的光圈大小及/或攝像頭的鏡頭的焦距的函數。例如,具有較大光圈的攝像頭的DoF通常比具有較小光圈的攝像頭的DoF更淺。相似地,具有較長焦距的攝像頭的DoF通常比具有較短焦距的攝像頭的DoF更淺。通常情況下,期望圖像的主體是焦點對準的,因此在攝像頭的DoF內,而圖像的其他部分是焦點未對準的,因此在DoF之外。長的DoF使得此種圖像難以擷取,因為大多數場景完全在DoF之內。
因為行動設備為部件提供有限的空間,所以行動設備通常包括具有小光圈和小鏡頭的攝像頭,從而攝像頭具有長的DoF。由於大多數場景完全處於長的DoF內,大多數行動設備攝像頭難以或不可能擷取下述圖像,在該等圖像中,場景的第一部分在DoF中,因此是焦點對準且清晰的;而該場景的第二部分在DoF外,因此是焦點未對準且模糊的。
在一些實例中,描述了用於處理圖像資料的系統和技術。該等技術可以將成像系統的多個攝像頭的多個圖像感測器擷取的圖像資料用作一或多個經訓練的機器學習(ML)系統的輸入,以產生具有合成DoF的圖像。在一些實例中,多個攝像頭可以包括以菱形模式佈置在表面上的四個攝像頭。在一些實例中,多個攝像頭可以包括以直列模式佈置在表面上的四個攝像頭。一或多個經訓練的ML系統可以包括一或多個經訓練的ML模型、一或多個經訓練的神經網路(NN)、一或多個經訓練的迴旋神經網路(CNN)、一或多個經訓練的時延神經網路(TDNN)、一或多個經訓練的支援向量機(SVM)、一或多個經訓練的隨機森林(RF),或其組合。合成DoF可以比成像系統的多個攝像頭相應的DoF更淺。合成DoF可以與模擬光圈大小對應。在一些實例中,合成DoF可以模擬具有大小為模擬光圈大小的光圈的攝像頭的DoF。模擬光圈大小可以大於成像系統的多個攝像頭的光圈的相應光圈大小。在一些實例中,成像系統的多個攝像頭中的至少第一攝像頭和第二攝像頭可以以偏移距離彼此偏移。該偏移距離可以與模擬光圈大小對應。例如,偏移距離可以是模擬光圈大小的直徑。偏移距離可以是模擬光圈大小的函數。一旦成像系統產生具有合成DoF的圖像,成像系統就可以輸出圖像。輸出圖像可以包括將圖像顯示在顯示器上。輸出圖像可以包括使用發送器或收發器(例如,有線及/或無線發送器或收發器)將圖像發送到接收設備。
在一個實例中,提供了一種用於圖像處理的裝置。該裝置包括記憶體以及耦合至該記憶體的一或多個處理器(例如,在電路中實現)。一或多個處理器被配置為並且可以:接收場景的由第一圖像感測器擷取的第一圖像資料;接收該場景的由第二圖像感測器擷取的第二圖像資料,其中第一圖像感測器以偏移距離偏移於第二圖像感測器;藉由將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有與模擬光圈大小對應的合成景深的圖像,其中模擬光圈大小與偏移距離相關聯;及輸出該圖像。
在另一實例中,提供了一種圖像處理方法。該方法包括:接收場景的由第一圖像感測器擷取的第一圖像資料;接收該場景的由第二圖像感測器擷取的第二圖像資料,其中第一圖像感測器以偏移距離偏移於第二圖像感測器;藉由將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有與模擬光圈大小對應的合成景深的圖像,其中模擬光圈大小與偏移距離相關聯;及輸出該圖像。
在另一實例中,提供了一種其上儲存有指令的非暫時性電腦可讀取媒體,當該等指令由一或多個處理器執行時,使得一或多個處理器:接收場景的由第一圖像感測器擷取的第一圖像資料;接收該場景的由第二圖像感測器擷取的第二圖像資料,其中第一圖像感測器以偏移距離偏移於第二圖像感測器;藉由將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有與模擬光圈大小對應的合成景深的圖像,其中模擬光圈大小與偏移距離相關聯;及輸出該圖像。
在另一實例中,提供了一種用於圖像處理的裝置。該裝置包括:用於接收場景的由第一圖像感測器擷取的第一圖像資料的構件;用於接收該場景的由第二圖像感測器擷取的第二圖像資料的構件,其中第一圖像感測器以偏移距離偏移於第二圖像感測器;用於藉由將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有與模擬光圈大小對應的合成景深的圖像的構件,其中模擬光圈大小與偏移距離相關聯;及用於輸出該圖像的構件。
在一些態樣中,一或多個處理器被配置為藉由將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生對與圖像對應的一或多個視差誤差區域進行辨識的視差誤差圖,其中為了產生圖像,一或多個處理器被配置為亦基於視差誤差圖來產生圖像。
在一些態樣中,一或多個處理器被配置為:至少部分地藉由對第一圖像資料進行縮小來產生縮小的第一圖像資料;至少部分地藉由對第二圖像資料進行縮小來產生縮小的第二圖像資料;藉由將至少縮小的第一圖像資料和縮小的第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有合成景深的第二圖像;及藉由將至少縮小的第一圖像資料和縮小的第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生對與第二圖像對應的一或多個視差誤差區域的第二集合進行辨識的第二視差誤差圖,其中為了產生圖像,一或多個處理器被配置為產生包括第二圖像中的與第二視差誤差圖中和視差誤差圖相比在視差誤差上的減小相關聯的一或多個位置處的一或多個放大部分的該圖像。
在一些態樣中,模擬光圈大小是基於偏移距離的。在一些態樣中,模擬光圈大小是與合成景深相對應的模擬光圈的直徑。在一些態樣中,模擬光圈大小是與合成景深相對應的模擬光圈的面積。
在一些態樣中,第一圖像感測器以偏移距離偏移於第二圖像感測器包括:與第一圖像感測器相關聯的第一光軸以偏移距離偏移於與第二圖像感測器相關聯的第二光軸。
在一些態樣中,合成景深比與第一圖像感測器對應的第一景深和與第二圖像感測器對應的第二景深中的至少一個更淺。在一些態樣中,模擬光圈大小大於與第一圖像感測器對應的第一光圈和與第二圖像感測器對應的第二光圈。
在一些態樣中,一或多個處理器被配置為:接收場景的由第三圖像感測器擷取的第三圖像資料,其中一或多個處理器被配置為藉由將至少第一圖像資料和第二圖像資料以及第三圖像資料用作一或多個經訓練的機器學習系統的輸入來產生圖像。在一些態樣中,一或多個處理器被配置為:接收場景的由第四圖像感測器擷取的第四圖像資料,其中一或多個處理器被配置為將至少第一圖像資料和第二圖像資料和第三圖像資料以及第四圖像資料用作一或多個經訓練的機器學習系統的輸入,以產生圖像。
在一些態樣中,一或多個處理器被配置為:接收指示合成景深的輸入。在一些態樣中,一或多個處理器被配置為:辨識第一圖像資料中描繪的物體;及自動決定合成景深,其中物體基於合成景深在圖像中是焦點對準的。
在一些態樣中,圖像包括焦點對準的第一區域和模糊的第二區域。在一些態樣中,第一區域描繪前景,其中第二區域描繪背景。
在一些態樣中,上述方法、裝置和電腦可讀取媒體進一步包括:顯示器,其中一或多個處理器被配置為使用顯示器顯示圖像,以輸出該圖像。在一些態樣中,上述方法、裝置和電腦可讀取媒體進一步包括:通訊收發器,其中一或多個處理器被配置為使用通訊收發器將圖像發送給接收設備,以輸出該圖像。
在一些態樣中,上述方法、裝置和電腦可讀取媒體進一步包括:第一圖像感測器;及第二圖像感測器。
在一些態樣中,上述方法、裝置和電腦可讀取媒體進一步包括:圖像感測器。
在一些態樣中,裝置是下述設備、是下述設備的一部分及/或包括下述設備:可穿戴設備、擴展現實設備(例如,虛擬實境(VR)設備、增強現實(AR)設備或混合現實(MR)設備)、頭戴式顯示器(HMD)設備、無線通訊設備、行動設備(例如,行動電話及/或行動手機及/或所謂的「智慧手機」或其他行動設備)、攝像頭、個人電腦、膝上型電腦、伺服器電腦、車輛或計算設備或車輛的部件、另一設備或其組合。在一些態樣中,該裝置包括用於擷取一或多個圖像的一或多個攝像頭。在一些態樣中,該裝置進一步包括用於顯示一或多個圖像、通知及/或其他可顯示資料的顯示器。在一些態樣中,上述裝置可以包括一或多個感測器(例如,一或多個慣性量測單元(IMU),諸如一或多個陀螺儀、一或多個加速度計、其任一組合,及/或其他感測器)。
本發明內容不意欲辨識要求保護的標的的關鍵或基本特徵,亦不意欲單獨用於決定要求保護的標的的範圍。應該藉由參考本專利的整個說明書的適當部分,任何或全部附圖以及每條請求項來理解該標的。
參考下文的說明書、申請專利範圍和附圖,上述以及其他特徵和實施例將變得更加明顯。
下文提供了本揭示的特定態樣和實施例。對本領域技藝人士來說很明顯的是,該等態樣和實施例中的一些可以獨立應用,而其中的一些可以以組合的方式應用。在下文的描述中,為了解釋的目的,闡述了具體細節以提供對本揭示的實施例的全面理解。然而,顯而易見,在沒有該等具體細節的情況下,可以實踐各種實施例。該等附圖和描述並不意欲限制。
接下來的描述僅提供示例性實施例,並不意欲限制本揭示的範圍、適用性或配置。相反,示例性實施例的接下來的描述將為本領域技藝人士提供實現示例性實施例的使能描述。應當理解的是,在不背離所附申請專利範圍所闡述的本申請案的精神和範圍的情況下,可以對元素的功能和佈置進行各種更改。
攝像頭是使用圖像感測器接收光線並擷取圖像訊框(諸如靜態圖像或視訊訊框)的設備。術語「圖像」、「圖像訊框」和「訊框」在本文中互換使用。攝像頭可以被配置以各種圖像擷取和圖像處理設置。不同的設置使得圖像具有不同的呈現。一些攝像頭設置是在擷取一或多個圖像訊框之前或期間被決定和應用的,諸如ISO、曝光時間、光圈大小、f制光圈(f/stop)、快門速度、焦點和增益。例如,設置或參數可以被應用於圖像感測器以擷取一或多個圖像訊框。其他攝像頭設置可以配置一或多個圖像訊框的後處理,諸如對比度、亮度、飽和度、清晰度、層級、曲線或顏色的改動。例如,設置或參數可以應用於處理器(例如,圖像信號處理器或ISP)以對圖像感測器擷取的一或多個圖像訊框進行處理。
攝像頭的景深(DoF)指的是為了使圖像的主體在圖像中呈現為焦點對準且清晰而不是焦點未對準且模糊而可以將圖像的主體定位的到攝像頭的距離的範圍。攝像頭的DoF可以是攝像頭的光圈大小及/或攝像頭的鏡頭的焦距的函數。例如,具有較大光圈的攝像頭的DoF通常比具有較小光圈的攝像頭的DoF更淺。相似地,具有較長焦距的攝像頭的DoF通常比具有較短焦距的攝像頭的DoF更淺。
通常,期望場景的主體(諸如人、或動物或重要物體)在該場景的圖像中是焦點對準的,因此在擷取該圖像時該主體處於攝像頭的DoF中。然而,同時亦期望該場景中除主體之外的部分(諸如相對於主體位於背景或前景中的元素)在圖像中是焦點未對準的,因此在擷取該圖像時在攝像頭的DoF之外。其中主體焦點對準而其他元素焦點未對準的圖像有助於將注意力吸引到主體上,從而強調了圖像中的主體。例如,要擷取人在城市中穿行的圖像(其中人是主體),可以期望人在圖像中呈現為焦點對準且清楚(例如,人在DoF內),而人周圍的城市在圖像中呈現為焦點未對準且模糊(例如,城市在DoF外)。然而,若圖像的主體意欲是城市而不是人,則可以期望人在圖像中呈現為焦點未對準且模糊(例如,人在DoF之外),而城市在圖像中呈現為焦點對準且清楚(例如,城市在DoF內)。
行動設備,諸如行動手機、可穿戴設備和頭戴式顯示器(HMD)設備,通常針對部件具有非常有限的空間。因此,行動設備通常包括小型攝像頭。小型攝像頭通常具有小光圈和小鏡頭。通常在行動設備中發現的小型攝像頭由於小光圈和小鏡頭通常具有較長的DoF。在使用具有長的DoF的攝像頭擷取的圖像中,整個場景通常皆在DoF內,導致整個場景皆呈現為焦點對準且清楚。因此,可能困難的是,用小光圈攝像頭(諸如行動設備中的攝像頭)擷取場景的圖像,使場景的第一部分(例如,主體)在圖像中呈現為焦點對準且清晰,而場景的第二部分在圖像中呈現為焦點未對準且模糊。
光場攝像頭,亦被稱為全光攝像頭,在大的圖像感測器前面使用微鏡頭的陣列,及/或小攝像頭的陣列。光場攝像頭可以擷取關於出自場景的光場的資訊,包括光線的方向。使用光場攝像頭擷取的圖像資料可以用於產生模擬大範圍DoF的圖像。在一些實例中,可以在圖像擷取之後基於儲存的關於光場的資訊對由光場攝像頭所擷取的圖像的DoF進行調整,允許擷取後在場景的哪些部分的變化呈現為焦點對準且清楚,而在場景的哪些部分的變化呈現為焦點未對準且模糊。然而,光場攝像頭通常包含多個攝像頭及/或鏡頭,其會佔用太多的空間,而無法在行動設備中廣泛使用。例如,一些光場攝像頭包括有成千上萬個鏡頭的微鏡頭陣列。
一種在圖像中產生合成DoF的方法包括:擷取圖像;對圖像進行圖像分割以偵測圖像中描繪人物的區域;及對圖像中不包括人物的全部區域進行選擇性地模糊。該方法可以被稱為「人像模式」。然而,此種方法具有一些局限性。然而,圖像的預期主體並不總是人,亦可以例如是動物、車輛、植物、設備、結構或另一物體。圖像分割演算法通常被程式化以偵測特定類型的預期主體(例如,人),而可能無法偵測不同類型的預期主體(例如,動物、結構、車輛、植物、設備)。此外,圖像分割中的誤差,例如多縷頭髮或其他複雜區域周圍的誤分類可能會引起由主體的模糊部分導致的視覺偽像,或保持場景的非主體部分不模糊。例如,圖像分割可能在物體邊界處或附近(諸如包括多縷頭髮、皮毛、樹葉、磨損的織物或其他不規則邊緣的區域)對場景的部分進行誤分類。
另一種在圖像中產生合成DoF的方法包括:擷取圖像;從深度感測器擷取深度資訊;及基於深度資訊對圖像的各部分進行選擇性地模糊。深度感測器可以包括,例如,光偵測與測距(LiDAR)感測器、無線電偵測與測距(RADAR)感測器、聲音偵測與測距(SODAR)感測器、聲音導航與測距(SONAR)感測器、飛行時間(ToF)感測器、結構光感測器、立體攝像頭或其組合。然而,深度感測器在物體邊界處或附近可以對深度進行不正確地分類。一些深度感測器(諸如RADAR感測器)難以偵測特定類型的材料的深度(例如,對於RADAR感測器而言的非金屬物體)。一些深度感測器具有低解析度,因此難以偵測小或窄的物體。一些深度感測器難以偵測面向特定方向的物體的深度,諸如與立體攝像頭沿其放置的軸線平行的物體。對於透明、半透明或反光的物體,深度感測器亦會存在對深度進行正確分類的問題。例如,深度感測器通常無法偵測視窗的相對於深度感測器的另一側的物體的深度,而只能感測視窗本身的深度。同樣地,深度感測器通常不能偵測鏡子中反射的物體的深度,而只能感測鏡子本身的深度。
本文描述了用於處理圖像資料的技術。該等技術可以將成像系統的多個攝像頭的多個圖像感測器擷取的圖像資料用作一或多個經訓練的機器學習(ML)系統的輸入,以產生具有合成DoF的圖像。在一些實例中,多個攝像頭可以包括以菱形模式被佈置在表面上的四個攝像頭。在一些實例中,多個攝像頭可以包括以直列模式佈置在表面上的四個攝像頭。一或多個經訓練的ML系統可以包括一或多個經訓練的ML模型、一或多個經訓練的神經網路(NN)、一或多個經訓練的迴旋神經網路(CNN)、一或多個經訓練的時延神經網路(TDNN)、一或多個經訓練的支援向量機(SVM)、一或多個經訓練的隨機森林(RF),或其組合。合成DoF可以比成像系統的多個攝像頭相應的DoF更淺。合成DoF可以與模擬光圈大小對應。在一些實例中,合成DoF可以模擬具有大小為模擬光圈大小的光圈的攝像頭的DoF。模擬光圈大小可以大於成像系統的多個攝像頭的光圈的相應光圈大小。在一些實例中,成像系統的多個攝像頭中的至少第一攝像頭和第二攝像頭可以以偏移距離彼此偏移。該偏移距離可以與模擬光圈大小對應。例如,偏移距離可以是模擬光圈大小的直徑。偏移距離可以是模擬光圈大小的函數。一旦成像系統產生具有合成DoF的圖像,成像系統就可以輸出該圖像。輸出圖像可以包括將圖像顯示在顯示器上。輸出圖像可以包括使用發送器或收發器(例如,有線及/或無線發送器或收發器)將圖像發送到接收設備。
在一些實例中,一或多個ML系統可以用模擬的DoF產生多種尺寸的圖像。例如,一或多個ML系統可以產生全尺寸圖像、半尺寸圖像以及四分之一尺寸圖像。在一些實例中,一或多個ML系統可以只產生全尺寸的圖像,而半尺寸圖像和四分之一尺寸圖像可以經由縮小操作來產生。
在一些實例中,一或多個ML系統可以產生視差誤差圖。在一些實例中,一或多個ML系統可以產生多個尺寸的視差誤差圖,諸如對應於全尺寸圖像中的視差誤差的全尺寸視差誤差圖,對應於半尺寸圖像的半尺寸視差誤差圖,以及對應於四分之一尺寸圖像的四分之一尺寸視差誤差圖。通常,在較小的圖像尺度下,視差誤差被減小及/或以更高的置信度被決定,因此四分之一尺寸視差誤差圖通常圖示比全尺寸視差誤差圖更小的視差誤差。成像系統可以對全尺寸圖像進行修改,以對下述視差誤差區域中的半尺寸圖像及/或四分之一尺寸圖像的放大部分進行合併,該等視差誤差區域被辨識為具有在視差誤差圖中的至少一個中具有高置信度的視差誤差。
可以基於使用光場攝像頭產生的訓練資料對ML系統進行訓練。例如,訓練資料可以包括來自光場攝像頭的攝像頭陣列的多個單獨攝像頭(與本文中所述的成像系統的多個攝像頭具有相同的位置)的圖像資料,以及由光場攝像頭使用來自光場攝像頭的全攝像頭陣列的圖像資料產生的輸出圖像。
藉由將來自多個攝像頭的圖像資料用作一或多個ML系統的輸入來產生具有合成DoF的圖像,可以對其他用於提供具有真實DoF或合成DoF效果的圖像的技術提供技術改進。例如,藉由將來自多個攝像頭的圖像資料用作一或多個ML系統的輸入來產生具有合成DoF的圖像,允許設備使用少量(例如,2、3、4、5、6、7、8、9、10、多於10)的具有小光圈的小型攝像頭,從而可以比需要更大光圈和更大鏡頭的設備節省空間,其通常包括增大的直徑和厚度兩者。包括具有小光圈的小型攝像頭的設備亦比具有大光圈和因此大鏡頭的攝像頭更耐用,因為大鏡頭更容易出現劃痕、裂縫、翹曲和其他損壞。藉由將來自多個攝像頭的圖像資料用作一或多個ML系統的輸入來產生具有合成DoF的圖像提供可以聚焦於任何預期主體的輸出圖像,而基於圖像分割的合成DoF技術可能只能將圖像聚焦於特定類型的主體(例如,人)。藉由將來自多個攝像頭的圖像資料用作一或多個ML系統的輸入來產生具有合成DoF的圖像提供了即使在場景包括多個可能的主體的情況下仍然可以提供準確的焦點的輸出圖像,而基於圖像分割的合成DoF技術可能對同一類型的兩個主體(例如,兩個人物)進行錯誤地對焦,儘管這兩個主體實際上是在距離攝像頭不同的深度處並且不應該皆被焦點對準。藉由將來自多個攝像頭的圖像資料用作一或多個ML系統的輸入來產生具有合成DoF的圖像提供了比基於圖像分割或來自深度感測器的深度感測器資料的合成DoF技術在物體邊界上更準確的輸出圖像。藉由將來自多個攝像頭的圖像資料用作一或多個ML系統的輸入來產生具有合成DoF的圖像提供了即使透過玻璃或在反射表面中反射的物體的反射圖像上亦能提供準確對焦的輸出圖像,而基於來自深度感測器的深度感測器資料的合成DoF技術通常不能。藉由將來自多個攝像頭的圖像資料用作一或多個ML系統的輸入來產生具有合成DoF的圖像提供了可以提供擷取後焦點的改變的輸出圖像。
將參考附圖對本申請案的各個態樣進行描述。圖1是示出圖像擷取和處理系統100的架構的方塊圖。圖像擷取和處理系統100包括用於擷取和處理場景的圖像(例如,場景110的圖像)的多種部件。圖像擷取和處理系統100可以擷取單獨的圖像(或照片)及/或可以擷取包括特定序列的多個圖像(或視訊訊框)的視訊。系統100的鏡頭115面向場景110並且從場景110接收光。鏡頭115將光轉向圖像感測器130。鏡頭115接收到的光穿過由一或多個控制機構120控制的光圈並由圖像感測器130接收。
一或多個控制機構120可以基於來自圖像感測器130的資訊及/或基於來自圖像處理器150的資訊來控制曝光、調焦、及/或變焦。一或多個控制機構120可以包括多個機構和部件;例如,控制機構120可以包括一或多個曝光控制機構125A、一或多個調焦控制機構125B,及/或一或多個變焦控制機構125C。一或多個控制機構120亦可以包括除了示出的彼等控制機構之外的額外控制機構,諸如對類比增益、閃光燈、HDR、景深及/或其他圖像擷取性質進行控制的控制機構。
控制機構120的調焦控制機構125B可以獲得調焦設置。在一些實例中,調焦控制機構125B將調焦設置儲存在記憶體暫存器中。基於調焦設置,調焦控制機構125B可以相對於圖像感測器130的位置調整鏡頭115的位置。例如,基於調焦設置,調焦控制機構125B可以藉由致動電機或伺服使鏡頭115靠近圖像感測器130或遠離圖像感測器130移動,從而進行調焦。在一些情況下,系統100可以包括附加的鏡頭,諸如圖像感測器130的每個光電二極體上的一或多個微鏡頭,每個微鏡頭在光到達光電二極體之前將從鏡頭115接收的光轉向對應的光電二極體。可以經由對比度偵測自動調焦(CDAF)、相位偵測自動調焦(PDAF)或其一些組合來決定調焦設置。可以使用控制機構120、圖像感測器130、及/或圖像處理器150來決定調焦設置。調焦設置可以被稱為圖像擷取設置及/或圖像處理設置。
控制機構120的曝光控制機構125A可以獲得曝光設置。在一些情況下,曝光控制機構125A將曝光設置儲存在記憶體暫存器中。基於該曝光設置,曝光控制機構125A可以控制光圈的大小(例如,光圈大小或f制光圈),光圈打開的持續時間(例如,曝光時間或快門速度),圖像感測器130的靈敏度(例如,ISO速度或膠片速度),圖像感測器130應用的類比增益,或其任何組合。曝光設置可以被稱為圖像擷取設置及/或圖像處理設置。
控制機構120的變焦控制機構125C可以獲得變焦設置。在一些實例中,變焦控制機構125C將變焦設置儲存在記憶體暫存器中。基於變焦設置,變焦控制機構125C可以控制鏡頭元件(鏡頭組合件)的組合件的焦距,該組合件包括鏡頭115和一或多個額外鏡頭。例如,變焦控制機構125C可以藉由致動一或多個電機或伺服來將鏡頭中一或多個鏡頭相對於彼此移動以控制鏡頭組合件的焦距。變焦設置可以被稱為圖像擷取設置及/或圖像處理設置。在一些實例中,鏡頭組合件可以包括等焦面變焦鏡頭或變焦距變焦鏡頭。在一些實例中,鏡頭組合件可以包括首先從場景110接收光的調焦鏡頭(在一些情況下可以是鏡頭115),隨後光在到達圖像感測器130之前穿過調焦鏡頭(例如,鏡頭115)和圖像感測器130之間的無焦變焦系統。在一些情況下,無焦變焦系統可以包括兩個焦距相等或相近(例如,在閾值差以內)的正(例如,會聚的、凸的)鏡頭,兩個正鏡頭中間有一個負(例如,發散的、凹的)鏡頭。在一些情況下,變焦控制機構125C移動無焦變焦系統中的一或多個鏡頭,諸如,負鏡頭及正鏡頭中的一者或兩者。
圖像感測器130包括光電二極體或其他光敏元件的一或多個陣列。每個光電二極體量測的光量最終對應於圖像感測器130產生的圖像中的特定圖元。在一些情況下,不同的光電二極體可以被不同濾色器覆蓋,從而可以量測與覆蓋該光電二極體的濾色器的顏色匹配的光。例如,拜耳(Bayer)濾色器包括紅色濾色器、藍色濾色器和綠色濾色器,其中圖像的每個圖元皆是基於來自紅色濾色器中覆蓋的至少一個光電二極體的紅光資料、來自藍色濾色器中覆蓋的至少一個光電二極體的藍光資料和來自綠色濾色器中覆蓋的至少一個光電二極體的綠光資料而產生的。其他類型的濾色器可以使用黃色濾色器、洋紅(magenta)濾色器及/或青色(cyan,亦稱為「翠綠」)濾色器來代替或附加於紅色濾色器、藍色濾色器及/或綠色濾色器。一些圖像感測器可以完全缺少濾色器,而可以替代地在整個圖元陣列中使用不同的光電二極體(在一些情況下垂直堆疊)。遍及圖元陣列的不同光電二極體可以具有不同的光譜靈敏度曲線,因此回應不同波長的光。單色圖像感測器亦可以缺少濾色器,從而缺乏色深度。
在一些情況下,圖像感測器130可以交替地或額外地包括不透光及/或反射遮罩,以阻止光在特定的時間及/或從特定角度到達特定光電二極體或特定光電二極體的部分,其可以用於相位偵測自動調焦(PDAF)。圖像感測器130亦可以包括對光電二極體輸出的類比信號進行放大的類比增益放大器及/或將光電二極體輸出的(及/或由類比增益放大器放大的)類比信號轉換為數位信號的類比數位轉換器(ADC)。在一些情況下,參考控制機構120中的一或多個所論述的特定部件或功能可以被代替地或另外地包括在圖像感測器130中。圖像感測器130可以是電荷耦合設備(CCD)感測器、電子倍增CCD(EMCCD)感測器、主動圖元感測器(APS)、互補金屬氧化物半導體(CMOS)、N-型金屬氧化物半導體(NMOS)、混合CCD/CMOS感測器(例如,sCMOS),或其一些其他組合。
圖像處理器150可以包括一或多個處理器,諸如,一或多個圖像信號處理器(ISP)(包括ISP 154),一或多個主機處理器(包括主機處理器152),及/或參考計算系統1700所論述的一或多個任何其他類型的處理器1710。主機處理器152可以是數位訊號處理器(DSP)及/或其他類型的處理器。在一些實現方式中,圖像處理器150是包括主機處理器152和ISP 154的單個積體電路或晶片(例如,稱為片上系統或SoC)。在一些情況下,晶片亦可以包括一或多個輸入/輸出埠(例如,輸入/輸出(I/O)埠156)、中央處理單元(CPU)、圖形處理單元(GPU)、寬頻數據機(例如,3G、4G或LTE、5G等)、記憶體、連接部件(例如,Bluetooth
TM,全球定位系統(GPS)等),其任何組合,及/或其他部件。I/O埠156可以包括根據一或多個協定或規範的任何合適的輸入/輸出埠或介面,諸如內置積體電路2(I2C)介面、內置積體電路3(I3C)介面、串列周邊介面(SPI)介面、串列通用輸入/輸出(GPIO)介面、行動工業處理器介面(MIPI)(諸如MIPI CSI-2實體(PHY)層埠或介面)、先進高效能匯流排(AHB)匯流排、其任何組合,及/或其他輸入/輸出埠。在一個說明性實例中,主機處理器152可以使用I2C埠與圖像感測器130通訊,而ISP 154可以使用MIPI埠與圖像感測器130通訊。
圖像處理器150可以執行許多任務,諸如,去馬賽克、顏色空間轉換、圖像訊框下取樣、圖元內插、自動曝光(AE)控制、自動增益控制(AGC)、CDAF、PDAF、自動白平衡、合併圖像訊框以形成HDR圖像、圖像辨識、物體辨識、特徵辨識、接收輸入、管理輸出、管理記憶體,或其一些組合。圖像處理器150可以將圖像訊框及/或經處理的圖像儲存在隨機存取記憶體(RAM)140及/或1720、唯讀記憶體(ROM)145及/或1725、快取記憶體、記憶體單元、另一儲存設備或其一些組合中。
各種輸入/輸出(I/O)設備160可以被連接至圖像處理器150。I/O設備160可以包括顯示螢幕、鍵盤、小鍵盤、觸控式螢幕、觸控板、觸敏表面、印表機、任何其他輸出設備1735、任何其他輸入設備1745、或其一些組合。在一些情況下,可以經由I/O設備160的實體鍵盤或小鍵盤,或者經由I/O設備160的觸控式螢幕的虛擬鍵盤或小鍵盤,將字幕輸入到圖像處理設備105B中。I/O 160可以包括一或多個埠、插孔或其他連接器,其實現系統100與一或多個周邊設備之間的有線連接,系統100可以經由該有線連接從一或多個周邊設備接收資料及/或向一或多個周邊設備發送資料。I/O 160可以包括一或多個無線收發器,使實現系統100與一或多個周邊設備之間的無線連接,系統100可以經由該無線連接從一或多個周邊設備接收資料及/或將資料發送到一或多個周邊設備。周邊設備可以包括前面論述的任一類型的I/O設備160,並且一旦其被耦合到埠、插孔、無線收發器或其他有線的及/或無線的連接器上,其本身就可以被認為是I/O設備160。
在一些情況下,圖像擷取和處理系統100可以是單個設備。在一些情況下,圖像擷取和處理系統100可以是兩個或兩個以上分開的設備,包括圖像擷取設備105A(例如,攝像頭)和圖像處理設備105B(例如,耦合至攝像頭的計算設備)。在一些實現方式中,圖像擷取設備105A和圖像處理設備105B可以耦合在一起,例如,經由一或多個電線、電纜或其他電連接器,及/或經由一或多個無線收發器進行無線耦合。在一些實現方式中,圖像擷取設備105A和圖像處理設備105B可以彼此斷開。
如圖1所示,垂直虛線將圖1的圖像擷取和處理系統100分為分別表示圖像擷取設備105A和圖像處理設備105B的兩部分。圖像擷取設備105A包括鏡頭115、控制機構120和圖像感測器130。圖像處理設備105B包括圖像處理器150(包括ISP 154和主機處理器152)、RAM 140、ROM 145和I/O 160。在一些情況下,圖像擷取設備105A中示出的特定部件,諸如ISP 154及/或主機處理器152,可以包括於圖像擷取設備105A中。
圖像擷取和處理系統100可以包括電子設備,諸如行動或固定電話手機(例如,智慧手機、行動電話等)、桌上型電腦、膝上型電腦或筆記型電腦、平板電腦、機上盒、電視、攝像頭、顯示設備、數位媒體播放機、視訊遊戲機、視訊串流設備、網際網路協定(IP)攝像頭或任何其他合適的電子設備。在一些實例中,圖像擷取和處理系統100可以包括用於無線通訊(諸如蜂巢網路通訊、802.11 wi-fi通訊、無線區域網路(WLAN)通訊或其一些組合)的一或多個無線收發器。在一些實現方式中,圖像擷取設備105A和圖像處理設備105B可以是不同的設備。諸如,圖像擷取設備105A可以包括攝像頭設備,而圖像處理設備105B可以包括計算設備,諸如行動手機、桌上型電腦、或其他計算設備。
儘管圖像擷取和處理系統100被圖示為包括特定部件,但本領域技藝人士應該瞭解的是,圖像擷取和處理系統100可以包括比圖1所示的彼等部件更多的部件。圖像擷取和處理系統100的部件可以包括軟體、硬體或軟體和硬體的一或多個組合。例如,在一些實現方式中,圖像擷取和處理系統100的部件可以包括電子電路或其他電子硬體(其可以包括一或多個可程式設計電子電路(例如,微處理器、GPU、DSP、CPU、及/或其他合適的電子電路)),及/或藉由使用電子電路或其他電子硬體(其可以包括一或多個可程式設計電子電路(例如,微處理器、GPU、DSP、CPU、及/或其他合適的電子電路))來實現;及/或圖像擷取和處理系統100的部件可以包括電腦軟體、韌體、或其任何組合及/或可以藉由使用電腦軟體、韌體或其任何組合來實現,以執行本文所述的各種操作。軟體及/或韌體可以包括一或多個指令,該一或多個指令儲存在電腦可讀取儲存媒體上並且可以被實現圖像擷取和處理系統100的電子設備的一或多個處理器執行。
圖2A是示出基於語義分割215對端著一杯咖啡的女子的輸入圖像205A進行模糊,以產生具有合成景深和視覺偽像235的輸出圖像225A的方塊圖200A。成像系統使用圖像感測器(諸如圖像感測器130)擷取輸入圖像205A。在輸入圖像205A中,該女子被描繪為在帶有杯墊的桌子上方端著杯子。杯子和杯墊彼此具有大致相同的深度(距離攝像頭的距離),而該女子似乎是把杯子垂直地從杯墊上端起來的。成像系統可以使用一或多個經訓練的機器學習(ML)系統來執行輸入圖像205A的語義分割215並產生遮罩210A。執行語義分割215的一或多個經訓練的機器學習(ML)系統可以被訓練以偵測被提供為一或多個經訓練的機器學習(ML)系統的輸入的一或多個圖像中的一或多個分類的物體(例如,一或多個人物)。因此,在圖2A的實例中,由語義分割215產生的遮罩210A突出了輸入圖像205A中端著杯子的女子。根據遮罩210A,對輸入圖像205A中描繪端著杯子的女子的部分進行遮蔽,而未對輸入圖像205A的其餘部分進行遮蔽。
成像系統使用遮罩210A執行模糊操作220。模糊操作220包括成像系統基於經由語義分割215產生的遮罩210A對輸入圖像205A的未遮蔽區域進行模糊。藉由對輸入圖像205A執行模糊操作220,成像系統產生輸出圖像225A。
然而,遮罩210A包含分割遮罩誤差230,其引起輸出圖像225A中的視覺偽像235。諸如,儘管輸入圖像205A中的杯子和杯墊放置在距離攝像頭大致相同的深度處,但是對杯子以遮罩210A進行遮蔽而未對杯墊以遮罩210A進行遮蔽。在圖2A中使用疊加在遮罩210A上的兩個圓角矩形突出顯示的該等分割遮罩誤差230,導致了輸出圖像225A中的視覺偽像235。在圖2A中使用疊加在輸出圖像225A上的兩個圓角矩形突出顯示的輸出圖像225A中的視覺偽像235,使杯子在輸出圖像225A中呈現為焦點對準且清晰,而杯墊在輸出圖像225A中呈現為焦點未對準且模糊。該等視覺偽像235使輸出圖像225A中的合成DoF效果顯得不正確且不真實。
使用語義分割產生具有合成DoF的輸出圖像,諸如輸出圖像225A,可以被稱為「人像模式」。此種基於語義分割來產生具有合成DoF的輸出圖像的方法具有一定的局限性。圖像的預期主體並不總是人,亦可以例如是動物、車輛、植物、設備、結構或另一物體。圖像分割演算法通常被程式設計以偵測特定類型的預期主體(例如,如圖2A的語義分割215中的人物),而可能無法偵測不同類型的預期主體(例如,動物、結構、車輛、植物、設備,或圖2A的杯墊)。
此外,此種基於語義分割以產生具有合成DoF的輸出圖像的方法可以對同一類型的兩個主體(例如,兩個人物)進行錯誤地調焦,即使這兩個主體實際上在距離攝像頭的不同深度處並且不應該皆焦點對準。該問題在圖2B示出。而且,圖像分割中的誤差,例如多縷頭髮或其他複雜區域周圍的誤分類,會引起由主體的模糊部分導致的視覺偽像,或保持場景的非主體部分不模糊。例如,圖像分割可能對在物體邊界處或附近(包括多縷頭髮、皮毛、樹葉、磨損的織物或其他不規則邊緣的區域)的場景的部分進行誤分類。該問題在圖2C示出。
圖2B是示出基於語義分割215對男子和女子的輸入圖像205B進行模糊以產生具有合成景深和視覺偽像245的輸出圖像225B的方塊圖200B。成像系統使用圖像感測器(諸如圖像感測器130)擷取輸入圖像205B。成像系統可以使用一或多個經訓練的機器學習(ML)系統來執行輸入圖像205B的語義分割215並產生遮罩210B。成像系統使用遮罩210B執行模糊操作220,其中成像系統基於遮罩210B對輸入圖像205B中的未遮蔽區域進行模糊。成像系統藉由對輸入圖像205B執行模糊操作220來產生輸出圖像225B。
如圖2A中,執行語義分割215的一或多個經訓練的機器學習(ML)系統被訓練以偵測人物。因此,遮罩210B將輸入圖像205B中的男子和女子包括在遮罩210B中,而未對輸入圖像205B的其餘部分進行遮蔽。遮罩210B包括導致輸出圖像225B中的視覺偽像245的分割遮罩誤差240。諸如,儘管在輸入圖像205B中女子被描繪為在男子的後面,但是對女子和男子皆以遮罩210B進行遮蔽,從而在輸出圖像225B中同樣地焦點對準和清晰。在真實的DoF圖像中,男子和女子會有不同的聚焦水平,因為在輸入圖像205B中女子被描繪為在男子的後面。因此,輸出圖像225B中的視覺偽像245包括在輸出圖像225B中呈現的同樣焦點對準和清晰的女子和男子。該等視覺偽像245使輸出圖像225B中的合成DoF效果顯得不正確且不真實。
圖2C是示出藉由基於語義分割215對女子的輸入圖像進行模糊而產生該女子的輸出圖像250,以用視覺偽像265模擬景深的概念圖。輸出圖像250通常描繪的是在焦點未對準且模糊的背景前面呈現為焦點對準且清晰的女子。成像系統使用如圖2A和圖2B中所示的並參考圖2A和圖2B進行論述的語義分割215來產生輸出圖像250。輸出圖像250的放大變體255對輸出圖像250中由分割遮罩誤差260導致的視覺偽像265進行突出顯示。在圖2C中使用疊加在輸出圖像250的放大變體255上的圓角矩形突出顯示的該等視覺偽像265,包括不正確地焦點對準和清晰的女子的頭髮之間和周圍的背景的區域,而背景的剩餘部分是正確的焦點未對準且模糊。該等視覺偽像265是由語義分割215中的包括不正確分割的分割遮罩誤差260導致的,從而對該女子的頭髮之間和周圍的背景的區域進行遮蔽。語義分割215將該女子的頭髮之間和周圍的背景的此等區域不正確地分類為該女子的一部分。該等視覺偽像265使輸出圖像250中的合成DoF效果顯得不正確且不真實。
圖3是示出基於圍欄的深度圖像310對該圍欄的輸入圖像305進行模糊以產生具有合成景深和視覺偽像335的輸出圖像325的方塊圖。成像系統使用圖像感測器(諸如圖像感測器130)擷取輸入圖像305。成像系統使用深度感測器擷取深度圖像310。深度感測器可以包括,例如,光偵測與測距(LiDAR)感測器、無線電偵測與測距(RADAR)感測器、聲音偵測與測距(SODAR)感測器、聲音導航與測距(SONAR)感測器、飛行時間(ToF)感測器、結構光感測器、立體攝像頭或其組合。在深度圖像310中,深度圖像310的較暗部分具有較短的深度(例如,在擷取深度圖像310時更接近深度感測器),而深度圖像310的較亮部分具有較長的深度(例如,在擷取深度圖像310時距離深度感測器較遠)。深度圖像310將圍欄在輸入圖像305的中心的部分、在其上圍欄向輸入圖像305的底部傾斜的桌子的部分以及輸入圖像305的右側的植物的樹葉皆在前景中,而輸入圖像305的其他部分在背景中。
成像系統使用深度圖像310執行模糊操作320。模糊操作320包括成像系統對輸入圖像305的被深度圖像310辨識為輸入圖像305的背景的部分進行模糊,而將輸入圖像305的被深度圖像310辨識為輸入圖像305的前景的部分保持清晰和清楚。藉由對輸入圖像305執行模糊操作320,成像系統產生輸出圖像325。
然而,深度圖像310包括導致輸出圖像325中的視覺偽像335的深度圖像誤差330。在圖3中使用疊加在深度圖像310上的兩個圓角矩形突出顯示的深度圖像誤差330,包括在物體邊界處和邊界周圍的深度映射的不準確性,以及具有水平取向的狹窄物體的深度映射的不準確性。例如,輸入圖像305中描繪的圍欄包括具有豎直取向的金屬桿和與豎直取向的金屬桿垂直的水平取向金屬桿的金屬桿的網格。在深度圖像310將圍欄的豎直取向的金屬桿辨識為前景的情況下,深度圖像誤差330包括在很大程度上未能將圍欄的大部分水平取向的金屬桿辨識為前景的深度圖像310。因此,輸出圖像325包括視覺偽像335,在該等視覺偽像335中,圍欄的水平取向的金屬桿不正確地呈現為模糊和焦點未對準,而圍欄的豎直取向的金屬桿正確地呈現為清楚且焦點對準。在圖3中使用疊加在輸出圖像325上的兩個圓角矩形突出顯示了視覺偽像335。
附加的深度圖像誤差330包括輸入圖像305右側的植物的樹葉的邊界處和邊界周圍的深度的不準確性。該等深度圖像誤差330造成視覺偽像335,在該等視覺偽像335中植物的樹葉的一些部分不正確地呈現為模糊且焦點未對準,而植物的樹葉的其他部分正確地呈現為焦點對準且清楚。該等視覺偽像335使輸出圖像325中的合成DoF效果顯得不正確且不真實。
此種基於深度感測器的產生具有合成DoF的輸出圖像的方法亦可能造成由其他物體邊界處或附近(諸如,包括多縷頭髮、皮毛、樹葉、磨損的織物或其他不規則邊緣的區域,與圖2C中所示的問題相似)的深度圖像問題導致的視覺偽像。此外,一些深度感測器(諸如RADAR感測器)難以偵測特定類型的材料的深度(例如,對於RADAR感測器來說的非金屬物體),這可以產生如下深度圖像問題:該等類型的材料的物體沒有在深度圖像中呈現在正確的深度處,從而造成由於成像系統在模糊操作320期間對物體進行不正確地模糊(或不正確地未能對物體進行模糊)而產生的視覺偽像。
一些深度感測器具有低的解析度,因此難以偵測到小的或窄的物體,這可能是造成由於深度圖像310未能在前景中辨識出圍欄的水平取向的金屬桿而產生深度圖像誤差330的一個原因。一些深度感測器在偵測面向特定方向的物體的深度時存在困難,諸如與立體攝像頭沿其被放置的軸線平行的物體。這亦可以是造成由於深度圖像310未能在前景中辨識出圍欄的水平取向的金屬桿而產生深度圖像誤差330的原因。
對於透明、半透明或反光的物體,深度感測器亦可能具有深度的正確分類的問題。例如,深度感測器通常無法偵測位於視窗的另一側的物體相對於該深度感測器的深度,而是感測到視窗本身的深度。同樣地,深度感測器通常無法偵測鏡子中反射的物體的深度,而是感測鏡子本身的深度。因此,若給定圖15的輸入圖像1505,用於產生具有合成DoF的輸出圖像的基於深度感測器的方法將無法產生圖15的第一輸出圖像1510或第二輸出圖像1515。
圖4是示出具有多個圖像感測器430A-430D的圖像擷取和處理系統400的示例架構的方塊圖。與圖1的被劃分為圖像擷取設備105A和圖像處理設備105B的圖像擷取和處理系統100相似,圖4的圖像擷取和處理系統400亦被劃分為圖像擷取設備405A和圖像處理設備405B。
圖像擷取設備405A包括四個鏡頭415A-415D,包括鏡頭415A、鏡頭415B、鏡頭415C和鏡頭415D。這四個鏡頭415A-415D中的每一個皆可以包括參考圖1的鏡頭115所論述的鏡頭中的任一種。
圖像擷取設備405A包括四組控制機構420A-420D,包括一組控制機構420A、一組控制機構420B、一組控制機構420C、和一組控制機構420D。四組控制機構420A-420D中的每一組控制機構可以包括參考圖1的一組控制機構120所論述的控制機構中的任一種。例如,四組控制機構420A-420D中的每一組控制機構可以包括一或多個曝光控制機構125A、一或多個調焦控制機構125B、一或多個變焦控制機構125C,及/或一或多個附加的控制機構(例如,對類比增益、閃光燈、HDR、景深及/或其他圖像擷取屬性進行控制的控制機構)。
圖像擷取設備405A包括四個圖像感測器430A-430D,包括圖像感測器430A、圖像感測器430B、圖像感測器430C和圖像感測器430D。四個圖像感測器430A-430D中的每一個皆可以包括參考圖1的圖像感測器130所論述的任一種圖像感測器。四個圖像感測器430A-430D中的每一個皆可以包括參考圖1的圖像感測器130所論述的附加部件中的任一種,諸如類比增益放大器及/或類比數位轉換器(ADC)。
來自場景410的光可以進入四個鏡頭415A-415D中的每一個,其中藉由使用四組控制機構420A-420D中的每一組來控制變焦、曝光、調焦及/或擷取的其他態樣。來自場景410的光可以穿過四個鏡頭415A-415D中的每一個,並被四個圖像感測器430A-430D中的每一個接收。四個圖像感測器430A-430D中的每一個及/或隨其被包括的其他部件(例如,類比增益放大器及/或ADC)可以將在四個圖像感測器430A-430D中的每一個處收集的圖像資料放大並轉換為數位信號,圖像擷取設備405A可以將該等數位信號提供給圖像處理設備405B的一或多個圖像處理器450。
一或多個圖像處理器450中的每一個圖像處理器可以包括至少圖1的圖像處理器150的子集及/或從其分支出來的元素,諸如ISP 154、主機處理器152、I/O 156、RAM 140、ROM 145、I/O 160,或其組合。在一些實例中,一或多個圖像處理器450的單個圖像處理器可以處理來自四個圖像感測器430A-430D中的兩個或兩個以上(例如,兩個、三個或四個)的圖像資料。在一些實例中,一或多個圖像處理器450包括複數個圖像處理器450。在一些實例中,圖像處理設備405B包括具體地處理來自四個圖像感測器430A-430D中的一個圖像感測器的圖像資料而不處理來自四個圖像感測器430A-430D的其他圖像感測器的圖像資料的圖像處理器450。
在說明性的實例中,來自場景410的光基於在一組控制機構420A處設置的擷取設置可以穿過鏡頭415A,並且可以由圖像感測器430A接收。圖像感測器430A及/或隨其被包括的其他部件(例如,類比增益放大器及/或ADC)可以對圖像資料進行放大和轉換,並將圖像資料發送給一或多個圖像處理器450中的一或多個,其可以對圖像資料進行處理以擷取圖像。相似地,來自場景410的光基於一組控制機構420B處設置的擷取設置可以穿過鏡頭415B,並可以由圖像感測器430B接收。圖像感測器430B及/或隨其被包括的其他部件(例如,類比增益放大器及/或ADC)可以對圖像資料進行放大和轉換,並將圖像資料發送給一或多個圖像處理器450中的一或多個,其可以對圖像資料進行處理以擷取圖像。相似的過程可以由圖像擷取和處理系統400執行以使用鏡頭415C、一組控制機構420C、圖像感測器430C及/或隨其被包括的其他部件來擷取圖像,並可以由一或多個圖像處理器450中的一或多個執行。相似的過程可以由圖像擷取和處理系統400執行以使用鏡頭415D、一組控制機構420D、圖像感測器430D及/或隨其被包括的其他部件來擷取圖像,並可以由一或多個圖像處理器450中的一或多個執行。
在一些實例中,圖像處理設備405B的一或多個圖像處理器450可以包括一或多個圖像處理器,該一或多個圖像處理器,在由一或多個圖像處理器450進行處理之前或之後,將來自圖像感測器430A-430D的圖像資料輸入到一或多個經訓練的機器學習(ML)模型中,以產生具有合成景深的輸出圖像。該過程的各態樣的實例在圖6、圖7、圖8A至圖8B、圖9、圖10A至圖10C、圖11A至圖11B、圖12、圖13、圖14、圖15以及圖16中所示,並且參考圖6、圖7、圖8A至圖8B、圖9、圖10A至圖10C、圖11A至圖11B、圖12、圖13、圖14、圖15以及圖16進行論述。在一些實例中,一或多個圖像處理器450中的至少一個可以至少包括計算系統1700的子集。在一些實例中,一或多個圖像處理器450中的至少一個可以,例如藉由訓練及/或運行神經網路(NN)900、經訓練NN 1005A、經訓練NN 1005B、經訓練NN 1005C或其組合,來訓練及/或運行一或多個經訓練的機器學習模型。在一些實例中,一或多個圖像處理器450中的至少一個可以使用一或多個光場攝像頭提供的訓練資料(例如使用來自圖11A至圖11B的光場攝像頭1140的訓練資料1110及/或訓練資料1120)來訓練一或多個經訓練的機器學習模型。
如圖4的圖像擷取和處理系統400中的具有圖像感測器430A-430D的成像設備可以用於擷取下述圖像集,該等圖像集可以被用作一或多個經訓練的機器學習(ML)模型的輸入以產生具有合成DoF的輸出圖像,如圖6、圖7、圖8A至圖8B、圖9、圖10A至圖10C、圖11A至圖11B、圖12、圖13、圖14、圖15以及圖16中所示,或參考圖6、圖7、圖8A至圖8B、圖9、圖10A至圖10C、圖11A至圖11B、圖12、圖13、圖14、圖15以及圖16所論述的。然而,在一些實例中,該等圖像感測器430A-430D中的至少一個可以被去除。例如,具有由圖像感測器430A-430D中的兩個或三個擷取的兩個或三個圖像的圖像集可以被用作一或多個經訓練的機器學習(ML)模型的輸入,以產生具有合成DoF的輸出圖像。在一些實例中,一或多個附加的圖像感測器430A-430D可以被添加。例如,具有由五個或六個圖像感測器430A-430D擷取的五個或六個圖像的圖像集可以被用作一或多個經訓練的機器學習(ML)模型的輸入,以產生具有合成DoF的輸出圖像。在一些實例中,圖像感測器430A-430D中的單個圖像感測器可以充當圖像感測器430A-430D中的兩個或兩個以上圖像感測器,其中圖像感測器430A-430D中的單個圖像感測器的移動由移動該圖像感測器的致動電機引導,或由手動移動圖像感測器430A-430D中的單個圖像感測器的使用者引導(例如,根據顯示器顯示的指令)。在說明性的實例中,成像設備可以包括被移動到多個位置的單個圖像感測器(例如,圖像感測器430A),該單個圖像感測器由使用者手動地移動或者經由致動將該單個圖像感測器移動到彼等位置的電機的成像設備移動。該單個圖像感測器被移動到的位置可以對應於其他圖像感測器(例如,圖像感測器430B-430D)的位置。因此,基於該單個圖像感測器被移動到的位置,可以使用來自單個圖像感測器的圖像資料來代替來自全部四個圖像感測器430A-430D的圖像資料,例如,為了給一或多個經訓練的ML模型提供輸入圖像以產生具有合成DoF的輸出圖像。
圖5A是示出包括攝像頭模組525A的行動手機510A的背面515A的透視圖,該攝像頭模組525A具有以菱形模式540佈置的四個攝像頭530A,以用於基於模擬光圈535A產生具有合成景深的輸出圖像。行動手機510A及/或攝像頭模組525A可以作為圖像擷取和處理系統400的實例。例如,攝像頭模組525A的攝像頭530A中的每一個可以對應於四個鏡頭415A-415D中的一個,四組控制機構420A-420D中的對應一組控制機構,四個圖像感測器430A-430D中的對應一個圖像感測器,及/或一或多個圖像處理器450中的對應一或多個圖像處理器。
攝像頭530A以在圖5A中用疊加在攝像頭模組525A上的點線畫出的菱形模式540被佈置在攝像頭模組525A內。菱形模式540可以被稱為菱形佈局、菱形取向、菱形定位、菱形佈置、菱形設置或其組合。以菱形模式540佈置的攝像頭530A包括於圖5A中使用疊加在攝像頭模組525A上的虛線畫出的模擬光圈535A中。作為菱形模式540的一部分,攝像頭530A中的兩個(例如,頂部攝像頭和底部攝像頭)之間的偏移距離537A跨越模擬光圈535A的直徑(例如,豎直地)。在一些實例中,菱形模式540可以被修改,以使得攝像頭530A的另外兩個攝像頭(例如,左側攝像頭和右側攝像頭)之間的偏移距離537B亦跨越模擬光圈535A的直徑(例如,水平地)。菱形模式540的側邊亦可以表示其他成對攝像頭530A之間的其他偏移距離。在一些實例中,以菱形模式540佈置的攝像頭530A可以繞與行動手機510A的背面515A的表面垂直的軸線旋轉任一旋轉角度。在一些實例中,模擬光圈可以被稱為合成光圈。
圖5B是示出包括攝像頭模組525B的行動手機510B的背面515B的透視圖,該攝像頭模組525B具有以直列模式545佈置的四個攝像頭,以用於基於模擬光圈535B產生具有合成景深的輸出圖像。行動手機510B及/或攝像頭模組525B可以作為圖像擷取和處理系統400的實例。例如,攝像頭模組525B的攝像頭530B中的每一個可以對應於四個鏡頭415A-415D中的一個,四組控制機構420A-420D中的對應一組控制機構,四個圖像感測器430A-430D中的對應的一個圖像感測器,及/或一或多個圖像處理器450中的對應的一或多個圖像處理器。
攝像頭530B以在圖5B中用疊加在攝像頭模組525B上的豎直點線畫出的直列模式545被佈置在攝像頭模組525B內。直列模式545可以被稱為直列佈局、直列取向、直列定位、直列佈置、直列設置或其組合。以直列模式545佈置的攝像頭530B包括於在圖5B中使用疊加在攝像頭模組525B上的虛線畫出的模擬光圈535B中。作為直列模式545的一部分,攝像頭530B中的兩個(例如,最頂部攝像頭和最底部攝像頭)之間的偏移距離547A跨越模擬光圈535B的直徑(例如,豎直地)。其他偏移距離亦可以在其他成對攝像頭530B之間被量測。在一些實例中,直列模式545下的攝像頭530B的佈置可以繞與行動手機510B的背面515B的表面垂直的軸線旋轉任一旋轉角度。
圖5C是示出包括攝像頭模組525C的行動手機510C的正面520的透視圖,該攝像頭模組525C具有以直列模式545佈置的四個攝像頭530C,以用於基於模擬光圈產生具有合成景深的輸出圖像。行動手機510C的正面520包括顯示器550,並且帶有攝像頭530C的攝像頭模組525C包括於顯示器550的邊框中。在一些實例中,帶有攝像頭530C的攝像頭模組525C包括於顯示器500的下部,使得帶有攝像頭530C的攝像頭模組525C位於行動手機510C的外殼內並且使得攝像頭530C接收穿過顯示器550的光。在其中攝像頭530C以此種方式接收穿過顯示器550的光的佈置中,攝像頭530C可以被稱為顯示螢幕下(under-display)攝像頭。在一些實例中,535A530A、攝像頭530B及/或攝像頭530C中的任一個皆可以是顯示螢幕下攝像頭。
行動手機510C、及/或攝像頭模組525C可以是圖像擷取和處理系統400的實例。例如,攝像頭模組525C的攝像頭530C中的每一個可以對應於四個鏡頭415A-415D中的一個,四組控制機構420A-420D中的對應一組控制機構,四個圖像感測器430A-430D中的對應圖像感測器,及/或一或多個圖像處理器450中的對應的一或多個圖像處理器。
攝像頭530C以在圖5C中使用疊加在攝像頭模組525C上的水平點線畫出的直列模式545佈置在攝像頭模組525C內。圖5C的直列模式545與圖5B的直列模式545相似,但卻是水平的而不是豎直的。以直列模式545佈置的攝像頭530C包括於在圖5C中使用疊加在攝像頭模組525C上的虛線畫出的模擬光圈535C中,或者包括於圖5C內。作為直列模式545的一部分,攝像頭530C中的兩個(例如,最左側攝像頭和最右側攝像頭)之間的偏移距離547B跨越模擬光圈535C的直徑(例如,水平地)。亦可以在其他成對攝像頭530B之間量測其他偏移距離。在一些實例中,直列模式545下的攝像頭530C的佈置可以繞與行動手機510C的正面520的表面垂直的軸線旋轉任一旋轉角度。
在一些實例中,攝像頭模組525C可以被修改為包括如圖5A中的菱形模式540下的攝像頭530C。在一些實例中,菱形模式540下的攝像頭530C的佈置可以繞與行動手機510C的正面520的表面垂直的軸線旋轉任一旋轉角度。
具有如在圖5A至圖5C的攝像頭模組525A-525C中佈置的攝像頭530A-530C的成像設備可以用於擷取可以被用做一或多個經訓練的機器學習(ML)模型的輸入以產生具有合成DoF的輸出圖像的圖像集,如在圖6、圖7、圖8A至圖8B、圖9、圖10A至圖10C、圖11A至圖11B、圖12、圖13、圖14、圖15以及圖16中所示,或者參考圖6、圖7、圖8A至圖8B、圖9、圖10A至圖10C、圖11A至圖11B、圖12、圖13、圖14、圖15以及圖16所論述。然而,在一些實例中,該等攝像頭530A-530C中的至少一個可以被去除。例如,具有由攝像頭530A-530C中的兩個或三個擷取的兩個或三個圖像的圖像集可以被用作一或多個經訓練的機器學習(ML)模型的輸入,以產生具有合成DoF的輸出圖像。在一些實例中,一或多個附加的攝像頭530A-530C可以被添加。諸如,具有由五個或六個攝像頭530A-530C擷取的五個或六個圖像的圖像集可以被用作一或多個經訓練的機器學習(ML)模型的輸入,以產生具有合成DoF的輸出圖像。在一些實例中,攝像頭530A-530C中的單個攝像頭可以充當攝像頭530A-530C中的兩個或兩個以上攝像頭,其中攝像頭530A-530C中的單個攝像頭的移動由移動該攝像頭的致動電機引導,或由手動移動攝像頭530A-530C中的單個攝像頭的使用者引導(例如,根據顯示器550顯示的指令)。在說明性的實例中,成像設備可以包括可以被移動到多個位置的單個圖像感測器(例如,攝像頭530A中的一個攝像頭的圖像感測器),該單個圖像感測器可以由使用者手動地移動或者經由致動將該單個圖像感測器移動到彼等位置的電機的成像設備移動。該單個圖像感測器被移動到的位置可以對應於其他圖像感測器(例如,攝像頭530B-530D的圖像感測器)的位置。因此,基於該單個圖像感測器被移動到的位置,可以使用來自單個圖像感測器的圖像資料來代替來自攝像頭530A-530D的全部四個圖像感測器的圖像資料,例如,為了給一或多個經訓練的ML模型提供輸入圖像以產生具有合成DoF的輸出圖像。
圖6是示出藉由將多個圖像感測器610所擷取的圖像集605用作經訓練的機器學習模型625的輸入來產生具有與模擬光圈大小635對應的合成景深640的輸出圖像630的方塊圖600。圖像集605包括由成像系統的一組圖像感測器610擷取的多個圖像(例如,四個圖像)。在一些實例中,圖像感測器610可以包括圖像擷取和處理系統400的圖像感測器430A-430D、行動手機510A的攝像頭530A的圖像感測器、行動手機510B的攝像頭530B的圖像感測器、行動手機510C的攝像頭530C的圖像感測器,圖像擷取和處理系統100的圖像感測器130,或其組合。擷取圖像集605的圖像資料(例如,圖像)的圖像感測器610的至少子集對應於第一光圈大小615及/或第一DoF 620。第一DoF 620可以至少部分地由第一光圈大小615產生。第一光圈大小615可以是圖像感測器610的至少子集所屬的攝像頭的至少子集的光圈的大小。例如,第一光圈大小615可以指以菱形模式540佈置的攝像頭530A的光圈的光圈大小及/或以直列模式545佈置的攝像頭530B的光圈的光圈大小,其中的每一個皆在圖6中的圖像集605的下方示出(未使用虛線)。
圖像集605的圖像資料(例如,圖像)描繪了背景前面的樹幹。背景包括植物和房屋。成像系統將圖像集605的圖像資料(例如,圖像)用作該成像系統的經訓練的機器學習(ML)模型625的輸入。經訓練的ML模型625的實例在圖9和圖10A示出。用於訓練經訓練的ML模型625的訓練資料的實例在圖11A至圖11B中示出。
成像系統的經訓練的ML模型625基於圖像集605的圖像資料(例如,圖像)產生輸出圖像630。輸出圖像630是以合成DoF 640為特徵的圖像。合成DoF 640可以比第一DoF 620更淺。合成DoF 640可以模擬拍攝如圖像集605中所描繪的相同場景的攝像頭所產生的DoF,但是其中攝像頭具有大小為模擬光圈大小635而不是第一光圈大小615的光圈。模擬光圈大小635可以大於第一光圈大小615,例如,如圖6、圖7、圖8A至圖8B中所示,並且相對於圖5A至圖5C的攝像頭530A-530C和模擬光圈535A-535C。輸出圖像630將樹幹描繪為清楚且焦點對準的,而將樹幹後面的背景描繪為模糊且焦點未對準的。
圖7是示出藉由將由多個圖像感測器710擷取的圖像集705以及該圖像集的縮小變體用作第一經訓練的機器學習模型760(其輸出被用作第二經訓練的機器學習模型765的輸入)的輸入來產生具有與模擬光圈大小735對應的合成景深740的輸出圖像767的方塊圖700。圖像集705包括由成像系統的一組圖像感測器710擷取的多個圖像(例如,四個圖像)。在一些實例中,圖像感測器710可以包括圖像擷取和處理系統400的圖像感測器430A-430D、行動手機510A-510C的攝像頭530A的圖像感測器、行動手機510B的攝像頭530B的圖像感測器、行動手機510C的攝像頭530C的圖像感測器,圖像擷取和處理系統100的圖像感測器130,或其組合。擷取圖像集705的圖像資料(例如,圖像)的圖像感測器710的至少子集對應於第一光圈大小715及/或第一DoF 720。第一DoF 720可以至少部分地由第一光圈大小715產生。第一光圈大小715可以是圖像感測器710的至少子集所屬的攝像頭的至少子集的光圈的大小。例如,第一光圈大小715可以指以菱形模式540佈置的攝像頭530A的光圈的光圈大小及/或以直列模式545佈置的攝像頭530B的光圈的光圈大小,其中的每一個皆在圖7中的圖像集705的下方示出(未使用虛線)。在一些實例中,圖像感測器710可以是圖像感測器610。在一些實例中,第一光圈大小715可以是第一光圈大小615。
圖像集705的圖像資料(例如,圖像)描繪了在背景前面的消防栓。背景包括植物和一部分道路上的兩輛汽車。成像系統使用縮小器750以2x將圖像集705的圖像資料(例如,圖像)進行縮小,產生被縮小至圖像集705的尺寸的一半的圖像集705的變體。成像系統使用縮小器755以4x將圖像集705的圖像資料(例如,圖像)進行縮小,產生被縮小至圖像集705的尺寸的四分之一的圖像集705的變體。在一些實例中,成像系統使用縮小器755以另一2x將已經使用縮小器750以2x縮小的圖像集705的圖像資料(例如,圖像)的變體進行縮小,產生最終的4x縮小。
成像系統將圖像集705、由縮小器750產生的圖像集705的一半尺寸的變體、以及由縮小器755產生的圖像集705的四分之一尺寸的變體用作成像系統的第一經訓練的機器學習(ML)模型760的輸入。第一經訓練的ML模型760的實例在圖9和圖10B中示出。用於訓練第一經訓練的ML模型760的訓練資料的實例在圖11A至圖11B中示出。
成像系統的第一經訓練的ML模型760產生中間資料。成像系統將中間資料用作成像系統的第二經訓練的機器學習(ML)模型765的輸入。第二經訓練的ML模型基於中間資料產生輸出圖像770。中間資料可以包括,例如,中間圖像及/或視差誤差圖。中間圖像的實例包括中間圖像810。視差誤差圖的實例包括視差誤差圖805。第二經訓練的ML模型765的實例在圖9和圖10C中示出。用於訓練第二經訓練的ML模型765的訓練資料的實例包括基於圖11A至圖11B中所示的訓練資料產生的中間資料。
輸出圖像770是以合成DoF 740為特徵的圖像。合成DoF 740可以比第一DoF 720更淺。合成DoF 740可以模擬要由拍攝如圖像集705中描繪的相同場景的攝像頭產生的DoF,但是其中攝像頭的光圈為模擬光圈大小735,而不是第一光圈大小715。例如,如圖6、圖7、圖8A至圖8B中所示,以及參考圖5A至圖5C的攝像頭530A-530C和模擬光圈535A-535C,模擬光圈大小735可以比第一光圈大小715更大。輸出圖像770將消防栓描繪為清楚且焦點對準,而將該消防栓後面的背景描繪為模糊且焦點未對準。
在一些實例中,第一經訓練的ML模型760和第二經訓練的ML模型765可以是執行本文中所論述的如第一經訓練的ML模型760執行的操作和本文中所論述的如第二經訓練的ML模型765執行的操作的單個經訓練的ML模型。
圖8A是示出藉由將來自多個圖像感測器710的圖像集705和圖像集705的縮小變體用作第一經訓練的機器學習模型760的輸入來產生視差誤差圖805和中間圖像810的方塊圖800。如圖7中,縮小器750和縮小器755接收圖像集705以產生圖像集705的縮小變體。圖像集705中的個別圖像的縮小變體的實例在圖8A中示出。
第一經訓練的機器學習模型760接收圖像集705和圖像集705的縮小變體作為輸入。成像系統的第一經訓練的ML模型760產生中間資料。第一經訓練的ML模型760產生的中間資料包括中間圖像810。中間圖像810為以與模擬光圈大小735對應的合成DoF 740為特徵的圖像。中間圖像810可以包括與圖像集705中的圖像之間的視差相關聯的區域中的視差誤差。由第一經訓練的ML模型760產生的中間資料可以包括多種尺寸的中間圖像810——例如,由第一經訓練的ML模型760基於圖像集705產生的大尺寸中間圖像、由第一經訓練的ML模型760基於由縮小器750產生的圖像集705的一半尺寸變體而產生的中等尺寸中間圖像、以及由第一經訓練的ML模型760基於由縮小器755產生的圖像集705的四分之一尺寸變體而產生的小尺寸中間圖像。在一些實例中,第一經訓練的ML模型760可以藉由縮小其他另一尺寸的中間圖像810來產生多種尺寸的中間圖像810中的一些。
由第一經訓練的ML模型760產生的中間資料包括視差誤差圖805。視差誤差圖805將對應於視差誤差的區域映射在對應尺寸的中間圖像810中,或者在對應尺寸的中間圖像810中缺少對應於視差誤差的區域。由第一經訓練的ML模型760產生的視差誤差圖805可以包括多種尺寸的視差誤差圖805——例如,由第一經訓練的ML模型760基於圖像集705產生的大尺寸視差誤差圖、由第一經訓練的ML模型760基於由縮小器750產生的圖像集705的一半尺寸變體而產生的中等尺寸視差誤差圖、以及由第一經訓練的ML模型760基於由縮小器755產生的圖像集705的四分之一尺寸變體而產生的小尺寸視差誤差圖。在一些實例中,第一經訓練的ML模型760可以藉由縮小其他另一尺寸的視差誤差圖805來產生多種尺寸的視差誤差圖805中的一些。
圖8B是示出將視差誤差圖805和中間圖像810用作第二經訓練的機器學習模型765的輸入以產生輸出圖像770的方塊圖850。
視差誤差圖805的灰階版本的實例在圖8A至圖8B中示出。視差誤差圖805可以是彩色的。在一些實例中,較亮的陰影(例如,白色)表示高的正視差,較暗的陰影(例如,黑色)表示高的(在絕對值方面)負視差,而介於白色和黑色之間的中間灰色陰影表示沒有視差。該等灰階視差值可以在多個顏色通道(例如,紅色、綠色、藍色)上被決定及/或以高置信度被決定。在一些實例中,顏色(例如,紅色、綠色、藍色、黃色、洋紅、青色等)可以表示視差誤差——指僅存在於特定顏色通道中的因此以低的置信度被決定的視差。在圖8A至圖8B中所示的視差誤差圖805的灰階版本中的消防栓之外呈現灰色的區域中的許多區域實際上在視差誤差圖805的彩色版本中呈現為彩色,指示具有特定顏色通道中的視差的視差誤差及/或指示該等視差中的低置信度。
通常,在較小的圖像尺度下,視差誤差被減小,及/或視差以較高的置信度被決定。因而,小尺寸的視差誤差圖通常比大尺寸的視差誤差圖顯示更小的視差誤差。為了產生輸出圖像770,成像系統(例如,第二經訓練的ML模型765)基於視差誤差圖805的對應部分中哪個是包括閾值以下的視差誤差的最大者將三個不同尺寸的中間圖像810的部分合併到輸出圖像770中。例如,中等尺寸的視差誤差圖包括消火栓右側的具有非常小的視差誤差的幾個區域,但大尺寸的視差誤差圖仍然包括消火栓右側的相同區域中的大量視差誤差。因而,輸出圖像770可以包括針對消防栓右側的該等區域的中等尺寸的中間圖像的放大部分。同時,在小尺寸視差誤差圖中,消火栓上方和左側的一些區域包括很小的視差誤差;而即使在中等尺寸視差誤差圖中,消火栓上方和左側的相同區域中仍然包括大量的視差誤差。因而,輸出圖像770可以包括針對消防栓上方和左側的該等區域的小尺寸的中間圖像的放大部分。最終,消防栓自身通常在大尺寸視差誤差圖中包括很少的視差誤差,因此輸出圖像770可以包括針對消防栓自身的大部分的大尺寸中間圖像的部分。第二經訓練的ML模型765可以對該等部分進行良好地組合,使得沒有接縫是可見的。對於具有高的視差誤差的區域的較小中間圖像的放大部分的使用可以減少輸出圖像770中的在一些實例中可以呈現為或類似於重影偽像或「複視(double vision)」的視覺偽像(與大尺寸中間圖像相比)。因為視差誤差通常在意欲模糊和焦點未對準的區域中最高,對於具有高的視差誤差的區域的較小的中間圖像的放大部分的使用相對於縮小和放大模糊彼等區域通常不會產生任何問題。
第二經訓練的ML模型基於中間資料產生輸出圖像770。如參考圖7所論述的,輸出圖像770是以與模擬光圈大小735對應的合成DoF 740為特徵的圖像。輸出圖像770將消防栓描繪為清楚且焦點對準,而將消防栓後面的背景描繪為模糊且焦點未對準。與大尺寸的中間圖像相似,消火栓在輸出圖像770中呈現為清楚且焦點對準。消防栓後面的背景在輸出圖像770中呈現為模糊且焦點未對準,其中與大尺寸的中間圖像相比,視覺偽像被減小或消除。
圖9是示出可以被產生具有合成景深的圖像及/或產生視差誤差圖的經訓練的機器學習系統使用的神經網路(NN)900的實例的方塊圖。由NN 900產生的具有合成景深的圖像可以包括,例如,輸出圖像630、輸出圖像770、中間圖像810、輸出圖像1020、中間圖像1050、輸出圖像1210、輸出圖像1310、輸出圖像1410、輸出圖像1510、輸出圖像1515、操作1620的圖像、或其組合。由NN 900產生的視差誤差圖可以包括,例如,視差誤差圖805。神經網路900可以包括任何類型的深度網路,諸如迴旋神經網路(CNN)、自動編碼器、深度信念網路(DBN)、循環神經網路(RNN)、產生對抗網路(GAN)、及/或其他類型的神經網路。神經網路900可以是經訓練的ML模型625的、第一經訓練的ML模型760的、第二經訓練的ML模型765的、執行第一經訓練的ML模型760和第二經訓練的ML模型765的操作的經訓練的ML模型的、經訓練的NN 1005A的、經訓練的NN 1005B的、經訓練的NN 1005C的、操作1615中的一或多個經訓練的ML系統的、或其組合的一或多個經訓練的神經網路中的一個經訓練的神經網路的實例。
神經網路900的輸入層910包括輸入資料。輸入層910的輸入資料可以包括表示一或多個輸入圖像訊框的圖元的資料。在說明性實例中,輸入層910的輸入資料可以包括表示以下資料:圖像資料(例如,圖像集605的、圖像集705的、視差誤差圖805的、中間圖像810的、圖像集1010的、縮小變體1040的、視差誤差圖1045的、及/或中間圖像1050的)的圖元及/或對應於圖像資料的中繼資料。在一個說明性實例中,輸入層910的輸入資料可以包括圖像集605、圖像集705、圖像集1010、縮小變體1040、及/或中繼資料270。
在另一說明性實例中,輸入層910的輸入資料可以包括視差誤差圖805、中間圖像810、視差誤差圖1045、中間圖像1050、及/或中繼資料。圖像可以包括來自圖像感測器的圖像資料,包括原始圖元資料(包括基於例如拜耳濾波器的每圖元的單色)或經處理的圖元值(例如,RGB圖像的RGB圖元)。神經網路900包括多個隱藏層912A、912B、直到912N。隱藏層912A、912B、直到912N包括「N」個隱藏層,其中「N」是大於或等於1的整數。隱藏層的數量可以被設置以包括與給定應用所需要的層一樣多的層。神經網路900亦包括提供由隱藏層912A、912B直到912N執行的處理得到的輸出的輸出層914。在一些實例中,輸出層914可以提供輸出圖像,諸如,輸出圖像630、輸出圖像770、中間圖像810、輸出圖像1020、中間圖像1050、輸出圖像1210、輸出圖像1310、輸出圖像1410、輸出圖像1510、輸出圖像1515、操作1620的圖像,或其組合。在一些實例中,輸出層914可以提供中間圖像及/或視差誤差圖,諸如視差誤差圖805、中間圖像810、視差誤差圖1045、中間圖像1050、或其組合。
神經網路900是包括相互連接的濾波器的多層神經網路。每個濾波器皆可以被訓練以學習表示輸入資料的特徵。與濾波器相關聯的資訊在不同的層之間共享,並且每一層在資訊被處理的情況下對資訊進行保留。在一些情況下,神經網路900可以包括前饋網路,在此種情況下,沒有其中網路的輸出被回饋給自身的回饋連接。在一些情況下,網路900可以包括循環神經網路,其可以具有允許在輸入中進行讀取時資訊被跨節點傳遞的迴路。
在一些情況下,資訊可以經由各層之間的節點對節點互連在各層之間被交換。在一些情況下,網路可以包括可以不將一層中的每一節點連結到下一層中的每一個其他節點的迴旋神經網路。在其中資訊在層與層之間被交換的網路中,輸入層910的節點可以啟動第一隱藏層912A中的節點組。例如,如所示,輸入層910的輸入節點中的每一個可以連接至第一隱藏層912A的節點中的每一個。隱藏層的節點可以藉由對每個輸入節點的資訊應用啟動函數(例如,濾波器)來對該資訊進行轉換。隨後,從轉換中推導的資訊可以被傳遞給下一隱藏層912B的節點並啟動下一隱藏層912B的節點,其可以執行其自身的指定的函數。示例函數包括迴旋函數、縮小函數、放大函數、資料轉換函數及/或任何其他合適的函數。隨後,隱藏層912B的輸出可以啟動下一隱藏層的節點等等。最後的隱藏層912N的輸出可以啟動輸出層914的一或多個節點,其提供經處理的輸出圖像。在一些情況下,儘管神經網路900中的節點(例如,節點916)被圖示為具有多條輸出線,但節點具有單個輸出,並且被圖示為從節點輸出的全部線表示相同的輸出值。
在一些情況下,每個節點或節點之間的互連可以具有權重,該權重是從神經網路900的訓練中推導的一組參數。例如,節點之間的互連可以表示學習到的關於互連節點的一條資訊。互連可以具有可以被調節的可調數值權重(例如,基於訓練資料集),而允許神經網路900適應於輸入,並能夠隨著越來越多的資料被處理來進行學習。
神經網路900被預訓練以使用不同的隱藏層912A、912B、直到912N來處理來自輸入層910中的資料的特徵,以便經由輸出層914提供輸出。
圖10A是示出基於處於第一景深1015的圖像集1010產生具有合成景深1025的輸出圖像1020的經訓練的機器學習模型625的經訓練的神經網路1005A的神經網路架構1000A的實例的方塊圖。合成DoF 1025可以比第一DoF 1015更短。合成DoF 1025可以對應於模擬光圈大小,諸如模擬光圈大小635、模擬光圈大小735、及/或模擬光圈535A-535C中的任一個的模擬光圈大小。第一DoF 1015可以對應於對圖像集1010進行擷取的一或多個攝像頭的第一光圈大小,諸如第一光圈大小615、第一光圈大小715、及/或攝像頭530A-530C的光圈大小。圖像集1010的實例包括圖像集605、圖像集705、包括輸入圖像1205的圖像集、包括輸入圖像1305的圖像集、包括輸入圖像1405的圖像集、包括輸入圖像1505的圖像集、或其組合。輸出圖像1020的實例包括輸出圖像730、輸出圖像770、輸出圖像1210、輸出圖像1310、輸出圖像1410、輸出圖像1510、輸出圖像1515、操作1620的圖像,或其組合。在說明性實例中,圖像集1010包括4個圖像。
經訓練的神經網路1005A可以是經訓練的機器學習模型625的一或多個經訓練的神經網路900中的一個經訓練的神經網路的實例。經訓練的神經網路1005A從具有第一DoF 1015的圖像集1010及/或從與圖像集1010及/或第一DoF 1015有關的中繼資料,接收圖像資料作為其輸入。來自輸入圖像1005的圖像資料可以包括原始圖像資料。原始圖像資料可以對應於整個圖像或表示圖像集1010中的整個圖像的區域的圖像補片(patch)。圖像集1010可以包括可以被使用ISP 154去馬賽克的經去馬賽克圖像資料。經訓練的神經網路1005A輸出具有合成DoF 1025的輸出圖像1020。
圖例1030辨識由經訓練的NN 1005A執行的不同NN操作,以基於圖像集1010及/或中繼資料產生輸出圖像1020。例如,根據圖例1030,具有3×3的濾波器和步幅為1的迴旋由以黑色勾勒的指向右側的白色箭頭指示。2×2的最大池化(亦稱為最大池化)由指向下方的黑色粗箭頭指示。上取樣(例如,雙線性上取樣)由指向上方的黑色粗箭頭指示。連結由以箭頭收尾的黑色細線示出。
經訓練的NN 1005A在基於具有第一DoF 1015的圖像集1010產生具有合成DoF 1025的輸出圖像1020的過程中包括並使用大量的迴旋層及/或特徵圖。在說明性實例中,藉由使用迴旋層及/或特徵圖,經訓練的NN 1005A將特徵空間從4×3變到48×3、變到96×3、變回到48×3、以及最終變到1×3。在一些實例中,深度3可以表示圖像集1010在其中被編碼的3個顏色通道,諸如紅色、綠色和藍色(RGB)。
在說明性實例中,圖像集1010中的每一個圖像皆是具有兩種顏色(例如,黑色和白色)的單色圖像。在另一說明性實例中,圖像集1010中的每一個圖像皆是具有黑色和白色之間的灰色的陰影的灰階圖像。在一些實例中,圖像集1010中的每一個圖像皆是彩色圖像。在另一說明性實例中,圖像集1010中的每一個圖像皆包括顏色的有限集合(例如,256種顏色)。
在一些實例中,圖像集1010中的每一個圖像可以表示彩色的第二圖像集的單個顏色通道。例如,若第二圖像集的圖像是紅-綠-藍(RGB)彩色圖像,則圖像集1010可以表示第二圖像集的綠色顏色通道、第二圖像集的紅色顏色通道或第二圖像集的藍色顏色通道。若第二圖像集的圖像是青色-洋紅-黃色-黑色(CMYK)彩色圖像,則圖像集1010可以表示第二圖像集的青色顏色通道、第二圖像集的洋紅顏色通道、第二圖像集的黃色顏色通道或第二圖像集的黑色顏色通道。在此種實例中,圖10A中所示的經訓練的NN 1005A產生針對由輸入圖像表示的顏色通道的輸出圖像1020。對應於針對第二圖像集的其他顏色通道的其他圖像集可以被輸入到圖10A中所示的經訓練的NN 1005A中,使經訓練的NN 1005A產生針對彼等其他顏色通道的輸出圖像。一旦經訓練的NN 1005A基於表示第二圖像集的顏色通道中的每一個的輸入圖像集產生了針對第二圖像集的全部顏色通道的輸出圖像,使用經訓練的NN 1005A的成像系統就可以將對應於不同顏色通道的多個輸出圖像組合成對應於彩色的第二圖像集的單個彩色輸出圖像。
圖10B是示出基於處於第一景深1015的圖像集1010和圖像集1010的縮小變體1040產生具有合成景深1025和視差誤差圖1045的中間圖像1050的第一經訓練的機器學習模型760的經訓練的神經網路1005B的神經網路架構1000B的實例的方塊圖。中間圖像1050的實例包括中間圖像810。視差誤差圖1045的實例包括視差誤差圖805。在說明性實例中,圖像集1010包括4個圖像。
經訓練的神經網路1005B可以是第一經訓練的機器學習模型760中的一或多個經訓練的神經網路900中的一個經訓練的神經網路的實例。經訓練的神經網路1005B從具有第一DoF 1015的圖像集1010、及從圖像集1010的縮小變體1040、及/或從與圖像集1010及/或第一DoF 1015及/或縮小器(例如,縮小器750及/或縮小器755)有關的中繼資料,接收圖像資料作為其輸入。來自輸入圖像1005的圖像資料可以包括原始圖像資料。原始圖像資料可以對應於整個圖像或表示圖像集1010中的整個圖像的區域的圖像補片。圖像集1010可以包括可以使用ISP 154去馬賽克的經去馬賽克圖像資料。經訓練的神經網路1005B輸出具有合成DoF 1025的中間圖像1050及/或視差誤差圖1045。圖10A中指示,例如3×3迴旋、2×2最大池化操作、雙線性上取樣操作、以及連結操作的圖例1030亦在圖10B中被示出。
經訓練的NN 1005B在基於具有第一DoF 1015的圖像集1010產生具有合成DoF 1025的一或多個中間圖像1050和一或多個視差誤差圖1045的過程中包括並使用大量的迴旋層及/或特徵圖。在說明性實例中,經訓練的NN 1005B基於具有第一DoF 1015的圖像集1010產生具有合成DoF 1025的一個中間圖像1050和一個視差誤差圖1045。在說明性實例中,藉由使用迴旋層及/或特徵圖,經訓練的NN 1005B將特徵空間從4×3變到48×3、變到96×3、變回到48×3、以及最終變到2×3。在一些實例中,深度3可以表示圖像集1010在其中被編碼的3個顏色通道,諸如紅色、綠色和藍色(RGB)。
在說明性的實例中,圖像集1010中的每一個圖像皆是具有兩種顏色(例如,黑色和白色)的單色圖像。在另一說明性實例中,圖像集1010中的每一個圖像皆是具有黑色和白色之間的灰色的陰影的灰階圖像。在一些實例中,圖像集1010中的每一個圖像皆是彩色圖像。在另一說明性實例中,圖像集1010中的每一個圖像皆包括顏色的有限集合(例如,256種顏色)。
在一些實例中,圖像集1010中的每一個圖像可以表示彩色的第二圖像集的單個顏色通道。例如,若第二圖像集的圖像是紅-綠-藍(RGB)彩色圖像,則圖像集1010可以表示第二圖像集的綠色顏色通道、第二圖像集的紅色顏色通道或第二圖像集的藍色顏色通道。若第二圖像集的圖像是青色-洋紅-黃色-黑色(CMYK)彩色圖像,則圖像集1010可以表示第二圖像集的青色顏色通道、第二圖像集的洋紅顏色通道、第二圖像集的黃色顏色通道或第二圖像集的黑色顏色通道。在此種實例中,圖10B中所示的經訓練的NN 1005B產生針對由輸入圖像表示的顏色通道的具有合成DoF 1025的一或多個中間圖像1050和一或多個視差誤差圖1045。對應於針對第二圖像集的其他顏色通道的其他圖像集可以被輸入到圖10B中所示的經訓練的NN 1005B中,使經訓練的NN 1005B產生針對彼等其他顏色通道的具有合成DoF 1025的一或多個中間圖像1050和一或多個視差誤差圖。一旦經訓練的NN 1005B基於表示第二圖像集的顏色通道中的每一個的輸入圖像集產生了針對第二圖像集的全部顏色通道的具有合成DoF 1025的一或多個中間圖像和一或多個視差誤差圖,使用經訓練的NN 1005B的成像系統就可以將對應於不同顏色通道的具有合成DoF的多個中間圖像和一或多個視差誤差圖組合成具有合成DoF 1025的單個彩色中間圖像和單個彩色視差誤差圖。
圖10C是示出基於具有合成景深1025的中間圖像1050和視差誤差圖1045產生具有合成景深1025的輸出圖像1020的第二經訓練的機器學習模型765的經訓練的神經網路1005C的神經網路架構1000C的實例的方塊圖。經訓練的神經網路1005C可以是第二經訓練的機器學習模型765中的一或多個經訓練的神經網路900中的一個經訓練的神經網路的實例。經訓練的神經網路1005A接收作為其輸入的、具有合成DoF 1025的中間圖像1050、視差誤差圖1045、及/或與中間圖像1050及/或視差誤差圖1045相關聯的中繼資料。經訓練的神經網路1005A可以接收作為其輸入的、被調整尺寸及/或被重取樣至多種不同尺寸(諸如,大尺寸(例如,原始尺寸)、中等尺寸(例如,原始尺寸的一半)和小尺寸(例如,原始尺寸的四分之一))的一或多個中間圖像1050和一或多個視差誤差圖1045。經訓練的神經網路1005A輸出具有合成DoF 1025的輸出圖像1020。
圖例1035在圖10C中被示出。圖例1035辨識由經訓練的NN 1005C執行的不同NN操作,以基於一或多個中間圖像1050和一或多個視差誤差圖1045產生具有合成DoF 1025的輸出圖像1020。圖例1035與圖10A至圖10B的圖例1030相似。例如,根據圖例1035,具有3×3的濾波器和步幅為1的迴旋由以黑色勾勒的指向右側的白色箭頭指示,如在圖例1030中一樣。2×2的平均池化由指向下方的黑色粗箭頭指示。在一些實例中,可以如圖例1030中一般使用2×2的最大池化代替2×2的平均池化。上取樣(例如,雙線性上取樣)由指向上方的黑色粗箭頭指示,如圖例1030中一般。連結由以箭頭收尾的黑色細線示出,如圖例1030中一般。在一些實例中,不同尺寸的一或多個中間圖像1050和一或多個視差誤差圖1045可以在對經訓練的NN 1005C進行一或多次迴旋之後被提供給經訓練的NN 1005C,例如,在如圖10C中的虛線箭頭所指示的兩次2×2平均池化操作之後。
經訓練的NN 1005C在基於一或多個中間圖像1050和一或多個視差誤差圖1045產生具有合成DoF 1025的輸出圖像1020的過程中包括並使用大量迴旋層及/或特徵圖。在說明性實例中,藉由使用迴旋層及/或特徵圖,經訓練的NN 1005C將特徵空間從18變到24、變到30、變到36、變回到18、隨後變到3。在另一說明性實例中,藉由使用迴旋層及/或特徵圖,經訓練的NN 1005C將特徵空間從6變到12、變到24、變到36、變到18、隨後變到3。在一些實例中,輸出層的3可以表示輸出圖像1020在其中被編碼的3個顏色通道,諸如紅色、綠色和藍色(RGB)。
在說明性實例中,一或多個中間圖像1050及/或一或多個視差誤差圖1045中的每一個圖像皆是具有兩種顏色(例如,黑色和白色)的單色圖像。在另一說明性實例中,一或多個中間圖像1050及/或一或多個視差誤差圖1045中的每一個圖像皆是具有黑色和白色之間的灰色的陰影的灰階圖像。在一些實例中,一或多個中間圖像1050及/或一或多個視差誤差圖1045中的每一個圖像皆是彩色圖像。在另一說明性實例中,一或多個中間圖像1050及/或一或多個視差誤差圖1045中的每一個圖像皆包括顏色的有限集合(例如,256種顏色)。
在一些實例中,一或多個中間圖像1050及/或一或多個視差誤差圖1045中的每一個圖像皆可以表示彩色的一或多個中間圖像及/或彩色的一或多個視差誤差圖的第二集合的單個顏色通道。例如,若一或多個中間圖像及/或一或多個視差誤差圖的第二集合的圖像是紅-綠-藍(RGB)彩色圖像,則一或多個中間圖像1050及/或一或多個視差誤差圖1045可以表示一或多個中間圖像及/或一或多個視差誤差圖的第二集合的綠色顏色通道、紅色顏色通道或藍色顏色通道。若一或多個中間圖像及/或一或多個視差誤差圖的第二集合的圖像是青色-洋紅-黃色-黑色(CMYK)彩色圖像,則一或多個中間圖像1050及/或一或多個視差誤差圖1045可以表示一或多個中間圖像1050及/或一或多個視差誤差圖1045的青色顏色通道、洋紅顏色通道、黃色顏色通道或黑色通道。在此種實例中,圖10C中所示的經訓練的NN 1005C產生針對由一或多個中間圖像1050及/或一或多個視差誤差圖1045表示的顏色通道的輸出圖像1020。與針對一或多個中間圖像及/或一或多個視差誤差圖的第二集合的其他顏色通道對應的一或多個中間圖像及/或一或多個視差誤差圖的其他集合可以被輸入到圖10C中所示的經訓練的NN 1005C中,使經訓練的NN 1005C產生針對彼等其他顏色通道的輸出圖像。一旦經訓練的NN 1005C基於表示一或多個中間圖像及/或一或多個視差誤差圖的第二集合的顏色通道中的每一個的一或多個中間圖像及/或一或多個視差誤差圖的集合的輸入而產生了針對一或多個中間圖像及/或一或多個視差誤差圖的第二集合的全部顏色通道的輸出圖像,則使用經訓練的NN 1005C的成像系統可以將對應於不同顏色通道的多個輸出圖像組合成與一或多個中間圖像及/或一或多個視差誤差圖的彩色的第二集合對應的單個彩色輸出圖像。
圖11A是示出光場攝像頭1140的攝像頭陣列1105中的選擇的攝像頭的實例的概念圖1100,選擇的攝像頭可以用於提供對一或多個經訓練的機器學習模型1115進行訓練的訓練資料1110以處理來自以菱形模式540佈置的圖像感測器的圖像資料。攝像頭陣列中的選擇的攝像頭被用黑色的粗線圈起來,並在光場攝像頭1140的攝像頭陣列1105內以菱形模式540佈置。訓練資料1110可以包括具有攝像頭陣列1105中的選擇的攝像頭中的每一個攝像頭的場景的圖像資料的圖像集,以及由光場攝像頭1140基於由攝像頭陣列1105中的攝像頭擷取的圖像產生的場景的最終輸出圖像。ML模型1115可以包括,例如,經訓練的ML模型625、第一經訓練的ML模型760、第二經訓練的ML模型765、NN 900、經訓練的NN 1005A、經訓練的NN 1005B、經訓練的NN 1005C、操作1615中的一或多個經訓練的ML系統,或其組合。圖像感測器可以包括,例如,圖像感測器430A-430D、攝像頭530A的圖像感測器、圖像感測器610、圖像感測器710、圖像感測器130中的一或多個、或其組合。
圖11B是示出光場攝像頭1140的攝像頭陣列1105中的選擇的攝像頭的實例的概念圖1150,選擇的攝像頭可以用於提供對一或多個經訓練的機器學習模型1115進行訓練的訓練資料1110以處理來自以直列模式545佈置的圖像感測器的圖像資料。攝像頭陣列中的選擇的攝像頭被用黑色的粗線圈起來,並在光場攝像頭1140的攝像頭陣列1105內以菱形模式540佈置。訓練資料1110可以包括具有攝像頭陣列1105中的選擇的攝像頭中的每一個攝像頭的場景的圖像資料的圖像集,以及由光場攝像頭1140基於由攝像頭陣列1105中的攝像頭擷取的圖像產生的場景的最終輸出圖像。ML模型1115可以包括,例如,經訓練的ML模型625、第一經訓練的ML模型760、第二經訓練的ML模型765、NN 900、經訓練的NN 1005A、經訓練的NN 1005B,經訓練的NN 1005C、操作1615中的一或多個經訓練的ML系統,或其組合。圖像感測器可以包括,例如,圖像感測器430A-430D、攝像頭530B的圖像感測器、攝像頭530C的圖像感測器、圖像感測器610、圖像感測器710、圖像感測器130中的一或多個、或其組合。
圖12是示出人像的輸入圖像1205和人像的使用一或多個經訓練的機器學習模型產生的具有合成景深的輸出圖像1210的概念圖1200。一或多個經訓練的ML模型可以包括,例如,經訓練的ML模型625、第一經訓練的ML模型760、第二經訓練的ML模型765、NN 900、經訓練的NN 1005A、經訓練的NN 1005B、經訓練的NN 1005C、操作1615中的一或多個經訓練的ML系統、或其組合。其中輸入圖像1205和輸出圖像1210之間的變化明顯可見的場景的背景區域被以疊加於輸入圖像1205和輸出圖像1210兩者之上的圓角矩形在輸入圖像1205和輸出圖像1210中均突出顯示。特別地,在輸出圖像1210中背景呈現為更加模糊和焦點未對準,使焦點對準人像中的女子。即使在女子的邊界附近並且即使在諸如女子的頭髮的複雜邊界處,清楚且焦點對準的女子與模糊且焦點未對準的區域之間的過渡皆很乾淨。
圖13是示出鄰域場景的輸入圖像1305和鄰域場景的使用一或多個經訓練的機器學習模型產生的且具有合成景深的輸出圖像1310的概念圖1300。一或多個經訓練的ML模型可以包括,例如,經訓練的ML模型625、第一經訓練的ML模型760、第二經訓練的ML模型765、NN 900、經訓練的NN 1005A、經訓練的NN 1005B、經訓練的NN 1005C、操作1615中的一或多個經訓練的ML系統、或其組合。其中輸入圖像1305和輸出圖像1310之間的變化明顯可見的場景的前景區域被以疊加於輸入圖像1305和輸出圖像1310兩者之上的圓角矩形在輸入圖像1305和輸出圖像1310中均突出顯示。特別地,在輸出圖像1310中前景中的牆呈現為更加模糊和焦點未對準,使焦點對準牆後面的背景中的鄰域。
圖14是示出圍欄遮擋場景的輸入圖像1405和圍欄遮擋場景的使用一或多個經訓練的機器學習模型產生的且具有合成景深的輸出圖像1410的概念圖1400。一或多個經訓練的ML模型可以包括,例如,經訓練的ML模型625、第一經訓練的ML模型760、第二經訓練的ML模型765、NN 900、經訓練的NN 1005A、經訓練的NN 1005B、經訓練的NN 1005C、操作1615中的一或多個經訓練的ML系統、或其組合。其中輸入圖像1405和輸出圖像1410之間的變化明顯可見的場景的區域被以疊加於輸入圖像1405和輸出圖像1410兩者之上的圓角矩形在輸入圖像1405和輸出圖像1410中均突出顯示。特別地,在輸出圖像1410中,背景中的建築物呈現為更加模糊和焦點未對準,使焦點對準圍欄和建築物前面(並且遮擋該建築物)的前景中的植物。
圖15是示出玻璃窗後面的書本的輸入圖像1505和玻璃窗後面的書本的使用一或多個經訓練的機器學習模型產生的並且具有合成景深且對焦於場景的不同元素的兩個輸出圖像(第一輸出圖像1510和第二輸出圖像1515)的概念圖1500。一或多個經訓練的ML模型可以包括,例如,經訓練的ML模型625、第一經訓練的ML模型760、第二經訓練的ML模型765、NN 900、經訓練的NN 1005A、經訓練的NN 1005B、經訓練的NN 1005C、操作1615中的一或多個經訓練的ML系統、或其組合。其中輸入圖像1505與第一輸出圖像1510或第二輸出圖像1515中的至少一個之間的變化明顯可見的場景的區域被以疊加於輸入圖像1505、第一輸出圖像1510以及第二輸出圖像1515三者之上的圓角矩形在輸入圖像1505、第一輸出圖像1510和第二輸出圖像1515中均突出顯示。特別地,在第一輸出圖像1510中,焦點透過玻璃在書本上,書本呈現為清楚且焦點對準,而玻璃上的反射(朝向圖像的頂部)呈現為更加模糊和焦點未對準。在第二輸出圖像1515中,焦點在玻璃中的反射圖像(朝向圖像的頂部)上,反射圖像呈現為清楚且焦點對準,而書本自身(透過玻璃)呈現為更加模糊且焦點未對準。
圖16是示出用於處理圖像資料的過程1600的流程圖。過程1600可以由成像系統執行。在一些實例中,成像系統可以包括,例如,圖像擷取和處理系統100、圖像擷取設備105A、圖像處理設備105B、圖像處理器150、ISP 154、主機處理器152、圖像擷取和處理系統400、圖像擷取設備405A、圖像處理設備405B、圖像處理器450、經訓練的ML模型625、第一經訓練的ML模型760、第二經訓練的ML模型765、NN 900、經訓練的NN 1005A、經訓練的NN 1005B、經訓練的NN 1005C、計算系統1700、處理器1710、或其組合。
在操作1605處,成像系統被配置為並且可以接收場景的由第一圖像感測器擷取的第一圖像資料。在操作1610處,成像系統被配置為並且可以接收場景的由第二圖像感測器擷取的第二圖像資料。第一圖像感測器以偏移距離與第二圖像感測器偏移。
在一些實例中,成像系統可以包括第一圖像感測器及/或第二圖像感測器。在一些實例中,成像系統可以包括:包括第一圖像感測器的第一攝像頭及/或包括第二圖像感測器的第二攝像頭。在一些實例中,成像系統可以包括:包括第一攝像頭及/或第二攝像頭的攝像頭模組。在一些實例中,成像系統可以包括:包括第一圖像感測器及/或第二圖像感測器的攝像頭模組。在一些實例中,除了第一攝像頭及/或第二攝像頭,攝像頭模組亦可以包括一或多個附加的攝像頭。在一些實例中,除了第一圖像感測器及/或第二圖像感測器,攝像頭模組亦可以包括一或多個附加的圖像感測器。
攝像頭模組的實例包括圖像擷取和處理系統400、圖像擷取設備405A、圖像處理設備405B、攝像頭模組525A-525C、輸入設備1745、本文所述的另一攝像頭模組、或其組合。第一攝像頭及/或第二攝像頭及/或一或多個附加的攝像頭的實例包括圖像擷取和處理系統100、圖像擷取設備105A、圖像處理設備105B、包括鏡頭415A和控制機構420A以及圖像感測器430A的攝像頭、包括鏡頭415B和控制機構420B以及圖像感測器430B的攝像頭、包括鏡頭415C和控制機構420C以及圖像感測器430C的攝像頭、包括鏡頭415D和控制機構420D以及圖像感測器430D的攝像頭、攝像頭530A-530C、具有圖像感測器610和第一個光圈大小615的攝像頭、具有圖像感測器710和第一光圈大小715的攝像頭、擷取圖像集1010的攝像頭、輸入設備1745、本文所述的另一攝像頭,或其組合。第一圖像感測器及/或第二圖像感測器及/或一或多個附加的圖像感測器的實例包括圖像感測器130、圖像感測器430A-430D、攝像頭530A-530C的圖像感測器、圖像感測器610、圖像感測器710、擷取圖像集1010的圖像感測器、輸入設備1745、本文所述的另一圖像感測器、或其組合。
在一些實例中,成像系統可以包括一或多個圖像感測器連接器,該一或多個圖像感測器連接器將成像系統的一或多個處理器耦合到第一圖像感測器、第二圖像感測器、另一圖像感測器、第一攝像頭、第二攝像頭、另一攝像頭、攝像頭模組、或其組合。在一些實例中,在操作1605中接收由第一圖像感測器擷取的第一圖像資料包括從一或多個圖像感測器連接器、在一或多個圖像感測器連接器上及/或經由一或多個圖像感測器連接器來接收第一圖像資料。在一些實例中,在操作1610中接收由第二圖像感測器擷取的第二圖像資料包括從一或多個圖像感測器連接器、在一或多個圖像感測器連接器上及/或經由一或多個圖像感測器連接器來接收第一圖像資料。在一些實例中,接收由攝像頭模組的附加圖像感測器(除了第一圖像感測器和第二圖像感測器之外)擷取的附加圖像資料包括從一或多個圖像感測器連接器、在一或多個圖像感測器連接器上及/或經由一或多個圖像感測器連接器來接收附加圖像資料。一或多個圖像感測器連接器可以包括埠、插孔、電線、輸入/輸出(I/O)引腳、印刷電路板(PCB)上的導電跡線、本文論述的任何其他類型的連接器,或其一些組合。一或多個圖像感測器連接器可以被稱為連接器、成像電路、圖像感測器電路、連接器電路、耦合電路、電路、一或多根電線、一或多個收發器、一或多個接收器、一或多個發送器、一或多個引腳,或其組合。
在一些實例中,以偏移距離偏移於第二圖像感測器的第一圖像感測器包括:第一圖像感測器的第一光軸或與第一圖像感測器相關聯的第一光軸偏移於第二圖像感測器的第二光軸或與第二圖像感測器相關聯的第二光軸。在一些實例中,第一圖像感測器以偏移距離偏移於第二圖像感測器是指:偏移距離是第一圖像感測器的邊緣或外緣與第二圖像感測器的邊緣或外緣之間的距離。在一些實例中,第一圖像感測器以偏移距離偏移於第二圖像感測器包括:偏移距離是第一圖像感測器與第二圖像感測器之間的最小距離。在一些實例中,第一圖像感測器以偏移距離偏移於第二圖像感測器包括:偏移距離是第一圖像感測器與第二圖像感測器之間的最大距離。
偏移距離的實例包括偏移距離537A、偏移距離537B、另一對攝像頭530A之間的另一偏移距離、偏移距離547A、另一對攝像頭530B之間的另一偏移距離、偏移距離547B、另一對攝像頭530C之間的另一偏移距離、與圖5A至圖5C中的彼等相似但用於具有圖像感測器610的攝像頭的偏移距離、與圖5A至圖5C中的彼等相似但用於具有圖像感測器710的攝像頭的偏移距離、或其組合。
場景的第一圖像資料及/或場景的第二圖像資料的實例包括圖像擷取和處理系統100擷取的圖像、輸入圖像205A、輸入圖像205B、輸入圖像305、圖像擷取和處理系統400擷取的圖像、攝像頭530A-530B中的一或多個擷取的圖像、圖像集605中的至少一個圖像、圖像集605中的至少一個圖像、圖像集705中的至少一個圖像、由縮小器750縮小的至少一個圖像、由縮小器755縮小的至少一個圖像、具有第一DoF 1015的圖像集1010中的至少一個圖像、圖像集1010的縮小變體1040中的至少一個圖像、輸入圖像1205、輸入圖像1305、輸入圖像1405、輸入圖像1505、另一輸入圖像、或其組合。
在操作1615處,成像系統被配置為並且可以藉由將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入,來產生具有與模擬光圈大小對應的合成景深的圖像。模擬光圈大小與偏移距離相關聯。一或多個經訓練的ML系統可以包括一或多個經訓練的ML模型、一或多個經訓練的神經網路(NN)、一或多個經訓練的迴旋神經網路(CNN)、一或多個經訓練的時延神經網路(TDNN)、一或多個深度網路、一或多個深度信念網路(DBN)、一或多個循環神經網路(RNN)、一或多個產生對抗網路(GAN)、一或多個經訓練的支援向量機(SVM)、一或多個經訓練的隨機森林(RF)、或或其組合。一或多個經訓練的機器學習系統的實例包括經訓練的ML模型625、第一經訓練的ML模型760、第二經訓練的ML模型765、NN 900、經訓練的NN 1005A、經訓練的NN 1005B、經訓練的NN 1005C、或其組合。在操作1615中產生具有合成景深的輸出圖像可以被稱為產生合成景深效果。在操作1615中產生具有合成景深的輸出圖像可以被稱為將合成景深效果應用於第一圖像資料及/或第二圖像資料。
具有與模擬光圈大小對應的合成景深的圖像的實例包括:具有與模擬光圈大小635對應的合成景深640的輸出圖像630、具有與模擬光圈大小735對應的合成景深740的輸出圖像770、具有與模擬光圈大小735對應的合成景深740的中間圖像810、具有合成DoF 1025的輸出圖像1020、具有合成DoF 1025的中間圖像1050、輸出圖像1210、輸出圖像1310、輸出圖像1410、第一輸出圖像1510、第二輸出圖像1515、另一輸出圖像、或其組合。合成景深的實例包括:合成DoF 640、合成DoF 740、合成DoF 1025、輸出圖像1210的合成DoF、輸出圖像1310的合成DoF、輸出圖像1410的合成DoF、第一輸出圖像1510的合成DoF、第二輸出圖像1515的合成DoF、或其組合。模擬光圈大小的實例包括:模擬光圈大小535A-535C、模擬光圈大小635、模擬光圈大小735、對應於合成DoF 1025的模擬光圈大小、對應於輸出圖像1210的模擬光圈大小、對應於輸出圖像1310的模擬光圈大小、對應於輸出圖像1410的模擬光圈大小、對應於第一輸出圖像1510的模擬光圈大小、對應於第二輸出圖像1515的模擬光圈大小、或其組合。
在一些實例中,操作1615中的模擬光圈大小是指對應於合成景深的模擬光圈的直徑。例如,模擬光圈大小可以指:如所示的模擬光圈大小535A-535C中的一個的直徑、如所示的模擬光圈大小635的直徑、如所示的模擬光圈大小735的直徑、或其組合。在一些實例中,操作1615中的模擬光圈大小是指對應於合成景深的模擬光圈的面積。例如,模擬光圈大小可以指:如所示的模擬光圈大小535A-535C中的一個的面積、如所示的模擬光圈大小635的面積、如所示的模擬光圈大小735的面積、或其組合。
在一些實例中,模擬光圈大小是基於偏移距離的。在一些實例中,模擬光圈大小等於偏移距離。例如,若模擬光圈大小模擬光圈大小是指對應於合成景深的模擬光圈的直徑,則該直徑可以等於偏移距離。例如,在圖5A中,攝像頭530A中的最頂部攝像頭與最底部攝像頭之間的偏移距離537A可以等於模擬光圈535A的直徑,或近似等於模擬光圈535A的直徑(例如,在閾值距離內)。相似地,在圖5B中,攝像頭530B中的最頂部攝像頭與最底部攝像頭之間的偏移距離547A可以等於模擬光圈535B的直徑,或近似等於模擬光圈535B的直徑(例如,在閾值距離內)。相似地,在圖5C中,攝像頭530C中的最左側攝像頭與最右側攝像頭之間的偏移距離547B可以等於模擬光圈535C的直徑,或近似等於模擬光圈535C的直徑(例如,在閾值距離內)。
在一些實例中,模擬光圈大小是偏移距離的函數。例如,若模擬光圈大小模擬光圈大小是指對應於合成景深的模擬光圈的面積,則該面積可以是偏移距離的函數。例如,圖5A中,偏移距離537A可以表示模擬光圈535A的直徑,並且模擬光圈535A的面積可以是該直徑的函數。例如,若模擬光圈535A是圓形的,則模擬光圈535A的面積可以等於
與直徑的平方的乘積。因而,模擬光圈535A的面積可以是偏移距離537A的函數。例如,模擬光圈535A的面積可以等於
與偏移距離537A的平方的乘積。相似地,模擬光圈535B的面積可以等於
與偏移距離547A的平方的乘積。相似地,模擬光圈535C的面積可以等於
與偏移距離547B的平方的乘積。
若模擬光圈大小模擬光圈大小是指對應於合成景深的模擬光圈的直徑,則該直徑可以是偏移距離的函數。諸如,在一些實例中,偏移距離可以在長度上等於模擬光圈的半徑。例如,圖5A的偏移距離537B在長度上近似等於模擬光圈535A的半徑。在一些實例中,模擬光圈的直徑可以等於偏移距離乘以乘法器、偏移距離加上輔助值、偏移距離減去輔助值、偏移距離除以輔助值、或其組合。
在一些實例中,合成景深比與第一圖像感測器對應的第一景深更淺及/或比與第二圖像感測器對應的第二景深更淺。在一些實例中,合成景深比與第一圖像感測器對應的第一景深更深及/或比與第二圖像感測器對應的第二景深更深。第一景深及/或第二景深的實例包括:圖像集605的第一景深620、圖像集705的第一景深720、圖像集1010(及/或圖像集1010的縮小變體1040)的第一景深1015、輸入圖像1205的景深、輸入圖像1305的景深、輸入圖像1405的景深、輸入圖像1505的景深、或其組合。在一些實例中,第一圖像感測器的第一景深等於與第二圖像感測器對應的第二景深。在一些實例中,第一圖像感測器的第一景深不同於(例如,大於或小於)與第二圖像感測器對應的第二景深。
在一些實例中,模擬光圈大小大於與第一圖像感測器對應的第一光圈及/或大於與第二圖像感測器對應的第二光圈。第一光圈的大小及/或第二光圈的大小的實例包括:對應於具有圖像感測器610的攝像頭的光圈的第一光圈大小615、對應於具有圖像感測器710的攝像頭的光圈的第一光圈大小715、擷取圖像集1010的圖像的攝像頭的光圈大小、擷取圖像集1010的圖像的攝像頭的光圈大小、擷取輸入圖像1205的攝像頭的光圈大小、擷取輸入圖像1305的攝像頭的光圈大小、擷取輸入圖像1405的攝像頭的光圈大小、擷取輸入圖像1505的攝像頭的光圈大小、或其組合。在一些實例中,與第一圖像感測器對應的第一光圈的大小等於與第一圖像感測器對應的第二光圈的大小。在一些實例中,與第一圖像感測器對應的第一光圈的大小不同於(例如,大於或小於)與第一圖像感測器對應的第二光圈的大小。
在一些實例中,第二圖像感測器和第一圖像感測器是位於不同位置的相同圖像感測器。在說明性實例中,使用者可以拿著並移動成像設備以將圖像感測器從第一位置重新定位到第二位置。在另一說明性實例中,成像設備可以致動電機將圖像感測器從第一位置重新定位到第二位置。在任一說明性實例中,當圖像感測器位於第一位置處時,圖像感測器可以被稱為第一圖像感測器,並且當圖像感測器位於第二位置處時,圖像感測器可以被稱為第二圖像感測器。
在一些實例中,成像系統被配置為並且可以對指示合成景深的輸入進行接收。例如,輸入可以辨識場景中的物體或場景的區域。成像系統可以決定合成景深,使操作1615處產生的圖像中的物體或區域呈現為清晰及/或清楚及/或焦點對準,而在操作1615處產生的圖像中的該物體或區域之外的一或多個其他部分呈現為模糊及/或焦點未對準。輸入可以是使用者介面的輸入,諸如與輸入被接收時所顯示的場景的預覽圖像相關的觸控式螢幕或基於遊標的輸入。輸入可以是由成像系統運行的物體偵測演算法產生的輸入,亦可以是成像系統被耦合到成像系統的遠端系統運行的物體偵測演算法產生的輸入。在一些實例中,輸入可以辨識或指示模擬光圈大小。在一些實例中,輸入可以辨識或指示相對於基準景深的更淺或更深方向的步長。例如,基準景深可以是第一圖像資料的景深及/或第二圖像資料的景深。在一些實例中,預覽圖像可以包括第一圖像資料及/或第二圖像資料,及/或基於第一圖像資料及/或第二圖像資料。
在一些實例中,成像系統被配置為並且可以辨識物體在第一圖像資料中被描繪。例如,成像系統可以基於成像系統或耦合至成像系統的遠端系統來辨識物體在第一圖像資料中被描繪,從而使用物體偵測演算法來偵測該物體。成像系統被配置為並且可以自動地決定合成景深,以使物體在圖像中基於合成景深而焦點對準。物體偵測演算法可以包括:特徵偵測演算法、特徵辨識演算法、物體偵測演算法、物體辨識演算法、面部偵測演算法、面部辨識演算法、人員偵測演算法、人員辨識演算法、光學字元偵測演算法、光學字元辨識(OCR)演算法、分類器、光學字形偵測器、光學字形掃瞄器、或其組合。物體偵測演算法可以由成像系統的一或多個處理器執行。物體偵測演算法可以包括一或多個經訓練的機器學習(ML)系統。
在一些實例中,成像系統接收場景的由第三圖像感測器擷取的第三圖像資料。為了產生圖像,成像系統被配置為並且可以將至少第一圖像資料和第二圖像資料以及第三圖像資料用作一或多個經訓練的機器學習系統的輸入。在一些實例中,成像系統接收場景的由第四圖像感測器擷取的第四圖像資料。為了產生圖像,成像系統被配置為並且可以將至少第一圖像資料和第二圖像資料和第三圖像資料以及第四圖像資料用作一或多個經訓練的機器學習系統的輸入。第一圖像感測器的實例、第二圖像感測器的實例、第三圖像感測器的實例及/或第四圖像感測器的實例包括:圖像感測器430A-430D、攝像頭530A的圖像感測器、攝像頭530B的圖像感測器、攝像頭530C的圖像感測器、圖像感測器610、圖像感測器710、擷取圖像集1010的圖像感測器,或其組合。第一圖像資料的實例、第二圖像資料的實例、第三圖像資料的實例及/或第四圖像資料的實例包括:由圖像感測器430A-430D擷取的圖像資料、由攝像頭530A擷取的圖像資料、由攝像頭530B擷取的圖像資料、由攝像頭530C擷取的圖像資料、圖像集605、圖像集705、圖像集1010、或其組合。
在一些實例中,圖像包括第一區域和第二區域。第一區域是焦點對準的、清晰的、及/或清楚的。第二區域是模糊的、模糊不清的、不清楚的、及/或焦點未對準的。在一些實例中,第一區域描繪前景,而第二區域描繪背景(例如,如在輸出圖像630、輸出圖像770、輸出圖像1210中一般)。在一些實例中,第一區域描繪背景,而第二區域描繪前景(例如,如在輸出圖像1310中一般)。在一些實例中,第一區域將一或多個物體描繪為經由透明的、半透明的、透視的及/或透光的材料可見(例如,如在第一輸出圖像1510中一般)。在一些實例中,第一區域將一或多個物體描繪為經由反射圖像可見的(例如,如在第二個輸出圖像1515中一般)。
在一些實例中,成像系統藉由至少將第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入,來產生視差誤差圖,視差誤差圖對與圖像對應的一或多個視差誤差區域進行辨識。為了在操作1615處產生圖像,成像系統被配置為並且可以基於視差誤差圖來產生圖像。視差誤差圖的實例包括視差誤差圖805及/或視差誤差圖1045。使用一或多個經訓練的機器學習系統產生視差誤差圖的實例包括使用如圖7和圖8A中所示的第一經訓練的ML模型760、使用如圖10B中所示的經訓練的NN 1005B、及/或使用NN 900。
在一些實例中,成像系統至少部分藉由對第一圖像資料進行縮小來產生縮小的第一圖像資料,並至少部分藉由對第二圖像資料進行縮小來產生縮小的第二圖像資料。縮小的第一圖像資料的實例及/或縮小的第二圖像資料的實例包括:由縮小器750縮小的圖像集705的縮小變體、由縮小器755進行縮小的圖像集705的縮小變體、圖像集1010的縮小變體1040、本文中所述的其他縮小圖像資料、或其組合。
在一些實例中,成像系統藉由至少將縮小的第一圖像資料及/或縮小的第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有合成景深的第二圖像。第二圖像可以被稱為中間圖像。具有合成景深的第二圖像的實例包括:具有合成景深740的中間圖像810、具有合成景深1025的中間圖像1050、本文中所述的另一中間圖像、或其組合。在一些實例中,第二圖像是一組中間圖像中的較小的一個圖像,因為其是基於縮小的第一圖像資料和縮小的第二圖像資料的。例如,第二圖像的實例可以包括:中間圖像810中的較小中間圖像中的一個中間圖像(除了最大的中間圖像)、中間圖像1050中的較小中間圖像中的一個中間圖像(除了最大的中間圖像)、本文所述的其他中間圖像、或其組合。使用一或多個經訓練的ML系統產生第二圖像的實例至少在圖8A、圖9和圖10B中被示出。
在一些實例中,成像系統將至少縮小的第一圖像資料和縮小的第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生第二視差誤差圖,第二視差誤差圖對與第二圖像對應的一或多個視差誤差區域的第二集合進行辨識。例如,第二個視差誤差圖可以包括:視差誤差圖805中的較小視差誤差圖中的一個視差誤差圖(除了最大視差誤差圖)、視差誤差圖1045中的較小視差誤差圖中的一個視差誤差圖(除了最大視差誤差圖)、本文所述的其他視差誤差圖、或其組合。使用一或多個經訓練的機器學習系統產生視差誤差圖的實例包括:使用如圖7和圖8A中所示的第一經訓練的ML模型760、使用如圖10B中所示的經訓練的NN 1005B、及/或使用NN 900。在一些實例中,為了產生圖像,成像系統被配置為並且可以產生下述圖像,該圖像包括第二圖像在第二視差誤差圖中與視差誤差圖相比在視差誤差上的減小相關聯的一或多個位置處的一或多個放大的部分。例如,第二視差誤差圖中的部分可以包括與視差誤差圖相比減小的視差誤差,類似於圖8A至圖8B中所示的視差誤差圖805中的較小視差誤差圖中的部分如何包括與圖8A至圖8B中所示的視差誤差圖805中的較大視差誤差圖相比減小的視差誤差。在該等與減小的視差誤差相關聯的位置中,成像系統可以使用第二圖像的(例如,較小中間圖像的)放大部分,而不是第三圖像的(例如,諸如中間圖像810的最大中間圖像及/或中間圖像1050的最大中間圖像的較大中間圖像的)部分。
在操作1620處,成像系統被配置為並且可以輸出圖像。在一些實例中,成像系統藉由將圖像顯示在顯示器上來輸出圖像。在一些實例中,成像系統包括顯示器。顯示器的實例包括輸出設備1735。在一些實例中,成像系統藉由使用通訊收發器將圖像發送給接收設備來輸出圖像。在一些實例中,成像系統包括通訊收發器。通訊收發器可以包括有線通訊收發器、無線通訊收發器、網路通訊收發器、或其組合。通訊收發器的實例包括通訊介面1740。
在一些實例中,使用來自光場攝像頭的訓練資料來訓練一或多個經訓練的機器學習系統。在一些實例中,成像系統使用來自光場攝像頭的訓練資料來訓練一或多個經訓練的機器學習系統。在一些實例中,光場攝像頭包括圖像感測器的陣列。在一些實例中,訓練資料包括由光場攝像頭基於圖像感測器的陣列所擷取的圖像資料產生的輸出圖像。在一些實例中,訓練資料包括圖像感測器的陣列中的第三圖像感測器和第四圖像感測器所擷取的圖像資料的至少子集。第三圖像感測器以如參考操作1610描述的第一圖像感測器和第二圖像感測器以其偏移的相同偏移距離偏移於第四圖像感測器。訓練資料的實例包括訓練資料1110、訓練資料1120、本文所述的其他訓練資料、或其組合。光場攝像頭的實例包括光場攝像頭1140、本文所述的其他光場攝像頭、或其組合。光場攝像頭可以被稱為全光攝像頭。
在一些態樣中,成像系統可以包括:用於接收場景的由第一圖像感測器擷取的第一圖像資料的構件;用於接收場景的由第二圖像感測器擷取的第二圖像資料的構件,其中第一圖像感測器以偏移距離偏移於第二圖像感測器;用於將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有與模擬光圈大小對應的合成景深的圖像的構件,其中模擬光圈大小與偏移距離相關聯;及用於輸出圖像的構件。
在一些實例中,用於接收第一圖像資料的構件包括:圖像感測器130、圖像擷取設備105A、圖像處理設備105B、圖像擷取和處理系統100、圖像感測器430A-430D、包括鏡頭415A和控制機構420A和圖像感測器430A的攝像頭、包括鏡頭415B和控制機構420B和圖像感測器430B的攝像頭、包括鏡頭415C和控制機制420C和圖像感測器430C的攝像頭、包括鏡頭415D和控制機制420D和圖像感測器430D的攝像頭、攝像頭530A-530C、攝像頭模組525A-525C、圖像感測器610、具有圖像感測器610和第一光圈大小615的攝像頭、圖像感測器710、具有圖像感測器710和第一光圈大小715的攝像頭、擷取圖像集1010的攝像頭、擷取圖像集1010的圖像感測器、輸入設備1745、本文所述的另一種攝像頭、或其組合。在一些實例中,用於接收第二圖像資料的構件包括:圖像感測器130、圖像擷取設備105A、圖像處理設備105B、圖像擷取和處理系統100、圖像感測器430A-430D、包括鏡頭415A和控制機構420A和圖像感測器430A的攝像頭、包括鏡頭415B和控制機構420B和圖像感測器430B的攝像頭、包括鏡頭415C和控制機構420C和圖像感測器430C的攝像頭、包括鏡頭415D和控制機構420D和圖像感測器430D的攝像頭、攝像頭530A-530C、攝像頭模組525A-525C、圖像感測器610、具有圖像感測器610和第一光圈大小615的攝像頭、圖像感測器710、具有圖像感測器710和第一光圈大小715的攝像頭、擷取圖像集1010的攝像頭、擷取圖像集1010的圖像感測器、輸入設備1745、本文所述的另一種攝像頭、或其組合。
在一些實例中,用於產生圖像的構件包括:ISP 154、主機處理器152、圖像處理器150、圖像處理器450、圖像處理設備405B、圖像擷取和處理系統400、行動手機510A-510C中的一個行動手機的處理器、經訓練的ML模型625、第一經訓練的ML模型760、第二經訓練的ML模型765、NN 900、經訓練的NN 1005A、經訓練的NN 1005B、經訓練的NN 1005C、處理器1710、或其組合。在一些實例中,用於輸出圖像的構件包括顯示器、通訊收發器、耦合到I/O 156的輸出設備、耦合到I/O 160的輸出設備、輸出設備1735、通訊介面1740、或其組合。
在一些實例中,可以由計算設備或裝置執行本文所述的過程(例如,圖2A至圖2B的過程、圖3的過程、圖6的過程、圖7的過程、圖8A的過程、圖8B的過程、使用圖10A的經訓練的NN 1005A執行的過程、使用圖10B的經訓練的NN 1005B執行的過程、使用圖10C的經訓練的NN 1005C執行的過程、圖11A至圖11B的訓練過程、圖12的過程、圖13的過程、圖14的過程、圖15的過程、圖16的過程1600、及/或本文中所述的其他過程)。在一些實例中,本文所述的以及本文中以上列舉的過程可以由圖像擷取和處理系統400、行動手機510A-510C中的一個行動手機、或其組合來執行。在另一實例中,本文所述的過程可以由具有圖17中所示計算系統1700的計算設備執行。
計算設備可以包括任何合適的設備,諸如行動設備(例如,行動電話)、桌面計算設備、平板計算設備、可穿戴設備(例如,VR耳機、AR耳機、AR眼鏡、聯網手錶或智慧手錶、或其他可穿戴設備)、伺服器電腦、自動駕駛的車輛或自動駕駛的車輛的計算設備、機器人設備、電視機、及/或具有資源能力以執行本文所述的過程的任何其他計算設備,包括本文中所述的以及上文列舉的過程。在一些情況下,計算設備或裝置可以包括各種部件,諸如,一或多個輸入設備、一或多個輸出設備、一或多個處理器、一或多個微處理器、一或多個微型電腦、一或多個攝像頭、一或多個感測器、及/或被配置為執行本文所述的過程的步驟的其他部件。在一些實例中,計算設備可以包括顯示器、被配置為傳送及/或接收資料的網路介面、其任何組合、及/或其他部件。網路介面可以被配置為傳送及/或接收基於網際網路協定(IP)的資料或其他類型的資料。
計算設備的部件可以在電路中實現。例如,部件可以包括電子電路或其他電子硬體及/或可以使用電子電路或其他電子硬體來實現,其可以包括一或多個可程式設計電子電路(例如,微處理器、圖形處理單元(GPU)、數位訊號處理器(DSP)、中央處理單元(CPU)、及/或其他合適的電子電路),及/或可以包括電腦軟體、韌體或其組合及/或使用電腦軟體、韌體或其組合來實現,以執行本文所述的各種操作。
本文所述的以及上文列出的過程被示出為邏輯流程圖、方塊圖、及/或概念圖,其操作表示可以用硬體、電腦指令或其組合實現的一系列操作。在電腦指令的上下文中,操作表示儲存在一或多個電腦可讀取儲存媒體上的電腦可執行指令,當該等指令被一或多個處理器執行時,執行所述操作。通常,電腦可執行指令包括執行特定功能或實現特定資料類型的常式、程式、物體、部件、資料結構等。描述操作的順序不意欲被解釋為限制,並且任何數量的所述操作可以以任何順序及/或並行地被組合以實現各過程。
此外,本文所述的過程以及上文所列出的過程可以在配置有可執行指令的一或多個電腦系統的控制下執行,並且可以實現為在一或多個處理器上共同執行的代碼(例如,可執行指令、一或多個電腦程式或一或多個應用)、由硬體、或者其組合來執行。如上述,代碼可以例如,以包括可由一或多個處理器執行的複數個指令的電腦程式的形式儲存在電腦可讀取或機器可讀取儲存媒體上。電腦可讀取或機器可讀取儲存媒體可以是非暫時性的。
圖17是示出用於實現本技術的特定態樣的系統的實例的圖。特別地,圖17示出可以例如是由內部計算系統、遠端計算系統、攝像頭、或其的任一部件組成的任何計算設備的計算系統1700的實例,在該計算系統1700中系統的各部件使用連接1705彼此通訊。連接1705可以是使用匯流排的實體連接、或到處理器1710中的直接連接,諸如在晶片組架構中。連接1705亦可以是虛擬連接、聯網的連接、或邏輯連接。
在一些實施例中,計算系統1700是其中本揭示所述的功能可以在資料中心、多個資料中心、同級網路等內部分佈的分散式系統。在一些實例中,所述系統部件中的一或多個表示多個此種部件:每個部件皆執行針對其該部件被描述的功能中的一些或全部。在一些實施例中,部件可以是實體設備或虛擬設備。
示例系統1700包括至少一個處理單元(CPU或處理器)1710和連接1705,該連接1705將包括系統記憶體1715的多個系統部件(諸如唯讀記憶體(ROM)1720和隨機存取記憶體(RAM)1725)耦合至處理器1710。計算系統1700可以包括與處理器1710直接連接、緊密接近處理器1710、或集成為處理器1710的一部分的高速記憶體的快取記憶體1712。
處理器1710可以包括任何通用處理器和硬體服務或軟體服務,諸如在儲存設備1730中儲存的服務1732、服務1734和服務1736,該等服務被配置為控制處理器1710和其中軟體指令被整合到實際處理器設計中的專用處理器。處理器1710可以基本上是完全自包含計算系統,包含多個核或處理器、匯流排、記憶體控制器、快取記憶體等。多核處理器可以是對稱的或不對稱的。
為了實現使用者互動,計算系統1700包括可以表示任何數量的輸入機構的輸入設備1745,諸如,用於語音的麥克風、用於姿勢或圖形輸入的觸敏螢幕、鍵盤、滑鼠、運動輸入、語音等。計算系統1700亦可以包括可以是多個輸出機構中的一或多個的輸出設備1735。在一些實例中,多模式系統可以使使用者提供多種類型的輸入/輸出來與計算系統1700通訊。計算系統1700可以包括通常可以治理或管理使用者輸入和系統輸出的通訊介面1740。通訊介面可以使用有線收發器及/或無線收發器來執行或促進對有線通訊或無線通訊的接收及/或發送,包括彼等使用音訊插孔/插頭、麥克風插孔/插頭、通用序列匯流排(USB)埠/插頭、蘋果®閃電®埠/插頭、乙太網路埠/插頭、光纖埠/插頭、專有有線埠/插頭、藍芽®無線信號傳輸、藍芽®低能耗(BLE)無線信號傳輸、IBEACON®無線信號傳輸、射頻辨識(RFID)無線信號傳輸、近場通訊(NFC)無線信號傳輸、專用短程通訊(DSRC)無線信號傳輸、802.11 Wi-Fi無線信號傳輸、無線區域網路(WLAN)信號傳輸、可見光通訊(VLC)、全球交互動操作微波存取(WiMAX)、紅外(IR)通訊無線信號傳輸、公用切換電話網路(PSTN)信號傳輸、整合式服務數位網路(ISDN)信號傳輸、3G/4G/5G/LTE蜂巢資料網路無線信號傳輸、ad-hoc網路信號傳輸、無線電波信號傳輸、微波信號傳輸、紅外信號傳輸、可見光信號傳輸、紫外光信號傳輸、沿著電磁頻譜的無線信號傳輸、或其一些組合。通訊介面1740亦可以包括一或多個全球衛星導航系統(GNSS)接收器或收發器,該一或多個GNSS接收器或收發器用於基於從與一或多個GNSS系統關聯的一或多個衛星接收到的一或多個信號來決定計算系統1700的位置。GNSS系統包括但不限於:基於美國的全球定位系統(GPS)、基於俄羅斯的全球衛星導航系統(GLONASS)、基於中國的北斗衛星導航系統(BDS)、以及基於歐洲的伽利略GNSS。因為對於在任何特定的硬體佈置上的操作沒有限制,所以本文的基本特徵可以隨著其發展而容易地替代以用於改進的硬體或韌體佈置。
儲存設備1730可以是非揮發性及/或非暫時性及/或電腦可讀取的記憶體設備,並且可以是可以儲存電腦可存取的資料的硬碟或其他類型的電腦可讀取媒體,諸如,磁盒、快閃記憶體卡、固態記憶體設備、數位多功能光碟、卡盤、軟碟、撓性碟、硬碟、磁帶、磁條/條、任何其他的磁性儲存媒體、快閃記憶體、憶阻記憶體、任何其他的固態記憶體、唯讀壓縮光碟記憶體(CD-ROM)光碟、可重寫壓縮光碟(CD)光碟、數位視訊磁碟(DVD)光碟、藍光光碟(BDD)光碟、全息光碟、另一種光學媒體、安全數位(SD)卡、微安全數位(microSD)卡、記憶棒®卡、智慧卡晶片、EMV晶片、用戶身份模組(SIM)卡、微型/微/毫微/微微SIM卡、另一種積體電路(IC)晶片/卡、隨機存取記憶體(RAM)、靜態RAM(SRAM)、動態RAM(DRAM)、唯讀記憶體(ROM)、可程式設計唯讀記憶體(PROM)、可抹除可程式設計唯讀記憶體(EPROM)、電子可抹除可程式設計唯讀記憶體(EEPROM)、快閃EPROM(FLASHEPROM)、快取緩衝記憶體(L1/L2/L3/L4/L5/L#)、電阻式隨機存取記憶體(RRAM/ReRAM)、相變記憶體(PCM)、自旋傳輸矩RAM (STT-RAM)、另一種記憶體晶片或盒、以及/或其組合。
儲存設備1730可以包括軟體服務、伺服器、服務等,當定義此種軟體的代碼被處理器1710執行時,其使得系統執行功能。在一些實施例中,執行特定功能的硬體服務可以包括儲存在與必要的硬體部件(諸如處理器1710、連接1705、輸出設備1735等)連接的電腦可讀取媒體中的軟體部件,以實現該功能。
如本文中所使用的,術語「電腦可讀取媒體」包括但不限於可攜式或非可攜式儲存設備、光儲存設備以及能夠儲存、包含或攜帶指令及/或資料的各種其他媒體。電腦可讀取媒體可以包括其中可以儲存資料並且不包括無線或經由有線連接傳播的載波及/或暫時性電子信號的非暫時性媒體。非暫時性媒體的實例可以包括但不限於磁碟或磁帶、諸如壓縮光碟(CD)或數位多功能光碟(DVD)的光學儲存媒體、快閃記憶體、記憶體或記憶體設備。電腦可讀取媒體可以在其上儲存有代碼及/或機器可執行指令,該等代碼及/或指令可以表示程序、函數、子程式、程式、常式、子常式、模組、套裝軟體、類別、或指令、資料結構或程式語句的任何組合。程式碼片段可以藉由傳遞及/或接收資訊、資料、引數、參數或記憶體內容而耦合到另一個程式碼片段或硬體電路。資訊、引數、參數、資料等可以藉由使用包括記憶體共享、訊息傳遞、符記傳遞、網路傳輸等任何合適的手段被傳遞、轉發、或發送。
在一些實施例中,電腦可讀取儲存設備、媒體和記憶體可以包括包含位元串流等的電纜或無線信號。然而,當被提及時,非暫時性電腦可讀取儲存媒體明確排除諸如能量、載波信號、電磁波和信號本身的媒體。
在以上描述中提供了具體細節以提供對本文提供的實施例和實例的全面理解。然而,本領域一般技藝人士應當理解的是,可以在沒有該等具體細節的情況下實踐該等實施例。為了解釋的清楚,在一些實例中,本技術可以被呈現為包括獨立的功能方塊,該等功能方塊包括包含設備、設備部件、以軟體或者硬體和軟體的組合體現的方法中的步驟或常式的功能方塊。可以使用除了圖中所示及/或本文所述的部件之外的附加部件。例如,電路、系統、網路、過程和其他部件可以以方塊圖形式圖示為部件,以免在不必要的細節方面混淆實施例。在其他實例中,為了避免使實施例混淆,可以在不具有不必要的細節的情況下圖示熟知的電路、過程、演算法、結構、和技術。
上文可以將各個實施例描述為過程或方法,其被描繪為流程圖、流程示圖、資料流圖、結構圖或方塊圖。儘管流程圖可以將操作描述為順序過程,但許多操作可以並行或者同時被執行。另外,可以重新安排操作的次序。過程在其操作完成時被終止,但可以具有圖中未包括的附加步驟。過程可以對應於方法、函數、程序、子常式、子程式等。當過程對應於函數時,其終止可以對應函數返回到調用函數或主函數。
可以使用儲存的或者來自電腦可讀取媒體的可用的電腦可執行指令來實現根據上述實例的過程和方法。此種指令可以包括例如導致或配置通用電腦、專用電腦或處理設備以執行特定功能或功能組的指令和資料。所使用的電腦資源的部分可以經由網路存取。電腦可執行指令可以是例如二進位、諸如組合語言的中間格式指令、韌體、原始代碼等。可以用於儲存指令、使用的資訊及/或在根據所述實例的方法期間建立的資訊的電腦可讀取媒體的實例包括磁碟或光碟、快閃記憶體、配備有非揮發性記憶體的USB設備、聯網的儲存設備等。
實現根據該等揭示的過程和方法的設備可以包括硬體、軟體、韌體、仲介軟體、微代碼、硬體描述語言或其任何組合,並且可以採用多種形式因素中的任何一種。當以軟體、韌體、仲介軟體或微代碼被實現時,執行必要任務(例如,電腦程式產品)的程式碼或程式碼片段可以被儲存於電腦可讀取或機器可讀取媒體中。處理器可以執行必要的任務。形式因素的典型實例包括膝上型電腦、智慧手機、行動電話、平板設備或其他小形狀因素個人電腦、個人數位助理、機架式設備、獨立設備等。本文所描述的功能亦可以體現在周邊設備或插卡中。作為另一實例,此種功能亦可以在不同晶片之間或在單個設備中執行的不同過程之間的電路板上被實現。
指令、用於傳送此種指令的媒體、用於執行其的計算資源以及用於支援此種計算資源的其他結構是用於提供本揭示中描述的功能的示例手段。
在前面的描述中,參考本申請案的具體實施例描述了本申請案的各態樣,但是本領域技藝人士應該瞭解的是,本申請案並不限於此。因此,儘管本文中詳細描述了本申請案的說明性實施例,但應當理解的是,本發明構思可以多方面地被體現和採用,並且所附請求項意欲被解釋為包括該等變體,除非受限於現有技術。上述申請案的各種特徵和態樣可以單獨地或聯合地被使用。而且,在不脫離本說明書的更廣泛的精神和範圍的情況下,實施例可以在超出本文描述的環境和應用的任何數量的環境和應用中被利用。因此,說明書和附圖被認為是說明性的而非限制性的。為了說明的目的,按特定次序描述了方法。應當理解的是,在替換實施例中,該等方法可以按照與所描述的次序不同的次序被執行。
一般技藝人士應當理解的是,本文使用的小於(「<」)和大於(「>」)符號或術語可以在不脫離本說明書的範圍的情況下分別被替換為小於或等於(「≦」)和大於或等於(「≧」)符號。
在部件被描述為「被配置為」執行某些操作的情況下,此種配置可以藉由以下方式來完成,例如,藉由設計電子電路或其他硬體來執行操作,藉由對可程式設計電子電路(例如,微處理器,或其他合適的電子電路)進行程式設計來執行操作,或其任何組合。
片語「耦合到」是指直接地或間接地被實體連接到另一個部件的任何部件,及/或直接地及/或間接地與另一個部件進行通訊(例如,經由有線或無線連接,及/或其他合適的通訊介面來連接到其他部件)的任何部件。
陳述集合的「中的至少一個」及/或集合中的「一或多個」的請求項語言或其他語言指示該集合的一個元素或該集合的多個元素(以任何組合)皆滿足請求項。例如,陳述「A和B中的至少一個」的請求項語言意味著A、B或A和B。在另一實例中,陳述「A、B和C中的至少一個」的請求項語言意味著A、B、C,或A和B,或A和C,或B和C,或A和B和C。語言集合「中的至少一個」及/或集合「中的一或多個」並不將集合限制為集合中所列的項目。例如,陳述「A和B中的至少一個」的請求項語言可以意味著A、B或A和B,並且可以另外包括未在A和B的集合中列出的項目。
結合本文揭示的實施例描述的各種說明性邏輯區塊、模組、電路和演算法步驟可以被實現為電子硬體、電腦軟體、韌體或其組合。為了清楚地說明硬體和軟體的此種可互換性,以上已經在其功能方面對各種說明性部件、方塊、模組、電路和步驟進行了大體描述。此種功能被實現為硬體還是軟體取決於特定的應用和對整個系統施加的設計約束。技藝人士可以針對每種特定應用以不同方式來實現所描述的功能,但是此種實現方式決定不應被解釋為導致偏離本申請案的範圍。
本文所描述的技術亦可以在電子硬體、電腦軟體、韌體或其任何組合中被實現。該等技術可以在各種設備中的任一種中被實現,各種設備諸如通用電腦、無線通訊設備手機或具有多種用途(包括在無線通訊設備手機和其他設備中的應用)的積體電路設備。被描述為模組或部件的任何特徵可以在集成邏輯設備中一起被實現或者在個別可交互操作的邏輯設備被分開實現。若以軟體實現,則該等技術可以至少部分地藉由包括程式碼的電腦可讀取資料儲存媒體來實現,該程式碼包括在被執行時執行上述方法中的一或多個的指令。電腦可讀取資料儲存媒體可以形成電腦程式產品的一部分,其可以包括封包材料。電腦可讀取媒體可以包括記憶體或資料儲存媒體,例如,諸如同步動態隨機存取記憶體(SDRAM)的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、非揮發性隨機存取記憶體(NVRAM)、電子可抹除可程式設計唯讀記憶體(EEPROM)、快閃記憶體、磁或光資料儲存媒體等。另外地或替代地,該等技術可以至少部分地由電腦可讀取通訊媒體來實現,該電腦可讀取通訊媒體攜帶或傳送指令或資料結構形式的並且可以由電腦存取、讀取及/或執行的程式碼,諸如傳播的信號或波。
程式碼可以由處理器執行,處理器可以包括一或多個處理器,諸如一或多個數位訊號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、現場可程式設計邏輯陣列(FPGA),或者其他等效的集成或個別邏輯電路。此種處理器可以被配置為執行本揭示中所描述的任何技術。通用處理器可以是微處理器;但在替代方案中,處理器可以是任何習知的處理器、控制器、微控制器或狀態機。處理器亦可以被實現為計算設備的組合,例如,DSP和微處理器的組合、複數個微處理器、一或多個微處理器與DSP核結合,或任何其他此種配置。因此,如本文所使用的術語「處理器」可以指前述結構中的任一種、前述結構的任何組合、或者適用於實施本文所述的技術的任何其他結構或裝置。此外,在一些態樣中,本文所述的功能性可以在被配置用於編碼和解碼的專用軟體模組或硬體模組內被提供,或者可以被合併在組合的視訊編碼器-解碼器(CODEC)中。
本揭示的說明性態樣包括:
態樣1. 一種用於處理圖像資料的裝置,該裝置包括:記憶體;及耦合到記憶體的一或多個處理器,一或多個處理器被配置為:接收場景的由第一圖像感測器擷取的第一圖像資料;接收場景的由第二圖像感測器擷取的第二圖像資料,其中第一圖像感測器以偏移距離偏移於第二圖像感測器;藉由將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有與模擬光圈大小對應的合成景深的圖像,其中模擬光圈大小與偏移距離相關聯;及輸出該圖像。
態樣2. 如態樣1所述的裝置,其中一或多個處理器被配置為藉由將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生對與圖像對應的一或多個視差誤差區域進行辨識的視差誤差圖,其中為了產生圖像,一或多個處理器被配置為亦基於視差誤差圖來產生圖像。
態樣3. 如態樣1至2中任一項所述的裝置,其中一或多個處理器被配置為:至少部分地藉由對第一圖像資料進行縮小來產生縮小的第一圖像資料;至少部分地藉由對第二圖像資料進行縮小來產生縮小的第二圖像資料;藉由將至少縮小的第一圖像資料和縮小的第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有合成景深的第二圖像;及藉由將至少縮小的第一圖像資料和縮小的第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生對與第二圖像對應的一或多個視差誤差區域的第二集合進行辨識的第二視差誤差圖,其中為了產生圖像,一或多個處理器被配置為產生包括第二圖像中的與第二視差誤差圖中和視差誤差圖相比在視差誤差上的減小相關聯的一或多個位置處的一或多個放大部分的圖像。
態樣4. 如態樣1至3中任一項所述的裝置,其中模擬光圈大小是基於偏移距離的。
態樣5. 如態樣1至4中任一項所述的裝置,其中模擬光圈大小等於偏移距離。
態樣6. 如態樣1至5中任一項所述該的裝置,其中模擬光圈大小是偏移距離的函數。
態樣7. 如態樣1至6中任一項所述的裝置,其中模擬光圈大小是與合成景深相對應的模擬光圈的直徑。
態樣8. 如態樣1至7中任一項所述的裝置,其中模擬光圈大小是與合成景深相對應的模擬光圈的面積。
態樣9. 如態樣1至8中任一項所述的裝置,其中第一圖像感測器以偏移距離偏移於第二圖像感測器包括:與第一圖像感測器相關聯的第一光軸以偏移距離偏移於與第二圖像感測器相關聯的第二光軸。
態樣10. 如態樣1至9中任一項所述的裝置,其中合成景深比與第一圖像感測器對應的第一景深和與第二圖像感測器對應的第二景深中的至少一個更淺。
態樣11. 如態樣1至10中任一項所述的裝置,模擬光圈大小大於與第一圖像感測器對應的第一光圈和與第二圖像感測器對應的第二光圈。
態樣12. 如態樣1至11中任一項所述的裝置,其中一或多個處理器被配置為:接收場景的由第三圖像感測器擷取的第三圖像資料,其中一或多個處理器被配置為藉由將至少第一圖像資料和第二圖像資料以及第三圖像資料用作一或多個經訓練的機器學習系統的輸入來產生圖像。
態樣13. 如態樣1至12中任一項所述的裝置,其中一或多個處理器被配置為:接收場景的由第四圖像感測器擷取的第四圖像資料,其中一或多個處理器被配置為將至少第一圖像資料和第二圖像資料和第三圖像資料以及第四圖像資料用作一或多個經訓練的機器學習系統的輸入來產生圖像。
態樣14. 如態樣1至13中任一項所述的裝置,其中一或多個處理器被配置為:接收指示合成景深的輸入。
態樣15. 如態樣1至14中任一項所述的裝置,其中一或多個處理器被配置為:辨識第一圖像資料中描繪的物體;及自動決定合成景深,其中物體基於合成景深在圖像中是焦點對準的。
態樣16. 如態樣1至15中任一項所述的裝置,其中使用來自光場攝像頭的訓練資料對一或多個經訓練的機器學習系統進行訓練。
態樣17. 如態樣1至16中任一項所述的裝置,其中光場攝像頭包括圖像感測器的陣列,其中訓練資料包括光場攝像頭基於圖像感測器的陣列所擷取的圖像資料產生的輸出圖像,其中訓練資料包括由圖像感測器的陣列中的第三圖像感測器和第四圖像感測器擷取的圖像資料的至少子集,其中第三圖像感測器以偏移距離偏移於第四圖像感測器,其中第一圖像感測器以偏移距離偏移於第二圖像感測器。
態樣18. 如態樣1至17中任一項所述的裝置,其中圖像包括焦點對準的第一區域和模糊的第二區域。
態樣19. 如態樣1至18中任一項所述的裝置,其中第一區域描繪前景,其中第二區域描繪背景。
態樣20. 如態樣1至19中任一項所述的裝置,其中第一區域描繪背景,其中第二區域描繪前景。
態樣21. 如態樣1至20中任一項所述的裝置,進一步包括:顯示器,其中一或多個處理器被配置為使用顯示器顯示圖像,以輸出該圖像。
態樣22. 如態樣1至21中任一項所述的裝置,進一步包括:通訊收發器,其中一或多個處理器被配置為使用通訊收發器將圖像發送給接收設備,以輸出該圖像。
態樣23. 如態樣1至22中任一項所述的裝置,進一步包括:第一圖像感測器;及第二圖像感測器。
態樣24. 如態樣1至23中任一項所述的裝置,其中裝置包括行動手機、無線通訊設備和頭戴式顯示器中的至少一種。
態樣25. 一種用於處理圖像資料的方法,該方法包括:接收場景的由第一圖像感測器擷取的第一圖像資料;接收場景的由第二圖像感測器擷取的第二圖像資料,其中第一圖像感測器以偏移距離偏移於第二圖像感測器;藉由將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有與模擬光圈大小對應的合成景深的圖像,其中模擬光圈大小與偏移距離相關聯;及輸出該圖像。
態樣26. 如態樣25所述的方法,進一步包括:藉由將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生對與圖像對應的一或多個視差誤差區域進行辨識的視差誤差圖,其中產生圖像包括亦基於視差誤差圖來產生圖像。
態樣27. 如態樣25至26中任一項所述的方法,進一步包括:至少部分地藉由對第一圖像資料進行縮小來產生縮小的第一圖像資料;至少部分地藉由對第二圖像資料進行縮小來產生縮小的第二圖像資料;藉由將至少縮小的第一圖像資料和縮小的第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有合成景深的第二圖像;及藉由將至少縮小的第一圖像資料和縮小的第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生對與第二圖像對應的一或多個視差誤差區域的第二集合進行辨識的第二視差誤差圖,其中產生圖像包括:產生包括第二圖像中的與該第二視差誤差圖中和該視差誤差圖相比在視差誤差上的減小相關聯的一或多個位置處的一或多個放大部分的圖像。
態樣28. 如態樣25至27中任一項所述的方法,其中模擬光圈大小是基於偏移距離的。
態樣29. 如態樣25至28中任一項所述的方法,其中模擬光圈大小等於偏移距離。
態樣30. 如態樣25至29中任一項所述的方法,其中模擬光圈大小是偏移距離的函數。
態樣31. 如態樣25至30中任一項所述的方法,其中模擬光圈大小是對應於合成景深的模擬光圈的直徑。
態樣32. 如態樣25至31中任一項所述的方法,其中模擬光圈大小是對應於合成景深的模擬光圈的面積。
態樣33. 如態樣25至32中任一項所述的方法,其中第一圖像感測器以偏移距離偏移於第二圖像感測器包括:與第一圖像感測器相關聯的第一光軸以偏移距離偏移於與第二圖像感測器相關聯的第二光軸。
態樣34. 如態樣25至33中任一項所述的方法,其中合成景深比與第一圖像感測器對應的第一景深和與第二圖像感測器對應的第二景深中的至少一個更淺。
態樣35. 如態樣25至34中任一項所述的方法,模擬光圈大小大於與第一圖像感測器對應的第一光圈和與第二圖像感測器對應的第二光圈。
態樣36. 如態樣25至35中任一項所述的方法,進一步包括:接收場景的由第三圖像感測器擷取的第三圖像資料,其中產生圖像包括:將至少第一圖像資料和第二圖像資料以及第三圖像資料用作一或多個經訓練的機器學習系統的輸入。
態樣37. 如態樣25至36中任一項所述的方法,進一步包括:接收場景的由第四圖像感測器擷取的第四圖像資料,其中產生圖像包括將至少第一圖像資料和第二圖像資料和第三圖像資料以及第四圖像資料用作一或多個經訓練的機器學習系統的輸入。
態樣38. 如態樣25至37中任一項所述的方法,進一步包括:接收指示合成景深的輸入。
態樣39. 如態樣25至38中任一項所述的方法,進一步包括:辨識第一圖像資料中描繪的物體;及自動決定合成景深,其中物體基於合成景深在圖像中是焦點對準的。
態樣40. 如態樣25至39中任一項所述的方法,進一步包括:使用來自光場攝像頭的訓練資料對一或多個經訓練的機器學習系統進行訓練。
態樣41. 如態樣25至40中任一項所述的方法,其中光場攝像頭包括圖像感測器的陣列,其中訓練資料包括光場攝像頭基於圖像感測器的陣列所擷取的圖像資料產生的輸出圖像,其中訓練資料包括由圖像感測器的陣列中的第三圖像感測器和第四圖像感測器擷取的圖像資料的至少子集,其中第三圖像感測器以偏移距離偏移於第四圖像感測器。
態樣42. 如態樣25至41中任一項所述的方法,其中圖像包括焦點對準的第一區域和模糊的第二區域。
態樣43. 如態樣25至42中任一項所述的方法,其中第一區域描繪前景,其中第二區域描繪背景。
態樣44. 如態樣25至43中任一項所述的方法,其中第一區域描繪背景,其中第二區域描繪前景。
態樣45. 如態樣25至44中任一項所述的方法,其中輸出圖像包括使用顯示器顯示圖像。
態樣46. 如態樣25至45中任一項所述的方法,其中輸出圖像包括使用通訊收發器將圖像發送至接收設備。
態樣47.如態樣25至46中任一項所述的方法,其中該方法由包括第一圖像感測器和第二圖像感測器的裝置執行。
態樣48.如態樣25至47中任一項所述的方法,其中該方法由行動手機、無線通訊設備和頭戴式顯示器中的至少一種執行。
態樣49. 一種其上儲存有指令的非暫時性電腦可讀取媒體,當指令被一或多個處理器執行時,使一或多個處理器:接收場景的由第一圖像感測器擷取的第一圖像資料;接收場景的由第二圖像感測器擷取的第二圖像資料,其中第一圖像感測器以偏移距離偏移於第二圖像感測器;藉由將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有與模擬光圈大小對應的合成景深的圖像,其中模擬光圈大小與偏移距離相關聯;及輸出該圖像。
態樣50. 如態樣49所述的非暫時性電腦可讀取媒體,進一步包括態樣2至24中的任一項,及/或態樣26至48中的任一項。
態樣51. 一種用於圖像處理的裝置,該裝置包括:用於接收場景的由第一圖像感測器擷取的第一圖像資料的構件;用於接收場景的由第二圖像感測器擷取的第二圖像資料的構件,其中第一圖像感測器以偏移距離偏移於第二圖像感測器;用於藉由將至少第一圖像資料和第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有與模擬光圈大小對應的合成景深的圖像的構件,其中模擬光圈大小與偏移距離相關聯;及用於輸出該圖像的構件。
態樣52. 如態樣51所述的裝置,進一步包括態樣2至24中的任一項,及/或態樣26至48中的任一項。
100:圖像擷取和處理系統
105A:圖像擷取設備
105B:圖像處理設備
110:場景
115:鏡頭
120:控制機構
125A:曝光控制機構
125B:調焦控制機構
125C:變焦控制機構
130:圖像感測器
140:隨機存取記憶體(RAM)
145:唯讀記憶體(ROM)
150:圖像處理器
152:主機處理器
154:圖像信號處理器(ISP)
156:輸入/輸出(I/O)埠
160:輸入/輸出(I/O)設備
200A:方塊圖
205A:輸入圖像
205B:輸入圖像
210A:遮罩
210B:遮罩
215:語義分割
220:模糊操作
225A:輸出圖像
225B:輸出圖像
230:分割遮罩誤差
235:視覺偽像
240:分割遮罩誤差
245:視覺偽像
250:輸出圖像
255:放大變體
260:分割遮罩誤差
265:視覺偽像
305:輸入圖像
310:深度圖像
320:模糊操作
325:輸出圖像
330:深度圖像誤差
335:視覺偽像
400:圖像擷取和處理系統
405A:圖像擷取設備
405B:圖像處理設備
410:場景
415A:鏡頭
415B:鏡頭
415C:鏡頭
415D:鏡頭
420A:控制機構
420B:控制機構
420C:控制機構
420D:控制機構
430A:圖像感測器
430B:圖像感測器
430C:圖像感測器
430D:圖像感測器
450:圖像處理器
510A:行動手機
510B:行動手機
510C: 行動手機
515A:背面
515B:背面
520:正面
525A:攝像頭模組
525B:攝像頭模組
525C:攝像頭模組
530A:攝像頭
530B:攝像頭
530C:攝像頭
535A:模擬光圈
535B:模擬光圈
535C:模擬光圈
537A:偏移距離
537B:偏移距離
540:菱形模式
545:直列模式
547A:偏移距離
547B:偏移距離
550:顯示器
600:方塊圖
605:圖像集
610:圖像感測器
615:第一光圈大小
620:第一DoF
625:經訓練的機器學習(ML)模型
630:輸出圖像
635:模擬光圈大小
640:合成景深
700:方塊圖
705:圖像集
710:圖像感測器
715:第一光圈大小
720:第一DoF
735:模擬光圈大小
740:合成DoF
750:縮小器
755:縮小器
760:第一經訓練的ML模型
765:第二經訓練的ML模型
770:輸出圖像
800:方塊圖
805:視差誤差圖
810:中間圖像
850:方塊圖
900:神經網路(NN)
910:輸入層
912A:隱藏層
912B:隱藏層
912N:隱藏層
914:輸出層
916:節點
1000A:神經網路架構
1000B:神經網路架構
1000C:神經網路架構
1005A:經訓練的神經網路
1005B:經訓練的NN
1010:圖像集
1015:第一景深
1020:輸出圖像
1025:合成景深
1030:圖例
1035:圖例
1040:縮小變體
1045:視差誤差圖
1050:中間圖像
1100:概念圖
1105:攝像頭陣列
1110:訓練資料
1115:ML模型
1120:訓練資料
1140:光場攝像頭
1200:概念圖
1205:輸入圖像
1210:輸出圖像
1300:概念圖
1305:輸入圖像
1310:輸出圖像
1400:概念圖
1405:輸入圖像
1410:輸出圖像
1500:概念圖
1505:輸入圖像
1510:第一輸出圖像
1515:第二輸出圖像
1600:過程
1605:操作
1610:操作
1615:操作
1620:操作
1700:計算系統
1705:連接
1710:處理器
1712:快取記憶體
1715:系統記憶體
1720:唯讀記憶體(ROM)
1725:隨機存取記憶體(RAM)
1730:儲存設備
1732:服務
1734:服務
1735:輸出設備
1736:服務
1740:通訊介面
1745:輸入設備
下文參照以下附圖對本申請案的說明性實施例進行詳細描述:
圖1是示出根據一些實例的圖像擷取和處理系統的示例架構的方塊圖;
圖2A是示出根據一些實例的基於語義分割對端著一杯咖啡的女子的輸入圖像進行模糊以產生具有合成景深和視覺偽像的輸出圖像的方塊圖;
圖2B是示出根據一些實例的基於語義分割對男子和女子的輸入圖像進行模糊以產生具有合成景深和視覺偽像的輸出圖像的方塊圖;
圖2C是示出根據一些實例的藉由基於語義分割對女子的輸入圖像進行模糊以用視覺偽像模擬景深而產生的該女子的輸出圖像的概念圖;
圖3是示出根據一些實例的基於圍欄的深度圖像對該圍欄的輸入圖像進行模糊以產生具有合成景深和視覺偽像的輸出圖像的方塊圖;
圖4是示出根據一些實例的具有多個圖像感測器的圖像擷取和處理系統的示例架構的方塊圖;
圖5A是示出根據一些實例的包括攝像頭模組的行動手機的背面的透視圖,該攝像頭模組具有以菱形模式佈置的四個攝像頭,以用於基於模擬光圈產生具有合成景深的輸出圖像;
圖5B是示出根據一些實例的包括攝像頭模組的行動手機的背面的透視圖,該攝像頭模組具有以直列模式佈置的四個攝像頭,以用於基於模擬光圈產生具有合成景深的輸出圖像;
圖5C是示出根據一些實例的包括攝像頭模組的行動手機的正面的透視圖,該攝像頭模組具有以直列模式佈置的四個攝像頭,以用於基於模擬光圈產生具有合成景深的輸出圖像;
圖6是示出根據一些實例的藉由將多個圖像感測器所擷取的圖像集用作經訓練的機器學習模型的輸入來產生具有與模擬光圈大小對應的合成景深的圖像的方塊圖;
圖7是示出根據一些實例的藉由將來自多個圖像感測器的圖像集以及該圖像集的縮小變體用作第一經訓練的機器學習模型(其輸出被用作第二經訓練的機器學習模型的輸入)的輸入來產生具有與模擬光圈大小對應的合成景深的圖像的方塊圖;
圖8A是示出根據一些實例的藉由將來自多個圖像感測器的圖像集和該圖像集的縮小變體用作第一經訓練的機器學習模型的輸入,以產生視差誤差圖和中間圖像的方塊圖;
圖8B是示出根據一些實例的藉由將視差誤差圖和中間圖像用作第二經訓練的機器學習模型的輸入以產生輸出圖像的方塊圖;
圖9是示出根據一些實例的可以由產生具有合成景深的圖像及/或產生視差誤差圖的經訓練的機器學習系統使用的神經網路的實例的方塊圖;
圖10A是示出根據一些實例的基於處於第一景深的圖像集產生具有合成景深的輸出圖像的經訓練的機器學習模型的經訓練的神經網路的神經網路架構的實例的方塊圖;
圖10B是示出根據一些實例的基於處於第一景深的圖像集和該圖像集的縮小變體產生具有合成景深的中間圖像和視差誤差圖的第一經訓練的機器學習模型的經訓練的神經網路的神經網路架構的實例的方塊圖;
圖10C是示出根據一些實例的基於具有合成景深的中間圖像和視差誤差圖產生具有合成景深的輸出圖像的第二經訓練的機器學習模型的經訓練的神經網路的神經網路架構的實例的方塊圖;
圖11A是示出根據一些實例的從可以用於提供訓練資料以對一或多個經訓練的機器學習模型進行訓練從而對來自以菱形模式佈置的圖像感測器的圖像資料進行處理的光場攝像頭的攝像頭陣列中選擇的攝像頭的實例的概念圖;
圖11B是示出根據一些實例的可以用於提供訓練資料以對一或多個經訓練的機器學習模型進行訓練從而對來自以直列模式佈置的圖像感測器的圖像資料進行處理的光場攝像頭的攝像頭陣列中的所選攝像頭的實例的概念圖;
圖12是示出根據一些實例的人像的輸入圖像和該人像的使用一或多個經訓練的機器學習模型產生的且具有合成景深的輸出圖像的概念圖;
圖13是示出根據一些實例的鄰域場景的輸入圖像和該鄰域場景的使用一或多個經訓練的機器學習模型產生的且具有合成景深的輸出圖像的概念圖;
圖14是示出根據一些實例的圍欄遮擋場景的輸入圖像和該圍欄遮擋場景的使用一或多個經訓練的機器學習模型產生的且具有合成景深的輸出圖像的概念圖;
圖15是示出根據一些實例的玻璃窗後面的書本的輸入圖像和玻璃窗後面的書本的使用一或多個經訓練的機器學習模型產生的、對焦於場景的不同元素的且具有合成景深的兩個輸出圖像的概念圖;
圖16是示出根據一些實例的處理圖像資料的過程的流程圖;及
圖17是示出用於實現本文所述的某些態樣的計算系統的實例的圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記)
無
國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記)
無
700:方塊圖
705:圖像集
710:圖像感測器
715:第一光圈大小
720:第一DoF
735:模擬光圈大小
740:合成DoF
750:縮小器
755:縮小器
760:第一經訓練的ML模型
765:第二經訓練的ML模型
770:輸出圖像
Claims (30)
- 一種用於處理圖像資料的裝置,該裝置包括: 一記憶體;及 耦合到該記憶體的一或多個處理器,該一或多個處理器被配置為: 接收一場景的由一第一圖像感測器擷取的第一圖像資料; 接收該場景的由一第二圖像感測器擷取的第二圖像資料,其中該第一圖像感測器以一偏移距離偏移於該第二圖像感測器; 藉由將至少該第一圖像資料和該第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有與一模擬光圈大小對應的一合成景深的一圖像,其中該模擬光圈大小與該偏移距離相關聯;及 輸出該圖像。
- 如請求項1所述的裝置,其中該一或多個處理器被配置為藉由將至少該第一圖像資料和該第二圖像資料用作該一或多個經訓練的機器學習系統的輸入來產生對與該圖像對應的一或多個視差誤差區域進行辨識的一視差誤差圖,其中為了產生該圖像,該一或多個處理器被配置為亦基於該視差誤差圖來產生該圖像。
- 如請求項2所述的裝置,其中該一或多個處理器被配置為: 至少部分地藉由對該第一圖像資料進行縮小來產生縮小的第一圖像資料; 至少部分地藉由對該第二圖像資料進行縮小來產生縮小的第二圖像資料; 藉由將至少該縮小的第一圖像資料和該縮小的第二圖像資料用作該一或多個經訓練的機器學習系統的輸入來產生具有該合成景深的一第二圖像;及 藉由將至少該縮小的第一圖像資料和該縮小的第二圖像資料用作該一或多個經訓練的機器學習系統的輸入來產生對與該第二圖像對應的一或多個視差誤差區域的一第二集合進行辨識的一第二視差誤差圖, 其中為了產生該圖像,該一或多個處理器被配置為產生包括該第二圖像中的與該第二視差誤差圖中和該視差誤差圖相比在視差誤差上的一減小相關聯的一或多個位置處的一或多個放大部分的該圖像。
- 如請求項1所述的裝置,其中該模擬光圈大小是基於該偏移距離的。
- 如請求項1所述的裝置,其中該模擬光圈大小是與該合成景深相對應的一模擬光圈的一直徑。
- 如請求項1所述的裝置,其中該模擬光圈大小是與該合成景深相對應的一模擬光圈的一面積。
- 如請求項1所述的裝置,其中該第一圖像感測器以該偏移距離偏移於該第二圖像感測器包括:與該第一圖像感測器相關聯的一第一光軸以該偏移距離偏移於與該第二圖像感測器相關聯的一第二光軸。
- 如請求項1所述的裝置,其中該合成景深比與該第一圖像感測器對應的一第一景深和與該第二圖像感測器對應的一第二景深中的至少一個更淺。
- 如請求項1所述的裝置,該模擬光圈大小大於與該第一圖像感測器對應的一第一光圈和與該第二圖像感測器對應的一第二光圈。
- 如請求項1所述的裝置,其中該一或多個處理器被配置為: 接收該場景的由一第三圖像感測器擷取的第三圖像資料,其中該一或多個處理器被配置為將至少該第一圖像資料和該第二圖像資料以及該第三圖像資料用作該一或多個經訓練的機器學習系統的該等輸入,產生該圖像。
- 如請求項10所述的裝置,其中該一或多個處理器被配置為: 接收該場景的由一第四圖像感測器擷取的第四圖像資料,其中該一或多個處理器被配置為將至少該第一圖像資料和該第二圖像資料和該第三圖像資料以及該第四圖像資料用作該一或多個經訓練的機器學習系統的該等輸入,以產生該圖像。
- 如請求項1所述的裝置,其中該一或多個處理器被配置為: 接收指示該合成景深的一輸入。
- 如請求項1所述的裝置,其中該一或多個處理器被配置為: 辨識該第一圖像資料中描繪的一物體;及 自動決定該合成景深,其中該物體基於該合成景深在該圖像中是焦點對準的。
- 如請求項1所述的裝置,其中該圖像包括焦點對準的一第一區域和模糊的一第二區域。
- 如請求項14所述的裝置,其中該第一區域描繪一前景,其中該第二區域描繪一背景。
- 如請求項1所述的裝置,進一步包括: 一顯示器,其中該一或多個處理器被配置為使用該顯示器顯示該圖像,以輸出該圖像。
- 如請求項1所述的裝置,進一步包括: 一通訊收發器,其中該一或多個處理器被配置為使用該通訊收發器將該圖像發送給一接收設備,以輸出該圖像。
- 如請求項1所述的裝置,進一步包括: 該第一圖像感測器;及 該第二圖像感測器。
- 如請求項1所述的裝置,其中該裝置包括一行動手機、一無線通訊設備和一頭戴式顯示器中的至少一者。
- 一種用於處理圖像資料的方法,該方法包括以下步驟: 接收一場景的由一第一圖像感測器擷取的第一圖像資料; 接收該場景的由一第二圖像感測器擷取的第二圖像資料,其中該第一圖像感測器以一偏移距離偏移於該第二圖像感測器; 藉由將至少該第一圖像資料和該第二圖像資料用作一或多個經訓練的機器學習系統的輸入來產生具有與一模擬光圈大小對應的一合成景深的一圖像,其中該模擬光圈大小與該偏移距離相關聯;及 輸出該圖像。
- 如請求項20所述的方法,進一步包括以下步驟: 藉由將至少該第一圖像資料和該第二圖像資料用作該一或多個經訓練的機器學習系統的輸入來產生對與該圖像對應的一或多個視差誤差區域進行辨識的一視差誤差圖,其中產生該圖像包括亦基於該視差誤差圖來產生該圖像。
- 如請求項21所述的方法,進一步包括以下步驟: 至少部分地藉由對該第一圖像資料進行縮小來產生縮小的第一圖像資料; 至少部分地藉由對該第二圖像資料進行縮小來產生縮小的第二圖像資料; 藉由將至少該縮小的第一圖像資料和該縮小的第二圖像資料用作該一或多個經訓練的機器學習系統的輸入來產生具有該合成景深的一第二圖像;及 藉由將至少該縮小的第一圖像資料和該縮小的第二圖像資料用作該一或多個經訓練的機器學習系統的輸入來產生對與該第二圖像對應的一或多個視差誤差區域的一第二集合進行辨識的一第二視差誤差圖,其中產生該圖像包括:產生包括該第二圖像中的與該第二視差誤差圖中和該視差誤差圖相比在視差誤差上的一減小相關聯的一或多個位置處的一或多個放大部分的該圖像。
- 如請求項20所述的方法,其中該模擬光圈大小是基於該偏移距離的。
- 如請求項20所述的方法,其中該第一圖像感測器以該偏移距離偏移於該第二圖像感測器包括以下步驟:與該第一圖像感測器相關聯的一第一光軸以該偏移距離偏移於與該第二圖像感測器相關聯的一第二光軸。
- 如請求項20所述的方法,其中該合成景深比與該第一圖像感測器對應的一第一景深和與該第二圖像感測器對應的一第二景深中的至少一個更淺。
- 如請求項20所述的方法,該模擬光圈大小大於與該第一圖像感測器對應的一第一光圈和與該第二圖像感測器對應的一第二光圈。
- 如請求項20所述的方法,進一步包括以下步驟: 接收該場景的由一第三圖像感測器擷取的第三圖像資料,其中產生該圖像包括:將至少該第一圖像資料和該第二圖像資料以及該第三圖像資料用作該一或多個經訓練的機器學習系統的該等輸入。
- 如請求項20所述的方法,進一步包括以下步驟: 接收指示該合成景深的一輸入。
- 如請求項20所述的方法,進一步包括以下步驟: 辨識該第一圖像資料中描繪的一物體;及 自動決定該合成景深,其中該物體基於該合成景深在該圖像中是焦點對準的。
- 如請求項20所述的方法,其中該圖像包括焦點對準的一第一區域和模糊的一第二區域。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/481,155 | 2021-09-21 | ||
US17/481,155 US11863729B2 (en) | 2021-09-21 | 2021-09-21 | Systems and methods for generating synthetic depth of field effects |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202334899A true TW202334899A (zh) | 2023-09-01 |
Family
ID=83598341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111134911A TW202334899A (zh) | 2021-09-21 | 2022-09-15 | 用於產生合成景深效果的系統和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11863729B2 (zh) |
EP (1) | EP4405891A1 (zh) |
CN (1) | CN117957562A (zh) |
TW (1) | TW202334899A (zh) |
WO (1) | WO2023049651A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11832001B2 (en) * | 2021-12-20 | 2023-11-28 | Visera Technologies Company Limited | Image processing method and image processing system |
US11727537B1 (en) * | 2022-03-24 | 2023-08-15 | Qualcomm Incorporated | Bokeh effect in variable aperture (VA) camera systems |
CN116934308B (zh) * | 2023-09-15 | 2023-12-15 | 浙江恒逸石化有限公司 | 丝路巡检设备的控制方法、装置、设备以及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9900584B2 (en) | 2016-04-27 | 2018-02-20 | Semyon Nisenzon | Depth map generation based on cluster hierarchy and multiple multiresolution camera clusters |
US10218793B2 (en) * | 2016-06-13 | 2019-02-26 | Disney Enterprises, Inc. | System and method for rendering views of a virtual space |
WO2018020938A1 (ja) * | 2016-07-29 | 2018-02-01 | 富士フイルム株式会社 | カメラ、カメラの設定方法、及び、カメラの設定プログラム |
US10462377B2 (en) * | 2016-07-29 | 2019-10-29 | Nokia Of America Corporation | Single-aperture multi-sensor lensless compressive image acquisition |
US10823843B1 (en) * | 2016-10-20 | 2020-11-03 | Leidos, Inc. | Motion extended array synthesis for use in high resolution imaging applications |
US10382712B1 (en) * | 2018-08-01 | 2019-08-13 | Qualcomm Incorporated | Automatic removal of lens flares from images |
CN112614057A (zh) * | 2019-09-18 | 2021-04-06 | 华为技术有限公司 | 一种图像虚化处理方法及电子设备 |
-
2021
- 2021-09-21 US US17/481,155 patent/US11863729B2/en active Active
-
2022
- 2022-09-14 WO PCT/US2022/076436 patent/WO2023049651A1/en active Application Filing
- 2022-09-14 CN CN202280061296.0A patent/CN117957562A/zh active Pending
- 2022-09-14 EP EP22786248.9A patent/EP4405891A1/en active Pending
- 2022-09-15 TW TW111134911A patent/TW202334899A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
US20230091313A1 (en) | 2023-03-23 |
CN117957562A (zh) | 2024-04-30 |
WO2023049651A1 (en) | 2023-03-30 |
US11863729B2 (en) | 2024-01-02 |
EP4405891A1 (en) | 2024-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW202334899A (zh) | 用於產生合成景深效果的系統和方法 | |
US11810256B2 (en) | Image modification techniques | |
CN115668967A (zh) | 自动相机指导和设置调整 | |
WO2024091783A1 (en) | Image enhancement for image regions of interest | |
WO2023244882A1 (en) | Systems and methods of automated imaging domain transfer | |
TW202303443A (zh) | 增強的物件偵測 | |
WO2022082554A1 (en) | Mechanism for improving image capture operations | |
US20240242309A1 (en) | Super resolution based on saliency | |
US20230222757A1 (en) | Systems and methods of media processing | |
US11889196B2 (en) | Systems and methods for determining image capture settings | |
KR20240136956A (ko) | 미디어 프로세싱의 시스템들 및 방법들 | |
TW202418218A (zh) | 圖像中的物件移除 | |
WO2024163067A1 (en) | Method and apparatus for optimum overlap ratio estimation for three dimensional (3d) reconstructions | |
WO2023167788A1 (en) | Systems and methods of image processing based on gaze detection | |
WO2023163799A1 (en) | Foveated sensing | |
TW202239188A (zh) | 用於相機變焦的系統及方法 | |
WO2023282963A1 (en) | Enhanced object detection | |
EP4427120A1 (en) | Systems and methods for device interoperability for extended reality | |
WO2024123513A1 (en) | Independent scene movement based on mask layers | |
CN118159932A (zh) | 用于扩展现实的设备互操作性的系统和方法 |