TW202220433A - 圖框處理及/或擷取指令系統及技術 - Google Patents

圖框處理及/或擷取指令系統及技術 Download PDF

Info

Publication number
TW202220433A
TW202220433A TW110136716A TW110136716A TW202220433A TW 202220433 A TW202220433 A TW 202220433A TW 110136716 A TW110136716 A TW 110136716A TW 110136716 A TW110136716 A TW 110136716A TW 202220433 A TW202220433 A TW 202220433A
Authority
TW
Taiwan
Prior art keywords
motion
frames
frame
exposure
determined
Prior art date
Application number
TW110136716A
Other languages
English (en)
Inventor
馬克 金斯堡
尼爾 史特勞斯
羅恩 蓋茲曼
伊蘭 平哈索夫
尤里 多金
維特 平托
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW202220433A publication Critical patent/TW202220433A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/681Motion detection
    • H04N23/6811Motion detection based on the image signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/681Motion detection
    • H04N23/6812Motion detection based on additional sensors, e.g. acceleration sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/72Combination of two or more compensation controls
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/73Circuitry for compensating brightness variation in the scene by influencing the exposure time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/741Circuitry for compensating brightness variation in the scene by increasing the dynamic range of the image compared to the dynamic range of the electronic image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/743Bracketing, i.e. taking a series of images with varying exposure conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/81Camera processing pipelines; Components thereof for suppressing or minimising disturbance in the image signal generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/951Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10141Special mode during image acquisition
    • G06T2207/10144Varying exposure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20208High dynamic range [HDR] image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Abstract

提供了用於處理一或多個圖框或圖像的技術和系統。例如,用於決定針對一或多個圖框的曝光的程序包括獲得用於一或多個圖框的運動圖。該程序包括基於運動圖決定與場景的一或多個圖框相關聯的運動。運動對應於場景中的一或多個物件相對於用於擷取一或多個圖框的相機的移動。該程序包括基於決定的運動,決定圖框的數量以及用於擷取該數量的圖框的曝光。該程序還包括發出請求以使用決定的曝光持續時間來擷取該數量的圖框。

Description

圖框處理及/或擷取指令系統及技術
本案係關於圖框處理及/或擷取指令系統及技術。
可以利用各種圖像擷取和圖像處理設置來配置相機,以改變圖像的外觀。某些相機設置是在照片的擷取之前或期間被決定和應用的,諸如ISO、曝光時間、孔徑(aperture)大小、光圈(f/stop)、快門速度、焦點和增益。其他相機設置可以配置照片的後處理,諸如更改對比度、亮度、飽和度、銳度、色階、曲線或顏色。主機處理器(HP)可以用於配置圖像感測器的設置及/或圖像信號處理器(ISP)的設置。應同步圖像感測器與ISP之間的設置的配置,以確保正確處理圖像。
本文描述了用於執行圖像或圖框處理及/或擷取指令配置的系統和技術。根據一個說明性示例,提供了一種決定曝光持續時間和圖框的數量的方法。該方法包括:獲得用於一或多個圖框的運動圖;基於運動圖,決定與場景的一或多個圖框相關聯的運動,該運動對應於場景中的一或多個物件相對於用於擷取一或多個圖框的相機的移動;基於決定的運動,決定圖框的數量以及用於擷取該數量的圖框的曝光持續時間;及發出請求以使用決定的曝光持續時間來擷取該數量的圖框。
在另一示例中,提供了一種用於決定針對某數量的圖框的曝光持續時間的裝置,該裝置包括被配置為儲存至少一個圖框的記憶體以及耦合到記憶體的一或多個處理器(例如,被實現於電路中)。一或多個處理器被配置為並且可以:獲得用於一或多個圖框的運動圖;基於運動圖,決定與場景的一或多個圖框相關聯的運動,該運動對應於場景中的一或多個物件相對於用於擷取一或多個圖框的相機的移動;基於決定的運動,決定圖框的數量以及用於擷取該數量的圖框的曝光持續時間;及發出請求以使用決定的曝光持續時間來擷取該數量的圖框。
在另一示例中,提供了一種其上儲存有指令的非暫態電腦可讀取媒體,這些指令在由一或多個處理器執行時使得這一或多個處理器:獲得用於一或多個圖框的運動圖;基於運動圖,決定與場景的一或多個圖框相關聯的運動,該運動對應於場景中的一或多個物件相對於用於擷取一或多個圖框的相機的移動;根據決定的運動,決定圖框的數量以及用於擷取該數量的圖框的曝光持續時間;及發出請求以使用決定的曝光持續時間來擷取該數量的圖框。
在另一示例中,提供了一種用於決定針對某數量的圖框的曝光持續時間的裝置。該裝置包括:用於獲得用於一或多個圖框的運動圖的構件;用於基於運動圖,決定與場景的一或多個圖框相關聯的運動的構件,該運動對應於場景中的一或多個物件相對於用於擷取一或多個圖框的相機的移動;用於基於決定的運動,決定圖框的數量以及用於擷取該數量的圖框的曝光持續時間的構件;及用於發出請求以使用決定的曝光持續時間來擷取該數量的圖框的構件。
在某些態樣中,一或多個圖框是在接收到用於擷取該數量的圖框的擷取命令之前獲得的。
在某些態樣中,上述方法、裝置和電腦可讀取媒體還包括:對使用決定的曝光持續時間擷取的該數量的圖框執行時間混合(temporal blending)以產生時間混合圖框。
在某些態樣中,上述方法、裝置和電腦可讀取媒體還包括:使用基於機器學習的圖像信號處理器對時間混合圖框執行空間處理(spatial processing)。在某些態樣中,基於機器學習的圖像信號處理器使用運動圖作為用於對時間混合圖框執行空間處理的輸入。
在某些態樣中,決定的曝光持續時間基於增益。
在某些態樣中,運動圖包括圖像,圖像的每個像素包括指示以下中的至少一個的值:每個像素的運動量以及與運動量相關聯的置信值。
在某些態樣中,上述方法、裝置和電腦可讀取媒體還包括:基於一或多個感測器測量決定與相機相關聯的全域運動。在某些情況下,圖框的數量以及用於擷取該數量的圖框的曝光持續時間是基於決定的運動和全域運動而被決定的。例如,裝置的一或多個處理器可以被配置為基於決定的運動和全域運動來決定圖框的數量以及用於擷取該數量的圖框的曝光持續時間。
在某些態樣中,上述方法、裝置和電腦可讀取媒體還包括:基於決定的運動和全域運動來決定最終運動指示。在某些情況下,圖框的數量以及用於擷取該數量的圖框的曝光持續時間是基於最終運動指示而被決定的。例如,裝置的一或多個處理器可以被配置為基於最終運動指示來決定圖框的數量以及用於擷取該數量的圖框的曝光持續時間。
在某些態樣中,最終運動指示基於使用用於決定的運動的第一權重和用於全域運動的第二權重的、決定的運動和全域運動的加權組合。例如,為了基於決定的運動和全域運動來決定最終運動指示,一或多個處理器可以被配置為使用用於決定的運動的第一權重以及用於全域運動的第二權重來決定決定的運動和全域運動的加權組合。
在某些態樣中,上述方法、裝置和電腦可讀取媒體還包括:基於最終運動指示決定一或多個圖框中的運動量小於運動閾值;並且基於一或多個圖框中的運動量小於運動閾值,減少針對圖框的數量的圖框計數並增加針對決定的曝光持續時間的曝光持續時間量。
在某些態樣中,上述方法、裝置和電腦可讀取媒體還包括:基於最終運動指示決定一或多個圖框中的運動量大於運動閾值;並且基於一或多個圖框中的運動量大於運動閾值,增加針對圖框的數量的圖框計數並減少針對決定的曝光持續時間的曝光持續時間量。
根據至少一個其他說明性示例,提供了一種對一或多個圖框執行時間混合的方法。該方法包括:獲得原始圖框,原始圖框包括用於原始圖框的每個像素的單顏色分量;將原始圖框劃分為第一顏色分量、第二顏色分量和第三顏色分量;至少部分地藉由將至少第一色度值添加到第一顏色分量、將至少第二色度值添加到第二顏色分量以及將至少第三色度值添加到第三顏色分量來產生複數個圖框;及對複數個圖框執行時間混合。
在另一示例中,提供了一種用於對一或多個圖框執行時間混合的裝置,該裝置包括被配置為儲存至少一個圖像的記憶體以及耦合到記憶體的一或多個處理器(例如,被實現於電路中)。一或多個處理器被配置為並且可以:獲得原始圖框,原始圖框包括用於原始圖框的每個像素的單顏色分量;將原始圖框劃分為第一顏色分量、第二顏色分量和第三顏色分量;至少部分地藉由將至少第一色度值添加到第一顏色分量、將至少第二色度值添加到第二顏色分量以及將至少第三色度值添加到第三顏色分量來產生複數個圖框;及對複數個圖框執行時間混合。
在另一示例中,提供了一種其上儲存有指令的非暫態電腦可讀取媒體,這些指令在由一或多個處理器執行時使得這一或多個處理器:獲得原始圖框,原始圖框包括用於原始圖框的每個像素的單顏色分量;將原始圖框劃分為第一顏色分量、第二顏色分量和第三顏色分量;至少部分地藉由將至少第一色度值添加到第一顏色分量、將至少第二色度值添加到第二顏色分量以及將至少第三色度值添加到第三顏色分量來產生複數個圖框;及對複數個圖框執行時間混合。
在另一示例中,提供了一種用於對一或多個圖框執行時間混合的裝置。該裝置包括:用於獲得原始圖框的構件,原始圖框包括用於原始圖框的每個像素的單顏色分量;用於將原始圖框劃分為第一顏色分量、第二顏色分量和第三顏色分量的構件;用於至少部分地藉由將至少第一色度值添加到第一顏色分量、將至少第二色度值添加到第二顏色分量以及將至少第三色度值添加到第三顏色分量來產生複數個圖框的構件;及用於對複數個圖框執行時間混合的構件。
在某些態樣中,原始圖框包括濾色器陣列(CFA)圖案。
在某些態樣中,第一顏色分量包括紅色顏色分量,第二顏色分量包括綠色顏色分量,而第三顏色分量包括藍色顏色分量。
在某些態樣中,第一顏色分量包括原始圖框的所有紅色像素,第二顏色分量包括原始圖框的所有綠色像素,而第三顏色分量包括原始圖框的所有藍色像素。
在某些態樣中,產生複數個圖框包括:至少部分地藉由將至少第一色度值添加到第一顏色分量來產生第一圖框;至少部分地藉由將至少第二色度值添加到第二顏色分量來產生第二圖框;及至少部分地藉由將至少第三色度值添加到第三顏色分量來產生第三圖框。
在某些態樣中,產生第一圖框包括將第一色度值和第二色度值添加到第一顏色分量。在某些態樣中,產生第二圖框包括將第一色度值和第二色度值添加到第二顏色分量。在某些態樣中,產生第三圖框包括將第一色度值和第二色度值添加到第三顏色分量。
在某些態樣中,第一色度值和第二色度值是相同值。
在某些態樣中,對複數個圖框執行時間混合包括:將複數個圖框中的第一圖框與具有第一顏色分量的一或多個附加圖框進行時間混合;將複數個圖框中的第二圖框與具有第二顏色分量的一或多個附加圖框進行時間混合;及將複數個圖框中的第三圖框與具有第三顏色分量的一或多個附加圖框進行時間混合。
在某些態樣中,裝置是以下、是以下的部分及/或包括:相機、行動設備(例如,行動電話或所謂的「智慧型電話」或其他行動設備)、可穿戴設備、擴展現實設備(例如,虛擬實境(VR)設備、增強現實(AR)設備或混合現實(MR)設備)、個人電腦、膝上型電腦、伺服器電腦、車輛或車輛的計算設備或元件,或者其他設備。在某些態樣中,裝置包括用於擷取一或多個圖像的一或多個相機。在某些態樣中,裝置還包括用於顯示一或多個圖像、通知及/或其他可顯示資料的顯示器。在某些態樣中,上述裝置可以包括一或多個感測器(例如,一或多個慣性測量單元(IMU),諸如一或多個陀螺測試儀、一或多個加速度計、其任何組合、及/或其他感測器)。
本概述不旨在標識所要求保護的標的的關鍵或必要特徵,也不旨在被單獨用於決定所要求保護的標的的範圍。藉由參考本專利的整篇說明書的適當部分、任何或全部附圖以及每個請求項,應該理解本標的。
藉由參考以下說明書、請求項以及所附附圖,前述內容以及其他特徵和實施例將變得更加顯而易見。
以下提供本案的某些態樣和實施例。如對本領域技藝人士將顯而易見的,該些態樣和實施例中的一些可以被獨立地應用,而其中一些可以被組合地應用。在以下描述中,出於解釋的目的,闡述了具體細節以便提供對本案的實施例的全面理解。然而,將顯而易見的是,各種實施例可以在沒有這些具體細節的情況下被實踐。附圖和描述不旨在是限制性的。
隨後的描述僅提供示例性實施例,並且不旨在限制本案的範圍、適用性或配置。更確切地說,對示例性實施例的隨後描述將為本領域技藝人士提供用於實現示例性實施例的使能描述(enabling description)。應該理解,在功能和元件佈置中可以進行各種改變,而不背離如所附請求項闡述的本案的精神和範圍。
相機是使用圖像感測器接收光並擷取圖像圖框(諸如靜止圖像或視訊圖框)的設備。術語「圖像」、「圖像圖框」和「圖框」在本文中可互換使用。相機系統可以包括處理器(例如,圖像信號處理器(ISP)等),處理器可以接收一或多個圖像圖框並處理這一或多個圖像圖框。例如,由相機感測器擷取的原始圖像圖框可以由ISP處理以產生最終圖像。ISP的處理可以藉由複數個濾波器或處理塊被應用於擷取的圖像圖框而被執行,諸如去噪或雜訊過濾、邊緣增強、顏色平衡、對比度、強度調整(諸如變暗或變亮)、色調調整,等等。圖像處理塊或模組可以包括透鏡/感測器雜訊校正、拜耳濾波器(Bayer filter)、去馬賽克、顏色轉換、圖像屬性的校正或增強/抑制、去噪濾波器、銳化濾波器,等等。
在許多相機系統中,主機處理器(HP)(在某些情況下也被稱為應用處理器(AP))用於利用新參數設置動態配置圖像感測器。HP還用於動態配置ISP管線的參數設置以匹配輸入圖像感測器圖框的設置,以便圖像資料被正確處理。
可以利用各種圖像擷取和圖像處理設置來配置相機。應用不同的設置可能導致具有不同外觀的圖框或圖像。某些相機設置是在照片的擷取之前或期間被決定和應用的,諸如ISO、曝光時間(也被稱為曝光持續時間)、孔徑大小、光圈、快門速度、焦點和增益。其他相機設置可以配置照片的後處理,諸如更改對比度、亮度、飽和度、銳度、色階、曲線或顏色。
試圖在光線不良的場景中(諸如夜間場景、光線不良或不足的室內場景等)擷取圖框或圖像時會存在挑戰。例如,光線不良的場景通常是黑暗的,帶有飽和的明亮區域(如果存在)。光線不良的場景的圖像在本文中被稱為低光圖像。低光圖像典型地是黑暗的、有雜訊的和無顏色的。例如,低光圖像典型地具有黑暗像素,帶有針對場景的明亮區域的過度明亮區域。此外,低光圖像中的訊雜比(SNR)非常低。低光圖像中的雜訊是由低光條件引起的亮度及/或顏色資訊的隨機變化的表現。雜訊的結果是低光圖像看起來有顆粒感。在某些情況下,由於低SNR,必須對低光圖像的信號進行放大。例如,信號放大可能引入更多雜訊和不準確的白平衡。在某些情況下,可以增加相機的曝光持續時間/時間以幫助增加曝光於圖像感測器的光量。然而,由於在快門操作期間更多的光照射到相機感測器,增加的曝光持續時間可能引入運動模糊偽影,從而導致模糊的圖像。
在本文中描述系統、裝置、程序(也被稱為方法)和電腦可讀取媒體(在本文中統稱為「系統和技術」),以用於提供改進的圖像處理技術。在某些情況下,本文描述的系統和技術可以用於提供改進的低光圖框或圖像。然而,這些系統和技術也可以被應用於在其他光線條件下擷取的圖框或圖像。例如,如下文更詳細描述的,該些系統和技術可以用於產生具有準確顏色、高紋理和低雜訊的良好曝光(例如,具有低模糊的適當曝光)和清晰(例如,保留有低雜訊的高紋理水平)的圖框。在某些情況下,系統和技術可以控制偽影,保留擷取的圖框的大部分或所有動態範圍,及/或提供高品質的拍攝到拍攝(shot-to-shot)和處理時間。例如,使用本文描述的系統和技術,可以產生圖框,同時保持可比較的圖框品質和減少的處理時間(與其他圖像擷取系統相比)。在某些示例中,系統和技術可以產生互動式預覽(例如,藉由在新圖框被緩衝及/或處理時漸進地顯示圖框)。
在某些態樣中,系統和技術可以利用現有硬體元件的使用,諸如多圖框降噪(multi-frame noise reduction,MFNR)硬體元件、多圖框高動態範圍(multi-frame High Dynamic Range,MFHDR)硬體元件、大規模多圖框(Massive Multi-Frame,MF)硬體元件、交錯HDR(sHDR)硬體元件(可以是MFHDR的子集)、它們的任意組合,及/或其他硬體元件。在某些態樣中,系統和技術可以使用更長的曝光時間和更高的增益來擷取黑暗圖框。在某些示例中,系統和技術可以使用自適應動態範圍控制(ADRC)及/或多圖框高動態範圍(MFHDR)、sHDR及/或MMF來用於高度飽和(或裁剪(clipped)或溢出(blown))的高光。ADRC 可以用於從單個圖像或圖框中實現高動態範圍(HDR)。例如,ADRC可以使圖框曝光不足以保留高光,並且隨後可以應用稍後的增益來補償陰影和中等色調。在某些態樣中,對於具有高雜訊及/或低紋理的圖框,系統和技術可以使用MFxR、具有較長的曝光持續時間的、以及在某些情況下使用機器學習系統。術語MFxR可以指多圖框降噪(MFNR)及/或多圖框超解析度(Multi-frame Super Resolution,MFSR)。同樣,如本文所用,當討論 MFxR(例如,MFNR、MFSR 等)時,作為 MFxR的附加或替代,可以使用MMF執行相同或類似的技術。在MFNR、MFSR、MMF或其他相關技術中,可以藉由混合兩個或更多個訊框來產生最終圖框。
在某些示例中,對於具有運動模糊的圖框,系統和技術可以根據與一或多個預覽圖框相關聯的運動資訊(例如,場景中的有效運動/移動,使用感測器測量決定的圖像擷取的全域運動,或其組合)來利用圖框計數和曝光持續時間(及/或增益)組合動態決策。例如,使用與一或多個預覽圖框相關聯的運動資訊,系統和技術可以決定要擷取的的圖框的數量(該圖框稍後可以使用MFNR、MMF等來組合),以及擷取該數量的圖框的曝光持續時間。在某些情況下,系統和技術(例如,低光引擎)可以從預覽管線(例如,其產生預覽圖框)獲得各種決策和統計。系統和技術可以輸出用於離線管線(例如,其擷取輸出圖框)的擷取指令。例如,系統和技術可以計算針對運動模糊與SNR之間的最佳平衡的曝光持續時間(例如,最長單圖框曝光持續時間)。在某些情況下,這種情況下的SNR變化對應於要應用的實際感測器增益,其是目標曝光除以曝光持續時間/時間的結果。在某些情況下,系統和技術可以計算多圖框圖框計數(上述圖框的數量)以滿足請求的拍攝到拍攝時間或持續時間。拍攝到拍攝時間可以指兩個連續的使用者發起的圖框擷取之間(例如,在快門或擷取選項的啟動(諸如快門/擷取按鈕的選擇)之間)的持續時間。請求的拍攝到拍攝持續時間可以是圖框計數乘以單圖框曝光持續時間(除預定義的管線延遲之外)的結果。
在某些態樣中,為了找到準確的白平衡,系統和技術可以根據較長曝光的圖框(在本文中也被稱為長曝光圖框)計算自動白平衡(AWB)統計。長曝光圖框是使用比用於擷取某些圖框(例如,在不具有低光條件的場景中,諸如圖2中所示的示例正常光線條件)的標準曝光時間更長的曝光時間來擷取的。在某些情況下,系統和技術可以根據較長曝光的聚合圖框(例如,藉由組合多個較長曝光的圖框)計算AWB統計。在某些示例中,為解決處理延遲,系統和技術可以處理短曝光圖框(例如,使用標準曝光時間擷取的)同時擷取較長曝光圖框(在本文中被稱為長曝光圖框)。在某些示例中,系統和技術可以在擷取完成後在後臺繼續處理短曝光圖框。例如,系統和技術可以收集短曝光及/或長曝光圖框的佇列,並且可以在收集短及/或長曝光圖框的後續集合的同時處理這些圖框。在某些態樣中,系統和技術可以為預覽引擎提供連續「改進的」較長曝光的圖框,同時仍進行擷取。預覽引擎可以輸出圖框作為預覽(例如,在快門按鈕或選項被啟動之前及/或在基於快門按鈕或選項的擷取處理仍在被執行時)。
在某些示例中,諸如為解決量化問題(例如色度汙跡(chroma stain)),系統和技術可以使用相機管線中的MFHDR之後的後圖像處理引擎(後IPE)及/或可以使用機器學習系統。術語「色度汙跡」是用於色度量化的視覺化術語,並且也可以被稱為「色度條帶」或「色度輪廓(chroma  contour)」。色度汙跡可能在圖框具有不足的色彩深度,並且經歷平滑(例如,降噪)和增強顏色的附加程序的情況下發生。色度汙跡的結果可能包括單調(接近灰色)區域上的輪廓或梯級(step)。後IPE是可以用於進一步平滑產生的輪廓的附加的硬體圖像處理引擎(IPE)實例。例如,後IPE可以位於圖框處理及/或擷取指令管線的末尾(例如,當圖框具有其最終色調時)。
在某些示例中,系統和技術可以基於照度(勒克斯)計量來啟動或停用某些低光處理。使用照度計量,可以基於光線條件動態啟用系統和技術。例如,圖框處理及/或擷取指令系統的圖像信號處理器(ISP)或其他處理器可以測量光量。基於光量(例如,低光、正常光、超低光等,諸如圖2所示),ISP可以決定是否啟動本文描述的技術中的一或多個。
在某些示例中,長曝光圖框比短曝光圖框具有顯著更高的光敏度。光敏度也可以被稱為「曝光」、「圖像曝光」或「圖像靈敏度」,並且可以如下被定義:光敏度=增益*曝光時間。曝光時間也可以被稱為曝光持續時間。此外,術語曝光是指曝光持續時間或曝光時間。用於擷取短曝光圖框和長曝光圖框的曝光尺度可能會有所不同。在某些情況下,短曝光和長曝光圖框可以跨越整個可用增益範圍。在某些示例中,可以使用33毫秒(ms)或16.7ms的曝光來擷取短曝光圖框。在某些情況下,短曝光圖框可以被用作支援標準預覽的候選(例如,在設備的顯示器中被預覽,諸如在快門按鈕或選項被啟動之前及/或在基於快門按鈕或選項的擷取處理仍在被執行時)。在某些情況下,用於短曝光圖框的曝光時間可以非常短(例如,0.01 秒),諸如以滿足無閃爍條件,或者如果偵測到直接、無閃爍的光源,則甚至會更短。在某些情況下,要達到用於特定畫面播放速率(例如,由使用者定義的一個)的最大光敏度,用於短曝光圖框的曝光時間可以是1/ frame_rate(圖框_速率)秒。在某些示例中,短曝光圖框的曝光可以在[0.01,0.08]秒的範圍內變化。可以使用高於用於擷取短曝光圖框的曝光的任何曝光來擷取長曝光圖框或圖像。例如,長曝光圖框的曝光可以在[0.33,1]秒的範圍內變化。在一個說明性示例中,例如使用沒有場景中移動的三腳架,長曝光圖框的曝光持續時間可以是大約1秒。在某些情況下,用於長曝光圖框的曝光可以達到更長的持續時間(例如,3秒或其他持續時間),但不比短曝光圖框「更短」。
如本文所使用的,術語短、中、安全和長是指第一設置與第二設置之間的相對特性,並且不一定對應於針對特定設置的定義範圍。也就是說,長曝光(或長曝光持續時間或長曝光圖框或圖像)僅指比第二次曝光(例如,短曝光或中等曝光)長的曝光時間。在另一示例中,短曝光(或短曝光持續時間或短曝光圖框)是指比第二次曝光(例如,長曝光或中等曝光)短的曝光時間。
將參照附圖描述本案的各個態樣。圖1是圖示出圖框擷取和處理系統100的架構的方塊圖。圖框擷取和處理系統100包括用於擷取和處理場景的圖框(例如,場景110的圖框)的各種元件。圖框擷取和處理系統100可以擷取獨立的圖框(或照片)及/或可以擷取包括特定序列中的多個圖框(或視訊圖框)的視訊。系統100的透鏡115面向場景110並接收來自場景110的光。透鏡115將光朝向圖像感測器130彎曲。由透鏡115接收的光穿過由一或多個控制機構120控制的孔徑並由圖像感測器130接收。
一或多個控制機構120可以基於來自圖像感測器130的資訊及/或基於來自圖像處理器150的資訊來控制曝光、焦點及/或變焦。一或多個控制機構120可以包括多個機構和元件;例如,控制機構120可以包括一或多個曝光控制機構125A、一或多個焦點控制機構125B及/或一或多個變焦控制機構125C。一或多個控制機構120還可以包括除了圖示出的那些之外的附加控制機構,諸如控制模擬增益、閃光、HDR、景深及/或其他圖像擷取性質的控制機構。
控制機構120中的焦點控制機構125B可以獲得焦點設置。在某些示例中,焦點控制機構125B將焦點設置儲存在記憶體暫存器中。基於焦點設置,焦點控制機構125B可以相對於圖像感測器130的位置調整透鏡115的位置。例如,基於焦點設置,焦點控制機構125B可以藉由致動馬達或伺服裝置來將透鏡115移動得更靠近圖像感測器130或更遠離圖像感測器130,從而調整焦點。在某些情況下,系統100中可以包括附加透鏡,諸如圖像感測器130的每個光電二極體上的一或多個微透鏡,每個微透鏡將從透鏡115接收的光在光到達光電二極體之前朝向對應的光電二極體彎曲。可以經由對比度偵測自動聚焦(CDAF)、相位偵測自動聚焦(PDAF)或其某種組合而決定焦點設置。可以使用控制機構120、圖像感測器130及/或圖像處理器150來決定焦點設置。焦點設置可以被稱為圖像擷取設置及/或圖像處理設置。
控制機構120中的曝光控制機構125A可以獲得曝光設置。在某些情況下,曝光控制機構125A將曝光設置儲存在記憶體暫存器中。基於此曝光設置,曝光控制機構125A可以控制孔徑的大小(例如,孔徑大小或光圈)、孔徑打開的時間的持續時間(例如,曝光時間或快門速度)、圖像感測器130的靈敏度(例如,ISO速度或膠片速度)、圖像感測器130應用的類比增益或其任何組合。曝光設置可以被稱為圖像擷取設置及/或圖像處理設置。
控制機構120的變焦控制機構125C可以獲得變焦設置。在某些示例中,變焦控制機構125C將變焦設置儲存在記憶體暫存器中。基於變焦設置,變焦控制機構125C可以控制包括透鏡115和一或多個附加透鏡的一組透鏡元件(透鏡組)的焦距。例如,變焦控制機構125C可以藉由致動一或多個馬達或伺服裝置以相對於彼此移動透鏡中的一或多個來控制透鏡組的焦距。變焦設置可以被稱為圖像擷取設置及/或圖像處理設置。在某些示例中,透鏡組可以包括齊焦變焦透鏡或變焦距變焦透鏡。在某些示例中,透鏡組可以包括首先接收來自場景110的光的聚焦透鏡(在某些情況下可以是透鏡115),隨後在光到達圖像感測器130之前,該光穿過聚焦透鏡(例如,透鏡115)與圖像感測器130之間的無焦變焦系統。在某些情況下,無焦變焦系統可以包括具有相等或類似焦距(例如,在閾值差內)的兩個正(例如,會聚、凸)透鏡以及它們之間的負(例如,發散、凹)透鏡。在某些情況下,變焦控制機構125C移動無焦變焦系統中的一或多個透鏡,諸如負透鏡以及正透鏡中的一者或兩者。
圖像感測器130包括一或多個光電二極體陣列或其他光敏元件。每個光電二極體測量最終對應於由圖像感測器130產生的圖像或圖框中的特定像素的光量。在某些情況下,不同的光電二極體可能被不同的濾色器覆蓋,並且因此可以測量匹配覆蓋光電二極體的濾波器的顏色的光。例如,拜耳濾色器包括紅色濾色器、藍色濾色器和綠色濾色器,其中基於來自以紅色濾色器覆蓋的至少一個光電二極體的紅光資料、來自以藍色濾色器覆蓋的至少一個光電二極體的藍光資料以及來自以綠色濾色器覆蓋的至少一個光電二極體的綠光資料產生圖框的每個像素。其他類型的濾色器可以使用黃色、品紅色及/或青色(也被稱為「翠綠色」)濾色器來作為紅色、藍色及/或綠色濾色器的替代或附加。某些圖像感測器可能完全缺少濾色器,而是可以遍及像素陣列而使用不同的光電二極體(在某些情況下垂直堆疊)。遍及像素陣列的不同光電二極體可以具有不同的光譜靈敏度曲線,因此回應不同波長的光。單色圖像感測器也可能缺少濾色器,並且因此缺少色彩深度。
在某些情況下,圖像感測器130可以替代地或附加地包括不透明及/或反射遮罩,其阻止光在某些時間及/或從某些角度到達某些光電二極體或某些光電二極體的部分,其可以用於相位偵測自動聚焦(PDAF)。圖像感測器130還可以包括類比增益放大器以放大光電二極體輸出的類比信號,及/或類比數位轉換器(ADC)以將光電二極體的類比信號輸出(及/或經類比增益放大器放大)轉換為數位信號。在某些情況下,關於控制機構120中的一或多個討論的某些元件或功能可以替代地或附加地被包括在圖像感測器130中。圖像感測器130可以是電荷耦合裝置(CCD)感測器、電子倍增CCD(EMCCD)感測器、主動像素感測器(APS)、互補金屬氧化物半導體(CMOS)、 N型金屬氧化物半導體(NMOS)、混合CCD/CMOS感測器(例如,sCMOS)或它們的某些其他組合。
圖像處理器150可以包括一或多個處理器,諸如一或多個圖像信號處理器(ISP)(包括ISP 154)、一或多個主機處理器(包括主機處理器152)及/或關於計算系統900討論的任何其他類型的處理器910中的一或多個。主機處理器152可以是數位訊號處理器(DSP)及/或其他類型的處理器。在某些實現中,圖像處理器150是包括主機處理器152和ISP 154的單個積體電路或晶片(例如,被稱為片上系統或SoC)。在某些情況下,晶片還可以包括一或多個輸入/輸出埠(例如,輸入/輸出(I/O)埠156)、中央處理單元(CPU)、圖形處理單元(GPU)、寬頻數據機(例如, 3G、4G 或LTE、5G 等)、記憶體、連接元件(例如,藍芽 TM、全球定位系統(GPS)等)、其任意組合、和/ 或其他組件。I/O埠156可以包括根據一或多個協定或規範的任何合適的輸入/輸出埠或介面,諸如積體電路間2(Inter-Integrated Circuit 2,I2C)介面、積體電路間3(Inter-Integrated Circuit 3,I3C)介面、串列周邊介面(SPI)介面、串列通用輸入/輸出(GPIO)介面、行動工業處理器介面(MIPI)(諸如MIPI CSI-2實體(PHY)層埠或介面、進階高效能匯流排(AHB)匯流排、其任意組合、及/或其他輸入/輸出埠。在一個說明性示例中,主機處理器152可以使用I2C埠與圖像感測器130通訊,並且ISP 154可以使用MIPI埠與圖像感測器130通訊。
主機處理器152可以利用新的參數設置(例如,經由諸如I2C、I3C、SPI、GPIO及/或其他介面之類的外部控制介面)來配置圖像感測器130。在一個說明性示例中,主機處理器152可以基於來自過去圖像或圖框的曝光控制演算法的內部處理結果來更新圖像感測器130使用的曝光設置。
主機處理器152還可以動態配置ISP 154的內部管線或模組的參數設置。例如,主機處理器152可以將ISP 154的管線或模組配置為匹配來自圖像感測器130的一或多個輸入圖框的設置,使得圖像或圖框資料被ISP 154正確處理。ISP 154的處理(或管線)區塊或模組可以包括用於透鏡(或感測器)雜訊校正、去馬賽克、顏色空間轉換、顏色校正、圖框屬性的增強及/或抑制、去噪(例如,使用去噪濾波器)、銳化(例如,使用銳化濾波器)等等的模組。基於配置的設置,ISP 154可以執行一或多個圖像處理任務,諸如雜訊校正、去馬賽克、顏色空間轉換、圖框下採樣、像素內插、自動曝光(AE)控制、自動增益控制(AGC)、CDAF、PDAF、自動白平衡(AWB)、合併圖框以形成HDR圖框或圖像、圖像辨識、物件辨識、特徵辨識、接收輸入、管理輸出、管理記憶體、或其任意組合。
圖像處理器150可以將圖框及/或經處理的圖框儲存在隨機存取記憶體(RAM)140/920、唯讀記憶體(ROM)145/925、快取記憶體912、記憶體單元(例如,系統記憶體915)、另一儲存裝置930、或其某種組合中。
各種輸入/輸出(I/O)設備160可以連接到圖像處理器150。I/O設備160可以包括顯示器螢幕、鍵盤、小鍵盤、觸控式螢幕、觸控板、觸敏表面、印表機、任何其他輸出設備935、任何其他輸入裝置945、或它們的某種組合。I/O 160可以包括一或多個埠、插孔或其他連接器,這些連接器實現系統100與一或多個周邊設備之間的有線連接,系統100可以藉由這些連接器從一或多個周邊設備接收資料及/或向一或多個周邊設備發送資料。I/O 160可以包括一或多個無線收發器,這些無線收發器實現系統100與一或多個周邊設備之間的無線連接,系統100可以藉由這些無線收發器從一或多個周邊設備接收資料及/或向一或多個周邊設備發送資料。周邊設備可以包括先前討論的類型的I/O設備160中的任一個,並且一旦它們耦合到埠、插孔、無線收發器或其他有線及/或無線連接器,它們自身便可以被視為I/O設備160。
在某些情況下,圖框擷取和處理系統100可以是單個設備。在某些情況下,圖框擷取和處理系統100可以是兩個或更多個單獨的設備,包括圖像擷取裝置105A(例如,相機)和圖像處理設備105B(例如,耦合到相機的計算設備)。在某些實現中,圖像擷取裝置105A和圖像處理設備105B可以例如經由一或多個電線、電纜或其他電連接器耦合在一起,及/或經由一或多個無線收發器而無線地耦合在一起。在某些實現中,圖像擷取裝置105A和圖像處理設備105B可以彼此不連接。
如圖1所示,垂直虛線將圖1的圖框擷取和處理系統100劃分為分別表示圖像擷取裝置105A和圖像處理設備105B的兩個部分。圖像擷取裝置105A包括透鏡115、控制機構120和圖像感測器130。圖像處理設備105B包括圖像處理器150(包括ISP 154和主機處理器152)、RAM 140、ROM 145和I/O 160。在某些情況下,圖像擷取裝置105A中所示的某些組件,諸如ISP 154及/或主機處理器152,可以被包括在圖像擷取裝置105A中。
圖框擷取和處理系統100可以包括電子設備,諸如行動或固定電話手持設備(例如,智慧型電話、蜂巢式電話等)、桌上型電腦、膝上型或筆記型電腦、平板電腦、機上盒、電視、相機、顯示裝置、數位媒體播放機、視訊遊戲控制台、視訊資料串流設備、網際網路協定(IP)相機或任何其他合適的電子設備。在某些示例中,圖框擷取和處理系統100可以包括用於無線通訊的一或多個無線收發器,諸如蜂巢網路通訊、802.11 Wi-Fi通訊、無線區域網路(WLAN)通訊或其某種組合。在某些實現中,圖像擷取裝置105A和圖像處理設備105B可以是不同的設備。例如,圖像擷取裝置105A可以包括相機設備並且圖像處理設備105B可以包括計算設備,諸如行動手持設備、桌上型電腦或其他計算設備。
雖然圖框擷取和處理系統100被示為包括某些元件,但一般技藝人士將理解,圖框擷取和處理系統100可以包括比圖1中所示的元件更多的元件。圖框擷取和處理系統100的元件可以包括軟體、硬體或者軟體和硬體的一或多個組合。例如,在某些實現中,圖框擷取和處理系統100的元件可以包括電子電路或其他電子硬體及/或可以使用電子電路或其他電子硬體來實現,這些電子電路或其他電子硬體可以包括一或多個可程式化電子電路(例如,微處理器、GPU、DSP、CPU、及/或其他合適的電子電路),及/或可以包括電腦軟體、韌體或它們的任何組合及/或使用電腦軟體、韌體或它們的任何組合來實現,以執行本文描述的各種操作。軟體及/或韌體可以包括一或多個指令,其被儲存在電腦可讀取儲存媒體上並且可由實現圖框擷取和處理系統100的電子設備的一或多個處理器執行。
圖2是圖示出用於不同示例場景的各種勒克斯值的圖。雖然圖2的示例是使用勒克斯單位被示出的,但光線可以用其他單位來測量,諸如高ISO(表示感測器對光的靈敏度)。大體上,勒克斯條件可以對應於低光、正常光、亮光等。圖2中所示的勒克斯條件是用於區分勒克斯值的相對術語。例如,如本文所使用的,正常光範圍是指比低光範圍相對更高的勒克斯範圍,而超低光範圍是指比範圍相對更低的勒克斯範圍。在某些情況下,可以基於上下文重新指派示例勒克斯值。例如,可以由相對描述符重新指派勒克斯範圍,這取決於圖框處理及/或擷取指令系統能力(例如,感測器像素大小及/或靈敏度等)及/或用例(例如,基於場景條件等)。
參考圖2,正常光條件可以對應於50、150、300、1000、10000、30000的勒克斯值。例如,30000的勒克斯值可能出現在包括被直射陽光照亮的人行道的場景中,而1000的勒克斯值可能出現在陰天的包括人行道的場景中。低光(LL)條件可以對應於10和20的勒克斯值。超低光(ULL)條件可以對應於0.1、0.3、0.6、1 和 3 的勒克斯值。雖然示例勒克斯值在圖2中被示出為對應於各種光線條件,但圖2中所示的那些值以外的值也可以對應於各種光線條件。圖3是在超低光條件(例如,勒克斯值為3)期間擷取的圖像300(或圖框)。如圖所示,圖像300是黑暗的,其中船用黑暗像素來圖示,並且圖像300的明亮部分對應於燈柱上的燈光。
圖4是圖示出圖框處理及/或擷取指令系統400的示例的方塊圖。圖4的圖框處理及/或擷取指令系統400的元件中的一或多個可以類似於圖1的圖框擷取和處理系統100的類似元件並且執行與這些類似元件類似的操作。例如,感測器430可以類似於圖框擷取和處理系統100的感測器130並且執行與感測器130類似的操作。如圖所示,零快門滯後(zero shutter lag,ZSL)緩衝器432可以用於儲存由感測器430擷取的圖像或圖框。在某些示例中,ZSL緩衝器432是環形緩衝器。大體上,ZSL緩衝器432可以用於儲存感測器最近擷取的一或多個圖框,其可以補償可能發生的滯後時間,直到圖框處理及/或擷取指令系統400完成回應於接收到快門(或擷取)命令(例如,基於使用者輸入或自動接收)對圖框進行編碼和儲存。
一旦圖框處理及/或擷取指令系統400處理快門命令,圖框處理及/或擷取指令系統400就可以選擇緩衝的圖框中的一個並且可以進一步處理所選擇的圖框以用於儲存、顯示、發送等。如圖所示,ZSL圖框是利用相對短的曝光擷取的,並且被稱為短曝光圖框434(在圖4中被稱為「短曝光」圖框或圖像)。短曝光圖框434被輸出到第一MFxR引擎436(例如,可以執行MFNR及/或MFSR的引擎)。第一MFxR引擎436基於短曝光圖框產生混合圖框438。混合圖框438被輸出到多圖框高動態範圍(MFHDR)引擎440。MFHDR引擎440可以接收以不同光敏度或曝光參數(例如,曝光時間及/或增益)擷取的相同場景的多個圖框或圖像作為輸入,諸如使用相對短的曝光(例如, 33 ms)的一或多個圖框、使用相對中等曝光(例如,100 ms)擷取的一或多個圖框,以及使用相對長的曝光(例如,500 ms)擷取的一或多個圖框。如前述,使用長曝光擷取的圖框可以被稱為長曝光圖框或圖像。在某些示例中,作為曝光持續時間的附加或替代,可以針對短曝光、中等曝光和長曝光圖框或圖像調整感測器增益。MFHDR引擎可以將多個圖框或圖像組合成單個更高動態範圍(HDR)圖框。MFHDR引擎440可以向後IPE 442輸出HDR 圖框。在某些示例中,MFHDR引擎440可以應用色調映射來使圖框的不同部分達到期望的亮度水平。在某些示例中,每個MFHDR輸入是單獨的MFNR輸出(例如,長和短輸入/輸出)。後IPE 442可以對來自MFHDR引擎440的HDR圖框執行附加的圖像處理操作以產生最終輸出圖框或圖像。由後IPE 442執行的附加圖像處理操作可以包括例如伽瑪、銳化、顏色精細觸摸(color fine touches)、放大(upscale)、顆粒(grain)等。
感測器430還在PSL擷取444期間輸出正快門滯後(PSL)圖框或圖像。如前述,與ZSL圖框相比,PSL圖框是以相對較長的曝光時間(及/或對應的增益)被擷取的並且被稱為長曝光圖框446(在圖4中被稱為「長曝光」圖框或圖像)。將來自長曝光圖框446的AWB統計448提供給第一AWB引擎450(被示為「AWB 1」)。第一AWB引擎450可以產生白平衡(WB)定標器(scaler)451,並且可以向第一MFxR引擎436及/或第二MFxR引擎452(例如,可以執行MFNR及/或MFSR的引擎)輸出WB定標器451。在某些示例中,WB定標器451可以包括解決紅色、綠色和藍色增益尺度的三個係數,這些係數可以被應用於在特定觀察者下實現無色的灰色顏色。在一個說明性示例中,WB定標器451可以包括用於紅色(R)的系數值1.9、用於綠色(G)的系數值1.0和用於藍色(B)的系數值1.6。長曝光圖框446也被輸出到第二MFxR引擎452。在某些情況下,可以使用相同的處理技術由相同的硬體實現第一MFxR引擎436和第二MFxR引擎452,但是與第二MFxR引擎相比,在實現第一MFxR引擎時,硬體可以具有不同的調諧設置。如圖4所示,第二MFxR引擎452可以在圖框處理及/或擷取指令系統400或者包括圖框處理及/或擷取指令系統400的設備的顯示器上輸出長曝光圖框446作為預覽圖框454(例如,在接收到快門或擷取命令之前及/或在基於快門命令的擷取處理仍在被執行時被顯示)。在某些示例中,第二MFxR引擎452可以基於長曝光圖框446(例如,藉由融合或混合長曝光圖框)產生混合圖框456。混合圖框456被輸出到MFHDR引擎440並且還被輸出到可以提取AWB統計的低光(LL)引擎458。將AWB統計輸出到第二AWB引擎460(被示為「AWB 2」)。在某些情況下,可以使用相同的處理技術由相同的硬體實現第一AWB引擎450和第二AWB引擎460,但是與第二AWB引擎相比,在實現第一AWB引擎時,硬體可以具有不同的調諧設置。第二AWB引擎460可以產生WB定標器461,並且可以向MFHDR引擎440輸出WB定標器461。如前述,MFHDR引擎440向後IPE 442輸出組合圖框(例如,HDR圖框)。
如圖4所示,圖框處理及/或擷取指令系統可以執行低光(LL)決策462以決定圖框(或圖像)的數量以及用於圖像/圖框中的每一個的曝光時間(及/或對應增益)。下文關於圖12-圖17B描述了關於決定圖框的數量和曝光時間(及/或增益)的進一步細節。在某些示例中,LL引擎458可以做出LL決策462。基於LL決策462,自動曝光控制(AEC)引擎464可以執行AEC以決定用於感測器430的曝光參數(例如,曝光持續時間、增益等)。例如,AEC引擎464可以基於LL決策462發送(向感測器430)要擷取的圖框的數量以及用於該數量的圖框的曝光時間(及/或感測器增益)的指示。
圖5是圖示出由圖框處理及/或擷取指令系統400執行的不同程序的時序的示例的時序圖500。例如,時序圖圖示了低光(LL)模式、快門被啟動的時間(例如,被按下或以其他方式選擇,對應於快門或擷取命令的接收)、拍攝到拍攝時間以及總程序時間。拍攝到拍攝時間指兩個連續的使用者發起的圖像擷取之間(例如,在快門或擷取選項的啟動,諸如快門/擷取按鈕的選擇之間)的持續時間。如圖所示,ZSL圖框502(例如,具有短AEC)是在按下快門之前被擷取的。在某些情況下,AEC是控制曝光、增益等的父演算法。AEC還具有感測器介面。在某些示例中,AEC具有三個計量:短、安全、長。短導致高光被保留,安全導致平衡曝光,而長優先考慮黑暗區域。ZSL圖框502是預覽圖像,並且可以被用作如前述的短曝光圖框(例如,以保留高光)。相應地,可以根據短AEC計量來擷取ZSL圖框502。一旦按下快門,就擷取PSL圖框504,之後應用短多圖框降噪(MFNR)506以及長MFNR和預覽508。藉由執行WB改善510來改善白平衡(WB),隨後可以應用MFHDR和後處理512。
圖6-圖11是圖示出根據圖5的時序圖500的圖4的圖框處理及/或擷取指令系統400的實現的示例的圖。圖6圖示了在圖5所示的時序圖500的LL模式時序期間圖框處理及/或擷取指令系統400的使用。如前述,LL模式包括短AEC和ZSL(在快門被啟動之前)。在某些情況下,LL模式(短AEC設置和ZSL擷取)可以作為圖框處理及/或擷取指令程序的第一步而被執行。AEC引擎464可以基於LL決策462(例如,藉由LL引擎458)來設置ZSL。例如,AEC引擎464可以決定快門優先順序(例如,允許使用特定快門速度(對應於曝光時間)的設置,之後AEC引擎464將計算增益以補充快門速度/曝光時間),諸如根據使用者配置或自動設置(例如,在有效的ZSL範圍內,諸如[1/7 - 1/15]秒之間),以便設置用於擷取短曝光圖框434(也被稱為ZSL圖框或圖像)的曝光(使用短AEC)。在某些情況下,快門速度可以指感測器曝光時間或有效感測器讀出時間(例如,對於不包括物理快門的設備)。AEC引擎464可以從具有輕微過度曝光的AEC「短」度量中選擇增益。AEC引擎464可以基於決定的AEC設置來決定圖框集合。例如,可以針對增益改變決定更大的圖框間隔(例如,具有相同增益的[3 - 8]圖框的序列)。在某些情況下,圖框處理及/或擷取指令系統400可以決定是否要使用MFHDR(例如,MFHDR引擎440是使用MFHDR模式還是非MFHDR模式)來處理短曝光圖框434(例如,基於動態範圍計算)。在某些示例中,圖框處理及/或擷取指令系統400可以進一步計算用於短曝光圖框434的動態範圍。例如,動態範圍可以根據AEC「長」與「短」的比率來決定。在一個說明性示例中,為了決定期望模式(例如,是使用MFHDR還是非MFHDR)和某些附加配置,圖框處理及/或擷取指令系統400可以決定場景中動態範圍的「量」,諸如藉由計算來自AEC的極端計量的比率(例如,短與長計量之間)。如果圖框處理及/或擷取指令系統400決定要使用MFHDR模式,則可以使用自適應動態範圍控制(ADRC)來處理短曝光圖框434。感測器430可以基於曝光設置來擷取短曝光圖框434。短曝光圖框434隨後可以被儲存在ZSL緩衝器432中。在某些情況下,具有相同增益的先前原始圖框(或圖像)可以被儲存在ZSL緩衝器432中。在某些情況下,具有類似增益或類似靈敏度的先前原始圖框(或圖像)可以被儲存在ZSL緩衝器432中。
圖7圖示了在圖5所示的時序圖500的PSL擷取時序期間圖框處理及/或擷取指令系統400的使用。如前述和如圖5所示,PSL擷取可以回應於接收到快門或擷取命令而發生。在某些情況下,PSL擷取可以作為圖框處理及/或擷取指令程序的第二步而被執行。對於PSL擷取,圖框處理及/或擷取指令系統400可以測量場景運動或移動(例如,與正被擷取的圖框的場景中的一或多個物件的移動相對應的局部運動)。在某些示例中,LL引擎458或圖框處理及/或擷取指令系統400的其他元件可以使用收集的感測器測量(例如,來自一或多個慣性測量單元(IMU),諸如陀螺測試儀或陀螺儀、加速度計、它們的任何組合及/或其他IMU)及/或預覽運動分析統計,以決定與設備或設備的相機的移動相對應的全域運動。例如,IMU提供機械地估計相機運動的手段,其可由圖框處理及/或擷取指令系統400使用以決定在拍攝圖框(例如,圖像或圖片)時存在多少信號干擾。例如,圖框處理及/或擷取指令系統400可以相對於光學圖像穩定器(OIS)而分析IMU取樣(例如,陀螺測試儀或陀螺儀取樣、加速度計取樣等)。在某些示例中,為了決定是否使用了三腳架,圖框處理及/或擷取指令系統400可以利用視訊分析三腳架偵測機構而交叉參考(cross-reference)IMU測量。
在某些示例中,圖框處理及/或擷取指令系統400可以決定與一或多個預覽圖框(例如,在圖5中所示的時序圖500的LL模式時序期間或此後不久在感測器延遲時段擷取的ZSL圖框)相關聯的局部運動的量。為了決定局部運動的量,圖框處理及/或擷取指令系統400可以分析時間濾波器指示(TFI),其在本文中可以被稱為運動圖。例如,TFI(或運動圖)可以被包括為伴隨每個圖框(例如,伴隨一或多個預覽圖框中的每一個)的中繼資料,諸如用於第一圖框的第一TFI中繼資料、用於第二圖框的第二TFI中繼資料,等等。在某些情況下,TFI 包括圖像(被稱為TFI圖像或運動圖圖像)。在某些示例中,TFI圖像可以與關聯於TFI圖像的圖框(例如,TFI圖像被包括為中繼資料的圖框)具有相同的解析度(在水平方向和垂直方向具有相同數量的像素)。在某些示例中,與關聯於TFI圖像的圖框相比,TFI圖像可以具有較低的解析度(在水平方向及/或垂直方向具有較少的像素)。例如,TFI圖像的每個像素可以包括指示針對關聯於TFI圖像的圖框的每個對應像素的運動量的值。在某些情況下,TFI的每個像素可以包括指示與指示運動量的值相關聯的置信度的置信值。在某些情況下,TFI可以表示預覽期間全域運動補償之後無法進行時間混合的圖像區域,並且可以指示場景中的局部運動分量。
在某些示例中,作為TFI圖像的附加或替代,可以使用半全域匹配(SGM)圖像。SGM是執行全域補償之後的殘餘運動向量圖(指示局部2D及/或3D運動)。SGM可以被用作局部運動指示符,類似於上文關於TFI圖像描述的那樣。例如,可以在校正全域對準(例如,使用OIS)之後獲得SGM(例如,作為輸入)。
使用來自TFI及/或SGM圖像的資訊,圖框處理及/或擷取指令系統400可以預測圖框擷取期間的局部運動。如本文更詳細地描述的,可以決定全域運動(例如,基於感測器測量,諸如陀螺儀測量)和局部運動(例如,由TFI指示)的組合——被稱為最終運動指示(FMI)。
AEC引擎464可以設置用於擷取長曝光圖框的長AEC。例如,LL引擎458可以向AEC引擎464提供曝光和增益的新組合(例如,在三腳架上,單次曝光可以達到1秒)。LL引擎458還可以決定長圖框的數量。在某些情況下,如本文所述,LL引擎458可以基於局部運動(例如,由TFI指示)、全域運動或FMI來決定曝光和長圖框的數量。感測器430隨後可以擷取PSL圖像或圖框(長曝光圖框446)。在某些示例中,在擷取PSL圖框時可以擷取附加的ZSL圖框(短曝光圖框)。附加的ZSL圖框可以被儲存在ZSL緩衝器432中。在某些情況下,第一AWB引擎450可以根據感測器430擷取的第一PSL圖框計算AWB。第一AWB引擎450可以向第一MFxR引擎436及/或第二MFxR引擎452輸出WB定標器451。在擷取第一PSL圖框之後,圖框處理及/或擷取指令系統400可以開始擷取程序的下一部分(例如,圖框處理及/或擷取指令程序的第三步,諸如參考圖8描述的MFNR)。
圖8圖示了在圖5所示的時序圖500的短MFNR期間圖框處理及/或擷取指令系統400的使用。例如,在PSL擷取期間,第一MFxR引擎436可以對短曝光圖框執行MFNR。在某些情況下,短MFNR可以作為圖框處理及/或擷取指令程序的第三步而被執行。在某些示例中,第一MFxR引擎436可以使用來自圖框處理及/或擷取指令程序的第二步的計算的WB(例如,來自第一PSL圖框的AWB)。如前述,圖框處理及/或擷取指令系統400可以決定是否需要MFHDR模式來處理ZSL圖框(例如,短曝光圖框434)。如果圖框處理及/或擷取指令系統400決定要使用MFHDR模式,則第一MFxR引擎436可以決定不對短曝光圖框執行MFNR。
圖9圖示了在圖5所示的時序圖500的長MFNR和預覽508部分期間圖框處理及/或擷取指令系統400的使用。例如,第二MFxR引擎可以對長曝光圖框執行MFNR,並且可以輸出圖框以供預覽。在某些情況下,長MFNR和預覽可以作為圖框處理及/或擷取指令程序的第四步而被執行。為了使用MFNR處理長圖框,第二MFxR引擎452可以使用來自圖框處理及/或擷取指令程序的第二步的計算的WB(例如,來自第一PSL圖框的AWB)。在某些示例中,如果圖框處理及/或擷取指令系統400決定將使用非MFHDR模式(當不需要MFHDR時),則第二MFxR引擎452可以使用除局部色調映射(LTM)之外的全域色調映射(GTM)。在某些情況下,GTM根據像素的亮度值為每個像素應用增益。在某些情況下,LTM根據區域亮度應用不同的增益值。第二MFxR引擎452可以利用定位處理分段(Position Processing Segment,PPS)(例如,在處理管線中局部色調映射、銳化、顏色校正、放大等被執行的位置)繼續處理每個聚合圖框或圖像。在某些情況下,聚合圖框可以是多個融合圖框被組合成單個圖像或圖框的結果(例如,基於MFNR及/或MFHDR程序的應用)。在某些示例中,除IPE_TF_FULL_OUT(MFNR NPS out)之外,第二MFxR引擎452可以針對IPE_DISP_OUT結果繼續執行PPS。在某些情況下,長曝光圖框446中的每一個可以具有稍強的LTM(例如,增亮效果)。如前述,第二MFxR引擎452可以發送每個PPS結果以作為預覽圖框454顯示。在某些情況下,在所有PSL圖框(長曝光圖框446)已經完成被圖框處理及/或擷取指令系統400擷取之後,預覽將返回到ZSL緩衝器432。
圖10圖示了在圖5所示的時序圖500的改善WB 510部分期間圖框處理及/或擷取指令系統400的使用。改善WB 510可以包括對長曝光圖框446的WB的改善以建立更好的AWB統計。在某些情況下,WB的改善可以作為圖框處理及/或擷取指令程序的第五步而被執行。為了為長曝光圖框446建立更好的AWB統計,LL引擎458可以對長MFNR結果(例如,來自MFxR引擎452的混合圖框456)執行「逆ISP」以產生改進的AWB統計。例如,為了在某些情況下重新計算WB係數,圖框必須是AWB相容圖像。在某些情況下,逆ISP函數可以包括對原始圖框或圖像執行的操作的逆轉,其導致線性圖框或圖像(例如,線性RGB圖框或圖像)。所得的線性圖框可以用於重新產生關於改進的SNR圖框的統計。逆ISP可以導致針對之後所有調整的更好的統計。使用用於長曝光圖框的改善/改進的AWB統計,第二AWB引擎460可以計算改善的WB定標器(例如,作為WB定標器461的一部分)。在某些示例中,LL引擎458可以計算改善的WB定標器。
圖11圖示了在圖5所示的時序圖500的MFHDR和後處理512部分期間圖框處理及/或擷取指令系統400的使用。在某些情況下,MFHDR和後處理512可以作為圖框處理及/或擷取指令程序的第六步而被執行。例如,MFHDR引擎440可以使用來自第二AWB引擎460的改善的WB定標器461(例如,在圖框處理及/或擷取指令程序的第五步期間被決定)。在某些示例中,如果圖框處理及/或擷取指令系統400決定要使用非MFHDR模式(不需要MFHDR),則圖框處理及/或擷取指令系統400可以向後IPE輸出僅PPS圖框。在某些示例中,後IPE可以用於平滑「色度汙跡」。在某些示例中,後IPE包括機器學習系統(例如,一或多個神經網路系統)。例如,基於機器學習的圖像信號處理器可以被用作後IPE以進行整體的圖框或圖像改善。
如前述,在某些實現中,圖框處理及/或擷取指令系統(例如,LL引擎)可以決定場景運動(也被稱為場景中運動或局部運動),諸如基於圖框或圖像(例如,預覽或者短曝光圖框或圖像)正被擷取的場景中的一或多個物件的移動。在某些情況下,如前述,圖框處理及/或擷取指令系統的LL引擎或其他元件可以使用收集的感測器測量(例如,來自慣性測量單元(IMU),諸如陀螺儀或陀螺測試儀、加速度計及/或其他IMU)及/或預覽CVP運動分析統計來評估運動。在某些情況下,運動感知演算法可以用於增強本文所述的圖框處理及/或擷取指令系統和程序的執行。運動感知演算法可以最佳化雜訊到運動模糊到拍攝到拍攝時間。在某些情況下,運動感知演算法可以執行全域運動分析(例如,基於相機的移動)及/或局部運動分析(例如,基於場景中物件的移動)以決定運動的指示。局部運動分析可以基於時間濾波器指示(TFI)。在某些情況下,TFI可以是具有針對每個像素的像素值的圖像,該像素值指示每個像素的運動量(例如,每個像素是否有運動及/或有多少運動)。在某些情況下,如前述,TFI的每個像素可以包括指示與指示運動量的值相關聯的置信度的置信值。在某些情況下,TFI也可以被稱為運動圖。在某些情況下,TFI可以作為產生運動向量圖的本地相機流的部分而被提供,其可以由圖框處理及/或擷取指令系統(例如,由LL引擎)使用。在某些情況下,TFI可以包括指示每個像素的運動量(例如,在水平方向和垂直方向上)的稀疏運動向量(例如,未失真的、未穩定的或穩定的)、具有每個像素的運動向量的密集運動圖(例如,未失真的、未穩定的),及/或失真校正網格。在某些示例中,(給定TFI的)局部運動指示可以基於重影偵測,諸如藉由對在時間過濾程序期間偵測到的重影量求平均。在某些示例中,(給定TFI的)局部運動指示可以基於殘餘密集運動圖平均及/或顯著運動向量的計數。
基於對全域運動的分析,圖框處理及/或擷取指令系統可以補償全域運動(例如,使用圖像穩定技術來減少,諸如藉由使用光學圖像穩定器(OIS))。在某些情況下,圖框處理及/或擷取指令系統可以分析由TFI指示的局部運動(作為全域運動的附加或替代),諸如以決定是否需要減少運動模糊(例如,如果局部運動高於運動閾值)。基於局部及/或全域運動分析,運動感知演算法可以最佳化曝光參數(例如,曝光持續時間及/或增益),一或多個3A設置,諸如自動白平衡(AWB)、自動曝光控制(AEC)和自動聚焦,及/或其他參數。運動感知演算法可以用於低光條件、超低光條件、正常光條件及/或其他光線條件。在某些情況下,如前述,可選的機器學習系統可以用於紋理和雜訊改進。
圖12是繪製運動相對於曝光時間和圖框計數的圖形1200的圖示。圖形1200的x軸繪製了運動量。線1202表示曝光,而線1204表示圖框計數。圖形1200中的值(或其他值)可以用於基於由TFI指示的運動(局部運動)、全域運動、或使用全域運動和局部運動(基於 TFI)決定的組合運動來決定長曝光時間和圖框計數(例如,用於向MFNR、MMF等輸入)。如果運動被決定為低(例如,偵測到少量運動,諸如運動小於運動閾值),則圖框計數將較低且將增加曝光(例如,曝光時間、孔徑等)。隨著偵測到更多的運動(例如,運動量大於運動閾值),對應於圖形1200中從左到右的移動,可以用於實現合適的運動模糊結果的曝光(例如,曝光時間、孔徑等)被減小直到達到最小曝光限制。在某些情況下,基於所決定的運動,作為曝光(例如,曝光時間、孔徑等)的附加或替代,可以調整增益。在某些情況下,最小曝光限制可以等於用於預覽圖像/圖框的長曝光時間(例如,因為圖框處理及/或擷取指令系統可能不會對小於用於短曝光/預覽/顯示圖框的曝光的圖框或圖像進行曝光)。此外,隨著決定更多的運動,圖框計數(對應於擷取的圖框的數量增加)增加,以便補償由於曝光減少(這導致增益增加)而導致的圖框亮度。
在某些情況下,圖形1200的x軸上圖示的運動可以對應於局部運動和全域運動兩者(例如,局部運動和全域運動的組合)。例如,圖框處理及/或擷取指令系統可以單獨地計算全域運動和局部運動,並且可以將權重應用於局部運動和全域運動(例如,使用用於局部運動值的第一權重和用於全域運動值的第二權重)以產生最終運動指示。圖框處理及/或擷取指令系統可以使用最終運動指示來決定減少或增加多少曝光(例如,曝光時間、孔徑等)及/或增益,以及減少或增加多少圖框計數(例如,用於向MFNR、MMF等輸出)。
在某些示例中,圖框處理及/或擷取指令系統可以決定在[0,1]範圍內的全域運動(被稱為全域運動指示或GMI)。在此類示例中,值0可以指示像素沒有運動,值1可以指示像素的最大運動。圖框處理及/或擷取指令系統可以決定[0,1]範圍內的局部運動(被稱為局部運動指示或LMI),其中值0指示沒有運動,而值1指示最大運動. 在某些情況下,LMI 可以藉由以下來計算:在一定程度上裁剪TFI圖像(例如,以減少來自全域運動的影響)、對裁剪的圖求平均、對值進行正規化、以及應用指數來反映靈敏度。[0,1]範圍內的LMI權重(被稱為 LMI_weight)表示圖框處理及/或擷取指令系統對LMI的靈敏程度。一個示例LMI權重值為值0.4。可以基於局部運動(在TFI中)和全域運動來決定最終運動指示(FMI)。在一個說明性示例中,FMI可以被決定為lin_blend(GMI, GMI*LMI, LMI_weight)^2,其中lin_blend是線性混合操作。在另一說明性示例中,FMI可以被決定為lin_blend(GMI, GMI*LMI, LMI_weight),類似於沒有非線性回應(^2)的先前示例。
圖13是圖示出圖像1302(或圖框)和TFI圖像1304的圖。圖13所示的運動是局部運動(也被稱為場景中運動)。在圖像1302中,人正在揮手。TFI圖像1304包括用於圖像1302的沒有運動的部分的白色像素和用於圖像1302的具有運動的部分的黑色像素。黑色像素對應於正在移動的使用者的部分(右手)和背景中的部分雲彩。圖框處理及/或擷取指令系統可以決定在TFI圖像1304中指示的運動(或由基於TFI圖像1304的局部運動和全域運動的FMI指示的運動)是否大於運動閾值。用於運動閾值的示例值為0.3,指示對運動的線性靈敏度。例如,如果TFI(或FMI)指示的運動為0.4,則該運動大於0.3的運動閾值。如果圖框處理及/或擷取指令系統決定運動小於運動閾值,則用於擷取長曝光圖框或圖像的曝光時間和圖框的數量可以不改變。參考圖12,當決定運動小於運動閾值時,圖框處理及/或擷取指令系統可以決定運動值為0。如果圖框處理及/或擷取指令系統決定運動大於運動閾值,則圖框處理及/或擷取指令系統可以減少曝光(例如,曝光時間、孔徑等)及/或增加圖框計數(因此增加擷取的長曝光圖框的數量)。參考圖12,當決定運動大於運動閾值時,圖框處理及/或擷取指令系統可以基於運動的特定量來決定運動值為0.4。
圖14A是圖示出圖框處理及/或擷取指令系統1400的示例的圖。圖14的圖框處理及/或擷取指令系統1400的元件中的一或多個元件可以類似於圖1的圖框擷取和處理系統100及/或圖4的圖框處理及/或擷取指令系統400的類似組件並且執行與這些類似組件類似的操作。如圖14A所示,向低光(LL)引擎1458的輸入1401可以包括運動感測器資料(例如,來自陀螺測試儀或陀螺儀、加速度計、IMU及/或其他感測器)、零快門滯後(ZSL)圖框(顯示的並且可以即時進入LL引擎1458的預覽/顯示圖框)、基於ZSL圖框的AEC決策(例如,包括曝光設置)、以及顯示TFI統計。在某些情況下,針對每個圖框的長條圖也可以被提供給LL引擎1458。不知道的是當擷取圖框時使用者將如何握持設備以及使用者的定位。然而,可以假設,如果使用者在剛好在選擇快門或擷取選項(例如,按下快門按鈕或其他選項)之前在第一點以某種方式握持設備,那麼使用者在選擇擷取選項時可能會以類似的方式握持設備。基於此類假設,LL引擎1458可以產生新命令並且可以向AEC引擎1464輸出該新命令。新命令可以包括圖框的數量、長曝光值(對應於用於擷取長曝光圖框的曝光持續時間)和長DRC增益。圖框的數量、長曝光值和長DRC增益可以基於圖12所示的值或基於運動的其他類似值來決定。AEC引擎1464可以執行AEC並且可以向圖像感測器(例如,感測器430)輸出AEC資訊以用於擷取長曝光圖框。
長曝光圖框可以被儲存在長圖框緩衝器1410(在圖14A中被稱為「緩衝器 長」)中。長圖框緩衝器1410可以包括單個緩衝器或多個長圖框緩衝器。長圖框緩衝器1410可以被認為是離線緩衝器,因為在預覽「即時」管線期間沒有擷取長曝光圖框(PSL圖框)。如上面關於圖7所指出的,在接收到擷取命令之後,擷取被儲存在長圖框緩衝器1410中的長曝光圖像或圖框。例如,假設LL引擎1458指令AEC引擎1464應用特定曝光持續時間、特定增益和特定數量的圖框(例如,10圖框),一旦接收到擷取命令(例如,基於使用者選擇擷取選項),圖像感測器將擷取具有特定曝光和增益的特定數量的長曝光圖框。
類似於上文描述的並且如圖14A所示,長圖框緩衝器1410中的第一圖框1411(或圖像)可以被輸出到自動白平衡(AWB)引擎1408以用於AWB計算。在傳統系統中,用於AWB計算的圖框是來自預覽的圖框(ZSL圖框)。然而,預覽圖框不如長圖框緩衝器1410中的長曝光圖框。例如,與長曝光圖框相比,預覽圖框是使用更短的曝光時間擷取的,並且長曝光圖框藉由降低增益來補償由增加的曝光引入的亮度。結果,藉由將長曝光圖框用於AWB計算,與AWB引擎1408將預覽圖框用於AWB時相比,SNR、用於AWB的統計以及輸出圖框或圖像中的顏色更好。在某些情況下,當在低光環境中將長曝光圖框用於AWB時,可以增加改進(例如,基於更高的SNR)。使用第一長曝光圖框1411,AWB引擎1408執行AWB計算並產生新的AWB控制參數1412。AWB控制參數1412隨後可以用於應用自動白平衡。如圖14A所示,AWB控制參數1412被輸出到第一多圖框降噪(MFNR)引擎1402。
來自長圖框緩衝器1410的長曝光圖框和AWB控制參數1412被輸出到第一MFNR引擎1402。第一MFNR引擎1402可以用於對長曝光圖框進行時間混合或過濾(以過濾時間域中的來自長曝光圖框的時間雜訊),但可能不執行長曝光圖框的空間混合以過濾空間域中的來自長曝光圖框中的空間雜訊。第一MFNR引擎1402可以藉由在空間上對準一系列圖框(或圖像)並對圖框中每個像素的值求平均來執行時間混合。第一MFNR引擎1402使用的演算法評估圖框之間的相對運動(因為圖框是在不同時間被拍攝的)並且對準圖框使得像素可以被組合以便改進SNR。第二MFNR引擎1404對來自用於儲存中曝光圖框1414的一或多個ZSL緩衝器1413的中曝光圖框1414執行空間混合(或濾波)和時間混合(或濾波)。第三MFNR引擎1406對來自用於儲存中曝光圖框1414的一或多個ZSL緩衝器1415的短曝光圖框1416進行空間和時間過濾。第二MFNR引擎1404和第三MFNR引擎1406藉由處理每個圖框的像素來執行空間混合,例如藉由決定每個像素的測量(例如,統計測量、像素分量值、平均或其他測量),在某些情況下相對於相鄰像素來改進圖框。在某些示例中,空間混合可以用於執行邊緣保留降噪(edge preserving noise reduction),並且可以使用各種演算法來解決,諸如圖像或圖框域中的迴旋核、頻率(或類頻率)域中的處理、小波,等等。在某些情況下,可以使用相同處理技術由相同的硬體實現第一MFNR引擎1402、第二MFNR引擎1404和第三MFNR引擎1406,但是在實現第一MFNR引擎、第二MFNR引擎和第三MFNR引擎時硬體可以具有不同的調諧設置。在某些示例中,用於儲存中曝光圖框1414和短曝光圖框1416的緩衝器可以是相同的緩衝器或者可以是不同的緩衝器。在某些情況下,可以使用除緩衝器之外的儲存機構來儲存短、中和長曝光圖框(例如,快取記憶體、RAM等)。
第一MFNR引擎1402還可以獲得或接收用於被儲存在長圖框緩衝器1410中的長曝光圖框的TFI圖像(也被稱為TFI圖)。在某些情況下,如前述,TFI圖像可以指示哪些像素有運動以及哪些像素沒有運動(或像素的運動程度)。TFI圖像還可以指示像素是否應用了時間混合。例如,如果像素被TFI圖像指示為具有運動,則可能未應用時間混合,因為如果應用了時間混合,則圖像中可能出現重影效果。因此,指示擷取的圖框中的像素具有運動的TFI圖像中的像素也可以指示擷取的圖框中的像素沒有被應用時間混合。基於運動指示,第一MFNR引擎1402可以聚合TFI圖像並且可以輸出聚合TFI圖像1418(在圖14A中被示出為DC4 TFI 聚合的)。例如,目標是反映針對每個像素時間混合了多少圖框。第一階段可以假設每個圖框具有相同的雜訊方差並且它們之間沒有協方差。可以根據TFI圖像應用方差處理及/或算術。對於每個圖像或圖框,結果可以被儲存在聚合TFI圖像1418(或TFI圖)中。在處理所有圖框之後,處理的結果是針對每個像素的方差。例如,可以輸出方差圖(例如,由第一MFNR引擎1402輸出)。方差圖隨後可以被轉換為指示針對每個像素混合了多少圖框的圖。用於聚合TFI圖像1418的圖14中的術語「DC4」指示在每個軸上按倍數4縮小的圖像。例如,對於完整圖像大小為8000×4000的圖像,則圖像的DC4大小為2000×1000。如前述,第一MFNR引擎1402還可以輸出單個混合長曝光圖框1420(在圖14A中被示出為混合長10b)。
在某些情況下,ML ISP 1422可以使用最終ALGM圖而不是針對每個圖框的聚合TFI圖像1418作為輸入。例如,如本文所述,在將其轉換為「圖框混合計數」圖之前,ALGM與TFI聚合圖相同。ALGM可以由硬體在全解析度圖框或圖像,而不是縮小的(例如,DC4)圖框或圖像上產生。
混合長曝光圖框1420和聚合TFI圖像1418被輸出到基於機器學習的圖像信號處理器(ISP)1422(在圖14A中被示為ML ISP節點)。ML ISP 1422的示例在圖15中被示出。在某些示例中,ML ISP包括一或多個神經網路架構,作為一個說明性示例,諸如迴旋神經網路(CNN)。圖16是圖示出ML ISP 1422的神經網路的示例的圖。在一個說明性示例中,神經網路包括類UNet網路,具有3×3迴旋層、參數整流線性單元(Parametric Rectified Linear Unit,PReLU)啟動、用於下採樣的平均池化(average pooling,AvgPool)、用於上採樣的雙線性上採樣。在某些示例中,可以基於選擇的感測器校準資料來執行神經網路的訓練。在某些情況下也可以使用其他訓練資料。
ML ISP 1422對長曝光圖框執行空間濾波。例如,ML ISP 1422可以執行空間域邊緣保留雜訊濾波。ML ISP 1422可以使用輸入的混合長曝光圖框1420和聚合TFI圖像1418來補償降噪量,這可以均衡圖框中的雜訊。在一個說明性示例中,對於給定的圖框,如果圖框的部分具有高於運動閾值的局部運動(如聚合TFI圖像所指示),則該圖框的部分將不會被應用時間混合(否則它將具有重影),如前述。因此,由於未應用時間混合,具有局部運動的圖框的部分將比圖框的其他部分具有更多雜訊。基於具有運動的圖框的部分中的增加的雜訊,ML ISP 1422可以對圖框的那部分應用更多空間濾波。對於沒有任何運動(或運動低於運動閾值)的圖框的另一部分,第一MFNR引擎1402可以應用時間混合,從而導致圖框的該部分的雜訊更少。ML ISP 1422可以對幾乎沒有運動的圖框的部分執行較少的空間濾波。ML ISP 1422還可以處理圖框以平滑應用了不同級別的空間濾波的圖框的不同部分之間的過渡。
ML ISP 1422可以提供比具有多個濾波器或處理塊(例如,用於去噪、邊緣增強、顏色平衡、對比度、強度調整、色調調整、銳化等)的傳統ISP更好的結果。此外,調諧傳統ISP可能具有挑戰性而且耗時。基於有監督或無監督學習技術的使用,ML ISP 1422的訓練可以耗時較少。在圖24中示出可以用於ML ISP 1422的深度神經網路的說明性示例。在圖25中示出可以用於ML ISP 1422的迴旋神經網路(CNN)的說明性示例。下面關於圖24和圖25描述了執行機器學習訓練的示例。
ML ISP 1422向多圖框高動態範圍(MFHDR)引擎1440輸出經濾波長曝光圖框1424。如前述,MFHDR引擎1440應用MFHDR處理。如前述,LL引擎1458可以決定將使用MFHDR(MFHDR模式)還是將不使用MFHDR(非MFHDR模式)。在非MFHDR模式下,可以使用單個圖框執行HDR功能。如果LL引擎1458決定將使用MFHDR模式,則用於MFHDR引擎1440的輸入將使用多於一圖框。傳統系統使用交替圖框MFHDR執行MFHDR。交替圖框MFHDR使用圖框的交替序列,諸如短、中、長、短、中、長、短、中、長等。感測器被配置為以不同的曝光持續時間(短、中、長)擷取圖框。然而,延遲對於擷取圖框(在低光條件或其他條件下)至關重要,並且使用附加的短、中和長圖框(例如,4圖框、10圖框、20圖框或其他數量的圖框)會增加延遲。為解決此類問題,LL引擎1458使用預覽圖框(來自ZSL緩衝器)而不是使用具有交替曝光的圖框。預覽圖框在接收到快門命令之前被儲存在ZSL緩衝器中,在這種情況下,在接收到快門命令之後不需要擷取預覽圖框,並且因此不會增加圖框或圖像擷取程序的延遲。藉由使用預覽圖框,在離線處理期間(接收到快門命令之後)擷取的唯一圖框是長曝光圖框。被儲存在ZSL緩衝器中的預覽圖框與長圖框緩衝器中的長曝光圖框具有相同的感測器配置。因此,除曝光之外,預覽圖框和長曝光圖框的圖框設置是相同的(預覽圖框的曝光比長曝光圖框短)。
如前述,短和中曝光圖框(來自ZSL緩衝器)分別由第二MFNR引擎1404和第三MFNR引擎1406處理,它們可以是傳統ISP處理塊(它們不包括ML ISP)。在使用MFHDR模式的情況下,中和短曝光圖框分別由第二MFNR引擎1404和第三MFNR引擎1406處理,並且處理後的中和短曝光圖框在MFHDR引擎1440內部被融合或組合。
圖14B是圖示出圖框處理及/或擷取指令系統1405的另一示例的圖。圖框處理及/或擷取指令系統1405類似於圖14A的圖框處理及/或擷取指令系統1400, 並且包括指示圖框處理及/或擷取指令系統1400與圖框處理及/或擷取指令系統1405之間的共用元件的相同編號。圖框處理及/或擷取指令系統1400與圖框處理及/或擷取指令系統1405之間的一個區別在於,混合長曝光圖像1447在被ML ISP 1422處理之前被第一縮小引擎1449縮小(到更小的大小)。ALGM圖1448在被ML ISP 1422處理之前也被第二縮小引擎1451縮小(到更小的大小)。雖然圖14B圖示ALGM圖1448,但是可以替代地使用聚合TFI圖像(例如,圖14A的聚合TFI圖像1418)。ML ISP 1422可以處理(例如,使用空間濾波)縮小的混合長曝光圖像1447和ALGM圖1448,並且可以向放大引擎1452輸出經濾波長曝光圖框,放大引擎1452可以輸出放大的經濾波長曝光圖框1424。另一區別在於,圖14B的圖框處理及/或擷取指令系統1405使用使用單個短曝光1441的短曝光圖框1442(例如,來自PSL),而不是使用中曝光和短曝光圖框。
如前述,圖15圖示了來自圖14A及/或圖14B的ML ISP的示例。 基於上述技術,將獨特的輸入提供給ML ISP。例如,ML ISP可以基於來自TFI圖像的運動指示以及基於先前階段中發生的時間處理的量(如TFI圖像所指示的)來執行處理(例如,空間濾波或混合)。如圖15所示,對ML ISP的輸入包括混合長曝光圖框、聚合TFI圖像、使用者設置(被示為調諧配置)、圖框計數、增益和白平衡。下文關於圖24和圖25描述關於示例神經網路(例如,其可以用於ML ISP)的進一步細節。
圖17A和圖17B是圖示出具有用於改善圖框的白平衡處理的附加處理元件1710的圖框處理及/或擷取指令系統1700的圖。在某些情況下,附加處理元件1710可以是AWB引擎1708的部分及/或由AWB引擎1708實現。如前述,AWB引擎1708可以產生用於擷取的圖框的AWB控制參數1712。附加處理元件1710可以用於進一步改善由AWB引擎1708決定的AWB。例如,圖框處理及/或擷取指令系統1700可以擷取20圖框。時間域中的20圖框關於雜訊方差的改進可以具有線性影響。例如,由於某些雜訊概況(noise profile),20 圖框可能會降低雜訊方差10-20倍。AWB引擎1708可以獲得二維分佈中的值並且可以決定這些值之間的線性相關。減少雜訊方差有效地減少了分散,提供更可靠的統計,從而做出更好的AWB決策。圖框處理及/或擷取指令系統1700可以將由第一MFNR引擎1702執行的時間混合產生的圖框(由於降噪而導致改進的SNR)輸出回AWB引擎1708。AWB引擎1708可以重新計算AWB控制參數1712以獲得更準確的AWB參數。
附加處理元件710包括逆ISP以建立可以被發出到AWB硬體引擎(在圖17A中被示為「Calc AWB 控制」)的特定格式的圖框或圖像(原始拜耳圖框或圖像)。例如,AWB硬體引擎可以被配置為處理具有特定格式的圖框或圖像。上文更詳細地描述了逆ISP。使用具有特定格式的圖框(例如,拜耳圖框),AWB硬體引擎產生改進的AWB控制參數(被示為WBC)。使用顏色校正矩陣(CCM)引擎(在圖17A中被示為「Calc CCM」)處理改進的AWB控制參數。例如,CCM引擎可以決定初始AWB控制參數與改進的AWB控制參數之間的差異或增量。CCM引擎可以使用差異來產生顏色校正矩陣(CCM)。MFHDR引擎1740可以使用CCM來產生最終輸出圖框或圖像。
如圖17A和圖17B所示,圖框處理及/或擷取指令系統1700的ML ISP 1722可以與圖14A及/或圖14B的ML ISP 1422類似地使用聚合TFI圖像1718。在某些情況下,ML ISP 1722可以使用最終ALGM圖而不是針對每個圖框的TFI圖像作為輸入。例如,如前述,在將其轉換為「圖框混合計數」圖之前,ALGM與TFI聚合圖相同。ALGM可以由硬體在全解析度圖框或圖像,而不是縮小的(例如,DC4)圖框或圖像上產生。第一MFNR引擎1702可以允許具有更短曝光時間的更多數量的圖框,導致減少的運動模糊以及更好的紋理和雜訊。第一MFNR引擎1702還可以使用修改的調諧,包括禁用雜訊均衡。在某些示例中,第一MFNR引擎1702可以融合大量圖框,諸如256圖框,以改進最終混合圖框1720中的SNR。在某些情況下,此類MFNR引擎可以被稱為大規模多圖框(MMF)引擎。在某些情況下,第一MFNR引擎1702之後可以是執行雜訊均衡的階段。參考圖17B,如前述,MFNR混合圖框1720經歷偽逆ISP,產生線性原始拜耳圖框(具有RGB顏色分量)。原始拜耳圖框被輸出用於AWB統計再生和AWB演算法,從而產生改進的WB係數(WBC)。類似於上文關於圖17A所描述的,餘數(remainder)WB被計算,被轉換為CCM,並被發出到MFHDR引擎(包括後IPE)。
圖18是圖示出用於漸進地顯示圖框或圖像(提供互動式預覽)的程序的示例的圖。例如,隨著新圖框被緩衝及/或處理,漸進地顯示增強圖框將是有益的,這可以允許使用者看到每個圖框如何對品質改進做出貢獻。圖框處理及/或擷取指令系統(例如,系統400、1400、1405、1700或其他系統)可以使用來自ZSL緩衝器的預覽圖框(例如,ZSL圖框1802)並向視訊運動補償時間濾波器(MCTF)提供不同的輸入。例如,當圖像擷取選項被選擇以及擷取或快門命令被接收時,從給定的PSL圖框(例如,第二PSL圖框)開始,圖框處理及/或擷取指令系統可以改變時間濾波(TF)混合模式,使得先前的和當前的被切換(例如,類似於MFNR)。例如,如圖18所示,與當前圖框1808和先前圖框1810相比,當前圖框1804和先前圖框1806被切換。例如,當前圖框1808是從IFE輸出的而先前圖框1810是從IPE輸出的。一旦接收到擷取或快門命令,則從IPE輸出當前圖框1804而從IFE輸出先前圖框1806。先前圖框與當前圖框之間的切換可以被執行,直到長圖框擷取完成。「先前」和「當前」指的是時間濾波的輸入。先前在圖18中被標示為「PREV」,而當前在圖18中被標示為「CUR」。例如,TF有3 個圖框或圖像輸入:當前、current_anr和先前。當前是先前圖像應被混合於其頂部並與之對準的當前圖框或圖像。在所有PSL圖框被收集之後,圖框處理及/或擷取指令系統可以切換回MCTF混合。結果,預覽顯示示出隨著新圖框被獲取而動態改進的目標圖框或圖像。隨著圖像擷取程序的進行,顯示變得更加可見並且細節被恢復。
切換到PSL圖框(例如,一旦接收到擷取或快門命令)的原因之一是由於PSL圖框的改進的光敏度。如前述,光敏度(或曝光、圖像曝光或圖像靈敏度)可以被定義為增益和曝光時間或持續時間的函數(例如,光敏度=增益*曝光时間)。例如,可以使用MCTF處理每個傳入的圖框,MCTF可以改進訊雜比(SNR),從而在收集圖框的同時改進預覽圖框的互動效果。預覽結果還提供了「所見即所得」的準確關鍵性能指標(KPI)。使用此類技術,預覽顯示示出隨著新圖框被獲取而動態改進的目標圖框,而不會中斷預覽管線(例如,無需切換到不同的模式)。
圖19和圖20是圖示出基於向原始圖框或圖像分量添加U和V通道的原始時間混合的示例的圖。如前述,時間濾波演算法(例如,由IPE(諸如後IPE)或圖框處理及/或擷取指令系統的其他元件應用)可以用於使用順序圖框並在時間域中混合圖框來改進輸出圖框或圖像的品質,從而改進圖框的SNR。現有的時間濾波演算法使用YUV域中的圖框,其中包括具有亮度(Y)分量和色度分量(例如,色度藍色(Cb)和色度紅色(Cr)分量)的像素。現有演算法也典型地被實現於HW中。由於硬體允許若干通路(pass)並具有更高的處理能力,因此與硬體相比,在軟體中執行時間濾波可能會導致更高的延遲,並且品質也可能較差。本文描述了使用現有YUV時間混合硬體管線的原始時間濾波或混合系統和技術。原始時間濾波或混合系統和技術藉由將原始圖像或圖框(具有濾色器陣列(CFA)圖案)劃分成單獨的顏色分量(例如,紅色(R)、綠色(G)和藍色(B)分量)來操作,並藉由向每個顏色分量添加U和V通道而將每個顏色分量視為單獨的YUV圖框或圖像。U和V值可以包括用於填充MFNR引擎從中獲得圖框以進行處理的緩衝器的冗餘值。使用原始圖框允許在較早階段執行混合,避免各種偏移、裁剪和不正確的破壞性決策問題。使用原始圖框還允許ML ISP處理更多操作。除了降噪之外,還可以以幾乎相同的成本委託更多操作(例如,去馬賽克、WB、色調映射等)。
如圖19所示,原始圖框1902被提供作為輸入。圖像感測器(例如,圖像感測器130或430)可以用於擷取原始圖框1902。原始圖框1902具有濾色器陣列(CFA)圖案,諸如拜耳CFA圖案,包括紅色、綠色和藍色顏色分量。對整個圖框重複相同的CFA圖案。拜耳處理分段(BPS)1904 接收原始圖框1902。BPS 1904是執行各種圖像處理操作(諸如相位偵測像素校正(PDPC)、透鏡陰影校正(LSC)、DG、白平衡校正(WBC)、倉(Bin)校正(BinCorr)等)的硬體塊。在某些情況下,操作(例如,PDPC、LSC、WBC等)中的每一個可以對應於BPS 1904硬體中的濾波器。BPS 1904的輸出是拜耳14圖像或圖框(用14位元表示)。數位訊號處理器(DSP)1906將圖框從14位元圖框轉換為10位元圖框(拜耳10圖框)。DSP 1906可以使用伽瑪查閱資料表(LUT)來執行轉換。在某些情況下,可以使用DSP以外的處理器將圖框從14位元轉換為10位元。
圖框處理及/或擷取指令系統可以將圖框的每個顏色分量劃分或分離成單獨的顏色分量。每個顏色分量是該顏色分量的所有像素的圖框。例如,圖框的紅色(R)分量1908包括來自原始圖框的所有紅色像素,以及是圖框的寬度的一半和高度的一半的解析度或尺寸(由於紅色分量組成原始圖框的一半)。綠色(G)和藍色(B)分量具有為原始圖框的寬度的四分之一和高度的四分之一的解析度。單色(Plain)10是10位元單通道圖框或圖像(例如,灰階圖框)。由於系統無法基於顏色通道的分離來區分不同的通道,因此可以使用單色10圖框。
圖框處理及/或擷取指令系統將U通道和V通道附加到R、G和B顏色分量以建立單獨的標準YUV圖框或圖像。例如,圖框處理及/或擷取指令系統可以藉由添加U通道1912和V通道1914基於R顏色通道產生YUV圖框1910。添加到不同顏色分量的U和V值可以包括相同的值(例如,U值為0或512,V值為0或512,其中512是UV平面的中心)。圖框處理及/或擷取指令系統添加U和V通道,使得圖像處於針對MFNR演算法的合適格式。在某些情況下,一旦添加了U和V通道,圖框處理及/或擷取指令系統會將圖框的格式轉換為P010。MFNR引擎可以對產生的YUV圖框執行時間混合程序。
圖19和圖20中所示的示例配置是類似的,除了如何考慮綠色通道以外。在圖19的示例中,每個綠色通道Gr和Gb作為單獨的YUV圖框被處理。在圖20的示例中,統一綠色通道1914作為YUV圖框被處理。基於統一綠色通道的YUV圖框可以被放大(到超解析度圖框)以適應更多時間混合。圖21包括由原始時間混合產生的圖框2102和由標準YUV圖框的使用產生的圖框2104。如藉由圖框2102與圖框2104之間的比較所示,原始時間濾波混合不會使圖框降級。
使用基於顏色分量的YUV圖框(例如,YUV 圖框1910)的益處是該YUV圖框將小於典型的YUV圖框,並且因此處理將更高效。另一個益處是,如果執行了原始時間混合,則混合的原始圖框可以被直接發出用於AWB引擎1708及/或圖框處理及/或擷取指令系統1700的附加處理元件1710的AWB增強,在這種情況下不需要逆ISP。
如前述,本文使用的術語短、中(或「中等」)、安全和長是指第一設置與第二設置之間的相對特性。這些術語不一定對應於用於特定設置的定義範圍。例如,長曝光(例如,長曝光持續時間或長曝光圖像或圖框)僅指比第二次曝光(例如,短曝光或中等曝光)長的曝光時間。在另一示例中,短曝光(例如,短曝光持續時間或短曝光圖像或圖框)是指比第二次曝光(例如,長曝光或中等曝光)短的曝光時間。在又一示例中,中等曝光或中曝光(例如,中曝光持續時間或中曝光圖像或圖框)是指比第一次曝光(例如,短曝光)大且比第二次曝光(例如,長曝光或中等曝光)小的曝光時間。
圖22是圖示出使用本文描述的技術決定針對某數量的圖框的曝光持續時間的程序2200的示例的流程圖。在方塊2202處,程序2200包括獲得用於一或多個圖框的運動圖。這一或多個圖框可以是在接收到用於擷取某數量的圖框的擷取命令之前獲得的圖框(被稱為預覽圖框),諸如圖14所示。在某些示例中,如前述,預覽圖框可以來自ZSL緩衝器。在某些情況下,如前述,預覽圖框可以是短曝光圖框。
在某些示例中,可以針對一或多個圖框之每一者圖框獲得運動圖(例如,用於第一圖框的第一運動圖、用於第二圖框的第二運動圖等)。例如,在某些態樣中,運動圖可以被包括為伴隨每個圖框的中繼資料。如前述,運動圖也可以被稱為時間濾波器指示(TFI)。在某些情況下,運動圖包括圖像(例如,如前述的TFI圖像)。在某些示例中,TFI圖像可以具有與一或多個圖框相同的解析度(因此在水平和垂直方向上具有相同數量的像素)。在某些示例中,TFI圖像可以具有比一或多個圖框更低的解析度(在水平方向及/或垂直方向具有更少的像素)。例如,運動圖圖像的每個像素可以包括指示針對來自與運動圖相關聯的一或多個圖框的圖框(例如,運動圖被包括為中繼資料的圖框)的每個對應像素的運動量的值。在一個說明性示例中,用於運動圖(或TFI)圖像的每個像素的值可以在[0,1]的範圍內,其中值0指示像素沒有運動,而值1指示像素的最大運動。任何其他合適的範圍或值指定可以用於運動圖(或TFI)圖像。
在方塊2204處,程序2200包括基於運動圖決定與場景的一或多個圖框相關聯的運動。運動對應於場景中的一或多個物件相對於用於擷取一或多個圖框的相機的移動。如本文所述,該運動可以被稱為局部運動。在某些情況下,可以藉由參考針對圖框獲得的運動圖(例如,作為中繼資料)(如前述,運動圖圖像)內的像素的值而針對一或多個圖框的圖框的每個像素決定運動。
在某些情況下,程序2200可以包括決定與相機相關聯的全域運動。例如,程序2200可以基於一或多個感測器測量(諸如來自用於執行程序2200的設備的陀螺儀或其他慣性測量單元(IMU)(例如,加速度計等)的測量)來決定全域運動。在某些情況下,可以基於在與每個圖框相關聯的時間期間接收到的感測器測量為一或多個圖框之每一者圖框決定全域運動。例如,來自陀螺儀的測量結果可以包括陀螺儀取樣的向量,其帶有在特定圖框期間收集的時間戳記。在此類示例中,程序2200可以基於向量決定針對特定圖框的全域運動。
在某些示例中,程序2200可以包括基於決定的運動和全域運動來決定最終運動指示。例如,程序2200可以基於使用用於決定的運動的第一權重和用於全域運動的第二權重的、決定的運動和全域運動的加權組合來決定最終運動指示。在一個說明性示例中,最終運動指示可以被決定為lin_blend(GMI, GMI*LMI, LMI_weight)^2,其中lin_blend是線性混合操作。在另一說明性示例中,FMI可以被決定為lin_blend(GMI,GMI*LMI,LMI_weight)。
在方塊2206處,程序2200包括基於決定的運動決定圖框的數量以及用於擷取該數量的圖框的曝光(例如,曝光時間或持續時間)。在某些示例中,決定的曝光持續時間基於曝光持續時間(或曝光時間)和增益。如前述,程序2200可以包括決定與相機相關聯的全域運動(例如,基於一或多個感測器測量,諸如陀螺儀測量)。在此類情況下,在方塊2206處,程序2200可以包括基於決定的運動和全域運動來決定圖框的數量以及用於擷取該數量的圖框的曝光持續時間。如上文進一步所述的,程序2200可以包括基於決定的運動和全域運動來決定最終運動指示。在此類情況下,在方塊2206處,程序2200可以包括基於最終運動指示來決定圖框的數量以及用於擷取該數量的圖框的曝光持續時間。
在某些情況下,如前述,某數量的圖框可以包括長曝光圖框。在某些示例中,如前述,圖12的圖形1200中的值(或其他值)可以用於基於由運動圖(或TFI圖像)指示的運動、基於全域運動及/或基於最終運動指示來決定長曝光時間(或持續時間)以及圖框計數。例如,在某些示例中,程序2200可以包括包括基於決定的運動及/或全域運動決定一或多個圖框中的運動量小於運動閾值。例如,程序2200可以包括基於最終運動指示決定一或多個圖框中的運動量小於運動閾值。基於一或多個圖框中的運動量小於運動閾值,程序2200可以包括減少針對圖框的數量的圖框計數以及增加針對決定的曝光持續時間的曝光持續時間量。在某些示例中,程序2200可以包括基於決定的運動及/或全域運動決定一或多個圖框中的運動量大於運動閾值。例如,程序2200可以包括基於最終運動指示決定一或多個圖框中的運動量大於運動閾值。基於一或多個圖框中的運動量大於運動閾值,程序2200可以包括增加針對圖框的數量的圖框計數以及減少針對決定的曝光持續時間的曝光持續時間量。
在方塊2208處,程序2200包括發出請求以使用決定的曝光持續時間來擷取該數量的圖框。例如,圖框處理及/或擷取指令系統的元件(例如,低光引擎1458或其他元件)可以向MFNR和MMF、MFHDR、圖像感測器、 圖像信號處理器、其任意組合及/或其他元件發出請求以使用決定的曝光持續時間擷取該數量的圖框。
在某些態樣中,程序2200包括對使用決定的曝光持續時間擷取的該數量的圖框執行時間混合以產生時間混合圖框。在某些情況下,程序2200包括使用基於機器學習的圖像信號處理器(諸如圖14A、圖14B、圖15、圖16、圖17A、圖17B、圖19及/或圖20中所示的那些)對時間混合圖框執行空間處理。在某些態樣中,如前述,基於機器學習的圖像信號處理器使用運動圖(例如,TFI)作為輸入以對時間混合圖框執行空間混合。例如,如圖14A所示,ML ISP節點1422使用DC4 TFI聚合圖像1418作為輸入來決定在混合長曝光圖像1420中的何處存在運動。圖14B的示例使用ALGM圖作為輸入。
圖23是圖示出使用本文描述的技術對一或多個圖框執行時間混合的程序2300的示例的流程圖。在方塊2302處,程序2300包括獲得原始圖框。原始圖框包括用於原始圖框的每個像素的單顏色分量。在某些態樣中,原始圖框包括濾色器陣列(CFA)圖案,諸如圖19和圖20中所示的圖案。
在方塊2304處,程序2300包括將原始圖框劃分為第一顏色分量、第二顏色分量和第三顏色分量。在某些情況下,第一顏色分量包括紅色顏色分量,第二顏色分量包括綠色顏色分量,而第三顏色分量包括藍色顏色分量。在某些態樣中,第一顏色分量包括原始圖框的所有紅色像素,第二顏色分量包括原始圖框的所有綠色像素,而第三顏色分量包括原始圖框的所有藍色像素。例如,如圖19所示,原始圖像(來自多個原始圖像1902)被劃分成紅色(R)分量1908、綠色(G)分量和藍色(B)分量。原始圖像的R分量1908包括來自原始圖像的所有紅色像素,在這種情況下,R分量1908具有是原始圖像的寬度的一半和高度的一半的解析度。如圖19所示的G分量(包括Gr和Gb)和B分量各自具有是原始圖像的寬度的四分之一和高度的四分之一的解析度。在圖20所示的示例中,G分量(組合了Gr和Gb分量)具有是原始圖像寬度的一半和高度的一半的解析度。
在方塊2306處,程序2300包括至少部分地藉由將至少第一色度值添加到第一顏色分量、將至少第二色度值添加到第二顏色分量以及將至少第三色度值添加到第三顏色分量來產生複數個圖框。例如,程序2300可包括:至少部分地藉由將至少第一色度值添加到第一顏色分量來產生第一圖框,至少部分地藉由將至少第二色度值添加到第二顏色分量來產生第二圖框,以及至少部分地藉由將至少第三色度值添加到第三顏色分量來產生第三圖框。在某些示例中,程序2300可以包括至少部分地藉由將第一色度值和第二色度值添加到第一顏色分量來產生第一圖框,至少部分地藉由將第一色度值和第二色度值添加到第二顏色分量來產生第二圖框,以及至少部分地藉由將第一色度值和第二色度值添加到第三顏色分量來產生第三圖框。在一個說明性示例中,參考圖19,藉由將用於U色度通道的值和用於V色度通道的值添加到R分量1908而將U色度通道1912和V色度通道1914添加到R分量1908,從而產生將由MFNR引擎處理以進行時間濾波的輸出圖框。在某些態樣中,第一色度值和第二色度值是相同值。
在方塊2308處,程序2300包括對複數個圖框執行時間混合。例如,圖19及/或圖20中所示的MFNR引擎可以執行時間混合。在某些態樣中,為了對複數個圖框執行時間混合,程序2300可以包括:將複數個圖框中的第一圖框與具有第一顏色分量的一或多個附加圖框進行時間混合,將複數個圖框中的第二圖框與具有第二顏色分量的一或多個附加圖框進行時間混合,以及將複數個圖框中的第三圖框與具有第三顏色分量的一或多個附加圖框進行時間混合。例如,如圖19所示,處理多個原始圖像1902。可以針對每個原始圖像(來自多個原始圖像1902)的每個顏色分量產生YUV圖像,從而產生針對每個顏色分量的多個YUV圖像(例如,包括來自原始圖像的R顏色分量的多個YUV圖像、包括來自原始圖像的Gr顏色分量的多個YUV圖像,包括來自原始圖像的Gb顏色分量的多個YUV圖像,以及包括來自原始圖像的B顏色分量的多個YUV圖像)。由圖19的系統產生的針對每個顏色分量的多個YUV圖像隨後可以被處理以用於時間混合(例如,藉由MFNR)。例如,包括來自原始圖像的R顏色分量的多個YUV圖像可以藉由MFNR進行時間混合,包括來自原始圖像的Gr顏色分量的多個YUV圖像可以藉由MFNR進行時間混合,包括來自原始圖像的Gb顏色分量的多個YUV圖像可以藉由MFNR進行時間混合,包括來自原始圖像的B顏色分量的多個YUV圖像可以藉由MFNR進行時間混合。
在某些示例中,本文描述的程序(例如,程序2200、程序2300及/或本文描述的其他程序)可以由計算設備或裝置執行。在某些示例中,程序2200及/或程序2300可以由以下執行:圖1的圖框擷取和處理系統100、圖4的圖框處理及/或擷取指令系統400、圖14A的圖框處理及/或擷取指令系統1400、圖14B的圖框處理及/或擷取指令系統1405、圖17A的圖框處理及/或擷取指令系統1700、圖19的系統,及/或圖20的系統。在另一示例中,程序2200及/或程序2300可以由圖1的圖像處理設備105B來執行。在另一示例中,程序2200及/或程序2300可以由具有圖26所示的計算系統2600的架構的計算設備或系統來執行。例如,具有圖26所示的計算系統2600的架構的計算設備可以包括以下的元件:圖1的圖框擷取和處理系統100、圖4的圖框處理及/或擷取指令系統400、圖14A的圖框處理及/或擷取指令系統1400、圖14B的圖框處理及/或擷取指令系統1405、圖17A的圖框處理及/或擷取指令系統1700、圖19的系統,及/或圖20的系統,並且可以實現圖22的操作及/或圖23的操作。
計算設備可以包括任何合適的設備,諸如行動設備(例如,行動電話)、桌上型計算設備、平板計算設備、可穿戴設備(例如,VR頭戴設備、AR頭戴設備、AR眼鏡、聯網手錶或智慧手錶,或其他可穿戴設備)、伺服器電腦、車輛或車輛的計算設備、機器人設備、電視及/或具有執行本文描述的程序(包括程序2200)的資源能力的任何其他計算設備。在某些情況下,計算設備或裝置可以包括各種元件,諸如一或多個輸入裝置、一或多個輸出設備、一或多個處理器、一或多個微處理器、一或多個微型電腦、一或多個相機、一或多個感測器及/或被配置為執行本文描述的程序的步驟的(一或多個)其他元件。在某些示例中,計算設備可以包括顯示器、被配置為通訊及/或接收資料的網路介面、它們的任何組合及/或(一或多個)其他元件。網路介面可以被配置為通訊及/或接收基於網際網路協定(IP)的資料或其他類型的資料。
計算設備的元件可以被實現於電路中。例如,元件可以包括電子電路或其他電子硬體及/或可以使用電子電路或其他電子硬體來實現,電子電路或其他電子硬體可以包括一或多個可程式化電子電路(例如,微處理器、圖形處理單元(GPU)、數位訊號處理器(DSP)、中央處理單元(CPU)及/或其他合適的電子電路),及/或可以包括電腦軟體、韌體或其任何組合及/或使用電腦軟體、韌體或其任何組合來實現,以執行本文描述的各種操作。
程序2200和2300被圖示為邏輯流程圖,其動作表示可以用硬體、電腦指令或其組合來實現的操作序列。在電腦指令的上下文中,這些動作表示被儲存在一或多個電腦可讀取儲存媒體上的電腦可執行指令,這些電腦可執行指令在由一或多個處理器執行時執行所述操作。大體上,電腦可執行指令包括執行特定功能或實現特定資料類型的常式、程式、物件、元件、資料結構等。描述這些操作的次序不旨在被解釋為限制,並且可以用任何次序及/或並行地組合任何數量的所描述操作以實現這些程序。
另外,程序2200、2300和其他程序可以在配置有可執行指令的一或多個電腦系統的控制下被執行,並且可以被實現為在一或多個處理器上、藉由硬體或其組合共同執行的代碼(例如,可執行指令、一或多個電腦程式、或一或多個應用)。如前述,代碼可以例如以包括可由一或多個處理器執行的多個指令的電腦程式的形式被儲存在電腦可讀或機器可讀儲存媒體上。該電腦可讀或機器可讀儲存媒體可以是非暫態的。
如前述,在某些情況下可以使用基於機器學習的圖像信號處理器(例如,圖14A、圖14B、圖15、圖16及/或圖17A的ML ISP)。ML ISP可以包括一或多個神經網路。圖24是根據某些示例的圖示出神經網路2400的示例的方塊圖。圖24的神經網路2400可以用於實現此類ML ISP。圖24的神經網路2400可以用於實現如由上述系統和技術中的任一個執行的、本文描述的任何操作。
輸入層2420包括輸入資料。在一個說明性示例中,輸入層2420可以包括表示由一或多個相機擷取的輸入圖像的像素的資料。圖像可以是視訊圖框。神經網路2400包括多個隱藏層2422a、2422b到2422n。隱藏層2422a、2422b到2422n包括「n」個數量的隱藏層,其中「n」是大於或等於一的整數。可以使隱藏層的數量包括給定應用所需的盡可能多的層。神經網路2400還包括輸出層2424,其提供由隱藏層2422a、2422b到2422n執行的處理產生的輸出。在一個說明性示例中,輸出層2424可以提供用於輸入視訊圖框中的物件的光流及/或權重圖。在一個說明性示例中,輸出層2424可以提供輸入視訊圖框的編碼版本。
神經網路2400是互連節點的多層神經網路。每個節點可以表示一條資訊。與節點相關聯的資訊在不同層之間被共享,並且每個層在資訊被處理時保留資訊。在某些情況下,神經網路2400可以包括前饋網路,在這種情況下,不存在網路的輸出被回饋到其自身的回饋連接。在某些情況下,神經網路2400可以包括遞迴神經網路,其可以具有允許在讀入輸入的同時跨節點攜帶資訊的循環。
藉由各層之間的節點到節點互連,節點之間可以交換資訊。輸入層2420的節點可以啟動第一隱藏層2422a中的節點集合。例如,如圖所示,輸入層2420的輸入節點中的每一個連接到第一隱藏層2422a的節點中的每一個。第一隱藏層2422a的節點可以藉由將啟動函數應用於輸入節點資訊來變換每個輸入節點的資訊。從變換匯出的資訊隨後可以被傳遞到並且可以啟動下一隱藏層2422b的節點,這些節點可以執行它們自己指定的功能。示例函數包括迴旋、上採樣、資料變換及/或任何其他合適的函數。隱藏層2422b的輸出隨後可以啟動下一隱藏層的節點,依此類推。最後隱藏層2422n的輸出可以啟動輸出層2424的一或多個節點,在這些節點處提供輸出。在某些情況下,雖然神經網路2400中的節點(例如,節點2426)被示為具有多條輸出線,但節點具有單個輸出,並且被示為從節點輸出的所有線表示相同的輸出值。
在某些情況下,每個節點或節點之間的互連可以具有權重,該權重是從神經網路2400的訓練匯出的參數集合。一旦訓練神經網路2400,它就可以被稱為經訓練神經網路,其可以用於產生2D光流、產生MS光流、產生權重圖、基於2D光流對圖框進行2D扭曲(wrap)、基於MS光流對圖框進行MS扭曲、對資料進行編碼、對資料進行解碼、產生預測圖框、或它們的組合。例如,節點之間的互連可以表示關於互連節點學習的一條資訊。互連可以具有可以被調諧(例如,基於訓練資料集)的可調諧數值權重,允許神經網路2400自適應輸入並且能夠隨著越來越多的資料被處理而學習。
神經網路2400被預訓練以使用不同的隱藏層2422a、2422b到2422n處理來自輸入層2420中的資料的特徵以便藉由輸出層2424提供輸出。在神經網路2400用於標識圖像中的物件的示例中,可以使用包括圖像和標籤兩者的訓練資料來訓練神經網路2400。例如,訓練圖像可以被輸入到網路中,其中每個訓練圖像都有一個標籤,該標籤指示每個圖像中的一或多個物件的類別(基本上,向網路指示物件是什麼以及它們具有什麼特徵)。在一個說明性示例中,訓練圖像可以包括數值2的圖像,在這種情況下,用於圖像的標籤可以是[0 0 1 0 0 0 0 0 0 0]。
在某些情況下,神經網路2400可以使用稱為反向傳播的訓練程序來調整節點的權重。反向傳播可以包括前向傳遞、損失函數、反向傳遞和權重更新。針對一次訓練反覆運算執行前向傳遞、損失函數、反向傳遞和參數更新。針對訓練圖像的每個集合,該程序可以重複一定次數的反覆運算,直到神經網路2400被訓練得足夠好,使得準確地調諧層的權重。
對於標識圖像中的物件的示例,前向傳遞可以包括經由神經網路2400傳遞訓練圖像。在訓練神經網路2400之前,最初隨機化權重。例如,圖像可以包括表示圖像的像素的數值陣列。陣列之每一者數值可以包括描述陣列中該位置處的像素強度的、從0到255的值。在一個示例中,該陣列可以包括具有28行和28列像素以及3個顏色分量(諸如紅色、綠色和藍色,或者亮度和兩個色度分量等)的28×28×3的數值陣列。
對於神經網路2400的第一次訓練反覆運算,由於在初始化時隨機選擇權重,輸出將可能包括不偏愛任何特定類別的值。例如,如果輸出是具有物件包括不同類別的概率的向量,則用於每個不同類別的概率值可能相等或至少非常類似(例如,對於十個可能的類別,每個類別可能具有概率值0.1)。利用初始權重,神經網路2400無法決定低級特徵,並且因此可能無法做出準確決定(例如,用於圖框的特定區域的光流或權重映射的決定)。損失函數可以用於分析輸出中的誤差。可以使用任何合適的損失函式定義。損失函數的一個示例包括均方誤差(MSE)。MSE被定義為
Figure 02_image001
,其計算二分之一乘以實際答案減去預測(輸出)答案的平方的總和。可以將損失設置為等於
Figure 02_image003
的值。
對於第一訓練圖像,損失(或誤差)會較高,因為實際值將與預測輸出大不相同。訓練的目標是最小化損失量,使得預測輸出與訓練標籤相同。神經網路2400可以藉由決定哪些輸入(權重)對網路的損失貢獻最大來執行反向傳遞,並且可以調整權重使得損失減少並最終被最小化。
損失相對於權重的導數(被標示為dL/dW,其中W是特定層的權重)可以被計算以決定對網路損失貢獻最大的權重。計算導數之後,可以藉由更新濾波器的所有權重來執行權重更新。例如,可以更新權重使得它們在梯度的相反方向上改變。權重更新可以被標示為
Figure 02_image005
,其中w標示權重,w i標示初始權重,而η標示學習率。學習率可以被設置為任何合適的值,其中高學習率包括較大的權重更新,而較低的值指示較小的權重更新。
神經網路2400可以包括任何合適的深度網路。一個示例包括迴旋神經網路(CNN),其包括輸入層和輸出層,在輸入層與輸出層之間具有多個隱藏層。CNN的隱藏層包括一系列迴旋、非線性、池化(用於下採樣)和全連接的層。神經網路2400可以包括除CNN之外的任何其他深度網路,諸如自動編碼器、深度信念網路(DBN)、遞迴神經網路(RNN)等。
圖25是根據某些示例的圖示出迴旋神經網路(CNN)2500的示例的方塊圖。CNN 2500的輸入層2520包括表示圖像的資料,諸如由一或多個相機210中的一個擷取的圖像。例如,資料可以包括表示圖像的像素的數值陣列,其中陣列之每一者數值包括描述陣列中該位置處的像素強度的、從0到255的值。使用來自上文的先前示例,該陣列可以包括具有28行和28列像素以及3個顏色分量(諸如紅色、綠色和藍色,或者亮度和兩個色度分量等)的28×28×3的數字陣列。圖像可以傳遞經過迴旋隱藏層2522a、可選的非線性啟動層、池化隱藏層2522b和全連接隱藏層2522c,以在輸出層2524處得到輸出。雖然每個隱藏層中僅一個在圖25中被示出,但一般技藝人士將理解,CNN 2500中可以包括多個迴旋隱藏層、非線性層、池化隱藏層及/或全連接層。如前述,輸出可以產生2D光流、產生MS光流、產生權重圖、基於2D光流對圖框進行2D扭曲、基於MS光流對圖框進行MS扭曲、對資料進行編碼、對資料進行解碼、產生預測圖框,或它們的組合。
CNN 2500的第一層是迴旋隱藏層2522a。迴旋隱藏層2522a分析輸入層2520的圖像資料。迴旋隱藏層2522a的每個節點連接到被稱為感受野(receptive field)的輸入圖像的節點(像素)區域。迴旋隱藏層2522a可以被認為是一或多個濾波器(每個濾波器對應於不同的啟動或特徵圖),其中濾波器的每次迴旋反覆運算是迴旋隱藏層2522a的節點或神經元。例如,濾波器在每次迴旋反覆運算時覆蓋的輸入圖像的區域將是用於濾波器的感受野。在一個說明性示例中,如果輸入圖像包括28×28的陣列,並且每個濾波器(和對應的感受野)是5×5的陣列,那麼迴旋隱藏層2522a中將有24×24個節點。節點與用於該節點的感受野之間的每個連接都會學習權重,在某些情況下,還會學習整體偏差,使得每個節點學習分析輸入圖像中的它的特定局部感受野。隱藏層2522a的每個節點將具有相同的權重和偏差(被稱為共用權重和共享偏差)。例如,濾波器具有權重(數值)陣列和與輸入相同的深度。對於視訊圖框示例,濾波器的深度將為 3(根據輸入圖像的三個顏色分量)。濾波器陣列的說明性示例大小為5×5×3,對應於節點的感受野的大小。
迴旋隱藏層2522a的迴旋性質是由於迴旋層的每個節點被應用於其對應的感受野。例如,迴旋隱藏層2522a的濾波器可以在輸入圖像陣列的左上角開始並且可以圍繞輸入圖像進行迴旋。如前述,濾波器的每次迴旋反覆運算可以被認為是迴旋隱藏層2522a的節點或神經元。在每次迴旋反覆運算中,濾波器的值乘以圖像的原始像素值的對應數位(例如,5×5濾波器陣列乘以輸入圖像陣列的左上角的5×5輸入像素值陣列)。來自每個迴旋反覆運算的乘法可以加在一起以獲得該反覆運算或節點的總和。根據迴旋隱藏層2522a中的下一節點的感受野,接下來在輸入圖像中的下一位置繼續該程序。例如,濾波器可以按步長量(被稱為步幅)移動到下一感受野。步幅可以被設置為1或其他合適的量。例如,如果步幅被設置為1,則濾波器將在每次迴旋反覆運算時向右移動1個像素。在輸入體積(volume)的每個獨特位置處理濾波器產生表示用於該位置的濾波器結果的數值,從而導致針對迴旋隱藏層2522a的每個節點決定總和值。
從輸入層到迴旋隱藏層2522a的映射被稱為啟動圖(或特徵圖)。啟動圖包括表示輸入體積的每個位置處的濾波器結果的、針對每個節點的值。啟動圖可以包括陣列,該陣列包括由濾波器在輸入體積上的每次反覆運算產生的各個總和值。例如,如果5×5濾波器被應用於28×28 輸入圖像的每個像素(步幅為1),則啟動圖將包括24×24陣列。迴旋隱藏層2522a可以包括多個啟動圖以便標識圖像中的多個特徵。如圖25所示的示例包括三個啟動圖。使用三個啟動圖,迴旋隱藏層2522a可以偵測三個不同種類的特徵,其中每個特徵都可以跨整個圖像被偵測。
在某些示例中,可以在迴旋隱藏層2522a之後應用非線性隱藏層。非線性層可以用於向一直在計算線性運算的系統引入非線性。非線性層的一個說明性示例是整流線性單元(ReLU)層。ReLU層可以將函數f(x)=max(0, x)應用於輸入體積中的所有值,這會將所有負啟動改變為0。ReLU因此可以在不影響迴旋隱藏層2522a的感受野的情況下增加CNN 2500的非線性性質。
可以在迴旋隱藏層2522a之後(並且在使用非線性隱藏層時在非線性隱藏層之後)應用池化隱藏層2522b。池化隱藏層2522b用於簡化來自迴旋隱藏層2522a的輸出中的資訊。例如,池化隱藏層2522b可以取得從迴旋隱藏層2522a輸出的每個啟動圖,並使用池化函數產生凝縮啟動圖(或特徵圖)。最大池化是由池化隱藏層執行的功能的一個示例。池化隱藏層2522a也使用其他形式的池化函數,諸如平均池化、L2範數池化或其他合適的池化函數。池化函數(例如,最大池化濾波器、L2範數濾波器或其他合適的池化濾波器)被應用於迴旋隱藏層2522a中包括的每個啟動圖。在圖25所示的示例,三個池化濾波器用於迴旋隱藏層2522a中的三個啟動圖。
在某些示例中,可以藉由將具有某一步幅(例如,等於濾波器的尺寸,諸如步幅為2)的最大池化濾波器(例如,具有2×2的大小)應用於從迴旋隱藏層2522a輸出的啟動圖來使用最大池化。最大池化濾波器的輸出包括濾波器圍繞其迴旋的每個子區域中的最大數位。使用2×2濾波器作為示例,池化層之每一者單元可以匯總先前層中的2×2節點的區域(其中每個節點是啟動圖中的值)。例如,啟動圖中的四個值(節點)將在濾波器的每次反覆運算中由2×2最大池化濾波器分析,其中來自四個值中的最大值作為「最大」值被輸出。如果此類最大池化濾波器被應用於來自具有24×24節點的尺寸的迴旋隱藏層2522a的啟動濾波器,則來自池化隱藏層2522b的輸出將是12×12節點的陣列。
在某些示例中,還可以使用L2範數池化濾波器。L2範數池化濾波器包括計算啟動圖的2×2區域(或其他合適區域)中的值的平方和的平方根(而不是像在最大池化中那樣計算最大值),以及使用計算的值作為輸出。
直觀地說,池化函數(例如,最大池化、L2範數池化或其他池化函數)決定給定特徵是否在圖像區域中的任何位置被找到,並且丟棄確切的定位資訊。這可以在不影響特徵偵測的結果的情況下完成,因為一旦特徵被找到,特徵的確切位置就沒有其相對於其他特徵的大致位置重要。最大池化(以及其他池化方法)的益處是存在少得多的池化特徵,從而減少了CNN 2500的後面的層所需的參數數量。
網路中的連接的最終層是全連接層,它將來自池化隱藏層2522b的每個節點連接到輸出層2524中的輸出節點中的每一個。使用上面的示例,輸入層包括對輸入圖像的像素強度進行編碼的28×28個節點,迴旋隱藏層2522a包括基於對三個啟動圖應用5×5局部感受野(針對濾波器)的3×24×24個隱藏特徵節點,而池化隱藏層2522b包括基於對跨三個特徵圖的每一個的2×2區域應用最大池化濾波器的3×12×12個隱藏特徵節點的層。擴展這個示例,輸出層2524可以包括十個輸出節點。在此類示例中,3×12×12池化隱藏層2522b的每個節點都連接到輸出層2524的每個節點。
全連接層2522c可以獲得先前池化隱藏層2522b的輸出(其應該表示高級特徵的啟動圖)並決定與特定類別最相關的特徵。例如,全連接層2522c層可以決定與特定類別最強相關的高級特徵,並且可以包括用於高級特徵的權重(節點)。可以計算全連接層2522c與池化隱藏層2522b的權重之間的乘積以獲得針對不同類別的概率。例如,如果CNN 2500用於產生光流,則啟動圖中將存在高值,這些高值表示從一圖框到另一圖框的視覺元素的運動的高級特徵。
在某些示例中,來自輸出層2524的輸出可以包括M維向量(在前面的示例中,M=10),其中M可以包括對應於以下的資料:光流中的可能的運動向量方向、光流中的可能的運動向量幅度、權重圖中的可能的權重值等。在一個說明性示例中,如果9維輸出向量表示十個不同的可能值是[0 0 0.05 0.8 0 0.15 0 0 0 0],則該向量指示第三值有5%的概率,第四值有80%的概率,第六值有15%的概率。針對可能值的概率可以被認為是針對該值的置信水平或決定性水平(例如,對於該運動向量方向、對於該運動向量幅度、對於該權重值等)。
圖26是圖示出用於實現本技術的某些態樣的系統的示例的圖。具體地,圖26圖示了計算系統2600的示例,其可以是例如構成內部計算系統、遠端計算系統、相機或其任何元件的任何計算設備,其中系統的元件使用連接2605相互通訊。連接2605可以是使用匯流排的實體連接,或者到處理器2610的直接連接,諸如在晶片組架構中。連接2605也可以是虛擬連接、網路連接或邏輯連接。
在某些實施例中,計算系統2600是分散式系統,其中本案中描述的功能可以被分佈在資料中心、多個資料中心、同級間網路等內。在某些實施例中,所描述的系統元件中的一或多個表示許多此類元件,每個元件執行針對該元件描述的功能的某些或全部。在某些實施例中,元件可以是實體或虛擬裝置。
示例系統2600包括至少一個處理單元(CPU或處理器)2610,以及將各種系統元件耦合到處理器2610的連接2605,這些系統元件包括系統記憶體2615,諸如唯讀記憶體(ROM)2620和隨機存取記憶體(RAM)2625。計算系統2600可以包括高速記憶體的快取記憶體2612,快取記憶體2612與處理器2610直接連接、緊鄰,或被整合為處理器2610的部分。
處理器2610可以包括任何通用處理器以及被配置為控制處理器2610的硬體服務或軟體服務(諸如被儲存在儲存裝置2630中的服務2632、2634和2636),以及其中軟體指令被合併到實際處理器設計中的專用處理器。處理器2610可能本質上是完全獨立的計算系統,包含多個核或處理器、匯流排、記憶體控制器、快取記憶體等。多核處理器可以是對稱的或非對稱的。
為了實現使用者互動,計算系統2600包括輸入裝置2645,其可以代表任何數量的輸入機構,諸如用於語音的麥克風、用於手勢或圖形輸入的觸敏螢幕、鍵盤、滑鼠、運動輸入、語音等等。計算系統2600還可以包括輸出設備2635,其可以是多個輸出機構中的一或多個。在某些情況下,多模式系統可以使使用者能夠提供多種類型的輸入/輸出以與計算系統2600通訊。計算系統2600可以包括通訊介面2640,其大體可以支配和管理使用者輸入和系統輸出。通訊介面可以使用有線及/或無線收發器來執行或促進接收及/或發送有線或無線通訊,這些收發器包括使用以下的那些:音訊插孔/插頭、麥克風插孔/插頭、通用序列匯流排(USB)埠/插頭、蘋果®閃電®埠/插頭、乙太網路埠/插頭、光纖埠/插頭、專有有線埠/插頭、藍芽®無線信號傳輸、藍芽®低功耗(BLE)無線信號傳輸、IBEACON®無線信號傳輸、射頻標識(RFID)無線信號傳輸、近場通訊(NFC)無線信號傳輸、專用短程通訊(DSRC)無線信號傳輸、802.11 Wi-Fi無線信號傳輸、無線區域網路(WLAN)信號傳輸、可見光通訊(VLC)、全球互通微波存取性(WiMAX)、紅外(IR)通訊無線信號傳輸、公用交換電話網絡(PSTN)信號傳輸、整合式服務數位網路絡(ISDN)信號傳輸、3G/4G/5G/LTE蜂巢資料網路無線信號傳輸、特定網路信號傳輸、無線電波信號傳輸、微波信號傳輸、紅外信號傳輸、可見光信號傳輸、紫外光信號傳輸、沿電磁頻譜的無線信號傳輸,或它們的某種組合。通訊介面2640還可以包括一或多個全球導航衛星系統(GNSS)接收器或收發器,其用於基於從與一或多個GNSS系統相關聯的一或多個衛星接收一或多個信號來決定計算系統2600的位置。GNSS系統包括但不限於美國的全球定位系統(GPS)、俄羅斯的全球導航衛星系統(GLONASS)、中國的北斗導航衛星系統(BDS) 和歐洲的伽利略GNSS。對任何特定硬體佈置的操作沒有限制,並且因此這裡的基本特徵可以很容易地被替換為改進的硬體或韌體佈置(隨著它們被開發出來)。
儲存裝置2630可以是非揮發性及/或非暫態及/或電腦可讀記憶體設備並且可以是硬碟或其他類型的電腦可讀取媒體(其可以儲存可由電腦存取的資料),諸如磁盒、快閃記憶卡、固態記憶體設備、數位多功能光碟、卡帶、軟碟、柔性盤、硬碟、磁帶、磁條/條帶、任何其他磁性儲存媒體,快閃記憶體、憶阻器記憶體、任何其他固態記憶體,緊湊盤唯讀記憶體(CD-ROM)光碟、可重寫緊湊(CD)光碟、數位視訊盤(DVD)光碟、藍光光碟(BDD)光碟、全息光碟、另一光學媒體,安全數位(SD)卡、微型安全數位(microSD)卡、記憶棒®卡、智慧卡晶片、EMV晶片、用戶身份模組(SIM)卡、mini/micro/nano/pico SIM卡、另一積體電路(IC)晶片/卡,隨機存取記憶體(RAM)、靜態RAM(SRAM)、動態RAM(DRAM)、唯讀記憶體(ROM)、可程式化唯讀記憶體(PROM)、可抹除可程式化唯讀記憶體(EPROM)、電子可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體EPROM(FLASHEPROM)、快取記憶體(L1/L2/L3/L4/L5/L#)、電阻式隨機存取記憶體(RRAM/ReRAM)、相變記憶體(PCM)、自旋轉移扭矩RAM(STT-RAM)、另一記憶體晶片或盒,及/或它們的組合。
儲存裝置2630可以包括軟體服務、伺服器、服務等,當定義此類軟體的代碼被處理器2610執行時,它導致系統執行功能。在某些實施例中,執行特定功能的硬體服務可以包括被儲存在電腦可讀取媒體中的軟體元件,這些軟體元件與必要硬體元件(諸如處理器2610、連接2605、輸出設備2635等)連接以執行功能。
如本文所使用的,術語「電腦可讀取媒體」包括但不限於可攜式或非可攜式儲存裝置、光學儲存裝置以及能夠儲存、包含或攜帶(一或多個)指令及/或資料的各種其他媒體。電腦可讀取媒體可以包括其中可以儲存資料並且不包括無線地或藉由有線連接傳播的載波及/或暫態電子信號的非暫態媒體。非暫態媒體的示例可包括但不限於磁片或磁帶、諸如緊湊盤(CD)或數位多功能光碟(DVD)之類的光學儲存媒體、快閃記憶體、記憶體 或記憶體設備。電腦可讀取媒體可以在其上儲存代碼及/或機器可執行指令,這些代碼及/或機器可執行指令可以表示程序、函數、子程式、程式、常式、子常式、模組、套裝軟體、類,或指令、資料結構或程式語句的任何組合。程式碼片段可以藉由傳遞及/或接收資訊、資料、引數、參數或記憶體內容而耦合到另一程式碼片段或硬體電路。可以使用任何合適的手段來傳遞、轉發或發送資訊、引數、參數、資料等,這些手段包括記憶體共享、訊息傳遞、符記傳遞、網路發送等。
在某些實施例中,電腦可讀儲存裝置、媒體和記憶體可以包括包含位元串流等的電纜或無線信號。然而,當被提及時,非暫態電腦可讀取儲存媒體明確排除諸如能量、載波信號、電磁波和信號本身之類的媒體。
在以上描述中提供了具體細節以提供對本文提供的實施例和示例的透徹理解。然而,本領域一般技藝人士將理解,可以在沒有這些具體細節的情況下實踐實施例。為解釋清楚,在某些情況下,本技術可以被呈現為包括單獨的功能方塊,這些功能方塊包括包含設備、設備元件、以軟體或者硬體和軟體的組合體現的方法中的步驟或常式的功能方塊。可以使用除了圖中所示及/或本文描述的那些之外的附加組件。例如,電路、系統、網路、程序和其他元件可以以方塊圖形式被示為元件,以免在不必要的細節上模糊實施例。在其他情況下,可以在沒有不必要的細節的情況下示出眾所周知的電路、程序、演算法、結構和技術,以免模糊實施例。
上文可以將各個實施例描述為被圖示為流程圖表、流程圖、資料流圖、結構圖或方塊圖的程序或方法。儘管流程圖可以將操作描述為順序程序,但許多操作可以被並行或併發地執行。另外,可以重新佈置操作的次序。程序在其操作完成時被終止,但可能具有圖中未包含的附加步驟。程序可以對應於方法、函數、程序、子常式、副程式等。當程序對應於函數時,它的終止可以對應於函數返回到調用函數或主函數。
可以使用被儲存的或以其他方式從電腦可讀取媒體可用的電腦可執行指令來實現根據上述示例的程序和方法。此類指令可以包括例如使得或以其他方式配置通用電腦、專用電腦或處理設備執行某些功能或功能組的指令和資料。使用的電腦資源的部分可以經由網路存取。電腦可執行指令可以是例如二進位數、中間格式指令(諸如組合語言)、韌體、原始程式碼等。可以用於儲存指令、使用的資訊及/或在根據所描述的示例的方法期間建立的資訊的電腦可讀取媒體的示例包括磁片或光碟、快閃記憶體、提供有非揮發性記憶體的USB設備、網路儲存裝置、等等。
實現根據這些揭露的程序和方法的設備可以包括硬體、軟體、韌體、仲介軟體、微代碼、硬體描述語言或其任何組合,並且可以採用各種外形尺寸中的任何一種。當被實現於軟體、韌體、仲介軟體或微代碼中時,執行必要任務的程式碼或程式碼片段(例如,電腦程式產品)可以被儲存在電腦可讀或機器可讀取媒體中。(一或多個)處理器可以執行必要的任務。外形尺寸的典型示例包括膝上型電腦、智慧型電話、行動電話、平板設備或其他小外形尺寸的個人電腦、個人數位助理、機架式設備、獨立設備等。本文描述的功能也可以被體現在周邊設備或附加卡中。作為進一步的示例,此類功能也可以被實現於不同晶片之間的電路板上或在單個設備中執行的不同程序上。
指令、用於運送此類指令的媒體、用於執行它們的計算資源以及用於支援此類計算資源的其他結構是用於提供本案中描述的功能的示例手段。
在前面的描述中,參考其具體實施例描述了本案的各態樣,但是本領域技藝人士將認識到本案不限於此。因此,雖然本文已經詳細描述了本案的說明性實施例,但是應當理解,本發明概念可以用其他方式被不同地體現和採用,並且所附請求項旨在被解釋為包括除被現有技術限制之外的此類變體。上述應用的各種特徵和態樣可以被單獨或聯合使用。此外,在不背離本說明書的更廣泛的精神和範圍的情況下,實施例可以在超過本文描述的環境和應用的任何數量的環境和應用中被利用。相應地,說明書和附圖應被認為是說明性而非限制性的。出於說明的目的,方法被以特定的次序被描述。應理解,在替代實施例中,方法可以以與所描述的次序不同的次序來執行。
一般技藝人士將理解,本文中使用的小於(「<」)和大於(「>」)符號或術語可以相應地用小於或等於(「≦」)和大於或等於(「≧」)符號來代替,而不背離本說明書的範圍。
在將元件描述為「被配置為」執行某些操作的情況下,此類配置可以例如藉由設計電子電路或其它硬體以執行這些操作、藉由對可程式化電子電路(例如,微處理器或其它合適的電子電路)進行程式化以執行這些操作或其任何組合來實現。
短語「耦合到」是指任何元件直接或間接地實體連接到另一元件,及/或任何元件與另一元件直接或間接地通訊(例如,藉由有線或無線連接,及/或其他合適的通訊介面連接到另一元件)。
表述集合中的「至少一個」或集合中的「一或多個」的請求項語言或其他語言指示集合的一個成員或集合的多個成員(以任何組合)滿足請求項。例如,表述「A和B中的至少一個」的請求項語言意指A、B,或者A和B。在另一示例中,表述「A、B和C中的至少一個」的請求項語言意指A、B、C,或者A和B,或者A和C,或者B和C,或者A和B和C。語言集合中的「至少一個」及/或集合中的「一或多個」不將該集合限制為該集合中列出的項目。例如,表述「A和B中的至少一個」的請求項語言可以意指A、B或者A和B,並且可以附加地包括未在A和B的集合中列出的項目。
結合本文所揭示的實施例描述的各種說明性邏輯區塊、模組、電路和演算法步驟可以被實現為電子硬體、電腦軟體、韌體或其組合。為清楚地說明硬體與軟體的此可互換性,上文已大體上就其功能性而言描述了各種說明性元件、方塊、模組、電路和步驟。此類功能被實現為硬體還是軟體取決於特定應用以及施加於整個系統的設計約束。本領域技藝人士可以針對每個特定應用以不同方式實現所描述的功能,但不應將此類實現決策解釋為致使背離本案的範圍。
本文所描述的技術可以被實現於電子硬體、電腦軟體、韌體或其任意組合中。此類技術可以被實現於諸如以下各項的各種設備中的任一種中:通用電腦、無線通訊設備手持設備,或者具有包括無線通訊設備手持設備和其它設備中的應用的多種用途的積體電路設備。被描述為模組或元件的任何特徵可以一起被實現於整合邏輯裝置中,或者被單獨實現為個別的但可交互動操作的邏輯裝置。如果被實現於軟體中,則技術可以至少部分由包括程式碼的電腦可讀取資料儲存媒體實現,該程式碼包括在被執行時執行上文描述的方法中的一或多個方法的指令。電腦可讀取資料儲存媒體可以形成電腦程式產品的部分,該電腦程式產品可以包括封裝材料。電腦可讀取媒體可以包括記憶體或資料儲存媒體,諸如:諸如同步動態隨機存取記憶體(SDRAM)之類的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、非揮發性隨機存取記憶體(NVRAM)、電子可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體、磁性或光學資料儲存媒體等。該技術附加地或替代地可以至少部分地由以指令或資料結構的形式攜帶或通訊程式碼的電腦可讀通訊媒體(諸如傳播的信號或波)來實現,並且該程式碼可以由電腦存取、讀取及/或執行。
程式碼可以由處理器執行,處理器可以包括一或多個處理器,諸如一或多個數位訊號處理器(DSP)、通用微處理器、專用積體電路(ASIC)、現場可程式化閘陣列(FPGA)或其它等效的整合或個別邏輯電路系統。此類處理器可以被配置成執行本案中所描述的技術中的任一個。通用處理器可以是微處理器,但在替代情況下,該處理器可以是任何一般的處理器、控制器、微控制器或狀態機。處理器還可以被實現為計算設備的組合,例如以下項的組合:DSP和微處理器、複數個微處理器、與DSP核結合的一或多個微處理器、或任何其他此類配置。相應地,如本文中所使用的術語「處理器」可以指前述結構中的任一個、前述結構的任何組合、或者適於實現本文中所描述的技術的任何其它結構或裝置。另外,在某些態樣中,本文中所描述的功能可以在被配置用於編碼和解碼的專用軟體模組或硬體模組內被提供,或被併入組合視訊轉碼器-解碼器(轉碼器)中。
本案的說明性態樣包括:
態樣1. 一種用於決定用於某數量的圖框的曝光持續時間的裝置。該裝置包括記憶體(例如,被實現於電路中)以及耦合到記憶體的一或多個處理器(例如,一個處理器或多個處理器)。一或多個處理器被配置為:獲得用於一或多個圖框的運動圖;基於運動圖,決定與場景的一或多個圖框相關聯的運動,該運動對應於場景中的一或多個物件相對於用於擷取一或多個圖框的相機的移動;基於決定的運動,決定圖框的數量以及用於擷取該數量的圖框的曝光;及發出請求以使用決定的曝光持續時間來擷取該數量的圖框。
態樣2. 如態樣1的裝置,其中一或多個圖框是在接收到用於擷取該數量的圖框的擷取命令之前獲得的。
態樣3. 如態樣1或2中任一項的裝置,其中一或多個處理器被配置為:對使用決定的曝光持續時間擷取的該數量的圖框執行時間混合以產生時間混合圖框。
態樣4. 如態樣3的裝置,其中一或多個處理器被配置為:使用基於機器學習的圖像信號處理器對時間混合圖框執行空間處理。
態樣5. 如態樣4的裝置,其中基於機器學習的圖像信號處理器使用運動圖作為用於對時間混合圖框執行空間處理的輸入。
態樣6. 如態樣1至5中任一項的裝置,其中所決定的曝光持續時間基於增益。
態樣7. 如態樣1至6中任一項的裝置,其中運動圖包括圖像,圖像的每個像素包括指示以下中的至少一個的值:每個像素的運動量以及與該運動量相關聯的置信值。
態樣8. 如態樣1至7中任一項的裝置,其中一或多個處理器被配置為:基於一或多個感測器測量,決定與相機相關聯的全域運動;其中圖框的數量以及用於擷取該數量的圖框的曝光持續時間是基於決定的運動和全域運動來決定的。
態樣9. 如態樣1至8中任一項的裝置,其中為了基於決定的運動和全域運動來決定圖框的數量以及用於擷取該數量的圖框的曝光持續時間,一或多個處理器被配置為:基於決定的運動和全域運動決定最終運動指示;及基於最終運動指示決定圖框數量以及擷取該數量的圖框的曝光持續時間。
態樣10. 如態樣9的裝置,其中為了基於決定的運動和全域運動來決定最終運動指示,一或多個處理器可以被配置為:使用用於決定的運動的第一權重以及用於全域運動的第二權重來決定決定的運動和全域運動的加權組合。
態樣11. 如態樣9或10中任一項的裝置,其中一或多個處理器被配置為:基於最終運動指示決定一或多個圖框中的運動量小於運動閾值;及基於一或多個圖框中的運動量小於運動閾值,減少針對圖框數量的圖框計數並增加針對決定的曝光持續時間的曝光量。
態樣12. 如態樣9或10中任一項的裝置,其中一或多個處理器被配置為:基於最終運動指示決定一或多個圖框中的運動量大於運動閾值;及基於一或多個圖框中的運動量大於運動閾值,增加針對圖框數量的圖框計數並減少針對決定的曝光持續時間的曝光量。
態樣13. 如態樣1至12中任一項的裝置,還包括被配置為擷取至少一個圖框的相機以及被配置為顯示至少一個圖框的顯示器中的至少一者。
態樣14. 一種用於對一或多個圖框執行時間混合的裝置。該裝置包括被配置為儲存一或多個圖框的記憶體(例如,被實現於電路中)以及耦合到記憶體的一或多個處理器(例如,一個處理器或多個處理器)。一或多個處理器被配置為:獲得原始圖框,原始圖框包括用於原始圖框的每個像素的單顏色分量;將原始圖框劃分為第一顏色分量、第二顏色分量和第三顏色分量;至少部分地藉由將至少第一色度值添加到第一顏色分量、將至少第二色度值添加到第二顏色分量以及將至少第三色度值添加到第三顏色分量來產生複數個圖框;及對複數個圖框執行時間混合。
態樣15. 如態樣14的裝置,其中原始圖框包括濾色器陣列(CFA)圖案。
態樣16. 如態樣14或15中任一項的裝置,其中第一顏色分量包括紅色顏色分量,其中第二顏色分量包括綠色顏色分量,並且其中第三顏色分量包括藍色顏色分量。
態樣17. 如態樣14至16中任一項的裝置,其中第一顏色分量包括原始圖框的所有紅色像素,其中第二顏色分量包括原始圖框的所有綠色像素,並且其中第三顏色分量包括原始圖框的所有藍色像素。
態樣18. 如態樣14至17中任一項的裝置,其中為了產生複數個圖框,一或多個處理器被配置為:至少部分地藉由將至少第一色度值添加到第一顏色分量來產生第一圖框;至少部分地藉由將至少第二色度值添加到第二顏色分量來產生第二圖框;及至少部分地藉由將至少第三色度值添加到第三顏色分量來產生第三圖框。
態樣19. 如態樣18中任一項的裝置,其中:為了產生第一圖框,一或多個處理器被配置為將第一色度值和第二色度值添加到第一顏色分量;為了產生第二圖框,一或多個處理器被配置為將第一色度值和第二色度值添加到第二顏色分量;及為了產生第三圖框,一或多個處理器被配置為將第一色度值和第二色度值添加到第三顏色分量。
態樣20. 如態樣19的裝置,其中第一色度值和第二色度值是相同值。
態樣21. 如態樣14至20中任一項的裝置,其中為了對複數個圖框執行時間混合,一或多個處理器被配置為:將複數個圖框中的第一圖框與具有第一顏色分量的一或多個附加圖框進行時間混合;將複數個圖框中的第二圖框與具有第二顏色分量的一或多個附加圖框進行時間混合;及將複數個圖框中的第三圖框與具有第三顏色分量的一或多個附加圖框進行時間混合。
態樣22. 如態樣14至21中任一項的裝置,其中裝置是行動設備。
態樣23. 如態樣14至22中任一項的裝置,還包括被配置為擷取一或多個圖框的相機。
態樣24. 如態樣14至23中任一項的裝置,還包括被配置為顯示一或多個圖框的顯示器。
態樣25. 一種裝置,包括態樣1-13中任一項的裝置以及態樣14-24中任一項的裝置。
態樣26. 一種決定用於某數量的圖框的曝光持續時間的方法。該方法包括:獲得用於一或多個圖框的運動圖;基於運動圖,決定與場景的一或多個圖框相關聯的運動,該運動對應於場景中的一或多個物件相對於用於擷取一或多個圖框的相機的移動;基於決定的運動,決定圖框的數量以及用於擷取該數量的圖框的曝光持續時間;及發出請求以使用決定的曝光持續時間來擷取該數量的圖框。
態樣27. 如態樣26的方法,其中一或多個圖框是在接收到用於擷取該數量的圖框的擷取命令之前獲得的。
態樣28. 態樣26或27中任一項的方法,還包括: 對使用決定的曝光持續時間擷取的該數量的圖框執行時間混合以產生時間混合圖框。
態樣29. 如態樣28的方法,還包括:使用基於機器學習的圖像信號處理器對時間混合圖框執行空間處理。
態樣30. 如態樣29的方法,其中基於機器學習的圖像信號處理器使用運動圖作為用於對時間混合圖框執行空間處理的輸入。
態樣31. 如態樣26至30中任一項的方法,其中所決定的曝光持續時間基於增益。
態樣32. 如態樣26至31中任一項的方法,其中運動圖包括圖像,圖像的每個像素包括指示以下中的至少一個的值:每個像素的運動量以及與該運動量相關聯的置信值。
態樣33. 如態樣26至32中任一項的方法,還包括:基於一或多個感測器測量,決定與相機相關聯的全域運動;其中圖框的數量以及用於擷取該數量的圖框的曝光持續時間是基於決定的運動和全域運動來決定的。
態樣34. 如態樣26至33中任一項的方法,還包括:基於決定的運動和全域運動來決定最終運動指示;其中圖框的數量以及用於擷取該數量的圖框的曝光持續時間是基於最終運動指示來決定的。
態樣35. 如態樣34的方法,其中最終運動指示基於使用用於決定的運動的第一權重和用於全域運動的第二權重的、決定的運動和全域運動的加權組合。
態樣36. 如態樣34或35中任一項的方法,還包括:基於最終運動指示決定一或多個圖框中的運動量小於運動閾值;及基於一或多個圖框中的運動量小於運動閾值,減少針對圖框的數量的圖框計數並增加針對決定的曝光持續時間的曝光持續時間量。
態樣37. 如態樣34或35中任一項的方法,還包括:基於最終運動指示決定一或多個圖框中的運動量大於運動閾值;及基於一或多個圖框中的運動量大於運動閾值,增加針對圖框的數量的圖框計數並減少針對決定的曝光持續時間的曝光持續時間量。
態樣38. 一種對一或多個圖框執行時間混合的方法。該方法包括:獲得原始圖框,原始圖框包括用於原始圖框的每個像素的單顏色分量;將原始圖框劃分為第一顏色分量、第二顏色分量和第三顏色分量;至少部分地藉由將至少第一色度值添加到第一顏色分量、將至少第二色度值添加到第二顏色分量以及將至少第三色度值添加到第三顏色分量來產生複數個圖框;及對複數個圖框執行時間混合。
態樣39. 如態樣38的方法,其中原始圖框包括濾色器陣列(CFA)圖案。
態樣40. 如態樣38或39中任一項的方法,其中第一顏色分量包括紅色顏色分量,其中第二顏色分量包括綠色顏色分量,並且其中第三顏色分量包括藍色顏色分量。
態樣41. 如態樣38至40中任一項的方法,其中第一顏色分量包括原始圖框的所有紅色像素,其中第二顏色分量包括原始圖框的所有綠色像素,並且其中第三顏色分量包括原始圖框的所有藍色像素。
態樣42. 如態樣38至41中任一項的方法,其中產生複數個圖框包括:至少部分地藉由將至少第一色度值添加到第一顏色分量來產生第一圖框;至少部分地藉由將至少第二色度值添加到第二顏色分量來產生第二圖框;及至少部分地藉由將至少第三色度值添加到第三顏色分量來產生第三圖框。
態樣43. 如態樣42中任一項的方法,其中:產生第一圖框包括將第一色度值和第二色度值添加到第一顏色分量;產生第二圖框包括將第一色度值和第二色度值添加到第二顏色分量;而產生第三圖框包括將第一色度值和第二色度值添加到第三顏色分量。
態樣44. 如態樣43的方法,其中第一色度值和第二色度值是相同值。
態樣45. 如態樣38至44中任一項的方法,其中對複數個圖框執行時間混合包括:將複數個圖框中的第一圖框與具有第一顏色分量的一或多個附加圖框進行時間混合;將複數個圖框中的第二圖框與具有第二顏色分量的一或多個附加圖框進行時間混合;及將複數個圖框中的第三圖框與具有第三顏色分量的一或多個附加圖框進行時間混合。
態樣46. 一種儲存指令的電腦可讀取儲存媒體,這些指令在由一或多個處理器執行時,使得一或多個處理器執行根據態樣26至37中任一項的操作。
態樣47. 一種裝置,包括用於執行根據態樣26至37中任一項的操作的構件。
態樣48. 一種儲存指令的電腦可讀取儲存媒體,這些指令在由一或多個處理器執行時,使得一或多個處理器執行根據態樣38至45中任一項的操作。
態樣49. 一種裝置,包括用於執行根據態樣38至45中任一項的操作的構件。
態樣50. 一種儲存指令的電腦可讀取儲存媒體,這些指令在由一或多個處理器執行時,使得一或多個處理器執行根據態樣26至35中任一項以及態樣36至43中任一項的操作。
態樣51. 一種方法,包括態樣26-37中任一項的操作以及態樣38-45中任一項的操作。
態樣52. 一種裝置,包括用於執行根據態樣26至37中任一項的操作以及態樣38至45的操作中的任一項的構件。
100:圖框擷取和處理系統 105A:圖像擷取裝置 105B:圖像處理設備 110:場景 115:透鏡 120:控制機構 125A:曝光控制機構 125B:焦點控制機構 125C:變焦控制機構 130:圖像感測器 140:RAM 145:ROM 150:圖像處理器 152:主機處理器 154:ISP 156:輸入/輸出(I/O)埠 160:I/O設備 300:圖像 400:圖框處理及/或擷取指令系統 430:感測器 432:零快門滯後(zero shutter lag,ZSL)緩衝器 434:短曝光圖框 436:第一MFxR引擎 438:混合圖框 440:MFHDR引擎 442:後IPE 444:PSL擷取 446:長曝光圖框 448:AWB統計 450:第一AWB引擎 451:白平衡(WB)定標器(scaler) 452:第二MFxR引擎 454:預覽圖框 456:混合圖框 458:AWB統計的低光(LL)引擎 460:第二AWB引擎 461:WB定標器 462:低光(LL)決策 464:自動曝光控制(AEC)引擎 500:時序圖 502:ZSL圖框 504:PSL圖框 506:短多圖框降噪(MFNR) 508:長MFNR和預覽 510:WB改善 512:MFHDR和後處理 1200:圖形 1202:線 1204:線 1300:TFI圖像 1302:圖像 1400:圖框處理及/或擷取指令系統 1401:輸入 1402:第一多圖框降噪(MFNR)引擎 1404:第二MFNR引擎 1406:第三MFNR引擎 1408:自動白平衡(AWB)引擎 1410:長圖框緩衝器 1411:第一長曝光圖框 1412:AWB控制參數 1413:ZSL緩衝器 1414:中曝光圖框 1415:ZSL緩衝器 1416:短曝光圖框 1418:聚合TFI圖像 1420:單個混合長曝光圖框 1422:ML ISP 1424:經濾波長曝光圖框 1440:多圖框高動態範圍(MFHDR)引擎 1441:單個短曝光 1442:短曝光圖框 1447:混合長曝光圖像 1448:ALGM圖 1449:第一縮小引擎 1451:第二縮小引擎 1452:放大引擎 1458:低光引擎 1464:AEC引擎 1700:圖框處理及/或擷取指令系統 1702:第一MFNR引擎 1708:回AWB引擎 1710:附加處理元件 1712:AWB控制參數 1718:聚合TFI圖像 1720:最終混合圖框 1722:ML ISP 1740:MFHDR引擎 1802:ZSL圖框 1804:當前圖框 1806:先前圖框 1808:當前圖框 1810:先前圖框 1902:原始圖框 1904:拜耳處理分段(BPS) 1906:數位訊號處理器(DSP) 1908:紅色(R)分量 1910:YUV圖框 1912:U色度通道 1914:V色度通道 2102:圖框 2104:圖框 2200:程序 2202:方塊 2204:方塊 2206:方塊 2208:方塊 2300:程序 2302:方塊 2304:方塊 2306:方塊 2308:方塊 2400:神經網路 2420:輸入層 2422a:隱藏層 2422b:隱藏層 2422n:隱藏層 2424:輸出層 2426:節點 2500:迴旋神經網路(CNN) 2520:輸入層 2522a:迴旋隱藏層 2522b:池化隱藏層 2522c:全連接隱藏層 2524:輸出層 2600:計算系統 2605:連接 2610:處理器 2612:快取記憶體 2615:系統記憶體 2620:唯讀記憶體(ROM) 2625:隨機存取記憶體(RAM) 2630:儲存裝置 2632:服務 2634:服務 2635:服務 2636:服務 2640:通訊介面 2645:輸入裝置 B:藍色 G:綠色 Gb:綠色通道 Gr:綠色通道 MFNR:多圖框降噪 P010:格式 R:紅色 U:通道 V:通道
下面參考以下附圖對本案的說明性實施例進行詳細描述:
圖1是圖示出根據某些示例的圖框處理及/或擷取指令系統的示例架構的方塊圖;
圖2是圖示出用於不同示例場景的各種勒克斯(lux)值的圖;
圖3是在超低光條件期間擷取的圖像;
圖4是圖示出根據某些示例的圖框處理及/或擷取指令系統的示例的方塊圖;
圖5是圖示出根據某些示例的由圖4的圖框處理及/或擷取指令系統執行的不同程序的時序的示例的時序圖;
圖6-圖11是圖示出根據某些示例的圖4的圖框處理及/或擷取指令系統的實現的示例的圖;
圖12是根據某些示例的繪製運動相對於曝光持續時間(或曝光時間)和圖框計數的圖形;
圖13是圖示出根據某些示例的圖像和時間濾波器指示(temporal filter indication,TFI)圖像的圖;
圖14A是圖示出根據某些示例的圖框處理及/或擷取指令系統的另一示例的圖;
圖14B是圖示出根據某些示例的圖框處理及/或擷取指令系統的另一示例的圖;
圖15是圖示出根據某些示例的圖15A的圖框處理及/或擷取指令系統的機器學習圖像信號處理器(ML ISP)的示例的圖;
圖16是圖示出根據某些示例的圖15A和圖15B的ML ISP的神經網路的示例的圖;
圖17A和圖17B是圖示出根據某些示例的帶有用於改善白平衡的附加處理的、圖15A的圖框處理及/或擷取指令系統的圖;
圖18是圖示出根據某些示例的用於漸進地顯示圖像的程序的示例的圖;
圖19和圖20是圖示出根據某些示例的基於色度(U和V)通道的原始時間混合的示例的圖;
圖21包括根據某些示例的原始時間混合所得的圖像以及使用標準YUV圖像所得的圖像;
圖22是圖示出根據某些示例的用於決定針對某數量的圖框的曝光持續時間的程序的示例的流程圖;
圖23是圖示出根據某些示例的用於執行時間混合的程序的另一示例的流程圖;
圖24是圖示出根據某些示例的神經網路的示例的方塊圖;
圖25是圖示出根據某些示例的迴旋神經網路(CNN)的示例的方塊圖;及
圖26是圖示出用於實現本文描述的某些態樣的系統的示例的圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無 國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無
400:圖框處理及/或擷取指令系統
430:感測器
432:零快門滯後(zero shutter lag,ZSL)緩衝器
434:短曝光圖框
436:第一MFxR引擎
438:混合圖框
440:MFHDR引擎
442:後IPE
444:PSL擷取
446:長曝光圖框
448:AWB統計
450:第一AWB引擎
451:白平衡(WB)定標器(scaler)
452:第二MFxR引擎
454:預覽圖框
456:混合圖框
458:AWB統計的低光(LL)引擎
460:第二AWB引擎
461:WB定標器
462:低光(LL)決策
464:自動曝光控制(AEC)引擎

Claims (30)

  1. 一種用於處理一或多個圖框的裝置,包括: 一記憶體;及 一或多個處理器,該一或多個處理器耦合到該記憶體並且被配置為: 獲得用於一或多個圖框的一運動圖; 基於該運動圖,決定與一場景的該一或多個圖框相關聯的運動,該運動對應於該場景中的一或多個物件相對於用於擷取該一或多個圖框的一相機的移動; 基於決定的運動,決定圖框的一數量以及用於擷取該數量的圖框的一曝光;及 發出一請求以使用決定的曝光持續時間來擷取該數量的圖框。
  2. 如請求項1之裝置,其中該一或多個圖框是在接收到用於擷取該數量的圖框的一擷取命令之前獲得的。
  3. 如請求項1之裝置,其中該一或多個處理器被配置為: 對使用該決定的曝光持續時間擷取的該數量的圖框執行時間混合以產生一時間混合圖框。
  4. 如請求項3之裝置,其中該一或多個處理器被配置為: 使用一基於機器學習的圖像信號處理器對該時間混合圖框執行空間處理。
  5. 如請求項4之裝置,其中該基於機器學習的圖像信號處理器使用該運動圖作為用於對該時間混合圖框執行空間混合的輸入。
  6. 如請求項1之裝置,其中該決定的曝光持續時間基於一增益。
  7. 如請求項1之裝置,其中該運動圖包括一圖像,該圖像的每個像素包括指示以下中的至少一個的一值:每個像素的一運動量以及與該運動量相關聯的一置信值。
  8. 如請求項1之裝置,其中該一或多個處理器被配置為: 基於一或多個感測器測量,決定與該相機相關聯的全域運動;及 其中圖框的該數量以及用於擷取該數量的圖框的該曝光持續時間是基於該決定的運動和該全域運動而被決定的。
  9. 如請求項8之裝置,其中為了基於該決定的運動和該全域運動決定圖框的該數量以及用於擷取該數量的圖框的該曝光持續時間,該一或多個處理器被配置為: 基於該決定的運動和該全域運動來決定一最終運動指示;及 基於該最終運動指示決定圖框的該數量以及用於擷取該數量的圖框的該曝光持續時間。
  10. 如請求項9之裝置,其中為了基於該決定的運動和該全域運動決定該最終運動指示,該一或多個處理器被配置為: 使用用於該決定的運動的一第一權重和用於該全域運動的一第二權重來決定該決定的運動和該全域運動的一加權組合。
  11. 如請求項9之裝置,其中該一或多個處理器被配置為: 基於該最終運動指示,決定該一或多個圖框中的一運動量小於一運動閾值;及 基於該一或多個圖框中的該運動量小於該運動閾值,減少針對圖框的該數量的一圖框計數以及增加針對該決定的曝光的一曝光量。
  12. 如請求項1之裝置,其中該一或多個處理器被配置為: 基於該最終運動指示,決定該一或多個圖框中的一運動量大於一運動閾值;及 基於該一或多個圖框中的該運動量大於該運動閾值,增加針對圖框的該數量的一圖框計數以及減少針對該決定的曝光的一曝光量。
  13. 如請求項1之裝置,進一步包括被配置為擷取至少一個圖框的一相機以及被配置為顯示該至少一個圖框的一顯示器中的至少一者。
  14. 一種處理一或多個圖框的方法,該方法包括: 獲得用於一或多個圖框的一運動圖; 基於該運動圖,決定與一場景的該一或多個圖框相關聯的運動,該運動對應於該場景中的一或多個物件相對於用於擷取該一或多個圖框的一相機的移動; 基於決定的運動,決定圖框的一數量以及用於擷取該數量的圖框的一曝光;及 發出一 請求以使用決定的曝光持續時間來擷取該數量的圖框。
  15. 如請求項14之方法,其中該一或多個圖框是在接收到用於擷取該數量的圖框的一擷取命令之前獲得的。
  16. 如請求項14之方法,進一步包括: 對使用該決定的曝光持續時間擷取的該數量的圖框執行時間混合以產生一時間混合圖框。
  17. 如請求項16之方法,進一步包括: 使用一基於機器學習的圖像信號處理器對該時間混合圖框執行空間處理。
  18. 如請求項17之方法,其中該基於機器學習的圖像信號處理器使用該運動圖作為用於對該時間混合圖框執行該空間處理的輸入。
  19. 如請求項14之方法,其中該決定的曝光持續時間基於一增益。
  20. 如請求項14之方法,其中該運動圖包括一圖像,該圖像的每個像素包括指示以下中的至少一個的一值:每個像素的一運動量以及與該運動量相關聯的一置信值。
  21. 如請求項14之方法,進一步包括: 基於一或多個感測器測量,決定與該相機相關聯的全域運動; 其中圖框的該數量以及用於擷取該數量的圖框的該曝光持續時間是基於該決定的運動和該全域運動而被決定的。
  22. 如請求項21之方法,進一步包括: 基於該決定的運動和該全域運動來決定一最終運動指示; 其中圖框的該數量以及用於擷取該數量的圖框的該曝光持續時間是基於該最終運動指示而被決定的。
  23. 如請求項22之方法,其中該最終運動指示基於使用用於該決定的運動的一第一權重和用於該全域運動的一第二權重的、該決定的運動和該全域運動的一加權組合。
  24. 如請求項22之方法,進一步包括: 基於該最終運動指示,決定該一或多個圖框中的一運動量小於一運動閾值;及 基於該一或多個圖框中的該運動量小於該運動閾值,減少針對圖框的該數量的一圖框計數以及增加針對該決定的曝光持續時間的一曝光持續時間量。
  25. 如請求項22之方法,進一步包括: 基於該最終運動指示,決定該一或多個圖框中的一運動量大於一運動閾值;及 基於該一或多個圖框中的該運動量大於該運動閾值,增加針對圖框的的該數量的一圖框計數以及減少針對該決定的曝光持續時間的一曝光持續時間量。
  26. 一種儲存指令的電腦可讀取儲存媒體,該等指令在被一或多個處理器執行時,使得該一或多個處理器: 獲得用於一或多個圖框的一運動圖; 基於該運動圖,決定與一場景的該一或多個圖框相關聯的運動,該運動對應於該場景中的一或多個物件相對於用於擷取該一或多個圖框的一相機的移動; 基於決定的運動,決定圖框的一數量以及用於擷取該數量的圖框的一曝光;及 發出一 請求以使用決定的曝光持續時間來擷取該數量的圖框。
  27. 如請求項26之電腦可讀取儲存媒體,其中該一或多個圖框是在接收到用於擷取該數量的圖框的一擷取命令之前獲得的。
  28. 如請求項26之電腦可讀取儲存媒體,進一步包括指令,該等指令在被該一或多個處理器執行時,使得該一或多個處理器: 對使用該決定的曝光持續時間擷取的該數量的圖框執行時間混合以產生一時間混合圖框。
  29. 如請求項26之電腦可讀取儲存媒體,進一步包括指令,該等指令在被該一或多個處理器執行時,使得該一或多個處理器: 基於一或多個感測器測量,決定與該相機相關聯的全域運動;及 基於該決定的運動和該全域運動來決定 一最終運動指示; 其中圖框的該數量以及用於擷取該數量的圖框的該曝光持續時間是基於該最終運動指示而被決定的。
  30. 如請求項29之電腦可讀取儲存媒體,進一步包括指令,該等指令在被該一或多個處理器執行時,使得該一或多個處理器: 基於該最終運動指示,決定該一或多個圖框中的一運動量小於或大於一運動閾值; 當該一或多個圖框中的該運動量小於該運動閾值時,減少針對圖框的該數量的一圖框計數以及增加針對該決定的曝光持續時間的一曝光量;及 當該一或多個圖框中的該運動量大於該運動閾值時,增加針對圖框的該數量的一圖框計數以及減少針對該決定的曝光持續時間的曝光量。
TW110136716A 2020-10-30 2021-10-01 圖框處理及/或擷取指令系統及技術 TW202220433A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202063108221P 2020-10-30 2020-10-30
US63/108,221 2020-10-30
US17/240,837 US20220138964A1 (en) 2020-10-30 2021-04-26 Frame processing and/or capture instruction systems and techniques
US17/240,837 2021-04-26

Publications (1)

Publication Number Publication Date
TW202220433A true TW202220433A (zh) 2022-05-16

Family

ID=81379094

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110136716A TW202220433A (zh) 2020-10-30 2021-10-01 圖框處理及/或擷取指令系統及技術

Country Status (7)

Country Link
US (1) US20220138964A1 (zh)
EP (1) EP4238305A1 (zh)
JP (1) JP2023548748A (zh)
KR (1) KR20230098575A (zh)
CN (1) CN116438804A (zh)
TW (1) TW202220433A (zh)
WO (1) WO2022093478A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11636683B2 (en) * 2021-09-14 2023-04-25 Black Sesame Technologies Inc. Precise object segmentation with multi-modal input for realtime video application
US11863880B2 (en) 2022-05-31 2024-01-02 Microsoft Technology Licensing, Llc Image frame selection for multi-frame fusion
WO2023239855A1 (en) * 2022-06-08 2023-12-14 Scandit Ag Optical pattern decoding in a real scene using overlay functionality
CN117412177A (zh) * 2022-07-04 2024-01-16 北京小米移动软件有限公司 拍摄方法、装置、介质及芯片

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7546026B2 (en) * 2005-10-25 2009-06-09 Zoran Corporation Camera exposure optimization techniques that take camera and scene motion into account
US7697836B2 (en) * 2006-10-25 2010-04-13 Zoran Corporation Control of artificial lighting of a scene to reduce effects of motion in the scene on an image being acquired
JP4215266B2 (ja) * 2006-10-30 2009-01-28 パナソニック株式会社 画像生成装置および画像生成方法
US20090244301A1 (en) * 2008-04-01 2009-10-01 Border John N Controlling multiple-image capture
EP2608529B1 (en) * 2011-12-22 2015-06-03 Axis AB Camera and method for optimizing the exposure of an image frame in a sequence of image frames capturing a scene based on level of motion in the scene
KR20180027047A (ko) * 2016-09-05 2018-03-14 엘지전자 주식회사 Hdr 영상 촬영 장치 및 그 제어 방법
WO2019082831A1 (ja) * 2017-10-27 2019-05-02 キヤノン株式会社 撮像装置、撮像装置の制御方法、および、プログラム
US11107205B2 (en) * 2019-02-18 2021-08-31 Samsung Electronics Co., Ltd. Techniques for convolutional neural network-based multi-exposure fusion of multiple image frames and for deblurring multiple image frames
CN111107292B (zh) * 2019-02-28 2021-05-18 华为技术有限公司 一种录像帧率的控制方法、移动终端及计算机存储介质

Also Published As

Publication number Publication date
KR20230098575A (ko) 2023-07-04
EP4238305A1 (en) 2023-09-06
JP2023548748A (ja) 2023-11-21
CN116438804A (zh) 2023-07-14
US20220138964A1 (en) 2022-05-05
WO2022093478A1 (en) 2022-05-05

Similar Documents

Publication Publication Date Title
TW202220433A (zh) 圖框處理及/或擷取指令系統及技術
JP2023525702A (ja) 機械学習に基づく画像調整
US20210390747A1 (en) Image fusion for image capture and processing systems
US11895409B2 (en) Image processing based on object categorization
CN107613216A (zh) 对焦方法、装置、计算机可读存储介质和电子设备
US20230388623A1 (en) Composite image signal processor
WO2023192706A1 (en) Image capture using dynamic lens positions
US20220414847A1 (en) High dynamic range image processing
US20240078635A1 (en) Compression of images for generating combined images
US20230370727A1 (en) High dynamic range (hdr) image generation using a combined short exposure image
US20240144717A1 (en) Image enhancement for image regions of interest
US20230281848A1 (en) Bandwidth efficient image processing
US20230377096A1 (en) Image signal processor
WO2023279275A1 (en) Local motion detection for improving image capture and/or processing operations
US11363209B1 (en) Systems and methods for camera zoom
US20240179425A1 (en) Image sensor with multiple image readout
WO2023178588A1 (en) Capturing images using variable aperture imaging devices
US20240185401A1 (en) Area efficient high dynamic range bandwidth compression
TW202410685A (zh) 使用可變光圈成像設備擷取影像
TW202416719A (zh) 用於產生組合圖像的圖像壓縮
WO2024030691A1 (en) High dynamic range (hdr) image generation with multi-domain motion correction
WO2023140979A1 (en) Motion based exposure control for high dynamic range imaging
WO2023163799A1 (en) Foveated sensing
Koskiranta Improving Automatic Imaging Algorithms with Dual Camera System