TW202203085A - 自動相機指導和設置調整 - Google Patents
自動相機指導和設置調整 Download PDFInfo
- Publication number
- TW202203085A TW202203085A TW110118223A TW110118223A TW202203085A TW 202203085 A TW202203085 A TW 202203085A TW 110118223 A TW110118223 A TW 110118223A TW 110118223 A TW110118223 A TW 110118223A TW 202203085 A TW202203085 A TW 202203085A
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- image capture
- capture device
- captured
- settings
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/446—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/62—Control of parameters via user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/631—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
- H04N23/632—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/633—Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Studio Devices (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
圖像擷取和處理設備擷取圖像。基於圖像及/或一或多個附加圖像,圖像擷取和處理設備產生並輸出用於最佳化圖像構成、圖像擷取設置,及/或圖像處理設置的指導。可以基於圖像的物件面對的方向的決定、基於指示水平線可能傾斜的感測器量測、使用廣角鏡頭擷取的同一場景的另一圖像、同一物件的另一圖像、不同物件的另一圖像,及/或使用圖像集訓練的機器學習模型的輸出來產生指導。圖像擷取和處理設備可以自動地應用產生的指導的某些態樣,諸如圖像擷取設置及/或圖像處理設置。
Description
本案與圖像擷取和圖像處理相關。更具體地,本案係關於自動指導圖像擷取和自動調整設置以在視覺上最佳化圖像構成及/或應用特定風格的系統和方法。
在攝影中,圖像構成的某些規則或準則可以幫助攝影者在圖像中框定物件,使圖像在視覺上更具吸引力。然而,許多攝影者不熟悉圖像構成的許多不同的規則和準則,不知道如何將該等規則和準則最好地應用於不同類型的照片,或者何時忽略某些規則和準則。
相機可以應用各種圖像擷取和圖像處理設置來更改圖像的外觀。一些相機設置是在擷取照片之前或期間決定和應用的,諸如ISO、曝光時間、光圈大小、光圈級數(f/stop)、快門速度、焦距和增益。其他相機設置可以配置照片的後處理,諸如對比度、亮度、飽和度、銳度、級別、曲線,或顏色的更改。不同的相機設置可以強調圖像的不同態樣。然而,大量不同的相機設置可能會使使用者困惑。使用者可能不知道何者設置在何者場景中有幫助,亦可能不理解如何調整某些相機設置以在彼等場景中有幫助。
本文描述了用於產生和輸出圖像擷取的指導的系統和技術。圖像擷取設備擷取第一圖像。基於第一圖像,圖像擷取設備辨識對圖像擷取設備的屬性的改變。該等改變引起第一圖像和將由圖像擷取設備在擷取第一圖像之後擷取的第二圖像之間的視覺差異。圖像擷取設備可以基於擷取除第一圖像之外的其他圖像的情況下的屬性的設置來辨識改變。例如,其他圖像可以是圖示與第一圖像圖示的物件相同的物件,或者與第一圖像中圖示的物件相似的物件的圖像。在一些實例中,該等改變可以基於在該等其他圖像上訓練的機器學習模型。圖像擷取設備產生並輸出指導,以在圖像擷取設備擷取第二圖像時指示產生視覺差異的改變。該等屬性可以包括圖像擷取設備的定位(以影響圖像構成)、圖像擷取設置,及/或圖像處理設置。
在一個實例中,提供了一種用於指導圖像擷取的裝置。該裝置包括耦合到一或多個圖像感測器的一或多個連接器,其中一或多個連接器從一或多個圖像感測器接收圖像資料。該裝置包括儲存指令的一或多個記憶體單元和執行指令的一或多個處理器。一或多個處理器對指令的執行使得一或多個處理器執行指導圖像擷取的方法。該方法包括以下步驟:接收由圖像感測器擷取的場景的第一圖像。該方法包括以下步驟:辨識第一圖像中圖示的物件。該方法包括以下步驟:將第一圖像輸入到機器學習模型中,該機器學習模型使用具有所辨識的物件的複數個訓練圖像來訓練。該方法包括以下步驟:使用機器學習模型辨識對與圖像擷取相關聯的一或多個屬性的一或多個改變,該一或多個改變引起第一圖像和將由圖像感測器在擷取第一圖像之後擷取的第二圖像之間的視覺差異。該方法包括以下步驟:在圖像感測器擷取第二圖像之前輸出指示產生視覺差異的一或多個改變的指導。
在另一實例中,提供了一種指導圖像擷取的方法。該方法包括以下步驟:接收由圖像擷取設備的圖像感測器擷取的場景的第一圖像。該方法包括以下步驟:辨識第一圖像中圖示的物件。該方法包括以下步驟:將第一圖像輸入到機器學習模型中,該機器學習模型使用具有所辨識的物件的複數個訓練圖像來訓練。該方法包括以下步驟:使用機器學習模型辨識對圖像擷取設備的一或多個屬性的一或多個改變,該一或多個改變引起第一圖像和將由圖像感測器在擷取第一圖像之後擷取的第二圖像之間的視覺差異。該方法包括以下步驟:在圖像感測器擷取第二圖像之前輸出指示產生視覺差異的一或多個改變的指導。
在另一實例中,提供了其上包含程式的非暫時性電腦可讀取儲存媒體。該程式可由處理器執行,以執行指導圖像擷取的方法。該方法包括以下步驟:接收由圖像擷取設備的圖像感測器擷取的場景的第一圖像。該方法包括以下步驟:辨識第一圖像中圖示的物件。該方法包括以下步驟:將第一圖像輸入到機器學習模型中,該機器學習模型使用具有所辨識的物件的複數個訓練圖像來訓練。該方法包括以下步驟:使用機器學習模型辨識對圖像擷取設備的一或多個屬性的一或多個改變,該一或多個改變引起第一圖像和將由圖像感測器在擷取第一圖像之後擷取的第二圖像之間的視覺差異。該方法包括以下步驟:在圖像感測器擷取第二圖像之前輸出指示產生視覺差異的一或多個改變的指導。
在另一實例中,提供了一種用於指導圖像擷取的裝置。該裝置包括用於接收由圖像擷取設備的圖像感測器擷取的場景的第一圖像的構件。該裝置包括用於辨識第一圖像中圖示的物件的構件。該裝置包括用於將第一圖像輸入到機器學習模型中的構件,該機器學習模型使用具有所辨識的物件的複數個訓練圖像來訓練。該裝置包括用於使用機器學習模型辨識對圖像擷取設備的一或多個屬性的一或多個改變的構件,該一或多個改變引起第一圖像和將由圖像感測器在擷取第一圖像之後擷取的第二圖像之間的視覺差異。該裝置包括用於在圖像感測器擷取第二圖像之前輸出指示產生視覺差異的一或多個改變的指導的構件。
在一些態樣,辨識第一圖像中圖示的物件包括執行特徵偵測、目標偵測、面部偵測、特徵辨識、目標辨識、面部辨識和顯著性圖的產生中的至少一者。在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:在輸出指導之後,從圖像感測器接收第二圖像;及輸出第二圖像,其中輸出第二圖像包括使用顯示器顯示第二圖像和使用傳輸器傳輸第二圖像中的至少一者。
在一些態樣,辨識對圖像擷取設備的一或多個屬性的一或多個改變包括辨識圖像擷取設備從第一位置到第二位置的移動,其中輸出指導包括輸出用於將圖像擷取設備從第一位置移動到第二位置的指示。在一些態樣,使用機器學習模型來辨識第二位置。在一些態樣,指示包括視覺指示、聽覺指示和振動指示中的至少一者。在一些態樣,指示辨識移動的平移方向、移動的平移距離、移動的旋轉方向和移動的旋轉角度中的至少一者。
在一些態樣,指示辨識從第一位置到第二位置的平移方向。在一些態樣,指示辨識從第一位置到第二位置的平移距離。在一些態樣,指示辨識從第一位置到第二位置的旋轉方向。在一些態樣,指示辨識從第一位置到第二位置的旋轉角度。在一些態樣,指示包括第二位置的一或多個位置座標。在一些態樣,第一圖像和第二圖像之間的視覺差異使第二圖像中的水平線水平,其中該水平線不是如第一圖像中圖示的水平。
在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:從一或多個姿態感測器接收姿態感測器量測資料;和基於姿態感測器量測資料決定該裝置的姿態,其中辨識該裝置從第一位置到第二位置的移動是基於該裝置的姿態,其中該裝置的姿態包括該裝置的位置和該裝置的方位中的至少一者。在一些態樣,該一或多個姿態感測器包括加速度計、陀螺儀、磁力計、慣性量測單元、全球導航衛星系統(GNSS)接收器和海拔計中的至少一者。
在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:決定在第一圖像中物件的位置;和決定在第一圖像中物件面對的方向,其中辨識圖像擷取設備從第一位置到第二位置的移動基於在第一圖像中物件的位置和在第一圖像中物件面對的方向。在一些態樣,決定在第一圖像中物件面對的方向是基於物件的兩個特徵的相對定位。在一些態樣,決定在第一圖像中物件面對的方向是基於物件的複數個特徵在第一圖像內相對於彼此的定位。在一些態樣,物件是人,並且物件的複數個特徵包括人的耳朵、人的臉頰、人的眼睛、人的眉毛、人的鼻子、人的嘴、人的下巴和人的附屬物中的至少一者。
在一些態樣,決定在第一圖像中物件面對的方向是基於物件在第一圖像和由圖像感測器擷取的第三圖像之間移動的移動方向。在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:接收由圖像感測器擷取的第三圖像,第三圖像圖示物件;和基於在第一圖像中物件的位置和在第三圖像中物件的位置來決定物件的移動方向,其中決定在第一圖像中物件面對的方向是基於物件的移動方向。在一些態樣,第一圖像和第二圖像之間的視覺差異包括在物件面對的方向上鄰近物件的負空間的增加。
在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:接收由第二圖像感測器擷取的場景的第三圖像,其中場景的第一圖像和場景的第三圖像是在時間訊窗內擷取的,其中該第二圖像感測器具有比該圖像感測器更寬的視野,其中該指導基於第三圖像中對場景的、在第一圖像中未被圖示的一部分的圖示。
在一些態樣,該指導指示圖像擷取設備在第一圖像的擷取和第二圖像的擷取之間要保持靜止。
在一些態樣,複數個訓練圖像包括圖示了物件和與該物件共享一或多個相似處的第二物件中的至少一者的訓練圖像,其中由該指導指示的對該一或多個屬性的該一或多個改變是基於對用於擷取該訓練圖像的該一或多個屬性的一或多個設置。在一些態樣,第二物件和該物件之間共享的一或多個相似處包括:與第二物件相關聯的一或多個顯著性值在與物件相關聯的一或多個顯著性值的預定範圍內。在一些態樣,第一圖像和第二圖像之間的視覺差異包括:第二圖像與訓練圖像比第一圖像與訓練圖像更相似。在一些態樣,
在一些態樣,對與圖像擷取相關聯的該一或多個屬性的該一或多個改變包括:在圖像感測器擷取第二圖像之前應用圖像擷取設置,其中圖像擷取設置對應於變焦、聚焦、曝光時間、光圈大小、ISO、景深、類比增益和光圈級數中的至少一者。在一些態樣,輸出指導包括輸出指示,該指示辨識與應用圖像擷取設置相對應的、對與圖像擷取相關聯的該一或多個屬性的該一或多個改變。在一些態樣,輸出指導包括自動地應用與應用圖像擷取設置相對應的、對與圖像擷取相關聯的一或多個屬性的該一或多個改變。
在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:接收由圖像感測器擷取的第二圖像,其中對與圖像擷取相關聯的該一或多個屬性的該一或多個改變包括對第二圖像應用圖像處理設置,其中該圖像處理設置對應於亮度、對比度、飽和度、伽馬、等級、長條圖、顏色調整、模糊、銳度、等級、曲線、濾波和裁剪中的至少一者。在一些態樣,輸出指導包括輸出指示,該指示辨識與應用圖像處理設置相對應的、對與圖像擷取相關聯的該一或多個屬性的該一或多個改變。在一些態樣,輸出指導包括自動地應用與應用圖像處理設置相對應的、對與圖像擷取相關聯的該一或多個屬性的該一或多個改變。
在一些態樣,該裝置包括相機、行動設備(例如,行動電話或所謂的「智慧型電話」或其他行動設備)、無線通訊設備、可穿戴設備、頭戴式顯示器(HMD)、擴展現實設備(例如,虛擬實境(VR)設備、增強現實(AR)設備或混合現實(MR)設備)、個人電腦、膝上型電腦、伺服器電腦,或其他設備。在一些態樣,該裝置包括用於擷取一或多個圖像的一或多個相機。在一些態樣,該裝置亦包括圖像感測器。在一些態樣,該裝置亦包括耦合到圖像感測器的一或多個連接器,其中該一或多個處理器經由該一或多個連接器從圖像感測器接收第一圖像。在一些態樣,該裝置亦包括用於至少顯示第二圖像的顯示器。在一些態樣,該裝置亦包括用於顯示一或多個圖像、通知及/或其他可顯示資料的顯示器。
該發明內容不意欲辨識所主張保護的標的的關鍵或必要特徵,亦不意欲單獨用於決定所主張保護的標的的範疇。該標的應該經由參考本專利的整個說明書的適當部分、任何或所有附圖,以及每個請求項來理解。
參考以下說明書、申請專利範圍和附圖,前述內容以及其他特徵和實施例將變得更加明顯。
下文提供了本案的某些態樣和實施例。該等態樣和實施例中的一些可以獨立應用,並且其中的一些可以組合應用,此情形對熟習此項技術者而言將是顯而易見的。在以下描述中,出於解釋的目的,闡述了具體細節,以便提供對本案的實施例的透徹理解。然而,顯而易見的是,沒有該等具體細節亦可以實踐各種實施例。附圖和描述不意欲是限制性的。
隨後的描述僅提供示例性實施例,並不意欲限制本案的範疇、應用或配置。相反,隨後對示例性實施例的描述將為熟習此項技術者提供實現示例性實施例的賦能描述。應當理解,在不脫離所附請求項中闡述的本案的精神和範疇的情況下,可以對元件的功能和佈置進行各種改變。
圖像擷取和處理設備擷取圖像。基於圖像及/或一或多個附加圖像,產生並輸出用於最佳化圖像構成、圖像擷取設置,及/或圖像處理設置的指導。例如,可以基於圖像的物件面對的方向的決定、指示水平線可能傾斜的感測器量測、使用廣角鏡頭擷取的同一場景的另一圖像、同一物件的另一圖像、不同物件的另一圖像,及/或使用圖像集訓練的機器學習模型的輸出來產生指導。圖像擷取和處理設備可以自動地應用產生的指導的某些態樣,諸如圖像擷取設置及/或圖像處理設置。
圖1是圖示圖像擷取和處理系統100的架構的方塊圖。圖像擷取和處理系統100包括用於擷取和處理場景的圖像(例如,場景110的圖像)的各種元件。圖像擷取和處理系統100可以擷取獨立圖像(或照片)及/或可以擷取包括按特定序列的多個圖像(或視訊訊框)的視訊。系統100的鏡頭115面向場景110,並接收來自場景110的光。鏡頭115將光朝向圖像感測器130彎曲。由鏡頭115接收的光穿過由一或多個控制機構120控制的光圈,並由圖像感測器130接收。
一或多個控制機構120可以基於來自圖像感測器130的資訊及/或基於來自圖像處理器150的資訊來控制曝光、聚焦,及/或變焦。一或多個控制機構120可以包括多個機構和元件;例如,控制機構120可以包括一或多個曝光控制機構125A、一或多個聚焦控制機構125B,及/或一或多個變焦控制機構125C。一或多個控制機構120除了所示控制機構之外亦可以包括附加控制機構,諸如控制類比增益、閃光、HDR、景深,及/或其他圖像擷取屬性的控制機構。
控制機構120的聚焦控制機構125B可以獲得聚焦設置。在一些實例中,聚焦控制機構125B將聚焦設置儲存在記憶體暫存器中。基於聚焦設置,聚焦控制機構125B可以相對於圖像感測器130的位置調節鏡頭115的位置。例如,基於聚焦設置,聚焦控制機構125B可以經由致動馬達或伺服機構來將鏡頭115移動得更靠近圖像感測器130或更遠離圖像感測器130,從而調節聚焦。在一些情況下,系統100中可以包括附加鏡頭,諸如圖像感測器130的每個光電二極體上的一或多個微鏡頭,其中每個微鏡頭在光到達光電二極體之前將從鏡頭115接收的光朝向對應的光電二極體彎曲。聚焦設置可以經由對比度偵測自動聚焦(CDAF)、相位偵測自動聚焦(PDAF),或其某種組合來決定。可以使用控制機構120、圖像感測器130,及/或圖像處理器150來決定聚焦設置。聚焦設置可以被稱為圖像擷取設置及/或圖像處理設置。
控制機構120的曝光控制機構125A可以獲得曝光設置。在一些情況下,曝光控制機構125A將曝光設置儲存在記憶體暫存器中。基於該曝光設置,曝光控制機構125A可以控制光圈的大小(例如,光圈大小或光圈級數)、光圈開啟的持續時間(例如,曝光時間或快門速度)、圖像感測器130的靈敏度(例如,ISO速度或膠片速度)、圖像感測器130施加的類比增益,或其任意組合。曝光設置可以被稱為圖像擷取設置及/或圖像處理設置。
控制機構120的變焦控制機構125C可以獲得變焦設置。在一些實例中,變焦控制機構125C將變焦設置儲存在記憶體暫存器中。基於變焦設置,變焦控制機構125C可以控制包括鏡頭115和一或多個附加鏡頭的鏡頭元件的組件(鏡頭組件)的焦距。例如,變焦控制機構125C可以經由致動一或多個馬達或伺服機構來相對於彼此移動一或多個鏡頭來控制鏡頭組件的焦距。變焦設置可以被稱為圖像擷取設置及/或圖像處理設置。在一些實例中,鏡頭組件可以包括變焦(parfocal zoom)鏡頭或變焦(varifocal zoom)鏡頭。在一些實例中,鏡頭組件可以包括首先接收來自場景110的光的聚焦鏡頭(在一些情況下可以是鏡頭115),隨後光在到達圖像感測器130之前穿過聚焦鏡頭(例如,鏡頭115)和圖像感測器130之間的無焦點(afocal)變焦系統。在一些情況下,無焦點變焦系統可以包括焦距相等或相似(例如,在閾值差內)的兩個正鏡頭(例如,會聚鏡頭、凸鏡頭),其中在該兩個正鏡頭之間有負鏡頭(例如,發散鏡頭、凹鏡頭)。在一些情況下,變焦控制機構125C移動無焦點變焦系統中的一或多個鏡頭,諸如負鏡頭和一個或兩個正鏡頭。
圖像感測器130包括光電二極體或其他光敏元件的一或多個陣列。每個光電二極體量測最終對應於由圖像感測器130產生的圖像中的特定圖元的光量。在一些情況下,不同的光電二極體可以被不同的濾色器覆蓋,並且因此可以量測與覆蓋光電二極體的濾色器的顏色相匹配的光。例如,拜耳(Bayer)濾色器包括紅色濾色器、藍色濾色器和綠色濾色器,其中圖像的每個圖元基於來自覆蓋在紅色濾色器中的至少一個光電二極體的紅光資料、來自覆蓋在藍色濾色器中的至少一個光電二極體的藍光資料和來自覆蓋在綠色濾色器中的至少一個光電二極體的綠光資料產生。其他類型的濾色器可以使用黃色、品紅色,及/或青色(亦稱為「祖母綠」)濾色器來替代紅色、藍色,及/或綠色濾色器,或可以除了紅色、藍色及/或綠色濾色器之外亦使用黃色、品紅色,及/或青色(亦稱為「祖母綠」)濾色器。一些圖像感測器可能完全沒有濾色器,而是替代地在整個圖元陣列(在某些情況下,垂直堆疊)中使用不同的光電二極體。整個圖元陣列中的不同光電二極體可以具有不同的光譜靈敏度曲線,因此回應不同波長的光。單色圖像感測器亦可以缺少濾色器,並且因此缺少色彩深度。
在一些情況下,圖像感測器130可替代地或附加地包括不透明及/或反射遮罩,其阻擋光在某些時間及/或從某些角度到達某些光電二極體或某些光電二極體的部分,此舉可用於相位偵測自動聚焦(PDAF)。圖像感測器130亦可以包括放大由光電二極體輸出的類比信號的類比增益放大器及/或將光電二極體輸出的(及/或由類比增益放大器放大的)類比信號轉換成數位信號的類比數位轉換器(ADC)。在一些情況下,關於控制機構120中的一或多個論述的某些元件或功能可以替代地或附加地包括在圖像感測器130中。圖像感測器130可以是電荷耦合元件(CCD)感測器、電子倍增CCD(EMCCD)感測器、主動圖元感測器(APS)、互補金屬氧化物半導體(CMOS)、N型金屬氧化物半導體(NMOS)、混合CCD/CMOS感測器(例如,sCMOS),或其一些其他組合。
圖像處理器150可以包括一或多個處理器,諸如一或多個圖像信號處理器(ISP)(包括ISP 154)、一或多個主處理器(包括主處理器152),及/或關於計算設備1800論述的一或多個任何其他類型的處理器1810。主處理器152可以是數位信號處理器(DSP)及/或其他類型的處理器。在一些實施方式中,圖像處理器150是單個積體電路或晶片(例如,稱為晶片上系統或SoC),其包括主處理器152和ISP 154。在一些情況下,晶片亦可以包括一或多個輸入/輸出埠(例如,輸入/輸出(I/O)埠156)、中央處理單元(CPU)、圖形處理單元(GPU)、寬頻數據機(例如,3G、4G或LTE、5G等)、記憶體、連接元件(例如,藍芽TM
、全球定位系統(GPS)等)、其任意組合,及/或其他組件。I/O埠156可以包括根據一或多個協定或規範的任何合適的輸入/輸出埠或介面,諸如積體電路2(I2C)間介面、積體電路3(I3C)間介面、串列周邊介面(SPI)介面、串列通用輸入/輸出(GPIO)介面、行動工業處理器介面(MIPI)(諸如MIPI CSI-2實體(PHY)層埠或介面、高級高效能匯流排(AHB)匯流排、其任意組合,及/或其他輸入/輸出埠。在一個說明性實例中,主機處理器152可以使用I2C埠與圖像感測器130通訊,並且ISP 154可以使用MIPI埠與圖像感測器130通訊。
圖像處理器150可以執行許多任務,諸如去馬賽克、彩色空間轉換、圖像訊框下取樣、圖元內插、自動曝光(AE)控制、自動增益控制(AGC)、CDAF、PDAF、自動白平衡、合併圖像訊框以形成HDR圖像、圖像辨識、目標辨識、特徵辨識、輸入的接收、管理輸出、管理記憶體,或其某種組合。圖像處理器150可以將圖像訊框及/或處理後的圖像儲存在隨機存取記憶體(RAM)140/1820、唯讀記憶體(ROM)145/1825、快取記憶體、記憶體單元、另一儲存設備,或其某種組合中。
各種輸入/輸出(I/O)設備160可以連接到圖像處理器150。I/O設備160可以包括顯示螢幕、鍵盤、小鍵盤、觸控式螢幕、觸控板、觸敏表面、印表機、任何其他輸出設備1835、任何其他輸入設備1845,或其某種組合。在一些情況下,可以經由I/O設備160的實體鍵盤或小鍵盤,或者經由I/O設備160的觸控式螢幕的虛擬鍵盤或小鍵盤,將字幕輸入到圖像處理設備105B中。I/O設備160可以包括一或多個埠、插孔,或其他連接器,其實現系統100和一或多個周邊設備之間的有線連接,系統100可以經由該有線連接從一或多個周邊設備接收資料及/或向一或多個周邊設備傳輸資料。I/O設備160可以包括一或多個無線收發器,其實現系統100和一或多個周邊設備之間的無線連接,系統100可以經由該無線連接從一或多個周邊設備接收資料及/或向一或多個周邊設備傳輸資料。周邊設備可以包括前面論述的任何類型的I/O設備160,並且一旦該等周邊設備耦合到埠、插孔、無線收發器,或其他有線及/或無線連接器,該等周邊設備本身可以被認為是I/O設備160。
在一些情況下,圖像擷取和處理系統100可以是單個設備。在一些情況下,圖像擷取和處理系統100可以是兩個或更多個單獨的設備,包括圖像擷取設備105A(例如,相機)和圖像處理設備105B(例如,耦合到相機的計算設備)。在一些實施方式中,圖像擷取設備105A和圖像處理設備105B可以例如經由一或多個電線、電纜,或其他電連接器耦合在一起,及/或經由一或多個無線收發器無線耦合在一起。在一些實施方式中,圖像擷取設備105A和圖像處理設備105B可以彼此斷開。
如圖1所示,垂直虛線將圖1的圖像擷取和處理系統100劃分成分別表示圖像擷取設備105A和圖像處理設備105B的兩個部分。圖像擷取設備105A包括鏡頭115、控制機構120和圖像感測器130。圖像處理設備105B包括圖像處理器150(包括ISP 154和主處理器152)、RAM 140、ROM 145和I/O 160。在一些情況下,圖像擷取設備105A中圖示的某些組件,諸如ISP 154及/或主處理器152,可以包括在圖像擷取設備105A中。
圖像擷取和處理系統100可以包括電子設備,諸如行動或固定電話手機(例如,智慧手機、蜂巢式電話等)、桌上型電腦、膝上型或筆記型電腦、平板電腦、機上盒、電視機、相機、顯示設備、數位媒體播放機、視訊遊戲控制台、視訊串流設備、網際網路協定(IP)相機,或任何其他合適的電子設備。在一些實例中,圖像擷取和處理系統100可以包括用於無線通訊(諸如蜂巢網路通訊、802.11 wi-fi通訊、無線區域網路(WLAN)通訊,或其某種組合)的一或多個無線收發器。在一些實施方式中,圖像擷取設備105A和圖像處理設備105B可以是不同的設備。例如,圖像擷取設備105A可以包括相機設備,並且圖像處理設備105B可以包括計算設備,諸如行動手機、桌上型電腦,或其他計算設備。
儘管圖像擷取和處理系統100被示為包括某些元件,但是一般技術者將會理解,圖像擷取和處理系統100可以包括比圖1所示的彼等更多的組件。圖像擷取和處理系統100的元件可以包括軟體、硬體,或者軟體和硬體的一或多個組合。例如,在一些實施方式中,圖像擷取和處理系統100的元件可以包括電子電路或其他電子硬體及/或可以使用電子電路或其他電子硬體來實現,電子電路或其他電子硬體可以包括一或多個可程式設計電子電路(例如,微處理器、GPU、DSP、CPU,及/或其他合適的電子電路),及/或可以包括電腦軟體、韌體,或其任意組合及/或使用電腦軟體、韌體,或其任意組合來實現,以執行本文描述的各種操作。軟體及/或韌體可以包括儲存在電腦可讀取儲存媒體上並可由實現圖像擷取和處理系統100的電子設備的一或多個處理器執行的一或多個指令。
傳統的相機系統(例如,圖像感測器和ISP)是用參數調諧的,並根據調諧的參數處理圖像。ISP通常在生產期間使用固定的調諧方法進行調諧。相機系統(例如,圖像感測器和ISP)通常亦基於預定義的條件(諸如,光照水平、色溫、曝光時間等)來執行全域圖像調整。典型的相機系統亦使用粗精度的基於啟發式的調諧(例如,基於訊窗的局部色調映射)進行調諧。結果,傳統的相機系統不能基於圖像中包含的內容來增強圖像。
圖2A是圖示在圖像210中心的物件205的概念圖。在圖2A的示例性圖像210中,物件205是其面部在圖像210中水平居中並且在圖像210的頂部三分之一處垂直定向的人。
四條虛線直線穿過圖像210,將圖像210分成大小相等的九個區域。四條虛線包括兩條垂直線和兩條水平線。兩條垂直線彼此平行並且平行於圖像210的左側和右側,並且垂直於水平線以及圖像210的頂部和底部。第一條垂直虛線在其左側包括圖像210的三分之一,並且在其右側包括圖像210的三分之二。第二條垂直虛線在其右側包括圖像210的三分之一,並且在其左側包括圖像210的三分之二。兩條水平線彼此平行並且平行於圖像210的頂部和底部,並且垂直於垂直線以及圖像210的左側和右側。第一條水平虛線在其上方包括圖像210的三分之一和在其下方包括圖像210的三分之二。第二條水平虛線在其下方包括圖像210的三分之一和在其上方包括圖像210的三分之二。該等虛線以及該等虛線所表示的圖像部分可以被稱為指導線、三分線、格線,或其某種組合。
三分規則是一種圖像構成規則或準則,其指示,與簡單地將物件對準在圖像中心或圖像中物件的其他位置相比,將物件沿著該等三分線之一對準,或對準到該等三分線中的兩者的交叉點在視覺上更有趣,並且產生更多的張力、能量和興趣。在圖2A中,物件205—人臉—在兩條垂直的三分線之間,並且在頂部水平三分線之上,根據三分規則,此情形是次優的。
圖2B是圖示圖2A的物件205與表示圖像220的三分之一的兩條線對準的概念圖。具體地,圖2A的虛線三分線亦在圖2B中圖示,並且物件205—人臉—位於右側垂直三分線和頂部水平三分線的交點的中心。基於三分規則,則,圖2B的圖像220比圖2B的圖像210具有更好的圖像構成。
一些圖像具有多個物件。因為有四條三分線和四個三分線交叉點,所以可以經由將每個物件與該四條三分線中的至少一條及/或該四個三分線交叉點中的至少一個對準來改良具有多個物件的圖像中的圖像構成。在圖像圖示多個物件的一些情況下,可以經由將物件的至少一個子集與該四條三分線中的至少一條對準及/或對準到該四條三分線交叉點的至少一個來改良圖像構成。例如,可以選擇最突出的物件與該四條三分線中的至少一條對準,及/或對準到該四條三分線交叉點中的至少一條。
圖3A是圖示在圖像310的左手側圖示的向左移動的物件305的概念圖。在圖3A的示例性圖像310中,物件305是遛狗的人。物件305面對左側並向左行走。
關於圖像構成的另一規則或準則指示,在面對特定方向的物件的前面應該留出負空間,尤其是若物件在彼方向上移動。觀看者的眼睛被吸引來看物件正在看何處及/或向何處移動。在圖像中在物件的前面包括負空間允許觀看者看到物件正在看及/或向其移動的更多空間,使得觀看者對圖像更感興趣。另一態樣,在圖像中未能在物件的前方包括太多的負空間導致觀看者的注視在看向物件的前方時突然終止,而是在物件的後方包括更多的區域,此情形在視覺上不如在物件的前方的區域有趣。
在圖3A中,物件305面對左側並向左行走,並且位於圖像310的左手側,看起來與圖像310中的左側垂直三分線對準。然而,儘管遵循三分規則,圖像310的圖像構成不是很好,因為在圖像310中在物件305的前面包括非常少的負空間,並且在圖像310中在物件305的後面包括大量空間。
圖3B是圖示在圖像320的右手側圖示的圖2A的向左移動的物件305的概念圖。物件305在圖像320中仍然面對左側並向左側行走,但是現在與圖像320中的右側垂直三分線對準。因此,與圖像310相比,圖像320在物件305的前面包括更多的負空間,此情形意味著針對負空間,圖像320比圖像310具有更好的圖像構成。
圖2A-圖3B所展示的三分規則和圖3A-圖3B所展示的負空間規則僅是眾多圖像構成規則或準則中的兩個,該等規則可以幫助攝影者以使圖像在視覺上更具吸引力的方式來框定圖像中的物件。另一圖像構成規則或準則指示,當圖像中的線(無論是直線或曲線)是將觀看者引向圖像的物件的「導引」線時,圖像構成得到改良。該等線可以是道路、鐵路、海岸線、河流、彙聚的建築物、一排樹、一排雲端、一排鳥或人或其他生物、一排汽車、人的肢體、其他類型的線,或其組合。另一圖像構成規則或準則指示,當圖像顯示出具有匹配或類似元素的對稱時,圖像構成得到改良,無論對稱是垂直的、水平的、徑向的還是其他的。對稱為場景提供了平衡,並且例如,可以經由在圖像的相對端提供兩個物件來實現。另一態樣,有意的不對稱亦可以改良圖像構成,若有意的不對稱亦能給圖像提供平衡的話。不對稱平衡可以經由色調平衡(暗對亮)、顏色平衡(粗/亮對細微/中性)、大小平衡(大對小)、紋理平衡(高紋理對平滑)、空間平衡(觀看者的眼睛方向或物件移動到空間對移動到訊框邊緣)、抽象平衡(對比兩種觀點,諸如自然對工業、舊對新、快樂對悲傷等),或其某種組合來實現。
另一圖像構成規則或準則指示,經由包含暗示和諧的圖案來改良圖像構成。圖案可能包括一排柱子、書架上的書、一排人、磚牆上的磚塊、花朵上的花瓣、海浪卷向海灘和其他圖案。另一圖像構成規則或準則指示,經由用圖像的一或多個物件儘可能多的填充圖像訊框(邊界),使得圖像的物件清晰,來改良圖像構成。當圖像擷取設備105A靠近物件時,當圖像擷取設備105A使用變焦鏡頭來放大物件時,或者當圖像處理設備105B在擷取後裁剪圖像以從圖像中移除未被一或多個物件佔據的空間時,可以實現填充訊框。填充訊框可以改良圖像構成,尤其是當物件周圍的區域很繁雜或以其他方式分散注意力時。相反,當物件周圍的區域簡單(例如,藍天)而不繁雜或分散注意力時,在物件周圍提供負空間亦有助於將觀看者的眼睛吸引到物件上,並且因此改良圖像構成。如以上關於圖3A-圖3B所論述的,當物件在圖像內面對或移動時,包括負空間是有用的。
另一圖像構成規則或準則指示,經由在場景中包括多層深度來改良圖像構成,其中物件(例如,生物、目標,或作為圖像中的焦點的其他感興趣的視覺元素)在圖像的前景中、在圖像的背景中和在中間的一層或多層中。相關的圖像構成規則或準則指示,經由使用景深來改良圖像構成,以確保由於景深圖像的物件銳利,而不太重要的區域被模糊。例如,淺(窄)景深可以為肖像圖像提供改良的圖像構成,並且使得物件在圖像中清晰和銳利,而物件背景中的任何東西(在物件後面並且離圖像擷取設備105A更遠)及/或物件前景中的任何東西(在物件前面並且更靠近圖像擷取設備105A)看起來比物件更模糊。另一態樣,深(寬)景深可以為風景圖像提供改良的圖像構成,並且通常允許圖像的大部分是銳利的。圖像構成亦可以經由以其他方式減少干擾來改良,即使不是經由景深,例如經由使相對於物件的背景模糊、使相對於物件的背景變暗,或使相對於物件的背景變亮。
另一圖像構成規則或準則指示,經由用圖像中亦包括的視覺元素來框定物件,來改良圖像構成。例如,若圖像的物件在視覺上由一或多個拱門、門道、開口、橋、樹、樹枝、洞穴、山、牆、臂、肢或其某種組合構成,則圖像構成會得到改良。另一圖像構成規則或準則指示經由以下方式來改良圖像構成:在圖像中包括對角線及/或三角形,此舉可以為圖像提供張力及/或更自然的感覺,其中圖像通常被擷取及/或儲存為正方形或矩形。另一圖像構成規則或準則指示,對熟悉的物件的不尋常的視角可以經由使產生的圖像更有趣來改良圖像構成。例如,一個人或一群人的肖像若從該人或該群人上方的鳥瞰視圖或者從該人或該群人下方的蟲眼視圖擷取,而不是簡單地在該人或該群人的視線水平上正前方擷取,可能在視覺上會更有趣。另一圖像構成規則或準則指示,若移動的物件從圖像的左側移動到圖像的右側,圖像構成會得到改良,因為大多數觀看者是從左向右閱讀的。若圖像包括奇數個物件或視覺元素,亦可以改良圖像構成。
絕對數量的不同的圖像構成規則和準則會導致圖像構成規則和準則對於新攝影者而言是令人困惑的,並且難以學習,甚至對於專業攝影者而言亦難以掌握。因此,向使用者提供指導以改良圖像構成及/或能夠自動調整設置以改良圖像構成的圖像擷取設備105A及/或圖像處理設備105B將產生具有優於不提供此種指導的圖像擷取設備105A及/或圖像處理設備105B的圖像構成的優異圖像。
圖4是圖示帶有對某些特徵的標記的人臉的三個圖像的概念圖,該等標記可用於決定人臉所面對的方向。圖4的第一圖像410圖示面對圖像右側的人臉。圖4的第二圖像420圖示在圖像中面對前方、朝向擷取第二圖像420的圖像擷取設備105A的人臉。圖4的第三圖像430圖示面對圖像左側的人臉。
在三個圖像410、420和430中標記了幾個面部特徵。具體地,在三個圖像410、420和430中,所有的眼睛、耳朵、臉頰和鼻子皆被辨識並標記有白色圓圈指示及/或標籤。可以偵測到但在圖4的圖像410、420和430中沒有標記的其他面部特徵包括嘴、下巴、眉毛和鼻孔。在從圖像感測器接收到圖像之後,圖像處理設備105B可以使用特徵偵測演算法來偵測該等特徵的任意組合。特徵偵測演算法可以包括特徵偵測、目標偵測、面部偵測、標誌偵測、邊緣偵測、特徵辨識、目標辨識、面部辨識、標誌辨識、圖像分類、電腦視覺,或其某種組合。
一旦圖像處理設備105B從圖像感測器接收到圖像並偵測到該等特徵,圖像處理設備105B就可以基於該等特徵來決定物件面對的方向。此舉可以經由將圖像中位於物件左側(例如,人臉的左側)的兩個特徵之間的距離與圖像中位於物件右側(例如,人臉的右側)的兩個特徵之間的距離進行比較來完成。例如,物件的左臉頰和物件的左耳之間的「左距離」可以與物件的右臉頰和物件的右耳之間的「右距離」進行比較。
若圖像處理設備105B接收圖像,並且決定圖像的物件的左距離和右距離彼此相等,或者在彼此的閾值內,則圖像處理設備105B決定物件面對前方,如在第二圖像420中一般。若圖像處理設備105B接收到圖像並且決定圖像的物件的左距離超過右距離至少閾值量,則圖像處理設備105B決定物件面對右方,如在第一圖像410中一般。若圖像處理設備105B接收到圖像並且決定圖像的物件的右距離超過左距離至少閾值量,則圖像處理設備105B決定物件面對左方,如在第三圖像430中一般。亦可以將左距離和右距離計算為分別從左側或右側特徵到中心特徵(例如人的鼻子、嘴或下巴)的距離。例如,左距離可以是從物件鼻尖到物件左眼的距離,而右距離是從物件鼻尖到物件右眼的距離。根據物件中最清晰可見的特徵,可以使用不同的特徵。例如,若物件有覆蓋物件耳朵的長髮,則物件的眼睛或臉頰可以代替物件的耳朵用作計算左距離值和右距離值的特徵。另一態樣,若某些特徵不可見,此舉亦可以用於決定物件面對的方向。例如,若圖像處理設備105B在圖像中偵測到物件的左耳,但是不能在圖像中偵測到物件的右耳,則圖像處理設備105B可以決定物件正面對右側,因為物件的右耳隱藏在物件後面。類似地,若圖像處理設備105B在圖像中偵測到物件的右耳,但是不能在圖像中偵測到物件的左耳,則圖像處理設備105B可以決定物件正面對左側,因為物件的左耳隱藏在物件後面。
注意,如本文所論述的,物件的左側意味著物件最靠近圖像左側及/或在圖像中所圖示的物件左側的一側,並且物件的右側意味著物件最靠近圖像右側及/或在圖像中所圖示的物件右側的一側。因此,在一些情況下,本文所論述的物件的左耳或左眼或左臉頰可以是物件自己可能認為的其右耳或右眼或右臉頰,反之亦然。因此,應當理解,該等方向可以反向,以便從物件的角度而不是從所擷取的圖像的角度來論述方向。
特徵偵測及/或辨識演算法可以使用任何合適的特徵辨識及/或偵測技術來執行。在一些實施方式中,由圖像處理設備105B應用的特徵偵測及/或辨識演算法可以包括及/或合併圖像偵測及/或辨識演算法、目標偵測及/或辨識演算法、面部偵測及/或辨識演算法、特徵偵測及/或辨識演算法、標誌偵測及/或辨識演算法、邊緣偵測演算法、邊界追蹤功能,或其某種組合。特徵偵測是用於從圖像或視訊訊框中偵測(或定位)目標特徵的技術。偵測到的特徵或目標可以使用邊界區域來表示,該等邊界區域辨識圖像或視訊訊框中目標(例如,面部)的位置及/或近似邊界。偵測到的目標的邊界區域可以包括邊界框、邊界圓、邊界橢圓、邊界多邊形,或表示及/或包括偵測到的目標的任何其他合適形狀的區域。物件偵測及/或辨識可用於辨識偵測到的物件及/或將偵測到的目標辨識和分類到目標的類別或類型中。例如,特徵辨識可以辨識場景區域中的多個邊緣和拐角。目標偵測可以偵測到在該區域中偵測到的邊緣和拐角皆屬於單個目標。目標偵測及/或物件辨識及/或面部偵測可以辨識出該目標是人臉。目標辨識及/或面部辨識可以進一步辨識出與該面部相對應的人的身份。
在一些實施方式中,可以使用任何合適的特徵辨識及/或偵測技術來執行特徵偵測及/或辨識演算法。在一些實施方式中,特徵偵測及/或辨識演算法可以基於使用機器學習演算法在相同類型的目標及/或特徵的圖像上訓練的機器學習模型,該機器學習模型可以提取圖像的特徵,並且基於經由演算法對模型的訓練來偵測及/或分類包括彼等特徵的目標。例如,機器學習演算法可以是神經網路(NN),諸如迴旋神經網路(CNN)、時延神經網路(TDNN)、深度前饋神經網路(DFFNN)、遞迴神經網路(RNN)、自動編碼器(AE)、變分AE(VAE)、去雜AE(DAE)、稀疏AE(SAE)、瑪律可夫鏈(MC)、感知器,或其某種組合。機器學習演算法可以是監督學習演算法、深度學習演算法,或其某種組合。
在一些實施方式中,可以使用基於電腦視覺的特徵偵測及/或辨識技術。可以使用不同類型的基於電腦視覺的目標偵測演算法。在一個說明性實例中,基於範本匹配的技術可以用於偵測圖像中的一隻或多隻手。可以使用各種類型的範本匹配演算法。範本匹配演算法的一個實例可以執行Haar或類Haar的特徵提取、積分圖像產生、Adaboost訓練和級聯分類器。此種目標偵測技術經由在圖像上應用滑動訊窗(例如,具有矩形、圓形、三角形,或其他形狀)來執行偵測。積分圖像可以被計算為從圖像評估特定區域特徵(例如矩形或圓形特徵)的圖像表示。對於每個當前訊窗,可以從上文提到的積分圖像計算當前訊窗的Haar特徵,該積分圖像可以在計算Haar特徵之前計算。
Harr特徵可以經由計算目標圖像的特定特徵區域(諸如積分圖像的彼等)內的圖像圖元的和來計算。例如,在面部中,有眼睛的區域通常比有鼻樑或臉頰的區域暗。Haar特徵可以經由選擇最佳特徵及/或訓練使用其分類器的學習演算法(例如,Adaboost學習演算法)來選擇,並且可用於利用級聯分類器來有效地將訊窗分類為面部(或其他目標)訊窗或非面部訊窗。級聯分類器包括級聯組合的多個分類器,此情形允許在對類似目標的區域執行更多計算的同時快速丟棄圖像的背景區域。使用面部作為外部觀看者的身體部位的實例,級聯分類器可以將當前訊窗分類為面部類別或非面部類別。若一個分類器將訊窗分類為非面部類別,則該訊窗被丟棄。否則,若一個分類器將訊窗分類為面部類別,則級聯佈置中的下一個分類器將用於再次測試。直到所有分類器決定當前訊窗是面部(或其他目標),該訊窗將被標記為手(或其他目標)的候選。在偵測所有訊窗之後,可以使用非最大抑制演算法來對每個面部周圍的訊窗進行分類,以產生一或多個偵測到的面部的最終結果。
圖5是圖示圖像擷取設備500的使用者介面510的概念圖,該使用者介面510具有指導使用者在特定方向上將圖像擷取設備500移動特定距離的定位指導指示。圖5的使用者介面510是圖像擷取使用者介面,並且圖示最近從圖像擷取設備500的圖像感測器130接收的圖像的預覽圖像,至少直到圖像擷取設備500的使用者按下快門按鈕560來擷取圖像。圖5的圖像擷取設備500可以包括圖像擷取設備105A、圖像處理設備105B、圖像擷取和處理系統100、計算設備1800,或其某種組合。
由使用者介面510顯示的預覽圖像是具有物件520的圖像。物件520是人,人的面部與預覽圖像的中心對準。因為人的面部與預覽圖像的中心對準,移動圖像擷取設備500以將物件520(人的面部)與預覽圖像的一或多條三分線對準將基於三分規則來改良圖像構成。圖像擷取設備500的圖像處理設備105B辨識物件520,並且辨識例如與物件520最接近的三分線交叉點,並且產生和輸出定位指導指示,該定位指導指示指導圖像擷取設備500的使用者移動圖像擷取設備500以將物件520對準該三分線交叉點。在圖5的使用者介面510中,定位指導指示是視覺指示,其被示為表示圖像擷取設備500的小圖示530、指示移動圖像擷取設備500的方向的從圖示530延伸的箭頭550,以及位於箭頭550的另一端的目標矩形540,其中該目標矩形540表示圖像擷取設備500的移動應該停止的位置。該移動可以是平移移動(與旋轉移動不同),並且因此該方向可以是平移方向。在一些情況下,移動可以包括旋轉,並且方向可以包括旋轉方向。使用者介面510中的箭頭指向左下方,指示使用者應該向左下方移動圖像擷取設備500。當使用者在箭頭550所指的方向上向左下方移動圖像擷取設備500時,圖示530可以沿著箭頭朝向目標矩形540移動,直到圖示530到達目標矩形。如此,箭頭550的方向和目標矩形540相對於圖示530的方向指示圖像擷取設備500的圖像處理設備150B指導使用者移動圖像擷取設備500的方向。箭頭550的長度和目標矩形540與圖示530之間的距離圖示攝影設備500的圖像處理設備150B指導使用者在該方向上移動攝影設備500的距離的表示。在一些情況下,箭頭550或目標矩形540可以被省略。可以使用替代介面,例如告訴使用者在某個方向上移動圖像擷取設備及/或在該方向上移動圖像擷取設備的某個距離的音訊介面。亦可以使用觸覺介面元件。例如,一旦圖像擷取設備500到達正確的位置,攝影設備500的圖像處理設備150B可以致動一或多個馬達來使圖像擷取設備500振動。或者,攝影設備500的圖像處理設備150B可以致動一或多個馬達來使圖像擷取設備500振動,直到圖像擷取設備500到達正確的位置。
儘管圖像510包括單個物件520—人臉—但是一些圖像可以包括多於一個物件。例如,圖像可以圖示多個人、寵物、文件和顯示螢幕,所有該等皆可以被圖像擷取設備500偵測到並被圖像擷取設備500決定為圖像內圖示的物件。在圖像圖示多個物件的一些情況下,可以經由將物件的至少子集與該四條三分線中的至少一條對準及/或對準到該四條三分線交叉點中的至少一個來改良圖像構成。在一些實例中,圖像擷取設備500可以選擇圖像中圖示的物件的子集作為選擇的物件。圖像擷取設備500可以輸出指導圖像擷取設備500的移動的指導,諸如沿著圖5所圖示的箭頭550被指導到目標矩形540的小圖示530,使得每個選擇的物件與該四條三分線中的至少一條對準及/或對準到四條三分線交叉點中的至少一條。例如,一或多個選擇的物件可以被選擇為包括圖像中圖示的所有物件中的一或多個最突出的物件。圖像擷取設備500可以經由產生圖像的顯著性圖,並選擇與圖像的最高顯著性區域相對應的一或多個物件來辨識最突出的物件。圖像擷取設備500可以經由例如基於深度感測器資訊及/或基於圖像中圖示的尺寸來偵測何者物件最位於圖像的前景中(在擷取期間最靠近圖像擷取設備500),並且選擇圖像的前景中最靠近的(多個)物件作為選擇的物件,來辨識最突出的物件。圖像擷取設備500可以選擇圖像中被圖示得最大的物件作為選擇的物件。圖像擷取設備500可以接收辨識物件的一或多個使用者輸入,例如經由使用者觸摸、點擊、打手勢,或以其他方式選擇預覽圖像中圖示的一或多個物件,並且可以基於經由使用者輸入辨識的物件來選擇所選擇的物件。在一些情況下,圖像擷取設備500可以基於上述選擇技術的組合來選擇所選擇的物件。
圖6是圖示用於基於圖像中物件面對的方向來指導圖像擷取的操作600的流程圖。儘管在操作600中引用了圖像擷取設備105A,但是操作600可以由各種設備來執行,該等設備可以包括圖像擷取設備105A、圖像處理設備105B、圖像擷取和處理系統100、圖像擷取設備500/700/900/1100/1300/1500、雲端服務的一或多個網路伺服器、計算設備1800,或其某種組合。
在操作605,該設備接收由圖像擷取設備150A的圖像感測器130擷取的圖像。本文使用的術語「擷取」可以指臨時儲存(例如,在設備的臨時圖像緩衝器中)、非暫時性電腦可讀取儲存媒體中的長期儲存,或者其某種組合。在操作610,設備例如使用目標偵測、特徵偵測、面部偵測,或本文論述的其他圖像偵測或辨識技術之一來辨識圖像中的物件。
在操作615,設備決定在圖像中物件的位置和在圖像中物件面對的方向。決定在圖像中物件面對的方向可以基於在圖像中物件的複數個特徵相對於彼此的定位。如參照圖4所論述的,設備可以辨識在圖像中物件沿著左側及/或在中心的兩個特徵,並決定該兩個特徵之間的左距離。該設備可以辨識在圖像中物件沿著右側及/或在中心的兩個特徵,並決定該兩個特徵之間的右距離。該設備可以經由比較左距離和右距離來決定在圖像中物件面對的方向。若左距離等於右距離或在右距離的閾值內,則物件面對前方。若左距離超過右距離至少閾值,則物件面對右側。若右距離超過左距離至少閾值,則物件面對左側。若物件是或包括人,則特徵可以包括例如耳朵、臉頰、眼睛、眉毛、鼻子、嘴、下巴、胸部、腹部、背部、後部、腿、手臂、肩膀、肘部、膝蓋、腳踝、手、腳、另一附屬物,或其一部分,或其某種組合。
在一些情況下,決定在圖像中物件面對的方向可以基於接收亦由圖像感測器130擷取的附加圖像,其中設備基於圖像和第二圖像決定物件的移動方向,並且決定物件面對的方向是物件的移動方向。例如,若在圖像之後擷取附加圖像,並且在附加圖像中物件看起來比在圖像中更靠左,則設備決定物件正在向左移動,並且因此面對左側。或者,若在圖像之前擷取附加圖像,並且在附加圖像中物件看起來比在圖像中更靠左,則設備決定物件正在向右移動,並且因此面對右側。
在操作620,設備基於在圖像中物件面對的方向和在圖像中物件的位置,產生並輸出用於定位圖像擷取設備的指示。該指示可以辨識設備將被移動的方向,以便在圖像擷取設備被移動之後改良要被擷取的第二圖像中的物件的取景。指示可以包括視覺指示、聽覺指示,或振動指示中的至少一種。例如,視覺指示可以看起來類似於圖5的視覺指示530/540/550。
在一些情況下,設備可以辨識圖像擷取設備已經在該方向上移動,並且可以在辨識圖像擷取設備已經在該方向上移動之後接收由圖像感測器130擷取的第二圖像,其中圖像感測器130已經擷取了第二圖像。在一些情況下,輸出用於定位圖像擷取設備的指導包括:在圖像擷取設備處輸出指示圖像擷取設備在第一圖像的擷取和第二圖像的擷取之間要保持靜止的指示。
圖7A是圖示圖像擷取設備700的使用者介面的概念圖,該使用者介面具有指導使用者逆時針傾斜圖像擷取設備以使圖像中的水平線水平的定位指導指示730。圖7A的使用者介面是圖像擷取使用者介面,並且圖示最近從圖像擷取設備700的圖像感測器130接收的圖像的預覽圖像710。圖7A-圖7B的圖像擷取設備700可以包括圖像擷取設備105A、圖像處理設備105B、圖像擷取和處理系統100、計算設備1800,或其某種組合。
圖7A的UI中圖示的預覽圖像710包括未水平的水平線。換言之,水平線不是水平的,並且可能例如離水平超過閾值角度。圖7A的UI包括用於參考的水平虛線720,以便更清楚地看到圖像710中的水平線不是水平的。圖7A的圖像擷取設備700可以偵測到圖像擷取設備700是傾斜的,例如使用攝影設備700的加速度計、陀螺儀、磁力計,或慣性量測單元(IMU)。圖像擷取設備700產生定位指導指示730,該定位指導指示730具有表示圖像擷取設備700的圖示、圖示圖像擷取設備700將被逆時針旋轉的箭頭,以及表示為了使水平線水平圖像擷取設備700要處於的位置的圖像擷取設備700的逆時針指導方塊。
圖7B是圖示圖像擷取設備700的使用者介面的概念圖,該使用者介面700具有指導使用者順時針傾斜圖像擷取設備以使圖像中的水平線水平的定位指導指示760。圖7B的使用者介面是圖像擷取使用者介面,並且圖示最近從圖像擷取設備700的圖像感測器130接收的圖像的預覽圖像740。圖7B的UI中圖示的預覽圖像740包括未水平的水平線。圖7B的UI包括用於參考的水平虛線750,使得可以更清楚地看到圖像740中的水平線不是水平的。圖7B的圖像擷取設備700可以偵測到圖像擷取設備700是傾斜的,例如使用攝影設備700的加速度計、陀螺儀、磁力計,或IMU。圖像擷取設備700產生定位指導指示760,該定位指導指示760具有表示圖像擷取設備700的圖示、圖示圖像擷取設備700將被逆時針旋轉的箭頭,以及表示為了使水平線水平圖像擷取設備700要處於的位置的圖像擷取設備700的逆時針指導方塊。
圖8是圖示用於基於來自圖像擷取設備105A的一或多個定位感測器的感測器量測資料來指導圖像擷取的操作800的流程圖。儘管在操作800中引用了圖像擷取設備105A,但是操作800可以由各種設備來執行,該等設備可以包括圖像擷取設備105A、圖像處理設備105B、圖像擷取和處理系統100、圖像擷取設備500/700/900/1100/1300/1500、雲端服務的一或多個網路伺服器、計算設備1800,或其某種組合。
在操作805,該設備從圖像擷取設備105A的一或多個定位感測器接收感測器量測資料。一或多個定位感測器可以包括加速度計、陀螺儀、磁力計、慣性量測單元、全球導航衛星系統(GNSS)接收器,或海拔計中的至少一者。
在操作810,設備基於感測器量測資料決定圖像擷取設備105A的方位。在操作815,設備基於圖像擷取設備105A的方位產生並輸出用於定位圖像擷取設備105A的指示。在一些情況下,指示辨識圖像擷取設備105A要被傾斜的方向,以便在圖像擷取設備105A被傾斜之後使要被擷取的圖像中的水平線水平。在此種情況下,傾斜指的是圖像擷取設備105A圍繞一或多個軸的旋轉。該等軸可以包括例如垂直於圖像擷取設備105A的前表面及/或後表面的軸,亦即垂直於圖像擷取設備105A的顯示螢幕表面的軸、垂直於圖像擷取設備105A的圖像感測器的表面的軸、垂直於圖像擷取設備105A的鏡頭的表面的軸,或者其某種組合。指示包括視覺指示、聽覺指示和振動指示中的至少一者。例如,視覺指示可以包括圖7A-圖7B的指示730和760的任意元件。在一些情況下,指示亦辨識為了改良圖像中物件的框定,圖像擷取設備105A在該方向上要被傾斜的角度。傾斜可以被稱為旋轉移動。傾斜的方向可以被稱為旋轉方向。傾斜的角度可以被稱為旋轉角度。在一些情況下,旋轉移動可以與平移移動成對出現。
在一些情況下,設備亦辨識出設備已經在該方向上傾斜,並且在辨識出圖像擷取設備105A已經在該方向上傾斜之後,從圖像擷取設備105A的圖像感測器130接收圖像,其中圖像感測器130已經擷取了圖像。在一些情況下,輸出用於定位圖像擷取設備105A的指導包括:在圖像擷取設備處輸出指示圖像擷取設備要保持靜止(例如,在第一圖像的擷取和第二圖像的擷取之間)的指示。
圖9是圖示對於具有普通鏡頭的第一圖像感測器可見的視圖覆加在對於具有廣角鏡頭的第二圖像感測器可見的視圖上的概念圖。圖9的圖像擷取設備900在圖9中顯示預覽圖像,該預覽圖像包括由具有普通鏡頭的圖像擷取設備900的第一圖像感測器和具有廣角鏡頭的圖像擷取設備900的第二圖像感測器擷取的成像資料,其中該等廣角鏡頭具有比普通鏡頭更寬的角度。圖像擷取設備900可以包括圖像擷取設備105A、圖像處理設備105B、圖像擷取和處理系統100、計算設備1800,或其某種組合。
整個預覽圖像表示對於具有廣角鏡頭的第二圖像感測器可見的視圖920。在預覽圖像內圖示黑色輪廓的矩形,黑色輪廓的矩形內部的區域表示對於具有普通鏡頭的第一圖像感測器可見的視圖910。若圖像擷取設備900僅考慮對於具有普通鏡頭的第一圖像感測器可見的視圖910,則圖像擷取設備900可能偵測不到物件940(人臉)已經被切掉並且不包括在對於具有普通鏡頭的第一圖像感測器可見的視圖910中。然而,若圖像擷取設備900查看對於具有廣角鏡頭的第二圖像感測器可見的視圖920,則圖像擷取設備900可以偵測到物件940,並且若使用者希望擷取物件940,則可以警告圖像擷取設備900的使用者移動圖像擷取設備900。
圖10是圖示基於來自具有第二鏡頭的第二圖像感測器的圖像資料,指導使用具有第一鏡頭的第一圖像感測器的圖像擷取的操作的流程圖,其中第二鏡頭具有比第一鏡頭更寬的角度。儘管在操作1000中引用了圖像擷取設備105A,但是操作1000可以由各種設備來執行,該等設備可以包括圖像擷取設備105A、圖像處理設備105B、圖像擷取和處理系統100、圖像擷取設備500/700/900/1100/1300/1500、雲端服務的一或多個網路伺服器、計算設備1800,或其某種組合。
在操作1005,設備接收由圖像擷取設備105A的第一圖像感測器擷取的場景的第一圖像,第一圖像感測器與第一鏡頭相關聯。在操作1010,設備接收由圖像擷取設備的第二圖像感測器擷取的場景的第二圖像,第二圖像在第一圖像感測器擷取第一圖像的閾值時間內由第二圖像感測器擷取,第二圖像感測器與具有比第一鏡頭更寬的角度的第二鏡頭相關聯。
在操作1015,設備基於第二圖像決定第一圖像的圖像構成是次優的。在操作1020,該設備產生並輸出用於定位圖像擷取設備的指示,使得要由第一圖像感測器擷取的第三圖像的圖像構成優於第一圖像的圖像構成。
在一些情況下,該設備亦從第一圖像感測器接收第三圖像,第三圖像在第一圖像感測器擷取第一圖像之後由第一圖像感測器擷取。決定第一圖像的圖像構成是次優的是基於物件的至少一部分在第一圖像的訊框之外,其中物件的該部分包括在第三圖像中。例如,物件940至少部分地在圖9的視圖910中的訊框之外,但是一旦圖9的圖像擷取設備900被移動到右側,對於稍後的圖像,物件940將在圖9的視圖910中的訊框中。
在一些情況下,決定第一圖像的圖像構成是次優的包括辨識第二圖像中的水平線,並決定圖像擷取設備要被傾斜以使水平線水平。輸出用於定位圖像擷取設備的指導包括在圖像擷取設備處輸出指示,該指示辨識為了使第三圖像中的水平線水平,圖像擷取設備要被傾斜的方向。指示包括視覺指示、聽覺指示和振動指示中的至少一者。在一些情況下,指示亦辨識為了改良第二圖像中物件的框定,圖像擷取設備在該方向上要被傾斜的角度。
在一些情況下,操作1000的至少一個子集可以由雲端服務的一或多個網路伺服器遠端執行,該雲端服務執行圖像分析(例如,步驟1010及/或1015)、產生及/或輸出操作1020的指示及/或指導,或其某種組合。
圖11是圖示圖像擷取設備的使用者介面的概念圖,其中先前擷取的物件的圖像覆加在由圖像擷取設備的圖像感測器擷取的物件的圖像上。圖11的圖像擷取設備1100經由圖像擷取介面顯示預覽圖像1110。圖像擷取設備1100辨識圖像1110中的物件,該物件在圖像1110中是埃菲爾鐵塔。可以使用目標偵測、特徵偵測、面部偵測,或本文論述的其他圖像偵測或辨識技術之一來決定物件。可以基於從接收使用者輸入的輸入設備接收的標題來決定物件(例如,「我在埃菲爾鐵塔!」)。可以基於日曆或時鐘或提醒應用程式中的使用者時間表來決定物件,例如,若時間表在與圖像擷取的日期和時間相匹配的日期和時間,或者在圖像擷取的日期和時間的閾值時間內,辨識對應於埃菲爾鐵塔遊覽的事件。可以基於使用者選擇的特定圖像擷取設置(例如,「運動模式」、「食物模式」、「寵物模式」、「肖像模式」、「風景模式」、「團體照片模式」、「夜晚模式」)來決定物件。可以經由簡單地提示使用者在擷取圖像之前、期間及/或之後提供物件(或從由設備決定的可能的物件集合中進行選擇)來決定物件。可以基於圖像擷取設備1100辨識出圖像擷取設備1100在擷取期間或在擷取的閾值時間內的位置在物件的已知位置(此處是埃菲爾鐵塔的已知位置)的閾值距離內來決定物件。圖像擷取設備1100可以基於圖像擷取設備1100的GNSS/GPS接收器接收的信號來決定其位置。
圖像擷取設備1100辨識同一物件(亦即,埃菲爾鐵塔)的第二圖像1120。第二圖像1120可以是先前擷取的圖像。第二圖像1120可以是圖像擷取設備1100或另一設備基於各種圖像構成規則和準則已經決定具有良好圖像構成的圖像。第二圖像1120可以是由知名攝影者擷取的一個圖像。第二圖像1120可以是在攝影評級網站上獲得正面評級的一個圖像。第二圖像1120可以是在社交媒體網站上獲得(例如,在「喜歡」及/或「分享」的特定閾值之上的)正面反響的一個圖像。
圖像擷取設備1100隨後基於第二圖像1120產生覆加圖,並將該覆加圖覆加在預覽圖像(或稍後擷取的預覽圖像)上,如組合圖像1130所示。使用虛線在組合圖像1130中圖示覆加圖。覆加圖可以使用阿爾法合成或半透通與預覽圖像相結合。在一些情況下,覆加圖可以簡單地是對應於第二圖像1120中的物件的圖像資料,而不是圖像1120的所有圖像資料。在一些情況下,覆加圖可以簡單地是第二圖像1120中物件的輪廓,而不是圖像1120中物件的所有圖像資料。經由向圖像擷取設備1100的使用者顯示組合圖像1130中的覆加圖,圖像擷取設備1100的使用者可以更好地理解對於物件的圖像而言什麼是最優圖像構成,以及如何重新定位圖像擷取設備1100來實現物件的圖像的最優圖像構成。
在一些情況下,第二圖像1120可以包括中繼資料,該中繼資料辨識從其擷取第二圖像1120的地理座標(例如,使用擷取第二圖像1120的圖像擷取設備的GPS/GNNS接收器及/或海拔計來決定)及/或相機在擷取期間面對的方向(例如,使用擷取第二圖像1120的圖像擷取設備的GPS/GNNS接收器及/或加速度計及/或陀螺儀來決定)。在此種情況下,圖像擷取設備1100亦可以顯示或以其他方式輸出指示,該指示辨識為了擷取類似於第二圖像1120的圖像,圖像擷取設備1100應該移動到的座標,並且在一些情況下辨識為了擷取類似於第二圖像1120的圖像,圖像擷取設備1100應該面對的方向。該等座標可以包括地理座標,諸如緯度和經度座標。該等座標可以包括海拔座標來代替緯度和經度座標,或者除了緯度和經度座標之外亦包括海拔座標。在一些情況下,指示可以包括地圖,該地圖可以圖示圖像擷取設備1100的當前位置(圖像擷取設備1100的「第一位置」),以及為了擷取類似於第二圖像1120的圖像,圖像擷取設備1100應該被移動到的位置(圖像擷取設備1100的「第二位置」)。在一些情況下,可以在地圖上圖示從圖像擷取設備1100的第一位置到圖像擷取設備1100的第二位置的路徑。該路徑可以基於對步行、駕駛、公共交通,或其某種組合的導航來產生。該指示亦可以包括為了擷取類似於第二圖像1120的圖像,圖像擷取設備1100在第二位置應該面對的方向。該方向可以包括羅盤方向(例如,北、東、南、西,或其間的某個方向),若使用地圖,則其可以在地圖上圖示羅盤方向。該方向可以包括與偏航、俯仰、滾轉,或其某種組合相對應的角度。
在一些情況下,可以提供與預覽圖像1110中可見的多個物件及/或已知在附近的可能物件相對應的多個覆加圖及/或其他位置指示。例如,若圖像擷取設備1100的當前位置(第一位置)在曼哈頓市中心(紐約)的時代廣場中,則圖像擷取設備1100可以輸出如下各項的列表:預覽圖像1110中可見的物件、已知在時代廣場內的物件、已知在時代廣場的預定半徑內的物件、已知在圖像擷取設備1100的第一位置的預定半徑內的物件,或其某種組合。圖像擷取設備1100的使用者可以從列表中選擇該等物件中的一或多個,並且可以基於第二圖像1120針對該物件產生和輸出覆加圖(如在組合圖像1130中),並且亦可以針對該物件產生和輸出本文論述的任何其他位置指示(例如,座標、地圖等)。若從列表中選擇了與第二圖像1120中的物件不同的物件,則可以辨識和使用所選擇的物件的不同的第二圖像1120。
圖12是圖示用於基於同一物件的另一圖像來指導物件的圖像的擷取及/或處理的操作的流程圖。儘管在操作1200中引用了圖像擷取設備105A,但是操作1200可以由各種設備來執行,該等設備可以包括圖像擷取設備105A、圖像處理設備105B、圖像擷取和處理系統100、圖像擷取設備500/700/900/1100/1300/1500、雲端服務的一或多個網路伺服器、計算設備1800,或其某種組合。
在操作1205,該設備接收由圖像擷取設備的圖像感測器擷取的場景的第一圖像。在操作1210,該設備辨識第一圖像中圖示的物件。在操作1215,該設備辨識亦圖示物件的第二圖像。操作1210及/或1215可以使用目標偵測、特徵偵測、面部偵測,或本文論述的其他圖像偵測或辨識技術之一來執行。
在一些情況下,該設備從圖像擷取設備的一或多個定位感測器接收感測器量測資料,包括全球導航衛星系統(GNSS)接收器。該設備在擷取第一圖像的時間的閾值時間內決定圖像擷取設備105A的位置。在操作1210辨識第一圖像中圖示的物件是基於辨識出圖像擷取設備的位置在物件的位置的閾值距離內。
操作1215之後是操作1220、操作1225、操作1230,或其某種組合。在操作1220,該設備產生並輸出用於定位圖像擷取設備的指示,使得要由圖像感測器擷取的第三圖像中物件的位置與第二圖像中物件的位置相匹配。在一些情況下,輸出指示包括例如使用阿爾法合成將第二圖像的至少一部分覆加在由圖像擷取設備顯示的預覽圖像上(如圖11的組合圖像1130中)。
在操作1225,設備基於用於擷取第二圖像的一或多個圖像擷取設置,產生並輸出用於調整圖像擷取設備的一或多個屬性的擷取設置指導。在一些情況下,輸出擷取設置指導包括在圖像感測器擷取第三圖像之前,基於一或多個圖像擷取設置來自動調整圖像擷取設備的一或多個屬性。圖像擷取設置可以包括例如變焦、聚焦、曝光時間、光圈大小、ISO、景深、類比增益、光圈級數,或其某種組合。
在操作1230,設備基於應用於第二圖像的一或多個圖像處理設置,產生並輸出用於處理要由圖像感測器擷取的第三圖像的處理設置指導。在一些情況下,輸出處理設置指導包括回應於從圖像感測器接收到第三圖像,將一或多個圖像處理設置自動應用於第三圖像。圖像處理設置可以包括,例如,亮度、對比度、飽和度、伽馬、等級、長條圖、顏色等級、顏色溫暖度、模糊、銳度、等級、曲線、濾波器、裁剪,或其某種組合。濾波器可以包括高通濾波器、低通濾波器、帶通濾波器、帶阻濾波器,或其某種組合。濾波器亦可以指應用於圖像的視覺效果,其自動調整一或多個先前提及的圖像處理設置以將特定「外觀」應用於圖像,例如,濾波器具體應用模仿使用來自某個時代的膠片相機擷取的照片的「復古照片」外觀,或者修改圖像以使其看起來是繪畫的或手繪的,或者一些其他視覺修改。
在一些情況下,操作1200的至少一個子集可以由雲端服務的一或多個網路伺服器遠端執行,該雲端服務執行圖像分析(例如,步驟1210)、尋找第二圖像(例如,步驟1215)、產生及/或輸出指示及/或指導(例如,操作1220、1225,及/或1230),或其某種組合。
圖13是圖示圖像擷取設備的使用者介面的概念圖,其中先前擷取的物件的圖像被用於產生覆加在由圖像擷取設備的圖像感測器擷取的不同物件的圖像上的指導。圖13的圖像擷取設備1300經由圖像擷取介面顯示預覽圖像1310。圖像擷取設備1300辨識預覽圖像1310中的物件,該物件在預覽圖像1310中是站立的人。可以使用目標偵測、特徵偵測、面部偵測,或本文論述的其他圖像偵測或辨識技術之一來決定物件。可以基於圖像擷取設備1300辨識出圖像擷取設備1300在擷取期間或在擷取的閾值時間內的位置在物件的已知位置的閾值距離內(例如,若該人經由社交媒體或其他手段共享其位置),來決定物件。圖像擷取設備1300可以基於圖像擷取設備1300的GNSS/GPS接收器接收的信號來決定其位置。
圖像擷取設備1300辨識不同物件(亦即,坐下的不同人)的第二圖像1320。在一些情況下,第二圖像1320中圖示的不同物件可以是與預覽圖像1310中圖示的物件相同類型的物件。例如,預覽圖像1310中的物件可以是人,並且第二圖像1320中的不同物件可以是不同的人,或者是處於不同姿態及/或服裝的同一人。預覽圖像1310中的物件可以是特定物件類型的物件(例如,建築物、雕像、紀念碑),並且第二圖像1320中的不同物件可以是具有相似維度的相同物件類型的不同物件。
圖像擷取設備1300可以決定預覽圖像1310中的物件與第二圖像1320中的不同物件共享一或多個相似處。該等相似處可以包括如前述的物件類型的相似處。該等相似處可以包括維度的相似處。該等相似處可以包括顏色或顏色方案的相似處。該等相似處可以包括光的相似處。
該等相似處可以包括與預覽圖像1310中的物件相關聯的一或多個顯著性值在與第二圖像中的不同物件相關聯的一或多個顯著性值的預定範圍內。例如,圖像擷取設備1300可以產生預覽圖像1310的第一顯著性圖和第二圖像1320的第二顯著性圖。第一顯著性圖包括與預覽圖像1310的每個圖元相對應的顯著性值,並且亦可以包括與每個顯著性值相對應的置信度值。第二顯著性圖包括與第二圖像1320的每個圖元相對應的顯著性值,並且亦可以包括與每個顯著性值相對應的置信度值。圖像擷取設備1300可以基於第一顯著性圖中的顯著性值的圖案來定位預覽圖像1310的物件。圖像擷取設備1300可以基於第二顯著性圖中的顯著性值的圖案來定位第二圖像1320的不同物件。圖像擷取設備1300可以基於第一顯著性圖中的顯著性值的圖案和第二顯著性圖中的顯著性值的圖案之間的相似度來決定預覽圖像1310的物件類似於第二圖像1320的不同物件。
第二圖像1320可以是先前擷取的圖像。如同圖11的第二圖像1120一樣,第二圖像1320可以是圖像擷取設備1300(或另一設備)已經決定具有良好圖像構成的圖像,其由知名攝影者擷取、在攝影評級網站上獲得正面評級、在社交媒體網站上獲得(例如,在「喜歡」及/或「分享」的特定閾值之上的)正面反響,或其某種組合。在一些情況下,圖像擷取設備1300(或另一設備)可以基於預覽圖像1310的物件與第二圖像1320的不同物件的一或多個相似處,從圖像集中選擇第二圖像1320。在一些情況下,若第二顯著性圖包括具有平均低於閾值的對應置信度值的顯著性值的圖案,則圖像擷取設備1300可以拒絕選擇第二圖像1320。該閾值可以基於與顯著性值的圖案相對應的置信度值的平均值來決定,其中該顯著性值的圖案對應於第一顯著性圖中的物件。
圖像擷取設備1300隨後基於第二圖像1320產生覆加圖,並將該覆加圖覆加在預覽圖像1310(或稍後擷取的預覽圖像)上,如組合圖像1330所示。使用虛線在組合圖像1330中圖示覆加圖。覆加圖可以使用阿爾法合成或半透通與預覽圖像相結合。
在一些情況下,覆加圖可以包括與第二圖像1320、第二圖像1320中的物件,或第二圖像1320中的物件的輪廓或其他抽象表示相對應的圖像資料。或者,如圖13的組合圖像1330所示,覆加圖可以包括與預覽圖像1310、第二圖像1320中的物件,或第二圖像1320中的物件的輪廓或其他抽象表示相對應的圖像資料。即使在覆加圖基於與第一圖像1310中的至少一些第一圖像相對應的圖像資料的情況下,覆加圖的定位、尺寸和方位亦可以基於第二圖像1320中物件的定位、尺寸和方位。經由向圖像擷取設備1300的使用者顯示組合圖像1330中的覆加圖,圖像擷取設備1300的使用者可以更好地理解對於物件的圖像而言什麼是最優圖像構成,以及如何重新定位圖像擷取設備1300來實現物件的圖像的最優圖像構成。例如,在組合圖像1330中,覆加圖中的物件更大並且在組合圖像1330中更靠右,此舉表明使用者應該使圖像擷取設備1300更靠近物件(或者放大),並且將圖像擷取設備1300向左移動,使得在要由圖像擷取設備1300擷取的圖像中物件顯現得更靠右。
在一些情況下,組合圖像1330亦可以包括指示,該指示辨識圖像擷取設備1300應該從其當前位置(圖像擷取設備1300的「第一位置」)移動到圖像擷取設備1300可以擷取類似於覆加圖的圖像的位置(圖像擷取設備1300的「第二位置」)的位置,其中該覆加圖是基於第二圖像1320的。指示可以包括第一位置及/或第二位置的地理座標,其可以包括緯度座標、經度座標,及/或海拔座標。在一些情況下,指示可以包括地圖,該地圖可以圖示圖像擷取設備1300的第一位置、圖像擷取設備1300的第二位置、從第一位置到第二位置的路徑,或者其某種組合。指示亦可以包括圖像擷取設備1300在第二位置應該面對的方向,以便擷取類似於基於第二圖像1320的覆加圖的圖像。該方向可以包括羅盤方向(例如,北、東、南、西,或其間的某個方向),其可以在地圖上被示為箭頭。該方向可以包括與偏航、俯仰、滾轉,或其某種組合相對應的角度。
在一些情況下,可以提供與預覽圖像1310中可見的多個物件及/或已知在附近的可能物件相對應的多個覆加圖及/或其他位置指示。例如,若圖像擷取設備1300的當前位置(第一位置)在曼哈頓市中心(紐約)的時代廣場中,則圖像擷取設備1300可以輸出如下各項的列表:預覽圖像1310中可見的物件、已知在時代廣場內的物件、已知在時代廣場的預定半徑內的物件、已知在圖像擷取設備1300的第一位置的預定半徑內的物件,或其某種組合。圖像擷取設備1300的使用者可以從列表中選擇該等物件中的一或多個,並且可以基於第二圖像1320針對該物件產生和輸出覆加圖(如在組合圖像1330中),並且亦可以針對該物件產生和輸出本文論述的任何其他位置指示(例如,座標、地圖等)。在一些情況下,可以基於從列表中選擇的物件的物件類型來選擇第二圖像1320。例如,若從列表中選擇的物件是建築物,則第二圖像1320可以被選擇為建築物的圖片。若從列表中選擇的物件是人,則第二圖像1320可以被選擇為人的圖片。
圖像擷取設備1300亦提供覆加在組合圖像1330上的圖像擷取設置指導和圖像處理設置指導。具體而言,圖像擷取設備1300產生並顯示指示「關閉閃光」的指導框,以向使用者建議關閉閃光。該建議可以基於已經在沒有閃光的情況下擷取第二圖像1320。在一些情況下,代替顯示此種指導框或除了顯示此種指導框之外,圖像擷取設備1300可以自動關閉閃光。圖像擷取設備1300亦產生並顯示指示「延長曝光時間」的指導框,以建議使用者在擷取之前延長曝光時間。該建議可以基於已經以比圖像擷取設備1300當前被設置的曝光時間更長的曝光時間擷取第二圖像1320。在一些情況下,代替顯示此種指導框或除了顯示此種指導框之外,圖像擷取設備1300可以自動延長曝光時間。圖像擷取設備1300亦產生並顯示指示「增加對比度」的指導框,以建議使用者在圖像處理期間在圖像擷取之後增加對比度。該建議可以基於第二圖像1320已經被處理為在擷取後增加對比度,或者基於第二圖像1320僅具有比當前從圖像擷取設備1300的圖像感測器接收的圖像更高的對比度。在一些情況下,代替顯示此種指導框或除了顯示此種指導框之外,圖像擷取設備1300可以在擷取圖像之後自動增加對比度。
基於具有與預覽圖像1310的物件不同的物件的第二圖像1320來產生指導(例如,覆加圖、圖像擷取設置,及/或圖像處理設置)的好處是靈活性。例如,若從圖像集中選擇第二圖像1320,則執行選擇的圖像擷取設備1300(或另一設備)不需要找到與預覽圖像1310具有完全相同物件的圖像。因此,若預覽圖像1310圖示人,作為其物件,則執行選擇的圖像擷取設備1300(或另一設備)僅需要找到具有與預覽圖像1310中的人相似的另一人或另一目標的第二圖像1320。類似地,若預覽圖像1310圖示埃菲爾鐵塔作為其物件,則執行選擇的圖像擷取設備1300(或另一設備)僅需要找到具有與預覽圖像1310中的埃菲爾鐵塔相似的另一建築物或另一目標的第二圖像1320。因此,圖像擷取設備1300可以產生和輸出有用的指導,即使針對模糊或不尋常的物件。
圖14是圖示用於基於不同物件的另一圖像來指導物件的圖像的擷取及/或處理的操作的流程圖。儘管在操作1400中引用了圖像擷取設備105A,但是操作1400可以由各種設備來執行,該等設備可以包括圖像擷取設備105A、圖像處理設備105B、圖像擷取和處理系統100、圖像擷取設備500/700/900/1100/1300/1500、雲端服務的一或多個網路伺服器、計算設備1800,或其某種組合。
在操作1405,該設備接收由圖像擷取設備的圖像感測器擷取的場景的第一圖像。在操作1410,該設備辨識第一圖像中圖示的第一物件,例如使用目標偵測、特徵偵測、面部偵測,或本文論述的其他圖像偵測或辨識技術之一。在操作1415,該設備辨識圖示第二物件的第二圖像。
操作1415之後是操作1420、操作1425、操作1430,或其某種組合。在操作1420,該設備產生並輸出用於定位圖像擷取設備的指示,使得要由圖像感測器擷取的第三圖像中第一物件的位置與第二圖像中第二物件的位置相匹配。在一些情況下,輸出指示包括例如使用阿爾法合成將第二圖像的至少一部分覆加在由圖像擷取設備顯示的預覽圖像上(或者如圖13的組合圖像1330中第一圖像的編輯部分)。
在操作1425,設備基於用於擷取第二圖像的一或多個圖像擷取設置,產生並輸出用於調整圖像擷取設備的一或多個屬性的擷取設置指導。在一些情況下,輸出擷取設置指導包括在圖像感測器擷取第三圖像之前,基於一或多個圖像擷取設置來自動調整圖像擷取設備的一或多個屬性。
在操作1430,設備基於應用於第二圖像的一或多個圖像處理設置,產生並輸出用於處理要由圖像感測器擷取的第三圖像的處理設置指導。在一些情況下,輸出處理設置指導包括回應於從圖像感測器接收到第三圖像,將一或多個圖像處理設置自動應用於第三圖像。
在一些情況下,操作1400的至少一個子集可以由雲端服務的一或多個網路伺服器遠端執行,該雲端服務執行圖像分析(例如,步驟1410)、尋找第二圖像(例如,步驟1415)、產生及/或輸出指示及/或指導(例如,操作1420、1425,及/或1430),或其某種組合。
圖15是圖示圖像擷取設備的使用者介面的概念圖,其中使用圖像集訓練的機器學習模型被用於產生覆加在由圖像擷取設備的圖像感測器擷取的物件的圖像上的指導。圖15的圖像擷取設備1500經由圖像擷取介面顯示預覽圖像1510。圖像擷取設備1500辨識預覽圖像1510中的物件,該物件在預覽圖像1510中是站立的人。可以使用目標偵測、特徵偵測、面部偵測,或本文論述的其他圖像偵測或辨識技術之一來決定物件。
圖像擷取設備1500將預覽圖像1510輸入到機器學習模型1520中。機器學習模型1520使用具有辨識的物件的圖像集來訓練。機器學習模型1520基於預覽圖像1510並基於其訓練輸出一或多個見解。該等見解可以包括,例如,使用機器學習模型產生的預覽圖像1510中物件的替代定位、使用機器學習模型產生的圖像擷取設置、使用機器學習模型產生的圖像處理設置,或其某種組合。
訓練機器學習模型1520使用的圖像集可以基於全部由特定攝影者、畫家或其他藝術家擷取的圖像集來選擇。圖像擷取設備1500的使用者可以選擇該攝影者。例如,圖像擷取設備1500的使用者可以選擇採用使用攝影者Ansel Adams擷取的照片來訓練的機器學習模型1520。因此,由機器學習模型1520產生的見解可以幫助調整圖像擷取設備1500的使用者使用的圖像構成、圖像擷取設置和圖像處理設置,以更相似於攝影者Ansel Adams使用的圖像構成、圖像擷取設置和圖像處理設置。類似地,圖像擷取設備1500的使用者可以選擇採用使用藝術家莫內所畫的繪畫來訓練的機器學習模型1520。由機器學習模型1520產生的見解因此可以幫助調整圖像擷取設備1500的使用者使用的圖像構成、圖像擷取設置和圖像處理設置,以產生類似於莫內所畫的繪畫的外觀和風格。
訓練機器學習模型1520使用的圖像集可以基於全部皆具有相似場景類型及/或物件類型的圖像集來選擇。例如,若物件是建築物,則即使建築物的確切身份是不可辨識的,亦可以採用使用全部皆具有建築物的圖像集來訓練的機器學習模型1520。由機器學習模型1520產生的見解因此可以幫助調整圖像擷取設備1500的使用者使用的圖像構成、圖像擷取設置和圖像處理設置,以適合拍攝建築物,並且可以例如減少來自窗戶的眩光。在另一實例中,若圖像是在大峽穀處的嬰兒,則圖像擷取設備1500可以提示使用者指定圖像的焦點是嬰兒還是風景,並且可以選擇使用嬰兒圖像訓練的機器學習模型1520或者使用自然風景圖像訓練的機器學習模型1520。一些圖像擷取設備1500具有允許圖像擷取設備1500從使用者接收輸入的特徵。可以基於使用者選擇的特定圖像擷取設置來決定物件。例如,若使用者選擇「運動模式」,則場景很可能是運動場景,且物件是球員或比賽情境。若使用者選擇「食物模式」,則場景很可能是廚房或用餐場景,且物件是食物。若使用者選擇「寵物模式」,則場景/物件很可能是快速移動的寵物。若使用者選擇「肖像模式」,則場景/物件很可能是持有特定姿態的人。若使用者選擇「風景模式」,則場景/物件很可能是自然或城市風景。若使用者選擇「團體照片模式」,則場景/物件很可能是一群人。若使用者選擇「夜間模式」,則場景/物件很可能是夜空或燈光昏暗的室外場景。可以選擇機器學習模型1520,其使用具有相同種類的物件及/或場景的訓練圖像來訓練,以便得到合適的見解。
訓練機器學習模型1520使用的圖像集可以基於全部皆在一天的特定的時間內擷取的圖像集來選擇,一天的特定的時間可以基於圖像擷取設備1500的時鐘及/或指示一年的時間的日歷來決定。因此,由機器學習模型1520產生的見解可以幫助調整圖像擷取設備1500的使用者使用的圖像構成、圖像擷取設置和圖像處理設置,以適合於使用者希望擷取照片的一天中的時間(例如,日出、白天、日落、黃昏、夜間)。訓練機器學習模型1520使用的圖像集可以基於全部皆在室內或室外擷取的圖像集來選擇,使得由機器學習模型1520產生的見解因此可以幫助調整圖像擷取設備1500的使用者使用的圖像構成、圖像擷取設置和圖像處理設置,以適合室內或室外攝影。訓練機器學習模型1520使用的圖像集可以基於全部皆在特定類型的天氣(例如,晴天、陰天、雨天、下雪天)期間擷取的圖像集來選擇,使得由機器學習模型1520產生的見解因此可以幫助調整圖像擷取設備1500的使用者使用的圖像構成、圖像擷取設置和圖像處理設置,以適合在攝影時間期間和在圖像擷取設備1500擷取圖像的位置處的天氣。訓練機器學習模型1520使用的圖像集可以基於圖像擷取設備1500(或另一設備)已經決定具有良好的圖像構成、在攝影評級網站上獲得正面評級,或者在社交媒體網站上獲得(例如,在「喜歡」及/或「分享」的特定閾值之上的)正面反響的圖像集來選擇。在一些情況下,訓練機器學習模型1520使用的圖像集可以基於具有上述特徵的某種組合的圖像集來選擇。
圖像擷取設備1500隨後基於在使用機器學習模型產生的預覽圖像1510中物件的替代定位來產生覆加圖,並將該覆加圖覆加在預覽圖像(或稍後擷取的預覽圖像)上,如組合圖像1530所示。使用虛線在組合圖像1530中圖示覆加圖。覆加圖可以使用阿爾法合成或半透通與預覽圖像相結合。如圖15的組合圖像1530所示,覆加圖可以包括與預覽圖像1510、預覽圖像1510中的物件,或預覽圖像1510中的物件的輪廓或其他抽象表示相對應的圖像資料。經由向圖像擷取設備1500的使用者顯示組合圖像1530中的覆加圖,圖像擷取設備1500的使用者可以更好地理解對於物件的圖像而言什麼是最優圖像構成,以及如何重新定位圖像擷取設備1500來實現物件的圖像的最優圖像構成。
在一些情況下,組合圖像1530亦可以包括指示,該指示辨識圖像擷取設備1500應該從其當前位置(圖像擷取設備1500的「第一位置」)移動到圖像擷取設備1300可以擷取類似於覆加圖的圖像的位置(圖像擷取設備1500的「第二位置」)的位置,其中該覆加圖是基於機器學習模型1520的。該指示可以包括第一位置及/或第二位置的地理座標,其可以包括緯度座標、經度座標,及/或海拔座標。在一些情況下,指示可以包括地圖,該地圖可以圖示圖像擷取設備1500的第一位置、圖像擷取設備1500的第二位置、從第一位置到第二位置的路徑,或者其某種組合。該指示亦可以包括圖像擷取設備1500在第二位置應該面對的方向,以便擷取類似於基於機器學習模型1520的覆加圖的圖像。該方向可以包括羅盤方向(例如,北、東、南、西,或其間的某個方向),其可以在地圖上被示為箭頭。該方向可以包括與偏航、俯仰、滾轉,或其某種組合相對應的角度。
在一些情況下,可以提供與預覽圖像1510中可見的多個物件及/或已知在附近的可能物件相對應的多個覆加圖及/或其他位置指示。例如,若圖像擷取設備1500的當前位置(第一位置)在曼哈頓市中心(紐約)的時代廣場中,則圖像擷取設備1500可以輸出如下各項的列表:預覽圖像1510中可見的物件、已知在時代廣場內的物件、已知在時代廣場的預定半徑內的物件、已知在圖像擷取設備1500的第一位置的預定半徑內的物件,或其某種組合。圖像擷取設備1500的使用者可以從列表中選擇該等物件中的一或多個,並且可以基於機器學習模型1520針對該物件產生和輸出覆加圖(如在組合圖像1530中),並且亦可以針對該物件產生和輸出本文論述的任何其他位置指示(例如,座標、地圖等)。在一些情況下,可以選擇機器學習模型1520,使得用於訓練機器學習模型1520的訓練圖像集的物件類型與從列表中選擇的物件的物件類型相匹配。例如,若從列表中選擇的物件是建築物,則可以選擇在建築物的訓練圖像集上訓練的機器學習模型1520。若從列表中選擇的物件是人,則可以選擇在人的訓練圖像集上訓練的機器學習模型1520。
圖像擷取設備1500亦提供覆加在組合圖像1530上的圖像擷取設置指導和圖像處理設置指導。具體而言,圖像擷取設備1500產生並顯示指示「改良對物件的聚焦」的指導框,以建議使用者調整聚焦(例如,由聚焦控制機構125B控制),以確保物件被聚焦,例如基於已經使用通常對其物件具有更好聚焦的圖像集訓練的機器學習模型。在一些情況下,代替顯示此種指導框或除了顯示此種指導框之外,圖像擷取設備1500可以自動改良對物件的聚焦。圖像擷取設備1500亦產生並顯示指示「增大光圈大小」的指導框,以建議使用者在擷取之前增大光圈大小,例如基於已經使用通常具有比當前為圖像擷取設備1500設置的光圈大小更大的光圈大小的圖像集訓練的機器學習模型。在一些情況下,代替顯示此種指導框或除了顯示此種指導框之外,圖像擷取設備1500可以自動增加光圈大小。圖像擷取設備1500亦產生並顯示指示「增加飽和度」的指導框,以向使用者建議在圖像處理期間在圖像擷取之後增加飽和度,例如基於已經使用在其中飽和度在處理期間被增加的圖像集或者僅僅具有更高的飽和度的圖像集訓練的機器學習模型。在一些情況下,代替顯示此種指導框或除了顯示此種指導框之外,圖像擷取設備1500可以在擷取圖像之後自動增加對比度。
可以使用機器學習演算法使用圖像集來訓練機器學習模型1520。機器學習演算法可以是神經網路(NN),諸如迴旋神經網路(CNN)、時延神經網路(TDNN)、深度前饋神經網路(DFFNN)、遞迴神經網路(RNN)、自動編碼器(AE)、變分AE(VAE)、去雜AE(DAE)、稀疏AE(SAE)、瑪律可夫鏈(MC)、感知器,或其某種組合。機器學習演算法可以是監督學習演算法、深度學習演算法,或其某種組合。
在一些情況下,圖像擷取設備1500可以包括兩個到更多個的相機(例如,具有兩個對應鏡頭的兩個圖像感測器130),兩個相機皆指向同一場景。在一些情況下,圖像擷取設備1500將使用機器學習模型1520產生的圖像擷取設置及/或圖像處理設置僅應用於該等相機中的一個,同時允許相機中的另一個與圖像擷取設備105A的先前設置的圖像擷取設置及/或圖像處理設置同時(或在擷取另一圖像的閾值時間內)擷取圖像。在一些情況下,兩個圖像隨後可以被顯示給圖像擷取設備105A的使用者,並且圖像擷取設備105A的使用者可以選擇僅保留兩個圖像中的一個而刪除另一個,或者可以選擇保留兩個圖像。
圖16是圖示用於基於使用訓練圖像集訓練的機器學習模型1520來指導物件的圖像的擷取及/或處理的操作1600的流程圖。儘管在操作1600中引用了圖像擷取設備105A,但是操作1600可以由各種設備來執行,該等設備可以包括圖像擷取設備105A、圖像處理設備105B、圖像擷取和處理系統100、圖像擷取設備500/700/900/1100/1300/1500、雲端服務的一或多個網路伺服器、計算設備1800,或其某種組合。
在操作1605,設備接收由圖像擷取設備的圖像感測器擷取的場景的第一圖像。在操作1610,設備例如使用目標偵測、特徵偵測、面部偵測、特徵辨識、目標辨識、面部辨識、顯著性映射、本文論述的其他圖像偵測或辨識技術中的一或多個,或其組合來辨識第一圖像中圖示的物件。在操作1615,設備將第一圖像輸入到機器學習模型1520中,該機器學習模型1520使用具有辨識的物件的複數個圖像來訓練。在操作1620,設備使用機器學習模型1520產生在第一圖像內物件的替代定位、圖像擷取設備的替代定位、一或多個圖像擷取設置、一或多個圖像處理設置,或其某種組合。
操作1620之後是操作1625、操作1630、操作1635或其某種組合。在操作1625,設備產生並輸出用於定位圖像擷取設備的指示。該指示可以基於在操作1620期間決定的圖像擷取設備的替代定位。該指示可以基於在操作1620期間決定的在第一圖像內物件的替代定位。例如,用於定位圖像擷取設備的指示可以指導圖像擷取設備的重新定位,使得要由圖像感測器擷取的第二圖像中的物件的位置與使用機器學習模型1520產生的替代定位相匹配。在一些情況下,輸出指示包括例如使用阿爾法合成將第一圖像的編輯部分覆加在由圖像擷取設備顯示的預覽圖像上(如圖15的組合圖像1530中)。在一些情況下,輸出指示包括顯示圖像擷取設備應該被移動到的世界中一組座標、突出顯示與該組座標相對應的位置的地圖、突出顯示到該組座標的路徑的地圖、到該組座標的一組方向,或其某種組合。在一些情況下,輸出指示包括顯示指示圖像擷取設備要被移動、傾斜,及/或旋轉的方向的一或多個箭頭,諸如箭頭550,或者指示730和760中的箭頭。
在操作1630,設備基於使用機器學習模型1520產生的一或多個圖像擷取設置,產生並輸出用於調整圖像擷取設備的一或多個屬性的擷取設置指導。在一些情況下,輸出擷取設置指導包括在圖像感測器擷取第二圖像之前,基於一或多個圖像擷取設置來自動調整圖像擷取設備的一或多個屬性。
在操作1635,設備基於使用機器學習模型1520產生的一或多個圖像處理設置,產生並輸出用於處理要由圖像感測器擷取的第二圖像的處理設置指導。在一些情況下,輸出處理設置指導包括回應於從圖像感測器接收到第二圖像,將一或多個圖像處理設置自動應用於第二圖像。
在一些情況下,操作1600的至少一個子集可以由雲端服務的一或多個網路伺服器遠端執行,該雲端服務執行圖像分析(例如,步驟1610)、訓練機器學習模型、將第一圖像輸入到機器學習模型(例如,步驟1615)、產生及/或輸出指示及/或指導(例如,操作1620、1625、1630及/或1635),或其某種組合。
圖17是圖示指導圖像擷取的方法1700的流程圖。儘管在方法1700中引用了圖像擷取設備105A,但是方法1700可以由各種設備來執行,該等設備可以包括圖像擷取設備105A、圖像處理設備105B、圖像擷取和處理系統100、圖像擷取設備500/700/900/1100/1300/1500、雲端服務的一或多個網路伺服器、計算設備1800,或其某種組合。
方法1700包括操作1705。在操作1705,圖像擷取設備105A接收由圖像擷取設備105A的圖像感測器130擷取的場景的第一圖像。圖像擷取設備105A可以包括圖像感測器130。圖像擷取設備105A可以包括耦合到圖像感測器130的一或多個連接器。一或多個連接器可以將圖像感測器130耦合到圖像擷取設備105A的一部分,諸如圖像擷取設備105A的圖像處理器150。圖像擷取設備105A(或其處理器)可以經由一或多個連接器從圖像感測器130接收第一圖像。
在操作1710,圖像擷取設備105A辨識第一圖像中圖示的物件。例如,圖像擷取設備105A可以使用目標偵測、特徵偵測、面部偵測、特徵辨識、目標辨識、面部辨識、顯著性映射、本文論述的一或多個其他圖像偵測或辨識技術,或其組合來辨識第一圖像中圖示的物件。
在操作1715,圖像擷取設備105A將第一圖像輸入到機器學習模型1520中,機器學習模型1520使用具有辨識的物件的複數個訓練圖像來訓練。機器學習模型1520可以基於任何類型的神經網路(NN)、機器學習演算法、人工智慧演算法、本文論述的其他演算法,或其組合。例如,機器學習模型1520可以基於迴旋神經網路(CNN)、時延神經網路(TDNN)、深度前饋神經網路(DFFNN)、遞迴神經網路(RNN)、自動編碼器(AE)、變分AE(VAE)、去雜AE(DAE)、稀疏AE(SAE)、瑪律可夫鏈(MC)、感知器,或其某種組合。
在操作1720,圖像擷取設備105A使用機器學習模型1520辨識對圖像擷取設備105A的一或多個屬性的一或多個改變,該一或多個改變引起第一圖像和將由圖像感測器在擷取該第一圖像之後擷取的第二圖像之間的視覺差異。一或多個屬性可以是與圖像擷取相關聯的一或多個屬性。一或多個屬性可以包括圖像擷取設備105A的姿態。圖像擷取設備105A的姿態可以指圖像擷取設備105A的位置、圖像擷取設備105A的方位(例如,俯仰、滾動及/或偏航),或者兩者。一或多個屬性可以包括一或多個圖像擷取設置。一或多個屬性可以包括一或多個圖像處理設置。
在操作1725,圖像擷取設備105A在圖像感測器130擷取第二圖像之前輸出指示產生視覺差異的一或多個改變的指導。輸出指導可以包括輸出視覺指示、聽覺指示、振動指示,或其組合。輸出指導可以包括輸出一或多個指示,該一或多個指示指導使用者移動圖像擷取設備105A以實現視覺差異,該視覺差異包括由圖像擷取設備105A的移動引起的視角改變。
輸出指導可以包括輸出一或多個指示,該一或多個指示指導使用者將特定圖像擷取設置應用於圖像擷取設備105A,使得在擷取第二圖像期間應用該等圖像擷取設置。輸出指導可以包括自動將該等圖像擷取設置應用於圖像擷取設備105A,使得在擷取第二圖像期間應用該等圖像擷取設置。輸出指導可以包括輸出一或多個指示,該一或多個指示指導使用者將特定圖像處理設置應用於第二圖像。輸出指導可以包括將該等圖像處理設置自動應用於第二圖像。
在一些情況下,圖像擷取設備105A在輸出指導之後從圖像感測器接收第二圖像。在一些情況下,圖像擷取設備105A輸出第二圖像,例如經由使用顯示器(例如,耦合到圖像擷取設備105A的顯示器)顯示第二圖像及/或使用傳輸器將第二圖像傳輸到接收方設備。接收方設備可以使用顯示器(例如,耦合到接收方設備的顯示器)來顯示第二圖像。
辨識對圖像擷取設備105A的一或多個屬性的一或多個改變可以包括辨識圖像擷取設備105A從第一位置到第二位置的移動。在圖像擷取設備105A處輸出指導可以包括輸出用於將圖像擷取設備105A從第一位置移動到第二位置的指示。第二位置可以使用機器學習模型來辨識。指示可以包括視覺指示、聽覺指示和振動指示中的至少一者。該指示可以包括第二位置的一或多個位置座標、具有在地圖上突出顯示第二位置的覆加標記的地圖、突出顯示到第二位置的路徑的地圖、到第二位置的一組方向,或其某種組合。
指示可以辨識指示裝置從第一位置移動到第二位置的移動資訊。指示的移動資訊可以辨識從第一位置到第二位置的平移方向及/或從第一位置到第二位置的平移距離。例如,參見圖5中圖示的指示530、540和550。指示的移動資訊可以辨識從第一位置到第二位置的旋轉方向及/或從第一位置到第二位置的旋轉角度。例如,參見圖7A和圖7B中圖示的指示730和760。旋轉方向可以包括圍繞任何軸或軸的組合的任何旋轉,諸如滾動、俯仰、偏航,或另一類型的旋轉方向。旋轉角度可以用度數、弧度、圖形表示,或其某種組合來表達,並且可以指示圖像擷取設備105A將在對應的旋轉方向上旋轉多遠。指示的移動資訊可以辨識移動的平移方向、移動的平移距離、移動的旋轉方向、移動的旋轉角度,或其組合中的至少一者。
圖像擷取設備105A可以基於物件的特徵來決定物件面對的方向。更具體地,該設備可以決定在第一圖像中物件的位置和在第一圖像中物件面對的方向。圖像擷取設備105A基於在第一圖像中物件的位置和在第一圖像中物件面對的方向來辨識圖像擷取設備105A從第一位置到第二位置的移動。圖像擷取設備105A可以基於在第一圖像內物件的複數個特徵相對於彼此的定位來決定在第一圖像中物件面對的方向。若物件是人,物件的複數個特徵可以包括人的耳朵、人的臉頰、人的眼睛、人的眉毛、人的鼻子、人的嘴、人的下巴、人的附屬物,或其組合中的至少一者。例如,如關於圖4所示和所論述的,物件左側的兩個特徵(例如,物件的左眼和左臉頰)之間的左距離可以與物件右側的兩個特徵(例如,物件的右眼和右臉頰)之間的右距離進行比較。若圖像擷取設備105A決定左距離等於右距離,或者左距離和右距離之間的差低於閾值,則圖像擷取設備105A決定物件正面對圖像擷取設備105A。若圖像擷取設備105A決定左距離超過右距離至少閾值量,則圖像擷取設備105A決定物件面對右側。若圖像擷取設備105A決定右距離超過左距離至少閾值量,則圖像擷取設備105A決定物件面對左側。
圖像擷取設備105A可以基於物件的移動來決定物件面對的方向。更具體地,圖像擷取設備105A可以接收由圖像感測器130擷取的第三圖像,該第三圖像圖示該物件。圖像擷取設備105A基於在第一圖像中物件的位置和在第三圖像中物件的位置來決定物件的移動方向。圖像擷取設備105A基於物件的移動方向來決定在第一圖像中物件面對的方向。例如,若在擷取第一圖像之後擷取第三圖像,並且圖像擷取設備105A決定物件看起來在攝影場景內在特定方向上從第一圖像移動到第三圖像,則圖像擷取設備105A可以決定物件正面對該方向。類似地,若在擷取第一圖像之前擷取第三圖像,並且圖像擷取設備105A決定物件看起來在攝影場景內在特定方向上從第三圖像移動到第一圖像,則圖像擷取設備105A可以決定物件面對該方向。
第一圖像和第二圖像之間的視覺差異可以包括在物件所面對的方向上與物件相鄰的負空間中的量的調整。該調整可以是在物件面對的方向上增加與物件相鄰的負空間的量。例如,圖3A的圖像310可以被認為是第一圖像的實例,其中在物件305前面有非常小的負空間。圖3B的圖像320可以被認為是第二圖像的實例,其中與圖3A的圖像310相比,在物件305的前面有更多的負空間。在該實例中,圖像擷取設備105A的移動是從擷取第一圖像310的第一位置到擷取第二圖像320的第二位置的移動。該設備的移動可以是向第一位置左側的平移移動。該調整亦可以是在物件面對的方向上減少與物件相鄰的負空間的量。例如,若在示例性的第一圖像中,物件被圖示為非常靠近訊框的邊緣,則基於指導產生的視覺差異會使物件在示例性的第二圖像中被圖示為稍微遠離訊框的邊緣(例如,在一些情況下,更靠近訊框的中心)。
在一些實例中,第一圖像圖示水平線。如圖7A和圖7B的圖像710和740所示,第一圖像中圖示的水平線可能不水平。第一圖像和第二圖像之間的視覺差異可以使第二圖像中的水平線水平。例如,圖7A的圖像710可以是圖示未水平的水平線的第一圖像的實例。指示730指示圖像擷取設備105A要被沿著滾動旋轉方向逆時針旋轉大約15度。在擷取第二圖像之前由指示730指示的旋轉的執行產生了第一圖像和第二圖像之間的視覺差異,此舉使第二圖像中的水平線水平。類似地,圖7B的圖像740可以是圖示未水平的水平線的第一圖像的實例。指示760指示圖像擷取設備105A要被沿著滾動旋轉方向順時針旋轉大約20度。在擷取第二圖像之前由指示760指示的旋轉的執行產生了第一圖像和第二圖像之間的視覺差異,此舉使第二圖像中的水平線水平。圖像擷取設備105A可以從圖像擷取設備105A的一或多個姿態感測器接收感測器量測資料。來自一或多個姿態感測器的感測器量測資料可以被稱為姿態感測器量測資料。圖像擷取設備105A基於感測器量測資料決定圖像擷取設備105A的姿態。圖像擷取設備105A的姿態可以包括圖像擷取設備105A的位置、圖像擷取設備105A的方位(例如,俯仰、滾動及/或偏航),或其組合。隨後,可以基於感測器量測資料及/或基於姿態來辨識圖像擷取設備105A的移動。在一些態樣,一或多個姿態感測器包括加速度計、陀螺儀、磁力計、慣性量測單元、全球導航衛星系統(GNSS)接收器和海拔計中的至少一者。
圖像擷取設備105A可以接收由圖像擷取設備105A的第二圖像感測器擷取的場景的第三圖像。場景的第一圖像和場景的第三圖像可以在時間訊窗內擷取,該時間訊窗跨越一段時間。例如,時間訊窗可以是一或多個微微秒、一或多個奈秒、一或多個毫秒、一或多個秒,或其組合。第三圖像由第二圖像感測器在圖像感測器擷取第一圖像的閾值時間內擷取。第二圖像感測器具有比圖像感測器更寬的視野。在一些實例中,第二圖像感測器經由第二鏡頭接收光,而圖像感測器經由第一鏡頭接收光。第一鏡頭具有比第二鏡頭更寬的視角。例如,第一鏡頭可以是圖9的廣角鏡頭,而第二鏡頭是圖9的普通鏡頭。該指導可以基於第三圖像中對在第一圖像中未圖示的場景的一部分的圖示。例如,圖像擷取設備105A可以基於第三圖像中對物件的圖示來辨識物件至少部分地在第一圖像的訊框之外。例如,在圖9中,對普通鏡頭910可見的視圖可以是第一圖像的實例,而對廣角鏡頭920可見的視圖是第三圖像的實例。在該實例中,物件940的大部分在第一圖像的訊框之外,但是物件940的大部分在第三圖像的框中。可以基於第三圖像(對廣角鏡頭920可見的視圖)來決定圖像擷取設備105A的移動,以便將物件940帶入第二圖像的訊框中,在該實例中,第二圖像是使用與普通鏡頭相對應的圖像感測器擷取的下一個圖像。在一些情況下,指導可以基於要由第二圖像感測器在擷取第三圖像之後擷取的第四圖像。
在一些實例中,圖像擷取設備105A可以在圖像感測器擷取第二圖像的閾值時間內接收由設備的第二圖像感測器擷取的場景的第三圖像。在一些情況下,設備可以呈現第二圖像和第三圖像兩者,例如經由並排或順序顯示兩者。使用者可以選擇保留第二圖像和第三圖像中的一者,而丟棄另一者,或者簡單地將其中一者標記為此時的主圖像,而將另一者標記為替代的次圖像。
在一些情況下,該指導可以指示設備要保持靜止(例如,在第一圖像的擷取和第二圖像的擷取之間)。例如,若物件是靜止的,並且從圖像構成的觀點來看已經被很好地定位,則指導可以指示設備要保持靜止。或者,若物件正在移動並且從圖像構成的觀點來看在特定的未來時間點(或時間範圍)將被更好地定位,則指導可以指示設備要保持靜止並且在特定的未來時間點(或時間範圍)(或在特定的未來時間點(或時間範圍)附近的閾值時間內)擷取第二圖像。
在一些態樣,複數個訓練圖像包括第二物件與該物件共享一或多個相似處的訓練圖像。在一些情況下,第二物件可以是該物件。例如,該物件和第二物件可以是同一人、同一紀念碑、同一建築物,或同一物體。在一些情況下,第二物件可以是與該物件相同類型的物體。例如,該物件可以是人,並且第二物件可以是不同的人。該物件可以是建築物,並且第二物件可以是具有相似維度的不同建築物。該物件可以是物體,並且第二物件可以是具有相似維度的不同物體。第二物件和該物件之間共享的一或多個相似處包括:與第二物件相關聯的一或多個顯著性值在與該物件相關聯的一或多個顯著性值的預定範圍內。
由指導指示的對一或多個屬性的一或多個改變可以基於對用於擷取訓練圖像的一或多個屬性的一或多個設置。一或多個屬性可以包括圖像擷取設備105A的姿態,在此種情況下,由指導指示的對一或多個屬性的一或多個改變可以基於在擷取訓練圖像期間(或在與擷取訓練圖像相同的時間訊窗內)擷取訓練圖像的圖像擷取設備的姿態。一或多個屬性可以包括圖像擷取設備105A的一或多個圖像擷取設置,在此種情況下,由指導指示的對一或多個屬性的一或多個改變可以基於在訓練圖像的擷取期間擷取訓練圖像的圖像擷取設備所使用的一或多個圖像擷取設置。一或多個屬性可以包括圖像擷取設備105A的一或多個圖像處理設置,在此種情況下,由指導指示的對一或多個屬性的一或多個改變可以基於擷取訓練圖像的圖像擷取設備所使用的、在擷取訓練圖像之後應用於訓練圖像的一或多個圖像處理設置。第一圖像和第二圖像之間的視覺差異可以包括第二圖像與訓練圖像比第一圖像與訓練圖像更相似。因此,應用指導來產生視覺差異可以使得在視覺上第二圖像與訓練圖像比第一圖像與訓練圖像更相似。
圖像擷取設備可以使用特徵偵測、目標偵測、面部偵測、特徵辨識、目標辨識、面部辨識、顯著性映射、本文論述的另一偵測或辨識演算法,或其組合中的至少一者來辨識在訓練圖像中圖示了第二物件。
用於將圖像擷取設備105A從第一位置移動到第二位置的指示可以包括第二位置的一或多個位置座標,諸如緯度、經度,及/或海拔座標。用於將圖像擷取設備105A從第一位置移動到第二位置的指示可以包括地圖,其中該地圖圖示了第一位置、第二位置,以及第一位置和第二位置之間的路徑中的至少一者。用於將圖像擷取設備105A從第一位置移動到第二位置的指示可以包括從第一位置到第二位置的方向,諸如行走方向、駕駛方向,及/或公共交通方向。
對圖像擷取設備105A的一或多個屬性的一或多個改變可以包括在圖像感測器擷取第二圖像之前應用圖像擷取設置。圖像擷取設置可以對應於變焦、聚焦、曝光時間、光圈大小、ISO、景深、類比增益或光圈級數中的至少一者。可以使用機器學習模型來產生圖像擷取設置。
圖像擷取設備105A可以基於用於擷取複數個訓練圖像中的一或多個訓練圖像的一或多個圖像擷取設置來決定圖像擷取設置。圖像擷取設備105A可以經由輸出指示來輸出指導,該指示辨識與應用圖像擷取設置相對應的對設備的一或多個屬性的一或多個改變。圖像擷取設備105A可以經由自動應用圖像擷取設置,並因此自動應用對設備的一或多個屬性的一或多個改變,來輸出指導。
在一些情況下,圖像擷取設備105A可以接收由圖像感測器擷取的第二圖像。對圖像擷取設備105A的一或多個屬性的一或多個改變可以包括在擷取期間、在擷取時、在擷取後的閾值時間內,或其某種組合將圖像處理設置應用於第二圖像。圖像處理設置可以對應於亮度、對比度、飽和度、伽馬、等級、長條圖、顏色調整、模糊、銳度、等級、曲線、濾波,或裁剪中的至少一者。可以使用機器學習模型來產生圖像處理設置。
圖像擷取設備105A可以基於用於處理複數個訓練圖像中的一或多個訓練圖像的一或多個圖像處理設置來決定圖像處理設置。圖像擷取設備105A可以經由在擷取第二圖像期間、在擷取第二圖像時、在擷取第二圖像之後的閾值時間內,或其某種組合,輸出辨識圖像處理設置的指示及/或指導將圖像處理設置應用於第二圖像來輸出指導。圖像擷取設備105A可以經由在擷取第二圖像期間、在擷取第二圖像時、在擷取第二圖像之後的閾值時間內,或者其某種組合,將圖像處理設置自動應用於第二圖像來輸出指導。
在一些情況下,操作1700的至少一個子集可以由雲端服務的一或多個網路伺服器遠端執行,該雲端服務執行圖像分析(例如,步驟1710)、訓練機器學習模型、將第一圖像輸入到機器學習模型(例如,步驟1715)、使用機器學習模型辨識對屬性的改變(例如,步驟1720)、產生及/或輸出指導(例如,操作1720),或其某種組合。
在一些實例中,本文描述的過程(例如,包括操作600、800、1000、1200、1400、1600、1700的過程及/或本文描述的其他過程)可以由計算設備或裝置來執行。在一個實例中,過程600、800、1000、1200、1400、1600及/或1700可以由圖1的圖像擷取設備105A來執行。在另一實例中,包括操作600、800、1000、1200、1400、1600及/或1700的過程可以由圖1的圖像處理設備105B執行。包括操作600、800、1000、1200、1400、1600及/或1700的過程亦可以由圖1的圖像擷取和處理系統100來執行。包括操作600、800、1000、1200、1400、1600及/或1700的過程可以由具有圖18所示的計算設備架構1800的計算設備來執行。計算設備可以包括任何合適的設備,諸如行動設備(例如,行動電話)、無線通訊設備、桌面計算設備、平板計算設備、可穿戴設備(例如,VR耳機、AR耳機、AR眼鏡、聯網手錶或智慧手錶,或其他可穿戴設備)、伺服器電腦、自主車輛或自主車輛的計算設備、機器人設備、電視、相機、相機設備,及/或具有執行本文描述的過程(包括包括操作600、800、1000、1200、1400、1600及/或1700的過程)的資源能力的任何其他計算設備。在一些情況下,計算設備或裝置可以包括各種元件,諸如一或多個輸入設備、一或多個輸出設備、一或多個處理器、一或多個微處理器、一或多個微型電腦、一或多個相機、一或多個感測器,及/或被配置為執行本文描述的過程的步驟的其他元件。在一些實例中,計算設備可以包括顯示器、被配置為傳送及/或接收資料的網路介面、其任意組合,及/或其他組件。網路介面可以被配置為傳送及/或接收基於網際網路協定(IP)的資料或其他類型的資料。
計算設備的元件可以用電路系統來實現。例如,元件可以包括電子電路或其他電子硬體及/或可以使用電子電路或其他電子硬體來實現,電子電路或其他電子硬體可以包括一或多個可程式設計電子電路(例如,微處理器、圖形處理單元(GPU)、數位信號處理器(DSP)、中央處理單元(CPU),及/或其他合適的電子電路),及/或可以包括電腦軟體、韌體,或其任意組合及/或使用電腦軟體、韌體,或其任意組合來實現,以執行本文描述的各種操作。
包括操作600、800、1000、1200、1400、1600及/或1700的過程被示為邏輯流程圖,其操作表示可以用硬體、電腦指令,或其組合來實現的操作序列。在電腦指令的上下文中,操作表示儲存在一或多個電腦可讀取儲存媒體上的電腦可執行指令,當電腦可執行指令由一或多個處理器執行時,執行所述操作。通常,電腦可執行指令包括執行特定功能或實現特定資料類型的常式、程式、物件、元件、資料結構等。描述操作的順序不意欲被解釋為限制,並且可以以任何順序及/或並行地組合任何數量的所描述的操作來實現過程。
此外,包括操作600、800、1000、1200、1400、1600、1700的過程及/或本文描述的其他過程可以在配置有可執行指令的一或多個電腦系統的控制下執行,並且可以實現為在一或多個處理器上集體執行的代碼(例如,可執行指令、一或多個電腦程式或一或多個應用程式),可以由硬體執行,或其組合。如前述,代碼可以儲存在電腦可讀取或機器可讀取儲存媒體上,例如,以包括可由一或多個處理器執行的複數個指令的電腦程式的形式。電腦可讀取或機器可讀取儲存媒體可以是非暫時性的。
圖18是圖示用於實現本技術的某些態樣的系統的實例的示圖。具體而言,圖18圖示計算系統1800的實例,計算系統1800可以是例如組成內部計算系統、遠端計算系統、相機,或其任何元件的任何計算設備,其中系統的元件使用連接1805彼此通訊。連接1805可以是使用匯流排的實體連接,或者是到處理器1810的直接連接(諸如在晶片組架構中)。連接1805亦可以是虛擬連接、網路連接,或邏輯連接。
在一些實施例中,計算系統1800是分散式系統,其中本案中描述的功能可以分佈在資料中心、多個資料中心、同級網路等內。在一些實施例中,所描述的系統元件中的一或多個表示許多此種元件,每個元件執行針對元件所描述的一些或全部功能。在一些實施例中,元件可以是實體或虛擬設備。
示例性系統1800包括至少一個處理單元(CPU或處理器)1810和連接1805,連接1805將包括系統記憶體1815(例如唯讀記憶體(ROM)1820和隨機存取記憶體(RAM)1825)的各種系統元件耦合到處理器1810。計算系統1800可以包括高速記憶體的快取記憶體1812,該快取記憶體1812與處理器1810直接連接、非常接近,或整合為處理器1810的一部分。
處理器1810可以包括任何通用處理器和硬體服務或軟體服務(諸如儲存在儲存設備1830中的服務1832、1834和1836),上述各項被配置為控制處理器1810以及軟體指令被合併到實際的處理器設計中的專用處理器。處理器1810本質上可以是完全獨立的計算系統,包含多個核心或處理器、匯流排、記憶體控制器、快取記憶體等。多核處理器可以是對稱的,亦可以是非對稱的。
為了實現使用者互動,計算系統1800包括輸入設備1845,輸入設備1845可以表示任何數量的輸入機構,諸如用於語音的麥克風、用於手勢或圖形輸入的觸敏螢幕、鍵盤、滑鼠、移動輸入、語音等等。計算系統1800亦可以包括輸出設備1835,輸出設備1835可以是多個輸出機構中的一或多個。在一些情況下,多模式系統可以使使用者能夠提供多種類型的輸入/輸出來與計算系統1800通訊。計算系統1800可以包括通訊介面1840,通訊介面1840通常可以支配和管理使用者輸入和系統輸出。通訊介面可以使用有線及/或無線收發器來執行或促進有線或無線通訊的接收及/或傳輸,包括使用音訊插孔/插頭、麥克風插孔/插頭、通用序列匯流排(USB)埠/插頭、蘋果®閃電®埠/插頭、乙太網路埠/插頭、光纖埠/插頭、專有有線埠/插頭、藍芽®無線信號傳輸、藍芽®低能量(BLE)無線信號傳輸、IBEACON®無線信號傳輸、射頻辨識(RFID)無線信號傳輸、近場通訊(NFC)無線信號傳輸、專用短程通訊(DSRC)無線信號傳輸、802.11 Wi-Fi無線信號傳輸、無線區域網路(WLAN)信號傳輸、可見光通訊(VLC)、全球互通微波存取(WiMAX)、紅外(IR)通訊無線信號傳輸、公用交換電話網路(PSTN)信號傳輸、整合式服務數位網路(ISDN)信號傳輸、3G/4G/5G/LTE蜂巢資料網路無線信號傳輸、自組織網路信號傳輸、無線電波信號傳輸、微波信號傳輸、紅外信號傳輸、可見光信號傳輸、紫外光信號傳輸、沿電磁波譜的無線信號傳輸,或其組合。通訊介面1840亦可以包括一或多個全球導航衛星系統(GNSS)接收器或收發器,用於基於從與一或多個GNSS系統相關聯的一或多個衛星接收到的一或多個信號來決定計算系統1800的位置。GNSS系統包括但不限於基於美國的全球定位系統(GPS)、基於俄羅斯的全球導航衛星系統(GLONASS)、基於中國的北斗導航衛星系統(BDS)和基於歐洲的伽利略GNSS。對在任何特定的硬體佈置上進行操作沒有限制,並且因此本文的基本特徵可以容易地被開發的改良的硬體或韌體佈置所替代。
儲存設備1830可以是非揮發性及/或非暫時性及/或電腦可讀取記憶體設備,並且可以是硬碟或可以儲存可由電腦存取的資料的其他類型的電腦可讀取媒體,諸如磁帶、快閃記憶卡、固態記憶體設備、數位多功能磁碟、盒式磁帶、軟碟(floppy disk)、軟碟(flexible disk)、硬碟、磁帶、磁條/帶、任何其他磁儲存媒體、快閃記憶體、憶阻器記憶體、任何其他固態記憶體、緻密性光碟唯讀記憶體(CD-ROM)光碟、可重寫緻密性光碟(CD)光碟、數位視訊光碟(DVD)光碟、藍光光碟(BDD)光碟、全息光碟、另一光學媒體、安全數位(SD)卡、微型安全數位(microSD)卡、記憶棒®卡、智慧卡晶片、EMV晶片、用戶辨識模組(SIM)卡、迷你/微型/奈米/微微型SIM卡、另一積體電路(IC)晶片/卡、隨機存取記憶體(RAM)、靜態RAM(SRAM)、動態RAM(DRAM)、唯讀記憶體(ROM)、可程式設計唯讀記憶體(PROM)、可抹除可程式設計唯讀記憶體(EPROM)、電子可抹除可程式設計唯讀記憶體(EEPROM)、快閃記憶體EPROM(FLASHEPROM)、快取記憶體(L1/L2/L3/L4/L5/L#)、電阻隨機存取記憶體(RRAM/ReRAM)、相變記憶體(PCM)、自旋轉移扭矩RAM(STT-RAM)、另一記憶體晶片或盒式磁帶,及/或其組合。
儲存設備1830可以包括軟體服務、伺服器、服務等等,當處理器1810執行定義此種軟體的代碼時,該代碼使系統執行功能。在一些實施例中,執行特定功能的硬體服務可以包括儲存在電腦可讀取媒體中的與必要的硬體元件(諸如處理器1810、連接1805、輸出設備1835等)相關聯的軟體元件,以執行該功能。
如本文所用,術語「電腦可讀取媒體」包括但不限於可攜式或非可攜式儲存設備、光學儲存設備以及能夠儲存、包含或攜帶指令及/或資料的各種其他媒體。電腦可讀取媒體可以包括其中可以儲存資料,並且不包括以無線方式或經由有線連接傳播的載波及/或暫時性電子信號的非暫時性媒體。非暫時性媒體的實例可以包括但不限於磁碟或磁帶、諸如緻密性光碟(CD),或數位多功能光碟(DVD)的光學儲存媒體、快閃記憶體、記憶體,或記憶體設備。電腦可讀取媒體上可以儲存代碼及/或機器可執行指令,代碼及/或機器可執行指令可以表示程序、函數、副程式、程式、常式、子常式、模組、套裝軟體、類,或指令、資料結構,或程式語句的任意組合。程式碼片段可以經由傳遞及/或接收資訊、資料、引數、參數,或記憶體內容而耦合到另一程式碼片段或硬體電路。可以使用包括記憶體共享、訊息傳遞、符記傳遞、網路傳輸等任何合適的方式來傳遞、轉發或傳輸資訊、引數、參數、資料等。
在一些實施例中,電腦可讀取儲存設備、媒體和記憶體可以包括電纜或包含位元串流的無線信號等。然而,當提到時,非暫時性電腦可讀取儲存媒體明確地排除諸如能量、載波信號、電磁波和信號本身的媒體。
在以上描述中提供了具體細節,以提供對本文提供的實施例和實例的透徹理解。然而,一般技術者將理解,實施例可以在沒有該等具體細節的情況下實踐。為了解釋清楚,在一些情況下,本技術可以被呈現為包括功能方塊的單獨的功能方塊,該等功能方塊包括設備、設備元件、以軟體或者軟體或硬體的組合實現的方法中的步驟或常式。除了圖中所示及/或本文所述的彼等之外,可以使用附加的元件。例如,電路、系統、網路、過程和其他元件可以以方塊圖形式圖示為元件,以便不在不必要的細節上模糊實施例。在其他情況下,公知的電路、過程、演算法、結構和技術可以在沒有不必要的細節的情況下圖示,以避免模糊實施例。
各個實施例可以在上文中描述為被圖示為流程圖、流程示意圖、資料流程圖、結構圖,或方塊圖的過程或方法。儘管流程圖可以將操作描述為順序的過程,但是許多操作可以並行或併發地執行。此外,可以重新佈置操作的次序。當過程的操作完成時,該過程被終止,但是可以有圖中沒有包括的附加步驟。過程可以對應方法、函數、程序、子常式、副程式等等。當過程對應於函數時,過程的終止可以對應於該函數返回到調用函數或主函數。
根據上述實例的過程和方法可以使用儲存在電腦可讀取媒體中或可以其他方式從電腦可讀取媒體獲得的電腦可執行指令來實現。此種指令可以包括,例如,使或以其他方式配置通用電腦、專用電腦,或處理設備來執行特定功能或功能群組的指令和資料。使用的電腦資源的部分可以經由網路存取。電腦可執行指令可以是例如二進位檔案、諸如組合語言的中間格式指令、韌體、原始程式碼等。可用於儲存指令、使用的資訊,及/或在根據所述實例的方法期間建立的資訊的電腦可讀取媒體的實例包括磁碟或光碟、快閃記憶體、配備有非揮發性記憶體的USB設備、聯網儲存設備等。
實現根據該等揭示的過程和方法的設備可以包括硬體、軟體、韌體、中間軟體、微碼、硬體描述語言,或其任意組合,並且可以採用各種外形因素中的任意一種。當以軟體、韌體、中間軟體或微碼實現時,執行必要任務的程式碼或程式碼片段(例如,電腦程式產品)可以儲存在電腦可讀取或機器可讀取媒體中。處理器可以執行必要的任務。外形因素的典型實例包括膝上型電腦、智慧手機、行動電話、平板設備或其他小型個人電腦、個人數位助理、機架式設備、獨立設備等。本文描述的功能亦可以體現在周邊設備或外掛程式卡中。作為進一步的實例,此種功能亦可以在不同晶片之間的電路板上或者在單個設備中執行的不同過程中實現。
指令、用於傳送該等指令的媒體、用於執行該等指令的計算資源,以及用於支援該等計算資源的其他結構是用於提供本案中描述的功能的示例性構件。
在前面的描述中,參考本案特定實施例描述了本案的各態樣,但是熟習此項技術者將認識到本案不限於此。因此,儘管本文已經詳細描述了本案的說明性實施例,但是應當理解,本發明的概念可以以其他方式不同地實施和使用,並且所附請求項意欲被解釋為包括該等變化,除非受到現有技術的限制。上述本案的各種特徵和態樣可以單獨或聯合使用。此外,在不脫離本說明書的更廣泛的精神和範疇的情況下,實施例可以在除了本文描述的環境和應用之外的任何數量的環境和應用中使用。因此,說明書和附圖被認為是說明性的,而不是限制性的。為了說明的目的,方法是按特定次序描述的。應當理解,在替代實施例中,該等方法可以以不同於所描述的次序來執行。
一般技術者將會理解,在不脫離本說明書的範疇的情況下,本文使用的小於(「<」)和大於(「>」)符號或術語可以分別用小於或等於(「≤」)和大於或等於(「≥」)符號來代替。
在元件被描述為「被配置為」執行某些操作的情況下,此種配置可以例如經由設計電子電路或其他硬體來執行該操作、經由對可程式設計電子電路(例如,微處理器或其他合適的電子電路)進行程式設計來執行該操作,或其任意組合來實現。
短語「耦合到」是指直接或間接地實體連接到另一元件的任何元件,及/或直接或間接地與另一元件通訊(例如,經由有線或無線連接及/或其他合適的通訊介面連接到另一元件)的任何元件。
記載集合中的「至少一個」及/或集合中的「一或多個」的請求項語言或其他語言指示該集合的一個成員或該集合的多個成員(以任意組合)滿足請求項。例如,記載「A和B中的至少一個」的請求項語言是指A、B,或A和B。在另一實例中,記載「A、B和C中的至少一個」的請求項語言是指:A、B、C,或A和B,或A和C,或B和C,或A和B和C。語言集合中的「至少一個」及/或集合中的「一或多個」並不將該集合限制為該集合中列出的項。例如,記載「A和B中的至少一個」的請求項語言可以表示A、B,或A和B,並且可以另外包括未在A和B的集合中列出的項。
結合本文揭示的實施例描述的各種說明性邏輯區塊、模組、電路和演算法步驟可以實現為電子硬體、電腦軟體、韌體,或其組合。為了清楚地說明硬體和軟體的此種可互換性,各種說明性的元件、方塊、模組、電路和步驟已經在上文根據其功能進行了一般性的描述。此種功能實現為硬體還是軟體取決於特定的應用和對整體系統施加的設計約束。熟習此項技術者可以針對每個特定應用以不同的方式實現所描述的功能,但是此種實現決策不應被解釋為導致脫離本案的範疇。
本文描述的技術亦可以用電子硬體、電腦軟體、韌體,或其任意組合來實現。此種技術可以用多種設備中的任何一種來實現,諸如通用電腦、無線通訊設備手機,或具有多種用途(包括在無線通訊設備手機和其他設備中的應用程式)的積體電路元件。描述為模組或元件的任何特徵可以在整合邏輯元件中一起實現,或者作為離散但可交互操作的邏輯元件單獨實現。若以軟體實現,該等技術可以至少部分地由包括程式碼的電腦可讀取資料儲存媒體來實現,則該程式碼包括當被執行時執行上述方法中的一或多個方法的指令。電腦可讀取資料儲存媒體可以形成電腦程式產品的一部分,該電腦程式產品可以包括封裝材料。電腦可讀取媒體可以包括記憶體或資料儲存媒體,諸如隨機存取記憶體(RAM)(諸如同步動態隨機存取記憶體(SDRAM))、唯讀記憶體(ROM)、非揮發性隨機存取記憶體(NVRAM)、電子可抹除可程式設計唯讀記憶體(EEPROM)、FLASH記憶體、磁性或光資料儲存媒體等。附加地或替代地,該等技術可以至少部分地經由電腦可讀取通訊媒體來實現,該電腦可讀取通訊媒體承載或傳達指令或資料結構形式,並且可以由電腦存取、讀取及/或執行的程式碼,該電腦可讀取通訊媒體諸如傳播的信號或波。
程式碼可以由處理器執行,該處理器可以包括一或多個處理器,諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、現場可程式設計邏輯陣列(FPGA),或其他等效的整合或離散邏輯電路系統。此種處理器可以被配置成執行本案中描述的任何技術。通用處理器可以是微處理器;但是可選地,處理器可以是任何習知的處理器、控制器、微控制器,或狀態機。處理器亦可以被實現為計算設備的組合,例如,DSP和微處理器的組合、複數個微處理器、一或多個微處理器與DSP核心的結合,或者任何其他此種配置。因此,本文使用的術語「處理器」可以指任何前述結構、前述結構的任意組合,或者適合於實現本文描述的技術的任何其他結構或裝置。此外,在一些態樣,本文描述的功能可以在被配置用於編碼和解碼的專用軟體模組或硬體模組中提供,或者結合在組合的視訊編碼器-解碼器(CODEC)中。
100:圖像擷取和處理系統
105A:圖像擷取設備
105B:圖像處理設備
110:場景
115:鏡頭
120:控制機構
125A:曝光控制機構
125B:聚焦控制機構
125C:變焦控制機構
130:圖像感測器
140:隨機存取記憶體(RAM)
145:唯讀記憶體(ROM)
150:圖像處理器
152:主處理器
154:圖像信號處理器(ISP)
156:I/O埠
160:I/O設備
205:物件
210:圖像
220:圖像
305:物件
310:圖像
320:圖像
410:第一圖像
420:第二圖像
430:第三圖像
500:圖像擷取設備
510:使用者介面
520:物件
530:圖示
540:目標矩形
550:箭頭
560:快門按鈕
600:操作
605:操作
610:操作
615:操作
620:操作
700:圖像擷取設備
710:預覽圖像
720:水平虛線
730:定位指導指示
740:預覽圖像
750:水平虛線
760:定位指導指示
800:操作
805:操作
810:操作
815:操作
900:圖像擷取設備
910:視圖
920:視圖
940:物件
1000:操作
1005:操作
1010:操作
1015:操作
1020:操作
1100:圖像擷取設備
1110:圖像
1120:第二圖像
1130:組合圖像
1200:操作
1205:操作
1210:操作
1215:操作
1220:操作
1225:操作
1230:操作
1300:圖像擷取設備
1310:預覽圖像
1320:第二圖像
1330:組合圖像
1400:操作
1405:操作
1410:操作
1415:操作
1420:操作
1425:操作
1430:操作
1500:圖像擷取設備
1510:預覽圖像
1520:機器學習模型
1530:組合圖像
1600:操作
1605:操作
1610:操作
1615:操作
1620:操作
1625:操作
1630:操作
1635:操作
1700:方法
1705:操作
1710:操作
1715:操作
1720:操作
1725:操作
1800:計算系統
1805:連接
1810:處理器
1812:快取記憶體
1815:系統記憶體
1820:隨機存取記憶體(RAM)
1825:唯讀記憶體(ROM)
1830:儲存設備
1832:服務
1834:服務
1835:輸出設備
1836:服務
1840:通訊介面
1845:輸入設備
下文參考以下附圖詳細描述本案的說明性實施例;
圖1是圖示圖像擷取和處理設備的架構的方塊圖;
圖2A是圖示在圖像中心的物件的概念圖;
圖2B是圖示與表示圖像的三分之一的兩條線對準的圖2A的物件的概念圖;
圖3A是圖示在圖像的左手側圖示的向左移動的物件的概念圖;
圖3B是圖示在圖像的右手側圖示的圖2A的向左移動的物件的概念圖;
圖4是圖示帶有對某些特徵的標記的人臉的三個圖像的概念圖,該等特徵可用於決定人臉所面對的方向;
圖5是圖示圖像擷取設備的使用者介面的概念圖,該使用者介面具有指導使用者在特定方向上將圖像擷取設備移動特定距離的定位指導指示;
圖6是圖示用於基於圖像中物件面對的方向來指導圖像擷取的操作的流程圖;
圖7A是圖示圖像擷取設備的使用者介面的概念圖,該使用者介面具有指導使用者逆時針傾斜圖像擷取設備以使圖像中的水平線水平的定位指導指示;
圖7B是圖示圖像擷取設備的使用者介面的概念圖,該使用者介面具有指導使用者順時針傾斜圖像擷取設備以使圖像中的水平線水平的定位指導指示;
圖8是圖示基於來自圖像擷取設備的一或多個定位感測器的感測器量測資料來指導圖像擷取的操作的流程圖;
圖9是圖示對於具有普通鏡頭的第一圖像感測器可見的視圖覆加在對於具有廣角鏡頭的第二圖像感測器可見的視圖上的概念圖;
圖10是圖示基於來自具有第二鏡頭的第二圖像感測器的圖像資料,指導使用具有第一鏡頭的第一圖像感測器的圖像擷取的操作的流程圖,其中第二鏡頭具有比第一鏡頭更寬的角度;
圖11是圖示圖像擷取設備的使用者介面的概念圖,其中先前擷取的物件的圖像覆加在由圖像擷取設備的圖像感測器擷取的物件的圖像上;
圖12是圖示用於基於同一物件的另一圖像來指導物件的圖像的擷取及/或處理的操作的流程圖;
圖13是圖示圖像擷取設備的使用者介面的概念圖,其中先前擷取的物件的圖像被用於產生覆加在由圖像擷取設備的圖像感測器擷取的不同物件的圖像上的指導;
圖14是圖示用於基於不同物件的另一圖像來指導物件的圖像的擷取及/或處理的操作的流程圖;
圖15是圖示圖像擷取設備的使用者介面的概念圖,其中使用圖像集訓練的機器學習模型被用於產生覆加在由圖像擷取設備的圖像感測器擷取的物件的圖像上的指導;
圖16是圖示用於基於使用圖像集訓練的機器學習模型來指導物件的圖像的擷取及/或處理的操作的流程圖;
圖17是圖示指導圖像擷取的方法的流程圖;和
圖18是圖示用於實現本技術的某些態樣的系統的實例的示圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記)
無
國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記)
無
410:第一圖像
420:第二圖像
430:第三圖像
Claims (35)
- 一種用於指導圖像擷取的裝置,該裝置包括: 儲存指令的一或多個記憶體單元;和 執行該等指令的一或多個處理器,其中該一或多個處理器對該等指令的執行使得該一或多個處理器: 接收由一圖像感測器擷取的一場景的一第一圖像; 辨識該第一圖像中圖示的一物件; 將該第一圖像輸入到一機器學習模型中,該機器學習模型使用具有所辨識的物件的複數個訓練圖像來訓練; 使用該機器學習模型辨識對與圖像擷取相關聯的一或多個屬性的一或多個改變,該一或多個改變引起該第一圖像和將由該圖像感測器在擷取該第一圖像之後擷取的一第二圖像之間的一視覺差異;和 在該圖像感測器擷取該第二圖像之前,輸出指示產生該視覺差異的該一或多個改變的指導。
- 根據請求項1之裝置,其中該裝置是一行動設備、一無線通訊設備和一相機中的至少一者。
- 根據請求項1之裝置,其中該裝置包括一顯示器,該顯示器被配置為至少顯示該第二圖像。
- 根據請求項1之裝置,亦包括: 耦合到該圖像感測器的一或多個連接器,其中該一或多個處理器經由該一或多個連接器從該圖像感測器接收該第一圖像。
- 根據請求項1之裝置,亦包括: 該圖像感測器。
- 根據請求項1之裝置,其中辨識該第一圖像中圖示的該物件包括:執行特徵偵測、目標偵測、面部偵測、特徵辨識、目標辨識、面部辨識和一顯著性圖的產生中的至少一者。
- 根據請求項1之裝置,其中該一或多個處理器對該等指令的執行使得該一或多個處理器亦: 在輸出該指導之後,從該圖像感測器接收該第二圖像;和 輸出該第二圖像,其中輸出該第二圖像包括:使用一顯示器顯示該第二圖像和使用一傳輸器傳輸該第二圖像中的至少一者。
- 根據請求項1之裝置,其中辨識對與圖像擷取相關聯的該一或多個屬性的該一或多個改變包括:辨識該裝置從一第一位置到一第二位置的一移動,其中輸出該指導包括:輸出用於將該裝置從該第一位置移動到該第二位置的一指示,該指示辨識該移動的一平移方向、該移動的一平移距離、該移動的一旋轉方向和該移動的一旋轉角度中的至少一者。
- 根據請求項8之裝置,其中使用該機器學習模型來辨識該第二位置。
- 根據請求項8之裝置,其中該指示包括一視覺指示、一聽覺指示和一振動指示中的至少一者。
- 根據請求項8之裝置,其中該指示包括該第二位置的一或多個位置座標。
- 根據請求項8之裝置,其中該第一圖像和該第二圖像之間的該視覺差異使該第二圖像中的一水平線水平,其中該水平線不是如該第一圖像中圖示的水平。
- 根據請求項8之裝置,其中該一或多個處理器對該等指令的執行使得該一或多個處理器亦: 從一或多個姿態感測器接收姿態感測器量測資料;和 基於該姿態感測器量測資料決定該裝置的一姿態,其中辨識該裝置從該第一位置到該第二位置的該移動是基於該裝置的該姿態,其中該裝置的該姿態包括該裝置的一位置和該裝置的一方位中的至少一者。
- 根據請求項8之裝置,其中該一或多個處理器對該等指令的執行使得該一或多個處理器亦: 決定在該第一圖像中該物件的一位置;和 基於在由該圖像感測器擷取的該第一圖像和一第三圖像之間該物件的兩個特徵的一相對定位和該物件移動的一移動方向中的至少一者,決定在該第一圖像中該物件面對的一方向,其中辨識該裝置從該第一位置到該第二位置的該移動是基於在該第一圖像中該物件的該位置和在該第一圖像中該物件面對的該方向,其中該第一圖像和該第二圖像之間的該視覺差異包括在該物件面對的該方向上與該物件相鄰的一負空間量的一調整。
- 根據請求項1之裝置,其中該一或多個處理器對該等指令的執行使得該一或多個處理器亦: 接收由一第二圖像感測器擷取的該場景的一第三圖像,其中該場景的該第一圖像和該場景的該第三圖像是在一時間訊窗內擷取的,其中該第二圖像感測器具有比該圖像感測器更寬的一視野,其中該指導基於該第三圖像中對該場景的、在該第一圖像中未被圖示的一部分的一圖示。
- 根據請求項1之裝置,其中該指導指示該裝置在該第一圖像的擷取和該第二圖像的擷取之間要保持靜止。
- 根據請求項1之裝置,其中該複數個訓練圖像包括圖示了該物件和與該物件共享一或多個相似處的一第二物件中的至少一者的一訓練圖像,其中由該指導指示的對該一或多個屬性的該一或多個改變是基於對用於擷取該訓練圖像的該一或多個屬性的一或多個設置。
- 根據請求項17之裝置,其中該第二物件和該物件之間共享的該一或多個相似處包括:與該第二物件相關聯的一或多個顯著性值在與該物件相關聯的一或多個顯著性值的一預定範圍內。
- 根據請求項17之裝置,其中該第一圖像和該第二圖像之間的該視覺差異包括:該第二圖像與該訓練圖像比該第一圖像與該訓練圖像更相似。
- 根據請求項1之裝置,其中對與圖像擷取相關聯的該一或多個屬性的該一或多個改變包括:在該圖像感測器擷取該第二圖像之前應用一圖像擷取設置,其中該圖像擷取設置對應於變焦、聚焦、曝光時間、光圈大小、ISO、景深、類比增益和光圈級數中的至少一者。
- 根據請求項20之裝置,其中輸出該指導包括輸出一指示,該指示辨識與應用該圖像擷取設置相對應的、對與圖像擷取相關聯的該一或多個屬性的該一或多個改變。
- 根據請求項20之裝置,其中輸出該指導包括自動地應用與應用該圖像擷取設置相對應的、對與圖像擷取相關聯的該一或多個屬性的該一或多個改變。
- 根據請求項1之裝置,其中該一或多個處理器對該等指令的執行使得該一或多個處理器亦: 接收由該圖像感測器擷取的該第二圖像,其中對與圖像擷取相關聯的該一或多個屬性的該一或多個改變包括對該第二圖像應用一圖像處理設置,其中該圖像處理設置對應於亮度、對比度、飽和度、伽馬、等級、長條圖、顏色調整、模糊、銳度、等級、曲線、濾波和裁剪中的至少一者。
- 一種指導圖像擷取的方法,該方法包括以下步驟: 接收由一圖像擷取設備的一圖像感測器擷取的一場景的一第一圖像; 辨識該第一圖像中圖示的一物件; 將該第一圖像輸入到一機器學習模型中,該機器學習模型使用具有所辨識的物件的複數個訓練圖像來訓練; 使用該機器學習模型辨識對該圖像擷取設備的一或多個屬性的一或多個改變,該一或多個改變引起該第一圖像和將由該圖像感測器在擷取該第一圖像之後擷取的一第二圖像之間的一視覺差異;和 在該圖像感測器擷取該第二圖像之前,輸出指示產生該視覺差異的該一或多個改變的指導。
- 根據請求項24之方法,其中該方法由該圖像擷取設備執行,其中該圖像擷取設備是一行動設備、一無線通訊設備和一相機中的至少一者。
- 根據請求項24之方法,其中辨識該第一圖像中圖示的該物件之步驟包括以下步驟:執行特徵偵測、目標偵測、面部偵測、特徵辨識、目標辨識、面部辨識和一顯著性圖的產生中的至少一者。
- 根據請求項24之方法,其中辨識對與圖像擷取相關聯的該一或多個屬性的該一或多個改變之步驟包括以下步驟:辨識該圖像擷取設備從一第一位置到一第二位置的一移動,其中輸出該指導之步驟包括以下步驟:輸出用於將該圖像擷取設備從該第一位置移動到該第二位置的一指示,該指示辨識該移動的一平移方向、該移動的一平移距離、該移動的一旋轉方向和該移動的一旋轉角度中的至少一者。
- 根據請求項27之方法,其中使用該機器學習模型來辨識該第二位置。
- 根據請求項27之方法,其中該第一圖像和該第二圖像之間的該視覺差異使該第二圖像中的一水平線水平,其中該水平線不是如該第一圖像中圖示的一水平。
- 根據請求項27之方法,亦包括以下步驟: 決定在該第一圖像中該物件的一位置;和 基於在由該圖像感測器擷取的該第一圖像和一第三圖像之間該物件的兩個特徵的一相對定位和該物件移動的一移動方向中的至少一者,決定在該第一圖像中該物件面對的一方向,其中辨識該圖像擷取設備從該第一位置到該第二位置的該移動是基於在該第一圖像中該物件的該位置和在該第一圖像中該物件面對的該方向,其中該第一圖像和該第二圖像之間的該視覺差異包括在該物件面對的該方向上與該物件相鄰的一負空間量的一調整。
- 根據請求項24之方法,亦包括以下步驟: 接收由一第二圖像感測器擷取的該場景的一第三圖像,其中該場景的該第一圖像和該場景的該第三圖像是在一時間訊窗內擷取的,其中該第二圖像感測器具有比該圖像感測器更寬的一視野,其中該指導基於該第三圖像中對該場景的、在該第一圖像中未被圖示的一部分的一圖示。
- 根據請求項24之方法,其中該複數個訓練圖像包括圖示了該物件和與該物件共享一或多個相似處的一第二物件中的至少一者的一訓練圖像,其中由該指導指示的對該一或多個屬性的該一或多個改變是基於對用於擷取該訓練圖像的該一或多個屬性的一或多個設置,其中該第一圖像和該第二圖像之間的該視覺差異包括該第二圖像與該訓練圖像比該第一圖像與該訓練圖像更相似。
- 根據請求項32之方法,其中該第二物件和該物件之間共享的該一或多個相似處包括:與該第二物件相關聯的一或多個顯著性值在與該物件相關聯的一或多個顯著性值的一預定範圍內。
- 根據請求項24之方法,其中對與圖像擷取相關聯的該一或多個屬性的該一或多個改變包括:在該圖像感測器擷取該第二圖像之前應用一圖像擷取設置,其中該圖像擷取設置對應於變焦、聚焦、曝光時間、光圈大小、ISO、景深、類比增益和光圈級數中的至少一者。
- 根據請求項24之方法,亦包括以下步驟: 接收由該圖像感測器擷取的該第二圖像,其中對與圖像擷取相關聯的該一或多個屬性的該一或多個改變包括對該第二圖像應用一圖像處理設置,其中該圖像處理設置對應於亮度、對比度、飽和度、伽馬、等級、長條圖、顏色調整、模糊、銳度、等級、曲線、濾波和裁剪中的至少一者。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063029214P | 2020-05-22 | 2020-05-22 | |
US63/029,214 | 2020-05-22 | ||
US17/071,971 US11388334B2 (en) | 2020-05-22 | 2020-10-15 | Automatic camera guidance and settings adjustment |
US17/071,971 | 2020-10-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202203085A true TW202203085A (zh) | 2022-01-16 |
Family
ID=78607986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110118223A TW202203085A (zh) | 2020-05-22 | 2021-05-20 | 自動相機指導和設置調整 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11388334B2 (zh) |
EP (1) | EP4154515A1 (zh) |
KR (1) | KR20230015341A (zh) |
CN (1) | CN115668967A (zh) |
BR (1) | BR112022022849A2 (zh) |
TW (1) | TW202203085A (zh) |
WO (1) | WO2021236844A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11419540B2 (en) * | 2020-07-02 | 2022-08-23 | The Gillette Company Llc | Digital imaging systems and methods of analyzing pixel data of an image of a shaving stroke for determining pressure being applied to a user's skin |
US20220021822A1 (en) * | 2020-07-14 | 2022-01-20 | International Business Machines Corporation | Guided multi-spectral inspection |
US11877052B2 (en) * | 2020-12-08 | 2024-01-16 | Cortica Ltd. | Filming an event by an autonomous robotic system |
US11879984B2 (en) * | 2021-05-21 | 2024-01-23 | Booz Allen Hamilton Inc. | Systems and methods for determining a position of a sensor device relative to an object |
US11889196B2 (en) * | 2021-12-06 | 2024-01-30 | Qualcomm Incorporated | Systems and methods for determining image capture settings |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4197019B2 (ja) | 2006-08-02 | 2008-12-17 | ソニー株式会社 | 撮像装置および表情評価装置 |
US7805066B2 (en) | 2007-12-24 | 2010-09-28 | Microsoft Corporation | System for guided photography based on image capturing device rendered user recommendations according to embodiments |
JP2015507860A (ja) | 2011-12-07 | 2015-03-12 | インテル コーポレイション | 画像キャプチャのガイド |
US9195909B2 (en) | 2013-09-23 | 2015-11-24 | Adobe Systems Incorporated | Using machine learning to define user controls for photo adjustments |
US10038838B2 (en) | 2015-05-29 | 2018-07-31 | Hover Inc. | Directed image capture |
CN107026973B (zh) | 2016-02-02 | 2020-03-13 | 株式会社摩如富 | 图像处理装置、图像处理方法与摄影辅助器材 |
EP3430973A1 (en) * | 2017-07-19 | 2019-01-23 | Sony Corporation | Mobile system and method |
US10607143B2 (en) * | 2017-08-22 | 2020-03-31 | Internatonal Business Machines Corporation | Profile data camera adjustment |
KR102438201B1 (ko) * | 2017-12-01 | 2022-08-30 | 삼성전자주식회사 | 사진 촬영과 관련된 추천 정보를 제공하는 방법 및 시스템 |
US11074430B2 (en) | 2018-05-29 | 2021-07-27 | Adobe Inc. | Directional assistance for centering a face in a camera field of view |
CN110248096B (zh) * | 2019-06-28 | 2021-03-12 | Oppo广东移动通信有限公司 | 对焦方法和装置、电子设备、计算机可读存储介质 |
-
2020
- 2020-10-15 US US17/071,971 patent/US11388334B2/en active Active
-
2021
- 2021-05-19 KR KR1020227040008A patent/KR20230015341A/ko active Search and Examination
- 2021-05-19 CN CN202180035537.XA patent/CN115668967A/zh active Pending
- 2021-05-19 BR BR112022022849A patent/BR112022022849A2/pt unknown
- 2021-05-19 WO PCT/US2021/033263 patent/WO2021236844A1/en unknown
- 2021-05-19 EP EP21734977.8A patent/EP4154515A1/en active Pending
- 2021-05-20 TW TW110118223A patent/TW202203085A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
EP4154515A1 (en) | 2023-03-29 |
US20210368094A1 (en) | 2021-11-25 |
KR20230015341A (ko) | 2023-01-31 |
US11388334B2 (en) | 2022-07-12 |
WO2021236844A1 (en) | 2021-11-25 |
CN115668967A (zh) | 2023-01-31 |
BR112022022849A2 (pt) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11388334B2 (en) | Automatic camera guidance and settings adjustment | |
US10182187B2 (en) | Composing real-time processed video content with a mobile device | |
KR20190064958A (ko) | 사진 촬영과 관련된 추천 정보를 제공하는 방법 및 시스템 | |
US11810256B2 (en) | Image modification techniques | |
WO2023154135A1 (en) | Systems and methods for facial attribute manipulation | |
TW202334899A (zh) | 用於產生合成景深效果的系統和方法 | |
WO2022040868A1 (zh) | 全景拍摄方法、电子设备及存储介质 | |
US11330204B1 (en) | Exposure timing control for multiple image sensors | |
US20220414847A1 (en) | High dynamic range image processing | |
WO2023044208A1 (en) | Low-power fusion for negative shutter lag capture | |
US11769258B2 (en) | Feature processing in extended reality systems | |
EP4233306A1 (en) | Mechanism for improving image capture operations | |
US20240153245A1 (en) | Hybrid system for feature detection and descriptor generation | |
US11893720B1 (en) | Automatic image processing based on caption | |
KR102619846B1 (ko) | 촬영 구도 제안을 위한 전자 장치, 전자 장치의 촬영 구도 제안 방법 | |
US11792505B2 (en) | Enhanced object detection | |
US20230222757A1 (en) | Systems and methods of media processing | |
US20240144717A1 (en) | Image enhancement for image regions of interest | |
US20240161418A1 (en) | Augmented reality enhanced media | |
US20240096049A1 (en) | Exposure control based on scene depth | |
WO2022067836A1 (en) | Simultaneous localization and mapping using cameras capturing multiple spectra of light | |
WO2023283855A1 (en) | Super resolution based on saliency | |
WO2024097469A1 (en) | Hybrid system for feature detection and descriptor generation | |
WO2023282963A1 (en) | Enhanced object detection | |
WO2023107832A1 (en) | Systems and methods for determining image capture settings |