TW202044114A

TW202044114A - 組態具有影像理解之資料管線

Info

Publication number: TW202044114A
Application number: TW109108048A
Authority: TW
Inventors: 安德魯奧古斯丁魏斯; 亞維朗柯恩; 下村宗弘; 三好弘孝
Original assignee: 日商索尼半導體解決方案公司
Priority date: 2019-03-15
Filing date: 2020-03-11
Publication date: 2020-12-01
Also published as: JP2022526869A; TWI767763B; WO2020190657A1; US10990840B2; TW202137061A; CN113841155A; EP3938954A4; US20200293803A1; TWI734406B; KR20210150414A; EP3938954A1

Abstract

將節點之一網路組織成用於需要影像理解之一或多個應用之一資料管線。取決於該應用，該等節點可組態以形成不同資料管線。自該等節點組態一資料管線之程序可經標準化。在一個實施方案中，該等節點具有各種能力，該等能力可包含感測器功能(例如，影像擷取)及影像理解功能(例如，物件偵測及辨識)。基於該等節點之該等能力之描述，選擇用於包含於該資料管線中之各種節點且亦判定用於形成該資料管線之該等選定節點之間之互連。將控制資料傳輸至該等選定節點以形成該資料管線。該控制資料根據各節點在該資料管線中之角色指定該等選定節點之該等感測器及/或影像理解功能且亦指定該等選定節點之間之該等互連。

Description

組態具有影像理解之資料管線

本發明大體上係關於包含影像之感測器資料之處理及理解。

如今部署數百萬個攝影機及其他感測器裝置。通常不存在用於使運算能夠容易地以一有意義的方式與由攝影機擷取之內容互動之機構。此導致來自攝影機之大多數資料未被即時處理且至多，在已知一事件已發生之後將經擷取影像用於法醫學目的。因此，浪費大量資料儲存器來儲存在最終分析中不受關注之視訊。另外，通常需要人類監測以理解經擷取視訊。可用於解譯或偵測影像中之相關資料之機器輔助有限。

如今之另一問題係資訊之處理係高度應用特定的。應用(諸如先進駕駛輔助系統及基於面部辨識之保全)需要使用各攝影機之原生低階介面在來自攝影機之原始影像中進行讀取且接著以針對目標應用之一特定方式處理原始影像之客製化軟體。應用開發者通常必須針對各不同類型之攝影機產生特定低階介面僅用於獲得原始影像，且接著其等通常必須亦產生應用特定軟體來處理原始視訊圖框以提取所要資訊。

除低階攝影機介面之外，若應用開發者想要將現有處理或分析能力(諸如人工智慧或機器學習)用於更高階影像理解，則其等亦將需要理解並產生此等系統之各者之介面。此等系統可使用專屬API。一應用開發者可變得被鎖定至一特定供應商之解決方案中，使得難以隨後切換至其他解決方案。

因此，使用感測器之網路之應用之開發緩慢且受限制。例如，安裝於一環境中之監視攝影機通常僅用於保全目的且以非常有限的方式使用。此係部分因為非常難以自藉由此等系統擷取之影像圖框提取有意義的資料。類似地，在其中存在安裝於一汽車上之一攝影機網路之一汽車環境中，以非常特定於汽車之一特徵之一方式處理自此等攝影機擷取之影像資料。例如，一前向攝影機可僅用於車道輔助。通常不存在使一應用能夠利用資料或視訊用於其他目的之能力。通常亦不存在容許不同應用視該特定應用之需要將不同感測器及不同處理功能一起組合至一資料管線中之靈活性。

因此，需要更靈活且更易於存取及處理由感測器裝置擷取之資料，包含由攝影機擷取之影像及視訊之更高階理解。亦需要更靈活且更易於容許多個應用組裝來自現有(及共用)感測器及處理能力之資料管線。

本發明藉由提供用於針對需要影像理解之一或多個應用將節點之一網路組織成資料管線之一方法而克服先前技術之限制。節點可組態以取決於應用之需要而形成不同資料管線。在一些實施例中，自節點組態一資料管線之程序係根據一標準及/或經由一標準化API執行。

節點具有各種能力，該等能力可包含對感測器功能(例如，影像擷取)及影像理解功能(例如，物件偵測及辨識)之存取。基於節點之能力之描述，選擇某些節點以包含於資料管線中。亦判定用於形成資料管線之選定節點之間之互連。將控制資料傳輸至選定節點，從而導致資料管線之形成。控制資料根據各節點在資料管線中之角色指定選定節點之感測器及/或影像理解功能且亦指定選定節點之間之互連。

在管線中，一些節點具有對感測器能力之存取。其等可係感測器自身或具有對感測器之存取。感測器功能操作為資料管線之源。此包含能夠進行影像擷取之節點(即，攝影機)。資料管線自由源擷取之感測器資料產生影像資料及影像理解後設資料。影像資料之實例包含經擷取影像及/或自經擷取影像導出之經增強影像。影像理解後設資料係描述影像資料之影像理解(例如，面部或物件之偵測或辨識)之後設資料。影像理解後設資料亦參考對應於影像理解之影像資料。例如，其可含有至經辨識面部或物件之視訊圖框之縮圖及指針。在一些情況中，控制資料亦指定由資料管線產生之影像資料及影像理解後設資料。

其他態樣包含與上文之任何者相關之組件、裝置、系統、改良、方法、程序、應用、電腦可讀媒體及其他技術。

圖及以下描述係關於僅藉由圖解之較佳實施例。應注意，自以下論述，將容易地將本文中揭示之結構及方法之替代實施例辨識為可在不脫離所主張內容之原理之情況下採用之可行替代例。

圖1A係可組態成應用170之資料管線之節點110之一網路之一方塊圖。應用170之實例包含智慧型電話應用、雲端應用及網頁應用。節點110可經互連至一實體裝置內或一單獨實體裝置中之其他節點以達成應用170所預期之功能性。

圖1B係一例示性節點110之一方塊圖。節點110具有一或多個埠，其或其等可係輸入埠112或輸出埠118。其亦具有傳感器能力120及/或處理能力130。圖1B係一節點之一般方塊圖。實際節點可不具有所展示之全部功能。

傳感器120可被廣泛地細分為感測器122及致動器128。感測器122將外部刺激轉譯為資料。實例包含影像及其他光譜感測器、麥克風、溫度或熱感測器、壓力感測器以及煙霧及其他化學感測器。致動器128將資料轉譯為外部刺激。實例包含揚聲器及觸覺回饋。

在下文之實例中，為了方便起見將傳感器能力展示為在節點110內部。在其中節點110含有實體傳感器之情況中，節點將具有對傳感器功能之直接存取。然而，節點110亦可具有對定位於節點外部之傳感器之傳感器功能之存取。例如，一舊型攝影機可能與實施下文描述之概念之一標準不相容。在該情況中，一橋可用作具有對攝影機之能力之存取之節點110。此亦適用於處理功能130。

處理130可被廣泛地細分為影像處理132及非影像處理138。影像處理132可被進一步細分為影像顯影134及影像理解136。影像顯影134係用於改良影像之品質之較低階功能。實例包含感測器偏壓之校正、像素缺陷之校正、漸暈補償、暗圖框扣除、白平衡、去馬賽克、雜訊降低、空間濾光、色彩空間轉換、色調映射、伽瑪校正、對比度增強、邊緣增強、像差校正、焦點調整、曝光調整、重新取樣、解析度增強、高動態範圍調整及彩色濾光片陣列內插。

影像理解136係用於理解影像之內容之較高階功能。一個實例係一特定物件之存在或不存在之偵測：人類之面部、動物或某些類型之動物、車輛、武器、人造結構或某些類型之結構或文字或標誌或條碼之偵測。一較高階實例係特定物件之識別(即，辨識)：一人群中之一恐怖分子之識別、藉由姓名對於個體之識別、藉由公司對於標誌之識別、針對一護照或駕駛執照或其他認證對於一個體之識別。影像理解136之一甚至更高階實例係基於特定物件之偵測或識別之進一步特性化。例如，可偵測一面部且接著分析該面部以理解所表達之情緒。影像理解之其他實例包含特定動作或活動及特定位置或環境之偵測及識別。

傳回至圖1A，節點110可實施於許多不同平台上，例如，嵌入一攝影機內，在雲端上執行或執行為一行動應用。一裝置可含有一個節點或多個節點。裝置負責組態其節點。一裝置可係一實體裝置或可在一伺服器上或雲端中虛擬化。各節點可唯一地識別。

在圖1A中，節點110A至110C之不同群組由一對應管理層160A至160C管理，但此並非必須的。在此實例中，管理層160A管理群組A中之節點110A1至110A3，管理層160B管理群組B中之節點110B1至110B2，且管理層160C管理群組C中之節點110C1至110C2。

分組可係根據裝置或以其他方式。例如，群組A可含有一攝影機內之全部節點110：例如，個別感測器、裝置上影像處理及應用處理器。群組B可含有可本端存取之節點110之一匯集，諸如遍及網路連結在一起之裝置之一系統分佈之不同功能性。影像理解之更複雜形式可係基於需要大量運算資源之機器學習、深度學習及/或人工智慧技術。例如，群組C可含有可用作雲端服務之較高階功能。

應用170將節點110組織成一資料管線。資料管線包含作為一資料源之影像擷取。其亦執行經擷取影像資料之影像理解且產生描述影像理解之後設資料。為了清楚起見，將此稱為影像理解後設資料以與其他類型之後設資料進行區分。例如，影像理解後設資料可陳述是否存在人類，或提供一經識別人類之姓名，或列舉自一面部識別之情緒。通常言之，資料管線亦將產生影像資料(經擷取影像或自經擷取影像導出之版本)且影像理解後設資料亦將參考對應於影像理解之影像資料。例如，識別一情緒之影像理解後設資料亦可參考對應面部之(若干)影像圖框。

應用170可直接、在其他實體之輔助下或間接透過其他實體(諸如管理層)組裝資料管線。由於節點110可經組織且接著多次經重新組織成不同資料管線，故本文中描述之方法提供更好地利用節點之能力之靈活性。在一些實施例中，用於將節點組織成資料管線之程序係基於一標準，諸如一標準化API (應用程式設計介面)。多個應用170可接著存取節點以建立不同資料管線且若節點具有足夠容量則可同時運行其等管線。

圖2至圖4係具有影像理解之資料管線之實例。在圖2中，一應用正在執行一人群中之人之虹膜掃描。資料管線藉由使用一大視野擷取一低解析度彩色影像210而開始。管線中之下一階段使用一快速數位變焦以放大212一所關注區域。此後接著為面部偵測及辨識214 (影像理解)以識別所關注對象。接著判定216眼睛之位置。使用光學變焦及數位修剪，將高放大率攝影機引導218至眼睛位置。此等影像可接著用於生物測定虹膜識別。圖2之底部展示由資料管線產生之影像資料。用於此管線之後設資料可包含(例如)對象之識別。

在圖3之實例中，一應用提供一學校之監視。在此實例中，資料管線以提供教室之總體視訊監視之階段開始。此階段經定製用於一大區域之總體監視。在此階段期間，在12:00，存在識別一人正在哭之聲音辨識之一事件。此在時間12:00自動地標記影像圖框。

事件觸發管線階段以擷取更多資料及/或提供更多處理，如圖3之下四個圖框中展示。此處，正常視訊太暗，因此亦擷取高曝光圖框。資料管線亦擷取紅外圖框且為了特寫圖框進行放大。自此等不同影像，資料管線中之額外階段將學生識別為John且識別其處於一悲傷情緒狀態中。此影像理解由資料管線輸出為後設資料面部=John及情緒=悲傷，如圖3中展示。此後設資料係針對四個影像圖框之組，而非針對任何特定一個圖框。後設資料亦參考對應影像圖框。

圖4繪示其中一快速圖框率容許多個圖框經組合用於藉由資料管線分析之一實例。在此實例中，感測器裝置之原始圖框率係每秒120個圖框。在正常操作下，每四個圖框經擷取且經儲存為影像資料。然而，在資料管線中，在某些觸發後，在不同條件下擷取額外圖框。在此實例中，攝影機係一3色攝影機，但其可經濾光以有效地擷取一IR影像。在運動偵測之後，擷取額外影像：一經增加曝光影像、一紅外影像及具有深度量測(在此實例中，基於紅外結構化光)之一圖框。資料管線在後續階段中處理此等影像以偵測面部或物件或執行其他類型之影像理解。

圖5係繪示將圖1之節點組態成一資料管線之一方塊圖。此實例包含維持節點及其等能力之一清單且亦授予應用對節點之存取之一帳戶服務580。帳戶服務580可提供末端使用者管理攝影機及其他感測器裝置以及較高階處理之一方式。

在一個方法中，使用者將其等能夠存取之裝置/節點指派至其等使用者帳戶且接著將其等選擇之應用170連結至其等帳戶。一旦已授予應用170對使用者帳戶之存取，應用170便可請求510與使用者之帳戶及其等能力相關聯之一裝置清單。帳戶服務580傳回512此資訊且亦可傳回密碼、金鑰或授予對節點之存取所需之其他認證。通常言之，此將係一存取符記。若未使用一帳戶服務580，則應用170可(例如)透過如在一標準中指定之一自動發現程序直接判定可用節點及其等能力。替代地，此資訊可提供於一單獨檔案中。

基於節點之能力之描述，應用170判定520資料管線。其選擇哪些節點包含於資料管線中且判定用於形成資料管線之選定節點之間之互連。資料管線將包含用作管線之剩餘部分之資料源之感測器節點且將亦包含具有影像理解能力之節點。資料管線之判定可係基於除僅描述節點之能力以外的額外資訊。例如，感測器之地理覆蓋範圍或彼此之近接性可用於判定哪些感測器包含於管線中且如何將其等互連。

應用170將控制資料傳輸530至經選擇以形成資料管線之節點110。在圖5中，將控制資料傳輸530至管理層160 (即，間接至節點)，該等管理層160接著實行所請求組態。控制資料指定各節點之功能性且亦指定節點之間之互連。其亦可指定待由資料管線產生之影像資料及後設資料。在一個方法中，資料管線由各節點(匯聚節點(sink node))與為其供應資料之緊接上游節點(源節點)建立一控制工作階段而形成，但亦可使用其他控制方法。在圖5中，控制平面由虛線展示且資料管線由粗實線展示。

圖5中之例示性資料管線係非線性的。其具有分支。節點110A1係整個資料管線之源。正向資料路徑首先係自節點110A1至節點110A2。其接著分支至節點110A3及110B2。110A3分支繼續至110B1、110C1、110C2且接著540至應用170。在另一分支中，將節點110B2之輸出提供540至應用170。其亦饋給110C2，其中其與110A3分支組合。因此，存在至應用170之兩個資料饋給540：一個來自節點110B2且一個來自節點110C2。

資料管線中之分支可係靜態的，如上文描述，其中來自節點110A2之資料始終流動至兩個分支。資料管線亦可由有關影像理解之條件觸發。例如，若節點110A2執行某一影像理解，則取決於影像理解之結果，資料管線可繼續至110A3或至110B2。例如，若未偵測到武器，則發生某一處理，但若偵測到一致命武器，則發生其他處理。可在控制資料中指定觸發。

圖5中之例示性資料管線亦包含自節點110A2至節點110A1之一回饋迴路，其係相同群組中(例如，相同裝置上)之兩個節點之間之回饋。此特定迴路將回饋提供至源節點110A1。例如，可取決於影像理解改變影像擷取設定。亦可在其他節點之間(例如，在不同裝置上之節點之間)建立回饋迴路。

圖5僅係一個實例。將明白其他實例及拓樸。例如，資料管線可包含擷取不同類型之感測器資料之多個源，其中資料管線亦含有基於感測器融合之影像理解功能。另外，來自相同或不同使用者之多個應用170可存取相同節點以建構其等自身之資料管線。

圖6A至圖6B提供由一資料管線產生之資料之實例。在此等實例中，將影像資料或其他原始或經增強感測器資料稱為「場景資料」。根據時間將資料組織成「場景影像分鏡(scene shot)」。若一快照係一系列視訊影像之一個圖框，則一場景影像分鏡係類似概念但不限於單一圖框或僅影像。場景影像分鏡通常亦包含後設資料，該後設資料在圖6A中被劃分為影像理解後設資料及其他類型之後設資料。

圖6A係一場景影像分鏡之一方塊圖。此場景影像分鏡包含一標頭。此場景影像分鏡包含以下一般後設資料：感測器裝置ID、場景模式(其係下文描述之控制資料之一類型)、請求應用之ID、時間戳記、GPS位置戳記。

場景影像分鏡之資料部分亦包含場景資料，該場景資料可包含來自兩個攝影機之彩色視訊、依一不同解析度及圖框率之IR視訊、深度量測及音訊。在視訊背景內容內，場景資料之實例包含單色、彩色、紅外及依不同解析度及圖框率擷取之影像。非影像類型之場景資料包含音訊、溫度、環境照明或發光度及關於周圍環境之其他類型之資料。可編碼及/或加密場景資料，其等亦可藉由影像顯影功能(諸如感測器偏壓之校正、暗圖框扣除、白平衡、去馬賽克、雜訊降低、空間濾光、對比度增強、邊緣增強等)增強。

場景影像分鏡亦包含影像理解後設資料：例如，運動偵測及物件/人/面部偵測。此等可採取場景標記之形式，如下文更詳細描述。

此資料亦具有一時間態樣。在習知視訊中，根據視訊之圖框率按規則時間間隔擷取一新影像。將視訊序列中之各影像稱為一圖框。類似地，一場景通常具有一特定持續時間(雖然一些場景可無限期地進行)且隨著時間擷取/產生場景之不同「樣本」。為了避免混淆，將一場景之此等樣本稱為場景影像分鏡而非圖框，此係因為一場景影像分鏡可包含視訊之一或多個圖框。術語場景影像分鏡係場景及快照之一組合。

相較於習知視訊，場景影像分鏡亦可具有更多可變性。場景影像分鏡可或可不按規則時間間隔產生。即使按規則時間間隔產生，時間間隔仍可隨著場景進展而改變。例如，若在一場景中偵測到感興趣的某物，則可增加場景影像分鏡之頻率。針對相同應用之一序列場景影像分鏡亦可或可不含有相同類型之資料或自每一場景影像分鏡中之相同感測器通道導出之資料。例如，可期望一場景之某些部分之高解析度放大影像，或可隨著一場景進展而添加或移除額外感測器通道。作為一最後實例，場景影像分鏡或場景影像分鏡內之組成部分可在不同應用之間以及更廣泛地共用。

實務上，實際場景資料可係相當龐大的。因此，此資料可由中介軟體儲存或儲存於雲端上，且一場景影像分鏡之實際資料封包可包含至場景資料之指針而非實際資料自身。作為另一實例，後設資料可係動態的(即，與各場景影像分鏡一起包含且可變)。然而，若後設資料不頻繁地改變，則其可與個別場景影像分鏡分開地或作為一單獨通道傳輸。

圖6B係繪示將場景影像分鏡組織成「場景」之一時間線。在此圖中，時間自左側進展至右側。原始場景1係針對執行一學校之下課後監視之一應用。場景影像分鏡652A係針對此場景1擷取/產生。場景影像分鏡652A可包含至學校之主要入口之粗解析度、相對低圖框率視訊。場景影像分鏡652A亦可包含運動偵測或可指示潛在可疑活動之其他經處理資料。在圖6B中，場景影像分鏡由在括弧中之數字(N)表示，因此652A(01)係一個場景影像分鏡，652A(02)係下一場景影像分鏡等。

在場景影像分鏡652A(01)中偵測到可能可疑活動(其係由場景標記2標記)且衍生一第二場景2。場景標記2包含指示偵測到運動之影像理解後設資料。此場景2係場景1之一子場景。應注意，「子」係指衍生關係且不暗示在資料方面或在持續時間上，場景2係場景1之一子集。事實上，此場景2請求額外資料652B。可能此額外資料係面部辨識。在位點上偵測到之個體未被辨識為經授權，且此衍生由場景標記3標記之場景3 (即，子子場景3)。場景3不使用資料652B，但其確實使用額外資料652C，例如，來自遍及位點且非僅在入口處定位之攝影機之較高解析度影像。亦增加影像擷取之速率。場景標記3觸發一通知至當局以調查情境。

同時，另一不相關應用產生場景4。可能此應用係用於學校基礎設施之遠端監測用於故障之早期偵測或用於預防性維護。其亦使用相同資料652A之一些但係藉由用於一不同目的之一不同應用。

圖7係繪示使用一中介服務來組態資料管線之一方塊圖。圖7類似於圖5，惟引入一中介服務790除外。應用170不與帳戶服務580或管理層160直接互動。實情係，應用170與中介790互動，該中介790與帳戶服務580及管理層160互動。例如，資料服務790可將一API提供至應用170以將服務提供至應用。

在圖7中，系統如下般操作。資料服務790維持節點及其等能力之一清單。其可週期性地請求710裝置、節點及其等能力之一清單。帳戶服務580傳回712此資訊且亦可傳回密碼、金鑰或獲取對節點之存取所需之其他認證。應用170接著請求714此資訊且自資料服務790接收716此資訊。

基於節點之能力之描述，應用170判定720資料管線。其選擇哪些節點包含於資料管線中且判定用於形成資料管線之選定節點之間之互連。應用170接著將控制資料傳輸730至資料服務790，該資料服務790將對應控制資料傳輸732至管理層160 (即，間接至節點)，該等管理層160接著實行所請求組態。控制資料指定各節點之功能性且亦指定節點之間之互連。其亦可指定待由資料管線產生之影像資料及後設資料。

所得資料管線將資料傳回740至資料服務790，該資料服務790將其提供742至請求應用170。不同資料管線可如關於圖5描述般組態。

在上文之實例中，將中介服務790描述為位於應用170與系統之剩餘部分之間之一直通(pass-through)實體。然而，資料服務790亦可提供額外功能性。例如，資料服務790自身可具有傳感器或處理功能。其亦可執行來自多個節點110或針對多個應用170之資料之交叉分析。資料服務790亦可對針對來自多個應用170之資料之請求進行彙總、優先化或多工。一裝置可限於一次與一單一應用170互動。然而，在該情況中，多個應用170可與一資料服務790互動，該資料服務790接著與裝置互動。

資料服務790亦可提供額外服務，例如，提供關於裝置及節點之額外資訊(諸如一鄰近映射)或關於裝置如何彼此互動之額外資訊。資料服務790亦扣除遠離個別裝置之節點110。與節點110互動之一應用170不需要設定與各裝置之一控制工作階段以組態各節點。實情係，應用170請求資料服務790以組態節點110，且資料服務790負責與各節點110產生控制工作階段。中介不需要係一資料服務。其可係(例如)一中介軟體層。

在一些實施方案中，用於組態一資料管線之程序在一標準中或透過使用一標準化API而定義。圖8至圖11提供一標準之一個實例。在此實例中，在標準中定義開頭字母大寫術語，諸如匯聚、源、能力、場景資料、場景標記及場景模式。圖8係一資料管線之一基於標準之組態之一事件追蹤。在此實例中且相較於圖1至圖7，匯聚870係對應於請求應用170之節點且源810係對應於節點110之節點。能力使用標準之語法來描述節點之能力。場景模式係用於組態節點之圖5中之控制資料。場景資料及場景標記係由資料管線傳回之資料。場景資料含有影像資料及其他感測器資料。場景標記含有參考相關場景資料之影像理解後設資料。將此資料組織成場景，且將場景之樣本稱為場景影像分鏡。

更具體言之，此實例使用由標準定義之以下資料物件： ․節點係資料管線之建置區塊。各節點具有一唯一ID。 ․能力係一源節點能夠提供之內容，諸如AI演算法、所支援場景模式、硬體感測器能力等。 ․場景模式 係一節點之一組態。如適用，場景模式定義感測器之擷取程序、用於處理資料之電腦視覺或人工智慧演算法、資料輸出格式等。 ․場景標記 係由描述一事件之一節點產生之一結構化輸出。其包含節點之一識別符、觸發場景標記之時間戳記及觸發事件之節點處理之結果。其亦含有對與事件相關聯之場景資料之參考。 ․場景資料 係與已觸發一場景標記之一事件相關聯之實際資料。其可係一靜態影像、一視訊片段、一溫度或其他感測器資料。取決於所請求場景模式，資料可在事件之前幾秒開始且在事件之後運行數秒。

能力物件用於建立節點之能力且場景模式物件用於定義各節點之組態及節點之間之互連。場景標記及場景資料物件係由資料管線處理之資料之表示。

資料管線產生最終由應用消耗之場景標記及場景資料物件。場景標記物件可由資料管線中之不同節點操縱。此將通常需要將額外欄位添加至場景標記物件，該等額外欄位係節點處理來自先前節點之場景標記或場景資料之結果。節點亦可進一步產生作為處理先前場景標記及場景資料之結果之場景資料。例如，能夠偵測面部之一節點可處理來自由一先前節點產生之場景資料之一視訊圖框且自圖框提取對應於已偵測之面部之矩形。

資料管線之組態利用能力物件來判定節點之能力。能力物件描述節點是否含有(若干)傳感器、節點之處理能力(包含支援哪些場景模式)、可由節點中之程序執行之分析之層級及來自節點之資料之輸入或輸出之埠選項。使用此資訊，定義節點之一場景模式，包含什麼資料流入及流出節點以及節點是否擷取新感測器資料及/或處理自其它節點傳入之資料。

一旦已將各節點之場景模式提供至各節點，資料管線便被建構且將開始根據提供至各節點之場景模式產生一序列場景模式及場景資料。在下文之章節A中提供此例示性標準之此等資料物件之更詳細定義。

參考圖8，如下般設定資料管線。匯聚870設定805與源810之一控制工作階段。在一個方法中，控制工作階段之組態透過將一存取符記或認證提供至匯聚870之一帳戶服務發生。匯聚870使用存取符記來與源810通信。匯聚藉由對各源提出一獲取能力請求814而判定各源之能力。源傳回816其等能力。匯聚藉由判定管線中之各節點之傳感器及處理功能/組態且判定節點之間之互連而定義820程序之資料管線。

匯聚發出832對應設定場景模式命令。場景模式資料物件指定節點之感測器及/或影像理解功能。此組態亦觸發各節點以與資料管線中之其他節點產生互連。匯聚使用開始場景命令個別地觸發834各節點以開始場景模式。資料管線接著使用在標準中定義之場景標記及場景資料格式產生資料。匯聚消耗840由節點產生之場景標記及場景資料。資料管線進行操作直至匯聚發出848停止場景命令。

更詳細言之，在一個方法中，可藉由一節點ID唯一地識別節點。節點ID係基於代管節點之裝置之裝置ID且在代管一個以上節點之一裝置之情況中，節點具備在與裝置ID組合時定義節點之一唯一節點ID之一進一步節點號。針對與一節點相關聯之輸入及輸出埠類似地，各埠具有在節點之範疇內之一唯一埠號。裝置ID、節點號及埠號之組合定義一唯一埠ID。

節點通常具有兩個介面：一控制介面及一資料介面。控制介面用於組態使用節點之一資料管線，包含諸如判定節點之能力及將場景模式分佈至資料管線內之節點之功能。在一個實施方案中，源節點僅限於一次接受一個控制工作階段，意謂任何節點可僅由一個其他節點控制。然而，一匯聚節點可並行建立多個控制工作階段，從而控制多個源節點。一些節點可相對於不同節點用作源及匯聚兩者。

節點使用資料介面處理並分佈場景標記及場景資料。此等係根據節點之序列及其等在場景模式中定義之組態處理。節點之資料介面使節點能夠在其等之間交換資料。

傳回至圖8，匯聚節點使用節點ID將一設定場景模式命令832發送至源節點。設定場景模式判定： ․什麼資料待優先化——例如，針對場景模式=面部優先化面部。 ․導致一場景標記產生之觸發。 ․在一觸發發生時產生之場景資料之類型及量，例如，在觸發之前及20秒之後之一JPEG或3秒之視訊等。 ․節點對場景資料執行以提取場景標記之資訊之任何處理。在下文之章節B中提供由此例示性標準支援之命令之額外細節。

藉由連結節點之輸入及輸出而建構資料管線。場景模式物件之規範包含以下品項： ․(若干)輸入：各輸入具有預期經由輸入接收之資料之類型之一組態、其加密狀態、對正確物件之參考及至輸入之源資料之源URI。各輸入亦具有一唯一埠ID。 ․(若干)輸出：各輸出具有類似於輸入埠之組態之一組態。各輸出亦具有一唯一埠ID。 ․(若干)傳感器：一傳感器係一感測器或一致動器。可將傳感器之輸出路由至(一致動器之) 一或多個輸出、輸入以及節點中之處理功能。 ․(若干)程序。程序執行由節點產生或自其它節點路由之資料之一分析。資料可呈來自其他節點之場景標記或場景資料之形式。程序執行分析且若達到一經定義臨限值，則程序將產生導致一場景標記及場景資料根據場景模式組態產生之一觸發條件。

圖9係一經組態資料管線之一方塊圖。在此實例中，節點910A含有一影像感測器(傳感器能力)及運動偵測(處理能力)。輸出場景資料係經擷取視訊。其係根據節點之輸出埠之組態編碼且連結至節點910B上之一輸入埠。可使用一特定目標位元率及編碼機制將場景資料編碼為一視訊串流。若偵測到運動，則節點910A亦產生一場景標記，其中後設資料指示偵測到運動。將節點910B內之程序設定為「面部」場景模式，其亦指定當偵測到運動時，節點將執行「偵測」及「辨識」面部之分析層級。此程序將所得後設資料隨附至自節點910A接收之場景標記且將經更新場景標記轉發至請求應用170。例如，經更新場景標記現可包含指示所偵測面部之(x,y)座標及基於面部之個體之身份之後設資料。進一步處理在輸入埠上接收之場景資料以提取面部資訊。例如，可應用數位變焦及修剪。亦可將此場景資料轉發至應用170。

藉由將節點連結在一起而建構資料管線。一節點之場景模式定義此組態。建構管線之應用設定各節點之場景模式，注意一節點執行一程序且將來自此程序之所需輸出轉發至資料管線中之後續節點之輸入。藉由定義經產生之一埠或場景標記之一目的地且定義一埠或場景標記之源而執行連結。同時定義源及目的地與協定(諸如MQTT，其中一代理係兩個程序之間之一中介)之使用相容。源節點將一訊息發佈至代理上之主題而匯聚節點訂閱來自代理之訊息。針對此類型之連接，源節點具有其訊息之一目的地而匯集節點具有其傳入訊息之一源。此可根據所使用之協定變動。

一單一裝置可具有一單一節點或具有多個節點。在裝置具有多個節點之情況中，用於在裝置內之節點之間傳送場景資料及場景標記之方法可專屬於裝置。在一個方法中，一裝置內之節點之場景模式之組態定義裝置內之資料之源及目的地。當在裝置之間傳送資料時，埠組態用於組態資料之編碼。

資料管線內之一些程序可將結果回饋至在資料管線中之早期程序。例如，執行面部偵測之一程序可將其中已偵測到面部之區域回饋至感測器。感測器可使用此資訊來調適其擷取設定以確保以最佳清晰度(焦點、曝光、變焦等)擷取所偵測面部。

圖10係具有在一節點內部之回饋之一資料管線之一方塊圖。在此實例中，節點1010A具有偵測運動之能力。此節點之場景模式經設定使得若偵測到運動，則將一擷取序列回饋至感測器。一擷取序列定義待由感測器擷取之一序列圖框之設定。此等設定可包含其中已偵測到運動之區域及針對焦點、曝光及變焦設定之導引。一擷取序列可包括一或多個圖框。擷取序列在節點內內部傳送但經定義作為節點之場景模式組態之部分。

圖11係具有節點之間之回饋之一資料管線之一方塊圖。在此實例中，節點1110B使其場景模式設定為面部且經組態以將感測器之擷取序列回饋至節點1110A。在此實例中，程序經設定以偵測面部且在偵測到一面部之後，將對應於面部之所關注區域發送至感測器以使感測器能夠最佳化其中已偵測到面部之區域之擷取。

雖然詳細描述含有許多細節，但此等不應被解釋為限制本發明之範疇而僅為繪示不同實例。應瞭解，本發明之範疇包含上文未詳細論述之其他實施例。將在本文中揭示之方法及設備之配置、操作及細節方面進行熟習此項技術者將明白之各種其他修改、改變及變動而不脫離如隨附發明申請專利範圍中定義之精神及範疇。因此，本發明之範疇應由隨附發明申請專利範圍及其等合法等效物判定。

替代實施例經實施於電腦硬體、韌體、軟體及/或其等之組合中。實施方案可實施於有形地體現於一機器可讀儲存裝置中以供一可程式化處理器執行之一電腦程式產品中；且方法步驟可由一可程式化處理器執行，該可程式化處理器執行一程式指令以藉由操作輸入資料且產生輸出而執行功能。實施例可有利地實施於可在一可程式化系統上執行之一或多個電腦程式中，該可程式化系統包含經耦合以自一資料儲存系統、至少一個輸入裝置及至少一個輸出裝置接收資料及指令且將資料及指令傳輸至一資料儲存系統、至少一個輸入裝置及至少一個輸出裝置之至少一個可程式化處理器。各電腦程式可以一高階程序語言或物件導向程式設計語言，或視需要以組合或機器語言實施；且在任何情況中，語言可係一經編譯或經解譯語言。適合處理器包含(藉由實例)通用微處理器及專用微處理器兩者。一般言之，一處理器將自一唯讀記憶體及/或一隨機存取記憶體接收指令及資料。一般言之，一電腦將包含用於儲存資料檔案之一或多個大容量儲存裝置；此等裝置包含磁碟(諸如內部硬碟機及可抽換式磁碟)；磁光碟；及光碟。適於有形地體現電腦程式指令及資料之儲存裝置包含全部形式之非揮發性記憶體，包含(藉由實例)：半導體記憶體裝置，諸如，EPROM、EEPROM及快閃記憶體裝置；磁碟，諸如，內部硬碟機及可抽換式磁碟；磁光碟；及CD-ROM光碟。前述之任何者可由ASIC (特定應用積體電路)及其他形式之硬體補充或併入於其等中。章節 A ：資料物件之描述

此章節A描述以下資料物件： ․能力 ․ 場景模式 ․ 場景標記 ․ 場景資料 能力物件

能力物件定義節點能夠提供之處理、傳感器及埠。能力資料結構描述資料之影像、音訊、源之可用處理、擷取(輸入)及輸出及由一節點支援之資料之輸出。此等包含以下項。

1. 傳感器 ：一傳感器係一感測器或可將資料轉換為一實體擾動之一致動器(例如，一揚聲器)。以下係傳感器之實例： ․影像感測器(影像、深度或溫度攝影機)通常輸出表示一圖框之一二維陣列。 ․資料感測器(濕度感測器、溫度感測器等)通常輸出一文字或資料結構。 ․音訊麥克風通常產生一連續序列之音訊樣本。 ․揚聲器獲取一序列音訊樣本作為一輸入且輸出音訊。

2. 所支援場景模式 ：此等係用於分析影像之經定義模式。亦見下文之場景模式物件。

3. 音訊處理 ：此可由節點定義。其包含話音轉文字之功能。

4. 客製分析 ：此容許使用者定義客製分析。作為一個實例，其可係可處理一音訊、影像或視訊輸入且產生其意義係由演算法定義之一分數向量之一演算法。

5. 輸入：此可係場景資料或場景標記且可呈一經處理或未經處理形式。以下可係程序之源： ․裝置內部或外部之一感測器之輸出。 ․一不同裝置上之一節點之輸出。 ․相同裝置內之一不同節點之輸出。

6. 輸出：一輸出可係場景資料或場景標記且亦可呈一經處理或未經處理形式。場景模式物件

場景模式判定待產生之資料。其定義待由圖框之擷取及經擷取圖框之處理優先化哪種類型之資料。其亦定義經產生之場景標記及用於產生場景標記之觸發條件。

例如，面部場景模式將在一序列圖框內優先化面部之擷取。當偵測到一面部時，攝影機系統將擷取其中存在面部之圖框，其中面部經正確地聚焦、照明及視需要，充分變焦以使面部辨識能夠以增加之成功機率執行。當偵測到一個以上面部時，攝影機可正確地擷取儘可能多的面部。攝影機可使用具有針對視圖中之面部最佳化之不同設定之多個圖框。例如，針對接近攝影機之面部，攝影機近聚焦。針對較遠離之面部，使用數位變焦及較長聚焦。

可定義以下場景模式： ․面部 ․人類 ․動物 ․文字/標誌/條碼 ․車輛 ․物件標記。此係由攝影機擷取之影像之一般化標記。 ․客製。此係使用者定義的。場景模式可在與其他場景模式相關聯之場景標記中產生資料欄位。場景模式之目的係導引影像之擷取以適應模式及定義用於產生如由場景模式定義之資料之一工作流程。在應用層級下，應用程序不需要洞悉裝置之特定組態及裝置如何擷取影像。應用使用場景模式來指示哪些類型之資料係應用感興趣的且對於應用具有最高優先級。

觸發條件

一場景模式通常將具有一或多個「觸發」。一觸發係產生一場景標記且擷取並處理針對場景模式定義之場景資料之一條件。應用可判定應何時產生一場景標記。

在一個方法中，觸發係基於影像理解之一多層級模型。分析層級係以下項： 1.偵測到運動：程序能夠偵測視野內之運動。 2.偵測到物項或物項消失：程序能夠偵測到與場景模式相關聯之物項(偵測到物項)或偵測何時物項不再存在(物項消失)。例如，在場景模式=面部之情況中，偵測到物項意謂一面部已被偵測到。在場景模式=動物之情況中，物項消失意謂一先前偵測到之動物不再存在。 3.辨識物項：程序能夠識別所偵測物項。例如，在場景模式=標記之情況中，「經辨識」意謂可標記一所偵測物項。在場景模式=面部之情況中，「經辨識」意謂可判定面部之身份。在一個版本中，場景模式組態支援基於物件之參考影像對物件之辨識。 4.特性化物項：程序能夠判定物項之一較高階特性。例如，在場景模式=面部中，「經特性化」意謂所偵測面部之某一特徵已具有與其相關聯之一屬性。例如，一心情或情緒已歸於所偵測面部。場景模式定義觸發一場景標記之產生所需之分析層級。例如，針對場景模式=面部，觸發條件可係偵測到面部，或辨識面部或針對情緒特性化面部。類似選項可用於上文列舉之其他場景模式。場景標記物件

一場景標記係基於時間及/或位置相關之經彙總事件之影像理解之一經辨識所關注場景之一簡潔表示。場景標記可用於提取及呈現與感測器資料之消費者有關之資訊。場景標記亦可用於促進詳細資訊(包含原始感測器資料)之智慧及有效存檔/檢索。在此角色中，場景標記作為較大量感測器資料之一索引操作。

場景標記物件包含以下項： ․場景標記識別符 ․時間戳記 ․影像理解後設資料 ․對於對應場景資料之參考

當分析引擎遇到觸發條件時，產生一場景標記。其提供對觸發條件之場景資料及後設資料之一參考。場景標記之完整性由節點之分析能力判定。若節點可僅在最終期望較高層級分析時執行運動偵測，則可產生一部分場景標記。部分場景標記可接著由後續處理節點完成。場景資料物件

場景資料由一或多個感測器裝置及/或感測器模組之一群組(其包含與場景相關之不同類型之感測器資料)擷取或提供。場景資料不限於原始經擷取資料，而可亦包含某一進一步處理。實例包含： ․RGB影像資料 ․IR影像資料 ․RGB IR影像資料 ․深度圖 ․立體聲影像資料 ․音訊 ․溫度 ․濕度 ․一氧化碳 ․被動紅外

場景模式定義在觸發與場景模式相關聯之觸發時產生之場景資料之類型及量。例如，場景模式組態可指示產生觸發之前10秒及觸發之後30秒之視訊作為場景資料。此係在場景模式資料物件之場景資料組態欄位中設定。若觸發比針對場景資料定義之時段更快速地發生，則多個場景標記可參考場景資料之一單一視訊檔案。例如，其中多個觸發在30秒內發生且針對各觸發定義之場景資料係30秒。在多個觸發於該等30秒內發生之情況下，針對各觸發產生之場景標記參考構成觸發之場景資料之相同視訊檔案。章節 B ：命令之描述

針對控制介面支援以下命令： ․獲取能力 。由匯聚使用以獲得一特定源節點之能力之一清單。 ․設定場景模式 。匯聚將一場景模式載入源節點中。當場景模式排程觸發場景模式或將一明確開始場景命令發送至節點時，一場景模式變為在作用中。場景模式根據排程或在將一停止場景命令發送至節點時變得不在作用中。開始場景及停止場景命令更動排程。 ․設定擷取序列 。此控制類別實施方案旨在由匯聚使用以控制用於影像擷取之一傳感器源節點之設定。擷取模式表示圖框之一序列擷取及各圖框之設定。例如，若一擷取模式需要其後接著為4個視訊圖框之一高解析度圖框，則將存在發送至感測器之兩個控制類別。第一類別將在擷取靜態影像之前發送且將指示應使用一特定曝光設定、使用一特定焦點設定等擷取一全解析度圖框。將發送第二類別，從而指示應擷取一視訊序列、序列中之圖框之數目、數位變焦設定等。 ․開始場景 。匯聚開始一場景模式。為了停止此場景模式，發出一明確停止場景命令。若相同場景ID出現於場景標記排程中，則此命令更動場景標記排程。 ․停止場景 。匯聚停止一運行場景模式。此可用於停止一經排程或一經定期觸發場景模式。若使用此命令停止一經排程場景模式，則將僅在一開始場景模式命令經發送或發生下一經排程時間之情況下重新開始場景模式。 ․設定場景模式排程 。匯聚設定用於結合經預載入場景模式使用之一場景模式排程。可將多個場景模式載入節點中。若將此物件載入節點中，則根據在物件內定義之排程執行物件中列舉之場景模式ID。

針對資料介面支援以下命令： ․獲取場景資料 。匯聚自一源節點請求場景資料檔案或清單(manifest)。 ․設定場景資料 。源節點發佈含有至少一個場景資料物件或對至少一個場景資料檔案之參考之場景資料清單。此結構亦可用於含有或參考歷史場景資料之一部分或完整集合。場景資料亦可編碼於此資料物件內。 ․獲取場景標記 。匯聚自對應於一特定場景標記ID之節點請求一特定場景標記。 ․設定場景標記 。源寫入可儲存於一節點內之一場景標記。

110:節點 110A1至110A3:節點 110B1至110B2:節點 110C1至110C2:節點 112:輸入埠 118:輸出埠 120:傳感器能力 122:感測器 128:致動器 130:處理能力 132:影像處理 134:影像顯影 136:影像理解 138:非影像處理 160A:管理層 160B:管理層 160C:管理層 170:應用 210:擷取一低解析度彩色影像 212:放大 214:面部偵測及辨識 216:判定 218:引導 510:請求 512:傳回 520:判定 530:傳輸 540:饋給 580:帳戶服務 652A:場景影像分鏡 652B:場景影像分鏡 652C:場景影像分鏡 710:請求 712:傳回 714:請求 716:接收 720:判定 730:傳輸 732:傳輸 740:傳回 742:提供 790:中介服務/中介/資料服務 805:設定 810:源 814:獲取能力請求 816:傳回 820:定義 832:發出 834:觸發 840:消耗 848:發出 870:匯聚 910A:節點 910B:節點 1010A:節點 1110A:節點 1110B:節點

專利或申請案檔案含有至少一個彩色圖式。具有(若干)彩色圖式之本專利或專利申請公開案之複本將在請求並支付必要費用之後由專利局提供。

本發明之實施例具有其他優點及特徵，自結合附圖中之實例進行之以下詳細描述及隨附發明申請專利範圍將更容易明白該等其他優點及特徵，其中：

圖1A係可組態成一應用之一資料管線之節點之一網路之一方塊圖。

圖1B係一節點之一方塊圖。

圖2至圖4繪示具有影像理解之資料管線之實例。

圖5係繪示將圖1之節點組態成一資料管線之一方塊圖。

圖6A至圖6B繪示由一資料管線產生之輸出資料。

圖7係繪示一中介服務之使用之一方塊圖。

圖8係一資料管線之一基於標準之組態之一事件追蹤。

圖9係經組態資料管線之一方塊圖。

圖10係具有在一節點內部之回饋之一資料管線之一方塊圖。

圖11係具有節點之間之回饋之一資料管線之一方塊圖。

110:節點

160A:管理層

160B:管理層

160C:管理層

170:應用

510:請求

512:傳回

520:判定

530:傳輸

540:饋給

580:帳戶服務

Claims

一種針對包括複數個可組態節點之一網路、用於將該等節點組織成用於需要影像理解之一或多個應用之一資料管線之方法，該方法包括：基於該等節點之能力之描述，選擇哪些節點包含於該資料管線中且判定用於形成該資料管線之該等選定節點之間之互連，其中該等節點之該等能力包含對至少一個感測器功能之存取且亦包含至少一個影像理解功能；及將控制資料傳輸至該等選定節點，該控制資料根據各節點在該資料管線中之角色指定該等選定節點之功能且亦指定該等選定節點之間之該等經判定互連；其中該資料管線包含具有對操作為該資料管線之源之感測器功能之存取之一或多個節點，該等源之至少一者擷取影像，該資料管線自由該等源擷取之感測器資料產生影像資料及影像理解後設資料，該影像資料包括經擷取影像及/或自該等經擷取影像顯影之經增強影像，該影像理解後設資料包括描述該影像資料之影像理解且參考對應於該影像理解之該影像資料之後設資料，且該控制資料亦指定由該資料管線產生之該影像資料及影像理解後設資料。
如請求項1之方法，其中該資料管線執行包括一經預指定物件之偵測、一經預指定物件之不存在之偵測及/或一經預指定物件之識別之影像理解，且影像理解後設資料描述該影像理解。
如請求項2之方法，其中該經預指定物件包含面部、人類、動物、車輛、文字、標誌或條碼之至少一者。
如請求項2之方法，其中該資料管線執行包括基於該等經預指定物件之該偵測或識別之一進一步理解；且該影像理解後設資料描述該影像理解。
如請求項1之方法，其中該資料管線執行包括經預指定動作或活動之偵測、經預指定動作或活動之識別、經預指定位置或環境之偵測及/或經預指定位置或環境之識別之影像理解；且該影像理解後設資料描述該影像理解。
如請求項1之方法，其中該資料管線使用機器學習、深度學習及/或人工智慧技術執行影像理解；且該影像理解後設資料描述該影像理解。
如請求項1之方法，其中該控制資料係基於影像理解之一多層級模型；且該多層級模型包含一運動偵測層級、一物件偵測層級、一物件識別層級及一物件特性化層級。
如請求項7之方法，其中該等能力之該等描述指定該多層級模型之哪些層級可由各節點實施且針對哪些物件實施。
如請求項7之方法，其中該控制資料指定該多層級模型之哪些層級經組態用於該等選定節點及用於哪些物件。
如請求項1之方法，其中該等節點之能力之該描述包含該等節點之影像顯影功能之描述，該等影像顯影功能包含以下項之至少一者：感測器偏壓之校正、像素缺陷之校正、漸暈補償、暗圖框扣除、白平衡、去馬賽克、雜訊降低、空間濾光、色彩空間轉換、色調映射、伽瑪校正、對比度增強、邊緣增強、像差校正、焦點調整、曝光調整、重新取樣、解析度增強、高動態範圍調整及彩色濾光片陣列內插。
如請求項1之方法，其中：該資料管線包含不同分支，該等不同分支包含不同感測器、影像顯影及/或影像理解功能；該等不同分支由有關該影像理解之條件觸發；且該控制資料亦指定有關該影像理解之該等條件。
如請求項1之方法，其中該資料管線包含來自至少一個影像理解功能之一回饋迴路。
如請求項12之方法，其中該回饋迴路係自該影像理解功能至至少一個影像擷取功能。
如請求項12之方法，其中該影像理解功能經實施於該等節點之一者中，且該回饋迴路係自該影像理解功能至一不同節點中之一功能。
如請求項1之方法，其中該資料管線具有對擷取不同類型之感測器資料之多個源之存取，且該資料管線融合至少一個影像理解功能之該感測器資料。
如請求項1之方法，其中選擇哪些節點包含於該資料管線中且判定用於形成該資料管線之該等選定節點之間之互連係進一步基於將感測器資料提供至該資料管線之感測器之間之一已知近接性。
如請求項1之方法，其中至少一個應用具有對能夠存取該等節點之一中介服務之存取。
如請求項1之方法，其中對該等節點之存取係一條件存取。
如請求項18之方法，其中該條件存取由與該等應用及該等節點分開之一服務授權。
如請求項1之方法，其中該資料管線經由網際網路存取至少一個節點。