TWI764905B

TWI764905B - 偵測物體的裝置與方法、製造處理器的方法以及建構積體電路的方法

Info

Publication number: TWI764905B
Application number: TW106119649A
Authority: TW
Inventors: 莫斯塔法伊爾－哈米; 杜憲治; 正元李
Original assignee: 南韓商三星電子股份有限公司
Priority date: 2016-09-23
Filing date: 2017-06-13
Publication date: 2022-05-21
Also published as: KR20180033037A; CN107871117B; TW201814591A; US20180089505A1; KR102279291B1; CN107871117A; US10657364B2

Abstract

本發明提供一種方法及裝置。所述方法包含：接收影像，偵測所述影像中的物體，藉由主要物體偵測器判定所述物體的主要可信度偵測得分，藉由分類網路判定所述物體的可信度比例因數，及基於使所述主要可信度偵測得分乘以所述可信度比例因數而調整所述主要可信度偵測得分。

Description

偵測物體的裝置與方法、製造處理器的方法以及建構積體電路的方法

本發明大體上是關於深度神經網路，且更特定而言是關於一種用於快速及穩健物體偵測的深度網路融合的系統以及方法。

諸如面部辨識的物體辨識包含自藉由諸如攝影機的影像感測器俘獲的影像的資料庫識別出個人，且通常包含學習面部影像。所俘獲影像的表示使用度量與資料庫中的面部影像的表示進行比較以傳回最靠近匹配。面部辨識包含諸如面部偵測及面部對準的預處理步驟。

藉由攝影機俘獲的視覺影像內的物體辨識可用於多種工業或應用中，包含防衛、運輸或法律強制執行外加其他。舉例而言，可為所要的是識別影像內的一或多個物體，諸如汽車、行人及建築物。習知物體偵測方法可能不提供準確地識別目標物體的所要可靠性，及/或可提供大於所要數目個的錯誤肯定識別（例如，偵測非目標物體作為目標物體）。

影像中的行人偵測在視訊監測、個人識別及高階駕駛員輔助系統（advanced driver assistance system；ADAS）的各種態樣中當前扮演基本角色。行人的即時準確偵測對於此等系統的實際採用為至關重要的。行人偵測方法旨在以即時處理速度繪製精準地描述影像中的所有行人的位置的限界框。

本發明的一態樣提供一種系統及方法，所述系統及方法包含用於對影像中俘獲的行人進行快速且穩健偵測的深度神經網路融合架構。

根據本發明的一態樣，提供一種方法，所述方法包含：接收影像，偵測所述影像中的物體，藉由主要物體偵測器判定所述物體的主要可信度偵測得分，藉由分類網路判定所述物體的可信度比例因數，及基於使所述主要可信度偵測得分乘以所述可信度比例因數而調整所述主要可信度偵測得分。

根據本發明的另一態樣，提供一種裝置，所述裝置包含：影像感測器；主要物體偵測器；分類網路；及處理器，所述處理器經組態以自影像感測器俘獲影像，偵測影像中的物體，使用主要物體偵測器判定物體的主要可信度偵測得分，使用分類網路判定物體的可信度比例因數，且基於使主要可信度偵測得分乘以可信度比例因數來調整主要可信度偵測得分。

根據本發明的另一態樣，提供一種製造處理器的方法，所述方法包含形成處理器作為包含至少一個其他處理器的晶圓或封裝體的部分，其中處理器經組態以自影像感測器俘獲影像，偵測影像中的物體，使用主要物體偵測器判定物體的主要可信度偵測得分，使用分類網路判定物體的可信度比例因數，基於使主要可信度偵測得分乘以可信度比例因數來調整主要可信度偵測得分。

根據本發明的另一態樣，提供一種建構積體電路的方法，所述方法包含產生用於積體電路的一層的特徵集合的遮罩佈局，其中遮罩佈局包含針對一或多個電路特徵的標準元件庫巨集，所述一或多個電路特徵包含處理器，所述處理器經組態以自影像感測器俘獲影像，偵測影像中的物體，使用主要物體偵測器判定物體的主要可信度偵測得分，使用分類網路判定物體的可信度比例因數，基於使主要可信度偵測得分乘以可信度比例因數而調整主要可信度偵測得分。

現將在下文參考附圖更充分地描述本發明，在所述附圖中展示了本發明的若干實施例。然而，可以許多不同形式體現本發明，且不應將本發明視為限於本文中所闡述的實施例。確切而言，提供此等實施例以使得本揭露內容將為透徹且完整的，且將向所屬領域中具通常知識者充分傳達器件及方法的範疇。貫穿全文，相同參考數字指代相同元件。

將理解，當將元件稱為「連接」或「耦接」至另一元件時，其可直接連接或耦接至其他元件，或可存在介入元件。相反地，當元件被稱作「直接連接（directly connected）」或「直接耦接（directly coupled）」至另一元件時，不存在介入元件。如本文中所使用，術語「及/或」包含（但不限於）相關聯列出項目中的一或多者的任何及所有組合。

應理解，儘管本文中可使用術語第一、第二以及其他術語來描述各種元件，但此等元件不應受此等術語限制。此等術語僅用以將一個元件與另一元件區分開來。舉例而言，在不脫離本揭露內容的教示的情況下，第一信號可被稱作第二信號，且類似地，第二信號可被稱作第一信號。

本文中所使用的術語僅出於描述特定實例實施例的目的，且並不意欲限制本發明的器件以及方法。如本文中所使用，單數形式「一」以及「所述」意欲亦包含複數形式，除非上下文另外清晰指示。將進一步理解，術語「包括（comprises及/或comprising）」或「包含（但不限於）（includes, but is not limited to及/或including, but not limited to）」在用於本說明書中時指定所陳述特徵、區、整體、步驟、操作、元件及/或組件的存在，但並不排除一或多個其他特徵、區、整體、步驟、操作、元件、組件及/或其群組的存在或添加。

除非另外定義，否則本文中所使用的所有術語（包含（但不限於）技術及科學術語）具有與一般熟習本發明器件及方法所屬技術者通常所理解的含義相同的含義。將進一步理解，應將術語（諸如，常用詞典中所定義的術語）解釋為具有與其在相關技術及/或本說明書的上下文中的含義一致的含義，且除非本文中明確地如此定義，否則將不會在理想化或過度形式化意義上來進行解釋。

圖1說明根據本發明的實施例的網路環境中的電子器件的方塊圖。

參看圖1，電子器件100包含（但不限於）通信區塊110、處理器120、記憶體130、顯示器150、輸入/輸出區塊160、音訊區塊170及影像感測器180。電子器件100可包含於可攜式電子器件中，所述可攜式電子器件包含（但不限於）智慧型電話、平板電腦或個人電腦。電子器件100亦可包含於載具中，所述載具包含但不限於汽車、火車、飛機、自動化載具、無人駕駛飛機、腳踏車及機車。

電子器件100包含用於將器件100連接至另一電子器件或網路以用於傳達語音及資料的通信區塊110。通信區塊110提供GPRS、EDGE、蜂巢式、廣域、區域、個人區域、近場、器件對器件（device to device；D2D）、機器對機器（machine to machine；M2M）、衛星、增強型行動寬頻（enhanced mobile broad band；eMBB）、大規模機器類型通信（massive machine type communication；mMTC）、超可靠低潛時通信（ultra-reliable low latency communication；URLLC）、窄頻寬物聯網（narrowband Internet of things；NB-IoT）及短程通信。通信區塊110或包含收發器113的部分的功能可由晶片組實施。詳言之，蜂巢式通信區塊112使用諸如以下各者之技術經由陸地基地收發器台提供或直接地提供至其他電子器件的廣域網路連接：第二代（second generation；2G）、GPRS、EDGE、D2D、M2M、長期演進（long term evolution；LTE）、第五代（fifth generation；5G）、高階長期演進（long term evolution advanced；LTE-A）、分碼多重存取（code division multiple access；CDMA）、寬頻分碼多重存取（wideband code division multiple access；WCDMA）、全球行動電信系統（universal mobile telecommunications system；UMTS）、無線寬頻（wireless broadband；WiBro）及全球行動通信系統（global system for mobile communication；GSM）。蜂巢式通信區塊112包含（但不限於）晶片組及收發器113。收發器113包含（但不限於）傳輸器及接收器。無線保真（wireless fidelity；WiFi）通信區塊114使用諸如IEEE 802.11的技術經由網路存取點提供區域網路連接。藍芽通信區塊116使用諸如IEEE 802.15的技術提供個人區域直接通信及網路連接通信。近場通信（near field communication；NFC）區塊118使用諸如ISO/IEC 14443的標準提供點對點短程通信。通信區塊110亦包含GNSS接收器119。GNSS接收器119可支援自衛星傳輸器接收信號。

電子器件100可自包含（但不限於）電池的電源供應器接收用於操作功能區塊的電力。

處理器120提供電子器件100的應用層處理功能。處理器120亦提供用於電子器件100中的各種區塊的命令及控制功能性。處理器120規定更新功能區塊所需的控制功能。處理器120可提供由以下各者需要之資源：影像感測器180、主要物體偵測器、次要物體偵測器、語義分段單元、融合中心及分類網路。分類網路可提供分類及定位兩者。

記憶體130提供對裝置控制程式碼的儲存、使用者資料儲存、應用程式碼及資料儲存。記憶體130可提供對韌體、程式庫、資料庫、查找表、演算法、方法以及蜂巢式通信區塊112所需的其他校準資料的資料儲存。記憶體130可提供對由影像感測器180俘獲的影像的儲存。可在器件開機後即刻將影像感測器180所需的程式碼及資料庫自記憶體130載入影像感測器180內的本端儲存器中。

顯示器150可為觸控式面板，且可體現為液晶顯示器（liquid crystal display；LCD）、有機發光二極體（organic light emitting diode；OLED）顯示器、主動矩陣有機發光二極體（active matrix OLED；AMOLED）顯示器及類似者。輸入/輸出區塊160控制至電子器件100之使用者的介面。音訊區塊170提供至電子器件100的音訊輸入/自所述電子器件的及輸出。

影像感測器180可擷取靜態影像及移動影像兩者。影像感測器180可俘獲電磁頻譜的對於人眼可見的可見光譜內的影像。影像感測器180亦可俘獲電磁頻譜的可見光譜部分外部的包含紅外線輻射及紫外線輻射的影像。影像感測器180可為互補金屬氧化物半導體（complementary metal oxide semiconductor；CMOS）類型或半導體電荷耦合器件（semiconductor charge coupled device；CCD）類型，且可包含影像聚焦透鏡及影像變焦功能。影像感測器180亦可包含記憶體、本端處理器以及至處理器120的介面。

根據本發明的一實施例，本發明的系統及方法包含用於由影像感測器180俘獲的影像內的行人的快速且穩健偵測的深度神經網路融合架構。本發明的深度神經網路融合架構包含多個網路的並行處理以減少判定行人在所俘獲影像中的存在上的潛時。除深度神經網路外，本發明包含深度捲積網路。單一截圖（單一俘獲影像的單標度的單步網路）深度捲積網路作為物體偵測器經訓練以產生所俘獲影像內的不同大小及遮擋的所有可能行人候選者。深度捲積網路可輸出所俘獲影像內的大量及多種行人候選者以覆蓋地面真像行人的大部分同時潛在地引入錯誤肯定。可被視為次要網路的多個深度神經網路（deep neural network；DNN）針對由深度捲積網路產生的所有行人候選者的分類並行地進一步處理。次要網路可進一步細化主要限界框候選者之限界框定位。限界框為所俘獲影像的區域內的像素群組，所俘獲影像可由具有某大小及寬高比（寬與高的比率）的平行四邊形定義；然而，限界框可為不同於平行四邊形的形狀。

根據本發明的一實施例，本發明的系統及方法提供軟排斥融合以將由深度捲積網路及神經網路產生的軟度量值融合（組合）在一起以產生最終可信度得分。最終可信度得分為影像中偵測到的行人候選者為實際行人的機率的量測。本發明的軟排斥融合系統及方法融合次要偵測器結果（視需要）與主要物體偵測器結果以及來自分類網路的結果。本發明的系統及方法對於偵測所俘獲影像內的小的大小的行人及經遮擋行人為有益的。融合中心可進一步融合來自所有分類網路的限界框的定位調整與來自主要物體偵測器的限界框定位以便增加限界框定位的精確性。

根據本發明的實施例，本發明的系統及方法在融合網路架構中整合逐像素語義分段作為對行人偵測器的加強。語義分段可將影像分割成語義上有意義的部分，且將每一部分分類成預定分類中的一者。逐像素語義分段可藉由將每一像素（而非整個影像/片段）分類而達成相同目標。本發明的系統及方法適於任何評估協定，且向若干評估協定提供效能增大，包含引人注目地更高的速度、精確性及效率。評估協定可包含諸如行人的單一物體的物體偵測，或諸如行人、汽車及騎乘腳踏車者的偵測。評估協定集中於使輸出偵測的精確性最大化，同時避免錯過正確偵測並消除錯誤偵測。

根據本發明的實施例，本發明的系統及方法提供可被稱作基於軟排斥的網路融合的網路融合。基於軟排斥的網路融合可細化由主要物體偵測器提供的候選者物體。並非執行接受或排斥候選物體的二元分類決策，由主要物體偵測器候選者提供的分類得分基於由分類網路提供的彼等物體偵測中可信度的彙總程度而增大或減小。

主要物體偵測器候選者的可信度得分藉由可信度比例因數基於由每一分類網路提供的分類機率來安比例放大或按比例縮小（增大或減小）。下限設定為可信度比例因數以防止任何分類網路支配按比例縮放程序，且基於來自單一分類網路的可信度得分防止消除主要物體偵測候選者。確定下限程序具有減小錯誤肯定率的效應，同時基於分類網路的彙總可信度而增加正確物體偵測率。可信度比例因數融合在一起以產生針對每一候選者物體的最終可信度得分。

根據本發明的實施例，本發明的系統及方法利用逐像素語義分段標記為次要並行偵測器並將次要並行偵測器整合至本發明的網路融合架構中。基於逐像素語義分段標記的次要並行偵測器充當對行人偵測器（或通常物體偵測器）的加強。分段標記由用物體（例如，行人、汽車或建築物）的類別對所俘獲影像中的每一物體進行標記組成。軟可信度得分可藉由判定逐像素語義分段標記與藉由主要物體偵測器提供的限界框偵測之間的重疊比率來判定。

圖2說明根據本發明的實施例的本發明的網路融合架構的方塊圖。

參看圖2，網路融合架構222包含具有來自影像感測器的可選按比例縮放的影像208，所述影像可被提供至主要物體偵測器210且視需要提供至次要物體偵測器212以及語義分段單元220。主要物體偵測器210判定在影像208中偵測到的物體，且產生針對每一所偵測物體的限界框。針對所判定物體的限界框以及其各別可信度得分的清單在限界框以及可信度得分清單單元214中產生。分類網路200包含一或多個深度神經網路偵測分類器及濾波器202。儘管圖2展示兩個深度神經網路偵測分類器及濾波器202，但本發明可包含任何數目個深度神經網路偵測分類器及濾波器而不偏離本發明的範疇。分類網路200包含可選次要並行偵測網路204。可選次要並行偵測網路204可將深度擴張捲積及上下文彙總用於語義分段標記以進一步判定關於主要物體偵測的軟可信度得分。深度擴張捲積藉由將零插入於非零濾波器係數之間而使用具有不同擴張（增頻取樣）因數的捲積核心，從而有效地增加濾波器的接受場。融合中心216融合來自以下各者之結果：一或多個深度神經網路偵測分類器及濾波器202、可選次要並行偵測網路204、限界框及可信度得分清單單元214以及可選地次要物體偵測器212及語義分段單元220。融合中心216提供融合程序的結果至最終偵測單元218從而用於與偵測到的物體相關聯的邊界框的最終判定。

圖3說明根據本發明的實施例的使用單一截圖多框偵測器的主要物體偵測器的方塊圖。

參看圖3，七個輸出層用以產生單一所俘獲影像內的行人候選者。儘管圖3展示七個層，但本發明可包含任何數目個層而不偏離本發明的範疇。根據本發明的實施例，圖3的主要物體偵測器322包含前饋捲積網路。由影像感測器俘獲的輸入影像302經提供至截短的可見幾何形狀群組VGG16 304作為基本網路。VGG為包含16個權重層的捲積神經網路模型，所述16個權重層具有具三乘以三的濾波器大小的十三個捲積層以及三個完全連接層。在VGG16 304基本網路層中，最後集區層經轉換為具有為一的步幅寬度的3×3的接受場大小，且充分連接的fc7藉由靜止小波變換演算法轉換為捲積層。集區層合併在先前層特徵地圖中得知並表達的特徵，且可壓縮並一般化特徵表示並通常減小訓練資料的過度擬合。八個額外捲積層及全域平均值集區層在基本網路之後相加，且每一層的大小經漸進地被減小。層conv4_3 306、fc7 308、conv6_2 310、conv7_2 312、conv8_2 314、conv9_2 316及pool6 318用作輸出層。限界框回歸及分類在每一輸出層之後執行。來自所俘獲影像的行人候選者在層320中判定。

根據本發明的實施例，主要物體偵測器包含具有以多個捲積尺度及解析度提取的特徵的前饋捲積網路。所提取特徵的每一位置處的具有不同大小及高寬比的限界框候選者進一步分類為所俘獲影像中的物體或背景，且候選者限界框的定位偏移藉由限界框回歸來計算。對於具有大小

的每一輸出層，呈不同尺度及高寬比的一組預設限界框置放於每一位置處。預設限界框的高寬比經調整以與待偵測物件匹配，例如，若目標為偵測行人，則高寬比設定為0.41。

捲積核心應用至每一位置以產生分類得分以及相對於預設限界框位置的限界框位置偏移。若預設限界框與任何地面真像框具有大於0.5的傑卡德(Jaccard)重疊指數，則預設限界框標記為正，否則預設限界框標記為負。傑卡德重疊指數用於比較預設限界框與地面真像框的類似性，且為交叉點的大小除以資料集的接頭的大小。

分類網路200的訓練目標可以如下等式（1）給出如下：

….（1）其中

為softmax分類損耗，且

為使用距離度量的平滑定位損耗，N為標記為正的預設框的數目，且

為恆定權重項以保持兩個損耗之間的平衡。平滑定位損耗可由座標之間的差的L1正規化表達為L1=Sum |y_i – y'_i| + Sum |x_i - x'_i|，其中（x, y）表示框的座標，且（x', y'）表示地面真像框的座標，且總和為在所有座標上的總和。

分類網路200的訓練目標經給出為softmax分類損耗與平滑L1定位損耗的經加權總和。主要物體偵測器210經訓練而以偵測所俘獲影像中關注的所有物體（諸如，行人）為目標產生候選物體的大型集區，即使引入了大量錯誤物體偵測。每一物體偵測是與其定位限界框座標以及可信度得分相關聯。藉由減小高於候選者物體被接受的可信度得分臨限值，各種大小及遮擋的候選者物體產生自主要物體偵測器210。

根據一個實施例，分類網路200包含並行地操作的多個深度神經網路偵測分類器及濾波器202。分類網路200中的每一深度神經網路偵測分類器及濾波器202可為單一分類器或級聯分類器。此外，每一深度神經網路偵測分類器及濾波器202可進一步細化偵測到的物體的限界框的框座標。來自所有深度神經網路偵測分類器及濾波器202的可信度得分在融合中心216處融合。來自不同深度神經網路偵測分類器及濾波器202的經修改限界框亦可在融合中心216處進一步融合成單一限界框。分類網路200中的每一網路經獨立地訓練。為了訓練次要分類網路，主要物體偵測器210在訓練集上執行以產生物體偵測集合，且具有大於最小值的可信度得分或大於最小高度的限界框高度的所有物體偵測被接受。主要偵測器將僅輸出是根據其預設限界框的高寬比的偵測，然而，最終高寬比可歸因於偵測到的框座標使用框回歸的調整而稍微不同。物體偵測根據其與如由傑卡德重疊指數所量測的與地面真像的重疊的程度。物件偵測經重新按比例縮放並變形至固定大小。具有固定大小之隨機裁剪自經重新按比例縮放的物體偵測框獲得且藉由其標籤作為輸入訓練樣本提供至分類網路200，其中標籤在經裁剪框與地面真像框的接合比率的相交部分具有大於50%的重疊區域時被判定為肯定的。為了進一步訓練分類網路200，圍繞地面真像框標籤在返回至原始影像域的適當平移之後的肯定物體偵測或裁剪經擴展某百分數，且分類網路200經訓練以經由限界框回歸輸出地面真像框座標，其中地面真像框座標經平移回原始影像域。

根據本發明的實施例，本發明的系統及方法提供經由軟排斥執行融合的融合中心216。軟排斥藉由以下操作進一步細化主要物體偵測：融合主要物體偵測與分類網路200中不同網路的軟可信度結果。本發明的系統及方法包含在融合中心216處融合定位限界框調整。作為實例，考慮一個主要候選者及一個分類網路200。若分類網路200已判定出了候選物體的高可信度得分（例如，超出給定臨限得分的可信度得分），本發明的系統藉由使可信度得分乘以大於一的可信度比例因數而使來自主要物體偵測器210的候選物體的原始可信度得分增大。否則，本發明的系統使候選物體的可信度得分減小小於一的可信度比例因數。當測試系統時，一組分類機率藉由用分類網路200中的所有次要網路處理候選物體而針對每一候選物體產生。替代使用具有機率臨限值的二元分類，本發明的系統及方法包含基於在融合中心216中判定的得分的軟排斥。

軟排斥方法的一個優點為，本發明的系統並不直接接受或排斥任何候選物體。實情為，物體偵測可信度得分藉由基於來自分類網路200的分類機率用一因數按比例縮放可信度得分而增大或減小。若一個次要分類網路已判定了候選物體的高可信度得分，則各別得分在融合中心216中增大大於一的可信度比例因數。否則，可信度得分在融合中心216中減小小於一的可信度比例因數。然而，可信度比例因數設定為至少p_min以防止任何次要網路支配判定程序，此是因為不可校正肯定物體偵測的不正確消除（諸如可發生於二元分類中），而低分類可信度得分可藉由來自其他次要網路的較大分類可信度得分來補償。由於最終得分取決於所有次要網路的可信度得分，因此即使一個次要網路在一個類別中具有低分類效能（諸如部分遮擋的行人），其他次要網路仍能夠補償其不足，藉此增加系統的可靠性。

根據本發明的實施例，若主要物體偵測的次要分類網路的softmax分類機率超出值

（例如，為0.7的機率），則次要分類網路為確信的。使

為候選物體的由第m次要網路產生的機率，可信度比例因數可由以下等式2判定：

…（2）

為了融合所有

個分類網路200，使來自主要物體偵測器210的主要物體偵測可信度得分P_primary與來自所有分類網路200的m數目個可信度比例因數

的乘積相乘。

為了防止任何次要網路支配可信度得分的判定或消除藉由主要物體偵測器210提供的任何物件偵測，最終可信度比例因數的下限設定為p_min（例如，機率0.1）。最終融合可信度比例因數P_fused_classified 的下限可以如下等式（3）表達如下： P_fused_classified = P_primary x PRODUCT_m(max(

, p_min)) …（3）

在以上等式（3）中表達的最終融合可信度比例因數P_fused_classified 是由分類網路產生的所有m個可信度比例因數

的乘積。然而，若可信度比例因數中的任一者小於p_min，則特定可信度比例因數設定為值p_min。

圖4說明根據本發明的實施例的主要物體偵測網路與一個分類網路的軟排斥融合的方法的流程圖。

參看圖4，在402處，分類網路200判定來自分類網路200的可信度比例因數是否小於p_min。若可信度比例因數小於p_min，則融合中心216在408處使來自主要物體偵測器210的可信度得分減小一恆定因數。若可信度比例因數並不小於p_min，則分類網路在404處進一步判定來自分類網路200的可信度比例因數是否小於p_max且大於或等於p_min。若來自分類網路200的可信度比例因數小於p_max且大於或等於p_min，則融合中心216在410處與來自分類網路200的可信度比例因數成比例地減小來自主要物體偵測器210的可信度得分。若可信度得分並不小於p_max且不大於或等於p_min，則分類網路200判定來自分類網路200的可信度比例因數大於或等於p_max。若可信度比例因數不大於或等於p_max，則方法結束。若來自分類網路200的可信度比例因數大於或等於p_max，則融合中心216在412處與來自分類網路200的可信度比例因數成比例地增大來自主要目標物體偵測器210的可信度得分。

來自分類網路200的可信度比例因數可進一步根據分類網路200中深度神經網路偵測分類器及濾波器202中的每一者的信賴位準而經修改。可判定信賴度量t_m，其表示與分類網路200相關聯的信賴位準。t_m值愈大，信賴位準愈高。信賴度量或信賴度量的按比例縮放值可於融合中216中整合，使得由具有較大信任度量t_m的分類網路200提供的分類被給定有如下等式（4）中所展示的更大重要性： P_fused_classified = P_primary x PRODUCT_m(max(a_m^t_m, p_min)) …（4）

來自分類網路200的定位限界框亦可在融合中心處融合，其中分類網路200對自主要物體偵測器210輸出的限界框候選者的正確框定位提供不同值。針對來自分類網路200的定位座標的偏移可經平均，且接著應用至來自主要物體偵測器210的限界框的定位座標。

根據本發明的實施例，圖2的次要物體偵測器212為可選的，且判定如何融合來自分類網路200的結果與主要物體偵測器210的結果。本發明的與分類網路200的軟排斥融合稍微不同於本發明的與次要物體偵測器212的軟排斥融合，此是由於次要物體偵測器212可產生新物體偵測，所述新物體偵測尚未由主要物體偵測器210提供，當分類網路200的輸出與主要物體偵測器210的輸出融合時，並非所述狀況。為了解決新物體在次要物體偵測器212中的產生，本發明的軟融合方法藉由次要物體偵測器212消除新物體偵測，此是由於所述新物體偵測可促成使錯誤物體偵測率增加。次要物體偵測器212僅用以進一步精細調諧主要物體偵測器210的主要可信度偵測得分。若藉由主要物體偵測器210偵測到的物體的來自次要物體偵測器212的次要可信度偵測得分超出最小臨限值，則物體偵測被接受且主要可信度偵測得分保持不變。否則，軟排斥融合可經應用以如以下等式（5）中所展示按比例縮放主要可信度偵測得分：

若P_secondary ＞臨限值，則P_fused_detect = P_primary; 否則， P_fused_detect = P_primary x max(P_secondary x(1/p_max）, p_min))…（5）

以上等式（5）亦可應用至藉由與分類網路200的融合而獲得的上一P_fused，其中P_primary由P_fused替換，如以下等式（6）中所展示： P_fused_detect = P_fused_classified x max(P_secondary x(1/p_max), p_min)) …（6）

圖2的語義分段單元220亦為可選的，且判定如何使用逐像素語義標記器來產生次要物體偵測器210的偵測上的可信度得分。語義分段單元220是基於深度擴張捲積及上下文彙總，且可用作並行次要物體偵測器。為了執行為預測所俘獲影像中每一像素的標籤的任務的密集預測，語義分段單元220包含用擴張捲積調適作為前端預測模組的充分捲積VGG16網路，所述前端預測模組輸出饋送至多尺度上下文彙總模組，多尺度上下文彙總模組包含捲積層具有增大的擴張因數的充分捲積網路。語義分段標記器提取主要物體偵測器結果中針對可信度得分的軟度量。輸入至語義分段單元212的所俘獲影像按比例放大且藉由語義分段網路直接處理。二元遮罩藉由展示針對行人分類的經啟動像素的一個色彩產生，且另一色彩展示背景。「個人」及「駕駛者」分類類別可被視為行人，且剩餘分類可被視為背景。語義分段遮罩與來自主要物體偵測器210的所有偵測到的限界框重疊。根據本發明的實施例，本發明的系統及方法在融合中心216中融合語義分段標記與物體偵測結果。每一主要物體偵測限界框藉由語義分段啟動遮罩著色的程度提供主要物體偵測器的結果中次要語義分段分類的可信度的量測。以上等式（5）中的臨限值可為以下兩者的最小比率：每一限界框內藉由來自由語義分段網路偵測到的種類的識別為像素的啟動像素重疊的面積與重疊主要限界框的面積。

舉例而言，若啟動像素佔用主要限界框面積的至少20%，則物體偵測被接受且主要可信度偵測得分不變。否則，軟排斥融合經應用以按比例縮放來自主要物體偵測器210的主要可信度偵測得分，如以下等式（7）中所展示：

…（7）其中

表示限界框的面積，且

表示所偵測有界框

內的由語義分段遮罩覆蓋的面積。

及

可藉由交叉驗證分別選擇為4以及0.35。

圖5為根據本發明的實施例的語義分段標記器與主要物體偵測器的軟排斥融合方法的流程圖。

參看圖5，本發明的系統在502處判定主要物體偵測器的限界框與語義分段遮罩之間是否存在重疊。若主要物體偵測器的限界框與語義分段遮罩之間不存在重疊，則本發明的系統在508處使來自主要物體偵測器的主要可信度偵測得分減小一恆定因數且消除來自語義分段單元220的任何次要物體偵測。儘管次要物體偵測歸因於非重疊被消除，但本發明的系統僅調整主要可信度偵測得分而非設定主要可信度偵測得分為零，因此主要可信度偵測得分從未被消除。若在主要物體偵測器的邊界框與語義分段遮罩之間不存在重疊，則本發明的系統在504處判定主要物體偵測器的限界框與語義分段遮罩之間的重疊是否小於臨限值。若主要物體偵測器的限界框與語義分段遮罩之間的重疊小於臨限值，則本發明的系統在510處與重疊量成比例地減小來自主要物體偵測器的主要可信度偵測得分。否則，在512處，來自主要物體偵測器的主要可信度偵測得分保持不改變，從而確保主要可信度偵測得分從未設定為零，即使任何次要可信度偵測得分可為零。應瞭解，本發明的系統基於重疊量來調整主要可信度偵測得分，且在重疊量大於臨限值的情況下增大主要可信度偵測得分，及/或在重疊量小於臨限值的情況下減小主要可信度偵測得分，及/或在不存在重疊或其他變形情況下減小主要可信度偵測得分而不偏離本發明的範疇。

圖6A說明根據本發明的實施例的具有候選物體的所俘獲影像。圖6B說明根據本發明的實施例的圖6A的所俘獲影像的語義分段遮罩。

參看圖6A及圖6B，圖6B的語義分段遮罩展示，錯誤肯定物體偵測可自主要物體偵測器210消除，此是由於來自主要物體偵測器210的錯誤限界框並不與語義分段遮罩重疊。語義分段遮罩藉由消除非重疊次要物體偵測而進一步展示軟融合，使得不引入額外錯誤肯定物體偵測。如圖6A中所示，考慮中的候選者物體為行人。

根據本發明的實施例，分類網路200可僅為次要分類網路，且不執行定位。

若可信度比例因數超出臨限值，則藉由次要物體偵測器212判定的軟融合度量可消除新物體偵測，或使來自主要物體偵測器210的主要可信度偵測得分增大一恆定因數；或若可信度比例因數小於或等於臨限值，則主要可信度偵測得分保持不變。

根據本發明的實施例，來自分類網路200的多個定位度量可藉由非最大抑制而非對次要座標偏移進行平均而與主要限界框候選者融合，或可一起使用平均方法及非最大值抑制方法兩者。

根據本發明的實施例，主要物體偵測器210可包含語義分段標記器，且次要物體偵測器212可有助於改良主要物體偵測器210中的語義分段標記器以識別同一類別的多個個例。

本發明的系統及方法基於量測為來自分類網路的可信度得分的分類機率而藉由使在所俘獲影像中偵測到的物體的可信度得分增大或減小一因數而提供軟排斥融合，所述增大或減小是藉由按比例縮放來自主要物體偵測器的主要可信度偵測得分來進行。軟排斥融合防止任何分類網路支配決策程序，且基於來自任何分類網路的單一度量而防止主要候選物體偵測的消除。軟排斥融合支援藉由另一深度神經網路偵測分類器及濾波器的融合對一個深度神經網路偵測分類器及濾波器的錯誤的校正，且積聚來自多個分類網路的智能。軟排斥融合對於主要物體偵測器結果與分類網路結果融合的次序為不敏感的。

本發明的網路融合架構支援次要目標偵測器與主要物體偵測器並行的操作以減少潛時。本發明的網路融合架構支援分類網路中多個深神經網路分類器及濾波器的並行操作以減少潛時。本發明的系統及方法提供分類網路的訓練。

圖7為根據本發明的實施例的偵測影像中的物體的方法的流程圖。

參看圖7，本發明的系統在701處使用影像感測器俘獲影像。在702處，主要物體偵測器偵測影像中的物體，且判定所偵測物體的限界框。在703處，主要物體偵測器判定物體的主要可信度偵測得分。在704處，物體的可信度比例因數使用分類網路來判定。在705處，主要可信度偵測得分基於使主要可信度偵測得分乘以可信度比例因數而調整。

圖8說明根據本發明的實施例的測試經組態以偵測影像中的物體的處理器的方法的流程圖。處理器可以硬體實施，或以程式化碼有軟體的硬體實施。

參看圖8，方法在801處形成處理器作為包含至少一個其他處理器的晶圓或封裝體的部分。處理器經組態以：自影像感測器俘獲影像，偵測影像中的物體，使用主要物體偵測器判定物體的主要可信度偵測得分，使用分類網路判定物體的可信度比例因數，基於使主要可信度偵測得分與可信度比例因數相乘而調整主要可信度偵測得分。

在803處，方法測試處理器。測試處理器包含使用以下各者來測試處理器及至少一個其他處理器：一或多個電氣至光學轉換器、一或多個分光器（其將光學信號分裂成兩個或大於兩個光學信號）以及一或多個光學至電氣轉換器。

圖9說明根據本發明的實施例的製造經組態以偵測影像中的物體的處理器的方法的流程圖。

參看圖9，方法在901處包含資料的初始佈局，其中方法產生針對積體電路層的一組特徵的遮罩佈局。遮罩佈局包含針對包含處理器的一或多個電路特徵的標準元件庫巨集（standard cell library macro）。處理器經組態以：自影像感測器俘獲影像，偵測影像中的物體，使用主要物體偵測器判定物體的主要可信度偵測得分，使用分類網路判定物體的可信度比例因數，基於使主要可信度偵測得分與可信度比例因數相乘而調整主要可信度偵測得分。

在903處，存在設計規則檢查，其中方法忽略巨集的相對位置從而在遮罩佈局的產生期間遵從佈局設計規則。

在905處，存在佈局的調整，其中方法檢查巨集的相對位置從而在產生遮罩佈局之後遵從佈局設計規則。

在907處，進行新佈局設計，在所述新佈局設計中，方法在藉由巨集中的任一者偵測到與佈局設計規則的非遵從之後藉由修改非遵從巨集中的每一者而修改遮罩佈局以遵從佈局設計規則，根據具有積體電路層的所述組特徵的經修改遮罩佈局而產生遮罩，且根據遮罩製造積體電路層。

雖然已特定地參考某些實施例示出並描述本揭露內容，但一般所屬領域中具通常知識者將理解，可在不脫離如由所附申請專利範圍及其等效物所定義的本揭露內容的範疇的情況下在其中作出形式及細節的各種改變。

100‧‧‧電子器件110‧‧‧通信區塊112‧‧‧蜂巢式通信區塊113‧‧‧收發器114‧‧‧無線保真（WiFi）通信區塊116‧‧‧藍芽通信區塊118‧‧‧近場通信（NFC）區塊119‧‧‧GNSS接收器120‧‧‧處理器130‧‧‧記憶體150‧‧‧顯示器160‧‧‧輸入/輸出區塊170‧‧‧音訊區塊180‧‧‧影像感測器200‧‧‧分類網路202‧‧‧深度神經網路（DNN）偵測分類器及濾波器204‧‧‧可選次要並行偵測網路208‧‧‧影像210‧‧‧主要物體偵測器212‧‧‧次要物體偵測器214‧‧‧可信度得分單元216‧‧‧融合中心218‧‧‧最終偵測單元220‧‧‧語義分段單元302‧‧‧輸入影像304‧‧‧截短的可見集合形狀群組VGG16306‧‧‧層conv4_3308‧‧‧層fc7310‧‧‧層conv6_2312‧‧‧層conv7_2314‧‧‧層conv8_2316‧‧‧層conv9_2318‧‧‧層pool6320‧‧‧層322‧‧‧主要物體偵測器

本揭露內容的以上以及其他態樣、特徵及優點自在結合附圖進行時的以下實施方式將變得更顯而易見，其中：圖1說明根據本發明的實施例的通信網路中的電子器件的方塊圖。圖2說明根據本發明的實施例的網路融合架構的方塊圖。圖3說明根據本發明的實施例的使用單一截圖多框偵測器的主要物體偵測器的方塊圖。圖4說明根據本發明的實施例的主要物體偵測網路與一個分類網路的軟性排斥融合的方法的流程圖。圖5說明根據本發明的實施例的語義分段標記器與主要物體偵測器的軟性排斥融合的方法的流程圖。圖6A說明根據本發明的實施例的具有候選物體的所俘獲影像。圖6B說明根據本發明的實施例的圖6A的所俘獲影像的語義分段遮罩。圖7說明根據本發明的實施例的偵測影像中的物體的方法的流程圖。圖8說明根據本發明的實施例的測試經組態以偵測影像中的物體的處理器的方法的流程圖。圖9說明根據本發明的實施例的製造經組態以偵測影像中的物體的處理器的方法的流程圖。

200‧‧‧分類網路

202‧‧‧深度神經網路(DNN)偵測分類器及濾波器

204‧‧‧可選次要並行偵測網路

208‧‧‧影像

210‧‧‧主要物體偵測器

212‧‧‧次要物體偵測器

214‧‧‧可信度得分單元

216‧‧‧融合中心

218‧‧‧最終偵測單元

220‧‧‧語義分段單元

Claims

一種偵測影像中的物體的方法，其包括：接收影像；偵測所述影像中的物體；藉由主要物體偵測器判定所述物體的主要可信度偵測得分；藉由分類網路判定所述物體的可信度比例因數；基於使所述主要可信度偵測得分乘以所述可信度比例因數而調整所述主要可信度偵測得分；判定所述物體的限界框與語義分段遮罩之間是否存在重疊；以及在所述物體的限界框與語義分段遮罩之間不存在重疊的情況下調整所述主要可信度偵測得分並消除來自所述語義分段遮罩的次要物體偵測，其中所述語義分段遮罩為二元遮罩，藉由展示經啟動像素的一個色彩產生，且另一色彩展示背景。
如申請專利範圍第1項所述偵測影像中的物體的方法，其進一步包括：基於使所述主要可信度偵測得分乘以來自多個分類網路的所述物體的多個可信度比例因數的乘積而按比例縮放所述主要可信度偵測得分。
如申請專利範圍第1項所述偵測影像中的物體的方法，其中所述可信度比例因數是基於所述物體的分類機率與所要最大分類機率的比率。
如申請專利範圍第1項所述偵測影像中的物體的方法，其中所述可信度比例因數設定為至少所要最小值。
如申請專利範圍第1項所述偵測影像中的物體的方法，其進一步包括判定所述物體的次要可信度偵測得分；在所述次要可信度偵測得分大於或等於臨限值的情況下維持所述主要可信度偵測得分；以及在所述次要可信度偵測得分小於所述臨限值的情況下調整所述主要可信度偵測得分。
如申請專利範圍第5項所述偵測影像中的物體的方法，其中在所述次要可信度偵測得分小於所述臨限值的情況下調整所述主要可信度偵測得分包括使所述主要可信度偵測得分乘以所述次要可信度偵測得分與多個可信度比例因數的乘積。
如申請專利範圍第5項所述偵測影像中的物體的方法，其中在所述次要可信度偵測得分小於所述臨限值的情況下調整所述主要可信度偵測得分包括使所述經調整的可信度偵測得分乘以所述次要可信度偵測得分與多個可信度比例因數的乘積。
如申請專利範圍第1項所述偵測影像中的物體的方法，其進一步包括在所述物體的限界框與語義分段遮罩之間的重疊量小於臨限值的情況下與所述重疊量成比例地調整所述主要可信度偵測得分。
如申請專利範圍第1項所述偵測影像中的物體的方法，其進一步包括在所述物體的限界框與語義分段遮罩之間的重疊量大於或等於臨限值的情況下維持所述主要可信度偵測得分。
如申請專利範圍第1項所述偵測影像中的物體的方法，其進一步包括並行地操作所述主要物體偵測器以及所述分類網路。
如申請專利範圍第2項所述偵測影像中的物體的方法，其進一步包括：使用所述按比例縮放的主要可信度偵測得分將物件偵測設定為固定大小；自所述經按比例縮放的主要可信度偵測得分判定具有所述固定大小的隨機裁剪；以及相對於地面真像標記所述隨機裁剪的種類以訓練所述分類網路。
一種偵測影像中的物體的裝置，其包括：影像感測器；主要物體偵測器；分類網路；以及處理器，其經組態以：自所述影像感測器俘獲影像；偵測所述影像中的物體，使用所述主要物體偵測器判定所述物體的主要可信度偵測得分，使用所述分類網路判定所述物體的可信度比例因數，基於使所述主要可信度偵測得分乘以所述可信度比例因數而調整所述主要可信度偵測得分，其中所述處理器經進一步組態以判定所述物體的限界框與語義分段遮罩之間是否存在重疊，並且在所述物體的限界框與語義分段遮罩之間不存在重疊的情況下調整所述主要可信度偵測得分並消除來自所述語義分段遮罩的次要物體偵測，其中所述語義分段遮罩為二元遮罩，藉由展示經啟動像素的一個色彩產生，且另一色彩展示背景。
如申請專利範圍第12項所述偵測影像中的物體的裝置，其中所述處理器經進一步組態以基於使所述主要可信度偵測得分乘以來自多個分類網路的所述物體的多個可信度比例因數的乘積而按比例縮放所述主要可信度偵測得分。
如申請專利範圍第12項所述偵測影像中的物體的裝置，其中所述可信度比例因數是基於所述物體的分類機率與所要最大分類機率的比率。
如申請專利範圍第12項所述偵測影像中的物體的裝置，其中所述可信度比例因數設定為至少所要最小值。
如申請專利範圍第12項所述偵測影像中的物體的裝置，其中所述處理器經進一步組態以判定所述物體的次要可信度偵測得分，在所述次要可信度偵測得分大於或等於臨限值的情況下維持所述主要可信度偵測得分，以及在所述次要可信度偵測得分小於所述臨限值的情況下調整所述主要可信度偵測得分。
如申請專利範圍第16項所述偵測影像中的物體的裝置，其中在所述次要可信度偵測得分小於所述臨限值的情況下調整所述主要可信度偵測得分包括使所述主要可信度偵測得分乘以所述次要可信度偵測得分與多個可信度比例因數的乘積。
如申請專利範圍第16項所述偵測影像中的物體的裝置，其中在所述次要可信度偵測得分小於所述臨限值的情況下調整所述主要可信度偵測得分包括使所述經調整的主要可信度偵測得分乘以所述次要可信度偵測得分與多個可信度比例因數的乘積。
如申請專利範圍第12項所述偵測影像中的物體的裝置，其中所述處理器經進一步組態以在所述物體的限界框與語義分段遮罩之間的重疊量小於臨限值的情況下與所述重疊量成比例地調整所述主要可信度偵測得分。
如申請專利範圍第12項所述偵測影像中的物體的裝置，其中所述處理器經進一步組態以在所述物體的限界框與語義分段遮罩之間的重疊量大於或等於臨限值的情況下維持所述主要可信度偵測得分。
如申請專利範圍第12項所述偵測影像中的物體的裝置，其中所述處理器經進一步組態以並行地操作所述主要物體偵測器及所述分類網路。
如申請專利範圍第12項所述偵測影像中的物體的裝置，其中所述處理器經進一步組態以：使用所述按比例縮放的主要可信度偵測得分將物體偵測設定為固定大小，自所述經按比例縮放的主要可信度偵測得分判定具有所述固定大小的隨機裁剪，以及相對於地面真像標記所述隨機裁剪的種類以訓練所述分類網路。
一種製造處理器的方法，其包括：形成所述處理器作為晶圓或封裝的部分，所述晶圓或封裝包含至少一個其他處理器，其中所述處理器經組態以自影像感測器俘獲影像，偵測所述影像中的物體，使用主要物體偵測器判定所述物體的主要可信度偵測得分，使用分類網路判定所述物體的可信度比例因數，基於使所述主要可信度偵測得分乘以所述可信度偵測因數來調整所述主要可信度偵測得分，其中所述處理器經進一步組態以判定所述物體的限界框與語義分段遮罩之間是否存在重疊，並且在所述物體的限界框與語義分段遮罩之間不存在重疊的情況下調整所述主要可信度偵測得分並消除來自所述語義分段遮罩的次要物體偵測，其中所述語義分段遮罩為二元遮罩，藉由展示經啟動像素的一個色彩產生，且另一色彩展示背景。
一種建構積體電路的方法，所述方法包括：產生所述積體電路的層的一組特徵的遮罩佈局，其中所述遮罩佈局包含用於一或多個電路特徵的標準元件庫巨集，所述一或多個電路特徵包含處理器，所述處理器經組態以自影像感測器俘獲影像，偵測所述影像中的物體，使用主要物體偵測器判定物體的主要可信度偵測得分，使用分類網路判定所述物體的可信度比例因數，基於使所述主要可信度偵測得分乘以所述可信度比例因數來調整所述主要可信度偵測得分，其中所述處理器經進一步組態以判定所述物體的限界框與語義分段遮罩之間是否存在重疊，並且在所述物體的限界框與語義分段遮罩之間不存在重疊的情況下調整所述主要可信度偵測得分並消除來自所述語義分段遮罩的次要物體偵測，其中所述語義分段遮罩為二元遮罩，藉由展示經啟動像素的一個色彩產生，且另一色彩展示背景。