TW201830278A

TW201830278A - 使用神經網路之同時物件偵測及剛性轉換估計

Info

Publication number: TW201830278A
Application number: TW106144378A
Authority: TW
Inventors: 李熙碩; 金杜勳
Original assignee: 美商高通公司
Priority date: 2017-01-03
Filing date: 2017-12-18
Publication date: 2018-08-16
Also published as: CN110121713A; US20180189580A1; CN110121713B; US10262218B2; WO2018128784A1

Abstract

本發明提供一種用於物件偵測之方法、電腦可讀媒體及設備。該設備可基於含有一物件之一輸入影像而使用一神經網路來判定一回歸向量。該物件可具有具備一已知形狀之一平面表面。該設備可基於該回歸向量而導出一轉換矩陣。該設備可基於該轉換矩陣而識別該物件之一精確邊界。該物件之該精確邊界可包括該物件之複數個頂點。為了識別該物件之該邊界，該設備可將該轉換矩陣應用於該物件之一經判定形狀。

Description

使用神經網路之同時物件偵測及剛性轉換估計

本發明大體上係關於機器學習，且更特定言之，係關於使用神經網路之抗議偵測。

可包括互連人工神經元群組之人工神經網路可為計算裝置或可表示待由計算裝置執行之方法。人工神經網路可具有在生物神經網路中之對應結構及/或功能。然而，人工神經網路可針對習知計算技術可能繁複、不實用或不適當的某些應用提供有用的計算技術。因為人工神經網路可自觀測推斷功能，所以此等網路可能在任務或資料之複雜度使藉由習知技術進行之功能設計繁重的應用中係有用的。迴旋神經網路(convolutional neural network)為一種類型之前饋式人工神經網路。迴旋神經網路可包括各自具有一感受野(receptive field)且集體地並排顯示一輸入空間之神經元集合。迴旋神經網路(CNN)具有眾多應用。詳言之，CNN已廣泛地用於型樣辨識及分類之領域中。在諸如用於智慧型車輛之交通號誌偵測及地圖測繪的物件偵測應用中，可能需要出於定位及地圖測繪準確度而識別精確邊界(並非僅僅為限界框)。目標物件之精確邊界可包括目標物件之頂點。習知物件偵測方法可使用迴旋神經網路(CNN)以偵測物件。然而，習知物件偵測方法可提供物件之矩形限界框，而非物件之精確邊界。因此，習知物件偵測方法可能需要與某一後處理(例如，物件限界框之分段、邊緣偵測，或角點偵測)組合以便估計物件之精確邊界。後處理可能會引入額外的計算成本、延遲，或其他低效率。

以下內容呈現一或多個態樣之簡化概述，以便提供對此等態樣之基本理解。此概述並非所有預期態樣之廣泛概觀，且既不意欲識別所有態樣之關鍵或決定性要素，亦不意欲劃定任何或所有態樣之範疇。其唯一目的係以簡化形式呈現一或多個態樣之一些概念作為稍後呈現之更詳細描述之序言。習知物件偵測方法可提供物件之矩形限界框。因此，習知物件偵測方法可能需要與某一後處理(例如，物件限界框之分段、邊緣偵測，或角點偵測)組合以便估計物件之精確邊界。後處理可能會引入額外的計算成本、延遲，或其他低效率。在本發明之一態樣中，提供一種用於物件偵測之方法、電腦可讀媒體及設備。該設備可基於含有一物件之一輸入影像而使用一神經網路來判定一回歸向量。該物件可具有具備一已知形狀之一平面表面。該設備可基於該回歸向量而導出一轉換矩陣。該設備可基於該轉換矩陣而識別該物件之一精確邊界。該物件之該精確邊界可包括該物件之複數個頂點。為了識別該物件之該邊界，該設備可將該轉換矩陣應用於該物件之一經判定形狀。為了實現前述及相關目的，一或多個態樣包含在下文中充分地描述且在申請專利範圍中特別地指出之特徵。以下描述及所附圖式詳細地闡述一或多個態樣之某些說明性特徵。然而，此等特徵指示可使用各種態樣之原理的各種方式中之僅少數方式，且此描述意欲包括所有此等態樣及其等效者。

相關申請案之交叉參考 本申請案主張2017年1月3日申請之名為「使用神經網路之同時物件偵測及剛性轉換估計(SIMULTANEOUS OBJECT DETECTION AND RIGID TRANSFORM ESTIMATION USING NEURAL NETWORK)」之美國臨時申請案第62/441,889號及2017年2月23日申請之名為「使用神經網路之同時物件偵測及剛性轉換估計(SIMULTANEOUS OBJECT DETECTION AND RIGID TRANSFORM ESTIMATION USING NEURAL NETWORK)」之美國專利申請案第15/441,114號的權益，該等申請案之全文係以引用的方式明確地併入本文中。下文結合所附圖式所闡述之實施方式意欲作為各種組態之描述，且並不意欲表示可實踐本文中所描述之概念的僅有組態。該實施方式出於提供對各種概念之透徹理解之目的而包括特定細節。然而，對於熟習此項技術者而言將顯而易見，可在無此等特定細節之情況下實踐此等概念。在一些情況下，以方塊圖形式展示熟知的結構及組件以便避免混淆此等概念。現在將參考各種設備及方法來呈現用於人工神經網路之計算系統之若干態樣。將藉由各種區塊、組件、電路、處理程序、演算法等等(被集體地稱作「元件」)而在以下實施方式中描述且在隨附圖式中說明該等設備及方法。該等元件可使用電子硬體、電腦軟體或其任何組合予以實施。將此等元件實施為硬體抑或軟體取決於特定應用及強加於整個系統上之設計約束。作為實例，一元件或一元件之任何部分或元件之任何組合可被實施為包括一或多個處理器之「處理系統」。處理器之實例包括微處理器、微控制器、圖形處理單元(graphics processing unit；GPU)、中央處理單元(central processing unit；CPU)、應用程式處理器、數位信號處理器(digital signal processor；DSP)、精簡指令集計算(reduced instruction set computing；RISC)處理器、系統單晶片(systems on a chip；SoC)、基頻處理器、場可程式化閘陣列(field programmable gate array；FPGA)、可程式化邏輯裝置(programmable logic device；PLD)、狀態機、閘控邏輯、離散硬體電路，及經組態以執行貫穿本發明所描述之各種功能性的其他合適硬體。處理系統中之一或多個處理器可執行軟體。軟體應被廣泛地認作意謂指令、指令集、代碼、碼段、程式碼、程式、子程式、軟體組件、應用程式、軟體應用程式、套裝軟體、常式、次常式、物件、可執行碼、執行緒、程序、函式等等，而無論被稱作軟體、韌體、中間軟體、微碼、硬體描述語言抑或其他。因此，在一或多個實例實施例中，所描述之功能可以硬體、軟體或其任何組合予以實施。若以軟體予以實施，則功能可儲存於電腦可讀媒體上或在電腦可讀媒體上被編碼為一或多個指令或程式碼。電腦可讀媒體包括電腦儲存媒體。儲存媒體可為可由電腦存取之任何可用媒體。作為實例而非限制，此等電腦可讀媒體可包含隨機存取記憶體(random-access memory；RAM)、唯讀記憶體(read-only memory；ROM)、電可擦除可程式化ROM (electrically erasable programmable ROM；EEPROM)、光碟儲存裝置、磁碟儲存裝置、其他磁性儲存裝置、前述類型之電腦可讀媒體之組合，或可用以儲存呈可由電腦存取之指令或資料結構之形式之電腦可執行程式碼的任何其他媒體。人工神經網路可由三種類型之參數定義：1)不同神經元層之間的互連型樣；2)用於更新互連之權重的學習處理程序；及3)將神經元之加權輸入變換為其輸出啟動的啟動功能。神經網路可被設計成具備多種連接性型樣。在前饋式網路中，資訊自較低層傳遞至較高層，其中給定層中之每一神經元與較高層中之神經元通信。階層式表示可累積於前饋式網路之連續層中。神經網路亦可具有遞迴或回饋(亦被稱為自上而下)連接。在遞迴連接中，來自給定層中之神經元之輸出可傳達至該同一層中之另一神經元。遞迴架構可有助於辨識跨越在序列中遞送至神經網路之輸入資料厚塊中之多於一者的型樣。自給定層中之神經元至較低層中之神經元的連接被稱為回饋(或自上而下)連接。當高階概念之辨識可輔助鑑別輸入之特定低階特徵時，具備許多回饋連接之網路可能係有幫助的。圖1為說明根據本發明之態樣之神經網路的圖解。如圖1所展示，神經網路之層之間的連接可為完全連接102或局域連接104。在完全連接網路102中，第一層中之神經元可將該神經元之輸出傳達至第二層中之每一神經元，使得第二層中之每一神經元自第一層中之每一神經元接收輸入。替代地，在局域連接網路104中，第一層中之神經元可連接至第二層中之有限數目個神經元。迴旋網路106可為局域連接，且經進一步組態使得與用於第二層中之每一神經元之輸入相關聯的連接強度被共用(例如，連接強度108)。更一般化地，網路之局域連接層可經組態使得一層中之每一神經元將具有相同或相似連接性型樣，但具備可具有不同值之連接強度(例如，110、112、114及116)。局域連接之連接性型樣可在較高層中引起空間上相異的感受野，此係因為給定區域中之較高層神經元可接收經由訓練而調諧為至網路之總輸入之受限定部分之屬性的輸入。局域連接神經網路可很好地適於輸入之空間位置有意義的問題。舉例而言，被設計成自汽車安裝攝影機辨識視覺特徵之網路100可開發高層神經元，該等高層神經元取決於其與影像之下部部分相對於影像之上部部分的關聯性而具備不同屬性。舉例而言，與影像之下部部分相關聯的神經元可學著辨識車道劃線，而與影像之上部部分相關聯的神經元可學著辨識交通信號燈、交通號誌及其類似者。可運用監督下學習來訓練深度迴旋網路(DCN)。在訓練期間，可向DCN呈現影像，諸如限速號誌126之經裁剪影像，且接著可計算「正向傳遞(forward pass)」以產生輸出122。輸出122可為對應於諸如「號誌」、「60」及「100」之特徵之值的向量。網路設計者可希望DCN在輸出特徵向量中針對一些神經元輸出高記分，該輸出特徵向量係例如對應於「號誌」及「60」之輸出特徵向量，如輸出122中針對已被訓練之網路100所展示。在訓練之前，由DCN產生之輸出很可能不正確，且因此可計算DCN之實際輸出與自DCN之所需要之目標輸出之間的誤差。接著可調整DCN之權重，使得DCN之輸出記分與目標輸出更接近地對準。為了調整權重，學習演算法可針對權重計算梯度向量。梯度可指示在權重被稍微調整之情況下誤差將增大或減小的量。在頂部層處，梯度可直接對應於連接倒數第二層中之經啟動神經元與輸出層中之神經元的權重之值。在較低層中，梯度可取決於權重之值且取決於較高層之經計算誤差梯度。接著可調整權重以便縮減誤差。調整權重之此方式可被稱作「後向傳播(back propagation)」，此係因為調整權重之方式涉及通過神經網路之「反向傳遞(backward pass)」。實務上，可計算少數實例之權重誤差梯度，使得經計算梯度趨近真實誤差梯度。此趨近計算方法可被稱作隨機梯度下降。可重複隨機梯度下降，直至整個系統之可達成誤差率已停止減小或直至該誤差率已達到目標位準。在學習之後，可向DCN呈現新影像126，且通過網路之正向傳遞可得到可被視為DCN之推斷或預測的輸出122。深度迴旋網路(DCN)為迴旋網路之網路，其被組態有額外的集用及正規化層。DCN可對許多任務達成目前先進技術效能。可使用監督下學習來訓練DCN，在監督下學習中，輸入目標及輸出目標兩者對於許多範例而言係已知的，且用以藉由使用梯度下降方法來修改網路之權重。 DCN可為前饋式網路。此外，如上文所描述，自DCN之第一層中之神經元至下一較高層中之神經元群組的連接被整個第一層中之神經元共用。可採用DCN之前饋式連接及共用連接以用於進行快速處理。舉例而言，相比於包含遞迴或回饋連接之相似大小的神經網路之計算負擔，DCN之計算負擔可小得多。迴旋網路之每一層的處理可被視為空間上恆定的範本或基礎投影。若輸入被首先分解成多個通道，諸如彩色影像之紅色、綠色及藍色通道，則在彼輸入上訓練之迴旋網路可被視為三維網路，其中兩個空間維度沿著影像之軸線且第三維度捕捉色彩資訊。迴旋連接之輸出可被視為在後續層118及120中形成特徵映圖(feature map)，其中特徵映圖(例如，120)之每一元素自前一層(例如，118)中之一系列神經元及自多個通道中之每一者接收輸入。可運用諸如糾正之非線性max(0,x)來進一步處理特徵映圖中之值。可進一步集用來自鄰近神經元之值，此對應於減少取樣，且可提供額外的局域不變性及維數縮減。亦可經由特徵映圖中之神經元之間的側抑制而應用對應於白化之正規化。圖2為說明例示性深度迴旋網路200之方塊圖。深度迴旋網路200可包括基於連接性及權重共用的多種不同類型之層。如圖2所展示，例示性深度迴旋網路200包括多個迴旋區塊(例如，C1及C2)。該等迴旋區塊中之每一者可被組態有迴旋層(CONV)、正規化層(LNorm)及集用層(MAX POOL)。迴旋層可包括一或多個迴旋濾波器，其可應用於輸入資料以產生特徵映圖。儘管展示僅兩個迴旋區塊，但本發明並不因此具限制性，且代替地，根據設計偏好，任何數目個迴旋區塊可包括於深度迴旋網路200中。正規化層可用以正規化迴旋濾波器之輸出。舉例而言，正規化層可提供白化或側抑制。集用層可針對局域不變性及維數縮減而提供遍及空間之減少取樣彙總。舉例而言，深度迴旋網路之並行濾波器組可視情況基於進階RISC機器(Advanced RISC Machine；ARM)指令集而裝載於SOC之CPU或GPU上，以達成高效能及低功率消耗。在替代實施例中，並行濾波器組可裝載於DSP上或SOC之影像信號處理器(image signal processor；ISP)上。此外，DCN可存取可存在於SOC上之其他處理區塊，諸如專用於感測器及導航之處理區塊。深度迴旋網路200亦可包括一或多個完全連接層(例如，FC1及FC2)。深度迴旋網路200可進一步包括邏輯回歸(logistic regression；LR)層。可被更新之權重(未圖示)在深度迴旋網路200之每一層之間。每一層之輸出可充當深度迴旋網路200中之後續層之輸入，以向第一迴旋區塊C1處供應之輸入資料(例如，影像、音訊、視訊、感測器資料及/或其他輸入資料)學習階層式特徵表示。網路100或深度迴旋網路200可由以下各者模擬：一般用途處理器、數位信號處理器(DSP)、特殊應用積體電路(application specific integrated circuit；ASIC)、場可程式化閘陣列(FPGA)或其他可程式化邏輯裝置(PLD)、離散閘或電晶體邏輯、離散硬體組件、由處理器執行之軟體組件，或其任何組合。網路100或深度迴旋網路200可用於大範圍的應用，諸如影像及型樣辨識、機器學習、馬達控制，及其類似者。神經網路100或深度迴旋網路200中之每一神經元可被實施為神經元電路。在某些態樣中，網路100或深度迴旋網路200可經組態以基於含有物件之輸入影像而判定回歸向量。網路100或深度迴旋網路200亦可經組態以判定物件之形狀。下文將參考圖3至圖8來描述由網路100或深度迴旋網路200執行之操作。圖3為說明提供物件之精確邊界而非限界框之物件偵測實例的圖解300。在此實例中，處理含有交通號誌302之影像302以偵測交通號誌。在此物件偵測應用中，可能需要例如出於定位及地圖測繪準確度而識別物件(例如，交通號誌302)之精確邊界。習知物件偵測方法可產生交通號誌302之限界框306。為了估計精確邊界304，習知方法可對限界框306執行後處理(例如，限界框306之分段、邊緣偵測，或限界框306內之角點偵測)。在本發明之一個組態中，可直接產生交通號誌302之精確邊界304，而無需獲得限界框306且無需對限界框306執行任何後處理。圖4為說明用於使用神經網路之同時物件偵測及剛性轉換估計之物件偵測網路400之實例的圖解。在該實例中，物件偵測網路400可包括神經網路402、解碼器406及轉換單元408。在一個組態中，神經網路402可為CNN。神經網路402可接收含有目標物件(例如，交通號誌)之輸入影像。神經網路402可基於輸入影像而產生回歸向量。在一個組態中，神經網路402亦可產生目標物件之經預測形狀標記(例如，三角形或菱形)。在一個組態中，回歸向量及形狀標記可由神經網路402之不同迴旋層產生。在一個組態中，回歸向量及形狀標記可由兩個不同神經網路運用相同輸入影像而產生。在一個組態中，代替產生經預測形狀標記，神經網路(例如，神經網路402)可產生目標物件之經預測內容。經預測內容(例如，交通號誌內容)可與形狀相關聯。因此，除了預測目標物件之形狀以外，亦可估計與目標物件相關聯之內容。在一個組態中，回歸向量之維度之數目可取決於待執行之轉換類型而不同。舉例而言，回歸向量對於相似性轉換(4自由度)可具有四個維度，回歸向量對於仿射轉換(6自由度)可具有六個維度，回歸向量對於透視轉換(單應性，8自由度)可具有八個維度。在一個組態中，可出於神經網路402之訓練及測試兩者而預判定回歸向量之維度。在一個組態中，可基於物件偵測網路400之應用而在神經網路402之訓練之前判定回歸向量之維度之數目。在一個組態中，由神經網路402產生之所有回歸向量可具有相同數目個維度。解碼器406可解碼回歸向量以獲得剛性轉換矩陣M 。向量空間之剛性轉換會保持每一對點之間的距離。剛性轉換可包括旋轉、平移、反射，或旋轉、平移及/或反射之某一組合。在一個組態中，回歸向量可表示神經網路之經預測範本頂點(例如，經預測範本頂點412)與錨定框(例如，錨定框410)之間的差。錨定框(例如，錨定框410)可為由預定義規則柵格給出之影像區域之部分。範本頂點(例如，經預測範本頂點412)可為範本影像之四個角點。範本頂點可獨立於範本影像之內容。對於每一錨定框，可獲得一回歸向量以表示經預測範本頂點與錨定框之間的差。可使用四個頂點之座標(例如，(0, 0)、(1, 0)、(1, 1)、(0, 1))來編碼回歸向量，如下文將進一步所描述。剛性轉換矩陣可表示自範本多邊形至影像中之目標物件之精確邊界(例如，精確邊界304中之頂點)的剛性轉換。範本多邊形可包括目標物件之實際角點/頂點(例如，停止號誌之8個角點)。在一個組態中，可使用轉換透視矩陣SL(3) 之李氏代數sl(3) 以表示8維(8-dimensional；8D)轉換矩陣。可將回歸8D係數向量應用於sl(3) (導數被很好地定義)，且可藉由使用如下文所定義之矩陣指數來計算轉換矩陣SL(3) ，其中，M ：錨定框之轉換矩陣(僅矩形平移)，M(u) ：藉由回歸而更新之轉換矩陣，u_i ：第i 回歸向量元素(sl(3) 之係數)，E_i ：SL(3) 之李氏代數基數之第i 元素。在一個組態中，可使用四個頂點之座標來解碼轉換矩陣。可由神經網路402獲得用於四個預定義控制點(例如，(0, 0)、(1, 0)、(1, 1)、(0, 1))之回歸平移向量，可藉由求解以下線性方程式而使用頂點來計算轉換矩陣對於其中， x、y：範本影像中之頂點， x'、y'：影像中之頂點。轉換單元408可基於經預測形狀標記而判定範本多邊形，且使用剛性轉換矩陣M 來轉換範本多邊形以獲得目標物件之精確邊界(例如，目標物件之頂點)。在一個組態中，可獲得目標物件之精確邊界而無需任何後處理，諸如物件限界框分段、邊緣偵測，或角點偵測等等。因此，可縮減精確邊界(例如，頂點)之估計時間，且精確邊界之估計亦可更準確。因為使用由CNN產生之轉換矩陣來直接估計目標物件之頂點，所以亦可處置輸入影像內之遮擋及/或重疊目標。與此對比，使用後處理來獲得目標物件之精確邊界無法處置輸入影像內之遮擋及/或重疊目標。因此，當輸入影像內存在遮擋及/或重疊目標時，相比於本發明中所描述之方法，使用物件限界框之後處理而估計的目標物件之精確邊界可較不準確。此外，相比於使用後處理來獲得目標物件之精確邊界，本發明中所描述的用於識別目標物件之精確邊界之方法可更有效於處置小及模糊的目標物件。圖5為說明運用經由上文在圖4中所描述之物件偵測網路400所獲得之轉換矩陣M 而將範本多邊形轉換成影像502之實例的圖解500。在一個組態中，可由上文參考圖4所描述之轉換單元408執行此實例中所描述之操作。轉換矩陣M 可為由解碼器406產生之剛性轉換矩陣M 。在一個組態中，可將含有目標物件514 (例如，交通號誌)之影像502提供至物件偵測網路(例如，物件偵測網路400)以產生轉換矩陣M 及用於目標物件514之經預測形狀標記。基於經預測形狀標記(例如，菱形形狀)，可自可包括範本多邊形504、506等等之複數個預定義範本多邊形選擇範本多邊形504。範本多邊形504可包括頂點(0.5, 0)、(1, 0.5)、(0.5, 1)及(0, 0.5)。範本頂點可為(0, 0)、(1, 0)、(1, 1)及(0, 1)。可使用轉換矩陣M 而將經選擇範本多邊形504轉換(在510處)成影像502。藉由將轉換矩陣M 應用於經選擇範本多邊形504之頂點，可獲得影像502中之目標物件514之頂點。因此，可識別影像502中之目標物件514之精確邊界512。圖6為使用神經網路之物件偵測方法的流程圖600。在一個組態中，神經網路可為深度迴旋神經網路(DCN)。該方法可由計算裝置(例如，設備702/702')執行。在602處，裝置可基於含有物件(例如，交通號誌)之輸入影像而使用神經網路來判定回歸向量。在一個組態中，在602處執行之操作可包括由上文參考圖4所描述之神經網路402執行之操作。在一個組態中，回歸向量針對仿射轉換可包括6個維度。在一個組態中，回歸向量針對透視轉換可包括8個維度。在一個組態中，物件可具有具備已知形狀之平面表面。在此組態中，可存在形狀之預定義清單，且物件之形狀在該預定義清單中。在604處，裝置可基於回歸向量而導出轉換矩陣。在一個組態中，在604處執行之操作可包括由上文參考圖4所描述之解碼器406執行之操作。在606處，裝置可基於轉換矩陣而識別物件之精確邊界。在一個組態中，在606處執行之操作可包括由上文參考圖4所描述之轉換單元408執行之操作。在一個組態中，物件之邊界可包括物件之複數個頂點。在一個組態中，為了識別物件之邊界，裝置可將轉換矩陣應用於物件之經預測形狀，例如，在表示經預測形狀之頂點之向量與轉換矩陣之間執行矩陣乘法。物件之形狀可與物件之大小無關，且物件之邊界可與物件之大小相關。在一個組態中，可由神經網路判定物件之形狀。物件之形狀可為包含儲存於資料庫中之複數個頂點座標之特定物件類別之形狀。該物件類別可由神經網路判定。在一個組態中，在將轉換矩陣應用於物件之經預測形狀之後，可識別物件之邊界而無需執行任何額外處理(例如，物件分段、邊緣偵測或角點偵測中之一或多者)。圖7為說明例示性設備702中之不同構件/組件之間的資料流程的概念性資料流程圖700。設備702可為計算裝置。設備702可包括回歸向量組件704，回歸向量組件704基於輸入影像712而使用神經網路來判定回歸向量。在一個組態中，回歸向量組件704可執行由上文參考圖4所描述之神經網路402執行之操作。在一個組態中，回歸向量組件704可執行上文參考圖6中之602所描述之操作。設備702可包括形狀預測組件710，形狀預測組件710基於輸入影像712而使用神經網路來預測用於目標物件之形狀標記。在一個組態中，形狀預測組件710可執行由上文參考圖4所描述之神經網路402執行之操作。設備702可包括轉換矩陣組件706，轉換矩陣組件706自回歸向量組件704接收回歸向量且基於回歸向量而導出轉換矩陣。在一個組態中，轉換矩陣組件706可執行上文參考圖6中之604所描述之操作。在一個組態中，轉換矩陣組件706可執行由上文參考圖4所描述之解碼器406執行之操作。設備702可包括邊界識別組件708，邊界識別組件708自轉換矩陣組件706接收轉換矩陣。邊界識別組件708可進一步自形狀預測組件710接收經預測形狀標記且查詢形狀資料庫714以將經預測形狀標記映射至實際形狀(例如，範本多邊形)。邊界識別組件708可基於轉換矩陣及範本多邊形而識別目標物件之精確邊界。在一個組態中，邊界識別組件708可執行上文參考圖6中之606所描述之操作。在一個組態中，邊界識別組件708可執行由上文參考圖4所描述之轉換單元408執行之操作。設備702可包括執行圖6之前述流程圖中的演算法之區塊中之每一者的額外組件。因而，圖6之前述流程圖中之每一區塊可由一組件執行，且設備可包括彼等組件中之一或多者。組件可為一或多個硬體組件，其經特定地組態以實行所陳述之處理程序/演算法，由經組態以執行所陳述之處理程序/演算法之處理器實施，儲存於電腦可讀媒體內以供處理器實施，或其某一組合。圖8為說明用於使用處理系統814之設備702'之硬體實施方案之實例的圖解800。處理系統814可運用通常由匯流排824表示之匯流排架構予以實施。取決於處理系統814之特定應用及總體設計約束，匯流排824可包括任何數目個互連匯流排及橋接器。匯流排824將包括一或多個處理器及/或硬體組件之各種電路鏈接在一起，該一或多個處理器及/或硬體組件係由處理器804、組件704、706、708、710及電腦可讀媒體/記憶體806表示。匯流排824亦可鏈接此項技術中熟知的且因此將不再描述的各種其他電路，諸如定時源、周邊裝置、電壓調節器及功率管理電路。處理系統814可耦接至收發器810。收發器810可耦接至一或多個天線820。收發器810提供用於經由傳輸媒體而與各種其他設備通信的構件。收發器810自一或多個天線820接收信號，自經接收信號擷取資訊，且將經擷取資訊提供至處理系統814。此外，收發器810自處理系統814接收資訊，且基於經接收資訊而產生待應用於一或多個天線820之信號。處理系統814包括耦接至電腦可讀媒體/記憶體806之處理器804。處理器804負責一般處理，包括執行儲存於電腦可讀媒體/記憶體806上之軟體。軟體在由處理器804執行時致使處理系統814執行上文針對任何特定設備所描述之各種功能。電腦可讀媒體/記憶體806亦可用於儲存由處理器804在執行軟體時操縱之資料。處理系統814進一步包括組件704、706、708、710中之至少一者。組件可為在處理器804中執行之軟體組件，可駐存/儲存於電腦可讀媒體/記憶體806中，可為耦接至處理器804之一或多個硬體組件，或其某一組合。在一個組態中，設備702/702'可包括用於基於包含物件之輸入影像而使用神經網路來判定回歸向量的構件。在一個組態中，用於判定回歸向量的構件可執行上文參考圖6中之602所描述之操作。在一個組態中，用於判定回歸向量的構件可包括回歸向量組件704及/或處理器804。在一個組態中，設備702/702'可包括用於基於回歸向量而導出轉換矩陣的構件。在一個組態中，用於基於回歸向量而導出轉換矩陣的構件可執行上文參考圖6中之604所描述之操作。在一個組態中，用於基於回歸向量而導出轉換矩陣的構件可包括轉換矩陣組件706及/或處理器804。在一個組態中，設備702/702'可包括用於基於轉換矩陣而識別物件之邊界的構件。在一個組態中，用於基於轉換矩陣而識別物件之邊界的構件可執行上文參考圖6中之606所描述之操作。在一個組態中，用於基於轉換矩陣而識別物件之邊界的構件可包括邊界識別組件708及/或處理器804。在一個組態中，用於識別物件之邊界的構件可經組態以將轉換矩陣應用於物件之形狀。在一個組態中，在將轉換矩陣應用於物件之形狀之後，用於識別物件之邊界的構件可能不執行任何額外處理。前述構件可為經組態以執行由前述構件敍述之功能的設備702之前述組件及/或設備702'之處理系統814中的一或多者。應理解，所揭示之處理程序/流程圖中之區塊的特定次序或階層為例示性途徑之說明。基於設計偏好，應理解，可重新配置處理程序/流程圖中之區塊的特定次序或階層。此外，可組合或省略一些區塊。隨附方法請求項以樣本次序呈現各種區塊之要素，且並不意謂限於所呈現之特定次序或階層。提供先前描述以使任何熟習此項技術者能夠實踐本文中所描述之各種態樣。對此等態樣之各種修改對於熟習此項技術者而言將容易顯而易見，且本文中所定義之一般原理可適用於其他態樣。因此，申請專利範圍並不意欲限於本文中所展示之態樣，而是應符合與語言申請專利範圍一致之完整範疇，其中以單數形式參考一元件並不意欲意謂「一個且僅一個」，除非有如此特定陳述，而是意謂「一或多個」。詞語「例示性」在本文中用以意謂「充當實例、例子或說明」。本文中被描述為「例示性」之任何態樣未必應被認作比其他態樣較佳或有利。除非另有特定陳述，否則術語「一些」係指一或多個。諸如「A、B或C中之至少一者」、「A、B或C中之一或多者」、「A、B及C中之至少一者」、「A、B及C中之一或多者」及「A、B、C或其任何組合」之組合包括A、B及/或C之任何組合，且可包括A之倍數、B之倍數，或C之倍數。具體言之，諸如「A、B或C中之至少一者」、「A、B或C中之一或多者」、「A、B及C中之至少一者」、「A、B及C中之一或多者」及「A、B、C或其任何組合」之組合可僅為A、僅為B、僅為C、為A及B、為A及C、為B及C，或為A及B及C，其中任何此等組合可含有A、B或C之一或多個成員。為一般技術者已知或以後將已知的貫穿本發明所描述之各種態樣之要素的所有結構及功能等效者係以引用的方式明確地併入本文中，且意欲由申請專利範圍涵蓋。此外，本文中所揭示之任何內容皆不意欲專用於公眾，而無論申請專利範圍中是否明確地敍述此揭示內容。詞語「模組」、「機構」、「元件」、「裝置」及其類似者可能不為詞語「構件」之取代者。因而，任何請求項元件皆不應被認作構件加功能，除非使用片語「用於……的構件」來明確地敍述該元件。

100‧‧‧神經網路

102‧‧‧完全連接網路

104‧‧‧局域連接網路

106‧‧‧迴旋網路

108‧‧‧連接強度

110‧‧‧連接強度

112‧‧‧連接強度

114‧‧‧連接強度

116‧‧‧連接強度

118‧‧‧層

120‧‧‧層

122‧‧‧輸出

126‧‧‧限速號誌/影像

200‧‧‧深度迴旋網路

300‧‧‧圖解

302‧‧‧交通號誌/影像

304‧‧‧精確邊界

306‧‧‧限界框

400‧‧‧物件偵測網路

402‧‧‧神經網路

406‧‧‧解碼器

408‧‧‧轉換單元

410‧‧‧錨定框

412‧‧‧經預測範本頂點

500‧‧‧圖解

502‧‧‧影像

504‧‧‧範本多邊形

506‧‧‧範本多邊形

510‧‧‧轉換

512‧‧‧精確邊界

514‧‧‧目標物件

600‧‧‧流程圖

602‧‧‧步驟

604‧‧‧步驟

606‧‧‧步驟

700‧‧‧概念性資料流程圖

702‧‧‧設備

702'‧‧‧設備

704‧‧‧回歸向量組件

706‧‧‧轉換矩陣組件

708‧‧‧邊界識別組件

710‧‧‧形狀預測組件

712‧‧‧輸入影像

714‧‧‧形狀資料庫

800‧‧‧圖解

804‧‧‧處理器

806‧‧‧電腦可讀媒體/記憶體

810‧‧‧收發器

814‧‧‧處理系統

820‧‧‧天線

824‧‧‧匯流排

C1‧‧‧迴旋區塊

C2‧‧‧迴旋區塊

圖1為說明根據本發明之態樣之神經網路的圖解。圖2為說明根據本發明之態樣之例示性深度迴旋網路(deep convolutional network；DCN)的方塊圖。圖3為說明提供物件之精確邊界而非限界框之物件偵測實例的圖解。圖4為說明用於使用神經網路之同時物件偵測及剛性轉換估計之物件偵測網路之實例的圖解。圖5為說明運用經由上文在圖4中所描述之物件偵測網路所獲得之轉換矩陣而將範本多邊形轉換成影像之實例的圖解。圖6為使用神經網路之物件偵測方法的流程圖。圖7為說明例示性設備中之不同構件/組件之間的資料流程的概念性資料流程圖。圖8為說明用於使用處理系統之設備之硬體實施方案之實例的圖解。

Claims

一種物件偵測方法，其包含：基於包含一物件之一輸入影像而使用一神經網路來判定一回歸向量；基於該回歸向量而導出一轉換矩陣；及基於該轉換矩陣而識別該物件之一邊界。
如請求項1之方法，其中該物件之該邊界包含該物件之複數個頂點。
如請求項1之方法，其中該回歸向量針對一仿射轉換包含6個維度。
如請求項1之方法，其中該回歸向量針對一透視轉換包含8個維度。
如請求項1之方法，其中該物件具有具備一已知形狀之一平面表面。
如請求項5之方法，其中該物件為一交通號誌。
如請求項1之方法，其中該識別該物件之該邊界包含將該轉換矩陣應用於該物件之一形狀。
如請求項7之方法，其中該物件之該形狀係由該神經網路判定。
如請求項7之方法，其中在將該轉換矩陣應用於該物件之該形狀之後，執行該識別該物件之該邊界而無需一處理。
如請求項9之方法，其中該處理包含該物件之分段、邊緣偵測或角點偵測中之一或多者。
一種用於物件偵測之設備，其包含：用於基於包含一物件之一輸入影像而使用一神經網路來判定一回歸向量的構件；用於基於該回歸向量而導出一轉換矩陣的構件；及用於基於該轉換矩陣而識別該物件之一邊界的構件。
如請求項11之設備，其中該物件之該邊界包含該物件之複數個頂點。
如請求項11之設備，其中該回歸向量針對一仿射轉換包含6個維度。
如請求項11之設備，其中該回歸向量針對一透視轉換包含8個維度。
如請求項11之設備，其中該物件具有具備一已知形狀之一平面表面。
如請求項11之設備，其中該用於識別該物件之該邊界的構件經組態以將該轉換矩陣應用於該物件之一形狀。
如請求項16之設備，其中該物件之該形狀係由該神經網路判定。
如請求項16之設備，其中在將該轉換矩陣應用於該物件之該形狀之後，該用於識別該物件之該邊界的構件不執行一處理。
如請求項18之設備，其中該處理包含該物件之分段、邊緣偵測或角點偵測中之一或多者。
一種用於物件偵測之設備，其包含：一記憶體；及至少一個處理器，其耦接至該記憶體且經組態以進行以下操作：基於包含一物件之一輸入影像而使用一神經網路來判定一回歸向量；基於該回歸向量而導出一轉換矩陣；及基於該轉換矩陣而識別該物件之一邊界。
如請求項20之設備，其中該物件之該邊界包含該物件之複數個頂點。
如請求項20之設備，其中該回歸向量針對一仿射轉換包含6個維度。
如請求項20之設備，其中該回歸向量針對一透視轉換包含8個維度。
如請求項20之設備，其中該物件具有具備一已知形狀之一平面表面。
如請求項24之設備，其中該物件為一交通號誌。
如請求項20之設備，其中，為了識別該物件之該邊界，該至少一個處理器經組態以將該轉換矩陣應用於該物件之一形狀。
如請求項26之設備，其中該物件之該形狀係由該神經網路判定。
如請求項26之設備，其中，為了識別該物件之該邊界，在將該轉換矩陣應用於該物件之該形狀之後，該至少一個處理器不執行一處理。
如請求項28之設備，其中該處理包含該物件之分段、邊緣偵測或角點偵測中之一或多者。
一種儲存電腦可執行程式碼之電腦可讀媒體，其包含用以進行以下操作之程式碼：基於包含一物件之一輸入影像而使用一神經網路來判定一回歸向量；基於該回歸向量而導出一轉換矩陣；及基於該轉換矩陣而識別該物件之一邊界。