TWI764905B - 偵測物體的裝置與方法、製造處理器的方法以及建構積體電路的方法 - Google Patents

偵測物體的裝置與方法、製造處理器的方法以及建構積體電路的方法 Download PDF

Info

Publication number
TWI764905B
TWI764905B TW106119649A TW106119649A TWI764905B TW I764905 B TWI764905 B TW I764905B TW 106119649 A TW106119649 A TW 106119649A TW 106119649 A TW106119649 A TW 106119649A TW I764905 B TWI764905 B TW I764905B
Authority
TW
Taiwan
Prior art keywords
confidence
detection score
primary
image
score
Prior art date
Application number
TW106119649A
Other languages
English (en)
Other versions
TW201814591A (zh
Inventor
莫斯塔法 伊爾-哈米
杜憲治
正元 李
Original Assignee
南韓商三星電子股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南韓商三星電子股份有限公司 filed Critical 南韓商三星電子股份有限公司
Publication of TW201814591A publication Critical patent/TW201814591A/zh
Application granted granted Critical
Publication of TWI764905B publication Critical patent/TWI764905B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L27/00Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate
    • H01L27/14Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components sensitive to infrared radiation, light, electromagnetic radiation of shorter wavelength or corpuscular radiation and specially adapted either for the conversion of the energy of such radiation into electrical energy or for the control of electrical energy by such radiation
    • H01L27/144Devices controlled by radiation
    • H01L27/146Imager structures
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L27/00Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate
    • H01L27/14Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components sensitive to infrared radiation, light, electromagnetic radiation of shorter wavelength or corpuscular radiation and specially adapted either for the conversion of the energy of such radiation into electrical energy or for the control of electrical energy by such radiation
    • H01L27/144Devices controlled by radiation
    • H01L27/146Imager structures
    • H01L27/14683Processes or apparatus peculiar to the manufacture or treatment of these devices or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/39Circuit design at the physical level
    • G06F30/392Floor-planning or layout, e.g. partitioning or placement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/39Circuit design at the physical level
    • G06F30/398Design verification or optimisation, e.g. using design rule check [DRC], layout versus schematics [LVS] or finite element methods [FEM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Power Engineering (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Electromagnetism (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computer Hardware Design (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Abstract

本發明提供一種方法及裝置。所述方法包含:接收影像,偵測所述影像中的物體,藉由主要物體偵測器判定所述物體的主要可信度偵測得分,藉由分類網路判定所述物體的可信度比例因數,及基於使所述主要可信度偵測得分乘以所述可信度比例因數而調整所述主要可信度偵測得分。

Description

偵測物體的裝置與方法、製造處理器的方法以及建構積體電路的方法
本發明大體上是關於深度神經網路,且更特定而言是關於一種用於快速及穩健物體偵測的深度網路融合的系統以及方法。
諸如面部辨識的物體辨識包含自藉由諸如攝影機的影像感測器俘獲的影像的資料庫識別出個人,且通常包含學習面部影像。所俘獲影像的表示使用度量與資料庫中的面部影像的表示進行比較以傳回最靠近匹配。面部辨識包含諸如面部偵測及面部對準的預處理步驟。
藉由攝影機俘獲的視覺影像內的物體辨識可用於多種工業或應用中,包含防衛、運輸或法律強制執行外加其他。舉例而言,可為所要的是識別影像內的一或多個物體,諸如汽車、行人及建築物。習知物體偵測方法可能不提供準確地識別目標物體的所要可靠性,及/或可提供大於所要數目個的錯誤肯定識別(例如,偵測非目標物體作為目標物體)。
影像中的行人偵測在視訊監測、個人識別及高階駕駛員輔助系統(advanced driver assistance system;ADAS)的各種態樣中當前扮演基本角色。行人的即時準確偵測對於此等系統的實際採用為至關重要的。行人偵測方法旨在以即時處理速度繪製精準地描述影像中的所有行人的位置的限界框。
本發明的一態樣提供一種系統及方法,所述系統及方法包含用於對影像中俘獲的行人進行快速且穩健偵測的深度神經網路融合架構。
根據本發明的一態樣,提供一種方法,所述方法包含:接收影像,偵測所述影像中的物體,藉由主要物體偵測器判定所述物體的主要可信度偵測得分,藉由分類網路判定所述物體的可信度比例因數,及基於使所述主要可信度偵測得分乘以所述可信度比例因數而調整所述主要可信度偵測得分。
根據本發明的另一態樣,提供一種裝置,所述裝置包含:影像感測器;主要物體偵測器;分類網路;及處理器,所述處理器經組態以自影像感測器俘獲影像,偵測影像中的物體,使用主要物體偵測器判定物體的主要可信度偵測得分,使用分類網路判定物體的可信度比例因數,且基於使主要可信度偵測得分乘以可信度比例因數來調整主要可信度偵測得分。
根據本發明的另一態樣,提供一種製造處理器的方法,所述方法包含形成處理器作為包含至少一個其他處理器的晶圓或封裝體的部分,其中處理器經組態以自影像感測器俘獲影像,偵測影像中的物體,使用主要物體偵測器判定物體的主要可信度偵測得分,使用分類網路判定物體的可信度比例因數,基於使主要可信度偵測得分乘以可信度比例因數來調整主要可信度偵測得分。
根據本發明的另一態樣,提供一種建構積體電路的方法,所述方法包含產生用於積體電路的一層的特徵集合的遮罩佈局,其中遮罩佈局包含針對一或多個電路特徵的標準元件庫巨集,所述一或多個電路特徵包含處理器,所述處理器經組態以自影像感測器俘獲影像,偵測影像中的物體,使用主要物體偵測器判定物體的主要可信度偵測得分,使用分類網路判定物體的可信度比例因數,基於使主要可信度偵測得分乘以可信度比例因數而調整主要可信度偵測得分。
現將在下文參考附圖更充分地描述本發明,在所述附圖中展示了本發明的若干實施例。然而,可以許多不同形式體現本發明,且不應將本發明視為限於本文中所闡述的實施例。確切而言,提供此等實施例以使得本揭露內容將為透徹且完整的,且將向所屬領域中具通常知識者充分傳達器件及方法的範疇。貫穿全文,相同參考數字指代相同元件。
將理解,當將元件稱為「連接」或「耦接」至另一元件時,其可直接連接或耦接至其他元件,或可存在介入元件。相反地,當元件被稱作「直接連接(directly connected)」或「直接耦接(directly coupled)」至另一元件時,不存在介入元件。如本文中所使用,術語「及/或」包含(但不限於)相關聯列出項目中的一或多者的任何及所有組合。
應理解,儘管本文中可使用術語第一、第二以及其他術語來描述各種元件,但此等元件不應受此等術語限制。此等術語僅用以將一個元件與另一元件區分開來。舉例而言,在不脫離本揭露內容的教示的情況下,第一信號可被稱作第二信號,且類似地,第二信號可被稱作第一信號。
本文中所使用的術語僅出於描述特定實例實施例的目的,且並不意欲限制本發明的器件以及方法。如本文中所使用,單數形式「一」以及「所述」意欲亦包含複數形式,除非上下文另外清晰指示。將進一步理解,術語「包括(comprises及/或comprising)」或「包含(但不限於)(includes, but is not limited to及/或including, but not limited to)」在用於本說明書中時指定所陳述特徵、區、整體、步驟、操作、元件及/或組件的存在,但並不排除一或多個其他特徵、區、整體、步驟、操作、元件、組件及/或其群組的存在或添加。
除非另外定義,否則本文中所使用的所有術語(包含(但不限於)技術及科學術語)具有與一般熟習本發明器件及方法所屬技術者通常所理解的含義相同的含義。將進一步理解,應將術語(諸如,常用詞典中所定義的術語)解釋為具有與其在相關技術及/或本說明書的上下文中的含義一致的含義,且除非本文中明確地如此定義,否則將不會在理想化或過度形式化意義上來進行解釋。
圖1說明根據本發明的實施例的網路環境中的電子器件的方塊圖。
參看圖1,電子器件100包含(但不限於)通信區塊110、處理器120、記憶體130、顯示器150、輸入/輸出區塊160、音訊區塊170及影像感測器180。電子器件100可包含於可攜式電子器件中,所述可攜式電子器件包含(但不限於)智慧型電話、平板電腦或個人電腦。電子器件100亦可包含於載具中,所述載具包含但不限於汽車、火車、飛機、自動化載具、無人駕駛飛機、腳踏車及機車。
電子器件100包含用於將器件100連接至另一電子器件或網路以用於傳達語音及資料的通信區塊110。通信區塊110提供GPRS、EDGE、蜂巢式、廣域、區域、個人區域、近場、器件對器件(device to device;D2D)、機器對機器(machine to machine;M2M)、衛星、增強型行動寬頻(enhanced mobile broad band;eMBB)、大規模機器類型通信(massive machine type communication;mMTC)、超可靠低潛時通信(ultra-reliable low latency communication;URLLC)、窄頻寬物聯網(narrowband Internet of things;NB-IoT)及短程通信。通信區塊110或包含收發器113的部分的功能可由晶片組實施。詳言之,蜂巢式通信區塊112使用諸如以下各者之技術經由陸地基地收發器台提供或直接地提供至其他電子器件的廣域網路連接:第二代(second generation;2G)、GPRS、EDGE、D2D、M2M、長期演進(long term evolution;LTE)、第五代(fifth generation;5G)、高階長期演進(long term evolution advanced;LTE-A)、分碼多重存取(code division multiple access;CDMA)、寬頻分碼多重存取(wideband code division multiple access;WCDMA)、全球行動電信系統(universal mobile telecommunications system;UMTS)、無線寬頻(wireless broadband;WiBro)及全球行動通信系統(global system for mobile communication;GSM)。蜂巢式通信區塊112包含(但不限於)晶片組及收發器113。收發器113包含(但不限於)傳輸器及接收器。無線保真(wireless fidelity;WiFi)通信區塊114使用諸如IEEE 802.11的技術經由網路存取點提供區域網路連接。藍芽通信區塊116使用諸如IEEE 802.15的技術提供個人區域直接通信及網路連接通信。近場通信(near field communication;NFC)區塊118使用諸如ISO/IEC 14443的標準提供點對點短程通信。通信區塊110亦包含GNSS接收器119。GNSS接收器119可支援自衛星傳輸器接收信號。
電子器件100可自包含(但不限於)電池的電源供應器接收用於操作功能區塊的電力。
處理器120提供電子器件100的應用層處理功能。處理器120亦提供用於電子器件100中的各種區塊的命令及控制功能性。處理器120規定更新功能區塊所需的控制功能。處理器120可提供由以下各者需要之資源:影像感測器180、主要物體偵測器、次要物體偵測器、語義分段單元、融合中心及分類網路。分類網路可提供分類及定位兩者。
記憶體130提供對裝置控制程式碼的儲存、使用者資料儲存、應用程式碼及資料儲存。記憶體130可提供對韌體、程式庫、資料庫、查找表、演算法、方法以及蜂巢式通信區塊112所需的其他校準資料的資料儲存。記憶體130可提供對由影像感測器180俘獲的影像的儲存。可在器件開機後即刻將影像感測器180所需的程式碼及資料庫自記憶體130載入影像感測器180內的本端儲存器中。
顯示器150可為觸控式面板,且可體現為液晶顯示器(liquid crystal display;LCD)、有機發光二極體(organic light emitting diode;OLED)顯示器、主動矩陣有機發光二極體(active matrix OLED;AMOLED)顯示器及類似者。輸入/輸出區塊160控制至電子器件100之使用者的介面。音訊區塊170提供至電子器件100的音訊輸入/自所述電子器件的及輸出。
影像感測器180可擷取靜態影像及移動影像兩者。影像感測器180可俘獲電磁頻譜的對於人眼可見的可見光譜內的影像。影像感測器180亦可俘獲電磁頻譜的可見光譜部分外部的包含紅外線輻射及紫外線輻射的影像。影像感測器180可為互補金屬氧化物半導體(complementary metal oxide semiconductor;CMOS)類型或半導體電荷耦合器件(semiconductor charge coupled device;CCD)類型,且可包含影像聚焦透鏡及影像變焦功能。影像感測器180亦可包含記憶體、本端處理器以及至處理器120的介面。
根據本發明的一實施例,本發明的系統及方法包含用於由影像感測器180俘獲的影像內的行人的快速且穩健偵測的深度神經網路融合架構。本發明的深度神經網路融合架構包含多個網路的並行處理以減少判定行人在所俘獲影像中的存在上的潛時。除深度神經網路外,本發明包含深度捲積網路。單一截圖(單一俘獲影像的單標度的單步網路)深度捲積網路作為物體偵測器經訓練以產生所俘獲影像內的不同大小及遮擋的所有可能行人候選者。深度捲積網路可輸出所俘獲影像內的大量及多種行人候選者以覆蓋地面真像行人的大部分同時潛在地引入錯誤肯定。可被視為次要網路的多個深度神經網路(deep neural network;DNN)針對由深度捲積網路產生的所有行人候選者的分類並行地進一步處理。次要網路可進一步細化主要限界框候選者之限界框定位。限界框為所俘獲影像的區域內的像素群組,所俘獲影像可由具有某大小及寬高比(寬與高的比率)的平行四邊形定義;然而,限界框可為不同於平行四邊形的形狀。
根據本發明的一實施例,本發明的系統及方法提供軟排斥融合以將由深度捲積網路及神經網路產生的軟度量值融合(組合)在一起以產生最終可信度得分。最終可信度得分為影像中偵測到的行人候選者為實際行人的機率的量測。本發明的軟排斥融合系統及方法融合次要偵測器結果(視需要)與主要物體偵測器結果以及來自分類網路的結果。本發明的系統及方法對於偵測所俘獲影像內的小的大小的行人及經遮擋行人為有益的。融合中心可進一步融合來自所有分類網路的限界框的定位調整與來自主要物體偵測器的限界框定位以便增加限界框定位的精確性。
根據本發明的實施例,本發明的系統及方法在融合網路架構中整合逐像素語義分段作為對行人偵測器的加強。語義分段可將影像分割成語義上有意義的部分,且將每一部分分類成預定分類中的一者。逐像素語義分段可藉由將每一像素(而非整個影像/片段)分類而達成相同目標。本發明的系統及方法適於任何評估協定,且向若干評估協定提供效能增大,包含引人注目地更高的速度、精確性及效率。評估協定可包含諸如行人的單一物體的物體偵測,或諸如行人、汽車及騎乘腳踏車者的偵測。評估協定集中於使輸出偵測的精確性最大化,同時避免錯過正確偵測並消除錯誤偵測。
根據本發明的實施例,本發明的系統及方法提供可被稱作基於軟排斥的網路融合的網路融合。基於軟排斥的網路融合可細化由主要物體偵測器提供的候選者物體。並非執行接受或排斥候選物體的二元分類決策,由主要物體偵測器候選者提供的分類得分基於由分類網路提供的彼等物體偵測中可信度的彙總程度而增大或減小。
主要物體偵測器候選者的可信度得分藉由可信度比例因數基於由每一分類網路提供的分類機率來安比例放大或按比例縮小(增大或減小)。下限設定為可信度比例因數以防止任何分類網路支配按比例縮放程序,且基於來自單一分類網路的可信度得分防止消除主要物體偵測候選者。確定下限程序具有減小錯誤肯定率的效應,同時基於分類網路的彙總可信度而增加正確物體偵測率。可信度比例因數融合在一起以產生針對每一候選者物體的最終可信度得分。
根據本發明的實施例,本發明的系統及方法利用逐像素語義分段標記為次要並行偵測器並將次要並行偵測器整合至本發明的網路融合架構中。基於逐像素語義分段標記的次要並行偵測器充當對行人偵測器(或通常物體偵測器)的加強。分段標記由用物體(例如,行人、汽車或建築物)的類別對所俘獲影像中的每一物體進行標記組成。軟可信度得分可藉由判定逐像素語義分段標記與藉由主要物體偵測器提供的限界框偵測之間的重疊比率來判定。
圖2說明根據本發明的實施例的本發明的網路融合架構的方塊圖。
參看圖2,網路融合架構222包含具有來自影像感測器的可選按比例縮放的影像208,所述影像可被提供至主要物體偵測器210且視需要提供至次要物體偵測器212以及語義分段單元220。主要物體偵測器210判定在影像208中偵測到的物體,且產生針對每一所偵測物體的限界框。針對所判定物體的限界框以及其各別可信度得分的清單在限界框以及可信度得分清單單元214中產生。分類網路200包含一或多個深度神經網路偵測分類器及濾波器202。儘管圖2展示兩個深度神經網路偵測分類器及濾波器202,但本發明可包含任何數目個深度神經網路偵測分類器及濾波器而不偏離本發明的範疇。分類網路200包含可選次要並行偵測網路204。可選次要並行偵測網路204可將深度擴張捲積及上下文彙總用於語義分段標記以進一步判定關於主要物體偵測的軟可信度得分。深度擴張捲積藉由將零插入於非零濾波器係數之間而使用具有不同擴張(增頻取樣)因數的捲積核心,從而有效地增加濾波器的接受場。融合中心216融合來自以下各者之結果:一或多個深度神經網路偵測分類器及濾波器202、可選次要並行偵測網路204、限界框及可信度得分清單單元214以及可選地次要物體偵測器212及語義分段單元220。融合中心216提供融合程序的結果至最終偵測單元218從而用於與偵測到的物體相關聯的邊界框的最終判定。
圖3說明根據本發明的實施例的使用單一截圖多框偵測器的主要物體偵測器的方塊圖。
參看圖3,七個輸出層用以產生單一所俘獲影像內的行人候選者。儘管圖3展示七個層,但本發明可包含任何數目個層而不偏離本發明的範疇。根據本發明的實施例,圖3的主要物體偵測器322包含前饋捲積網路。由影像感測器俘獲的輸入影像302經提供至截短的可見幾何形狀群組VGG16 304作為基本網路。VGG為包含16個權重層的捲積神經網路模型,所述16個權重層具有具三乘以三的濾波器大小的十三個捲積層以及三個完全連接層。在VGG16 304基本網路層中,最後集區層經轉換為具有為一的步幅寬度的3×3的接受場大小,且充分連接的fc7藉由靜止小波變換演算法轉換為捲積層。集區層合併在先前層特徵地圖中得知並表達的特徵,且可壓縮並一般化特徵表示並通常減小訓練資料的過度擬合。八個額外捲積層及全域平均值集區層在基本網路之後相加,且每一層的大小經漸進地被減小。層conv4_3 306、fc7 308、conv6_2 310、conv7_2 312、conv8_2 314、conv9_2 316及pool6 318用作輸出層。限界框回歸及分類在每一輸出層之後執行。來自所俘獲影像的行人候選者在層320中判定。
根據本發明的實施例,主要物體偵測器包含具有以多個捲積尺度及解析度提取的特徵的前饋捲積網路。所提取特徵的每一位置處的具有不同大小及高寬比的限界框候選者進一步分類為所俘獲影像中的物體或背景,且候選者限界框的定位偏移藉由限界框回歸來計算。對於具有大小
Figure 02_image001
的每一輸出層,呈不同尺度及高寬比的一組預設限界框置放於每一位置處。預設限界框的高寬比經調整以與待偵測物件匹配,例如,若目標為偵測行人,則高寬比設定為0.41。
Figure 02_image003
捲積核心應用至每一位置以產生分類得分以及相對於預設限界框位置的限界框位置偏移。若預設限界框與任何地面真像框具有大於0.5的傑卡德(Jaccard)重疊指數,則預設限界框標記為正,否則預設限界框標記為負。傑卡德重疊指數用於比較預設限界框與地面真像框的類似性,且為交叉點的大小除以資料集的接頭的大小。
分類網路200的訓練目標可以如下等式(1)給出如下:
Figure 02_image005
….(1) 其中
Figure 02_image007
為softmax分類損耗,且
Figure 02_image009
為使用距離度量的平滑定位損耗,N為標記為正的預設框的數目,且
Figure 02_image011
為恆定權重項以保持兩個損耗之間的平衡。平滑定位損耗可由座標之間的差的L1正規化表達為L1=Sum |y_i – y'_i| + Sum |x_i - x'_i|,其中(x, y)表示框的座標,且(x', y')表示地面真像框的座標,且總和為在所有座標上的總和。
分類網路200的訓練目標經給出為softmax分類損耗與平滑L1定位損耗的經加權總和。主要物體偵測器210經訓練而以偵測所俘獲影像中關注的所有物體(諸如,行人)為目標產生候選物體的大型集區,即使引入了大量錯誤物體偵測。每一物體偵測是與其定位限界框座標以及可信度得分相關聯。藉由減小高於候選者物體被接受的可信度得分臨限值,各種大小及遮擋的候選者物體產生自主要物體偵測器210。
根據一個實施例,分類網路200包含並行地操作的多個深度神經網路偵測分類器及濾波器202。分類網路200中的每一深度神經網路偵測分類器及濾波器202可為單一分類器或級聯分類器。此外,每一深度神經網路偵測分類器及濾波器202可進一步細化偵測到的物體的限界框的框座標。來自所有深度神經網路偵測分類器及濾波器202的可信度得分在融合中心216處融合。來自不同深度神經網路偵測分類器及濾波器202的經修改限界框亦可在融合中心216處進一步融合成單一限界框。分類網路200中的每一網路經獨立地訓練。為了訓練次要分類網路,主要物體偵測器210在訓練集上執行以產生物體偵測集合,且具有大於最小值的可信度得分或大於最小高度的限界框高度的所有物體偵測被接受。主要偵測器將僅輸出是根據其預設限界框的高寬比的偵測,然而,最終高寬比可歸因於偵測到的框座標使用框回歸的調整而稍微不同。物體偵測根據其與如由傑卡德重疊指數所量測的與地面真像的重疊的程度。物件偵測經重新按比例縮放並變形至固定大小。具有固定大小之隨機裁剪自經重新按比例縮放的物體偵測框獲得且藉由其標籤作為輸入訓練樣本提供至分類網路200,其中標籤在經裁剪框與地面真像框的接合比率的相交部分具有大於50%的重疊區域時被判定為肯定的。為了進一步訓練分類網路200,圍繞地面真像框標籤在返回至原始影像域的適當平移之後的肯定物體偵測或裁剪經擴展某百分數,且分類網路200經訓練以經由限界框回歸輸出地面真像框座標,其中地面真像框座標經平移回原始影像域。
根據本發明的實施例,本發明的系統及方法提供經由軟排斥執行融合的融合中心216。軟排斥藉由以下操作進一步細化主要物體偵測:融合主要物體偵測與分類網路200中不同網路的軟可信度結果。本發明的系統及方法包含在融合中心216處融合定位限界框調整。作為實例,考慮一個主要候選者及一個分類網路200。若分類網路200已判定出了候選物體的高可信度得分(例如,超出給定臨限得分的可信度得分),本發明的系統藉由使可信度得分乘以大於一的可信度比例因數而使來自主要物體偵測器210的候選物體的原始可信度得分增大。否則,本發明的系統使候選物體的可信度得分減小小於一的可信度比例因數。當測試系統時,一組分類機率藉由用分類網路200中的所有次要網路處理候選物體而針對每一候選物體產生。替代使用具有機率臨限值的二元分類,本發明的系統及方法包含基於在融合中心216中判定的得分的軟排斥。
軟排斥方法的一個優點為,本發明的系統並不直接接受或排斥任何候選物體。實情為,物體偵測可信度得分藉由基於來自分類網路200的分類機率用一因數按比例縮放可信度得分而增大或減小。若一個次要分類網路已判定了候選物體的高可信度得分,則各別得分在融合中心216中增大大於一的可信度比例因數。否則,可信度得分在融合中心216中減小小於一的可信度比例因數。然而,可信度比例因數設定為至少p_min以防止任何次要網路支配判定程序,此是因為不可校正肯定物體偵測的不正確消除(諸如可發生於二元分類中),而低分類可信度得分可藉由來自其他次要網路的較大分類可信度得分來補償。由於最終得分取決於所有次要網路的可信度得分,因此即使一個次要網路在一個類別中具有低分類效能(諸如部分遮擋的行人),其他次要網路仍能夠補償其不足,藉此增加系統的可靠性。
根據本發明的實施例,若主要物體偵測的次要分類網路的softmax分類機率超出值
Figure 02_image013
(例如,為0.7的機率),則次要分類網路為確信的。使
Figure 02_image015
為候選物體的由第m次要網路產生的機率,可信度比例因數可由以下等式2判定:
Figure 02_image017
…(2)
為了融合所有
Figure 02_image019
個分類網路200,使來自主要物體偵測器210的主要物體偵測可信度得分P_primary與來自所有分類網路200的m數目個可信度比例因數
Figure 02_image021
的乘積相乘。
為了防止任何次要網路支配可信度得分的判定或消除藉由主要物體偵測器210提供的任何物件偵測,最終可信度比例因數的下限設定為p_min(例如,機率0.1)。最終融合可信度比例因數P_fusedclassified 的下限可以如下等式(3)表達如下: P_fusedclassified = P_primary x PRODUCT_m(max(
Figure 02_image021
, p_min)) …(3)
在以上等式(3)中表達的最終融合可信度比例因數P_fusedclassified 是由分類網路產生的所有m個可信度比例因數
Figure 02_image021
的乘積。然而,若可信度比例因數中的任一者小於p_min,則特定可信度比例因數設定為值p_min。
圖4說明根據本發明的實施例的主要物體偵測網路與一個分類網路的軟排斥融合的方法的流程圖。
參看圖4,在402處,分類網路200判定來自分類網路200的可信度比例因數是否小於p_min。若可信度比例因數小於p_min,則融合中心216在408處使來自主要物體偵測器210的可信度得分減小一恆定因數。若可信度比例因數並不小於p_min,則分類網路在404處進一步判定來自分類網路200的可信度比例因數是否小於p_max且大於或等於p_min。若來自分類網路200的可信度比例因數小於p_max且大於或等於p_min,則融合中心216在410處與來自分類網路200的可信度比例因數成比例地減小來自主要物體偵測器210的可信度得分。若可信度得分並不小於p_max且不大於或等於p_min,則分類網路200判定來自分類網路200的可信度比例因數大於或等於p_max。若可信度比例因數不大於或等於p_max,則方法結束。若來自分類網路200的可信度比例因數大於或等於p_max,則融合中心216在412處與來自分類網路200的可信度比例因數成比例地增大來自主要目標物體偵測器210的可信度得分。
來自分類網路200的可信度比例因數可進一步根據分類網路200中深度神經網路偵測分類器及濾波器202中的每一者的信賴位準而經修改。可判定信賴度量t_m,其表示與分類網路200相關聯的信賴位準。t_m值愈大,信賴位準愈高。信賴度量或信賴度量的按比例縮放值可於融合中216中整合,使得由具有較大信任度量t_m的分類網路200提供的分類被給定有如下等式(4)中所展示的更大重要性: P_fusedclassified = P_primary x PRODUCT_m(max(a_m^t_m, p_min)) …(4)
來自分類網路200的定位限界框亦可在融合中心處融合,其中分類網路200對自主要物體偵測器210輸出的限界框候選者的正確框定位提供不同值。針對來自分類網路200的定位座標的偏移可經平均,且接著應用至來自主要物體偵測器210的限界框的定位座標。
根據本發明的實施例,圖2的次要物體偵測器212為可選的,且判定如何融合來自分類網路200的結果與主要物體偵測器210的結果。本發明的與分類網路200的軟排斥融合稍微不同於本發明的與次要物體偵測器212的軟排斥融合,此是由於次要物體偵測器212可產生新物體偵測,所述新物體偵測尚未由主要物體偵測器210提供,當分類網路200的輸出與主要物體偵測器210的輸出融合時,並非所述狀況。為了解決新物體在次要物體偵測器212中的產生,本發明的軟融合方法藉由次要物體偵測器212消除新物體偵測,此是由於所述新物體偵測可促成使錯誤物體偵測率增加。次要物體偵測器212僅用以進一步精細調諧主要物體偵測器210的主要可信度偵測得分。若藉由主要物體偵測器210偵測到的物體的來自次要物體偵測器212的次要可信度偵測得分超出最小臨限值,則物體偵測被接受且主要可信度偵測得分保持不變。否則,軟排斥融合可經應用以如以下等式(5)中所展示按比例縮放主要可信度偵測得分:
若P_secondary >臨限值,則P_fuseddetect = P_primary; 否則, P_fuseddetect = P_primary x max(P_secondary x(1/p_max), p_min))…(5)
以上等式(5)亦可應用至藉由與分類網路200的融合而獲得的上一P_fused,其中P_primary由P_fused替換,如以下等式(6)中所展示: P_fuseddetect = P_fusedclassified x max(P_secondary x(1/p_max), p_min)) …(6)
圖2的語義分段單元220亦為可選的,且判定如何使用逐像素語義標記器來產生次要物體偵測器210的偵測上的可信度得分。語義分段單元220是基於深度擴張捲積及上下文彙總,且可用作並行次要物體偵測器。為了執行為預測所俘獲影像中每一像素的標籤的任務的密集預測,語義分段單元220包含用擴張捲積調適作為前端預測模組的充分捲積VGG16網路,所述前端預測模組輸出饋送至多尺度上下文彙總模組,多尺度上下文彙總模組包含捲積層具有增大的擴張因數的充分捲積網路。語義分段標記器提取主要物體偵測器結果中針對可信度得分的軟度量。輸入至語義分段單元212的所俘獲影像按比例放大且藉由語義分段網路直接處理。二元遮罩藉由展示針對行人分類的經啟動像素的一個色彩產生,且另一色彩展示背景。「個人」及「駕駛者」分類類別可被視為行人,且剩餘分類可被視為背景。語義分段遮罩與來自主要物體偵測器210的所有偵測到的限界框重疊。根據本發明的實施例,本發明的系統及方法在融合中心216中融合語義分段標記與物體偵測結果。每一主要物體偵測限界框藉由語義分段啟動遮罩著色的程度提供主要物體偵測器的結果中次要語義分段分類的可信度的量測。以上等式(5)中的臨限值可為以下兩者的最小比率:每一限界框內藉由來自由語義分段網路偵測到的種類的識別為像素的啟動像素重疊的面積與重疊主要限界框的面積。
舉例而言,若啟動像素佔用主要限界框面積的至少20%,則物體偵測被接受且主要可信度偵測得分不變。否則,軟排斥融合經應用以按比例縮放來自主要物體偵測器210的主要可信度偵測得分,如以下等式(7)中所展示:
Figure 02_image023
…(7) 其中
Figure 02_image025
表示限界框的面積,且
Figure 02_image027
表示所偵測有界框
Figure 02_image029
內的由語義分段遮罩覆蓋的面積。
Figure 02_image031
Figure 02_image033
可藉由交叉驗證分別選擇為4以及0.35。
圖5為根據本發明的實施例的語義分段標記器與主要物體偵測器的軟排斥融合方法的流程圖。
參看圖5,本發明的系統在502處判定主要物體偵測器的限界框與語義分段遮罩之間是否存在重疊。若主要物體偵測器的限界框與語義分段遮罩之間不存在重疊,則本發明的系統在508處使來自主要物體偵測器的主要可信度偵測得分減小一恆定因數且消除來自語義分段單元220的任何次要物體偵測。儘管次要物體偵測歸因於非重疊被消除,但本發明的系統僅調整主要可信度偵測得分而非設定主要可信度偵測得分為零,因此主要可信度偵測得分從未被消除。若在主要物體偵測器的邊界框與語義分段遮罩之間不存在重疊,則本發明的系統在504處判定主要物體偵測器的限界框與語義分段遮罩之間的重疊是否小於臨限值。若主要物體偵測器的限界框與語義分段遮罩之間的重疊小於臨限值,則本發明的系統在510處與重疊量成比例地減小來自主要物體偵測器的主要可信度偵測得分。否則,在512處,來自主要物體偵測器的主要可信度偵測得分保持不改變,從而確保主要可信度偵測得分從未設定為零,即使任何次要可信度偵測得分可為零。應瞭解,本發明的系統基於重疊量來調整主要可信度偵測得分,且在重疊量大於臨限值的情況下增大主要可信度偵測得分,及/或在重疊量小於臨限值的情況下減小主要可信度偵測得分,及/或在不存在重疊或其他變形情況下減小主要可信度偵測得分而不偏離本發明的範疇。
圖6A說明根據本發明的實施例的具有候選物體的所俘獲影像。圖6B說明根據本發明的實施例的圖6A的所俘獲影像的語義分段遮罩。
參看圖6A及圖6B,圖6B的語義分段遮罩展示,錯誤肯定物體偵測可自主要物體偵測器210消除,此是由於來自主要物體偵測器210的錯誤限界框並不與語義分段遮罩重疊。語義分段遮罩藉由消除非重疊次要物體偵測而進一步展示軟融合,使得不引入額外錯誤肯定物體偵測。如圖6A中所示,考慮中的候選者物體為行人。
根據本發明的實施例,分類網路200可僅為次要分類網路,且不執行定位。
若可信度比例因數超出臨限值,則藉由次要物體偵測器212判定的軟融合度量可消除新物體偵測,或使來自主要物體偵測器210的主要可信度偵測得分增大一恆定因數;或若可信度比例因數小於或等於臨限值,則主要可信度偵測得分保持不變。
根據本發明的實施例,來自分類網路200的多個定位度量可藉由非最大抑制而非對次要座標偏移進行平均而與主要限界框候選者融合,或可一起使用平均方法及非最大值抑制方法兩者。
根據本發明的實施例,主要物體偵測器210可包含語義分段標記器,且次要物體偵測器212可有助於改良主要物體偵測器210中的語義分段標記器以識別同一類別的多個個例。
本發明的系統及方法基於量測為來自分類網路的可信度得分的分類機率而藉由使在所俘獲影像中偵測到的物體的可信度得分增大或減小一因數而提供軟排斥融合,所述增大或減小是藉由按比例縮放來自主要物體偵測器的主要可信度偵測得分來進行。軟排斥融合防止任何分類網路支配決策程序,且基於來自任何分類網路的單一度量而防止主要候選物體偵測的消除。軟排斥融合支援藉由另一深度神經網路偵測分類器及濾波器的融合對一個深度神經網路偵測分類器及濾波器的錯誤的校正,且積聚來自多個分類網路的智能。軟排斥融合對於主要物體偵測器結果與分類網路結果融合的次序為不敏感的。
本發明的網路融合架構支援次要目標偵測器與主要物體偵測器並行的操作以減少潛時。本發明的網路融合架構支援分類網路中多個深神經網路分類器及濾波器的並行操作以減少潛時。本發明的系統及方法提供分類網路的訓練。
圖7為根據本發明的實施例的偵測影像中的物體的方法的流程圖。
參看圖7,本發明的系統在701處使用影像感測器俘獲影像。在702處,主要物體偵測器偵測影像中的物體,且判定所偵測物體的限界框。在703處,主要物體偵測器判定物體的主要可信度偵測得分。在704處,物體的可信度比例因數使用分類網路來判定。在705處,主要可信度偵測得分基於使主要可信度偵測得分乘以可信度比例因數而調整。
圖8說明根據本發明的實施例的測試經組態以偵測影像中的物體的處理器的方法的流程圖。處理器可以硬體實施,或以程式化碼有軟體的硬體實施。
參看圖8,方法在801處形成處理器作為包含至少一個其他處理器的晶圓或封裝體的部分。處理器經組態以:自影像感測器俘獲影像,偵測影像中的物體,使用主要物體偵測器判定物體的主要可信度偵測得分,使用分類網路判定物體的可信度比例因數,基於使主要可信度偵測得分與可信度比例因數相乘而調整主要可信度偵測得分。
在803處,方法測試處理器。測試處理器包含使用以下各者來測試處理器及至少一個其他處理器:一或多個電氣至光學轉換器、一或多個分光器(其將光學信號分裂成兩個或大於兩個光學信號)以及一或多個光學至電氣轉換器。
圖9說明根據本發明的實施例的製造經組態以偵測影像中的物體的處理器的方法的流程圖。
參看圖9,方法在901處包含資料的初始佈局,其中方法產生針對積體電路層的一組特徵的遮罩佈局。遮罩佈局包含針對包含處理器的一或多個電路特徵的標準元件庫巨集(standard cell library macro)。處理器經組態以:自影像感測器俘獲影像,偵測影像中的物體,使用主要物體偵測器判定物體的主要可信度偵測得分,使用分類網路判定物體的可信度比例因數,基於使主要可信度偵測得分與可信度比例因數相乘而調整主要可信度偵測得分。
在903處,存在設計規則檢查,其中方法忽略巨集的相對位置從而在遮罩佈局的產生期間遵從佈局設計規則。
在905處,存在佈局的調整,其中方法檢查巨集的相對位置從而在產生遮罩佈局之後遵從佈局設計規則。
在907處,進行新佈局設計,在所述新佈局設計中,方法在藉由巨集中的任一者偵測到與佈局設計規則的非遵從之後藉由修改非遵從巨集中的每一者而修改遮罩佈局以遵從佈局設計規則,根據具有積體電路層的所述組特徵的經修改遮罩佈局而產生遮罩,且根據遮罩製造積體電路層。
雖然已特定地參考某些實施例示出並描述本揭露內容,但一般所屬領域中具通常知識者將理解,可在不脫離如由所附申請專利範圍及其等效物所定義的本揭露內容的範疇的情況下在其中作出形式及細節的各種改變。
100‧‧‧電子器件110‧‧‧通信區塊112‧‧‧蜂巢式通信區塊113‧‧‧收發器114‧‧‧無線保真(WiFi)通信區塊116‧‧‧藍芽通信區塊118‧‧‧近場通信(NFC)區塊119‧‧‧GNSS接收器120‧‧‧處理器130‧‧‧記憶體150‧‧‧顯示器160‧‧‧輸入/輸出區塊170‧‧‧音訊區塊180‧‧‧影像感測器200‧‧‧分類網路202‧‧‧深度神經網路(DNN)偵測分類器及濾波器204‧‧‧可選次要並行偵測網路208‧‧‧影像210‧‧‧主要物體偵測器212‧‧‧次要物體偵測器214‧‧‧可信度得分單元216‧‧‧融合中心218‧‧‧最終偵測單元220‧‧‧語義分段單元302‧‧‧輸入影像304‧‧‧截短的可見集合形狀群組VGG16306‧‧‧層conv4_3308‧‧‧層fc7310‧‧‧層conv6_2312‧‧‧層conv7_2314‧‧‧層conv8_2316‧‧‧層conv9_2318‧‧‧層pool6320‧‧‧層322‧‧‧主要物體偵測器
本揭露內容的以上以及其他態樣、特徵及優點自在結合附圖進行時的以下實施方式將變得更顯而易見,其中: 圖1說明根據本發明的實施例的通信網路中的電子器件的方塊圖。 圖2說明根據本發明的實施例的網路融合架構的方塊圖。 圖3說明根據本發明的實施例的使用單一截圖多框偵測器的主要物體偵測器的方塊圖。 圖4說明根據本發明的實施例的主要物體偵測網路與一個分類網路的軟性排斥融合的方法的流程圖。 圖5說明根據本發明的實施例的語義分段標記器與主要物體偵測器的軟性排斥融合的方法的流程圖。 圖6A說明根據本發明的實施例的具有候選物體的所俘獲影像。 圖6B說明根據本發明的實施例的圖6A的所俘獲影像的語義分段遮罩。 圖7說明根據本發明的實施例的偵測影像中的物體的方法的流程圖。 圖8說明根據本發明的實施例的測試經組態以偵測影像中的物體的處理器的方法的流程圖。 圖9說明根據本發明的實施例的製造經組態以偵測影像中的物體的處理器的方法的流程圖。
200‧‧‧分類網路
202‧‧‧深度神經網路(DNN)偵測分類器及濾波器
204‧‧‧可選次要並行偵測網路
208‧‧‧影像
210‧‧‧主要物體偵測器
212‧‧‧次要物體偵測器
214‧‧‧可信度得分單元
216‧‧‧融合中心
218‧‧‧最終偵測單元
220‧‧‧語義分段單元

Claims (24)

  1. 一種偵測影像中的物體的方法,其包括:接收影像;偵測所述影像中的物體;藉由主要物體偵測器判定所述物體的主要可信度偵測得分;藉由分類網路判定所述物體的可信度比例因數;基於使所述主要可信度偵測得分乘以所述可信度比例因數而調整所述主要可信度偵測得分;判定所述物體的限界框與語義分段遮罩之間是否存在重疊;以及在所述物體的限界框與語義分段遮罩之間不存在重疊的情況下調整所述主要可信度偵測得分並消除來自所述語義分段遮罩的次要物體偵測,其中所述語義分段遮罩為二元遮罩,藉由展示經啟動像素的一個色彩產生,且另一色彩展示背景。
  2. 如申請專利範圍第1項所述偵測影像中的物體的方法,其進一步包括:基於使所述主要可信度偵測得分乘以來自多個分類網路的所述物體的多個可信度比例因數的乘積而按比例縮放所述主要可信度偵測得分。
  3. 如申請專利範圍第1項所述偵測影像中的物體的方法,其中所述可信度比例因數是基於所述物體的分類機率與所要最大分類機率的比率。
  4. 如申請專利範圍第1項所述偵測影像中的物體的方法,其中所述可信度比例因數設定為至少所要最小值。
  5. 如申請專利範圍第1項所述偵測影像中的物體的方法,其進一步包括判定所述物體的次要可信度偵測得分;在所述次要可信度偵測得分大於或等於臨限值的情況下維持所述主要可信度偵測得分;以及在所述次要可信度偵測得分小於所述臨限值的情況下調整所述主要可信度偵測得分。
  6. 如申請專利範圍第5項所述偵測影像中的物體的方法,其中在所述次要可信度偵測得分小於所述臨限值的情況下調整所述主要可信度偵測得分包括使所述主要可信度偵測得分乘以所述次要可信度偵測得分與多個可信度比例因數的乘積。
  7. 如申請專利範圍第5項所述偵測影像中的物體的方法,其中在所述次要可信度偵測得分小於所述臨限值的情況下調整所述主要可信度偵測得分包括使所述經調整的可信度偵測得分乘以所述次要可信度偵測得分與多個可信度比例因數的乘積。
  8. 如申請專利範圍第1項所述偵測影像中的物體的方法,其進一步包括在所述物體的限界框與語義分段遮罩之間的重疊量小於臨限值的情況下與所述重疊量成比例地調整所述主要可信度偵測得分。
  9. 如申請專利範圍第1項所述偵測影像中的物體的方法,其進一步包括在所述物體的限界框與語義分段遮罩之間的重疊量大於或等於臨限值的情況下維持所述主要可信度偵測得分。
  10. 如申請專利範圍第1項所述偵測影像中的物體的方法,其進一步包括並行地操作所述主要物體偵測器以及所述分類網路。
  11. 如申請專利範圍第2項所述偵測影像中的物體的方法,其進一步包括:使用所述按比例縮放的主要可信度偵測得分將物件偵測設定為固定大小;自所述經按比例縮放的主要可信度偵測得分判定具有所述固定大小的隨機裁剪;以及相對於地面真像標記所述隨機裁剪的種類以訓練所述分類網路。
  12. 一種偵測影像中的物體的裝置,其包括:影像感測器;主要物體偵測器;分類網路;以及處理器,其經組態以:自所述影像感測器俘獲影像;偵測所述影像中的物體,使用所述主要物體偵測器判定所述物體的主要可信度偵測得分,使用所述分類網路判定所述物體的可信度比例因數,基於使所述主要可信度偵測得分乘以所述可信度比例因數而調整所述主要可信度偵測得分,其中所述處理器經進一步組態以判定所述物體的限界框與語義分段遮罩之間是否存在重疊,並且在所述物體的限界框與語義分段遮罩之間不存在重疊的情況下調整所述主要可信度偵測得分並消除來自所述語義分段遮罩的次要物體偵測,其中所述語義分 段遮罩為二元遮罩,藉由展示經啟動像素的一個色彩產生,且另一色彩展示背景。
  13. 如申請專利範圍第12項所述偵測影像中的物體的裝置,其中所述處理器經進一步組態以基於使所述主要可信度偵測得分乘以來自多個分類網路的所述物體的多個可信度比例因數的乘積而按比例縮放所述主要可信度偵測得分。
  14. 如申請專利範圍第12項所述偵測影像中的物體的裝置,其中所述可信度比例因數是基於所述物體的分類機率與所要最大分類機率的比率。
  15. 如申請專利範圍第12項所述偵測影像中的物體的裝置,其中所述可信度比例因數設定為至少所要最小值。
  16. 如申請專利範圍第12項所述偵測影像中的物體的裝置,其中所述處理器經進一步組態以判定所述物體的次要可信度偵測得分,在所述次要可信度偵測得分大於或等於臨限值的情況下維持所述主要可信度偵測得分,以及在所述次要可信度偵測得分小於所述臨限值的情況下調整所述主要可信度偵測得分。
  17. 如申請專利範圍第16項所述偵測影像中的物體的裝置,其中在所述次要可信度偵測得分小於所述臨限值的情況下調整所述主要可信度偵測得分包括使所述主要可信度偵測得分乘以所述次要可信度偵測得分與多個可信度比例因數的乘積。
  18. 如申請專利範圍第16項所述偵測影像中的物體的裝 置,其中在所述次要可信度偵測得分小於所述臨限值的情況下調整所述主要可信度偵測得分包括使所述經調整的主要可信度偵測得分乘以所述次要可信度偵測得分與多個可信度比例因數的乘積。
  19. 如申請專利範圍第12項所述偵測影像中的物體的裝置,其中所述處理器經進一步組態以在所述物體的限界框與語義分段遮罩之間的重疊量小於臨限值的情況下與所述重疊量成比例地調整所述主要可信度偵測得分。
  20. 如申請專利範圍第12項所述偵測影像中的物體的裝置,其中所述處理器經進一步組態以在所述物體的限界框與語義分段遮罩之間的重疊量大於或等於臨限值的情況下維持所述主要可信度偵測得分。
  21. 如申請專利範圍第12項所述偵測影像中的物體的裝置,其中所述處理器經進一步組態以並行地操作所述主要物體偵測器及所述分類網路。
  22. 如申請專利範圍第12項所述偵測影像中的物體的裝置,其中所述處理器經進一步組態以:使用所述按比例縮放的主要可信度偵測得分將物體偵測設定為固定大小,自所述經按比例縮放的主要可信度偵測得分判定具有所述固定大小的隨機裁剪,以及相對於地面真像標記所述隨機裁剪的種類以訓練所述分類網路。
  23. 一種製造處理器的方法,其包括: 形成所述處理器作為晶圓或封裝的部分,所述晶圓或封裝包含至少一個其他處理器,其中所述處理器經組態以自影像感測器俘獲影像,偵測所述影像中的物體,使用主要物體偵測器判定所述物體的主要可信度偵測得分,使用分類網路判定所述物體的可信度比例因數,基於使所述主要可信度偵測得分乘以所述可信度偵測因數來調整所述主要可信度偵測得分,其中所述處理器經進一步組態以判定所述物體的限界框與語義分段遮罩之間是否存在重疊,並且在所述物體的限界框與語義分段遮罩之間不存在重疊的情況下調整所述主要可信度偵測得分並消除來自所述語義分段遮罩的次要物體偵測,其中所述語義分段遮罩為二元遮罩,藉由展示經啟動像素的一個色彩產生,且另一色彩展示背景。
  24. 一種建構積體電路的方法,所述方法包括:產生所述積體電路的層的一組特徵的遮罩佈局,其中所述遮罩佈局包含用於一或多個電路特徵的標準元件庫巨集,所述一或多個電路特徵包含處理器,所述處理器經組態以自影像感測器俘獲影像,偵測所述影像中的物體,使用主要物體偵測器判定物體的主要可信度偵測得分,使用分類網路判定所述物體的可信度比例因數,基於使所述主要可信度偵測得分乘以所述可信度比例因數來調整所述主要可信度偵測得分,其中所述處理器經進一步組態以判定所述物體的限界框與語義分段遮罩之間是否存在重疊,並且在所述物體的限界框與語義分段遮罩之間不存在重疊的情況下調整所述主要可信度偵測得分並消除來自所述語義分段遮罩的次要物體偵測,其中所述語義分 段遮罩為二元遮罩,藉由展示經啟動像素的一個色彩產生,且另一色彩展示背景。
TW106119649A 2016-09-23 2017-06-13 偵測物體的裝置與方法、製造處理器的方法以及建構積體電路的方法 TWI764905B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662399046P 2016-09-23 2016-09-23
US62/399,046 2016-09-23
US15/434,880 US10657364B2 (en) 2016-09-23 2017-02-16 System and method for deep network fusion for fast and robust object detection
US15/434,880 2017-02-16

Publications (2)

Publication Number Publication Date
TW201814591A TW201814591A (zh) 2018-04-16
TWI764905B true TWI764905B (zh) 2022-05-21

Family

ID=61685530

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106119649A TWI764905B (zh) 2016-09-23 2017-06-13 偵測物體的裝置與方法、製造處理器的方法以及建構積體電路的方法

Country Status (4)

Country Link
US (1) US10657364B2 (zh)
KR (1) KR102279291B1 (zh)
CN (1) CN107871117B (zh)
TW (1) TWI764905B (zh)

Families Citing this family (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366302B2 (en) * 2016-10-10 2019-07-30 Gyrfalcon Technology Inc. Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor
JP6525934B2 (ja) * 2016-10-14 2019-06-05 キヤノン株式会社 画像処理装置および制御方法
US11080534B2 (en) * 2016-11-14 2021-08-03 Lyft, Inc. Identifying objects for display in a situational-awareness view of an autonomous-vehicle environment
AU2016277697A1 (en) * 2016-12-22 2018-07-12 Canon Kabushiki Kaisha Method, system and apparatus for providing access to videos
US10147193B2 (en) 2017-03-10 2018-12-04 TuSimple System and method for semantic segmentation using hybrid dilated convolution (HDC)
CN108664844A (zh) * 2017-03-28 2018-10-16 爱唯秀股份有限公司 卷积深度神经网络的图像目标语义识别及追踪
US10210411B2 (en) * 2017-04-24 2019-02-19 Here Global B.V. Method and apparatus for establishing feature prediction accuracy
US10210403B2 (en) * 2017-04-24 2019-02-19 Here Global B.V. Method and apparatus for pixel based lane prediction
CN110582803B (zh) * 2017-04-26 2022-02-08 三菱电机株式会社 处理装置
JP6833620B2 (ja) * 2017-05-30 2021-02-24 株式会社東芝 画像解析装置、ニューラルネットワーク装置、学習装置、画像解析方法およびプログラム
CN107679531A (zh) * 2017-06-23 2018-02-09 平安科技(深圳)有限公司 基于深度学习的车牌识别方法、装置、设备及存储介质
US10592786B2 (en) * 2017-08-14 2020-03-17 Huawei Technologies Co., Ltd. Generating labeled data for deep object tracking
US11093793B2 (en) * 2017-08-29 2021-08-17 Vintra, Inc. Systems and methods for a tailored neural network detector
US10621416B2 (en) * 2017-10-02 2020-04-14 Microsoft Technology Licensing, Llc Image processing for person recognition
US11004209B2 (en) * 2017-10-26 2021-05-11 Qualcomm Incorporated Methods and systems for applying complex object detection in a video analytics system
US11282389B2 (en) 2018-02-20 2022-03-22 Nortek Security & Control Llc Pedestrian detection for vehicle driving assistance
CN108846826B (zh) * 2018-04-24 2021-06-22 深圳大学 物体检测方法、装置、图像处理设备及存储介质
US10559088B2 (en) * 2018-05-01 2020-02-11 Microsoft Technology Licensing, Llc Extending previously trained deep neural networks
EP3570062B1 (en) * 2018-05-18 2022-06-29 Aptiv Technologies Limited Radar system and method for receiving and compressing radar signals
EP3776377A4 (en) * 2018-05-28 2021-05-12 Samsung Electronics Co., Ltd. METHOD AND SYSTEM FOR DNN-BASED IMAGING
EP3732631A1 (en) * 2018-05-29 2020-11-04 Google LLC Neural architecture search for dense image prediction tasks
US20190367019A1 (en) * 2018-05-31 2019-12-05 TuSimple System and method for proximate vehicle intention prediction for autonomous vehicles
US11104334B2 (en) 2018-05-31 2021-08-31 Tusimple, Inc. System and method for proximate vehicle intention prediction for autonomous vehicles
CN110580487A (zh) 2018-06-08 2019-12-17 Oppo广东移动通信有限公司 神经网络的训练方法、构建方法、图像处理方法和装置
JP2019215728A (ja) * 2018-06-13 2019-12-19 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US11030495B2 (en) * 2018-06-13 2021-06-08 Octi Systems and methods for instance segmentation
US11048958B1 (en) * 2018-06-15 2021-06-29 Objectvideo Labs, Llc Object detection improvement using a foreground occupancy map
CN110619255B (zh) * 2018-06-19 2022-08-26 杭州海康威视数字技术股份有限公司 一种目标检测方法及其装置
US10810445B1 (en) * 2018-06-29 2020-10-20 Zoox, Inc. Pipeline with point cloud filtering
CN110659658B (zh) * 2018-06-29 2022-07-29 杭州海康威视数字技术股份有限公司 一种目标检测方法及其装置
US10921817B1 (en) 2018-06-29 2021-02-16 Zoox, Inc. Point cloud filtering with semantic segmentation
US10884131B1 (en) * 2018-08-03 2021-01-05 GM Global Technology Operations LLC Conflict resolver for a lidar data segmentation system of an autonomous vehicle
US20200065706A1 (en) * 2018-08-24 2020-02-27 Htc Corporation Method for verifying training data, training system, and computer program product
US10922589B2 (en) * 2018-10-10 2021-02-16 Ordnance Survey Limited Object-based convolutional neural network for land use classification
US10984532B2 (en) 2018-08-24 2021-04-20 Ordnance Survey Limited Joint deep learning for land cover and land use classification
CN112602088B (zh) 2018-09-06 2024-03-12 Oppo广东移动通信有限公司 提高弱光图像的质量的方法、系统和计算机可读介质
WO2020061236A1 (en) * 2018-09-18 2020-03-26 Focal Systems, Inc. Product onboarding machine
CN109389078B (zh) * 2018-09-30 2022-06-21 京东方科技集团股份有限公司 图像分割方法、相应的装置及电子设备
CN111008544B (zh) * 2018-10-08 2023-05-09 阿里巴巴集团控股有限公司 交通监控和无人驾驶辅助系统以及目标检测方法及设备
JP7311310B2 (ja) * 2018-10-18 2023-07-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理装置、情報処理方法及びプログラム
CN109101036A (zh) * 2018-10-30 2018-12-28 佛山市神风航空科技有限公司 一种多旋翼载人飞行器飞行控制系统
US11164329B2 (en) * 2018-11-01 2021-11-02 Inpixon Multi-channel spatial positioning system
CN112889069B (zh) * 2018-11-08 2024-04-05 Oppo广东移动通信有限公司 用于提高低照度图像质量的方法、系统和计算机可读介质
CN109685762A (zh) * 2018-11-09 2019-04-26 五邑大学 一种基于多尺度深度语义分割网络的天线下倾角测量方法
CN111178495B (zh) * 2018-11-10 2023-06-30 杭州凝眸智能科技有限公司 用于检测图像中极小物体的轻量卷积神经网络
US11205086B2 (en) * 2018-11-13 2021-12-21 Nvidia Corporation Determining associations between objects and persons using machine learning models
CN113168684B (zh) * 2018-11-26 2024-04-05 Oppo广东移动通信有限公司 提升低亮度图像的质量的方法、系统和计算机可读介质
CN109859158A (zh) * 2018-11-27 2019-06-07 邦鼓思电子科技(上海)有限公司 一种基于视觉的工作区域边界的检测系统、方法及机器设备
CN111242117A (zh) * 2018-11-28 2020-06-05 佳能株式会社 检测装置和方法及图像处理装置和系统
EP3660741B1 (en) * 2018-11-29 2022-05-04 Koninklijke Philips N.V. Feature identification in medical imaging
KR102181144B1 (ko) * 2018-12-04 2020-11-20 엔에이치엔 주식회사 이미지 딥러닝 기반 성별 인식 방법
US10922574B1 (en) * 2018-12-10 2021-02-16 Zoox, Inc. Bounding box embedding for object identifying
JP7092016B2 (ja) * 2018-12-13 2022-06-28 日本電信電話株式会社 画像処理装置、方法、及びプログラム
US10963757B2 (en) * 2018-12-14 2021-03-30 Industrial Technology Research Institute Neural network model fusion method and electronic device using the same
DE102018133441A1 (de) 2018-12-21 2020-06-25 Volkswagen Aktiengesellschaft Verfahren und System zum Bestimmen von Landmarken in einer Umgebung eines Fahrzeugs
US10776647B2 (en) * 2019-01-31 2020-09-15 StradVision, Inc. Method and device for attention-driven resource allocation by using AVM to thereby achieve safety of autonomous driving
US10726279B1 (en) * 2019-01-31 2020-07-28 StradVision, Inc. Method and device for attention-driven resource allocation by using AVM and reinforcement learning to thereby achieve safety of autonomous driving
JP2022520019A (ja) * 2019-02-15 2022-03-28 エスゼット ディージェイアイ テクノロジー カンパニー リミテッド 画像処理方法、装置、移動可能なプラットフォーム、プログラム
US10915786B2 (en) * 2019-02-28 2021-02-09 Sap Se Object detection and candidate filtering system
CN109948497B (zh) * 2019-03-12 2022-01-28 北京旷视科技有限公司 一种物体检测方法、装置及电子设备
CN109784424B (zh) * 2019-03-26 2021-02-09 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置
KR102211481B1 (ko) 2019-03-27 2021-02-02 연세대학교 산학협력단 객체 랜드마크 검출 장치 및 시멘틱 정합 장치의 공동 학습 장치 및 방법
JP7418966B2 (ja) * 2019-04-02 2024-01-22 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
CN110163249B (zh) * 2019-04-09 2021-11-23 中国科学院计算技术研究所 基于用户参数特征的基站分类识别方法及系统
CN109993757B (zh) * 2019-04-17 2021-01-08 山东师范大学 一种视网膜图像病变区域自动分割方法及系统
JP7456442B2 (ja) * 2019-06-14 2024-03-27 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム
US11263497B2 (en) 2019-06-21 2022-03-01 StraxCorp Pty. Ltd. Method and system for machine learning classification based on structure or material segmentation in an image
AU2019204380C1 (en) * 2019-06-21 2020-11-12 Curvebeam Ai Limited A Method and System for Machine Learning Classification Based on Structure or Material Segmentation in an Image
CN110298298B (zh) * 2019-06-26 2022-03-08 北京市商汤科技开发有限公司 目标检测及目标检测网络的训练方法、装置及设备
DE102019209463A1 (de) * 2019-06-27 2020-12-31 Robert Bosch Gmbh Verfahren zur Bestimmung eines Vertrauenswertes eines Objektes einer Klasse
TWI773907B (zh) * 2019-07-11 2022-08-11 緯創資通股份有限公司 資料擷取裝置與資料運算系統及方法
US11150605B1 (en) * 2019-07-22 2021-10-19 Facebook Technologies, Llc Systems and methods for generating holograms using deep learning
US11216705B2 (en) * 2019-08-21 2022-01-04 Anyvision Interactive Technologies Ltd. Object detection based on machine learning combined with physical attributes and movement patterns detection
CN110728200B (zh) * 2019-09-23 2023-06-06 武汉大学 一种基于深度学习的实时行人检测方法及系统
US11494935B2 (en) 2019-10-17 2022-11-08 Objectvideo Labs, Llc Scaled human video tracking
RU2745804C1 (ru) 2019-11-06 2021-04-01 Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" Способ и процессор для управления перемещением в полосе движения автономного транспортного средства
TWI731466B (zh) 2019-11-07 2021-06-21 財團法人資訊工業策進會 產生一物件偵測模型的計算裝置及方法及物件偵測裝置
CN111368625B (zh) * 2019-11-08 2024-02-27 深圳北航新兴产业技术研究院 一种基于级联优化的行人目标检测方法
US11302025B2 (en) * 2019-11-26 2022-04-12 Zebra Technologies Corporation Error mitigation for mobile dimensioning in stereo vision
KR102306658B1 (ko) * 2019-12-24 2021-09-30 아주대학교산학협력단 이종 도메인 데이터 간의 변환을 수행하는 gan의 학습 방법 및 장치
RU2744012C1 (ru) 2019-12-24 2021-03-02 Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" Способы и системы для автоматизированного определения присутствия объектов
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
KR102583960B1 (ko) 2020-01-06 2023-09-27 한국전자통신연구원 무인 비행체의 데이터 세트 생성 방법 및 장치
US11948276B2 (en) 2020-01-16 2024-04-02 Samsung Electronics Co., Ltd. Apparatus and method for enhancing videos
CN111274974B (zh) * 2020-01-21 2023-09-01 阿波罗智能技术(北京)有限公司 定位元素检测方法、装置、设备和介质
KR102289668B1 (ko) 2020-02-21 2021-08-12 연세대학교 산학협력단 매칭 신뢰도 기반 시멘틱 매칭 장치 및 방법
KR20210111557A (ko) * 2020-03-03 2021-09-13 현대자동차주식회사 심층 학습 기반의 객체 분류 장치 및 그 방법
CN113468914B (zh) * 2020-03-30 2023-08-29 杭州海康威视数字技术股份有限公司 一种商品纯净度的确定方法、装置及设备
CN111489332B (zh) * 2020-03-31 2023-03-17 成都数之联科技股份有限公司 一种用于目标检测的多尺度iof随机裁剪的数据增强方法
CN111723852B (zh) * 2020-05-30 2022-07-22 杭州迪英加科技有限公司 针对目标检测网络的鲁棒训练方法
CN111768392B (zh) * 2020-06-30 2022-10-14 创新奇智(广州)科技有限公司 目标检测方法及装置、电子设备、存储介质
EP4181013A4 (en) * 2020-07-21 2023-08-16 Huawei Technologies Co., Ltd. METHOD AND APPARATUS FOR DETERMINING LABELING INFORMATION
KR20220013231A (ko) * 2020-07-24 2022-02-04 삼성전자주식회사 영상 내에서 객체를 추론하는 전자 장치 및 추론 방법
CN112307889B (zh) * 2020-09-22 2022-07-26 北京航空航天大学 一种基于小型辅助网络的人脸检测算法
CN112053439B (zh) * 2020-09-28 2022-11-25 腾讯科技(深圳)有限公司 图像中实例属性信息确定方法、装置、设备及存储介质
TWI812888B (zh) 2020-10-14 2023-08-21 財團法人工業技術研究院 影像辨識方法及影像辨識系統
US20220147748A1 (en) * 2020-11-12 2022-05-12 Texas Instruments Incorporated Efficient object detection using deep learning techniques
US11798210B2 (en) 2020-12-09 2023-10-24 Salesforce, Inc. Neural network based detection of image space suitable for overlaying media content
CN112766046B (zh) * 2020-12-28 2024-05-10 深圳市捷顺科技实业股份有限公司 一种目标检测方法及相关装置
US11657511B2 (en) * 2021-01-29 2023-05-23 Salesforce, Inc. Heuristics-based detection of image space suitable for overlaying media content
CN113344857B (zh) * 2021-05-13 2022-05-03 深圳市华汉伟业科技有限公司 缺陷检测网络的训练方法、缺陷检测方法和存储介质
WO2022263908A1 (en) * 2021-06-14 2022-12-22 Sensetime International Pte. Ltd. Methods and apparatuses for determining object classification
AU2021204589A1 (en) * 2021-06-14 2023-01-05 Sensetime International Pte. Ltd. Methods and apparatuses for determining object classification
KR20230020708A (ko) * 2021-08-04 2023-02-13 삼성전자주식회사 객체 검출 장치 및 객체 검출 방법
US11589006B1 (en) * 2021-10-19 2023-02-21 Plantronics, Inc. Dynamic camera presets
US20230118072A1 (en) * 2021-10-19 2023-04-20 International Business Machines Corporation Content based on-device image adjustment
KR102437962B1 (ko) * 2022-03-22 2022-08-30 주식회사 스누아이랩 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법
WO2023178542A1 (en) * 2022-03-23 2023-09-28 Robert Bosch Gmbh Image processing apparatus and method
US11915467B1 (en) 2022-08-11 2024-02-27 Microsoft Technology Licensing, Llc. Saliency for anchor-based object detection
KR20240060163A (ko) * 2022-10-28 2024-05-08 오지큐 주식회사 학습된 신경망을 통한 객체 세그멘테이션 정보의 획득 방법 및 이를 수행하는 서버 시스템
CN115830637B (zh) * 2022-12-13 2023-06-23 杭州电子科技大学 一种基于姿态估计和背景抑制的遮挡行人重识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201033908A (en) * 2009-03-12 2010-09-16 Micro Star Int Co Ltd System and method for counting people flow
CN103886013A (zh) * 2014-01-16 2014-06-25 陈守辉 一种基于网络视频监控中的智能图像检索系统
US20140379619A1 (en) * 2013-06-24 2014-12-25 Cylance Inc. Automated System For Generative Multimodel Multiclass Classification And Similarity Analysis Using Machine Learning
US20150170002A1 (en) * 2013-05-31 2015-06-18 Google Inc. Object detection using deep neural networks
US9183459B1 (en) * 2014-05-06 2015-11-10 The Boeing Company Sensor fusion using detector confidence boosting
WO2016107103A1 (zh) * 2014-12-30 2016-07-07 百度在线网络技术(北京)有限公司 图像主体区域的识别方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3803950B2 (ja) * 1999-03-04 2006-08-02 株式会社リコー 画像合成処理方法、画像合成処理装置及び記録媒体
US6754390B2 (en) 2000-12-01 2004-06-22 The United States Of America As Represented By The Secretary Of The Navy Fusing outputs from multiple detection/classification schemes
US7133083B2 (en) * 2001-12-07 2006-11-07 University Of Kentucky Research Foundation Dynamic shadow removal from front projection displays
US7274830B2 (en) * 2002-06-12 2007-09-25 Litton Systems, Inc. System for multi-sensor image fusion
US7308139B2 (en) * 2002-07-12 2007-12-11 Chroma Energy, Inc. Method, system, and apparatus for color representation of seismic data and associated measurements
US6919892B1 (en) * 2002-08-14 2005-07-19 Avaworks, Incorporated Photo realistic talking head creation system and method
US20050209983A1 (en) * 2004-03-18 2005-09-22 Macpherson Deborah L Context driven topologies
US7634142B1 (en) 2005-01-24 2009-12-15 Adobe Systems Incorporated Detecting objects in images using a soft cascade
CA2617119A1 (en) * 2008-01-08 2009-07-08 Pci Geomatics Enterprises Inc. Service oriented architecture for earth observation image processing
JP4513898B2 (ja) 2008-06-09 2010-07-28 株式会社デンソー 画像識別装置
US8345921B1 (en) 2009-03-10 2013-01-01 Google Inc. Object detection with false positive filtering
US9260122B2 (en) 2012-06-06 2016-02-16 International Business Machines Corporation Multisensor evidence integration and optimization in object inspection
US9355312B2 (en) * 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US8965115B1 (en) 2013-03-14 2015-02-24 Hrl Laboratories, Llc Adaptive multi-modal detection and fusion in videos via classification-based-learning
US9100572B2 (en) 2013-05-24 2015-08-04 Xerox Corporation Methods and systems for confidence-based image processing
SG10201403293TA (en) 2014-06-16 2016-01-28 Ats Group Ip Holdings Ltd Fusion-based object-recognition
US9594984B2 (en) * 2015-08-07 2017-03-14 Google Inc. Business discovery from imagery

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201033908A (en) * 2009-03-12 2010-09-16 Micro Star Int Co Ltd System and method for counting people flow
US20150170002A1 (en) * 2013-05-31 2015-06-18 Google Inc. Object detection using deep neural networks
US20140379619A1 (en) * 2013-06-24 2014-12-25 Cylance Inc. Automated System For Generative Multimodel Multiclass Classification And Similarity Analysis Using Machine Learning
CN103886013A (zh) * 2014-01-16 2014-06-25 陈守辉 一种基于网络视频监控中的智能图像检索系统
US9183459B1 (en) * 2014-05-06 2015-11-10 The Boeing Company Sensor fusion using detector confidence boosting
WO2016107103A1 (zh) * 2014-12-30 2016-07-07 百度在线网络技术(北京)有限公司 图像主体区域的识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
網路文獻 Scott McCloskey "Metadata-weighted Score Fusion for Multimedia Event Detection" 2014 Canadian Conference on Computer and Robot Vision , https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6816857 *

Also Published As

Publication number Publication date
KR20180033037A (ko) 2018-04-02
CN107871117B (zh) 2023-01-10
TW201814591A (zh) 2018-04-16
US20180089505A1 (en) 2018-03-29
KR102279291B1 (ko) 2021-07-20
CN107871117A (zh) 2018-04-03
US10657364B2 (en) 2020-05-19

Similar Documents

Publication Publication Date Title
TWI764905B (zh) 偵測物體的裝置與方法、製造處理器的方法以及建構積體電路的方法
CN107506763B (zh) 一种基于卷积神经网络的多尺度车牌精准定位方法
Wang et al. Improved YOLOv5 network for real-time multi-scale traffic sign detection
US10691952B2 (en) Adapting to appearance variations when tracking a target object in video sequence
US9542751B2 (en) Systems and methods for reducing a plurality of bounding regions
CN108009543B (zh) 一种车牌识别方法及装置
US10579860B2 (en) Learning model for salient facial region detection
US20210064871A1 (en) Apparatus and method for recognition of text information
US8792722B2 (en) Hand gesture detection
US8750573B2 (en) Hand gesture detection
KR102190527B1 (ko) 자동 영상 합성 장치 및 방법
US20070031041A1 (en) Apparatus and method for detecting a face
WO2019236286A1 (en) Robust face detection
US8170332B2 (en) Automatic red-eye object classification in digital images using a boosting-based framework
Gu et al. Embedded and real-time vehicle detection system for challenging on-road scenes
CN117058517A (zh) 一种基于YOLOv5优化模型的安全帽检测方法、装置和介质
CN115700808A (zh) 自适应融合可见光和红外图像的双模态无人机识别方法
CN112347967B (zh) 一种复杂场景下融合运动信息的行人检测方法
Huang et al. Nighttime vehicle detection based on direction attention network and bayes corner localization
CN115424293A (zh) 活体检测方法、活体检测模型的训练方法及装置
WO2021214540A1 (en) Robust camera localization based on a single color component image and multi-modal learning
Meena et al. Hybrid Neural Network Architecture for Multi-Label Object Recognition using Feature Fusion
Duan et al. Cascade feature selection and coarse-to-fine mechanism for nighttime multiclass vehicle detection
US20190311184A1 (en) High Accuracy and Volume Facial Recognition on Mobile Platforms
US20230131935A1 (en) Co-learning object and relationship detection with density aware loss