TW202418231A - 圖像識別方法、電腦設備及儲存介質 - Google Patents
圖像識別方法、電腦設備及儲存介質 Download PDFInfo
- Publication number
- TW202418231A TW202418231A TW111140739A TW111140739A TW202418231A TW 202418231 A TW202418231 A TW 202418231A TW 111140739 A TW111140739 A TW 111140739A TW 111140739 A TW111140739 A TW 111140739A TW 202418231 A TW202418231 A TW 202418231A
- Authority
- TW
- Taiwan
- Prior art keywords
- target
- image
- area
- recognition
- matrix
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 117
- 238000001514 detection method Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 19
- 238000004590 computer program Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 241000282326 Felis catus Species 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 241000196324 Embryophyta Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 4
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 3
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 3
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 241000233855 Orchidaceae Species 0.000 description 1
- 241000736199 Paeonia Species 0.000 description 1
- 235000006484 Paeonia officinalis Nutrition 0.000 description 1
- 241000220317 Rosa Species 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Abstract
本申請涉及影像處理,提供一種圖像識別方法、電腦設備及儲存介質,所述方法包括:對待識別圖像及測試圖像進行檢測,得到識別區域及測試區域,計算第一識別模型對測試區域的預測結果及預測準確率,基於預測結果及測試區域生成與測試圖像的標註類別對應的目標區域,基於預測準確率及目標區域對第一識別模型進行調整,生成第二識別模型,第二識別模型包括輸入層、全連接層及識別層,基於識別區域在輸入層輸出的初始特徵矩陣的維度、全連接層的初始權重矩陣、初始權重矩陣的維度以及識別層,生成待識別圖像的識別結果,提高了圖像識別效率。
Description
本申請涉及影像處理領域,尤其涉及一種圖像識別方法、電腦設備及儲存介質。
在目前的圖像識別方案中,全連接層中運算矩陣維度的不一致會導致運算過程繁雜,造成識別準確性低及識別速度緩慢,因此,如何在確保識別準確性的情況下加快圖像識別的速度成為了目前需要解決的問題。
鑒於以上內容,有必要提供一種圖像識別方法、電腦設備及儲存介質,能夠解決難以確保全連接層中運算矩陣維度的一致而導致圖像識別速度緩慢的問題。
本申請提供一種圖像識別方法,所述圖像識別方法包括:獲取待識別圖像、測試圖像及所述測試圖像的標註類別,對所述待識別圖像進行區域檢測,得到識別區域,並對所述測試圖像進行區域檢測,得到測試區域,獲取預訓練後的第一識別模型對所述測試區域的預測結果,並基於所述預測結果計算所述測試區域的預測準確率,基於所述預測結果及所述測試區域生成與所述標註類別對應的目標區域,基於所述預測準確率及所述目標區域對所述第一識別模型進行調整,得到第二識別模型,所述第二識別模型包括輸入層、全連接層及識別層,獲取所述識別區域在所述第二識別模型中輸入層所輸出的初始特徵矩陣,若所述初始特徵矩陣的維度小於所述全連接層中的初始權重矩陣的維度,對所述初始特徵矩陣進行升維處理,得到目標特徵矩陣,根據所述目標特徵矩陣及所述初始權重矩陣生成目標向量,將所述目標向量輸入到所述識別層中,得到所述待識別圖像的識別結果。
根據本申請可選實施例,所述對所述待識別圖像進行區域檢測,得到識別區域包括:對所述待識別圖像進行均衡化及歸一化處理,得到特徵圖像,基於目標檢測演算法對所述特徵圖像進行檢測,得到目標位置,根據所述目標位置對所述特徵圖像進行分割,得到所述識別區域。
根據本申請可選實施例,在基於所述預測結果計算所述測試區域的預測準確率之前,所述圖像識別方法還包括:獲取訓練圖像,並對所述訓練圖像進行檢測,得到訓練區域,基於所述訓練區域對卷積神經網路進行反覆運算訓練,得到所述第一識別模型。
根據本申請可選實施例,所述預測結果包括所述測試區域的預測類別,所述基於所述預測結果計算所述測試區域的預測準確率包括:將與標註類別相同的預測類別所對應的測試區域確定為特徵區域,統計所述特徵區域的第一數量,並統計所述測試區域的第二數量,根據所述第一數量及所述第二數量計算所述特徵區域在所述測試區域中所佔的比率,確定所述預測準確率。
根據本申請可選實施例,所述預測結果還包括所述特徵區域在所述預測類別上的第一概率,所述基於所述預測結果及所述測試區域生成與所述標註類別對應的目標區域包括:根據所述預測類別對所述特徵區域進行分類,得到所述標註類別所對應的特徵區域,將大於預設概率閥值的第一概率所對應的特徵區域確定為所述標註類別對應的目標區域。
根據本申請可選實施例,所述基於所述預測準確率及所述目標區域對所述第一識別模型進行調整,得到第二識別模型包括:統計每個標註類別對應的目標區域的第三數量,將小於第一預設值的第三數量所對應的目標區域進行資料增強,得到多個增強區域,若所述預測準確率小於第二預設值,將所述多個增強區域輸入到所述第一識別模型中,直至所述預測準確率大於或者等於所述第二預設值,得到所述第二識別模型。
根據本申請可選實施例,所述對所述初始特徵矩陣進行升維處理,得到目標特徵矩陣包括:統計所述初始特徵矩陣的矩陣行數及矩陣列數,將所述矩陣行數與所述矩陣列數進行相乘運算,得到目標乘積,將所述目標乘積進行質因數分解,得到多個質因數,將所述多個質因數中相同的任意兩個質因數組合成質因數對,並計算所述質因數對中兩個質因數的乘積,得到特徵乘積,每個質因數只能組合一次,根據所述目標乘積及所述特徵乘積從所述質因數對中選取目標質因數對,提取所述目標質因數對中的一個質因數,得到特徵質因數,根據所述目標質因數對的對數及所述特徵質因數生成特徵數值,在所述多個質因數中將所述目標質因數對替換為零,在完成替換後將所有不為零的質因數進行相乘運算,得到目標數值,基於配置值、所述目標數值及所述特徵數值,對所述初始特徵矩陣進行升維處理,得到所述目標特徵矩陣。
根據本申請可選實施例,所述將所述目標特徵矩陣輸入到所述識別層中,得到所述待識別圖像的識別結果包括:將所述目標特徵矩陣輸入到所述識別層中,得到所述待識別圖像在所述標註類別上所對應的第二概率及每個標註類別中的多個子類別所對應的第三概率,將取值最大的第二概率所對應的標註類別確定為目標類別,將所述目標類別中取值最大的第三概率所對應的子類別確定為所述待識別圖像的識別結果。
本申請提供一種電腦設備,所述電腦設備包括:
儲存器,儲存至少一個指令;及
處理器,執行所述至少一個指令以實現所述的圖像識別方法。
本申請提供一種電腦可讀儲存介質,所述電腦可讀儲存介質中儲存有至少一個指令,所述至少一個指令被電腦設備中的處理器執行以實現所述的圖像識別方法。
由以上技術方案可以看出,對所述待識別圖像進行檢測,得到所述識別區域,能夠將所述待識別圖像中包含待識別物件的區域選取出來,從而能夠加快圖像識別過程中的特徵提取效率,基於所述預測結果計算所述測試區域的預測準確率,並基於所述預測結果及所述測試區域生成與所述標註類別對應的目標區域,能夠確保生成的目標區域均為預測正確的測試區域,基於所述預測準確率及所述目標區域對所述第一識別模型進行調整,能夠提高第二識別模型的預測能力,由於所述目標區域中包含了多個標註類別的區域,及每個標註類別中有足夠數量的目標區域對所述第一識別模型進行調整,能夠提高所述第二識別模型的泛化能力,若所述初始特徵矩陣的維度小於所述全連接層中的初始權重矩陣的維度,對所述初始特徵矩陣進行升維處理,透過對所述初始特徵矩陣的維度進行判斷,確保了所述目標特徵矩陣的維度及所述初始權重矩陣的維度一致,使得所述目標特徵矩陣及所述初始權重矩陣能夠直接進行相乘運算,由於升維後的目標特徵矩陣能夠增加每次參與運算的參數量,因此能夠提高圖像識別的速度。
為了使本申請的目的、技術方案和優點更加清楚,下面結合附圖和具體實施例對本申請進行詳細描述。
如圖1所示,是本申請一種圖像識別方法的較佳實施例的應用環境圖。所述圖像識別方法可應用於一個或者多個電腦設備1中,所述電腦設備1與拍攝設備2相通信,所述拍攝設備2可以是攝像頭,也可以是實現拍攝的其它裝置,例如,透過拍攝設備2能夠拍攝待識別物件,得到待識別圖像,其中,所述待識別物件可以是貓、狗、鳥等動物,也可以是花和樹等植物。
所述電腦設備1是一種能夠按照事先設定或儲存的指令,自動進行參數值計算和/或 資訊處理的設備,其硬體包括,但不限於:微處理器、專用積體電路(Application Specific Integrated Circuit,ASIC)、 可程式設計閘陣列(Field-Programmable Gate Array,FPGA)、 數位訊號處理器(Digital Signal Processor,DSP)、 嵌入式設備等。所述電腦設備1可以是任何一種可與用戶進行人機交互的電子產品,例如,個人電腦、平板電腦、智慧手機、個人數位助理(Personal Digital Assistant,PDA)、遊戲機、互動式網路電視(Internet Protocol Television,IPTV)、穿戴式智能設備等。
所述電腦設備1還可以包括網路設備和/或使用者設備。其中,所述網路設備包括,但不限於單個網路伺服器、多個網路伺服器組成的伺服器組或基於雲計算(Cloud Computing)的由大量主機或網路伺服器構成的雲。所述電腦設備1所處的網路包括但不限於網際網路、廣域網路、都會區網路、區域網路、虛擬私人網路(Virtual Private Network,VPN)等。
如圖2所示,是本申請一種圖像識別方法的較佳實施例的流程圖。根據不同的需求,該流程圖中各個步驟的順序可以根據實際檢測要求進行調整,某些步驟可以省略。所述方法的執行主體為電腦設備,例如圖1所示的電腦設備1。
步驟101,獲取待識別圖像、測試圖像及所述測試圖像的標註類別。
在本申請的至少一個實施例中,所述待識別圖像是指需要進行類別辨識的圖像。在本申請的至少一個實施例中,所述測試圖像是指圖像中目標物件的標註類別為已知的圖像。
在本申請的至少一個實施例中,所述標註類別是指所述目標物件的具體種類,可以理解的是,所述目標物件包括足夠多的種類,所述標註類別包括足夠多的類別,例如當所述目標物件為貓、狗、鳥以及植物時,所述標註類別即為貓、狗、鳥等,所述測試圖像為動物(例如,小狗,小貓等)、植物(例如,花、樹等)等多個種類的物品圖像。
在本申請的至少一個實施例中,所述電腦設備獲取待識別圖像包括:所述電腦設備控制所述拍攝設備拍攝待識別物件,得到所述待識別圖像。其中,所述待識別物件可以是貓、狗等動物,也可以是花卉類植物。
在本申請的至少一個實施例中,所述電腦設備從預設的第一資料庫中獲取所述測試圖像及所述測試圖像的標註類別。所述第一資料庫可以為CIFAR、ImageNet及Kaggle等資料庫。
步驟102,對所述待識別圖像進行區域檢測,得到識別區域,並對所述測試圖像進行區域檢測,得到測試區域。
在本申請的至少一個實施例中,所述識別區域是指所述待識別圖像中包含所述待識別物件的區域。在本申請的至少一個實施例中,所述測試區域是指所述測試圖像中包含所述目標物件的區域。
在本申請的至少一個實施例中,所述電腦設備對所述待識別圖像進行區域檢測,得到識別區域包括:所述電腦設備對所述待識別圖像進行均衡化及歸一化處理,得到特徵圖像,基於目標檢測演算法對所述特徵圖像進行檢測,得到目標位置,進一步地,所述電腦設備根據所述目標位置對所述特徵圖像進行分割,得到所述識別區域。
其中,所述目標檢測演算法包括,但不限於:R-CNN系列演算法、YOLO系列演算法及SSD演算法。
透過將所述待識別圖像及所述測試圖像進行均衡化及歸一化處理後,能夠確保圖像亮度更加統一,使得所述識別區域及所述測試區域更能反映出所述待識別物件及所述目標物件的真實色彩,透過分割操作,能夠減少特徵提取的範圍,從而加快特徵提取的速度。
步驟103,獲取預訓練後的第一識別模型對所述測試區域的預測結果,並基於所述預測結果計算所述測試區域的預測準確率。
在本申請的至少一個實施例中,所述第一識別模型是指使用訓練圖像對卷積神經網路進行訓練後所得到的模型,所述第一識別模型可用於識別所述測試區域中目標物件的種類。在本申請的至少一個實施例中,所述預測結果是指所述第一識別模型對所述測試區域進行識別後,得到的所述目標物件所對應的具體種類。在本申請的至少一個實施例中,所述預測準確率是指所述第一識別模型對所述測試區域預測正確的結果在全部的預測結果中所佔的比率。
在本申請的至少一個實施例中,在基於所述預測結果計算所述測試區域的預測準確率之前,所述圖像識別方法還包括:所述電腦設備獲取訓練圖像,並對所述訓練圖像進行檢測,得到訓練區域,並基於所述訓練區域對卷積神經網路進行反覆運算訓練,得到所述第一識別模型。
其中,所述訓練圖像是指包含訓練物件的圖像,所述訓練物件同樣可以為貓、狗等動物,也可以是花卉類植物,可以理解的是,所述訓練物件應該儘量包括多個種類,以提高所述第一識別模型的預測能力,此外,所述訓練圖像同樣可以從所述第一資料庫中獲取。所述卷積神經網路包括卷積層、池化層、啟動函數層、壓平層、全連接層等多個層,所述卷積神經網路可以為VGG網路、ResNet網路及LeNet網路等等。
在本實施例中,所述訓練區域的生成過程與所述測試區域的生成過程基本一致,故本申請在此不作贅述。
透過上述實施方式,將訓練區域從所述訓練圖像中分割出來,並使用所述訓練區域對所述卷積神經網路進行訓練,由於減少了訓練圖像的面積,因此能夠提高訓練過程中特徵提取的速度。
具體地,所述電腦設備基於所述訓練區域對卷積神經網路進行反覆運算訓練,得到所述第一識別模型包括:所述電腦設備設置所述卷積神經網路的批量大小、所述卷積神經網路的學習率及設置所述卷積神經網路的反覆運算次數,所述電腦設備採用所述卷積神經網路對所述訓練區域進行預測,並根據所述卷積神經網路對所述訓練區域的預測計算所述卷積神經網路的損失值,基於所述損失值對所述卷積神經網路進行梯度反向傳播,直至所述損失值下降到最低,得到所述第一識別模型。
其中, 在本申請的實施例中是基於交叉熵損失函數對所述損失值進行計算的。
例如,若所述卷積神經網路為VGG16網路,所述電腦設備設置所述卷積神經網路的批量大小為128,所述卷積神經網路的學習率為0.1,並設置所述卷積神經網路的反覆運算次數為100,所述電腦設備採用所述卷積神經網路對所述訓練區域進行預測,並根據所述卷積神經網路對所述訓練區域的預測計算所述卷積神經網路的損失值,基於所述損失值對所述卷積神經網路進行梯度反向傳播,直至所述損失值下降到最低,得到所述第一識別模型。
透過上述實施方式,基於所述損失值對所述卷積神經網路進行梯度反向傳播,能夠對所述卷積神經網路的權值進行更新,使得所述損失值下降得更快,從而提高了所述卷積神經網路的收斂速度。
在本申請的至少一個實施例中,所述預測結果包括所述測試區域的預測類別,所述電腦設備基於所述預測結果計算所述測試區域的預測準確率包括:所述電腦設備將與標註類別相同的預測類別所對應的測試區域確定為特徵區域,進一步地,所述電腦設備統計所述特徵區域的第一數量,並統計所述測試區域的第二數量,更進一步地,所述電腦設備根據所述第一數量及所述第二數量計算所述特徵區域在所述測試區域中所佔的比率,確定所述預測準確率。
例如:若所述第一數量為860,所述第二數量為1000,計算所述第一數量與所述第二數量的比值,確定所述預測準確率為0.86。
透過所述第一數量及所述第二數量能夠快速而準確地計算出所述第一識別模型對所述測試區域的預測準確率。
步驟104,基於所述預測結果及所述測試區域生成與所述標註類別對應的目標區域。
在本申請的至少一個實施例中,所述目標區域是指正確的預測結果所對應的一部分測試區域。
在本申請的至少一個實施例中,所述預測結果還包括所述特徵區域在所述預測類別上的第一概率,所述電腦設備基於所述預測結果及所述測試區域生成與所述標註類別對應的目標區域包括:所述電腦設備根據所述預測類別對所述特徵區域進行分類,得到所述標註類別所對應的特徵區域,進一步地,所述電腦設備將大於預設概率閥值的第一概率所對應的特徵區域確定為所述標註類別對應的目標區域。
其中,所述預設概率閥值可以自行設置,本申請對此不作限制。
透過上述實施方式,基於所述第一概率與所述預設概率閥值的比較結果,能夠將每個標註類別所對應的目標區域篩選出來,從而能夠控制所述目標區域的識別準確率。
步驟105,基於所述預測準確率及所述目標區域對所述第一識別模型進行調整,得到第二識別模型,所述第二識別模型包括輸入層、全連接層及識別層。
在本申請的至少一個實施例中,所述第二識別模型是指使用所述目標區域對所述第一識別模型進行調整後生成的模型。
在本申請的至少一個實施例中,所述電腦設備基於所述預測準確率及所述目標區域對所述第一識別模型進行調整,得到第二識別模型包括:所述電腦設備統計每個標註類別對應的目標區域的第三數量,進一步地,所述電腦設備將小於第一預設值的第三數量所對應的目標區域進行資料增強,得到多個增強區域,若所述預測準確率小於第二預設值,所述電腦設備將所述多個增強區域輸入到所述第一識別模型中,直至所述預測準確率大於或者等於所述第二預設值,得到所述第二識別模型。
其中,所述第一預設值可以自行設置,本申請對此不作限制。 所述第二預設值可以包括,但不限於:0.8、0.75等。
透過對每個數量較少的標註類別所對應的目標區域進行資料增強,能夠確保用於調整所述第二識別模型的樣本數量足夠,從而能夠提高所述第二識別模型的預測準確率。
步驟106,獲取所述識別區域在所述第二識別模型中輸入層所輸出的初始特徵矩陣。
在本申請的至少一個實施例中,所述第二識別模型中網路結構的順序依次為:輸入層、全連接層及識別層。在本實施例中,當所述輸入層的層級結構有多個時,所述初始特徵矩陣可以從最後一個層級結構中獲取。
透過上述實施方式,能夠確保提取到的特徵更加全面和準確。
所述輸入層可以包括卷積層、啟動函數層、池化層、壓平層等多個層的級聯結構,每個輸入層中的層級結構的數量及排列順序可以靈活調整。
在本申請的至少一個實施例中,所述初始特徵矩陣是指所述第二識別模型對所述識別區域進行特徵提取操作後得到的矩陣。
步驟107,若所述初始特徵矩陣的維度小於所述全連接層中的初始權重矩陣的維度,對所述初始特徵矩陣進行升維處理,得到目標特徵矩陣。
在本申請的至少一個實施例中,所述目標特徵矩陣是指維度與所述初始權重矩陣的維度一致的矩陣。
在本申請的至少一個實施例中,所述電腦設備對所述初始特徵矩陣進行升維處理,得到目標特徵矩陣包括:所述電腦設備統計所述初始特徵矩陣的所述矩陣行數及所述矩陣列數,進一步地,所述電腦設備將所述矩陣行數與所述矩陣列數進行相乘運算,得到目標乘積,將所述目標乘積進行質因數分解,得到多個質因數,更進一步地,所述電腦設備將所述多個質因數中相同的任意兩個質因數組合成質因數對,並計算所述質因數對中兩個質因數的乘積,得到特徵乘積,每個質因數只能組合一次,所述電腦設備根據所述目標乘積及所述特徵乘積從所述質因數對中選取目標質因數對,進一步地,所述電腦設備提取所述目標質因數對中的一個質因數,得到特徵質因數,所述電腦設備根據所述目標質因數對的對數及所述特徵質因數生成特徵數值,所述電腦設備在所述多個質因數中將所述目標質因數對替換為零,在完成替換後將所有不為零的質因數進行相乘運算,得到目標數值,所述電腦設備基於配置值、所述目標數值及所述特徵數值,對所述初始特徵矩陣進行升維處理,得到所述目標特徵矩陣。
其中,所述目標質因數對是指該特徵乘積能被所述目標乘積整除的質因數對,所述配置值為數值1。可以理解的是,所述目標乘積足夠大且非質數以確保所述多個質因數中一定會存在至少兩個相同的質因數。
透過將所述初始特徵矩陣的維度轉換為與所述初始權重矩陣的維度一致,使得所述目標特徵矩陣能夠與初始權重矩陣直接進行相乘運算,從而能夠將所述目標特徵矩陣中的多個二維矩陣加入運算,由於增加了每次運算的參數量,因此能夠提高所述全連接層的運算速度。
具體地,所述電腦設備根據所述目標質因數對的對數及所述特徵質因數生成特徵數值包括:若所述目標質因數對的數量為單個,所述電腦設備將所述特徵質因數確定為所述特徵數值,若所述目標質因數對的數量為多個,所述電腦設備將所述特徵質因數進行相乘運算,得到所述特徵數值。
具體地,所述電腦設備基於配置值、所述目標數值及所述特徵數值,對所述初始特徵矩陣進行升維處理,得到所述目標特徵矩陣包括:所述電腦設備將所述配置值作為批量大小,將所述目標數值作為通道數,將所述特徵數值作為行數及列數。
例如:所述初始特徵矩陣的矩陣行數為1,所述初始特徵矩陣的矩陣列數為60,即:所述初始特徵矩陣為
。
所述配置值為1,透過上述方法計算得到所述目標數值為15,所述特徵數值為2,基於所述配置值1、所述目標數值15,所述特徵數值2將所述初始特徵矩陣進行升維處理,得到所述目標特徵矩陣,所述目標特徵矩陣為:
。
所述目標特徵矩陣中包含一個三維矩陣,即,所述三維矩陣中包括15個二維矩陣,每個二維矩陣的行數及列數均為2。
本實施例中,當所述全連接層中初始權重矩陣的維度為四維時,透過將所述初始特徵矩陣的維度統一轉換為四維,能夠確保輸入全連接層的目標特徵矩陣的維度與所述初始權重矩陣一致。
步驟108,根據所述目標特徵矩陣及所述初始權重矩陣生成目標向量。
在本申請的至少一個實施例中,所述電腦設備根據所述目標權重矩陣及所述目標特徵矩陣生成目標向量包括:所述電腦設備將所述目標權重矩陣與所述目標特徵矩陣進行相乘運算,得到所述目標向量。
步驟109,將所述目標向量輸入到所述識別層中,得到所述待識別圖像的識別結果。
在本申請的至少一個實施例中,所述識別層是指對所述目標向量進行分類並輸出分類結果的函數層。在本申請的至少一個實施例中,所述識別結果是指所述第二識別模型對所述待識別圖像的預測種類。所述識別結果可以包括:加菲貓、泰迪狗等類別。
在本申請的至少一個實施例中,所述電腦設備將所述目標向量輸入到所述識別層中,得到所述待識別圖像的識別結果包括:所述電腦設備將所述目標特徵矩陣輸入到所述識別層中,得到所述待識別圖像在所述標註類別上所對應的第二概率及每個標註類別中的多個子類別所對應的第三概率,進一步地,所述電腦設備將取值最大的第二概率所對應的標註類別確定為目標類別,並將所述目標類別中取值最大的第三概率所對應的子類別確定為所述待識別圖像的識別結果。
其中,所述子類別是指所述待識別物件在所述標註類別基礎上更加具體的種類,若所述目標類別是貓時,所述子類別可以是布偶、加菲等,若所述目標類別為狗,所述子類別可以是哈士奇、金毛、泰迪等,若所述目標類別為花卉,所述子類別可以是牡丹、月季、白蘭等等。所述識別層可以為softmax函數。
在本實施例中,所述標註類別應該包括足夠多的類別以及每個標註類別應該包括足夠多的子類別,使得所述目標類別在所述標註類別之中。
透過將所述目標類別中取值最大的第三概率所對應的子類別確定為所述待識別圖像的識別結果,能夠準確的得到所述待識別物件下的更加具體的種類資訊。
由以上技術方案可以看出,對所述待識別圖像進行檢測,得到所述識別區域,能夠將所述待識別圖像中包含待識別物件的區域選取出來,從而能夠加快圖像識別過程中的特徵提取效率,基於所述預測結果計算所述測試區域的預測準確率,並基於所述預測結果及所述測試區域生成與所述標註類別對應的目標區域,能夠確保生成的目標區域均為預測正確的測試區域,基於所述預測準確率及所述目標區域對所述第一識別模型進行調整,能夠提高第二識別模型的預測能力,由於所述目標區域中包含了多個標註類別的區域,及每個標註類別中有足夠數量的目標區域對所述第一識別模型進行調整,能夠提高所述第二識別模型的泛化能力,若所述初始特徵矩陣的維度小於所述全連接層中的初始權重矩陣的維度,對所述初始特徵矩陣進行升維處理,透過對所述初始特徵矩陣的維度進行判斷,確保了所述目標特徵矩陣的維度及所述初始權重矩陣的維度一致,使得所述目標特徵矩陣及所述初始權重矩陣能夠直接進行相乘運算,由於升維後的目標特徵矩陣能夠增加每次參與運算的參數量,因此能夠提高圖像識別的速度。
如圖3所示,是本申請實現圖像識別方法的較佳實施例的電腦設備的結構示意圖。
在本申請的一個實施例中,所述電腦設備1包括,但不限於,儲存器12、處理器13,以及儲存在所述儲存器12中並可在所述處理器13上運行的電腦程式,例如圖像識別程式。
本領域技術人員可以理解,所述示意圖僅僅是電腦設備1的示例,並不構成對電腦設備1的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件,例如所述電腦設備1還可以包括輸入輸出設備、網路接入設備、匯流排等。
所述處理器13可以是中央處理單元(Central Processing Unit,CPU),還可以是其他通用處理器、數位訊號處理器 (Digital Signal Processor,DSP)、專用積體電路 (Application Specific Integrated Circuit,ASIC)、現場可程式設計閘陣列 (Field-Programmable Gate Array,FPGA) 或者其他可程式設計邏輯器件、分立元器件門電路或者電晶體組件、分立硬體組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等,所述處理器13是所述電腦設備1的運算核心和控制中心,利用各種介面和線路連接整個電腦設備1的各個部分,及獲取所述電腦設備1的作業系統以及安裝的各類應用程式、程式碼等。例如,所述處理器13可以透過介面獲取所述拍攝設備2拍攝到的所述待識別圖像。所述處理器13獲取所述電腦設備1的作業系統以及安裝的各類應用程式。所述處理器13獲取所述應用程式以實現上述各個圖像識別方法實施例中的步驟,例如圖2所示的步驟。
示例性的,所述電腦程式可以被分割成一個或多個模組/單元,所述一個或者多個模組/單元被儲存在所述儲存器12中,並由所述處理器13獲取,以完成本申請。所述一個或多個模組/單元可以是能夠完成特定功能的一系列電腦程式指令段,該指令段用於描述所述電腦程式在所述電腦設備1中的獲取過程。
所述儲存器12可用於儲存所述電腦程式和/或模組,所述處理器13透過運行或獲取儲存在所述儲存器12內的電腦程式和/或模組,以及調用儲存在儲存器12內的資料,實現所述電腦設備1的各種功能。所述儲存器12可主要包括儲存程式區和儲存資料區,其中,儲存程式區可儲存作業系統、至少一個功能所需的應用程式(比如聲音播放功能、圖像播放功能等)等;儲存資料區可儲存根據電腦設備的使用所創建的資料等。此外,儲存器12可以包括非易失性儲存器,例如硬碟、記憶體(memory)、插接式硬碟,智慧儲存卡(Smart Media Card, SMC),安全數位(Secure Digital, SD)卡,記憶卡(Flash Card)、至少一個磁片儲存器件、記憶器件、或其他非易失性固態儲存器件。
所述儲存器12可以是電腦設備1的外部儲存器和/或內部儲存器。進一步地,所述儲存器12可以是具有實物形式的儲存器,如記憶條、TF卡(Trans-flash Card)等等。
所述電腦設備1集成的模組/單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以儲存在一個電腦可讀取儲存介質中。基於這樣的理解,本申請實現上述實施例方法中的全部或部分流程,也可以透過電腦程式來指令相關的硬體來完成,所述的電腦程式可儲存於一電腦可讀儲存介質中,該電腦程式在被處理器獲取時,可實現上述各個方法實施例的步驟。
其中,所述電腦程式包括電腦程式代碼,所述電腦程式代碼可以為原始程式碼形式、物件代碼形式、可獲取檔或某些中間形式等。所述電腦可讀介質可以包括:能夠攜帶所述電腦程式代碼的任何實體或裝置、記錄介質、隨身碟、移動硬碟、磁碟、光碟、電腦儲存器、唯讀記憶體(ROM,Read-Only Memory)。
結合圖2,所述電腦設備1中的所述儲存器12儲存多個指令以實現一種圖像識別方法,所述處理器13可獲取所述多個指令從而實現:獲取待識別圖像、測試圖像及所述測試圖像的標註類別;對所述待識別圖像進行區域檢測,得到識別區域,並對所述測試圖像進行區域檢測,得到測試區域;獲取預訓練後的第一識別模型對所述測試區域的預測結果,並基於所述預測結果計算所述測試區域的預測準確率;基於所述預測結果及所述測試區域生成與所述標註類別對應的目標區域;基於所述預測準確率及所述目標區域對所述第一識別模型進行調整,得到第二識別模型,所述第二識別模型包括輸入層、全連接層及識別層;獲取所述識別區域在所述第二識別模型中輸入層所輸出的初始特徵矩陣;若所述初始特徵矩陣的維度小於所述全連接層中的初始權重矩陣的維度,對所述初始特徵矩陣進行升維處理,得到目標特徵矩陣;根據所述目標特徵矩陣及所述初始權重矩陣生成目標向量;將所述目標向量輸入到所述識別層中,得到所述待識別圖像的識別結果。
具體地,所述處理器13對上述指令的具體實現方法可參考圖2對應實施例中相關步驟的描述,在此不贅述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的系統,裝置和方法,可以透過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述模組的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式。所述作為分離部件說明的模組可以是或者也可以不是物理上分開的,作為模組顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。
另外,在本申請各個實施例中的各功能模組可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用硬體加軟體功能模組的形式實現。
因此,無論從哪一點來看,均應將實施例看作是示範性的,而且是非限制性的,本申請的範圍由所附請求項而不是上述說明限定,因此旨在將落在請求項的等同要件的含義和範圍內的所有變化涵括在本申請內。不應將請求項中的任何附關聯圖標記視為限制所涉及的請求項。
此外,顯然“包括”一詞不排除其他單元或步驟,單數不排除複數。本申請中陳述的多個單元或裝置也可以由一個單元或裝置透過軟體或者硬體來實現。第一、第二等詞語用來表示名稱,而並不表示任何特定的順序。
最後應說明的是,以上實施例僅用以說明本申請的技術方案而非限制,儘管參照較佳實施例對本申請進行了詳細說明,本領域的普通技術人員應當理解,可以對本申請的技術方案進行修改或等同替換,而不脫離本申請技術方案的精神和範圍。
1:電腦設備
2:拍攝設備
12:儲存器
13:處理器
101~109:步驟
圖1是本申請圖像識別方法的較佳實施例的應用環境圖。
圖2是本申請圖像識別方法的較佳實施例的流程圖。
圖3是本申請實現圖像識別方法的較佳實施例的電腦設備的結構示意圖。
101~109:步驟
Claims (10)
- 一種圖像識別方法,應用於電腦設備,其中,所述圖像識別方法包括: 獲取待識別圖像、測試圖像及所述測試圖像的標註類別; 對所述待識別圖像進行區域檢測,得到識別區域,並對所述測試圖像進行區域檢測,得到測試區域; 獲取預訓練後的第一識別模型對所述測試區域的預測結果,並基於所述預測結果計算所述測試區域的預測準確率; 基於所述預測結果及所述測試區域生成與所述標註類別對應的目標區域; 基於所述預測準確率及所述目標區域對所述第一識別模型進行調整,得到第二識別模型,所述第二識別模型包括輸入層、全連接層及識別層; 獲取所述識別區域在所述第二識別模型中輸入層所輸出的初始特徵矩陣; 若所述初始特徵矩陣的維度小於所述全連接層中的初始權重矩陣的維度,對所述初始特徵矩陣進行升維處理,得到目標特徵矩陣; 根據所述目標特徵矩陣及所述初始權重矩陣生成目標向量; 將所述目標向量輸入到所述識別層中,得到所述待識別圖像的識別結果。
- 如請求項1所述的圖像識別方法,其中,所述對所述待識別圖像進行區域檢測,得到識別區域包括: 對所述待識別圖像進行均衡化及歸一化處理,得到特徵圖像; 基於目標檢測演算法對所述特徵圖像進行檢測,得到目標位置; 根據所述目標位置對所述特徵圖像進行分割,得到所述識別區域。
- 如請求項1所述的圖像識別方法,其中,在基於所述預測結果計算所述測試區域的預測準確率之前,所述圖像識別方法還包括: 獲取訓練圖像,並對所述訓練圖像進行檢測,得到訓練區域; 基於所述訓練區域對卷積神經網路進行反覆運算訓練,得到所述第一識別模型。
- 如請求項1所述的圖像識別方法,其中,所述預測結果包括所述測試區域的預測類別,所述基於所述預測結果計算所述測試區域的預測準確率包括: 將與標註類別相同的預測類別所對應的測試區域確定為特徵區域; 統計所述特徵區域的第一數量,並統計所述測試區域的第二數量; 根據所述第一數量及所述第二數量計算所述特徵區域在所述測試區域中所佔的比率,確定所述預測準確率。
- 如請求項4所述的圖像識別方法,其中,所述預測結果還包括所述特徵區域在所述預測類別上的第一概率,所述基於所述預測結果及所述測試區域生成與所述標註類別對應的目標區域包括: 根據所述預測類別對所述特徵區域進行分類,得到所述標註類別所對應的特徵區域; 將大於預設概率閥值的第一概率所對應的特徵區域確定為所述標註類別對應的目標區域。
- 如請求項1所述的圖像識別方法,其中,所述基於所述預測準確率及所述目標區域對所述第一識別模型進行調整,得到第二識別模型包括: 統計每個標註類別對應的目標區域的第三數量; 將小於第一預設值的第三數量所對應的目標區域進行資料增強,得到多個增強區域; 若所述預測準確率小於第二預設值,將所述多個增強區域輸入到所述第一識別模型中,直至所述預測準確率大於或者等於所述第二預設值,得到所述第二識別模型。
- 如請求項1所述的圖像識別方法,其中,所述對所述初始特徵矩陣進行升維處理,得到目標特徵矩陣包括: 統計所述初始特徵矩陣的矩陣行數及矩陣列數; 將所述矩陣行數與所述矩陣列數進行相乘運算,得到目標乘積; 將所述目標乘積進行質因數分解,得到多個質因數; 將所述多個質因數中相同的任意兩個質因數組合成質因數對,並計算所述質因數對中兩個質因數的乘積,得到特徵乘積,每個質因數只能組合一次; 根據所述目標乘積及所述特徵乘積從所述質因數對中選取目標質因數對; 提取所述目標質因數對中的一個質因數,得到特徵質因數; 根據所述目標質因數對的對數及所述特徵質因數生成特徵數值; 在所述多個質因數中將所述目標質因數對替換為零,在完成替換後將所有不為零的質因數進行相乘運算,得到目標數值; 基於配置值、所述目標數值及所述特徵數值,對所述初始特徵矩陣進行升維處理,得到所述目標特徵矩陣。
- 如請求項1所述的圖像識別方法,其中,所述將所述目標特徵矩陣輸入到所述識別層中,得到所述待識別圖像的識別結果包括: 將所述目標特徵矩陣輸入到所述識別層中,得到所述待識別圖像在所述標註類別上所對應的第二概率及每個標註類別中的多個子類別所對應的第三概率; 將取值最大的第二概率所對應的標註類別確定為目標類別; 將所述目標類別中取值最大的第三概率所對應的子類別確定為所述待識別圖像的識別結果。
- 一種電腦設備,其中,所述電腦設備包括: 儲存器,儲存至少一個指令;及 處理器,執行所述至少一個指令以實現如請求項1至8中任意一項所述的圖像識別方法。
- 一種電腦可讀儲存介質,其中:所述電腦可讀儲存介質中儲存有至少一個指令,所述至少一個指令被電腦設備中的處理器執行以實現如請求項1至8中任意一項所述的圖像識別方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111140739A TWI814623B (zh) | 2022-10-26 | 2022-10-26 | 圖像識別方法、電腦設備及儲存介質 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111140739A TWI814623B (zh) | 2022-10-26 | 2022-10-26 | 圖像識別方法、電腦設備及儲存介質 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI814623B TWI814623B (zh) | 2023-09-01 |
TW202418231A true TW202418231A (zh) | 2024-05-01 |
Family
ID=88966074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111140739A TWI814623B (zh) | 2022-10-26 | 2022-10-26 | 圖像識別方法、電腦設備及儲存介質 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI814623B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460389B (zh) * | 2017-02-20 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 一种识别图像中对象的类型预测方法、装置及电子设备 |
CN108388876B (zh) * | 2018-03-13 | 2022-04-22 | 腾讯科技(深圳)有限公司 | 一种图像识别方法、装置以及相关设备 |
CN108960189B (zh) * | 2018-07-20 | 2020-11-24 | 南京旷云科技有限公司 | 图像再识别方法、装置及电子设备 |
CN111339846B (zh) * | 2020-02-12 | 2022-08-12 | 深圳市商汤科技有限公司 | 图像识别方法及装置、电子设备和存储介质 |
TWI748781B (zh) * | 2020-12-03 | 2021-12-01 | 玉山商業銀行股份有限公司 | 文件內容識別方法、金融服務申請審核方法與系統 |
-
2022
- 2022-10-26 TW TW111140739A patent/TWI814623B/zh active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Few-shot cotton pest recognition and terminal realization | |
CN106960219B (zh) | 图片识别方法及装置、计算机设备及计算机可读介质 | |
Kao et al. | Visual aesthetic quality assessment with a regression model | |
CN110704842A (zh) | 一种恶意代码家族分类检测方法 | |
KR20180048930A (ko) | 분류를 위한 강제된 희소성 | |
CN110930419A (zh) | 图像分割方法、装置、电子设备及计算机存储介质 | |
CN110008853B (zh) | 行人检测网络及模型训练方法、检测方法、介质、设备 | |
CN110659495A (zh) | 一种恶意代码家族分类方法 | |
WO2019119396A1 (zh) | 人脸表情识别方法及装置 | |
US20210166058A1 (en) | Image generation method and computing device | |
CN111292334B (zh) | 一种全景图像分割方法、装置及电子设备 | |
WO2021238586A1 (zh) | 一种训练方法、装置、设备以及计算机可读存储介质 | |
Chew et al. | Large-scale 3D point-cloud semantic segmentation of urban and rural scenes using data volume decomposition coupled with pipeline parallelism | |
US20230021551A1 (en) | Using training images and scaled training images to train an image segmentation model | |
Andrushia et al. | RTS-ELM: an approach for saliency-directed image segmentation with ripplet transform | |
Deb et al. | LS-Net: A convolutional neural network for leaf segmentation of rosette plants | |
US11410016B2 (en) | Selective performance of deterministic computations for neural networks | |
Tang et al. | Two-stage filtering method to improve the performance of object detection trained by synthetic dataset in heavily cluttered industry scenes | |
CN111126501B (zh) | 一种图像识别方法、终端设备及存储介质 | |
Wu et al. | Image classification method rationally utilizing spatial information of the image | |
TW202418231A (zh) | 圖像識別方法、電腦設備及儲存介質 | |
Sun et al. | Randomized nonlinear two-dimensional principal component analysis network for object recognition | |
TWI814623B (zh) | 圖像識別方法、電腦設備及儲存介質 | |
CN110765917A (zh) | 适用于人脸识别模型训练的主动学习方法、装置、终端、介质 | |
CN114241411B (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 |