TWI739401B - 物件分類方法及物件分類裝置 - Google Patents
物件分類方法及物件分類裝置 Download PDFInfo
- Publication number
- TWI739401B TWI739401B TW109113415A TW109113415A TWI739401B TW I739401 B TWI739401 B TW I739401B TW 109113415 A TW109113415 A TW 109113415A TW 109113415 A TW109113415 A TW 109113415A TW I739401 B TWI739401 B TW I739401B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- output
- object classification
- layer
- branches
- Prior art date
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本揭露提出一種物件分類方法及物件分類裝置。物件分類方法包括:透過卷積神經網路模型接收物件的輸入圖像並將輸入圖像轉換為RGB色彩空間的第一圖像、HSV色彩空間的第二圖像及YCrCb色彩空間的第三圖像;將第一圖像、第二圖像及第三圖像分別編碼為第一編碼數據、第二編碼數據及第三編碼數據,並串聯第一編碼數據、第二編碼數據及第三編碼數據成為串聯輸出,其中串聯輸出與輸入圖像的寬度及高度相同且深度維度不同;以及解碼串聯輸出產生解碼數據並根據解碼數據產生分類輸出。
Description
本揭露是有關於一種物件分類方法及物件分類裝置,且特別是有關於一種基於深度學習演算法的物件分類方法及物件分類裝置。
隨著機器學習的發展,物件辨識或物件分類方法逐漸被開發出來。然而,目前的物件辨識技術中在辨識真假物件的效果並不好,例如無法分辨真實人臉或假的人臉。因此,如何建立一個能辨識真假物件外觀表面的系統是本領域技術人員應致力的目標。
有鑑於此,本揭露提供一種物件分類方法及物件分類裝置,能辨識真假物件外觀表面並進行分類。
本揭露提出一種物件分類方法,包括:透過卷積神經網路模型接收物件的輸入圖像並將輸入圖像轉換為RGB色彩空間的第一圖像、HSV色彩空間的第二圖像及YCrCb色彩空間的第三圖像;
將第一圖像、第二圖像及第三圖像分別編碼為第一編碼數據、第二編碼數據及第三編碼數據,並串聯第一編碼數據、第二編碼數據及第三編碼數據成為串聯輸出,其中串聯輸出與輸入圖像的寬度及高度相同且深度維度不同;以及解碼串聯輸出產生解碼數據並根據解碼數據產生分類輸出。
基於上述,本揭露的物件分類方法及物件分類裝置將輸入圖像轉換成三個不同色彩空間的圖像,並將轉換後的圖像進行編碼再串聯輸出。串聯輸出與輸入圖像的寬度及高度相同且深度維度不同。最後,對串聯輸出進行解碼以產生解碼數據並根據解碼數據產生分類輸出。
100:物件分類裝置
110:處理器
120:記憶體
210:輸入圖像
221:RGB色彩空間
222:HSV色彩空間
223:YCrCb色彩空間
231~233:編碼器
240:串聯模組
250:解碼器
261~262:全連接層
270:分類輸出
310:輸入資料
321:多個第一卷積層
322:多個第二卷積層
323:多個第三卷積層
331:第一池化層
332:第二池化層
340:串聯模組
350:串聯輸出
圖1為根據本揭露一實施例的物件分類裝置的方塊圖。
圖2為根據本揭露一實施例的物件分類方法的架構圖。
圖3為根據本揭露一實施例的物件分類方法分支結構的示意圖。
圖1為根據本揭露一實施例的物件分類裝置的方塊圖。
請參考圖1,本揭露一實施例的物件分類裝置100包括處理器110及記憶體120。記憶體120耦接到處理器110。物件分類
裝置100例如是個人電腦、筆記型電腦、平板電腦、智慧型手機或其他類似裝置。處理器110例如是中央處理器(Central Processing Unit,CPU)或其他類似裝置。記憶體120可包括揮發性記憶體模組(例如,動態隨機存取記憶體等裝置)及非揮發性記憶體模組(例如,硬碟、固態硬碟等裝置)。在一實施例中,記憶體120可儲存人工智慧模組(例如,卷積神經網路模組),且處理器110可執行人工智慧模組以進行物件分類、物件辨識及模型訓練等操作。
圖2為根據本揭露一實施例的物件分類方法的架構圖。
請參照圖2,本揭露一實施例的物件分類方法透過卷積神經網路(Convolutional Neural Network,CNN)模型接收物件的輸入圖像210並將輸入圖像210轉換為RGB色彩空間221的第一圖像、HSV色彩空間222的第二圖像及YCrCb色彩空間223的第三圖像,並將第一圖像、第二圖像及第三圖像透過編碼器231、編碼器232及編碼器233分別編碼為第一編碼數據、第二編碼數據及第三編碼數據。物件可包括人臉、動物、植物及物體。接著,第一編碼數據、第二編碼數據及第三編碼數據在串聯模組240被串聯成為串聯輸出。串聯輸出與輸入圖像210的寬度及高度相同且深度維度不同。解碼器250解碼串聯輸出產生解碼數據,解碼數據通過全連接層261及全連接層262,最後根據解碼數據產生分類輸出270。
圖3為根據本揭露一實施例的物件分類方法的一分支結構的示意圖。
請參照圖3,對應不同色彩空間的每個分支的分支結構依序包括輸入資料310、多個第一卷積層321、第一池化層331、多個第二卷積層322、第二池化層332及多個第三卷積層323。第一池化層331、第二池化層332及第三卷積層323的多個輸出透過串聯模組340產生串聯輸出350。值得注意的是,第一池化層331對應64x64的特徵、第二池化層332對應32x32的特徵且串聯輸出350對應32x32的特徵。在各個卷積層中的激勵函數為整流線性單位函數(Rectified Linear Unit,ReLU),並具有以下方程式:y=max(0,x)。在本實施例中,整流線性單位函數激勵函數可使卷積神經網路模型的收斂速度比S函數(即,Sigmoid)或雙曲正切函數(即,tanh)等激勵函數來得快。值得注意的是,分支的分支結構可對多維視點進行建模操作,並在單色空間及多個色彩空間對該輸入資料310(或稱為輸入圖像)進行操作。
表三為根據本揭露一實施例的分支結構表。
在上表三中,「Conv2d_1」到「Conv2d_4」、「Conv2d_5」到「Conv2d_7」及「Conv2d_8」到「Conv2d_10」分別對應多個第一卷積層321、多個第二卷積層322及多個第三卷積層323。「Pooling_1」及「Pooling_2」分別對應第一池化層331及第二池化層332。
請再參考圖2,在一實施例中,訓練卷積神經網路模型包括第一步驟及第二步驟。第一步驟包括訓練對應多個色彩空間的多個分支的多個自動編碼(AutoEncoder)模型且輸出標籤為自動編碼模型的輸入,如此可讓卷積神經網路模型選出最重要的特徵來重建輸入圖像210。第二步驟包括串聯分支並在對應分支的解碼器231、解碼器232、解碼器233後連接多個全連接層261、全連接層262及輸出層270。在第二步驟中分支及解碼器231、解碼器232、解碼器233不進行訓練(即,被凍結)且全連接層261、全連接層262及輸出層270被訓練。
為了得知物體的真假資訊(例如,真臉或假臉),二元交叉熵損失(Cross-Entropy Loss)函數被用於判斷輸入圖像210的機率。二元交叉熵損失又稱為S(Sigmoid)交叉熵損失,由S激勵加上交叉熵損失組成。與「softmax」損失函數相比,二元交叉熵損失的每個向量元件(即,分類)都是獨立的,也就是說每個卷積神經網路輸出向量元件計算出的損失不被其他元件的值所影響因此用於多標籤分類,因此屬於特定分類元件的洞察(insight)不會被其他分類的決定所影響。
CE=-t 1 log(f(s i ))-(1-t 1)log(1-f(s 1))
如此一來,每個C分類可包括一個管道(pipeline)。C獨立二元分類問題C'=2可被設立。接著,不同二元問題的損失可被加總。具體來說,每個二元問題的梯度(gradient)會被加總來回傳(backpropagate),且每個損失會被加總來監控全域損失。上述方程式中的s 1與t 1為C 1分類(即,C中的C i 分類)的分數與真實標籤(ground truth label)。s 2=1-s 1與t 2=1-t 1為C 2分類的分數與真實標籤,其中C 2並不是原始問題對應C的分類,而是本揭露創造的分類來設
定對應C 1=C i 的二元問題。也就是說,C 2為一個背景分類。損失可透過以下方程式表示:
當t 1=1時,代表分類C 1=C i 在此樣本為正。
在此情況中,激勵函數並不相依於C中C 1=C i 以外的其他分類的分數。因此,對應於s中的每個分數s i 的梯度僅會相依於給定的二元問題的損失。
其中,f()為S函數。
在一實施例中,一種具有KL(Kullback-Leibler)散度的約束非負矩陣分解(Nonnegative Matrix Factorization,NMF)模型可用於分類輸出270的資料表示(data representation)。此約束非負矩陣分解模型可被稱為由大型基礎錐及稀疏表示所約束的具有KL散度的非負矩陣分解,簡稱為「conespaNMF_KL」。「conespaNMF_KL」可透過基礎上的大型單純錐(large simplicial cone)約束和提取特徵上的稀疏正則化(sparse regularization)來實現稀疏性。在約束非負矩陣分解模型中,基本矩陣(即,W)及編碼矩陣(即,V)被約束以進行特徵提取操作。非負資料矩陣根據基本矩陣及編碼矩陣來產生。約束非負矩陣分解模型透過最大化基本矩陣上的基本錐體體積來約束基本矩陣,並透過最小化編碼矩陣的稀疏性來約束編碼矩陣。稀疏性可根據最大後驗(Maximum a Posteriori,MAP)估計來產生。
在一實施例中,給定一個非負資料矩陣x N×M ,標準非負矩陣分解會找出兩個非負低秩矩陣W N×K 及V K×M 其積可近似原始矩陣X。非負矩陣分解的其中一個優勢為其目標散度函數選擇上的靈活性。非負矩陣分解可包括多種變化型利用不同資訊的散度。「Csisz'ar」的φ散度及α或β散度為一般用於重建非負矩陣分解的錯誤函數的矩陣分類。KL散度給定α=1及β=0的特殊情況中,具有KL散度的非負矩陣分解成本函數如以下方程式(1):
在方程式(1)定義的具有KL散度的非負矩陣分解的分解問題中,本揭露的「conespaNMF_KL」目的在於藉由利用以下兩個新增的約束來增強在資料表示上的效能。
[約束1]
最大化W上的基本錐體體積,以提高泛化(generalization)能力。
給定向量由W的多個行所定義的單形(simplex)S w ,在1 T W i =1,i=1,...,K的假設下,單形S w 的體積可被簡化為以下方程式(4):
f vol_cone (W)=log(det(W T W))......................................................(4)
[約束2]
最小化編碼矩陣V的稀疏性。稀疏性約束對於隱藏元件是重要的,且有助於改善分解的唯一性同時強制基於局部(local-based)的表示。稀疏性標準可從最大後驗(Maximum a Posterori,MAP)估計導出,即fsparse(.)是懲罰非零增益的函數。
在此,α及λ用於平衡具有KL散度的非負矩陣分解的重建錯誤的正確性、W的體積約束及V的稀疏性懲罰之間的權衡關係。
若放寬稀疏條件(λ=0)或體積錐(γ),以下方程式(7)變成錐約束非負矩陣分解(coneNMF_KL)及稀疏約束非負矩陣分解(spaNMF_KL)的問題。
迭代估計演算法從隨機初始化的矩陣W及V開始並使用倍數(multiplicative)更新規則直到數值收斂。
▽w f vol_cone (W,V)=2(W †) T ....................................................(9)
其中,「†」表示摩爾-彭若斯偽逆(Moore-Penrose pseudoinverse)。
在一實施例中,藉由對基本矩陣及編碼矩陣都施加約束,「conespaNMF_KL」可提取有用特徵並增強臉部表情辨識(Face Expression Recognition,FER)及臉部辨識(Face Recognition,FR)的系統。
綜上所述,本揭露的物件分類方法及物件分類裝置將輸入圖像轉換成三個不同色彩空間的圖像,並將轉換後的圖像進行編碼再串聯輸出。串聯輸出與輸入圖像的寬度及高度相同且深度維度不同。最後,對串聯輸出進行解碼以產生解碼數據並根據解碼數據產生分類輸出。分類輸出會用具有KL散度的約束非負矩陣分解模型進行資料表示。
雖然本揭露已以實施例揭露如上,然其並非用以限定本揭露,任何所屬技術領域中具有通常知識者,在不脫離本揭露的精神和範圍內,當可作些許的更動與潤飾,故本揭露的保護範圍當視後附的申請專利範圍所界定者為準。
210:輸入圖像
221:RGB色彩空間
222:HSV色彩空間
223:YCrCb色彩空間
231~233:編碼器
240:串聯模組
250:解碼器
261~262:全連接層
270:分類輸出
Claims (10)
- 一種物件分類方法,包括:透過一卷積神經網路模型接收一物件的一輸入圖像並將該輸入圖像轉換為一RGB色彩空間的一第一圖像、一HSV色彩空間的一第二圖像及一YCrCb色彩空間的一第三圖像;將該第一圖像、該第二圖像及該第三圖像分別編碼為一第一編碼數據、一第二編碼數據及一第三編碼數據,並串聯該第一編碼數據、該第二編碼數據及該第三編碼數據成為一串聯輸出,其中該串聯輸出與該輸入圖像的一寬度及一高度相同且一深度維度不同;以及解碼該串聯輸出產生一解碼數據並根據該解碼數據產生一分類輸出,該分類輸出透過具有一KL(Kullback-Leibler)散度的一約束非負矩陣分解(Nonnegative Matrix Factorization,NMF)模型來表示,其中該約束非負矩陣分解模型透過基礎上的一大型單純錐(large simplicial cone)約束和提取特徵上的稀疏正則化(sparse regularization)來獲得稀疏性。
- 如請求項1所述的物件分類方法,其中該物件包括一人臉、一動物、一植物及一物體。
- 如請求項1所述的物件分類方法,其中訓練該卷積神經網路模型包括一第一步驟及一第二步驟,該第一步驟包括訓練對應多個色彩空間的多個分支的多個自動編碼(AutoEncoder)模型 且一輸出標籤為該些自動編碼模型的一輸入,該第二步驟包括串聯該些分支並在對應該些分支的一解碼器後連接多個全連接層及一輸出層,其中在該第二步驟中該些分支及該解碼器不進行訓練且該些全連接層及該輸出層被訓練。
- 如請求項1所述的物件分類方法,其中該些色彩空間對應多個分支,該分類輸出在該解碼數據通過一第一全連接層及一第二全連接層之後產生。
- 如請求項1所述的物件分類方法,其中該些色彩空間對應多個分支,該些分支的分支結構依序包括多個第一卷積層、一第一池化層、多個第二卷積層、一第二池化層及多個第三卷積層,其中該第一池化層、該第二池化層及該第三卷積層的多個輸出透過一串聯模組產生該串聯輸出。
- 如請求項1所述的物件分類方法,其中該些色彩空間對應多個分支,該些分支的分支結構依序包括多個第一卷積層、一第一池化層、多個第二卷積層、一第二池化層及多個第三卷積層,該些第三卷積層的通道數大於該些第二卷積層的通道數且該些第二卷積層的通道數大於該些第一卷積層的通道數,該些第一卷積層的一輸出尺寸大於該第一池化層及該第二卷積層的該輸出尺寸且該些第二卷積層的該輸出尺寸大於該第二池化層及該第三卷積層的該輸出尺寸。
- 如請求項4所述的物件分類方法,其中該些分支的分支結構對多維視點進行一建模操作,並在一單色空間及多個色彩空間對該輸入圖像進行操作。
- 如請求項1所述的物件分類方法,其中在該約束非負矩陣分解模型中,一基本矩陣及一編碼矩陣被約束以進行一特徵提取操作,其中一非負資料矩陣根據該基本矩陣及一編碼矩陣來產生。
- 如請求項8所述的物件分類方法,其中該約束非負矩陣分解模型透過最大化該基本矩陣上的基本錐體體積來約束該基本矩陣,並透過最小化該編碼矩陣的一稀疏性來約束該編碼矩陣,其中該稀疏性根據一最大後驗(Maximum a Posteriori,MAP)估計來產生。
- 一種物件分類裝置,包括:一處理器,其中該處理器透過一卷積神經網路模型接收一物件的一輸入圖像並將該輸入圖像轉換為一RGB色彩空間的一第一圖像、一HSV色彩空間的一第二圖像及一YCrCb色彩空間的一第三圖像;將該第一圖像、該第二圖像及該第三圖像分別編碼為一第一編碼數據、一第二編碼數據及一第三編碼數據,並串聯該第一編碼數據、該第二編碼數據及該第三編碼數據成為一串聯輸出,其中該串聯輸出與該輸入圖像的一寬度及一高度相同且一深度維度不同;以及 解碼該串聯輸出產生一解碼數據並根據該解碼數據產生一分類輸出,該分類輸出透過具有一KL(Kullback-Leibler)散度的一約束非負矩陣分解(Nonnegative Matrix Factorization,NMF)模型來表示,其中該約束非負矩陣分解模型透過基礎上的一大型單純錐(large simplicial cone)約束和提取特徵上的稀疏正則化(sparse regularization)來獲得稀疏性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109113415A TWI739401B (zh) | 2020-04-22 | 2020-04-22 | 物件分類方法及物件分類裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109113415A TWI739401B (zh) | 2020-04-22 | 2020-04-22 | 物件分類方法及物件分類裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI739401B true TWI739401B (zh) | 2021-09-11 |
TW202141343A TW202141343A (zh) | 2021-11-01 |
Family
ID=78777992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109113415A TWI739401B (zh) | 2020-04-22 | 2020-04-22 | 物件分類方法及物件分類裝置 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI739401B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631398A (zh) * | 2014-11-24 | 2016-06-01 | 三星电子株式会社 | 识别对象的方法和设备以及训练识别器的方法和设备 |
CN109886267A (zh) * | 2019-01-29 | 2019-06-14 | 杭州电子科技大学 | 一种基于最优特征选择的低对比度图像显著性检测方法 |
CN109948692A (zh) * | 2019-03-16 | 2019-06-28 | 四川大学 | 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法 |
TWM592541U (zh) * | 2019-11-01 | 2020-03-21 | 華南商業銀行股份有限公司 | 影像辨識系統 |
-
2020
- 2020-04-22 TW TW109113415A patent/TWI739401B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631398A (zh) * | 2014-11-24 | 2016-06-01 | 三星电子株式会社 | 识别对象的方法和设备以及训练识别器的方法和设备 |
CN109886267A (zh) * | 2019-01-29 | 2019-06-14 | 杭州电子科技大学 | 一种基于最优特征选择的低对比度图像显著性检测方法 |
CN109948692A (zh) * | 2019-03-16 | 2019-06-28 | 四川大学 | 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法 |
TWM592541U (zh) * | 2019-11-01 | 2020-03-21 | 華南商業銀行股份有限公司 | 影像辨識系統 |
Also Published As
Publication number | Publication date |
---|---|
TW202141343A (zh) | 2021-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165306B (zh) | 基于多任务哈希学习的图像检索方法 | |
Santa Cruz et al. | Deeppermnet: Visual permutation learning | |
Xiang et al. | Fabric image retrieval system using hierarchical search based on deep convolutional neural network | |
Chen et al. | Fast image tagging | |
Santa Cruz et al. | Visual permutation learning | |
US9330332B2 (en) | Fast computation of kernel descriptors | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
Do et al. | Simultaneous feature aggregating and hashing for large-scale image search | |
CN104112018B (zh) | 一种大规模图像检索方法 | |
Kiros et al. | Deep representations and codes for image auto-annotation | |
CN110188827A (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
Champ et al. | A comparative study of fine-grained classification methods in the context of the LifeCLEF plant identification challenge 2015 | |
Gu et al. | From pixel to patch: Synthesize context-aware features for zero-shot semantic segmentation | |
CN109255381A (zh) | 一种基于二阶vlad稀疏自适应深度网络的图像分类方法 | |
CN103942214B (zh) | 基于多模态矩阵填充的自然图像分类方法及装置 | |
CN114896434A (zh) | 一种基于中心相似度学习的哈希码生成方法及装置 | |
Feng et al. | Deep image set hashing | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN111709442A (zh) | 一种面向图像分类任务的多层字典学习方法 | |
Shamsabadi et al. | A new algorithm for training sparse autoencoders | |
Nandan et al. | Handwritten digit recognition using ensemble learning | |
Yao | A compressed deep convolutional neural networks for face recognition | |
TWI739401B (zh) | 物件分類方法及物件分類裝置 | |
Mostafa et al. | Facial Expressions Recognition Via CNNCraft-net for Static RGB Images. | |
Li | Application of CLIP on Advanced GAN of Zero-Shot Learning |