TWI786002B - 二維影像生成點雲與零件切割之整合模型的建立方法 - Google Patents

二維影像生成點雲與零件切割之整合模型的建立方法 Download PDF

Info

Publication number
TWI786002B
TWI786002B TW111108861A TW111108861A TWI786002B TW I786002 B TWI786002 B TW I786002B TW 111108861 A TW111108861 A TW 111108861A TW 111108861 A TW111108861 A TW 111108861A TW I786002 B TWI786002 B TW I786002B
Authority
TW
Taiwan
Prior art keywords
point cloud
model
integrated model
part cutting
layer
Prior art date
Application number
TW111108861A
Other languages
English (en)
Other versions
TW202336691A (zh
Inventor
林春宏
林晏瑜
Original Assignee
國立臺中科技大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立臺中科技大學 filed Critical 國立臺中科技大學
Priority to TW111108861A priority Critical patent/TWI786002B/zh
Application granted granted Critical
Publication of TWI786002B publication Critical patent/TWI786002B/zh
Publication of TW202336691A publication Critical patent/TW202336691A/zh

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Image Processing (AREA)

Abstract

本發明提供一種二維影像生成點雲與零件切割之整合模型的建立方法,其中該整合模型的輸入為一個二維RGB影像,該方法包含有以下步驟:使該二維RGB影像通過一編碼層,萃取其所包含的複數特徵;對該些特徵進行轉碼,產生複數轉碼後資料;使該些轉碼後資料通過一解碼層以進行解碼;以及輸出生成的複數點雲資料與複數零件切割結果。

Description

二維影像生成點雲與零件切割之整合模型的建立方法
本發明係與二維影像生成點雲的技術有關;特別是指一種二維影像生成點雲與零件切割之整合模型的建立方法。
在三維影像處理的電腦科學領域中,有學者提出一種僅輸入單張影像即可重建物件的三維點雲模型架構,此模型稱為「從二維影像切割三維點雲的零件」(part segmented 3D point cloud from a 2D RGB image,3D-PSRNet),其架構如圖1所示。此一研究結果比單獨生成點雲模型,然後再進行零件切割模型,可以提高其效能。主要的關鍵為點雲生成與切割間有相互的關係,因此結合的整體模型能夠進行互相傳播的目的。為此,該研究提出一個點雲位置座標的切割損失函數,此函數結合點雲位置的距離損失函數,確實可以提高零件切割的精確度。其損失的設計以錯誤的生成點雲資料和切割都將受到懲罰。
此一模型3D-PSRNet的總損失函數表示如下:L PSRNet =αL G3DL_CF L PSL_CESR
其中L G3DL_CF 是生成點雲的損失函數,係基於Chamfer距離的生成點雲之損失函數,而L PSL_CESR則是零件切割的損失函數,係採用基於點空間關係之交叉熵的零件切割損失函數,αβ分別是生成點雲與零件切割損失函數的權重。
該模型存在以下四個問題。第一個問題:此模型的編碼層(其架構請參照圖2)主要是對二維影像進行特徵的萃取,每層卷積層的降階採用步幅為2,有可能遺漏重要的特徵;第二個問題:由於生成點雲與零件切割任務不同,因此解碼層應該進行分層的處理;第三個問題:模型參數的回饋之關鍵為損失函數,此模型僅考慮到最接近點的零件類別,並沒有加上距離遠近的影響;第四個問題,對於生成點雲與零件切割的損失函數,此模型認為應該乘上超參數,也就是生成點雲的損失函數乘上104,其效果會越佳。
因此,此一模型仍有改進之空間。
有鑑於此,本發明將提出一種二維影像生成點雲與零件切割之整合模型的建立方法,能夠改良3D-PSRNet編碼層的降階方式,改變生成點雲、物件分類及零件切割的損失函數,並能新增物件分類的輸出。
本發明提供一種二維影像生成點雲與零件切割之整合模型的建立方法,其中該整合模型的輸入為一個二維RGB影像,包含有以下步驟:A.使該二維RGB影像通過一編碼層,萃取其所包含的複數特徵;B.對該些特徵進行轉碼,產生複數轉碼後資料;C.使該些轉碼後資料通過一解碼層以進行解碼;以及D.輸出生成的複數點雲資料與複數零件切割結果。
於一實施例中,步驟A中所使用的該編碼層係改良自習用的3D-PSRNet模型之編碼層,其第1至3卷積層之步幅為1。
於一實施例中,步驟C中所使用的解碼層為習用的3D-PSRNet模型之解碼層。
於一實施例中,該整合模型的損失函數為:L 2DG3DSNet =αL gen+βL seg
式中L_gen與L_seg分別是生成點雲及零件切割的損失函數,α與β分別是生成點雲與零件切割損失函數的權重。
於一實施例中,該方法所建立的整合模型更包含了物件分類的任務。
於一實施例中,包含有物件分類任務的該整合模型所使用的編碼層係改良自習用的3D-PSRNet模型之編碼層,其第1至3卷積層之步幅為1。
於一實施例中,包含有物件分類任務的該整合模型所使用的解碼層為習用的3D-PSRNet模型之解碼層。
於一實施例中,包含有物件分類任務的該整合模型的損失函數表示如下:L G3DSCNet =αL gen+βL seg+γL class
式中L genL segL class分別是生成點雲、零件切割以及物件分類的損失函數,αβγ分別是生成點雲、零件切割以及物件分類損失函數的權重。
藉此,本發明所提供之方法所建立的整合模型能夠改良3D-PSRNet編碼層的降階方式,解決該習用模型的前述問題。
S1、S2、S3、S4:步驟
圖1是先前技術3D-PSRNet模型架購的示意圖;圖2是先前技術3D-PSRNet模型架購的編碼層之架構圖; 圖3是本發明二維影像生成點雲與零件切割之整合模型的建立方法之流程圖;圖4是本發明前述方法建立之整合模型的架構圖;圖5是本發明改良後的編碼層之架構圖;圖6是本發明所採用的解碼層之架構圖;圖7(a)和圖7(b)是本發明採用的另二種解碼層;圖8(a)至圖8(d)是本發明採用四個損失函數的組合示意圖;圖9是本發明所建立的整合模型更包含有物件分類任務時的架構圖;以及圖10為前述包含有物件分類任務的整合模型所使用的解碼層之架構圖。
為能更清楚地說明本發明,茲舉較佳實施例並配合圖式詳細說明如後。請參照圖3及圖4,本發明提供的一種二維影像生成點雲與零件切割之整合模型的建立方法包含有四個步驟,其中該方法的輸入為一個二維RGB影像,且影像尺寸為W×H。於步驟S1,本方法使該二維RGB影像通過一編碼層,以萃取其所包含的複數特徵。本發明所採用的編碼層係改良自前述習用的3D-PSRNet模型(圖2),該編碼層的架構如圖5所示,其係將習用的3D-PSRNet編碼層的第1至3的卷積層之步幅2改成1,並在這些卷積層後進行最大池化層(maxpooling)處理。
接著,在本發明提供之方法的步驟S2,對該些特徵進行轉碼,產生複數轉碼後資料。然後該些轉碼後資料再於步驟S3通過一解碼層以進行解碼。本發明所採用的解碼層與PSRNet的解碼層相同,如圖6 所示;另外,本發明還可以進一步採用另二種編碼層,其架構如圖7(a)及圖7(b)所示。
本發明提出適應性生成點雲的AG3DL_CF損失函數L AG3DL_CF 如下所示:L AG3DL_CF =L AG3DL_CF1+L AG3DL_CF2
本發明以真實資料點為基準,逐一尋找座標距離最接近的預測點,係從真實點第i個點且i
Figure 111108861-A0305-02-0007-32
P ,逐一尋找預測點集合
Figure 111108861-A0305-02-0007-33
中與第i個真實點距離最接近的點,表示成i *i *
Figure 111108861-A0305-02-0007-34
。然後再將所有點計算Chamfer距離的交叉熵值,最後進行加總,所得即為所示公式中的L AG3DL_CF1損失函數,其公式如下:
Figure 111108861-A0305-02-0007-1
式中i *
Figure 111108861-A0305-02-0007-35
表示如下:
Figure 111108861-A0305-02-0007-30
Figure 111108861-A0305-02-0007-31
式中y i 是真實資料點的標籤p(i)與預測點的零件標籤
Figure 111108861-A0305-02-0007-36
(i * )之相似值,表示如下:
Figure 111108861-A0305-02-0007-3
本發明以預測點為基準,逐一尋找座標距離最接近的真實資料點,係從預測點第i個點且i
Figure 111108861-A0305-02-0007-37
,逐一尋找真實點集合 P 中與第i個預測點距離最接近的點,表示成i *i *
Figure 111108861-A0305-02-0007-38
P 。然後再將所有點計算Chamfer距離的交叉熵值,最後進行加總,所得即為前示公式中的L AG3DL_CF2損失函數,其表示如下:
Figure 111108861-A0305-02-0008-4
式中i *
Figure 111108861-A0305-02-0008-39
表示如下:
Figure 111108861-A0305-02-0008-6
Figure 111108861-A0305-02-0008-7
式中
Figure 111108861-A0305-02-0008-40
是預測點的零件標籤
Figure 111108861-A0305-02-0008-41
(i)與真實資料點的標籤p(i *)之相似值,表示如下:
Figure 111108861-A0305-02-0008-8
本研究提出適應性零件切割的APSL_CESR損失函數L APSL_CESR 如下所示:L APSL_CESR =L APSL_CESR1+L APSL_CESR2
其中L APSL_CESR1的表示如下:
Figure 111108861-A0305-02-0008-9
式中
Figure 111108861-A0305-02-0008-42
是第i *個預測(prediction)點的零件標籤為
Figure 111108861-A0305-02-0008-43
(i*)之信心分數(confidence),i *w i 是第i個真實點與預測點集合中距離最接近的點i *間的距離權重值,分別表示如下:
Figure 111108861-A0305-02-0008-11
Figure 111108861-A0305-02-0008-12
y i 是真實(ground truth)資料點的標籤p(i)與預測點的零件標籤
Figure 111108861-A0305-02-0008-44
(i *)之相似值,表示如下:
Figure 111108861-A0305-02-0008-13
其中L APSL_CESR2的表示如下:
Figure 111108861-A0305-02-0009-14
式中
Figure 111108861-A0305-02-0009-45
是第i *個預測(prediction)點的零件標籤為
Figure 111108861-A0305-02-0009-46
(i *)之信心分數(confidence),i *
Figure 111108861-A0305-02-0009-47
是第i個預測點與真實資料集合中距離最近的點i *間之距離權重值,分別表示如下:
Figure 111108861-A0305-02-0009-15
Figure 111108861-A0305-02-0009-18
Figure 111108861-A0305-02-0009-48
是零件標籤為
Figure 111108861-A0305-02-0009-49
(i)與真實(ground truth)資料點的標籤p(i *)與真之相似值,表示如下:
Figure 111108861-A0305-02-0009-19
本發明之方法建立之整合模型的損失函數表示如下:L 2DG3DSNet =αL gen+βL seg
式中L genL seg分別是生成點雲及零件切割的損失函數,αβ分別是生成點雲與零件切割損失函數的權重。本發明採用四個損失函數的組合,如圖8所示。
之後,請參照圖3,本發明提供之方法的步驟S4接著輸出生成的複數點雲資料與複數零件切割結果。
除上所述,本發明所提供之方法所建立的整合模型更進一步包含了物件分類的任務,該整合模型如圖9所示。由於輸入影像同樣為該二維RGB影像,此一包含了物件分類任務的整合模型也使用了同前所述的編碼層及解碼層。或者,其解碼層分別採用分享MLP的解碼層以及三個獨立任務的模組1與2(Decode 2與Decode 3),其模組如圖10所示。另外,損失函數表示如下:L G3DSCNet =αL gen+βL seg+γL class
式中L genL segL class分別是生成點雲、零件切割以及物件分類的損失函數,αβγ分別是生成點雲、零件切割以及物件分類損失函數的權重。
藉此,本發明所提出的二維影像生成點雲與零件切割之整合模型的建立方法,能夠改良3D-PSRNet編碼層的降階方式,改變生成點雲、物件分類及零件切割的損失函數,並能新增物件分類的輸出。
以上所述僅為本發明較佳可行實施例而已,舉凡應用本發明說明書及申請專利範圍所為之等效方法變化,理應包含在本發明之專利範圍內。
S1、S2、S3、S4:步驟

Claims (7)

  1. 一種二維影像生成點雲與零件切割之整合模型的建立方法,其中該整合模型的輸入為一個二維RGB影像,該方法包括:A.使該二維RGB影像通過一編碼層,萃取其所包含的複數特徵,該編碼層係改良自習用的3D-PSRNet模型之編碼層,其第1至3卷積層之步幅為1;B.對該些特徵進行轉碼,產生複數轉碼後資料;C.使該些轉碼後資料通過一解碼層以進行解碼;以及D.輸出生成的複數點雲資料與複數零件切割結果,該複數零件切割結果係藉由訓練後之該整合模型從該複數點雲資料進行零件切割而產生。
  2. 如請求項1所述之方法,其中步驟C中所使用的解碼層為習用的3D-PSRNet模型之解碼層。
  3. 如請求項1所述之方法,其中該整合模型的損失函數為:L 2DG3DSNet =αL gen+βL seg式中L genL seg分別是生成點雲及零件切割的損失函數,αβ分別是生成點雲與零件切割損失函數的權重。
  4. 如請求項1所述之方法,其中該方法所建立的整合模型更包含了物件分類的任務,而藉由訓練後之該整合模型對該複數點雲資料所代表之物件進行分類。
  5. 如請求項4所述之方法,其中包含有物件分類任務的該整合模型所使用的編碼層係改良自習用的3D-PSRNet模型之編碼層,其第1至3卷積層之步幅為1。
  6. 如請求項4所述之方法,其中包含有物件分類任務的該整合模型所使用的解碼層為習用的3D-PSRNet模型之解碼層。
  7. 如請求項4所述之方法,其中包含有物件分類任務的該整合模型的損失函數表示如下:L G3DSCNet =αL gen+βL seg+γL class式中L genL segL class分別是生成點雲、零件切割以及物件分類的損失函數,αβγ分別是生成點雲、零件切割以及物件分類損失函數的權重。
TW111108861A 2022-03-10 2022-03-10 二維影像生成點雲與零件切割之整合模型的建立方法 TWI786002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW111108861A TWI786002B (zh) 2022-03-10 2022-03-10 二維影像生成點雲與零件切割之整合模型的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111108861A TWI786002B (zh) 2022-03-10 2022-03-10 二維影像生成點雲與零件切割之整合模型的建立方法

Publications (2)

Publication Number Publication Date
TWI786002B true TWI786002B (zh) 2022-12-01
TW202336691A TW202336691A (zh) 2023-09-16

Family

ID=85794864

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111108861A TWI786002B (zh) 2022-03-10 2022-03-10 二維影像生成點雲與零件切割之整合模型的建立方法

Country Status (1)

Country Link
TW (1) TWI786002B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004275A (zh) * 2014-11-21 2017-08-01 Metaio有限公司 用于确定实物的至少一部分的处于绝对空间比例的3d重构件的空间坐标的方法和系统
TW202106024A (zh) * 2019-07-03 2021-02-01 法商法國內數位Vc控股簡易股份公司 點雲處理
CN112912920A (zh) * 2018-11-08 2021-06-04 华为技术有限公司 用于2d卷积神经网络的点云数据转换方法和系统
TW202133622A (zh) * 2020-01-08 2021-09-01 美商高通公司 用於基於幾何圖形的點雲壓縮的量化
TW202143726A (zh) * 2020-04-08 2021-11-16 美商高通公司 用於基於幾何形狀的點雲壓縮的角度模式簡化
TW202147842A (zh) * 2020-06-10 2021-12-16 大陸商Oppo廣東移動通信有限公司 點雲品質評估方法、編碼器、解碼器及儲存媒介

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004275A (zh) * 2014-11-21 2017-08-01 Metaio有限公司 用于确定实物的至少一部分的处于绝对空间比例的3d重构件的空间坐标的方法和系统
CN112912920A (zh) * 2018-11-08 2021-06-04 华为技术有限公司 用于2d卷积神经网络的点云数据转换方法和系统
TW202106024A (zh) * 2019-07-03 2021-02-01 法商法國內數位Vc控股簡易股份公司 點雲處理
TW202133622A (zh) * 2020-01-08 2021-09-01 美商高通公司 用於基於幾何圖形的點雲壓縮的量化
TW202143726A (zh) * 2020-04-08 2021-11-16 美商高通公司 用於基於幾何形狀的點雲壓縮的角度模式簡化
TW202147842A (zh) * 2020-06-10 2021-12-16 大陸商Oppo廣東移動通信有限公司 點雲品質評估方法、編碼器、解碼器及儲存媒介

Also Published As

Publication number Publication date
TW202336691A (zh) 2023-09-16

Similar Documents

Publication Publication Date Title
Rafi et al. An Efficient Convolutional Network for Human Pose Estimation.
US11263259B2 (en) Compositing aware digital image search
US20220058429A1 (en) Method for fine-grained sketch-based scene image retrieval
CN111670457B (zh) 动态对象实例检测、分割和结构映射的优化
CN111684490A (zh) 动态对象实例检测、分割和结构映射的优化
CN109377530A (zh) 一种基于深度神经网络的双目深度估计方法
CN107229757A (zh) 基于深度学习和哈希编码的视频检索方法
CN117597703B (zh) 用于图像分析的多尺度变换器
KR20120093981A (ko) 증강 현실에서 동적 모델링에 의한 강건한 대상 인식
CN110889416B (zh) 一种基于级联改良网络的显著性物体检测方法
Dandıl et al. Real-time facial emotion classification using deep learning
Kaul et al. FatNet: A feature-attentive network for 3D point cloud processing
WO2023272995A1 (zh) 一种行人重识别方法、装置、设备及可读存储介质
WO2023036157A1 (en) Self-supervised spatiotemporal representation learning by exploring video continuity
CN116580278A (zh) 一种基于多注意力机制的唇语识别方法、设备及存储介质
CN112241959A (zh) 基于超像素的注意力机制生成语义分割方法
KR20230071052A (ko) 이미지 처리 방법 및 장치
Zheng et al. La-net: Layout-aware dense network for monocular depth estimation
CN116704506A (zh) 一种基于交叉环境注意力的指代图像分割方法
Agyeman et al. Optimizing spatiotemporal feature learning in 3D convolutional neural networks with pooling blocks
Yu et al. Hand gesture recognition based on attentive feature fusion
TWI786002B (zh) 二維影像生成點雲與零件切割之整合模型的建立方法
Wang et al. LCH: fast RGB-D salient object detection on CPU via lightweight convolutional network with hybrid knowledge distillation
Jiang et al. SFSegNet: Parse freehand sketches using deep fully convolutional networks
Zhu et al. CED-Net: contextual encoder–decoder network for 3D face reconstruction