TWI786002B - 二維影像生成點雲與零件切割之整合模型的建立方法 - Google Patents
二維影像生成點雲與零件切割之整合模型的建立方法 Download PDFInfo
- Publication number
- TWI786002B TWI786002B TW111108861A TW111108861A TWI786002B TW I786002 B TWI786002 B TW I786002B TW 111108861 A TW111108861 A TW 111108861A TW 111108861 A TW111108861 A TW 111108861A TW I786002 B TWI786002 B TW I786002B
- Authority
- TW
- Taiwan
- Prior art keywords
- point cloud
- model
- integrated model
- part cutting
- layer
- Prior art date
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Image Processing (AREA)
Abstract
本發明提供一種二維影像生成點雲與零件切割之整合模型的建立方法,其中該整合模型的輸入為一個二維RGB影像,該方法包含有以下步驟:使該二維RGB影像通過一編碼層,萃取其所包含的複數特徵;對該些特徵進行轉碼,產生複數轉碼後資料;使該些轉碼後資料通過一解碼層以進行解碼;以及輸出生成的複數點雲資料與複數零件切割結果。
Description
本發明係與二維影像生成點雲的技術有關;特別是指一種二維影像生成點雲與零件切割之整合模型的建立方法。
在三維影像處理的電腦科學領域中,有學者提出一種僅輸入單張影像即可重建物件的三維點雲模型架構,此模型稱為「從二維影像切割三維點雲的零件」(part segmented 3D point cloud from a 2D RGB image,3D-PSRNet),其架構如圖1所示。此一研究結果比單獨生成點雲模型,然後再進行零件切割模型,可以提高其效能。主要的關鍵為點雲生成與切割間有相互的關係,因此結合的整體模型能夠進行互相傳播的目的。為此,該研究提出一個點雲位置座標的切割損失函數,此函數結合點雲位置的距離損失函數,確實可以提高零件切割的精確度。其損失的設計以錯誤的生成點雲資料和切割都將受到懲罰。
此一模型3D-PSRNet的總損失函數表示如下:L PSRNet =αL G3DL_CF +βL PSL_CESR
其中L G3DL_CF 是生成點雲的損失函數,係基於Chamfer距離的生成點雲之損失函數,而L PSL_CESR則是零件切割的損失函數,係採用基於點空間關係之交叉熵的零件切割損失函數,α與β分別是生成點雲與零件切割損失函數的權重。
該模型存在以下四個問題。第一個問題:此模型的編碼層(其架構請參照圖2)主要是對二維影像進行特徵的萃取,每層卷積層的降階採用步幅為2,有可能遺漏重要的特徵;第二個問題:由於生成點雲與零件切割任務不同,因此解碼層應該進行分層的處理;第三個問題:模型參數的回饋之關鍵為損失函數,此模型僅考慮到最接近點的零件類別,並沒有加上距離遠近的影響;第四個問題,對於生成點雲與零件切割的損失函數,此模型認為應該乘上超參數,也就是生成點雲的損失函數乘上104,其效果會越佳。
因此,此一模型仍有改進之空間。
有鑑於此,本發明將提出一種二維影像生成點雲與零件切割之整合模型的建立方法,能夠改良3D-PSRNet編碼層的降階方式,改變生成點雲、物件分類及零件切割的損失函數,並能新增物件分類的輸出。
本發明提供一種二維影像生成點雲與零件切割之整合模型的建立方法,其中該整合模型的輸入為一個二維RGB影像,包含有以下步驟:A.使該二維RGB影像通過一編碼層,萃取其所包含的複數特徵;B.對該些特徵進行轉碼,產生複數轉碼後資料;C.使該些轉碼後資料通過一解碼層以進行解碼;以及D.輸出生成的複數點雲資料與複數零件切割結果。
於一實施例中,步驟A中所使用的該編碼層係改良自習用的3D-PSRNet模型之編碼層,其第1至3卷積層之步幅為1。
於一實施例中,步驟C中所使用的解碼層為習用的3D-PSRNet模型之解碼層。
於一實施例中,該整合模型的損失函數為:L 2DG3DSNet =αL gen+βL seg
式中L_gen與L_seg分別是生成點雲及零件切割的損失函數,α與β分別是生成點雲與零件切割損失函數的權重。
於一實施例中,該方法所建立的整合模型更包含了物件分類的任務。
於一實施例中,包含有物件分類任務的該整合模型所使用的編碼層係改良自習用的3D-PSRNet模型之編碼層,其第1至3卷積層之步幅為1。
於一實施例中,包含有物件分類任務的該整合模型所使用的解碼層為習用的3D-PSRNet模型之解碼層。
於一實施例中,包含有物件分類任務的該整合模型的損失函數表示如下:L G3DSCNet =αL gen+βL seg+γL class
式中L gen、L seg與L class分別是生成點雲、零件切割以及物件分類的損失函數,α、β與γ分別是生成點雲、零件切割以及物件分類損失函數的權重。
藉此,本發明所提供之方法所建立的整合模型能夠改良3D-PSRNet編碼層的降階方式,解決該習用模型的前述問題。
S1、S2、S3、S4:步驟
圖1是先前技術3D-PSRNet模型架購的示意圖;圖2是先前技術3D-PSRNet模型架購的編碼層之架構圖;
圖3是本發明二維影像生成點雲與零件切割之整合模型的建立方法之流程圖;圖4是本發明前述方法建立之整合模型的架構圖;圖5是本發明改良後的編碼層之架構圖;圖6是本發明所採用的解碼層之架構圖;圖7(a)和圖7(b)是本發明採用的另二種解碼層;圖8(a)至圖8(d)是本發明採用四個損失函數的組合示意圖;圖9是本發明所建立的整合模型更包含有物件分類任務時的架構圖;以及圖10為前述包含有物件分類任務的整合模型所使用的解碼層之架構圖。
為能更清楚地說明本發明,茲舉較佳實施例並配合圖式詳細說明如後。請參照圖3及圖4,本發明提供的一種二維影像生成點雲與零件切割之整合模型的建立方法包含有四個步驟,其中該方法的輸入為一個二維RGB影像,且影像尺寸為W×H。於步驟S1,本方法使該二維RGB影像通過一編碼層,以萃取其所包含的複數特徵。本發明所採用的編碼層係改良自前述習用的3D-PSRNet模型(圖2),該編碼層的架構如圖5所示,其係將習用的3D-PSRNet編碼層的第1至3的卷積層之步幅2改成1,並在這些卷積層後進行最大池化層(maxpooling)處理。
接著,在本發明提供之方法的步驟S2,對該些特徵進行轉碼,產生複數轉碼後資料。然後該些轉碼後資料再於步驟S3通過一解碼層以進行解碼。本發明所採用的解碼層與PSRNet的解碼層相同,如圖6
所示;另外,本發明還可以進一步採用另二種編碼層,其架構如圖7(a)及圖7(b)所示。
本發明提出適應性生成點雲的AG3DL_CF損失函數L AG3DL_CF 如下所示:L AG3DL_CF =L AG3DL_CF1+L AG3DL_CF2
本發明以真實資料點為基準,逐一尋找座標距離最接近的預測點,係從真實點第i個點且i P ,逐一尋找預測點集合中與第i個真實點距離最接近的點,表示成i *且i * 。然後再將所有點計算Chamfer距離的交叉熵值,最後進行加總,所得即為所示公式中的L AG3DL_CF1損失函數,其公式如下:
本發明以預測點為基準,逐一尋找座標距離最接近的真實資料點,係從預測點第i個點且i ,逐一尋找真實點集合 P 中與第i個預測點距離最接近的點,表示成i *且i * P 。然後再將所有點計算Chamfer距離的交叉熵值,最後進行加總,所得即為前示公式中的L AG3DL_CF2損失函數,其表示如下:
本研究提出適應性零件切割的APSL_CESR損失函數L APSL_CESR 如下所示:L APSL_CESR =L APSL_CESR1+L APSL_CESR2
本發明之方法建立之整合模型的損失函數表示如下:L 2DG3DSNet =αL gen+βL seg
式中L gen與L seg分別是生成點雲及零件切割的損失函數,α與β分別是生成點雲與零件切割損失函數的權重。本發明採用四個損失函數的組合,如圖8所示。
之後,請參照圖3,本發明提供之方法的步驟S4接著輸出生成的複數點雲資料與複數零件切割結果。
除上所述,本發明所提供之方法所建立的整合模型更進一步包含了物件分類的任務,該整合模型如圖9所示。由於輸入影像同樣為該二維RGB影像,此一包含了物件分類任務的整合模型也使用了同前所述的編碼層及解碼層。或者,其解碼層分別採用分享MLP的解碼層以及三個獨立任務的模組1與2(Decode 2與Decode 3),其模組如圖10所示。另外,損失函數表示如下:L G3DSCNet =αL gen+βL seg+γL class
式中L gen、L seg與L class分別是生成點雲、零件切割以及物件分類的損失函數,α、β與γ分別是生成點雲、零件切割以及物件分類損失函數的權重。
藉此,本發明所提出的二維影像生成點雲與零件切割之整合模型的建立方法,能夠改良3D-PSRNet編碼層的降階方式,改變生成點雲、物件分類及零件切割的損失函數,並能新增物件分類的輸出。
以上所述僅為本發明較佳可行實施例而已,舉凡應用本發明說明書及申請專利範圍所為之等效方法變化,理應包含在本發明之專利範圍內。
S1、S2、S3、S4:步驟
Claims (7)
- 一種二維影像生成點雲與零件切割之整合模型的建立方法,其中該整合模型的輸入為一個二維RGB影像,該方法包括:A.使該二維RGB影像通過一編碼層,萃取其所包含的複數特徵,該編碼層係改良自習用的3D-PSRNet模型之編碼層,其第1至3卷積層之步幅為1;B.對該些特徵進行轉碼,產生複數轉碼後資料;C.使該些轉碼後資料通過一解碼層以進行解碼;以及D.輸出生成的複數點雲資料與複數零件切割結果,該複數零件切割結果係藉由訓練後之該整合模型從該複數點雲資料進行零件切割而產生。
- 如請求項1所述之方法,其中步驟C中所使用的解碼層為習用的3D-PSRNet模型之解碼層。
- 如請求項1所述之方法,其中該整合模型的損失函數為:L 2DG3DSNet =αL gen+βL seg式中L gen與L seg分別是生成點雲及零件切割的損失函數,α與β分別是生成點雲與零件切割損失函數的權重。
- 如請求項1所述之方法,其中該方法所建立的整合模型更包含了物件分類的任務,而藉由訓練後之該整合模型對該複數點雲資料所代表之物件進行分類。
- 如請求項4所述之方法,其中包含有物件分類任務的該整合模型所使用的編碼層係改良自習用的3D-PSRNet模型之編碼層,其第1至3卷積層之步幅為1。
- 如請求項4所述之方法,其中包含有物件分類任務的該整合模型所使用的解碼層為習用的3D-PSRNet模型之解碼層。
- 如請求項4所述之方法,其中包含有物件分類任務的該整合模型的損失函數表示如下:L G3DSCNet =αL gen+βL seg+γL class式中L gen、L seg與L class分別是生成點雲、零件切割以及物件分類的損失函數,α、β與γ分別是生成點雲、零件切割以及物件分類損失函數的權重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111108861A TWI786002B (zh) | 2022-03-10 | 2022-03-10 | 二維影像生成點雲與零件切割之整合模型的建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111108861A TWI786002B (zh) | 2022-03-10 | 2022-03-10 | 二維影像生成點雲與零件切割之整合模型的建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI786002B true TWI786002B (zh) | 2022-12-01 |
TW202336691A TW202336691A (zh) | 2023-09-16 |
Family
ID=85794864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111108861A TWI786002B (zh) | 2022-03-10 | 2022-03-10 | 二維影像生成點雲與零件切割之整合模型的建立方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI786002B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107004275A (zh) * | 2014-11-21 | 2017-08-01 | Metaio有限公司 | 用于确定实物的至少一部分的处于绝对空间比例的3d重构件的空间坐标的方法和系统 |
TW202106024A (zh) * | 2019-07-03 | 2021-02-01 | 法商法國內數位Vc控股簡易股份公司 | 點雲處理 |
CN112912920A (zh) * | 2018-11-08 | 2021-06-04 | 华为技术有限公司 | 用于2d卷积神经网络的点云数据转换方法和系统 |
TW202133622A (zh) * | 2020-01-08 | 2021-09-01 | 美商高通公司 | 用於基於幾何圖形的點雲壓縮的量化 |
TW202143726A (zh) * | 2020-04-08 | 2021-11-16 | 美商高通公司 | 用於基於幾何形狀的點雲壓縮的角度模式簡化 |
TW202147842A (zh) * | 2020-06-10 | 2021-12-16 | 大陸商Oppo廣東移動通信有限公司 | 點雲品質評估方法、編碼器、解碼器及儲存媒介 |
-
2022
- 2022-03-10 TW TW111108861A patent/TWI786002B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107004275A (zh) * | 2014-11-21 | 2017-08-01 | Metaio有限公司 | 用于确定实物的至少一部分的处于绝对空间比例的3d重构件的空间坐标的方法和系统 |
CN112912920A (zh) * | 2018-11-08 | 2021-06-04 | 华为技术有限公司 | 用于2d卷积神经网络的点云数据转换方法和系统 |
TW202106024A (zh) * | 2019-07-03 | 2021-02-01 | 法商法國內數位Vc控股簡易股份公司 | 點雲處理 |
TW202133622A (zh) * | 2020-01-08 | 2021-09-01 | 美商高通公司 | 用於基於幾何圖形的點雲壓縮的量化 |
TW202143726A (zh) * | 2020-04-08 | 2021-11-16 | 美商高通公司 | 用於基於幾何形狀的點雲壓縮的角度模式簡化 |
TW202147842A (zh) * | 2020-06-10 | 2021-12-16 | 大陸商Oppo廣東移動通信有限公司 | 點雲品質評估方法、編碼器、解碼器及儲存媒介 |
Also Published As
Publication number | Publication date |
---|---|
TW202336691A (zh) | 2023-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rafi et al. | An Efficient Convolutional Network for Human Pose Estimation. | |
US11263259B2 (en) | Compositing aware digital image search | |
US20220058429A1 (en) | Method for fine-grained sketch-based scene image retrieval | |
CN111670457B (zh) | 动态对象实例检测、分割和结构映射的优化 | |
CN111684490A (zh) | 动态对象实例检测、分割和结构映射的优化 | |
CN109377530A (zh) | 一种基于深度神经网络的双目深度估计方法 | |
CN107229757A (zh) | 基于深度学习和哈希编码的视频检索方法 | |
CN117597703B (zh) | 用于图像分析的多尺度变换器 | |
KR20120093981A (ko) | 증강 현실에서 동적 모델링에 의한 강건한 대상 인식 | |
CN110889416B (zh) | 一种基于级联改良网络的显著性物体检测方法 | |
Dandıl et al. | Real-time facial emotion classification using deep learning | |
Kaul et al. | FatNet: A feature-attentive network for 3D point cloud processing | |
WO2023272995A1 (zh) | 一种行人重识别方法、装置、设备及可读存储介质 | |
WO2023036157A1 (en) | Self-supervised spatiotemporal representation learning by exploring video continuity | |
CN116580278A (zh) | 一种基于多注意力机制的唇语识别方法、设备及存储介质 | |
CN112241959A (zh) | 基于超像素的注意力机制生成语义分割方法 | |
KR20230071052A (ko) | 이미지 처리 방법 및 장치 | |
Zheng et al. | La-net: Layout-aware dense network for monocular depth estimation | |
CN116704506A (zh) | 一种基于交叉环境注意力的指代图像分割方法 | |
Agyeman et al. | Optimizing spatiotemporal feature learning in 3D convolutional neural networks with pooling blocks | |
Yu et al. | Hand gesture recognition based on attentive feature fusion | |
TWI786002B (zh) | 二維影像生成點雲與零件切割之整合模型的建立方法 | |
Wang et al. | LCH: fast RGB-D salient object detection on CPU via lightweight convolutional network with hybrid knowledge distillation | |
Jiang et al. | SFSegNet: Parse freehand sketches using deep fully convolutional networks | |
Zhu et al. | CED-Net: contextual encoder–decoder network for 3D face reconstruction |