TW202236207A - 並排影像偵測方法與使用該方法的電子裝置 - Google Patents
並排影像偵測方法與使用該方法的電子裝置 Download PDFInfo
- Publication number
- TW202236207A TW202236207A TW110107471A TW110107471A TW202236207A TW 202236207 A TW202236207 A TW 202236207A TW 110107471 A TW110107471 A TW 110107471A TW 110107471 A TW110107471 A TW 110107471A TW 202236207 A TW202236207 A TW 202236207A
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- neural network
- convolutional neural
- network model
- processor
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/139—Format conversion, e.g. of frame-rate or size
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2213/00—Details of stereoscopic systems
- H04N2213/007—Aspects relating to detection of stereoscopic image format, e.g. for adaptation to the display format
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Facsimile Scanning Arrangements (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
一種並排影像偵測方法與使用該方法的電子裝置。並排影像偵測方法包括下列步驟。獲取具有第一影像尺寸的一第一影像。利用一卷積神經網路模型偵測第一影像中符合並排影像格式的第二影像,其中第二影像具有第二影像尺寸。
Description
本發明是有關於一種電子裝置,且特別是有關於一種並排影像偵測方法與使用該方法的電子裝置。
隨著顯示技術的進步,支援三維(three dimension,3D)影像播放的顯示器已逐漸普及。3D顯示與二維(two dimension,2D)顯示的差異在於,3D顯示技術可讓觀賞者感受到影像畫面中的立體感,例如人物立體的五官與景深(depth of field)等等,而傳統的2D影像則無法呈現出此種效果。3D顯示技術的原理是讓觀賞者的左眼觀看左眼影像及讓觀賞者的右眼觀看右眼影像,以讓觀賞者感受到3D視覺效果。隨著3D立體顯示器技術的蓬勃發展,可提供人們視覺上有身歷其境之感受。可知的,3D顯示器需針對特定3D影像格式的影像採用對應的3D顯示技術播放,否則將會造成顯示器無法正確顯示影像。因此,如何準確地辨識出符合特定3D影像格式的影像內容為本領域技術人員所關心的議題。
有鑑於此,本發明提出一種並排影像偵測方法與使用該方法的電子裝置,其可準確地偵測出符合並排影像格式的影像內容。
本發明實施例提供一種並排影像偵測方法,其包括下列步驟。獲取具有第一影像尺寸的一第一影像。利用一卷積神經網路模型偵測此第一影像中符合並排影像格式的第二影像,其中此第二影像具有第二影像尺寸。
本發明實施例提供一種電子裝置,其包括儲存裝置以及處理器。處理器連接儲存裝置,經配置以執行下列步驟。獲取具有第一影像尺寸的一第一影像。利用一卷積神經網路模型偵測此第一影像中符合並排影像格式的第二影像,其中此第二影像具有第二影像尺寸。
基於上述,於本發明的實施例中,可利用機器學習領域中的卷積神經網路模型來準確地偵測一影像是否包括符合並排影像格式的影像內容。此偵測結果可用於多種應用場景,從而可提昇3D顯示技術的使用者體驗與應用範圍。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明的部份實施例接下來將會配合附圖來詳細描述,以下的描述所引用的元件符號,當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份,並未揭示所有本發明的可實施方式。更確切的說,這些實施例只是本發明的專利申請範圍中的裝置與方法的範例。
圖1是依照本發明一實施例的電子裝置的示意圖。請參照圖1,電子裝置10可包括儲存裝置120與處理器130。處理器130耦接儲存裝置120。於一實施例中,電子裝置10可與3D顯示器(未繪示)組成3D顯示系統。3D顯示器例如是裸視3D顯示器或眼鏡式3D顯示器。從另一方面來看,3D顯示器可以是頭戴顯示裝置或提供3D影像顯示功能的電腦螢幕、桌上型螢幕或電視等等。3D顯示系統可為單一整合系統或分離式系統。具體而言,3D顯示系統中的3D顯示器、儲存裝置120與處理器130可實作成一體式(all-in-one,AIO)電子裝置,例如頭戴顯示裝置、筆記型電腦或平板電腦等等。或者,3D顯示器可透過有線傳輸介面或是無線傳輸介面與電腦系統的處理器130相連。
儲存裝置120用以儲存影像、資料與供處理器130存取的程式碼(例如作業系統、應用程式、驅動程式)等資料,其可以例如是任意型式的固定式或可移動式隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)、硬碟或其組合。
處理器130耦接儲存裝置120,例如是中央處理單元(central processing unit,CPU)、應用處理器(application processor,AP),或是其他可程式化之一般用途或特殊用途的微處理器(microprocessor)、數位訊號處理器(digital signal processor,DSP)、影像訊號處理器(image signal processor,ISP)、圖形處理器(graphics processing unit,GPU)或其他類似裝置、積體電路及其組合。處理器130可存取並執行記錄在儲存裝置120中的程式碼與軟體模組,以實現本發明實施例中的並排影像偵測方法。
圖2是依照本發明一實施例的並排影像偵測方法的流程圖。請參照圖2,本實施例的方式適用於上述實施例中的電子裝置10,以下即搭配電子裝置10中的各項元件說明本實施例的詳細步驟。
於步驟S210,處理器130獲取具有第一影像尺寸的一第一影像。於一實施例中,此第一影像可為對顯示器所顯示之畫面進行螢幕擷取功能而獲取的影像。第一影像可例如是操作於全螢幕模式下的某一應用程式所提供的影像內容,但本發明不限制此。第一影像可包括或不包括應用程式的使用者介面。舉例而言,第一影像可以是相片播放程式於全螢幕模式下所播放的照片。或者,第一影像也可以是包括瀏覽器操作介面以及由瀏覽器所播放的影像內容。此外,於一實施例中,此第一影像也可為影像串流中的單幀影像。
於步驟S220,處理器130利用一卷積神經網路(Convolution Neural Network,CNN)模型偵測第一影像中符合並排影像格式的第二影像,其中第二影像具有第二影像尺寸。並排(Side by Side,SBS)影像格式為一種3D影像格式。符合並排影像格式的第二影像包括水平方向排列的左眼影像與右眼影像。於此,經訓練的卷積神經網路模型為依據訓練資料集進行機器學習而事先建構的深度學習模型,其可儲存於儲存裝置120中。換言之,經訓練的卷積神經網路模型的模型參數(例如神經網路層數目與各神經網路層的權重等等)已經由事前訓練而決定並儲存於儲存裝置120中。
於一些實施例中,第一影像尺寸相同於第二影像尺寸。換言之,處理器130可利用經訓練的卷積神經網路模型來判斷第一影像是否為符合並排影像格式的第二影像。或者,於一些實施例中,第一影像尺寸大於第二影像尺寸。換言之,處理器130可利用經訓練的卷積神經網路模型來判斷第一影像是否包括符合並排影像格式的第二影像,第二影像為第一影像中的部份影像區塊。由此可知,處理器130可透過使用卷積神經網路偵測出第一影像中符合並排影像格式的第二影像。
基此,於一些實施例中,反應於處理器130自第一影像獲取符合並排影像格式的第二影像,處理器130可控制3D顯示器自動依據對應的畫面播放模式來顯示第二影像,以正確的播放出使用者想要觀賞的3D畫面。或者,反應於處理器130自第一影像獲取符合並排影像格式的第二影像,處理器130可先將符合並排影像格式的第二影像轉換為符合另一種3D影像格式的3D格式影像,再控制3D顯示器啟動3D顯示功能來播放符合另一種3D影像格式的3D格式影像。又或者,反應於處理器130判定第一影像未包括符合並排影像格式的第二影像,處理器130可依據第一影像的影像內容產生符合並排影像格式的特定影像,使3D顯示器可依據對應的畫面播放模式播放3D畫面。
此外,於一些實施例中,處理器130可先判定第一影像的內容屬性,並使用對應於該內容屬性的卷積神經網路模型來偵測符合並排影像格式的影像內容。上述內容屬性可包括例如是卡通動畫屬性、遊戲畫面屬性與真實場景屬性等等。換言之,儲存裝置120可記錄有對應至多個內容屬性的多個卷積神經網路模型,這些卷積神經網路模型分別是依據不同的訓練資料集來進行訓練。於一些實施例中,處理器130可先判定第一影像的內容屬性,再依據第一影像的內容屬性從多個卷積神經網路模型選擇其中之一者來進行後續偵測動作。藉此,可提高並排影像的偵測準確度。換言之,處理器130可針對不同內容屬性的影像內容去訓練出多個卷積神經網路模型而進一步優化偵測準確度,這是傳統的影像處理技術難以達到的。
圖3是依照本發明一實施例的並排影像偵測方法的流程圖。請參照圖3,本實施例的方式適用於上述實施例中的電子裝置10,以下即搭配電子裝置10中的各項元件說明本實施例的詳細步驟。
於步驟S310,處理器130獲取具有第一影像尺寸的第一影像。於步驟S320,處理器130處理器130利用卷積神經網路模型偵測第一影像中符合並排影像格式的第二影像,其中第二影像具有第二影像尺寸。於本實施例中,步驟S320可實施為步驟S321至步驟S324。
於步驟S321,處理器130將第一影像輸入至卷積神經網路模型,而依據卷積神經網路模型的模型輸出資料獲取信心度參數。卷積神經網路模型包括執行卷積運算的多個卷積層,可例如是物件偵測(object detection)模型或語義分割(semantic segmentation)模型。於此,處理器130可利用卷積神經網路模型從第一影像中偵測出可能符合並排影像格式的矩形影像區塊。依據關聯於此矩形影像區塊的模型輸出資料,處理器130可獲取對應於此矩形影像區塊的信心度參數。
於一些實施例中,當卷積神經網路模型為物件偵測模型時,矩形影像區塊為物件偵測模型所偵測到的偵測物件。對應的,信心度參數可以是該偵測物件的物件分類機率,或基於該偵測物件的物件分類機率而產生的其他參數。另一方面,當卷積神經網路模型為語義分割模型時,矩形影像區塊為被語義分割模型判定為屬於並排影像類別的多個像素所分佈的影像區塊。對應的,信心度參數可以是矩形影像區塊中被判定為屬於並排影像類別的多個像素的像素密度。
於步驟S322,處理器130判斷信心度參數是否大於一門檻值,此門檻值可依據實際需求而設置。具體而言,卷積神經網路模型可用以自第一影像中偵測出可能符合並排影像格式的矩形影像區塊。當對應於矩形影像區塊的信心度參數大於門檻值,處理器130可確認此矩形影像區塊為符合並排影像格式的第二影像。反之,當對應於矩形影像區塊的信心度參數未大於門檻值,處理器130可確認此矩形影像區塊並非為符合並排影像格式的第二影像。
若步驟S322判斷為是,於步驟S323,反應於信心度參數大於門檻值,處理器130依據卷積神經網路模型的模型輸出資料獲取符合並排影像格式的第二影像。詳細而言,在確認卷積神經網路模型所偵測到的矩形影像區塊為符合並排影像格式的第二影像之後,處理器130可依據卷積神經網路模型的模型輸出資料獲取矩形影像區塊的區塊位置,從而依據矩形影像區塊的區塊位置獲取符合並排影像格式之第二影像於第一影像中的影像位置。反之,若步驟S322判斷為否,於步驟S324,反應於信心度參數未大於門檻值,處理器130判定第一影像未包括符合並排影像格式的第二影像。由此可知,當第一影像中包括符合並排影像格式的局部影像區塊與其他影像內容時,處理器130依然可利用卷積神經網路模型而準確地偵測出符合並排影像格式的局部影像區塊,這是傳統的影像處理技術難以達到的。
於一些實施例中,卷積神經網路模型包括物件偵測模型,其例如是以進行物件偵測的R-CNN、Fast R-CNN、Faster R-CNN、YOLO或SSD等等,本發明對此不限制。物件偵測模型的模型輸出資料可包括偵測物件的物件類別、物件位置與物件分類機率(亦稱為分類信心度)。基於此,於一些實施例中,信心度參數可包括卷積神經網路模型所偵測到之偵測物件的物件分類機率。此外,於一些實施例中,處理器130可依據卷積神經網路模型所偵測到之偵測物件的物件位置獲取第二影像於第一影像中的影像位置。
圖4A是依照本發明一實施例的利用物件偵測模型偵測第二影像的示意圖。請參照圖4A,處理器130可利用螢幕擷取技術獲取第一影像Img1_1,而第一影像Img1_1包括作業系統的桌面內容P1、瀏覽器操作介面P2以及瀏覽器所播放的並排影像P3。於此範例中,並排影像P3符合並排影像格式而包括左眼影像P3_1與右眼影像P3_2。處理器130可將第一影像Img1_1輸入至訓練完成的物件偵測模型。藉此,處理器130可透過物件偵測模型偵測第一影像Img1_1中可能符合並排影像格式的偵測物件Obj1,並產生偵測物件Obj1的物件位置與物件分類機率。接著,處理器130可判斷偵測物件Obj1的物件分類機率是否大於門檻值。若偵測物件Obj1的物件分類機率大於門檻值,處理器130可依據偵測物件Obj1的物件位置獲取符合並排影像格式的並排影像P3(即第二影像)於第一影像Img1_1中的影像位置。基此,處理器130可偵測出符合並排影像格式的第二影像,並且可從第一影像Img1_1中擷取出符合並排影像格式的第二影像。
於一些實施例中,卷積神經網路模型包括語義分割模型。物件偵測模型的模型輸出資料可包括輸入影像中每一像素的分類結果。基於此,於一些實施例中,信心度參數可包括被卷積神經網路模型判定為屬於第一類別的多個像素的像素密度。此外,於一些實施例中,處理器130可依據被卷積神經網路模型判定為屬於第一類別的多個像素的像素位置獲取第二影像於第一影像中的影像位置。
圖4B是依照本發明一實施例的利用語義分割模型偵測第二影像的示意圖。請參照圖4B,處理器130可自影像串流中獲取第一影像Img1_2。於此範例中,第一影像Img1_2符合並排影像格式而包括左眼影像P4_1與右眼影像P4_2。處理器130可將第一影像Img1_2輸入至訓練完成的語義分割模型。語義分割模型可對第一影像Img1_2中每一像素進行分類動作,以獲取第一影像Img1_2中每一像素的分類結果。於一實施例中,第一影像Img1_2中每一像素可被語義分割模型分類為第一類別與第二類別,第一類別代表該像素屬於符合並排影像格式之影像,而第二類別代表該像素非屬於符合並排影像格式之影像。語義分割模型的模型輸出資料即為第一影像Img1_2中每一像素的分類結果。
於圖4B的範例中,處理器130接著可計算第一影像Img1_2中被判定為屬於第一類別的多個像素的像素密度,以獲取信心度參數。具體而言,假設第一影像Img1_2包括N1個像素,而第一影像Img1_2中被卷積神經網路模型判定為屬於第一類別的多個像素的像素數量為M1,則處理器130可計算出像素密度M1/N1而獲取信心度參數。處理器130可反應於信心度參數大於門檻值而判斷第一影像Img1_2為符合並排影像格式的第二影像。值得一提的是,透過比較門檻值與信心度參數,處理器130可避免將影像內容重複性高的第一影像Img1_2誤判為符合並排影像格式。
圖4C是依照本發明一實施例的利用語義分割模型偵測第二影像的示意圖。請參照圖4C,第一影像Img1_3包括並排影像P5與其他影像內容。於此範例中,第一影像Img1_3符合並排影像格式而包括左眼影像P5_1與右眼影像P5_2。處理器130可將第一影像Img1_3輸入至訓練完成的語義分割模型。相似於圖4B,語義分割模型的模型輸出資料即為第一影像Img1_3中每一像素的分類結果。
於是,處理器130可依據被分類為第一類別的多個像素於第一影像Img1_3中的分佈位置。藉此,處理器130可依據語義分割模型的模型輸出資料自第一影像Img1_3擷取出矩形影像區塊R1。於一些實施例中,處理器130可依據被分類為第一類別之多個像素的像素位置獲取矩形影像區塊R1的區塊位置。於一些實施例中,矩形影像區塊R1的區塊位置是依據被語義分割模型判定為屬於第一類別的部份像素的像素位置而決定。舉例而言,處理器130可依據被分類為第一類別之多個像素於第一影像Img1_3中的X座標最大值、X座標最小值、Y座標最大值、Y座標最小值決定出矩形影像區塊R1。或者,於一些實施例中,透過自第一影像Img1_3的四個邊界向內逼近搜尋,處理器130還可依據被判定為屬於第一類別的像素的像素位置獲取矩形影像區塊R1的四個邊界。
接著,處理器130可計算矩形影像區塊R1中被語義分割模型判定為屬於第一類別的多個像素的像素密度,以獲取信心度參數。具體而言,假設矩形影像區塊R1包括N2個像素,而矩形影像區塊R1中被語義分割模型判定為屬於第一類別的多個像素的像素數量為M2,則處理器130可計算出像素密度M2/N2而獲取信心度參數。於圖4C的範例中,處理器130可反應於信心度參數大於門檻值而判斷第一影像Img1_3中的矩形影像區塊R1符合並排影像格式,亦即矩形影像區塊R1為符合並排影像格式且具有第二影像尺寸的第二影像。於是,處理器130可依據矩形影像區塊R1的區塊位置獲取符合並排影像格式的第二影像於第一影像Img1_3中的影像位置。如同前述,矩形影像區塊R1的區塊位置是依據被語義分割模型判定為屬於第一類別的部份像素的像素位置而決定。值得一提的是,透過比較門檻值與信心度參數,處理器130可避免將影像內容重複性高的矩形影像區塊R1誤判為符合並排影像格式。
圖5是依照本發明一實施例的並排影像偵測方法的流程圖。請參照圖5,本實施例的方式適用於上述實施例中的電子裝置10,以下即搭配電子裝置10中的各項元件說明本實施例的詳細步驟。
於步驟S510,處理器130獲取符合並排影像格式的原始訓練影像,即包括左眼影像與右眼影像的原始訓練影像。
於步驟S520,處理器130對原始訓練影像進行影像裁切處理而獲取至少一經處理訓練影像。於此,處理器130對原始訓練影像執行資料增強(data augmentation)操作而獲取多張經處理訓練影像。資料增強操作是增加訓練資料集的一種方式,主要是通過修改原始訓練影像達成。
需特別說明的是,為了裁切出也符合並排影像格式的影像內容,於一些實施例中,處理器130是裁切出並排影像的中心區域而獲取另一並排影像。圖6是依照本發明一實施例的獲取經處理訓練影像的示意圖。請參照圖6,在獲取符合並排影像格式的原始訓練影像Img6之後,處理器130可透過影像裁切處理而獲取經處理訓練影像Img6_1、Img6_2、Img6_3。經處理訓練影像Img6_1為原始訓練影像Img6的左眼影像,經處理訓練影像Img6_2為原始訓練影像Img6的右眼影像,經處理訓練影像Img6_3為原始訓練影像Img6之中間區域影像。由此可知,原始訓練影像Img6與經處理訓練影像Img6_3皆為符合並排影像格式的並排影像,而經處理訓練影像Img6_1、Img6_2並非為符合並排影像格式的並排影像。
在透過資料增強操作產生這些經處理訓練影像之後,原始訓練影像中的解答物件與至少一經處理訓練影像訓中的解答物件皆被框選並賦予解答類別。
於步驟S530,處理器130依據原始訓練影像與至少一經處理訓練影像訓練卷積神經網路模型。於卷積神經網路模型的訓練階段,處理器130將依據訓練資料集中標定有正確解答的的多張影像。具體而言,處理器130可將原始訓練影像與至少一經處理訓練影像輸入至卷積神經網路模型。藉由比對卷積神經網路模型的輸出與解答物件的物件資訊,處理器130將逐步更新卷積神經網路模的權重資訊,最終以建立出可用以偵測符合並排影像格式的並排影像的卷積神經網路模型。
於步驟S540,處理器130獲取具有第一影像尺寸的一第一影像。於步驟S550,處理器130利用一卷積神經網路模型偵測第一影像中符合並排影像格式的第二影像,其中第二影像具有第二影像尺寸。
綜上所述,於本發明實施例中,即便第一影像包括其他影像內容,也可透過卷積神經網路模型從第一影像中符合並排影像格式的第二影像。此外,卷積神經網路模型可依據影像內容屬性相似的訓練資料集來進行訓練,從而針對特定影像內容屬性獲取更高的偵測準確度。此偵測結果可用於多種應用場景,從而可提昇3D顯示技術的使用者體驗與應用範圍。像是,在準確獲取符合並排影像格式的第二影像之後,3D顯示器可自動切換至適當的影像播放模式,從而提升使用者體驗。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
10:電子裝置
120:儲存裝置
130:處理器
Img1_1、Img1_2、Img1_3:第一影像
P1:桌面內容
P2:瀏覽器操作介面
P3、P5:並排影像
P3_1、P4_1、P5_1:左眼影像
P3_2、P4_2、P5_2:右眼影像
Obj1:偵測物件
R1:矩形影像區塊
Img6:原始訓練影像
Img6_1、Img6_2、Img6_3:經處理訓練影像
S210~S220、S310~S324、S510~S550:步驟
圖1是依照本發明一實施例的電子裝置的示意圖。
圖2是依照本發明一實施例的並排影像偵測方法的流程圖。
圖3是依照本發明一實施例的並排影像偵測方法的流程圖。
圖4A是依照本發明一實施例的利用物件偵測模型偵測第二影像的示意圖。
圖4B與圖4C是依照本發明一實施例的利用語義分割模型偵測第二影像的示意圖。
圖5是依照本發明一實施例的並排影像偵測方法的流程圖。
圖6是依照本發明一實施例的獲取經處理訓練影像的示意圖。
S210~S220:步驟
Claims (20)
- 一種並排影像偵測方法,包括: 獲取具有第一影像尺寸的一第一影像;以及 利用一卷積神經網路模型偵測所述第一影像中符合並排影像格式的第二影像,其中所述第二影像具有第二影像尺寸。
- 如請求項1所述的並排影像偵測方法,其中所述第一影像尺寸相同於所述第二影像尺寸。
- 如請求項1所述的並排影像偵測方法,其中所述第一影像尺寸大於所述第二影像尺寸。
- 如請求項1所述的並排影像偵測方法,其中利用所述卷積神經網路模型偵測所述第一影像中符合所述並排影像格式的所述第二影像的步驟包括: 將所述第一影像輸入至所述卷積神經網路模型,而依據所述卷積神經網路模型的模型輸出資料獲取一信心度參數;以及 反應於所述信心度參數大於一門檻值,依據所述卷積神經網路模型的所述模型輸出資料獲取符合所述並排影像格式的所述第二影像。
- 如請求項4所述的並排影像偵測方法,其中利用所述卷積神經網路模型偵測所述第一影像中符合所述並排影像格式的所述第二影像的步驟還包括: 反應於所述所述信心度參數未大於一門檻值,判定所述第一影像未包括符合所述並排影像格式的所述第二影像。
- 如請求項4所述的並排影像偵測方法,其中所述卷積神經網路模型包括一物件偵測(object detection)模型,而所述信心度參數包括所述卷積神經網路模型所偵測到之偵測物件的物件分類機率。
- 如請求項6所述的並排影像偵測方法,其中依據所述卷積神經網路模型的所述模型輸出資料獲取符合所述並排影像格式的所述第二影像的步驟包括: 依據所述卷積神經網路模型所偵測到之偵測物件的物件位置獲取所述第二影像於所述第一影像中的影像位置。
- 如請求項4所述的並排影像偵測方法,其中所述卷積神經網路模型包括一語義分割(semantic segmentation)模型,而依據所述卷積神經網路模型的所述模型輸出資料獲取所述信心度參數的步驟包括: 依據所述卷積神經網路模型的所述模型輸出資料自所述第一影像擷取出矩形影像區塊;以及 計算所述矩形影像區塊中被所述卷積神經網路模型判定為屬於第一類別的多個像素的像素密度,以獲取所述信心度參數。
- 如請求項8所述的並排影像偵測方法,其中依據所述卷積神經網路模型的所述模型輸出資料獲取符合所述並排影像格式的所述第二影像的步驟包括: 依據所述矩形影像區塊的區塊位置獲取所述第二影像於所述第一影像中的影像位置,其中所述區塊位置是依據被所述卷積神經網路模型判定為屬於所述第一類別的部份所述像素的像素位置而決定。
- 如請求項1所述的並排影像偵測方法,所述方法更包括: 獲取符合所述並排影像格式的一原始訓練影像; 對所述原始訓練影像進行一影像裁切處理而獲取至少一經處理訓練影像;以及 依據所述原始訓練影像與所述至少一經處理訓練影像訓練所述卷積神經網路模型。
- 一種電子裝置,包括: 一儲存裝置,記錄有多個模組;以及 一處理器,連接所述儲存裝置,經配置以: 獲取具有第一影像尺寸的一第一影像;以及 利用一卷積神經網路模型偵測所述第一影像中符合並排影像格式的第二影像,其中所述第二影像具有第二影像尺寸。
- 如請求項11所述的電子裝置,其中所述第一影像尺寸相同於所述第二影像尺寸。
- 如請求項11所述的電子裝置,其中所述第一影像尺寸大於所述第二影像尺寸。
- 如請求項11所述的電子裝置,其中所述處理器經配置以: 將所述第一影像輸入至所述卷積神經網路模型,而依據所述卷積神經網路模型的模型輸出資料獲取一信心度參數;以及 反應於所述信心度參數大於一門檻值,依據所述卷積神經網路模型的所述模型輸出資料獲取符合所述並排影像格式的所述第二影像。
- 如請求項14所述的電子裝置,其中所述處理器經配置以:反應於所述所述信心度參數未大於一門檻值,判定所述第一影像未包括符合所述並排影像格式的所述第二影像。
- 如請求項14所述的電子裝置,其中所述卷積神經網路模型包括一物件偵測(object detection)模型,而所述信心度參數包括所述卷積神經網路模型所偵測到之偵測物件的物件分類機率。
- 如請求項16所述的電子裝置,其中所述處理器經配置以:依據所述卷積神經網路模型所偵測到之偵測物件的物件位置獲取所述第二影像於所述第一影像中的影像位置。
- 如請求項14所述的電子裝置,其中所述卷積神經網路模型包括一語義分割(semantic segmentation)模型,且所述處理器經配置以: 依據所述卷積神經網路模型的所述模型輸出資料自所述第一影像擷取出矩形影像區塊;以及 計算所述矩形影像區塊中被所述卷積神經網路模型判定為屬於第一類別的多個像素的像素密度,以獲取所述信心度參數。
- 如請求項18所述的電子裝置,其中所述處理器經配置以:依據所述矩形影像區塊的區塊位置獲取所述第二影像於所述第一影像中的影像位置,其中所述區塊位置是依據被所述卷積神經網路模型判定為屬於所述第一類別的部份所述些像素的像素位置而決定。
- 如請求項11所述的電子裝置,其中所述處理器經配置以: 獲取符合所述並排影像格式的一原始訓練影像; 對所述原始訓練影像進行一影像裁切處理而獲取至少一經處理訓練影像;以及 依據所述原始訓練影像與所述至少一經處理訓練影像訓練所述卷積神經網路模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110107471A TWI790560B (zh) | 2021-03-03 | 2021-03-03 | 並排影像偵測方法與使用該方法的電子裝置 |
US17/581,806 US20220284701A1 (en) | 2021-03-03 | 2022-01-21 | Side by side image detection method and electronic apparatus using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110107471A TWI790560B (zh) | 2021-03-03 | 2021-03-03 | 並排影像偵測方法與使用該方法的電子裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202236207A true TW202236207A (zh) | 2022-09-16 |
TWI790560B TWI790560B (zh) | 2023-01-21 |
Family
ID=83116309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110107471A TWI790560B (zh) | 2021-03-03 | 2021-03-03 | 並排影像偵測方法與使用該方法的電子裝置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220284701A1 (zh) |
TW (1) | TWI790560B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491480B (zh) * | 2019-05-22 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 一种医疗图像处理方法、装置、电子医疗设备和存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11277598B2 (en) * | 2009-07-14 | 2022-03-15 | Cable Television Laboratories, Inc. | Systems and methods for network-based media processing |
US9164621B2 (en) * | 2010-03-18 | 2015-10-20 | Fujifilm Corporation | Stereoscopic display apparatus and stereoscopic shooting apparatus, dominant eye judging method and dominant eye judging program for use therein, and recording medium |
US20120038744A1 (en) * | 2010-08-13 | 2012-02-16 | Masafumi Naka | Automatic 3d content detection |
WO2012036464A2 (ko) * | 2010-09-19 | 2012-03-22 | 엘지전자 주식회사 | 방송 수신기 및 3d 비디오 데이터 처리 방법 |
TWI498854B (zh) * | 2013-01-18 | 2015-09-01 | Chunghwa Picture Tubes Ltd | 自動判斷3d影像格式的方法 |
GB2553782B (en) * | 2016-09-12 | 2021-10-20 | Niantic Inc | Predicting depth from image data using a statistical model |
CN110348270B (zh) * | 2018-04-03 | 2023-06-09 | 扬智科技股份有限公司 | 影像物件辨识方法与影像物件辨识系统 |
CN111971688A (zh) * | 2018-04-09 | 2020-11-20 | 皇家飞利浦有限公司 | 具有用于检索复发患者的成像参数设置的人工神经网络的超声系统 |
CN110322002B (zh) * | 2019-04-30 | 2022-01-04 | 深圳市商汤科技有限公司 | 图像生成网络的训练及图像处理方法和装置、电子设备 |
EP3985552A1 (en) * | 2020-10-14 | 2022-04-20 | Deep Safety GmbH | System for detection and management of uncertainty in perception systems |
TWI839578B (zh) * | 2020-10-21 | 2024-04-21 | 宏碁股份有限公司 | 3d顯示系統與3d顯示方法 |
-
2021
- 2021-03-03 TW TW110107471A patent/TWI790560B/zh active
-
2022
- 2022-01-21 US US17/581,806 patent/US20220284701A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220284701A1 (en) | 2022-09-08 |
TWI790560B (zh) | 2023-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102467262B1 (ko) | 송신장치, 송신방법 및 프로그램 | |
US20180114363A1 (en) | Augmented scanning of 3d models | |
WO2018059034A1 (zh) | 一种全景视频播放方法及装置 | |
EP3748573A1 (en) | Digital model repair system and method | |
US11037321B2 (en) | Determining size of virtual object | |
CN111614993B (zh) | 弹幕展示方法、装置、计算机设备及存储介质 | |
JP2023548921A (ja) | 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
WO2019237745A1 (zh) | 人脸图像处理方法、装置、电子设备及计算机可读存储介质 | |
KR20190138896A (ko) | 화상 처리 장치, 화상 처리 방법 및 프로그램 | |
CN109923543B (zh) | 通过生成视频帧的多个部分的指纹来检测立体视频的方法、系统和介质 | |
US20210407125A1 (en) | Object recognition neural network for amodal center prediction | |
TWI790560B (zh) | 並排影像偵測方法與使用該方法的電子裝置 | |
US11831853B2 (en) | Information processing apparatus, information processing method, and storage medium | |
WO2023236815A1 (zh) | 三维模型传输方法及其装置、存储介质、程序产品 | |
CN110012284A (zh) | 一种基于头戴设备的视频播放方法及装置 | |
US12081722B2 (en) | Stereo image generation method and electronic apparatus using the same | |
CN110719415A (zh) | 一种视频图像处理方法、装置、电子设备及计算机可读介质 | |
TWM626645U (zh) | 電子裝置 | |
JP2001051579A (ja) | 映像表示方法、映像表示装置及び映像表示プログラムを記録した記録媒体 | |
WO2018000610A1 (zh) | 一种基于图像类型判断的自动播放方法和电子设备 | |
CN115187503A (zh) | 并排图像检测方法与使用该方法的电子装置 | |
TWI825892B (zh) | 立體格式影像偵測方法與使用該方法的電子裝置 | |
JP6623905B2 (ja) | サーバ装置、情報処理方法およびプログラム | |
CN117593449B (zh) | 人-物交互运动视频的构建方法、装置、设备及存储介质 | |
WO2024174050A1 (zh) | 视频通信方法和装置 |