TW202238525A

TW202238525A - 位置座標偵測裝置及方法

Info

Publication number: TW202238525A
Application number: TW110136482A
Authority: TW
Inventors: 池田光二; 豊田康; 安部雄一; 佐藤誠; 樋口晴彦; 石川昌義
Original assignee: 日商日立全球先端科技股份有限公司
Priority date: 2021-03-25
Filing date: 2021-09-30
Publication date: 2022-10-01
Also published as: JPWO2022201447A1; US20240177333A1; KR20230145137A; TWI800016B; WO2022201447A1

Abstract

為了容易作成教師資料，且偵測出高信賴性的位置座標，位置座標偵測裝置係構成為，具備：深度學習模型，係使用所欲偵測之位置座標是已被特定之訓練影像資料和對該所欲偵測之位置座標而在相對的位置上配置了與該訓練影像資料之被攝體呈現獨立之形狀的像素群而成的教師影像資料所被學習而成；和位置座標算出部，係使用從上記深度學習模型所被輸出的推論影像資料，而算出位置座標；和信賴度算出部，係使用從上記深度學習模型所被輸出的推論影像資料之像素群之廣域性之資訊，而算出信賴度。

Description

位置座標偵測裝置及方法

本發明係有關於使用機器學習技術的位置座標偵測裝置及方法。

近年來，於進行影像辨識處理的用途中，一種被稱為深度學習的機器學習技術，係被採用。其中，作為影像中所拍到之物體所處之特定之位置座標的偵測法，係有非專利文獻1、非專利文獻2、非專利文獻3、非專利文獻4中所記載之方法。

在上記先前技術中係記載，將所欲偵測之位置座標是已被特定之訓練影像資料和以該所欲偵測之位置座標為中心的2維高斯型之熱點圖當作教師資料(正確解答資料)而將深度學習網路進行了學習之後，使用已學習之深度學習網路(稱作已學習模型)來推論新的影像，將該新的影像中的所欲偵測之位置座標予以偵測。由於已學習模型所輸出的推論結果係為2維高斯型之熱點圖，因此其峰值之座標是被當作所欲偵測之位置座標而被輸出。又，該峰值本身，就代表了所推論出來的位置座標之信賴度(確信度)。

在上記先前技術中，只要能夠特定出所欲偵測之位置座標，則2維高斯型之熱點圖就可自動加以生成，因此具有教師資料的作成較為容易的優點。 [先前技術文獻] [非專利文獻]

[非專利文獻1]Jonathan Tompson, Arjun Jain, Yann LeCun, Christoph Bregler,“Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation”, Annual Conference on Neural Information Processing System, 2014. [非專利文獻2]Jonathan Tompson, Ross Goroshin, Arjun Jain, Yann LeCun, Christoph Bregler, “Efficient Object Localization Using Convolutional Networks”, Computer Vision and Pattern Recognition, 2015. [非專利文獻3]Hei Law, Jia Deng,“CornerNet: Detecting Objects as Paired Keypoints”, European Conference on Computer Vision, 2018. [非專利文獻4]Xingyi Zhou, Dequan Wang, Philipp Kr¨ahenb¨uhl, “Objects as Points”, 網際網路＜https://arxiv.org/pdf/1904.07850.pdf＞, 2019.

[發明所欲解決之課題]

像是工業產品這類，把位置座標用於裝置動作之自動化的情況下，使用已學習模型而被推論出來的位置座標是否為正確，被要求能夠自動地判斷。此時，考慮使用信賴度。

可是，在先前技術中，已被推論出來之熱點圖之峰值是代表了所欲偵測之位置座標同時也代表了信賴度，因此該峰值有錯誤的情況下，將不正確的位置座標或信賴度判斷成正確的位置座標或信賴度而繼續動作的問題，是有發生的可能性。

因此要求將與已被推論出來之熱點圖之峰值不同的尺度當作信賴度，或將位置座標與信賴度藉由不同尺度而予以算出。

本發明係為了解決上述先前技術之課題，目的在於提供一種，只需給定影像和所欲偵測之座標，就能實現偵測性能高的位置偵測的位置座標偵測裝置及方法。 [用以解決課題之手段]

為了解決上的先前技術之課題，本發明所致之位置座標偵測裝置，係為具備有：深度學習模型，係將在拍攝了被攝體之影像上所欲偵測之位置是已被特定的訓練影像資料和對訓練影像資料上的所欲偵測之位置上的被攝體配置了與被攝體之背景不同的像素群所作成的教師影像資料之組合，使用了複數組所被學習而成；和位置座標算出部，係使用將欲偵測位置座標之新的被攝體之影像輸入至深度學習模型所求出的推論影像資料，而算出位置座標；和信賴度算出部，係使用從深度學習模型所被輸出的推論影像資料之像素群之資訊，來算出位置座標算出部所算出的位置座標之信賴度的構成。 [發明效果]

若依據本發明，則可以與熱點圖之峰值不同的尺度來求出信賴度，因此可判斷峰值發生錯誤之可能性。再者，根據推論資料之像素群之形狀而算出位置座標或信賴度的情況下，由於是把與被攝體之形狀呈獨立的像素群當成教師資料，因此可不依存於被攝體之形狀而求出位置座標或信賴度。

本發明係有關於一種位置座標偵測裝置，其係具備：深度學習模型，係使用所欲偵測之位置座標是已被特定之訓練影像資料和對該所欲偵測之位置座標而在相對的位置上配置了與該訓練影像資料之被攝體呈現獨立之形狀的像素群而成的教師影像資料所被學習而成；和位置座標算出部，係使用從該深度學習模型所被輸出的推論影像資料，而算出位置座標；和信賴度算出部，係使用從深度學習模型所被輸出的推論影像資料之像素群之廣域性之資訊，而算出信賴度。

以下根據圖式，詳述本發明的實施形態。此外，以下所說明的實施形態並非用來限定申請專利範圍中所涉及之發明，又，實施形態之中所說明的各元件及其組合之全部並不一定是發明的解決手段所必須。又，將實施形態之中所說明的各元件做適宜組合的形態，也是被包含在本案所揭露的實施形態中。 [實施例1]

將本發明的第1實施形態，使用圖1乃至圖5來做說明。圖1係為實施例1之實施形態所述之位置座標偵測裝置100之構成例的區塊圖。位置座標偵測裝置100，係具備：深度學習模型110、位置座標算出部120、信賴度算出部130。位置座標偵測裝置100，係由未圖示的電腦系統之一部分中所具備的硬體或軟體程式所構成。

深度學習模型110係為，藉由訓練影像資料和教師資料之複數個配對而被事前學習的已學習模型。深度學習模型110係為如先前技術文獻(非專利文獻1乃至4)中所揭露的Fully-Convolutional Encoder-Decoder Network。訓練影像資料和教師資料之例子，使用圖2來做說明。

圖2(a)的影像210，係為拍攝到被攝體201的訓練影像資料(以下記作訓練影像資料210)。訓練影像資料210係為了說明而作成的圖，與實際的裝置所輸出的影像沒有關係。訓練影像資料210上的×標記202係表示所欲偵測之位置座標。×標記202在實際的影像上係不存在。

圖2(b)的影像220，係以所欲偵測之×標記203之位置座標為中心的熱點圖204是已被形成的教師資料(以下記作教師資料220)。教師資料220中的×標記203之位置座標係和訓練影像資料210中的×標記202之位置座標為相同的座標。×標記203也是不存在於教師資料220上。熱點圖204係為，由中心的像素值較高(例如255)，隨著越遠離中心而像素值越低的像素群所構成。像素值之分布係可為2維的高斯型，亦可為圓錐形。

將如圖2所示的(a)的訓練影像資料與(b)的教師資料之配對準備複數配對，事先將深度學習模型110進行學習。

使用圖3，說明已被學習的深度學習模型110的舉動。圖3(a)的影像310，係為拍攝到被攝體301的影像。影像310係為了說明而作成的圖，與實際的裝置所輸出的影像沒有關係。影像310上的×標記302係表示所欲偵測之位置座標。×標記302在實際的影像上係不存在。圖3(b)的影像320係為，以與影像310的所欲偵測之×標記302之位置座標相同的座標也就是位置座標303為中心的熱點圖304所被形成的推論影像(以下記作推論影像320)。在深度學習模型110是已被良好學習的已學習模型的情況下，若將影像310輸入至深度學習模型110，則推論影像320會被輸出。

位置座標算出部120，係根據深度學習模型110所推論出來的推論影像320，而算出位置座標。具體而言，根據推論影像320而求出像素值為最大的峰值，藉此以偵測熱點圖304之峰值(位置座標303)，將其座標予以輸出。

信賴度算出部130，係根據深度學習模型110所推論出來的推論影像320，而從位置座標算出部120所輸出之峰值位置上所被形成的熱點圖304之形狀，算出信賴度。作為具體的算出方法係可為：將熱點圖之等方性予以數值化的方法、使用教師資料而求出與熱點圖之差分的方法、使用教師資料而求出與熱點圖之相關值的方法等，將形狀之差異予以數值化的公知之技術或是其組合技術。

接著，將位置座標的偵測難度較高之情況的位置座標偵測裝置100之舉動，使用圖4來做說明。

圖4(a)的影像410，係為拍攝到被攝體401的影像。影像410中係拍攝到，對比度不同的背景411、412和雜訊413。影像410係為了說明而作成的圖，與實際的裝置所輸出的影像沒有關係。圖4(b)的影像420係圖示了，對深度學習模型110給予影像410而被推論出來的推論影像(以下記作推論影像420)之例子。推論影像420中係被形成有熱點圖403和熱點圖404之2個熱點圖。此處，假設熱點圖403之峰值之像素值，係為較熱點圖404之峰值之像素值還大的值。又，假設熱點圖403係較熱點圖404而言等方性為較低。

位置座標算出部120，係根據推論影像420而求出像素值為最大的峰值，藉此以偵測熱點圖403之峰值，將其座標予以輸出。

信賴度算出部130，係根據推論影像420，而從位置座標算出部120所輸出之峰值位置上所被形成的熱點圖403之形狀，算出信賴度。熱點圖403係相較於教師資料220中所被使用的熱點圖204而言等方性為較低，因此會輸出較低的信賴度。藉此可知，位置座標算出部120所輸出的位置座標並不適切。

在上記的實施例中，雖然是只把不適切的位置座標予以輸出，但亦可將複數個位置座標與其所對應之信賴度予以輸出，藉由未圖示的後段處理來選擇適切的位置座標。又，位置座標偵測裝置100之構成雖然可改變，但亦可藉由把信賴度算出部130之輸出，輸入至位置座標算出部120，以將信賴度為最高的位置座標，予以輸出。

圖5，係使用將圖1中所說明的位置座標偵測裝置100予以組入的未圖示的電腦系統來表示本發明的一實施形態的位置座標偵測程式的流程圖。

首先，將訓練影像資料和教師資料之配對使用複數配對而將深度學習模型110進行學習(S501)。訓練影像資料和教師資料之例子，分別示於圖2(a)的訓練影像資料210和(b)的教師資料220。

接著，將欲偵測位置座標之影像，輸入至已學習之深度學習模型，獲得推論影像(S502)。欲偵測位置座標之影像之例子示於圖3(a)的影像310，推論影像之例子示於圖3(b)的推論影像320。

根據所得到的推論影像，求出最多N個像素值為特定之閾值以上的峰值座標(S503)。特定之閾值及N，係已被事先設定。

接著，根據所求出的峰值座標所對應之熱點圖之形狀，而算出信賴度(S504)。熱點圖之例子，示於圖4(b)的403、404。作為具體的算出方法係有：將熱點圖之等方性予以數值化的方法，使用教師資料而求出與熱點圖之差分的方法，使用教師資料而求出與熱點圖之相關值的方法等，可為將形狀之差異予以數值化的公知之技術或是其組合技術。

最後，求出信賴度為最大的峰值座標，將該峰值座標予以輸出(S505)。此時，所輸出的峰值座標所對應之信賴度之資訊，也可一起輸出。輸出的目標，亦可為未圖示的電腦的控制部(控制外部之裝置的控制部)或顯示畫面，又，亦可為被連接至未圖示之電腦的外部之處理裝置。

若依據本實施例，則由於信賴度是使用與熱點圖之峰值為不同的資訊而予以算出，因此在錯誤偵測到峰值位置時，於所被輸出之資訊中可以暗示這是錯誤偵測。 [實施例2]

將本發明的第2實施形態，使用圖6乃至圖10來做說明。圖6係為第2實施形態所述之位置座標偵測裝置600之構成例的區塊圖。位置座標偵測裝置600，係具備：深度學習模型610、位置座標算出部620、信賴度算出部630。位置座標偵測裝置600，係由未圖示的電腦系統之一部分中所具備的硬體或軟體程式所構成。

深度學習模型610係為，藉由訓練影像資料和教師資料之複數個配對而被事前學習的已學習模型。深度學習模型610係可進行語義分割。亦即，按照每一像素而計算背景似然度與每一級別之對象物似然度，將其中最大者所對應之標籤，當作像素值而予以輸出。也可說成是，按照每一像素來進行是否為背景還是對象物的分類。最大值相對於背景似然度與每一級別之對象物似然度之合計值的比率(或是Softmax函數之值)越大，也可當作似然性越高。訓練影像資料和教師資料之例子，使用圖7來做說明。

圖7(a)的訓練影像資料210，係為和圖2的訓練影像資料210相同的影像且為訓練影像資料。圖7(b)的影像720，係以所欲偵測之×標記703之位置座標為中心的圓圖形704是已被形成的教師資料(以下記作教師資料720)。教師資料720中的×標記703，係和實施例1中圖2所示的訓練影像資料210中的×標記203相同座標。×標記703也是和×標記203同樣地，不存在於教師資料720上。

圓圖形704，係由全部的像素值都是同一值(例如255)的像素群所構成。另一方面，圓圖形以外之部分(被稱作背景)係帶有異於圓圖形的同一值(例如0)。圓圖形的像素值係對應於位置座標之標籤，背景之像素值係對應於背景之標籤。如此，本實施例中的教師資料720係以已被2值化之影像的方式而被顯示的這點，是與實施例1中將教師資料220以多值之影像的方式而顯示的點不同。像是圓圖形704這種的像素所連結而成的像素群，在影像處理的領域中亦被稱作斑點(Blob)。

將如圖7的(a)所示的訓練影像資料和如(b)所示的教師資料之配對準備複數配對，事前將深度學習模型610進行學習。

使用圖8，說明已被學習的深度學習模型610的舉動。圖8(a)的影像310，係為和圖3(a)的影像310相同的影像。圖8(b)的影像820係為，以與影像310的所欲偵測之×標記302之位置座標相同的座標也就是位置座標803為重心的斑點804所被形成的推論影像(以下記作推論影像820)。深度學習模型610是已被良好學習的已學習模型的情況下，一旦將影像310輸入至深度學習模型610，則深度學習模型610，係對以正確解答位置座標也就是位置座標803為中心的與圓圖形704相同半徑內的像素，輸出位置座標之標籤，對其他的像素則是輸出背景之標籤。亦即從深度學習模型610，係會輸出推論影像820。

位置座標算出部620，係根據深度學習模型610所推論出來的推論影像820，而算出位置座標。具體而言，從推論影像820求出面積為特定之閾值以上的斑點，將已求出之斑點的重心座標予以求出，將該重心座標予以輸出。斑點的偵測、重心座標的計算，係用公知的方法即可。又，亦可使用重心座標之似然性、或者斑點全體之似然性的平均值，來給予選擇的優先順位。亦可將該似然性之值與對應的重心座標建立關連而輸出。

信賴度算出部630，係根據深度學習模型610所推論出來的推論影像820，而從位置座標算出部620所輸出之重心位置上所被形成的斑點804之形狀，算出信賴度。作為具體的算出方法係可為：將斑點之圓形度予以數值化的方法、使用教師資料而求出與斑點之相關值的方法、將斑點從重心進行極座標轉換而將交界部分之凹凸予以數值化的方法等，將形狀之差異予以數值化的公知之技術或是其組合技術。

接著，將位置座標的偵測難度較高之情況的位置座標偵測裝置600之舉動，使用圖9來做說明。

圖9(a)的影像410，係為和圖4(a)的影像410相同的影像。圖9(b)的影像920係圖示了，對深度學習模型610給予影像410而被推論出來的推論影像(以下記作推論影像920)之例子。推論影像920中係被形成有斑點903和斑點904之2個斑點。此處，假設斑點903係較斑點904而言，重心座標之似然性為較高。又，假設斑點903係較斑點904而言，圓形度為較低。

位置座標算出部620，係從深度學習模型610所推論出來的推論影像920，求出面積為特定之閾值以上的斑點，將已求出之斑點的重心座標予以求出，將該重心座標予以輸出。

信賴度算出部630，係根據推論影像920，而從位置座標算出部620所輸出之重心位置上所被形成的斑點903之形狀，算出信賴度。斑點903係由於圓形度較低，因此會輸出較低的信賴度。藉此可知，位置座標算出部620所輸出的位置座標並不適切。在上記的實施例中，雖然是只把不適切的位置座標予以輸出，但亦可將複數個位置座標與其所對應之信賴度予以輸出，藉由未圖示的後段處理來選擇適切的位置座標。又，位置座標偵測裝置之構成雖然可改變，但亦可藉由把信賴度算出部之輸出，輸入至位置座標算出部，以將信賴度為最高的位置座標，予以輸出。

圖10，係使用將圖6中所說明的位置座標偵測裝置600予以組入的未圖示的電腦系統來表示本發明的一實施形態的位置座標偵測程式的流程圖。

首先，將訓練影像資料和教師資料之配對使用複數配對而將深度學習模型進行學習(S1001)。訓練影像資料和教師資料之例子，分別示於圖7(a)的訓練影像資料210和(b)的教師資料720。

接著，將欲偵測位置座標之影像，輸入至已學習之深度學習模型610，獲得推論影像(S1002)。欲偵測位置座標之影像之例子示於圖8(a)的影像310，推論影像之例子示於圖8(b)的推論影像820。

根據所得到的推論影像，求出最多N個面積為特定之閾值以上的斑點，並求出該斑點的重心位置(S1003)。特定之閾值及N係已被事先設定。

根據已求出之重心座標所對應之斑點之形狀，算出信賴度(S1004)。作為具體的算出方法係可為：將斑點之圓形度予以數值化的方法、使用教師資料而求出與斑點之相關值的方法、將斑點從重心進行極座標轉換而將交界部分之凹凸予以數值化的方法等，將形狀之差異予以數值化的公知之技術或是其組合技術。

最後，求出信賴度為最大的重心座標，將該座標予以輸出(S1005)。此時，亦可將所輸出之重心座標所對應之信賴度，予以輸出。

又，上記的例子中雖然將教師資料設成圓圖形，但亦可為四角形等之多角形。此情況下也是，把藉由對形狀的公知之技術所算出的特徵當作信賴度即可。

若依據本實施例，則由於是藉由由相同像素值所成之斑點之重心計算而求出位置座標，因此可唯一決定位置座標，相較於實施例1中所說明的方法，可用較為簡單的處理，求出位置座標。 [變形例] 將實施例2的變形例，使用圖18乃至圖20來做說明。圖18係為本變形例所述之位置座標偵測裝置1800之構成例的區塊圖。位置座標偵測裝置1800，係具備：深度學習模型1810、位置座標算出部1820。

在本變形例中，不具備實施例2中所說明的信賴度算出部630這點上，是與實施例2不同。深度學習模型1810，係和於實施例2中所說明的圖6的深度學習模型610相同。因此，訓練影像資料和教師資料之例子，係和圖7中所說明的訓練影像資料210及教師資料720相同。

接著，將位置座標的偵測難度較高之情況的位置座標偵測裝置1800之舉動，使用圖19來做說明。

圖19(a)的影像410，係為和圖4(a)的影像410相同的影像。圖19(b)的推論影像1920係圖示了，對深度學習模型1810給予影像410而被推論出來的推論影像之例子。推論影像1920中係被形成有斑點1903和斑點1904之2個斑點。此處，假設斑點1904係為對應於所欲偵測之位置座標的斑點，斑點1903係為對應於並非所欲偵測之位置座標之位置座標的斑點。又，假設斑點1903係較斑點1904而言，面積為較小。

位置座標算出部1820，係從推論影像1920求出面積為最大的斑點，將已求出之斑點的重心座標予以求出，將該重心座標予以輸出。於本變形例中是利用，原本應求出重心座標的斑點，相對於其他的作為雜訊的斑點，一般來說面積為較大的此一特性，在推論影像1920中偵測到複數個斑點的情況下，藉由偵測出面積最大的斑點，就不必算出複數個斑點之每一者的信賴度，而等於是判定為原本應偵測之斑點。

圖20係為，使用未圖示的電腦系統來進行本變形例所述之位置座標偵測所需之位置座標偵測程式的流程圖。

首先，將訓練影像資料和教師資料之配對使用複數配對而將深度學習模型1810進行學習(S2001)。訓練影像資料和教師資料之例子，係分別和實施例2中使用圖7所說明的訓練影像資料210及教師資料720相同。

接著，將欲偵測位置座標之影像，輸入至已學習之深度學習模型，獲得推論影像(S2002)。欲偵測位置座標之影像之例子示於圖19(a)的影像410，推論影像之例子示於圖19(b)的推論影像1920。

根據所得到的推論影像，求出面積為最大之斑點，並求出其重心位置(S2003)。最後，將所求出的座標予以輸出(S2005)。

在先前例中，在峰值變成平坦，或在附近有複數個峰值出現等情況下，峰值之偵測會需要複雜的處理，在本變形例中，則只需要求出斑點之重心座標此種單純的處理即可，具有如此優點。

又，在本變形例中也還具有，即使不求出信賴度指標，仍可獲得位置座標此一優點。 [實施例3]

將本發明的第3實施形態，使用圖11乃至圖15來做說明。圖11係為本實施例所述之位置座標偵測裝置1100之構成例的區塊圖。位置座標偵測裝置1100，係具備：深度學習模型1110、位置座標算出部1120、信賴度算出部1130。

深度學習模型1110係為，藉由訓練影像資料和教師資料之複數個配對而被事前學習的已學習模型。深度學習模型1110也可進行語義分割。深度學習模型1110，係實施複數次的內部之節點的隨機Dropout，使用其平均值來決定像素之標籤。又，將複數個Dropout所致之偏差當作像素值的影像，也是設成輸出。

於實施例2中，將如使用圖7所說明的訓練影像資料210與教師資料720之配對，準備複數配對，事先將深度學習模型1110進行學習。

使用圖12，說明已被學習的深度學習模型1110的舉動。圖12(a)的影像1210係圖示，將實施例2中在圖9(a)中所說明的被攝體之影像410輸入至深度學習模型1110時，使用隨機進行複數次Dropout而做了語義分割的平均值而被推論出來的標籤影像(以下記作推論影像1210)之例子。推論影像1210中係被形成有斑點1201和斑點1202之2個斑點。此處，假設斑點1201係較斑點1202而言，似然性為較高。

圖12(b)的影像1220係圖示，將圖9(a)的被攝體之影像410輸入至深度學習模型1110時，使用隨機進行複數次Dropout而做了語義分割的偏差而被推論出來的影像(以下記作推論影像1220)之例子。推論影像1220中的各像素係表示，對於複數次之Dropout的深度學習模型1110之輸出值之偏差(或是標籤之偏差)。在推論影像1220中，越白表示偏差越少，越黑表示偏差越大。

圖11所示的位置座標偵測裝置1100中的位置座標算出部1120，係從圖12(a)的推論影像1210求出面積為特定之閾值以上的斑點，將已求出之斑點的重心座標予以求出，將該重心座標予以輸出。

另一方面，位置座標偵測裝置1100中的信賴度算出部1130，係根據圖12(b)的推論影像1220，而從位置座標算出部1120所輸出之重心位置上所被形成的斑點1203之形狀，算出信賴度。斑點1203係由於圓形度較低，因此會輸出較低的信賴度。藉此可知，位置座標算出部1120所輸出的位置座標並不適切。亦可不是圓形度，而是求出與偏差為零之圓的變動量。

在上記的實施例中，雖然是只把不適切的位置座標予以輸出，但亦可將複數個位置座標與其所對應之信賴度予以輸出，藉由未圖示的後段處理來選擇適切的位置座標。又，位置座標偵測裝置1100之構成雖然可改變，但亦可藉由把信賴度算出部1130之輸出，輸入至位置座標算出部1120，以將信賴度為最高的位置座標，予以輸出。

圖13係為，使用未圖示的電腦系統來進行本實施例中所說明的位置座標之偵測所需之位置座標偵測程式的流程圖。

首先，將訓練影像資料和教師資料之配對使用複數配對而將深度學習模型進行學習(S1301)。本深度學習模型，係實施複數次的內部之節點的隨機Dropout以進行語義分割，使用其平均值來決定像素之標籤。又，將複數個Dropout所致之語義分割的偏差當作像素值的影像，也會輸出。訓練影像資料和教師資料之例子，分別示於圖7(a)的訓練影像資料210和(b)的教師資料720。

接著，將欲偵測位置座標之影像，輸入至已學習之深度學習模型1110，而獲得：使用隨機進行複數次Dropout做了語義分割之平均值而決定了像素之標籤的推論影像、和把複數個Dropout所致之語義分割之偏差當作像素值的推論影像(S1302)。欲偵測位置座標之影像之例子示於圖9(a)的影像410。藉此，使用隨機進行複數次Dropout做了語義分割之平均值而決定了像素之標籤的推論影像之例子示於圖12(a)的推論影像1210，把複數個Dropout所致之語義分割之偏差當作像素值的推論影像之例子示於圖12(b)的推論影像1220。

從使用隨機進行複數次Dropout做了語義分割之平均值而決定了像素之標籤的推論影像，求出最多N個面積為特定之閾值以上的斑點，並求出該斑點的重心位置(S1303)。特定之閾值及N係已被事先設定。

從把複數個Dropout所致之語義分割之偏差當作像素值的推論影像，特定出已求出之重心座標所對應之斑點，根據其形狀而算出信賴度(S1304)。作為具體的算出方法係可為：將斑點之圓形度予以數值化的方法、使用教師資料而求出與斑點之相關值的方法、將斑點從重心進行極座標轉換而將交界部分之凹凸予以數值化的方法、與偏差為零之圓的變動量等，將形狀之差異予以數值化的公知之技術或是其組合技術。

最後，求出信賴度為最大的重心座標，將該座標予以輸出(S1305)。此時，亦可將所輸出之重心座標所對應之信賴度，予以輸出。

若依據本實施例，則由於使用複數個Dropout所致之語義分割之平均值或偏差來求出重心座標或信賴度，因此對抗雜訊的強固性可以變強(變高)，可以更高的信賴度來求出位置座標。 [實施例4]

接著說明，將實施例1乃至3中所說明的位置座標偵測裝置100或600或1100或1800，適用於實際裝置的事例。

圖14係為實施例4所述之試料加工裝置1400之構成例的區塊圖。試料加工裝置1400係具備：探針部1401、搬運部1402、電腦1403及影像感測器1404。探針部1401、搬運部1402、電腦1403及影像感測器1404，係透過匯流排1406而被連接。匯流排1406，係將匯流排1406上所被連接的各處理部中所處理的資料、控制資訊及解析資訊予以保持、或是仲介傳輸。

試料加工裝置1400，係透過匯流排1406而被連接至顯示裝置1410及輸出入裝置1411。試料加工裝置1400，係可與顯示裝置1410及輸出入裝置1411做有線連接，也可做無線連接。此外，在圖14中雖然是以顯示裝置1410及輸出入裝置1411是被設置在試料加工裝置1400之外部的例子來圖示，但亦可內建於試料加工裝置1400中。

試料加工裝置1400，係為了將特定之試料之一部分予以拾取，而具有將特定之試料搬運至裝置內部，對該試料的特定之地點，使探針部1401中所內藏的未圖示的探針之尖端做接近之機能。

使用圖15，說明對試料的特定之地點，使探針部1401中所內藏的未圖示的探針之尖端做接近的處理流程。

首先，使用搬運部1402來將未圖示的對象之試料搬運至試料加工裝置1400之內部(S1501)。接著，將已搬運的試料的特定之地點，以未圖示的加工部進行加工(S1502)。使用在電腦1403中事前作成的位置座標偵測程式和以影像感測器1404所拍攝到的試料之影像，將已被加工之試料的特定之地點，加以偵測(S1503)。該位置座標偵測程式係亦可使用，將對應於圖13所示之流程圖的位置座標偵測程式，進行學習成可以偵測出試料的特定之地點而成者，亦可使用公知的技術所致者。

在使用了對應於圖13所示之流程圖的位置座標偵測程式的情況下，對應於S1304之步驟中所被算出的信賴度是低於事前決定之閾值的情況下，亦可藉由警報而告知操作者，並與使用電腦1403中所被記憶的其他位置座標偵測程式所算出的位置座標進行核對，若兩者是存在於容許範圍內的情況則繼續動作。藉由警報而告知操作者的情況下，操作者係亦可參照顯示裝置1610中所被顯示的影像感測器1404之影像與圖13中所示的流程圖之S1303中所求出的重心之位置座標，來判斷動作的繼續或中斷。

在繼續動作的情況下，係使用在電腦1403中事前作成的位置座標偵測程式和以影像感測器1404所拍攝到的探針之影像，來偵測探針的尖端(S1504)。該位置座標偵測程式，係使用圖13所示的流程圖所對應之位置座標偵測程式。

此處，已被算出之信賴度是低於事前決定之閾值的情況下，則亦可藉由警報來告知操作者，亦可與使用其他位置座標偵測程式所算出的位置座標進行核對，若兩者是存在於容許範圍內的情況則繼續動作。藉由警報而告知操作者的情況下，操作者係亦可參照顯示裝置中所被顯示的影像感測器之影像與位置座標，來判斷動作的繼續或中斷。在繼續動作的情況下，則以使得所被偵測到的，試料的特定之地點之位置座標與探針之尖端之位置座標會接近的方式，來控制探針部1401，而移動探針(S1505)。

若依據本實施例，則可用和實施例3中所說明之相同的方法來求出重心座標或信賴度，因此對抗雜訊的強固性可以變強，可以更高的信賴度來求出探針的尖端位置。 [實施例5]

接著說明，將實施例1乃至3中所說明的位置座標偵測裝置100或600或1100或1800，適用於實際裝置的另一事例。

圖16係為第5實施例所述之試料檢查裝置1600之構成例的區塊圖。試料檢查裝置1600係具備：帶電粒子線部1601、搬運部1602、電腦1603及影像感測器1604。帶電粒子線部1601、搬運部1602、電腦1603及影像感測器1604，係透過匯流排1606而被連接。匯流排1606，係將匯流排1606上所被連接的各處理部中所處理的資料、控制資訊及解析資訊予以保持、或是仲介傳輸。

試料檢查裝置1600，係透過匯流排1606而被連接至顯示裝置1610及輸出入裝置1611。試料檢查裝置1600，係可與顯示裝置1610及輸出入裝置1611做有線連接，也可做無線連接。此外，在圖16中雖然是以顯示裝置1610及輸出入裝置1611是被設置在試料檢查裝置1600之外部的例子來圖示，但亦可內建於試料檢查裝置1600中。

使用圖17，說明將試料的特定之地點予以偵測的處理流程。

首先，使用搬運部1602來將未圖示的對象之試料搬運至試料檢查裝置1600之內部(S1701)。接著，使用電腦1603中所被事前記憶的位置座標偵測程式、和以影像感測器1604或是帶電粒子線部1601所拍攝到的試料之影像，來偵測試料的特定之地點(S1702)。該位置座標偵測程式係使用，將實施例3中使用圖13所說明之流程圖所對應的位置座標偵測程式，進行學習成可以偵測出試料的特定之地點而成者。

此處，已被算出之信賴度是低於事前決定之閾值的情況下，則亦可藉由警報來告知操作者，亦可與使用電腦1603中所被記憶之其他位置座標偵測程式所算出的位置座標進行核對，若兩者是存在於容許範圍內的情況則繼續動作。藉由警報而告知操作者的情況下，操作者係亦可參照顯示裝置1610中所被顯示的影像感測器1604中所被偵測到的影像與圖13中所示的流程圖之S1303中所求出的重心之位置座標，來判斷動作的繼續或中斷。在繼續動作的情況下，則對所被偵測到的試料的特定之地點，進行檢查(S1703)。

若依據本實施例，則可用和實施例3中所說明之相同的方法來求出重心座標或信賴度，因此對抗雜訊的強固性可以變強，可以更高的信賴度來求出試料的特定之地點。

100,600,1100,1800:位置座標偵測裝置 110,610,1110,1810:深度學習模型 120,620,1120,1820:位置座標算出部 130,630,1130:信賴度算出部 201:被攝體影像 202,203,302,703:×標記 204,304,403,404:熱點圖 210:訓練影像資料 220,720:教師資料 301:被攝體 303,803:位置座標 310,410,820:影像 320,420,820,920,1210,1220,1920:推論影像 401:被攝體 411,412:背景 413:雜訊 704:圓圖形 804,903,904,1201,1202,1203,1204,1903,1904:斑點 1400:試料加工裝置 1401:探針部 1402:搬運部 1403:電腦 1404:影像感測器 1406:匯流排 1410:顯示裝置 1411:輸出入裝置 1600:試料檢查裝置 1601:帶電粒子線部 1602:搬運部 1603:電腦 1604:影像感測器 1606:匯流排 1610:顯示裝置 1611:輸出入裝置

[圖1]實施例1所述之位置座標偵測裝置之構成例的區塊圖。 [圖2]實施例1中的訓練影像資料及教師影像資料之一例的圖示。 [圖3]實施例1中的推論對象之影像資料及推論結果也就是推論影像資料之一例的圖示。 [圖4]實施例1中的推論對象之影像資料及推論結果也就是推論影像資料之一例的圖示。 [圖5]實施例1所述之位置座標偵測程式的流程圖。 [圖6]實施例2所述之位置座標偵測裝置之構成例的區塊圖。 [圖7]實施例2中的訓練影像資料及教師影像資料之一例的圖示。 [圖8]實施例2中的推論對象之影像資料及推論結果也就是推論影像資料之一例的圖示。 [圖9]實施例2中的推論對象之影像資料及推論結果也就是推論影像資料之一例的圖示。 [圖10]實施例2所述之位置座標偵測程式的流程圖。 [圖11]實施例3所述之位置座標偵測裝置之構成例的區塊圖。 [圖12]實施例3中的推論結果也就是推論影像資料之一例的圖示。 [圖13]實施例3所述之位置座標偵測程式的流程圖。 [圖14]實施例4所述之試料加工裝置之構成例的區塊圖。 [圖15]實施例4所述之圖14的試料加工裝置之動作之一例的流程圖。 [圖16]實施例5所述之試料檢查裝置之構成例的區塊圖。 [圖17]實施例5所述之圖16的試料檢查裝置之動作之一例的流程圖。 [圖18]實施例2的變形例所述之位置座標偵測裝置之構成例的區塊圖。 [圖19]實施例2的變形例中的訓練影像資料及教師影像資料之一例的圖示。 [圖20]實施例2的變形例所述之位置偵測程式的流程圖。

100:位置座標偵測裝置

110:深度學習模型

120:位置座標算出部

130:信賴度算出部

Claims

一種位置座標偵測裝置，其特徵為，具備：深度學習模型，係將在拍攝了被攝體之影像上所欲偵測之位置是已被特定的訓練影像資料和對前記訓練影像資料上的前記所欲偵測之位置上的前記被攝體配置了與前記被攝體呈現獨立之形狀的像素群所作成的教師影像資料之組合，使用了複數組所被學習而成；和位置座標算出部，係使用將欲偵測位置座標之新的被攝體之影像輸入至前記深度學習模型所求出的推論影像資料，而算出前記位置座標；和信賴度算出部，係使用從前記深度學習模型所被輸出的推論影像資料之像素群之資訊，來算出前記位置座標算出部所算出的前記位置座標之信賴度。
如請求項1所記載之位置座標偵測裝置，其中，相對於前記教師影像資料的前記所欲偵測之位置上的前記被攝體而與前記被攝體之背景為不同的像素群，係為由2維高斯型之像素值所成之以前記所欲偵測之位置座標為中心的圓或多角形；前記深度學習模型係為Fully-Convolutional Encoder-Decoder Network；並包含有：以前記位置座標算出部來求出前記推論影像資料之峰值座標的處理。
如請求項1所記載之位置座標偵測裝置，其中，相對於前記教師影像資料的前記所欲偵測之位置上的前記被攝體而與前記被攝體之背景為不同的像素群，係為由同一像素值所成之以前記所欲偵測之位置座標為中心的圓或多角形；前記深度學習模型係為語義分割所需之深度學習網路；並包含有：以前記位置座標算出部來求出前記推論影像資料之連結成分及該連結成分之重心的處理。
如請求項1所記載之位置座標偵測裝置，其中，包含有：以前記信賴度算出部，將前記推論影像資料之前記像素群之廣域性之資訊與前記教師影像資料之前記像素群之形狀之差異予以數值化的處理。
如請求項3所記載之位置座標偵測裝置，其中，包含有：以前記信賴度算出部，將前記推論影像資料之前記像素群之廣域性之資訊予以數值化的處理。
一種試料加工裝置，其特徵為，含有如請求項1所記載之位置座標偵測裝置。
一種試料檢查裝置，其特徵為，含有如請求項1所記載之位置座標偵測裝置。
一種位置座標偵測裝置，其特徵為，具備：深度學習模型，係將在拍攝了被攝體之影像上所欲偵測之位置座標是已被特定的訓練影像資料、和對前記訓練影像資料上的前記所欲偵測之位置座標上的前記被攝體而在相對的位置上配置了由同一像素值所成之以前記所欲偵測之位置座標為中心的呈圓形狀的像素群而成的教師影像資料之組合，使用了複數個所被學習而成；和位置座標算出部，係使用將欲求出位置座標的新的被攝體之影像輸入至前記深度學習模型所求出的推論影像資料，而算出前記新的被攝體之影像中的前記所欲求出之位置座標。
一種位置座標偵測方法，其特徵為，作成深度學習模型，其係將在拍攝了被攝體之影像上所欲偵測之位置是已被特定的訓練影像資料和對前記訓練影像資料上的前記所欲偵測之位置上的前記被攝體配置了呈現與前記被攝體獨立之形狀的像素群所作成的教師影像資料之組合，使用了複數組所被學習而成；使用將欲偵測位置座標的新的被攝體之影像輸入至前記深度學習模型所求出的推論影像資料，藉由位置座標算出部而將前記新的被攝體之所欲偵測之位置的位置座標予以算出；使用從前記深度學習模型所被輸出的推論影像資料之像素群之資訊，而將前記位置座標算出部所算出的前記新的被攝體之位置座標之信賴度，藉由信賴度算出部而予以算出。
如請求項9所記載之位置座標偵測方法，其中，相對於前記教師影像資料的前記所欲偵測之位置上的前記被攝體而與前記被攝體之背景為不同的像素群，係為由2維高斯型之像素值所成之以前記所欲偵測之位置座標為中心的圓；前記深度學習模型係為Fully-Convolutional Encoder-Decoder Network；並包含有：以前記位置座標算出部來求出前記推論影像資料之峰值座標的處理。
如請求項9所記載之位置座標偵測方法，其中，相對於前記教師影像資料的前記所欲偵測之位置上的前記被攝體而與前記被攝體之背景為不同的像素群，係為由同一像素值所成之以前記所欲偵測之位置座標為中心的圓或多角形；前記深度學習模型係為語義分割所需之深度學習網路；並包含有：以前記位置座標算出部來求出前記推論影像資料之連結成分及該連結成分之重心的處理。
如請求項9所記載之位置座標偵測方法，其中，包含有：以前記信賴度算出部，將前記推論影像資料之前記像素群之廣域性之資訊與前記教師影像資料之前記像素群之形狀之差異予以數值化的處理。
如請求項11所記載之位置座標偵測方法，其中，包含有：以前記信賴度算出部，將前記推論影像資料之前記像素群之形狀予以數值化的處理。
一種試料加工方法，其特徵為，含有如請求項9所記載之位置座標偵測方法。
一種試料檢查方法，其特徵為，含有如請求項9所記載之位置座標偵測方法。
一種位置座標偵測方法，其特徵為，將在拍攝了被攝體之影像上所欲偵測之位置座標是已被特定的訓練影像資料、和對前記訓練影像資料上的前記所欲偵測之位置座標上的前記被攝體而在相對的位置上配置了由同一像素值所成之以前記所欲偵測之位置座標為中心的呈圓形狀的像素群而成的教師影像資料之組合，使用複數個來將深度學習模型進行學習；使用將欲求出位置座標的新的被攝體之影像輸入至前記深度學習模型所求出的推論影像資料，藉由位置座標算出部而將前記新的被攝體之影像中的前記所欲求出之位置座標予以算出。