TWI777153B

TWI777153B - 影像辨識方法及其裝置及人工智慧模型訓練方法及其裝置

Info

Publication number: TWI777153B
Application number: TW109113254A
Authority: TW
Inventors: 陳柏森
Original assignee: 和碩聯合科技股份有限公司
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2022-09-11
Also published as: TW202141349A; US20210326657A1; CN113536879A

Abstract

本發明提出一種影像辨識方法及其裝置及人工智慧模型訓練方法及其裝置。影像辨識方法包括：藉由影像感測器擷取輸入影像；偵測所述輸入影像中的物體及對應所述物體的多個特徵點，並獲得所述多個特徵點的即時二維座標資訊；透過人工智慧模型根據所述多個特徵點的所述即時二維座標資訊判斷所述物體與所述影像感測器之間的距離；以及當所述距離小於或等於門檻值時對所述物體進行動作識別操作。

Description

影像辨識方法及其裝置及人工智慧模型訓練方法及其裝置

本發明是有關於一種影像辨識方法及其裝置及人工智慧模型訓練方法及其裝置，且特別是有關於一種以低成本降低動作辨識錯誤率的影像辨識方法及電子裝置。

在動作辨識領域中，若背景環境中有其他人的干擾可能會造成針對特定使用者的動作出現誤判。以手勢辨識為例，當使用者在電腦前方透過手勢來操作投影片，系統可能誤判辨識到背景其他人的手勢而出現錯誤操作。在現有方法中可以先透過人臉辨識來鎖定特定使用者或透過深度影像感測器來鎖定較近的使用者，但這些方法會增加辨識時間及硬體成本，而無法實作於硬體資源有限的電子裝置。因此，如何以低成本降低動作辨識錯誤率是本領域技術人員應致力的目標。

有鑑於此，本發明提供一種影像辨識方法及其裝置及人工智慧模型訓練方法及其裝置，能採用低成本方式來降低動作辨識的錯誤率。

本發明提出一種影像辨識方法，包括：藉由影像感測器擷取輸入影像；偵測所述輸入影像中的物體及對應所述物體的多個特徵點，並獲得所述多個特徵點的即時二維座標資訊；透過人工智慧模型根據所述多個特徵點的所述即時二維座標資訊判斷所述物體與所述影像感測器之間的距離；以及當所述距離小於或等於門檻值時對所述物體進行動作識別操作。

本發明提出一種人工智慧模型訓練方法，適用於訓練人工智慧模型使人工智慧模型在推論階段判斷輸入影像中物體與影像感測器的距離。影像辨識方法包括：藉由深度影像感測器擷取訓練影像；偵測所述訓練影像中的訓練物體及對應所述訓練物體的多個訓練特徵點，並獲得所述訓練物體的所述多個訓練特徵點的二維座標資訊及三維座標資訊；以及以所述訓練物體的所述二維座標資訊及所述三維座標資訊作為輸入資訊來訓練人工智慧模型根據所述輸入影像中物體的多個特徵點的即時二維座標資訊判斷所述輸入影像中物體與所述影像感測器的距。

本發明提出一種影像辨識裝置，包括：影像感測器，用以擷取輸入影像；偵測模組，用以偵測所述輸入影像中的物體及對應所述物體的多個特徵點並獲得所述多個特徵點的即時二維座標資訊；人工智慧模型，用以根據所述多個特徵點的所述即時二維座標資訊判斷所述物體與所述影像感測器之間的距離；以及動作識別模組，用以當所述距離小於門檻值時，對所述物體進行動作識別操作。

本發明提出一種人工智慧模型訓練裝置，適用於訓練所述人工智慧模型使所述人工智慧模型在推論階段中判斷輸入影像中物體與影像感測器的距離。人工智慧模型訓練裝置包括：深度影像感測器，用以擷取訓練影像；偵測模組，用以偵測所述訓練影像中的訓練物體及對應所述物體的多個訓練特徵點並獲得所述訓練物體的所述多個訓練特徵點的二維座標資訊及三維座標資訊；以及訓練模組，用以以所述訓練物體的所述二維座標資訊及所述三維座標資訊作為輸入資訊來訓練人工智慧模型根據所述輸入影像中物體的多個特徵點的即時二維座標資訊判斷所述輸入影像中物體與所述影像感測器的距離。

基於上述，本發明的影像辨識方法及其裝置及人工智慧模型訓練方法及其裝置會先在訓練階段以深度影像感測器獲得訓練影像中的訓練物體的多個特徵點的二維座標資訊及三維座標資訊，並以二維座標資訊及三維座標資訊訓練人工智慧模型。因此，在實際影像辨識中只需要以不具有深度資訊功能的影像感測器獲得輸入影像中的物體的特徵點的即時二維座標資訊，以根據即時二維座標資訊判斷物體與影像感測器之間的距離。如此一來，本發明的影像辨識方法及電子裝置可使用較低的硬體成本來降低動作辨識的錯誤率。

圖1為根據本發明一實施例用於影像辨識推論階段的電子裝置的方塊圖。

請參照圖1，根據本發明一實施例的電子裝置100(或稱為人工智慧模型訓練裝置)包括影像感測器110、偵測模組120、人工智慧模型130及動作識別模組140。電子裝置100例如是個人電腦、平板電腦、筆記型電腦、智慧型手機、車用裝置、家用裝置等裝置並用以進行即時動作辨識。影像感測器110例如是彩色相機(例如，RGB相機)或其他類似元件。在一實施例中，影像感測器110並不具有深度資訊感測功能。偵測模組120、人工智慧模型130及動作識別模組140可透過軟體、韌體、硬體電路的其中之一或其任意組合來實作，且本揭露不對偵測模組120、人工智慧模型130及動作識別模組140的實作方式作出限制。

在推論階段(inference phase)，即實際影像辨識階段中，影像感測器110可擷取輸入影像。偵測模組120可偵測輸入影像中的物體及對應物體的多個特徵點，並獲得多個特徵點的即時二維座標資訊。物體例如是手、腳、人體、臉等身體部位，且特徵點例如是手、腳、或人體的關節點及臉的特徵點等。手的關節點例如位於手的指尖、掌心及手指根部等。多個特徵點的二維座標資訊可被輸入事先訓練好的人工智慧模型130。人工智慧模型130可根據多個特徵點的即時二維座標資訊判斷物體與影像感測器110之間的距離。當物體與影像感測器110之間的距離小於或等於門檻值(例如，50公分)時，動作識別模組140可對物體進行動作識別操作(例如，手勢識別操作等)。當物體與影像感測器110之間的距離大於門檻值時，動作識別模組140不對物體進行動作識別操作。如此一來，當背景有其他物體也在作動作時，背景物體的動作會被忽略而降低動作辨識的錯誤率。

值得注意的是，人工智慧模型130例如是卷積神經網路(Convolutional Neural Network，CNN)或循環神經網路(Recurrent Neural Network，RNN)等深度學習模型。人工智慧模型130可透過多個訓練影像的訓練物體的多個特徵點(或稱為訓練特徵點)的二維座標資訊及三維座標資訊作為輸入資訊來進行訓練，使得人工智慧模型130可在實際影像辨識階段中，僅藉由物體的即時二維座標資訊判斷物體與影像感測器110之間的距離。人工智慧模型130的訓練將在下文中詳細說明。

圖2為根據本發明一實施例用於影像辨識訓練階段的電子裝置的方塊圖。

請參照圖2，根據本發明一實施例的電子裝置200(或稱為影像辨識裝置)包括深度影像感測器210、偵測模組220、座標轉換模組230及訓練模組240。電子裝置200例如是個人電腦、平板電腦、筆記型電腦、智慧型手機等裝置並用以進行人工智慧模型的訓練。深度影像感測器210例如是深度相機(depth camera)或其他類似元件。偵測模組220、座標轉換模組230及訓練模組240可透過軟體、韌體、硬體電路的其中之一或其任意組合來實作，且本揭露不對偵測模組220、座標轉換模組230及訓練模組240的實作方式作出限制。

在訓練階段中，深度影像感測器210可擷取訓練影像。偵測模組220可偵測訓練影像中的訓練物體及對應訓練物體的多個特徵點，並獲得訓練物體的多個特徵點的二維座標資訊。座標轉換模組230可透過投影矩陣(projection matrix)將二維座標資訊轉換為三維座標資訊。訓練模組240可根據二維座標資訊及三維座標資訊來訓練人工智慧模型。在推論階段中，人工智慧模型可偵測輸入影像的物體並根據物體的多個特徵點的即時二維座標資訊判斷物體與影像感測器之間的距離。在另一實施例中，深度影像感測器210也可擷取訓練影像並直接獲得訓練影像中訓練物體的多個特徵點的二維座標資訊及三維座標資訊，且訓練模組240以二維座標資訊及三維座標資訊當成輸入的訓練資料來訓練人工智慧模型。

舉例來說，在訓練階段中，多個訓練影像組成的資料集可被建立。此資料集可包括大量的RGB影像及註解(annotation)。註解可標註每張RGB影像中物體的位置及物體特徵點的三維座標資訊。物體特徵點的三維座標資訊可由上述深度影像感測器210來取得。訓練模組240可根據訓練物體的多個特徵點的三維座標資訊計算訓練物體的多個特徵點與深度影像感測器210的平均距離以獲得訓練物體與深度影像感測器210之間的距離。

圖3為根據本發明一實施例的影像辨識訓練階段的流程圖。

請參照圖3，在步驟S301中，開啟深度相機。

在步驟S302中，透過深度相機擷取訓練影像。

在步驟S303中，偵測訓練影像中的物體及物體的特徵點。

在步驟S304中，將物體的特徵點的二維座標資訊轉換為三維座標資訊。

在步驟S305中，產生包括特徵點的二維座標資訊及三維座標資訊的註解。值得注意的是，註解也可僅包括特徵點的二維座標資訊及物體到深度相機的距離，其中物體到深度相機的距離可為物體的所有特徵點到深度相機的平均距離。

在步驟S306中，根據訓練影像及註解來訓練人工智慧模型。

值得注意的是，在影像辨識訓練階段中，可採用監督式學習輸入物體座標資料集(例如，物體的二維座標資訊及三維座標資訊，或是物體的二維座標資訊及物體到深度相機的距離)，藉此訓練人工智慧模型根據物體的特徵點的二維座標資訊來分析物體到深度相機的距離。

圖4為根據本發明一實施例的影像辨識推論階段的流程圖。

請參照圖4，在步驟S401中，開啟RGB相機。

在步驟S402中，透過RGB相機擷取輸入影像。

在步驟S403中，偵測輸入影像中的物體及物體的特徵點。

在步驟S404中，判斷是否偵測到特徵點。

若無偵測到特徵點，則回到步驟S402中再次透過RGB相機擷取輸入影像。若有偵測到特徵點，在步驟S405中，透過人工智慧模型根據特徵點的二維座標資訊判斷物體與RGB相機之間的距離。

在步驟S406中，判斷上述距離是否小於或等於門檻值。

若上述距離小於或等於門檻值，在步驟S407中，對物體進行動作辨識操作。

若上述距離大於門檻值，在步驟S408中，不對物體進行動作辨識操作。

綜上所述，本發明的影像辨識方法及電子裝置會先在訓練階段以深度影像感測器獲得訓練影像中的訓練物體的多個特徵點的二維座標資訊及三維座標資訊，並以二維座標資訊及三維座標資訊訓練人工智慧模型。因此，在推論階段中只需要以不具有深度資訊功能的影像感測器獲得輸入影像中的物體的特徵點的即時二維座標資訊，就可根據即時二維座標資訊判斷物體與影像感測器之間的距離。如此一來，本發明的影像辨識方法及電子裝置可使用較低的硬體成本來降低動作辨識的錯誤率。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100:電子裝置 110:影像感測器 120:偵測模組 130:人工智慧模型 140:動作識別模組 200:電子裝置 210:深度影像感測器 220:偵測模組 230:座標轉換模組 240:訓練模組 S301~S306:影像辨識訓練階段的步驟 S401~S408:影像辨識推論階段的步驟

圖1為根據本發明一實施例用於影像辨識推論階段的電子裝置的方塊圖。圖2為根據本發明一實施例用於影像辨識訓練階段的電子裝置的方塊圖。圖3為根據本發明一實施例的影像辨識訓練階段的流程圖。圖4為根據本發明一實施例的影像辨識推論階段的流程圖。

S401~S408:影像辨識推論階段的步驟

Claims

一種影像辨識方法，包括：藉由影像感測器擷取輸入影像；偵測所述輸入影像中的物體及對應所述物體的多個特徵點，並獲得所述多個特徵點的即時二維座標資訊；透過人工智慧模型根據所述多個特徵點的所述即時二維座標資訊判斷所述物體與所述影像感測器之間的距離；以及當所述距離小於或等於門檻值時對所述物體進行動作識別操作。
如請求項1所述的影像辨識方法，更包括：以多個訓練影像的訓練物體的多個訓練特徵點的二維座標資訊及三維座標資訊作為輸入資訊來訓練所述人工智慧模型。
如請求項1所述的影像辨識方法，更包括：當所述距離大於所述門檻值時則不對所述物體進行所述動作識別操作。
如請求項1所述的影像辨識方法，其中所述物體包括手且所述多個特徵點為所述手的多個關節點，所述多個關節點對應所述手的指尖、掌心及手指根部的至少其中之一或其組合。
如請求項1所述的影像辨識方法，其中所述影像感測器為彩色相機。
一種人工智慧模型訓練方法，適用於訓練所述人工智慧模型使所述人工智慧模型在推論階段判斷輸入影像中物體與影像感測器的距離，所述人工智慧模型訓練方法包括：藉由深度影像感測器擷取訓練影像；偵測所述訓練影像中的訓練物體及對應所述訓練物體的多個訓練特徵點，並獲得所述訓練物體的所述多個訓練特徵點的二維座標資訊及三維座標資訊；以所述訓練物體的所述二維座標資訊及所述三維座標資訊作為輸入資訊來訓練人工智慧模型根據所述輸入影像中物體的多個特徵點的即時二維座標資訊判斷所述輸入影像中物體與所述影像感測器的距離；以及當所述距離小於或等於門檻值時對所述物體進行動作識別操作。
如請求項6所述的人工智慧模型訓練方法，更包括：根據所述訓練物體的所述多個訓練特徵點的所述三維座標資訊計算所述訓練物體的所述多個訓練特徵點與所述深度影像感測器的平均距離以獲得所述訓練物體與所述深度影像感測器之間的距離。
如請求項6所述的人工智慧模型訓練方法，其中所述深度影像感測器的投影矩陣將所述物體的所述多個訓練特徵點的所述二維座標資訊轉換為所述三維座標資訊。
如請求項6所述的人工智慧模型訓練方法，更包括：產生包括所述訓練特徵點的所述二維座標資訊及所述三維座標資訊的註解，並根據所述註解及所述訓練影像來訓練所述人工智慧模型。
如請求項6所述的人工智慧模型訓練方法，更包括：產生包括所述訓練特徵點的所述二維座標資訊及所述物體到所述深度影像感測器的距離的註解，並根據所述註解及所述訓練影像來訓練所述人工智慧模型。
一種影像辨識裝置，包括：影像感測器，用以擷取輸入影像；偵測模組，用以偵測所述輸入影像中的物體及對應所述物體的多個特徵點並獲得所述多個特徵點的即時二維座標資訊；人工智慧模型，用以根據所述多個特徵點的所述即時二維座標資訊判斷所述物體與所述影像感測器之間的距離；以及動作識別模組，用以當所述距離小於門檻值時，對所述物體進行動作識別操作。
如請求項11所述的影像辨識裝置，其中所述人工智慧模型藉由多個訓練影像的訓練物體的多個訓練特徵點的二維座標資訊及三維座標資訊作為輸入資訊來訓練。
如請求項11所述的影像辨識裝置，其中所述動作識別模組當所述距離不小於所述門檻值時則不對所述物體進行所述動作識別操作。
如請求項11所述的影像辨識裝置，其中所述物體包括手且所述多個特徵點為所述手的多個關節點，所述多個關節點對應所述手的指尖、掌心及手指根部的至少其中之一或其組合。
如請求項11所述的影像辨識裝置，其中所述影像感測器為彩色相機。
一種人工智慧模型訓練裝置，適用於訓練所述人工智慧模型使所述人工智慧模型在推論階段中判斷輸入影像中物體與影像感測器的距離，所述人工智慧模型訓練裝置包括：深度影像感測器，擷取訓練影像；偵測模組，用以偵測所述訓練影像中的訓練物體及對應所述物體的多個訓練特徵點並獲得所述訓練物體的所述多個訓練特徵點的二維座標資訊及三維座標資訊；以及訓練模組，用以以所述訓練物體的所述二維座標資訊及所述三維座標資訊作為輸入資訊來訓練人工智慧模型根據所述輸入影像中物體的多個特徵點的即時二維座標資訊判斷所述輸入影像中物體與所述影像感測器的距離，當所述距離小於或等於門檻值時對所述物體進行動作識別操作。
如請求項16所述的人工智慧模型訓練裝置，其中所述訓練模組根據所述訓練物體的所述多個訓練特徵點的所述三維座標資訊計算所述訓練物體的所述多個訓練特徵點與所述深度影像感測器的平均距離以獲得所述訓練物體與所述深度影像感測器之間的距離。
如請求項16所述的人工智慧模型訓練裝置，其中所述深度影像感測器的投影矩陣將所述訓練物體的所述多個訓練特徵點的所述二維座標資訊轉換為所述三維座標資訊。
如請求項16所述的人工智慧模型訓練裝置，其中所述訓練模組產生包括所述訓練特徵點的所述二維座標資訊及所述三維座標資訊的註解，並根據所述註解及所述訓練影像來訓練所述人工智慧模型。
如請求項16所述的人工智慧模型訓練裝置，其中所述訓練模組產生包括所述訓練特徵點的所述二維座標資訊及所述訓練物體到所述深度影像感測器的距離的註解，並根據所述註解及所述訓練影像來訓練所述人工智慧模型。