TWI758662B - 用於人臉辨識的訓練資料產生方法及資料產生裝置 - Google Patents
用於人臉辨識的訓練資料產生方法及資料產生裝置 Download PDFInfo
- Publication number
- TWI758662B TWI758662B TW108143054A TW108143054A TWI758662B TW I758662 B TWI758662 B TW I758662B TW 108143054 A TW108143054 A TW 108143054A TW 108143054 A TW108143054 A TW 108143054A TW I758662 B TWI758662 B TW I758662B
- Authority
- TW
- Taiwan
- Prior art keywords
- synthetic
- model
- face
- training data
- models
- Prior art date
Links
Images
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本發明實施例提出一種用於人臉辨識的訓練資料產生方法及資料產生裝置。基於人臉形變模型生成大量虛擬的合成模型,其中對臉部形狀、表情及/或角度變化以增加訓練資料的多樣性。經實驗結果得出,前述訓練資料可增進人臉辨識的準確度。
Description
本發明是有關於一種機器學習(machine learning)技術,且特別是有關於一種用於人臉辨識的訓練資料產生方法及資料產生裝置。
機器學習技術可自既有資料和經驗中學習並得出其運行規則,並是人工智慧(Artificial Intelligence,AI)技術中相同重要的分支之一。機器學習技術的應用領域相當廣泛。其中,機器學習應用在人臉識別的成效更為突出。人臉識別是主張非侵入性的生物特徵辨識技術,因此廣受使用者應用。人臉識別更結合其他領域的研究,並發展出多種應用。例如:監控領域(例如,邊境管制、嫌疑犯追蹤)、安全領域(例如,系統登入、帳戶安全),甚至娛樂領域(例如,人機互動、虛擬實境)等等。
常見的機器學習架構例如是深度神經網路(Deep Neural Network,DNN)、卷積神經網路(Convolutional Neural Network,CNN)、遞迴神經網路(Recurrent Neural Network,RNN)等。現階段多數人臉辨識研究是以CNN作為架構基礎。
值得注意的是,機器學習所達到的功效相關於訓練資料的內容及數量。然而,蒐集到可應於各種情況條件的人臉識別的巨量資料是相當具有挑戰的。
有鑑於此,本發明實施例提供一種用於人臉辨識的訓練資料產生方法及資料產生裝置,合成大量虛擬人臉資料,以擴充機器學習所用的資料。
本發明實施例的用於人臉辨識的訓練資料產生方法,其包括下列步驟:基於人臉形變模型合成出數個合成模型。對各合成模型變化以形成數個訓練資料。而這些訓練資料是用於機器學習訓練。
另一方面,本發明實施例的資料產生裝置,其可用於生成人臉辨識所用的訓練資料,且包括但不僅限於記憶體及處理器。記憶體用以記錄程式碼。處理器耦接記憶體,並經載入那些程式碼後可執行下列步驟:基於人臉形變模型合成出數個合成模型。對各合成模型變化以形成數個訓練資料。而這些訓練資料是用於機器學習訓練。
基於上述,本發明實施例的用於人臉辨識的訓練資料產生方法及資料產生裝置,透過形狀、表情及/或面向變化來生成不同的虛擬合成模型,即可有效擴充機器學習所用的訓練資料,更能有助於提升人臉辨識效果。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1是依據本發明一實施例的資料產生裝置100的元件方塊圖。請參照圖1,資料產生裝置100包括但不僅限於記憶體110及處理器130。資料產生裝置100可以是諸如行動電話、平板電腦、桌上型電腦、伺服器等電子裝置。
記憶體110可以是任何型態的固定或可移動隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash Memory)、傳統硬碟(Hard Disk Drive,HDD)、固態硬碟(Solid-State Drive,SSD)或類似元件或上述元件之組合的儲存器。在本發明實施例中,記憶體110用於儲存暫存或永久的資料(例如,人臉影像、掃描結果、人臉形變模型、合成模型、訓練資料、表情特徵、深度圖、真實資料集等)、軟體模組(例如,模型生成模組111、訓練資料生成模組113、學習模組115等)或其他檔案及資料,且其詳細內容待後續實施例詳述。
處理器130耦接於記憶體110,處理器130並可以是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application-Specific Integrated Circuit,ASIC)或其他類似元件或上述元件的組合。在本發明實施例中,處理器130用以執行資料產生裝置100的所有作業,且可載入並執行記憶體110所記錄的各軟體模組、檔案及資料。
為了方便理解本發明實施例的操作流程,以下將舉諸多實施例詳細說明本發明實施例的訓練資料產生流程。下文中,將搭配資料產生裝置100中的各元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整,且並不僅限於此。
圖2是依據本發明一實施例的用於人臉辨識的訓練資料產生方法的流程圖。請參照圖2,處理器130透過模型生成模組111基於人臉形變模型合成出數個合成模型(步驟S210)。具體而言,在進行機器學習訓練時,為了避免訓練時有過擬合(Over-fitting)的情況發生,可採用資料擴充(Data Augmentation)來解決前述情況。在影像辨識技術中,考量到目標物件可能在不同環境下被拍攝,若能針對不同環境因素(例如,方向、位置、亮度等)來進行學習,也許可能達到準確的辨識結果。然而,環境因素通常較難掌控。因此,透過資料擴充合成額外的假資料可彌補資料不足的問題,並幫助訓練神經網路可應付不同的環境。而本發明實施例的目的之一即是針對人臉辨識學習產生合成的資料。
模型生成模組111可基於人臉重建技術來生成人臉模型。人臉重建技術是基於輸入的一張或多張二維或三維影像來重建出二維或三維模型。人臉重建技術例如是基於影像資訊(例如,影像亮度、邊緣資訊、線性透視、顏色等)的重建、基於模型(例如,三角網格(mesh)、點雲(point cloud)等)的重建、以及端到端的重建(例如,基於神經網路學習)。需說明的是,本發明實施例不限制基礎人臉模型的產生方式。
以通用人臉模型為例,可採用掃描儀獲取人臉資訊、電腦圖形技術、或建模軟體等方式來產生。
以基於模型的重建為例,可定義人臉模型如下:…(1)
其中S為形狀向量(Shape-vector),且T為紋理向量(Texture-vector)。形狀向量定義如下:…(2)分別是人臉模型中各頂點的三維座標資訊,且n為頂點個數。紋理向量定義如下:…(3)分別是人臉模型中各頂點的紅、綠、藍顏色資訊。每張人臉模型都有各自對應的形狀向量及紋理向量。假設有兩個以上的人臉模型,模型生成模組111可對各人臉模型賦予權重,則這些人臉模型經加權運算(其形狀向量及紋理向量分別加權運算)後即可產生新的人臉模型。由此可知,透過改變不同人臉模型對應的權重,即可生成新的人臉模型。接著,基於輸入的二維或三維人臉影像來與人臉模型匹配/擬合,即可完成模型重建。
在一實施例中,模型生成模組111更可對一個或更多個人臉模型中的形狀向量增加表情變化。即,頂點位置可基於表情資訊來進一步被調整。
值得注意的是,本發明實施例的人臉形變模型人是基於臉部掃描結果所產生(例如,前述模型重建方法),並是可供位於其上的一個或更多個臉部頂點調整位置及/或顏色的人臉模型。而人臉形變模型可以是巴塞爾臉部模型(Basel Face Model– 2017,BFM-2017)、薩里臉部模型(Surrey Face Model)或是其他人臉形變模型。此外,作為基準模型的臉部表情可能是嘴巴緊閉、嘴巴張開、其他表情或其組合。
在一實施例中,模型生成模組111可改變人臉形變模型的人臉形狀,以形成一個或更多個合成模型。於此定義各合成模型是一個個體。模型生成模組111可改變前述形狀向量來形成不同的個體。
舉例而言,BFM-2017是基於200張三維臉部掃描作為模型樣本的人臉形變模型,且從200個人臉樣本中可得到平均臉部模型(,為平均人臉形狀向量、為平均人臉紋理向量)。此平均人臉形狀向量即可作為人臉形狀變化的基準:…(4)是生成出來的人臉形狀,是中的平均人臉形狀向量,是自BFM-201得來代表人臉形狀變化的多變異性矩陣,為控制的組合參數。因此,長度199的參數向量可作為對合成個體的依據。模型生成模組111可使用隨機亂數或特定規律來生成各種不同人臉形狀的合成模型作為個體(即,合成模型)。
圖3是一範例說明不同形狀的合成模型。請參照圖3,合成模型FM1~FM4的人臉形狀不同。
接著,模型生成模組111對每一該合成模型變化以形成數個訓練資料(步驟S230)。具體而言,訓練資料是用於機器學習訓練。而為了增加相同個體的人臉資料差異,在一實施例中,可透過多種表情來擴充資料量,以防止合成模型因為無表情的特徵所造成的過擬合問題。模型生成模組111可調整一個或更多個合成模型的表情特徵,以改變對應合成模型的臉部表情。模型生成模組111例如是參考表情資訊(例如,Face-Warehouse資料集或其他資料集),來改變合成模型上一個或更多頂點的位置。基於方程式(5)可得出增加表情特徵的合成模型如下:…(5)是加上表情變化後的合成模型,為自Fare-Warehouse資料集得到的人臉表情的變化資訊,向量為控制的參數組合,其中長度為100。模型生成模組111可對向量使用隨機亂數或特定規律來生成各種不同臉部表情的合成模型。
圖4是一範例說明不同表情的合成模型。請參照圖4,基於相同個體可形成不同臉部表情的合成模型SM1~SM4。
在另一實施例中,模型生成模組111旋轉合成模型,以改變此合成模型的面向/姿態。具體而言,模型的角度變化也可增進資料擴充。以三維座標空間為例,人臉的面向相對於觀察者的視角有六種不同的角度參數可供調整:偏擺(Yaw)、俯仰(Pitch)、翻轉(Roll)以及X、Y、Z的三維平移(3D Translation)。若欲確保人臉的位置會在影像正中間,可忽略三維平移作變動,但不以此為限。
以下針對偏擺、俯仰以及翻轉進行旋轉變化。假設利用三維空間中的旋轉矩陣(Rotation Matrix)對合成模型的座標點進行變化:…(6)
其中是偏擺矩陣(即,在空間中單獨繞Z軸旋轉角度(假設逆時針為正)),此時三維座標點的座標轉換只對X、Y平面有影響,也就是X、Y平面旋轉,方程式(6)為的展開式:…(7)。
而是俯仰矩陣Pitch(即,在空間中單獨繞Y軸旋轉角度),此時三維座標點的座標轉換只對X、Z平面有影響,也就是X、Z平面旋轉,方程式(8)為的展開式:…(8)。
最後,是翻轉矩陣(即,在空間中單獨繞X軸旋轉角度),此時三維座標點的座標轉換只對Y、Z平面有影響,也就是Y、Z平面旋轉,式(9)為的展開式:…(9)
模型生成模組111可隨機產生旋轉角度、、,並讓原本的合成模型、相對視角點進行三維空間的旋轉變化。如方程式(10)、(11),並將旋轉後的合成座標擴充到虛擬合成資料集,以增加角度的變化性。…(10)…(11)
圖5是一範例說明不同面向的合成模型。請參照圖5,基於相同個體可形成相對於視角的不同面向的合成模型SM5~SM8。
在一實施例中,針對三維人臉模型,訓練資料生成模組113可對那些合成模型分別轉換成數個深度圖,並將那些深度圖作為訓練資料。訓練資料用於輸入至特徵向量學習器訓練。例如,學習模組115是基於訓練資料來訓練神經網路。特徵向量學習器可以是FaceNet、DeepFace、InsightFace、Inception-ResNet v1或其他架構。
以Inception-ResNet架構為例,Inception模塊是可解決過大模型所導致的過擬合情況,更具有提升運算效率的功效。Inception模塊基本組成有四個成份:1×1卷積、3×3卷積、5×5卷積、以及3×3最大池化。對四個成份運算結果進行通道上組合,即是Inception模塊的核心思想:通過多個卷積核提取圖像不同尺度的信息,進行融合,即可得到影像更好的特徵。另一方面,殘差學習網路(ResNet)可解決加深後的深度學習網路所在成訓練集準確率下降的現象。ResNet在原本的連接映射(Residual Mapping)外新增了恆等映射(Identity Mapping)的連接方式,使ResNet具有兩種連接方式。當網路學習已達到最優狀態時,更深層網路的連接映射會被改變為0,此時只剩下恆等映射,網路會一直處於最優狀態,且網路的性能也不會隨著深度增加而降低。而Inception-ResNet v1包括三種Inception-ResNet模塊:Inception-ResNet-A、Inception-ResNet-B以及Inception-ResNet-C,每個模塊都使用了Inception和ResNet的概念。此外,這些模型可進一步被調整,例如:將輸入大小改為,並將最後一層的Softmax函數去除且加上一層1×1×128的卷積層,以作為特徵向量輸出。
在另一實施例中,針對二維人臉模型,訓練資料生成模組113可將影像中的臉部特徵作為訓練資料。
為了減少虛擬合成資料集(對合成模型變化後所得出,且相關於訓練資料)與真實資料集(基於臉部掃描結果所產生)之間的差異。在一實施例中,模型生成模組111可限制旋轉變化的範圍。例如,偏擺變化限制在、俯仰變化限制在[-30°,30°]、翻轉變化限制在[-15°,15°]。值得注意的是,模型生成模組111仍可在前述限制的範圍內隨機旋轉。
在另一實施例中,訓練資料生成模組113可基於變化的合成模型及真實資料集共同形成那些訓練資料。具體而言,變化的合成模型所形成的虛擬合成資料可與真實資料集合併,或是將虛擬合成資料集作為訓練資料集並使用真實資料集進行合成模型的調整。
又一實施例中,訓練資料生成模組113可自真實資料集挑選部分資料,且透過虛擬合成資料集在特徵向量學習器的訓練,並使用部分真實資料作模型調整,亦能提升準確率。例如,訓練資料生成模組113僅選擇四分之一筆真實資料。
再一實施例中,訓練資料生成模組113可增加合成模型的個數。例如,增加兩倍的合成模型。藉此,可透過提升資料量來使驗證結果趨近於真實資料集。
綜上所述,本發明實施例的用於人臉辨識的訓練資料產生方法及資料產生裝置,基於臉部掃描結果重建人臉模型並據以生成臉形變模型,且臉形變模型經改變形狀後形成合成模型。合成模型可進一步改變表情及/或面向以擴充資料。另一方面,為了提升辨識準確度,可對虛擬合成資料限制旋轉角度、提供真實資料集輔助及/或刪減真實資料集輔助。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
100:資料產生裝置
110:記憶體
111:模型生成模組
113:訊練資料生成模組
115:學習模組
130:處理器
S210~S230:步驟
FM1~FM4、SM1~SM8:合成模型
圖1是依據本發明一實施例的資料產生裝置的元件方塊圖。
圖2是依據本發明一實施例的用於人臉辨識的訓練資料產生方法的流程圖。
圖3是一範例說明不同形狀的合成模型。
圖4是一範例說明不同表情的合成模型。
圖5是一範例說明不同面向的合成模型。
S210~S230:步驟
Claims (10)
- 一種用於人臉辨識的訓練資料產生方法,包括:基於一人臉形變模型合成出多個合成模型;以及對該些合成模型變化以形成多個訓練資料,其中該些訓練資料是用於機器學習訓練,其中對該些合成模型變化以形成該些訓練資料的步驟包括:對該些合成模型中的至少一個合成模型進行一旋轉操作,以改變該至少一個合成模型的面向,其中該旋轉操作使該至少一個合成模型在一特定角度範圍內進行多個旋轉變化,以產生該些訓練資料,該特定角度範圍需符合:該至少一個合成模型的一偏擺角度介於-90°~90°之間,該至少一個合成模型的一俯仰角度介於-30°~30°之間,且該至少一個合成模型的一翻轉角度介於-15°~15°之間。
- 如申請專利範圍第1項所述的用於人臉辨識的訓練資料產生方法,其中基於該人臉形變模型合成出該些合成模型的步驟包括:改變該人臉形變模型的人臉形狀,以形成該些合成模型,其中該人臉形變模型是基於臉部掃描結果所產生。
- 如申請專利範圍第1項所述的用於人臉辨識的訓練資料產生方法,其中對該些合成模型變化以形成該些訓練資料的步驟包括:調整該些合成模型的表情特徵,以改變該些合成模型的臉部 表情。
- 如申請專利範圍第1項所述的用於人臉辨識的訓練資料產生方法,其中基於該人臉形變模型合成出該些合成模型的步驟包括:對該些合成模型分別轉換成多個深度圖,並將該些深度圖作為該些訓練資料,其中該些訓練資料用於輸入至特徵向量學習器訓練。
- 如申請專利範圍第1項所述的用於人臉辨識的訓練資料產生方法,其中基於該人臉形變模型合成出該些合成模型的步驟包括:基於變化的該些合成模型及一真實資料集共同形成該些訓練資料,其中該真實資料集是基於臉部掃描結果所產生。
- 一種資料產生裝置,用於生成人臉辨識所用的訓練資料,且包括:一記憶體,記錄至少一程式碼;以及一處理器,耦接該記憶體,並經載入該至少一程式碼而執行:基於一人臉形變模型合成出多個合成模型;以及對每一該合成模型變化以形成多個訓練資料,其中該些訓練資料是用於機器學習訓練,其中該處理器更用以執行:對該些合成模型中的至少一個合成模型進行一旋轉操作,以改變該至少一個合成模型的面向,其中該旋轉操作使該至少 一個合成模型在一特定角度範圍內進行多個旋轉變化,以產生該些訓練資料,該特定角度範圍需符合:該至少一個合成模型的一偏擺角度介於-90°~90°之間,該至少一個合成模型的一俯仰角度介於-30°~30°之間,且該至少一個合成模型的一翻轉角度介於-15°~15°之間。
- 如申請專利範圍第6項所述的資料產生裝置,其中該處理器更用以執行:改變該人臉形變模型的人臉形狀,以形成該些合成模型,其中該人臉形變模型是基於臉部掃描結果所產生。
- 如申請專利範圍第6項所述的資料產生裝置,其中該處理器更用以執行:調整該些合成模型的表情特徵,以改變該些合成模型的臉部表情。
- 如申請專利範圍第6項所述的資料產生裝置,其中該處理器更用以執行:對該些合成模型分別轉換成多個深度圖,並將該些深度圖作為該些訓練資料,其中該些訓練資料用於輸入至特徵向量學習器訓練。
- 如申請專利範圍第6項所述的資料產生裝置,其中該處理器更用以執行:基於變化的該些合成模型及一真實資料集共同形成該些訓練資料,其中該真實資料集是基於臉部掃描結果所產生。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108143054A TWI758662B (zh) | 2019-11-27 | 2019-11-27 | 用於人臉辨識的訓練資料產生方法及資料產生裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108143054A TWI758662B (zh) | 2019-11-27 | 2019-11-27 | 用於人臉辨識的訓練資料產生方法及資料產生裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202121334A TW202121334A (zh) | 2021-06-01 |
TWI758662B true TWI758662B (zh) | 2022-03-21 |
Family
ID=77516498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108143054A TWI758662B (zh) | 2019-11-27 | 2019-11-27 | 用於人臉辨識的訓練資料產生方法及資料產生裝置 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI758662B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI452998B (zh) * | 2009-06-17 | 2014-09-21 | Univ Southern Taiwan | System and method for establishing and analyzing skin parameters using digital image multi-area analysis |
CN109325994A (zh) * | 2018-09-11 | 2019-02-12 | 合肥工业大学 | 一种基于三维人脸数据增强的方法 |
CN110097035A (zh) * | 2019-05-15 | 2019-08-06 | 成都电科智达科技有限公司 | 一种基于3d人脸重建的人脸特征点检测方法 |
CN110189248A (zh) * | 2019-05-16 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 图像融合方法及装置、存储介质、电子设备 |
-
2019
- 2019-11-27 TW TW108143054A patent/TWI758662B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI452998B (zh) * | 2009-06-17 | 2014-09-21 | Univ Southern Taiwan | System and method for establishing and analyzing skin parameters using digital image multi-area analysis |
CN109325994A (zh) * | 2018-09-11 | 2019-02-12 | 合肥工业大学 | 一种基于三维人脸数据增强的方法 |
CN110097035A (zh) * | 2019-05-15 | 2019-08-06 | 成都电科智达科技有限公司 | 一种基于3d人脸重建的人脸特征点检测方法 |
CN110189248A (zh) * | 2019-05-16 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 图像融合方法及装置、存储介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
TW202121334A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tang et al. | Lgm: Large multi-view gaussian model for high-resolution 3d content creation | |
Zhu et al. | Face alignment across large poses: A 3d solution | |
Ichim et al. | Dynamic 3D avatar creation from hand-held video input | |
US11514642B2 (en) | Method and apparatus for generating two-dimensional image data describing a three-dimensional image | |
Wang et al. | Action recognition from depth maps using deep convolutional neural networks | |
TWI709107B (zh) | 影像特徵提取方法及包含其顯著物體預測方法 | |
Pishchulin et al. | Learning people detection models from few training samples | |
CN111199531A (zh) | 基于泊松图像融合及图像风格化的交互式数据扩展方法 | |
CN113344777B (zh) | 基于三维人脸分解的换脸与重演方法及装置 | |
CN116324895A (zh) | 可变形神经辐射场 | |
US20100259538A1 (en) | Apparatus and method for generating facial animation | |
CN108960020A (zh) | 信息处理方法和信息处理设备 | |
CN112085835B (zh) | 三维卡通人脸生成方法、装置、电子设备及存储介质 | |
Su et al. | Danbo: Disentangled articulated neural body representations via graph neural networks | |
CN108573231A (zh) | 基于运动历史点云生成的深度运动图的人体行为识别方法 | |
Siarohin et al. | Unsupervised volumetric animation | |
CN113538221A (zh) | 三维人脸的处理方法、训练方法、生成方法、装置及设备 | |
Pan et al. | Residual meshnet: Learning to deform meshes for single-view 3d reconstruction | |
CN111460193A (zh) | 一种基于多模态信息融合的三维模型分类方法 | |
Feng et al. | 3D shape retrieval using a single depth image from low-cost sensors | |
Duan et al. | Bakedavatar: Baking neural fields for real-time head avatar synthesis | |
US12051151B2 (en) | System and method for reconstruction of an animatable three-dimensional human head model from an image using an implicit representation network | |
US11170203B2 (en) | Training data generation method for human facial recognition and data generation apparatus | |
TWI758662B (zh) | 用於人臉辨識的訓練資料產生方法及資料產生裝置 | |
US20230298243A1 (en) | 3d digital avatar generation from a single or few portrait images |