TW202127327A - 資料生成方法、裝置、電腦裝置及存儲介質 - Google Patents
資料生成方法、裝置、電腦裝置及存儲介質 Download PDFInfo
- Publication number
- TW202127327A TW202127327A TW109100656A TW109100656A TW202127327A TW 202127327 A TW202127327 A TW 202127327A TW 109100656 A TW109100656 A TW 109100656A TW 109100656 A TW109100656 A TW 109100656A TW 202127327 A TW202127327 A TW 202127327A
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- sample
- sample data
- training set
- model
- Prior art date
Links
Images
Abstract
本發明提供一種資料生成方法、資料生成裝置、電腦裝置及電腦存儲介質,所述方法包括:獲取第一樣本資料;確定所述第一樣本資料的類型及所述類型對應的資料擴充方式,根據確定的所述資料擴充方式對所述第一樣本資料進行擴充,以生成第二樣本資料;根據預設規則將所述第一樣本資料和所述第二樣本資料劃分為訓練集和驗證集,其中,所述訓練集用於訓練一資料模型,所述驗證集用於驗證訓練後的所述資料模型。
Description
本發明涉及人工智慧技術領域,具體涉及一種資料生成方法、資料生成裝置、電腦裝置及電腦存儲介質。
在人工智慧領域,經常需要訓練一個資料模型用來對待識別資訊進行識別,所述待識別資訊可以包括圖像、文字、數字。在資料模型訓練過程中,需要獲取大量原始資料對資料模型進行訓練。因此,原始資料數量之多少直接影響了資料模型中資料之擬合精度、參數設置、演算法選擇,從而進一步影響了資料模型識別之精度。但是在現實之生產生活中,在一些生產領域,由於環境技術等方面之限制無法獲取足夠多之原始資料對模型進行訓練。例如產品線上檢測領域,對於產品量產階段出現之不良,由於產品之良率高,無法獲得足夠多之原始資料對所述不良之特徵資訊進行提取,從而影響了資料模型對所述不良識別之精度。
鑒於以上內容,有必要提出一種資料生成方法及裝置、電腦裝置和電腦存儲介質,藉由所述方法可以自動生成新之樣品資料,從而提升了資料模型特性資訊提取之精度。
本申請之第一方面提供一種資料生成方法,所述方法包括:
獲取第一樣本資料;
確定所述第一樣本資料之類型及所述類型對應之資料擴充方式,根據確定之所述資料擴充方式對所述第一樣本資料進行擴充,以生成第二樣本資料;
根據預設規則將所述第一樣本資料和所述第二樣本資料劃分為訓練集和驗證集,其中,所述訓練集用於訓練一資料模型,所述驗證集用於驗證訓練後之所述資料模型。
優選地,所述根據預設規則將所述第一樣本資料和所述第二樣本資料劃分為訓練集和驗證集之方法包括如下任意一種:
將所述第一樣本資料作為訓練集,將所述第二樣本資料作為驗證集;
將所述第一樣本資料和所述第二樣本資料整合成樣本資料集,並按照預設比例對樣本資料集中之資料進行劃分,將第一預設比例之樣本資料集中之資料作為訓練集,將第二預設比例之樣本資料集中資料作為驗證集。
優選地,選擇所述資料模型,並利用所述訓練集對所述資料模型進行訓練,其中所述資料模型用於獲取所述訓練集中之特徵資訊;
利用所述驗證集對訓練後之資料模型進行驗證,根據驗證結果確定所述資料模型獲取訓練集中之特徵資訊之準確率。
優選地,所述方法還包括:
判斷所述準確率是否大於預設閾值;
若大於,則將所述資料模型進行輸出;
若不大於,則對訓練集中之資料進行整理後重新對所述資料模型進行訓練,其中,所述整理之方法包括如下一種或多種:去除訓練集中不具有所述特徵資訊之資料、重新劃分訓練集和驗證集。
優選地,所述第一樣本資料之類型包括:圖像、數字、文字中之一種或多種。
優選地,所述第一樣本資料為圖像,所述根據確定之所述資料擴充方式對所述第一樣本資料進行擴充,以生成第二樣本資料之方法包括如下一種或多種:
對任一第一樣本圖像進行至少一次預設角度之旋轉,按照所述預設角度每旋轉一次,則生成一張第二樣本圖像;
對任一第一樣本圖像進行至少一次預設比例之縮小,按照所述預設比例每縮小一次,則生成一張第二樣本圖像;
對任一第一樣本圖像進行至少一次預設比例之放大,按照所述預設比例每放大一次,則生成一張第二樣本圖像。
優選地,所述待處理資料為數字,所述根據確定之所述資料擴充方式對所述第一樣本資料進行擴充,以生成第二樣本資料之方法包括如下一種或多種:
對第一樣本數字按照預設規則進行分組,對於每組數字取平均值,將所述平均值作為第二樣本數字;
對第一樣本數字按照預設規則進行分組,對於每組數字取標準方差值,將所述標準方差值作為第二樣本數字。
本申請之第二方面提供一種資料生成裝置,所述裝置包括:
獲取模組,用於獲取第一樣本資料;
擴充模組,用於確定所述第一樣本資料之類型及所述類型對應之資料擴充方式,根據確定之所述資料擴充方式對所述第一樣本資料進行擴充,以生成第二樣本資料;
執行模組,用於根據預設規則將所述第一樣本資料和所述第二樣本資料劃分為訓練集和驗證集,其中,所述訓練集用於訓練一資料模型,所述驗證集用於驗證訓練後之所述資料模型。
本申請之第三方面提供一種電腦裝置,所述電腦裝置包括處理器,所述處理器用於執行記憶體中存儲之電腦程式時實現如前所述資料生成方法。
本申請之第四方面提供一種電腦存儲介質,其上存儲有電腦程式,所述電腦程式被處理器執行時實現如前所述資料生成方法。
本發明在僅能獲取到有限數量之第一樣本資料之情況下,根據所述樣本資料之類型,選擇對應之資料擴充方式利用所述第一樣本資料生成第二樣本資料,將所述第一樣本資料和所述第二樣本資料作為樣本資料集,根據預設規則將所述樣本資料集劃分為訓練集和驗證集,使用訓練集對資料模型進行訓練,使用驗證集對訓練後之資料模型進行驗證,藉由所述方法使得資料模型識別特徵資訊之精度得到增強。
為能夠更清楚地理解本發明之上述目的、特徵與優點,下面結合附圖與具體實施例對本發明進行詳細描述。需要說明之是,於不衝突之情況下,本申請之實施例及實施例中之特徵可相互組合。
於下面之描述中闡述了很多具體細節以便於充分理解本發明,所描述之實施例僅僅是本發明一部分實施例,而不是全部之實施例。基於本發明中之實施例,本領域普通技術人員於沒有做出創造性勞動前提下所獲得之所有其他實施例,均屬於本發明保護之範圍。
除非另有定義,本文所使用之所有之技術與科學術語與屬於本發明之技術領域之技術人員通常理解之含義相同。本文中於本發明之說明書中所使用之術語僅是為描述具體之實施例之目不是旨在於限制本發明。
參閱圖1所示,為本發明實施例一提供之資料生成方法之應用環境架構示意圖。
本發明中之資料生成方法應用在電腦裝置1中,所述電腦裝置1和至少一個電子設備2藉由網路建立通信連接。所述電子設備2用於獲取第一樣本資料,並將獲取到之所述第一樣本資料藉由網路發送至電腦裝置1。所述電腦裝置1用於接收所述第一樣本資料,將所述第一樣本資料標記為訓練集中之資料,並利用所述第一樣本資料生成方法得到驗證集中之第二樣本資料。所述網路可以是有線網路,也可以是無線網路,例如無線電、無線保真(Wireless Fidelity, WIFI)、蜂窩、衛星、廣播等。
所述電腦裝置1可以為安裝有資料生成軟體之電子設備,例如個人電腦、伺服器等,其中,所述伺服器可以是單一之伺服器、伺服器集群或雲伺服器等。
所述電子設備2可以是具有攝像功能之可擕式電子設備、測試設備、或生產設備,用於獲取樣本圖像。所述電子設備2還可以是具有生產資料記錄功能之生產設備或測試設備。所述電子設備還可以是具有文字處理和錄入功能之電子設備,包括但不限於智慧手機、平板電腦、膝上型便捷電腦、臺式電腦等,用於接收使用者輸入之樣本資料。
請參閱圖2所示,是本發明一實施例提供之資料生成方法之流程圖。根據不同之需求,所述流程圖中之步驟之順序可以改變,某些步驟可以省略。
步驟S1、獲取第一樣本資料。
所述第一樣本資料之類型包括:圖像、數字、文字中之一種或多種。
在本發明一即時方式中,所述第一樣本資料可以是所述電腦裝置1從所述電子設備2獲取之不良樣本圖像,例如,電子設備2檢測到一產品具有表面劃傷瑕疵時,獲取帶有瑕疵表面產品之圖像發送給電腦裝置1,電腦裝置1接收所述圖像。
在本發明一實施方式中,所述第一樣本資料可以是電子設備2線上獲取之具有產品外部特徵之所有圖像,所述電子設備2將所述圖像發送給電腦裝置1。電腦裝置1接收到圖像後識別所述圖像中之特徵資訊,並將所述特徵資訊與預設資料庫中之特徵資訊進行比對,判斷所述圖像中之特徵資訊是否符合預設條件,若符合所述預設條件,則將具有所述特徵資訊之圖像標記為第一樣本資料。其中,所述預設資料庫中之特徵資訊可以是符合樣本資料條件之特徵資訊,也可以是不符合樣本資料條件之特徵資訊。所述預設條件可以是與所述產品外觀特徵資訊有差異之產品圖像。所述預設條件還可以是滿足外觀特徵資訊要求之產品圖像。
步驟S2、確定所述第一樣本資料之類型及所述類型對應之資料擴充方式,根據確定之所述資料擴充方式對所述第一樣本資料進行擴充,以生成第二樣本資料。
在本發明一實施方式中,當所述第一樣本資料類型為圖像時,所述第一樣本資料擴充方式包括:對任一第一樣本圖像進行至少一次預設角度之旋轉,按照所述預設角度每旋轉一次,則生成一張第二樣本圖像。例如對所述訓練集中之任意一幅第一樣本圖像按照順時針之方向旋轉1度獲取一張第二樣本圖像,若按照順時針方向每次旋轉1度獲取一張第二樣本圖像,旋轉359次,共獲取到359張第二樣本圖像,將所述359張第二樣本圖像標記為驗證集。
在本發明另一實施方式中,當所述資料類型為圖像時,所述資料擴充方式為:對任一第一樣本圖像進行至少一次預設比例之縮小,按照所述預設比例每縮小一次,則生成一張第二樣本圖像。例如對訓練集中之第一樣本圖像中之所有圖元之保證長寬比例不變之前提下,對每個圖元之長度和寬度各縮小5%,共縮小10次,即,將圖像縮小至95%,得到第一張第二樣本圖像,再縮小至90%,得到第二張第二樣本圖像,以此類推,得到多張第二樣本圖像。
在本發明又一實施方式中,當所述資料類型為圖像時,所述資料擴充方式還包括:對任一第一樣本圖像進行至少一次預設比例之放大,按照所述預設比例每放大一次,則生成一張第二樣本圖像。
在本發明又一實施方式中,當所述資料類型為數字時,所述資料擴充方式可以包括:對第一樣本數字按照預設規則進行分組,對於每組數字取平均值,將所述平均值作為第二樣本數字。例如,為了研究不同設備之間色域轉換,經常需要獲取待測圖像在不同設備上顯示之顏色值,所述顏色值為0到255之數字,在構建色域轉換模型時,需要獲取大量之顏色值,將所述顏色值輸入到所述色域轉換模型中,對所述色域轉換模型進行訓練,使得所述色域轉換模型具有識別不同設備間色域之轉換關係之功能,對任意輸入之任一設備上顯示之顏色值,可以預測所述顏色在其他設備上顯示之顏色值。為了提高所述色域轉換模型之轉換精度,需要輸入大量之顏色值對所述模型進行訓練和驗證,可是實際操作過充中無法獲取預設數量之顏色值,因此需要對已經獲取之顏色值進行分組,相鄰之三個顏色值分為一組,對同一組之三個顏色值平均值,將所述平均值作為驗證集中之資料對所述色域轉換模型進行驗證。
在本發明又一實施方式中,當所述資料類型為數字時,所述資料擴充方式還可以包括:對第一樣本數字按照預設規則進行分組,對於每組數字取標準方差值,將所述標準方差值作為第二樣本數字。
在本發明又一實施方式中,當所述資料類型為文字時,所述資料擴充方式可以包括:根據所述文字之詞性取同義詞、根據所述文字所屬之技術領域查找所述技術領域中與所述文字表達意思相同之文字。例如,在檔歸檔領域,為了使得檔歸檔之精度更加精確,需要構建一個檔歸檔模型,用於識別輸入到所述模型中之檔,對所述檔中之文字內容進行識別後,將所述檔歸入正確之文檔分類中。因此所述檔歸檔模型之識別精度就成了檔歸檔之關鍵因素。為了使得所述檔歸檔模型之識別精度更加精確需要獲取預設數量之文字對所述模型進行訓練,但是由於一些技術領域(例如軍事、考古)之檔資料不多,無法獲得足夠多之文字樣本對所述檔歸檔模型進行訓練和驗證,因此需要對已有檔資料中之關鍵字取近義詞作為驗證集,使用已有檔中之文字對所述模型進行訓練,用所述驗證集中之文字對所述模型進行驗證。
步驟S3、根據預設規則將所述第一樣本資料和所述第二樣本資料劃分為訓練集和驗證集,其中,所述訓練集用於訓練一資料模型,所述驗證集用於驗證訓練後之所述資料模型。
所述根據預設規則將所述第一樣本資料和所述第二樣本資料劃分為訓練集和驗證集之方法包括如下任意一種:
將所述第一樣本資料作為訓練集,將所述第二樣本資料作為驗證集;
將所述第一樣本資料和所述第二樣本資料整合成樣本資料集,並按照預設比例對樣本資料集中之資料進行劃分,將第一預設比例之樣本資料集中之資料作為訓練集,將第二預設比例之樣本資料集中資料作為驗證集。
在本發明又一實施方式中,所述步驟還包括:
選擇所述資料模型,並利用所述訓練集對所述資料模型進行訓練,其中所述資料模型用於獲取所述訓練集中之特徵資訊;
利用所述驗證集對訓練後之資料模型進行驗證,根據驗證結果確定所述資料模型獲取訓練集中之特徵資訊之準確率。
並判斷所述準確率是否大於預設閾值;
若大於,則將所述資料模型進行輸出;
若不大於,則對訓練集中之資料進行整理後重新對所述資料模型進行訓練,其中,所述整理之方法包括如下一種或多種:去除訓練集中不具有所述特徵資訊之資料、重新劃分訓練集和驗證集。
上述圖2詳細介紹了本發明之資料生成方法,下面結合第3-4圖,對實現所述資料生成方法之軟體裝置之功能模組以及實現所述資料生成方法之硬體裝置架構進行介紹。
應所述瞭解,所述實施例僅為說明之用,在專利申請範圍上並不受此結構之限制。
圖3為本發明資料生成裝置較佳實施例之結構圖。
在一些實施例中,資料生成裝置10運行於電腦裝置中。所述電腦裝置藉由網路連接了多個使用者終端。所述資料生成裝置10可以包括多個由程式碼段所組成之功能模組。所述資料生成裝置10中之各個程式段之程式碼可以存儲於電腦裝置之記憶體中,並由所述至少一個處理器所執行,以實現資料生成功能。
本實施例中,所述資料生成裝置10根據其所執行之功能,可以被劃分為多個功能模組。參閱圖3所示,所述功能模組可以包括:獲取模組101、擴充模組102、執行模組103。本發明所稱之模組是指一種能夠被至少一個處理器所執行並且能夠完成固定功能之一系列電腦程式段,其存儲在記憶體中。在本實施例中,關於各模組之功能將在後續之實施例中詳述。
所述獲取模組101,用於獲取第一樣本資料。
所述第一樣本資料之類型包括:圖像、數字、文字中之一種或多種。
在本發明一即時方式中,所述第一樣本資料可以是所述獲取模組101從所述電子設備2獲取之不良樣本圖像,例如,電子設備2檢測到一產品具有表面劃傷瑕疵時,獲取帶有瑕疵表面產品之圖像發送給所述獲取模組101,所述獲取模組101接收所述圖像。
在本發明一實施方式中,所述第一樣本資料可以是電子設備2線上獲取之具有產品外部特徵之所有圖像,所述電子設備2將所述圖像發送給所述獲取模組101。所述獲取模組101接收到圖像後識別所述圖像中之特徵資訊,並將所述特徵資訊與預設資料庫中之特徵資訊進行比對,判斷所述圖像中之特徵資訊是否符合預設條件,若符合所述預設條件,則將具有所述特徵資訊之圖像標記為第一樣本資料。其中,所述預設資料庫中之特徵資訊可以是符合樣本資料條件之特徵資訊,也可以是不符合樣本資料條件之特徵資訊。所述預設條件可以是與所述產品外觀特徵資訊有差異之產品圖像。所述預設條件還可以是滿足外觀特徵資訊要求之產品圖像。
所述擴充模組102,用於確定所述第一樣本資料之類型及所述類型對應之資料擴充方式,根據確定之所述資料擴充方式對所述第一樣本資料進行擴充,以生成第二樣本資料。
在本發明一實施方式中,當所述第一樣本資料類型為圖像時,所述第一樣本資料擴充方式包括:對任一第一樣本圖像進行至少一次預設角度之旋轉,按照所述預設角度每旋轉一次,則生成一張第二樣本圖像。例如對所述訓練集中之任意一幅第一樣本圖像按照順時針之方向旋轉1度獲取一張第二樣本圖像,若按照順時針方向每次旋轉1度獲取一張第二樣本圖像,旋轉359次,共獲取到359張第二樣本圖像,將所述359張第二樣本圖像標記為驗證集。
在本發明另一實施方式中,當所述資料類型為圖像時,所述資料擴充方式為:對任一第一樣本圖像進行至少一次預設比例之縮小,按照所述預設比例每縮小一次,則生成一張第二樣本圖像。例如對訓練集中之第一樣本圖像中之所有圖元之保證長寬比例不變之前提下,對每個圖元之長度和寬度各縮小5%,共縮小10次,即,將圖像縮小至95%,得到第一張第二樣本圖像,再縮小至90%,得到第二張第二樣本圖像,以此類推,得到多張第二樣本圖像。
在本發明又一實施方式中,當所述資料類型為圖像時,所述資料擴充方式還包括:對任一第一樣本圖像進行至少一次預設比例之放大,按照所述預設比例每放大一次,則生成一張第二樣本圖像。
在本發明又一實施方式中,當所述資料類型為數字時,所述資料擴充方式可以包括:對第一樣本數字按照預設規則進行分組,對於每組數字取平均值,將所述平均值作為第二樣本數字。例如,為了研究不同設備之間色域轉換,經常需要獲取待測圖像在不同設備上顯示之顏色值,所述顏色值為0到255之數字,在構建色域轉換模型時,需要獲取大量之顏色值,將所述顏色值輸入到所述色域轉換模型中,對所述色域轉換模型進行訓練,使得所述色域轉換模型具有識別不同設備間色域之轉換關係之功能,對任意輸入之任一設備上顯示之顏色值,可以預測所述顏色在其他設備上顯示之顏色值。為了提高所述色域轉換模型之轉換精度,需要輸入大量之顏色值對所述模型進行訓練和驗證,可是實際操作過充中無法獲取預設數量之顏色值,因此需要對已經獲取之顏色值進行分組,相鄰之三個顏色值分為一組,對同一組之三個顏色值平均值,將所述平均值作為驗證集中之資料對所述色域轉換模型進行驗證。
在本發明又一實施方式中,當所述資料類型為數字時,所述資料擴充方式還可以包括:對第一樣本數字按照預設規則進行分組,對於每組數字取標準方差值,將所述標準方差值作為第二樣本數字。
在本發明又一實施方式中,當所述資料類型為文字時,所述資料擴充方式可以包括:根據所述文字之詞性取同義詞、根據所述文字所屬之技術領域查找所述技術領域中與所述文字表達意思相同之文字。例如,在檔歸檔領域,為了使得檔歸檔之精度更加精確,需要構建一個檔歸檔模型,用於識別輸入到所述模型中之檔,對所述檔中之文字內容進行識別後,將所述檔歸入正確之文檔分類中。因此所述檔歸檔模型之識別精度就成了檔歸檔之關鍵因素。為了使得所述檔歸檔模型之識別精度更加精確需要獲取預設數量之文字對所述模型進行訓練,但是由於一些技術領域(例如軍事、考古)之檔資料不多,無法獲得足夠多之文字樣本對所述檔歸檔模型進行訓練和驗證,因此需要對已有檔資料中之關鍵字取近義詞作為驗證集,使用已有檔中之文字對所述模型進行訓練,用所述驗證集中之文字對所述模型進行驗證。
所述執行模組103,用於根據預設規則將所述第一樣本資料和所述第二樣本資料劃分為訓練集和驗證集,其中,所述訓練集用於訓練一資料模型,所述驗證集用於驗證訓練後之所述資料模型。
所述根據預設規則將所述第一樣本資料和所述第二樣本資料劃分為訓練集和驗證集之方法包括如下任意一種:
將所述第一樣本資料作為訓練集,將所述第二樣本資料作為驗證集;
將所述第一樣本資料和所述第二樣本資料整合成樣本資料集,並按照預設比例對樣本資料集中之資料進行劃分,將第一預設比例之樣本資料集中之資料作為訓練集,將第二預設比例之樣本資料集中資料作為驗證集。
在本發明又一實施方式中,所述步驟還包括:
選擇所述資料模型,並利用所述訓練集對所述資料模型進行訓練,其中所述資料模型用於獲取所述訓練集中之特徵資訊;
利用所述驗證集對訓練後之資料模型進行驗證,根據驗證結果確定所述資料模型獲取訓練集中之特徵資訊之準確率。
並判斷所述準確率是否大於預設閾值;
若大於,則將所述資料模型進行輸出;
若不大於,則對訓練集中之資料進行整理後重新對所述資料模型進行訓練,其中,所述整理之方法包括如下一種或多種:去除訓練集中不具有所述特徵資訊之資料、重新劃分訓練集和驗證集。
圖4為本發明電腦裝置較佳實施例之示意圖。
所述電腦裝置1包括記憶體20、處理器30以及存儲在所述記憶體20中並可在所述處理器30上運行之電腦程式40,例如資料生成程式。所述處理器30執行所述電腦程式40時實現上述資料生成方法實施例中之步驟,例如圖2所示之步驟S1~S3。或者,所述處理器30執行所述電腦程式40時實現上述資料生成裝置實施例中各模組/單元之功能,例如圖3中之單元101-103。
示例性之,所述電腦程式40可以被分割成一個或多個模組/單元,所述一個或者多個模組/單元被存儲在所述記憶體20中,並由所述處理器30執行,以完成本發明。所述一個或多個模組/單元可以是能夠完成特定功能之一系列電腦程式指令段,所述指令段用於描述所述電腦程式40在所述電腦裝置1中之執行過程。例如,所述電腦程式40可以被分割成圖3中之獲取模組101、擴充模組102、執行模組103。
所述電腦裝置1可以是桌上型電腦、筆記本、掌上型電腦及雲端伺服器等計算設備。本領域技術人員可以理解,所述示意圖僅僅是電腦裝置1之示例,並不構成對電腦裝置1之限定,可以包括比圖示更多或更少之部件,或者組合某些部件,或者不同之部件,例如所述電腦裝置1還可以包括輸入輸出設備、網路接入設備、匯流排等。
所稱處理器30可以是中央處理單元(Central Processing Unit,CPU),還可以是其他通用處理器、數字訊號處理器 (Digital Signal Processor,DSP)、專用積體電路 (Application Specific Integrated Circuit,ASIC)、現成可程式設計閘陣列 (Field-Programmable Gate Array,FPGA) 或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件等。通用處理器可以是微處理器或者所述處理器30也可以是任何常規之處理器等,所述處理器30是所述電腦裝置1之控制中心,利用各種介面和線路連接整個電腦裝置1之各個部分。
所述記憶體20可用於存儲所述電腦程式40和/或模組/單元,所述處理器30藉由運行或執行存儲在所述記憶體20內之電腦程式和/或模組/單元,以及調用存儲在記憶體20內之資料,實現所述電腦裝置1之各種功能。所述記憶體20可主要包括存儲程式區和存儲資料區,其中,存儲程式區可存儲作業系統、至少一個功能所需之應用程式(比如聲音播放功能、圖像播放功能等)等;存儲資料區可存儲根據電腦裝置1之使用所創建之資料(比如音訊資料、電話本等)等。此外,記憶體20可以包括高速隨機存取記憶體,還可以包括非易失性記憶體,例如硬碟、記憶體、插接式硬碟,智慧存儲卡(Smart Media Card, SMC),安全數字(Secure Digital, SD)卡,快閃記憶體卡(Flash Card)、至少一個磁碟記憶體件、快閃記憶體器件、或其他易失性固態記憶體件。
所述電腦裝置1集成之模組/單元如果以軟體功能單元之形式實現並作為獨立之產品銷售或使用時,可以存儲在一個電腦可讀取存儲介質中。基於這樣之理解,本發明實現上述實施例方法中之全部或部分流程,也可以藉由電腦程式來指令相關之硬體來完成,所述之電腦程式可存儲於一電腦可讀存儲介質中,所述電腦程式在被處理器執行時,可實現上述各個方法實施例之步驟。其中,所述電腦程式包括電腦程式代碼,所述電腦程式代碼可以為原始程式碼形式、物件代碼形式、可執行檔或某些中間形式等。所述電腦可讀介質可以包括:能夠攜帶所述電腦程式代碼之任何實體或裝置、記錄介質、U盤、移動硬碟、磁碟、光碟、電腦記憶體、唯讀記憶體(ROM,Read-Only Memory)、隨機存取記憶體(RAM,Random Access Memory)、電載波信號、電信信號以及軟體分發介質等。需要說明之是,所述電腦可讀介質包含之內容可以根據司法管轄區內立法和專利實踐之要求進行適當之增減,例如在某些司法管轄區,根據立法和專利實踐,電腦可讀介質不包括電載波信號和電信信號。
在本發明所提供之幾個實施例中,應所述理解到,所揭露之電腦裝置和方法,可以藉由其它之方式實現。例如,以上所描述之電腦裝置實施例僅僅是示意性之,例如,所述單元之劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外之劃分方式。
另外,在本發明各個實施例中之各功能單元可以集成在相同處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在相同單元中。上述集成之單元既可以採用硬體之形式實現,也可以採用硬體加軟體功能模組之形式實現。
對於本領域技術人員而言,顯然本發明不限於上述示範性實施例之細節,而且在不背離本發明之精神或基本特徵之情況下,能夠以其他之具體形式實現本發明。因此,無論從哪一點來看,均應將實施例看作是示範性之,而且是非限制性之,本發明之範圍由所附請求項而不是上述說明限定,因此旨在將落在請求項之等同要件之含義和範圍內之所有變化涵括在本發明內。不應將請求項中之任何附圖標記視為限制所涉及之請求項。此外,顯然“包括”一詞不排除其他單元或步驟,單數不排除複數。電腦裝置請求項中陳述之多個單元或電腦裝置也可以由同一個單元或電腦裝置藉由軟體或者硬體來實現。第一,第二等詞語用來表示名稱,而並不表示任何特定之順序。
最後應說明之是,以上實施例僅用以說明本發明之技術方案而非限制,儘管參照較佳實施例對本發明進行了詳細說明,本領域之普通技術人員應當理解,可以對本發明之技術方案進行修改或等同替換,而不脫離本發明技術方案之精神和範圍。
1:電腦裝置
2:電子設備
10:資料生成裝置
20:記憶體
30:處理器
40:電腦程式
101:獲取模組
102:擴充模組
103:執行模組
圖1是本發明一實施例提供之資料生成方法之應用環境架構示意圖。
圖2是本發明一實施例提供之資料生成方法流程圖。
圖3是本發明一實施例提供之資料生成裝置之結構示意圖。
圖4是本發明一實施例提供之電腦裝置示意圖。
Claims (10)
- 一種資料生成方法,所述方法包括: 獲取第一樣本資料; 確定所述第一樣本資料之類型及所述類型對應之資料擴充方式,根據確定之所述資料擴充方式對所述第一樣本資料進行擴充,以生成第二樣本資料; 根據預設規則將所述第一樣本資料和所述第二樣本資料劃分為訓練集和驗證集,其中,所述訓練集用於訓練一資料模型,所述驗證集用於驗證訓練後之所述資料模型。
- 如請求項1所述之資料生成方法,其中,所述根據預設規則將所述第一樣本資料和所述第二樣本資料劃分為訓練集和驗證集之方法包括如下任意一種: 將所述第一樣本資料作為訓練集,將所述第二樣本資料作為驗證集; 將所述第一樣本資料和所述第二樣本資料整合成樣本資料集,並按照預設比例對樣本資料集中之資料進行劃分,將第一預設比例之樣本資料集中之資料作為訓練集,將第二預設比例之樣本資料集中資料作為驗證集。
- 如請求項1所述之資料生成方法,其中,所述方法還包括: 選擇所述資料模型,並利用所述訓練集對所述資料模型進行訓練,其中所述資料模型用於獲取所述訓練集中之特徵資訊; 利用所述驗證集對訓練後之資料模型進行驗證,根據驗證結果確定所述資料模型獲取訓練集中之特徵資訊之準確率。
- 如請求項3所述之資料生成方法,其中,所述方法還包括: 判斷所述準確率是否大於預設閾值; 若大於,則將所述資料模型進行輸出; 若不大於,則對訓練集中之資料進行整理後重新對所述資料模型進行訓練,其中,所述整理之方法包括如下一種或多種:去除訓練集中不具有所述特徵資訊之資料、重新劃分訓練集和驗證集。
- 如請求項1所述之資料生成方法,其中,所述第一樣本資料之類型包括:圖像、數字、文字中之一種或多種。
- 如請求項5所述之資料生成方法,其中,所述第一樣本資料為圖像,所述根據確定之所述資料擴充方式對所述第一樣本資料進行擴充,以生成第二樣本資料之方法包括如下一種或多種: 對任一第一樣本圖像進行至少一次預設角度之旋轉,按照所述預設角度每旋轉一次,則生成一張第二樣本圖像; 對任一第一樣本圖像進行至少一次預設比例之縮小,按照所述預設比例每縮小一次,則生成一張第二樣本圖像; 對任一第一樣本圖像進行至少一次預設比例之放大,按照所述預設比例每放大一次,則生成一張第二樣本圖像。
- 如請求項5所述之資料生成方法,其中,所述待處理資料為數字,所述根據確定之所述資料擴充方式對所述第一樣本資料進行擴充,以生成第二樣本資料之方法包括如下一種或多種: 對第一樣本數字按照預設規則進行分組,對於每組數字取平均值,將所述平均值作為第二樣本數字; 對第一樣本數字按照預設規則進行分組,對於每組數字取標準方差值,將所述標準方差值作為第二樣本數字。
- 一種資料生成裝置,所述裝置包括: 獲取模組,用於獲取第一樣本資料; 擴充模組,用於確定所述第一樣本資料之類型及所述類型對應之資料擴充方式,根據確定之所述資料擴充方式對所述第一樣本資料進行擴充,以生成第二樣本資料; 執行模組,用於根據預設規則將所述第一樣本資料和所述第二樣本資料劃分為訓練集和驗證集,其中,所述訓練集用於訓練一資料模型,所述驗證集用於驗證訓練後之所述資料模型。
- 一種電腦裝置,其中所述電腦裝置包括處理器,所述處理器用於執行記憶體中存儲之電腦程式時實現如請求項1-7中任一項所述之資料生成方法。
- 一種電腦可讀存儲介質,其上存儲有電腦程式,其中所述電腦程式被處理器執行時實現如請求項1-7中任一項所述之資料生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109100656A TW202127327A (zh) | 2020-01-08 | 2020-01-08 | 資料生成方法、裝置、電腦裝置及存儲介質 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109100656A TW202127327A (zh) | 2020-01-08 | 2020-01-08 | 資料生成方法、裝置、電腦裝置及存儲介質 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202127327A true TW202127327A (zh) | 2021-07-16 |
Family
ID=77908693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109100656A TW202127327A (zh) | 2020-01-08 | 2020-01-08 | 資料生成方法、裝置、電腦裝置及存儲介質 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TW202127327A (zh) |
-
2020
- 2020-01-08 TW TW109100656A patent/TW202127327A/zh unknown
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW202046107A (zh) | 使用者終端硬體檢測方法、裝置、電腦裝置及存儲介質 | |
CN112528025A (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
WO2023138188A1 (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN114764768A (zh) | 缺陷检测分类方法、装置、电子设备及存储介质 | |
CN108682421B (zh) | 一种语音识别方法、终端设备及计算机可读存储介质 | |
CN112783825B (zh) | 数据归档方法、装置、计算机装置及存储介质 | |
US20220215679A1 (en) | Method of determining a density of cells in a cell image, electronic device, and storage medium | |
CN112149708A (zh) | 数据模型选择优化方法、装置、计算机装置及存储介质 | |
CN109697083B (zh) | 数据的定点化加速方法、装置、电子设备及存储介质 | |
CN112711963A (zh) | 用户终端故障检测方法、装置、计算机装置及存储介质 | |
CN114943672A (zh) | 图像瑕疵检测方法、装置、电子设备及存储介质 | |
CN115035017A (zh) | 细胞密度分群方法、装置、电子设备及存储介质 | |
CN113268567A (zh) | 多属性文本匹配方法、装置、设备和存储介质 | |
CN111949793A (zh) | 用户意图识别方法、装置及终端设备 | |
US11527058B2 (en) | Data generating method, and computing device and non-transitory medium implementing same | |
TW202127327A (zh) | 資料生成方法、裝置、電腦裝置及存儲介質 | |
CN110659208A (zh) | 测试数据集的更新方法和装置 | |
TW202133041A (zh) | 指紋圖像的特徵提取方法、裝置及電腦可讀存儲介質 | |
TWI735001B (zh) | 數據模型選擇優化方法、裝置、電腦裝置及存儲介質 | |
TWI775084B (zh) | 圖像識別方法、裝置、電腦裝置及存儲介質 | |
CN111460214A (zh) | 分类模型训练方法、音频分类方法、装置、介质及设备 | |
US20220178814A1 (en) | Method for calculating a density of stem cells in a cell image, electronic device, and storage medium | |
TWI712033B (zh) | 聲音識別方法、裝置、電腦裝置及存儲介質 | |
TWI830815B (zh) | 使用者終端故障檢測方法、裝置、電腦裝置及存儲介質 | |
TWI755176B (zh) | 細胞密度分類方法及裝置、電子裝置及存儲介質 |