TW202117707A - 資料處理方法、電子設備和電腦可讀儲存介質 - Google Patents

資料處理方法、電子設備和電腦可讀儲存介質 Download PDF

Info

Publication number
TW202117707A
TW202117707A TW109135575A TW109135575A TW202117707A TW 202117707 A TW202117707 A TW 202117707A TW 109135575 A TW109135575 A TW 109135575A TW 109135575 A TW109135575 A TW 109135575A TW 202117707 A TW202117707 A TW 202117707A
Authority
TW
Taiwan
Prior art keywords
sample
list
description information
samples
data
Prior art date
Application number
TW109135575A
Other languages
English (en)
Other versions
TWI755890B (zh
Inventor
王若暉
胡穎凡
Original Assignee
大陸商深圳市商湯科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商深圳市商湯科技有限公司 filed Critical 大陸商深圳市商湯科技有限公司
Publication of TW202117707A publication Critical patent/TW202117707A/zh
Application granted granted Critical
Publication of TWI755890B publication Critical patent/TWI755890B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本發明實施例關於一種資料處理方法、電子設備和電腦可讀儲存介質,所述方法包括:根據樣本的欄位及與所述欄位對應的參數值,確定包括多個樣本的樣本清單;根據所述樣本清單中樣本的資料類型,確定與所述樣本清單對應的描述資訊;根據所述樣本清單和所述描述資訊,確定樣本集。

Description

資料處理方法、電子設備和電腦可讀儲存介質
本發明關於電腦技術領域,關於一種資料處理方法、電子設備和電腦可讀儲存介質。
在機器學習中,尤其是在需要處理多種資料集的情況下,資料的讀取難度會增大。在相關技術中,資料集的儲存沒有統一的方式,對於資料集儲存也通常是為了適應資料集本身的結構。例如,python語言的pandas庫中的DataFrame類型的資料儲存方式雖然功能強大,但是支援的資料類型受限,主要面向專業用戶。另外,讀取操作主要關注資料本身。
本發明實施例提出了一種資料處理方法、電子設備和電腦可讀儲存介質。
根據本發明實施例的一方面,提供了一種資料處理方法,包括:根據樣本的欄位及與所述欄位對應的參數值,確定包括多個樣本的樣本清單;根據所述樣本清單中樣本的資料類型,確定與所述樣本清單對應的描述資訊;根據所述樣本清單和所述描述資訊,確定樣本集。
根據本發明實施例的資料處理方法,可確定用於儲存各樣本的樣本集,以及對應的描述資訊,可使用統一的方式儲存多種類型的樣本,且樣本集中包括描述資料類型的描述資訊,便於樣本資料的儲存和讀取,可支援多種類型的資料儲存和讀取,易於理解。
在一種可能的實現方式中,每個樣本具有樣本索引,所述根據樣本的欄位及與所述欄位對應的參數值,確定包括多個樣本的樣本清單,包括:將所述欄位確定為所述樣本清單的列座標,將所述樣本索引確定為所述樣本清單的行座標;將所述欄位對應的參數值進行物件化,獲得與所述樣本對應的物件;將所述物件中的資料添加至與所述列座標和所述行座標對應的儲存區域,獲得所述樣本清單。通過這種方式,可對樣本的參數值和/或標注物件化,並可通過樣本清單儲存多種資料類型的樣本,有利於樣本的快速儲存和讀取,減少儲存和讀取時的資源佔用,並可支援多種類型的資料儲存,適應更複雜類型的資料集的儲存。
在一種可能的實現方式中,所述描述資訊包括對樣本的讀取方式的描述資訊,所述根據所述樣本清單中所述樣本的資料類型,確定與所述樣本清單對應的描述資訊,包括:根據樣本清單中樣本的資料類型,確定用於讀取樣本的讀取方式;根據所述樣本的資料類型和對應的讀取方式,獲得所述描述資訊。通過這種方式,可確定多種樣本的讀取方式,有利於支援多種類型的資料儲存和存取,適應更複雜類型的資料集的儲存和存取。
在一種可能的實現方式中,所述描述資訊還包括對樣本儲存位置的描述資訊,所述儲存位置包括所述樣本集的儲存路徑及樣本在所述樣本集中的索引位置。通過這種方式,可確定樣本的精確位置,便於讀取樣本。
在一種可能的實現方式中,所述方法還包括:確定用於劃分樣本集中樣本的類別的索引範圍資訊;根據所述樣本集中樣本的描述資訊和所述索引範圍資訊,生成與所述樣本集對應的描述資訊。通過這種方式,可確定樣本的索引範圍,便於查找樣本。
在一種可能的實現方式中,所述方法還包括:根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值。
在一種可能的實現方式中,所述根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值,包括:獲取所述樣本清單中的物件;根據樣本索引,從所獲取的物件中,獲得與所述樣本索引對應的第一樣本的第一物件;根據所述描述資訊確定所述第一樣本的資料類型及對應的讀取方式;根據所述讀取方式,從所述第一物件中讀取所述第一樣本的參數值。
通過這種方式,可減少讀取樣本時的資源消耗,且可通過統一的方式儲存樣本資料,並利用樣本描述資訊儲存樣本資料類型,從而可以根據描述資訊方便獲取資料讀取方式,便於讀取多種資料類型的樣本,有利於樣本的快速讀取。
在一種可能的實現方式中,所述根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值,包括:獲取樣本索引;根據所述樣本索引,從所述樣本清單中獲取所述樣本索引對應的樣本的參數值。
在一種可能的實現方式中,所述根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值,包括:獲取所述樣本清單中目標欄位對應的物件;根據所述描述資訊確定所獲取的物件對應的第二樣本的資料類型及讀取方式;根據所述讀取方式,從所獲取的物件中讀取所述第二樣本的參數值。通過這種方式,通過存取欄位的方式讀取一個或多個樣本在該欄位的參數值,提高樣本讀取的靈活性,有利於樣本的快速讀取。
在一種可能的實現方式中,所述根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值,包括:獲取目標欄位的欄位名;根據所述欄位名,從樣本清單中獲取所述欄位名對應的目標欄位的參數值。
在一種可能的實現方式中,所述方法還包括:對讀取的所述樣本的參數值進行查詢、修改和刪除處理中至少一種操作。
根據本發明實施例的一方面,提供了一種資料處理裝置,包括:第一確定部分,被配置為根據樣本的欄位及與所述欄位對應的參數值,確定包括多個樣本的樣本清單;第二確定部分,被配置為根據所述樣本清單中樣本的資料類型,確定與所述樣本清單對應的描述資訊;第三確定部分,被配置為根據所述樣本清單和所述描述資訊,確定樣本集。
在一種可能的實現方式中,每個樣本具有樣本索引,所述第一確定部分還被配置為:將所述欄位確定為所述樣本清單的列座標,將所述樣本索引確定為所述樣本清單的行座標;將所述欄位對應的參數值進行物件化,獲得與所述樣本對應的物件;將所述物件中的資料添加至與所述列座標和所述行座標對應的儲存區域,獲得所述樣本清單。
在一種可能的實現方式中,所述描述資訊包括對樣本的讀取方式的描述資訊,所述第二確定部分還被配置為:根據樣本清單中樣本的資料類型,確定用於讀取樣本的讀取方式;根據所述樣本的資料類型和對應的讀取方式,獲得所述描述資訊。
在一種可能的實現方式中,所述描述資訊還包括對樣本儲存位置的描述資訊,所述儲存位置包括所述樣本集的儲存路徑及樣本在所述樣本集中的索引位置。
在一種可能的實現方式中,所述裝置還包括:第四確定部分,被配置為確定用於劃分樣本集中樣本的類別的索引範圍資訊;生成部分,被配置為根據所述樣本集中樣本的描述資訊和所述索引範圍資訊,生成與所述樣本集對應的描述資訊。
在一種可能的實現方式中,所述裝置還包括:讀取部分,被配置為根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值。
在一種可能的實現方式中,所述讀取部分還被配置為:獲取所述樣本清單中的物件;根據樣本索引,從所獲取的物件中,獲得與所述樣本索引對應的第一樣本的第一物件;根據所述描述資訊確定所述第一樣本的資料類型及對應的讀取方式;根據所述讀取方式,從所述第一物件中讀取所述第一樣本的參數值。
在一種可能的實現方式中,所述讀取部分還被配置為:獲取樣本索引;根據所述樣本索引,從所述樣本清單中獲取所述樣本索引對應的樣本的參數值。
在一種可能的實現方式中,所述讀取部分還被配置為:獲取所述樣本清單中目標欄位對應的物件;根據所述描述資訊確定所獲取的物件對應的第二樣本的資料類型及讀取方式;根據所述讀取方式,從所獲取的物件中讀取所述第二樣本的參數值。
在一種可能的實現方式中,所述讀取部分還被配置為:獲取目標欄位的欄位名;根據所述欄位名,從樣本清單中獲取所述欄位名對應的目標欄位的參數值。
在一種可能的實現方式中,所述裝置還包括:操作部分,被配置為對讀取的所述樣本的參數值進行查詢、修改和刪除處理中至少一種操作。
根據本發明實施例的一方面,提供了一種電子設備,包括:處理器;被配置為儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:執行上述資料處理方法。
根據本發明實施例的一方面,提供了一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述資料處理方法。
根據本發明實施例的一方面,提供了一種電腦程式,包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行時實現上述資料處理方法。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本發明實施例。
根據下面參考附圖對示例性實施例的詳細說明,本發明實施例的其它特徵及方面將變得清楚。
以下將參考附圖詳細說明本發明實施例的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的組件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯物件的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本發明實施例,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本發明實施例同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、組件和電路未作詳細描述,以便於凸顯本發明實施例的主旨。
圖1示出根據本發明實施例的資料處理方法的流程圖,如圖1所示,所述方法包括: S11,根據樣本的欄位及與所述欄位對應的參數值,確定包括多個樣本的樣本清單; S12,根據所述樣本清單中樣本的資料類型,確定與所述樣本清單對應的描述資訊; S13,根據所述樣本清單和所述描述資訊,確定樣本集。
根據本發明實施例的資料處理方法,可確定用於儲存各樣本的樣本集,以及對應的描述資訊,可使用統一的方式儲存多種類型的樣本,且樣本集中包括描述資料類型的描述資訊,便於樣本資料的儲存和讀取,可支援多種類型的資料儲存和讀取,易於理解。
在一種可能的實現方式中,所述資料處理方法的執行主體可以是終端設備或伺服器或其它處理設備,其中,終端設備可以為使用者設備(User Equipment,UE)、移動設備、使用者終端、終端、蜂窩電話、無線電話、個人數位助理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中,該方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現或通過伺服器來執行,例如,可將伺服器中的資料通過所述儲存方法進行儲存。
在一種可能的實現方式中,所述樣本的資料類型可包括多種,例如圖像、視頻和/或普通數值或文本資料等,本發明實施例對樣本的資料類型不做限制。所述樣本可包括一個或多個欄位,每個欄位可對應於樣本的某一個或某一類特徵,例如,某樣本為某個人的資料資料,該樣本的欄位可包括該人的身高、體重、學歷、國籍等,且該樣本可具有與各欄位對應的資料。本發明實施例對欄位不做限制。
在一種可能的實現方式中,在S11中,可通過樣本清單(datatable)來保存所述多個樣本,採用清單方式儲存便於資料的增、刪和修改等操作。
在一種可能的實現方式中,每個樣本具有樣本索引,所述樣本索引可以包括該樣本所對應的編號或名稱等,S11可包括:將所述欄位確定為所述樣本清單的列座標,將所述樣本索引確定為所述樣本清單的行座標;將所述樣本的參數值進行物件化,獲得與所述樣本對應的物件;將所述物件添加至與所述列座標和所述行座標對應的儲存區域,獲得所述樣本清單。
圖2示出根據本發明實施例的示例性的樣本清單的示意圖,如圖2所示,所述清單可以以樣本索引為行座標,以欄位為列座標。可對各樣本的欄位進行匯總,作為樣本清單的列座標,所述樣本可以是元組,例如二維元組,由多個欄位的資料組成的資料組。例如,某樣本(例如樣本1)為某個人的資料,該樣本的欄位可包括該人的身高(例如,欄位1)、體重(例如,欄位2)、學歷(例如,欄位3)等,另一樣本為某個人的人臉圖像,該樣本的欄位可包括該人的身份資訊等,可將各樣本的欄位進行匯總,則樣本清單的列座標可包括身高、體重、學歷、國籍和身份資訊等欄位。每個欄位在樣本清單中對應有一列資料,在該列資料的某些行,資料可為空。例如,在樣本的清單中,包括“國籍”欄位,在某個人的資料資料的樣本中,該欄位可存在資料,例如“中國”、“美國”等,而在人臉圖像樣本中,該欄位可不存在資料,即,在所述樣本清單中,在該人臉圖像樣本所在行、“國籍”欄位所在的列對應的區域中,資料為空。
在一種可能的實現方式中,可將樣本的樣本索引確定為所述樣本清單的行座標,例如,各樣本可具有樣本索引,例如,樣本1、樣本2、樣本3等,可將樣本索引確定為樣本清單的行座標。
在一種可能的實現方式中,所述樣本可以是訓練神經網路時使用的訓練樣本,每個樣本可具有標注,所述標注可以是描述樣本的欄位的資料。例如,所述樣本可包括人臉圖像樣本,在通過神經網路進行身份驗證時,神經網路將各人臉圖像樣本與參考圖像(例如,某個目標人物的人臉圖像)進行對比,並確定人臉圖像樣本與參考圖像的相似度。在相似度大於或等於相似度閾值(例如,0.5)時,可確定人臉圖像樣本與參考圖像的相似度較高,身份驗證通過,否則,身份驗證不通過。在訓練該神經網路時,則需要對各人臉圖像樣本進行標注,為神經網路的損失函數提供參數。例如,如果某個人臉圖像樣本為目標人物的人臉圖像,則可標注為1,表示該人臉圖像樣本中的人臉為目標人物的人臉,如果某個人臉圖像樣本不是目標人物的人臉圖像,則可標注為0,表示該人臉圖像樣本中的人臉不是目標人物的人臉。所述樣本可具有各欄位的參數值以及標注,例如,某個人臉圖像樣本的欄位為圖像中的目標物件的身份資訊(例如,姓名或編號等),標注為0或1。
在一種可能的實現方式中,可將樣本中各欄位的標注與參數值物件化,例如,可設立與樣本對應的儲存區域,例如,在記憶體中設立儲存空間,將樣本中各欄位的標注和參數值儲存在所述儲存區域中,獲得與樣本對應的物件(object),以便於儲存和讀取。其中,儲存了欄位的資料(標注和參數值)的儲存區域即為物件。
在一種可能的實現方式中,可將與樣本對應的物件中的資料添加至樣本清單中,或者將物件與樣本清單關聯,以將樣本清單初始化。例如,可將儲存了欄位的資料的儲存區域與樣本清單中的儲存區域(例如,樣本清單中的某個儲存格)對應。在示例中,可將與樣本1對應的物件中的資料添加至樣本清單的第1行,即,將樣本1對應的物件中的各欄位的資料,添加至第1行中與各欄位對應的儲存區域中,例如,將身高資料添加在行座標為第1行,列座標為“身高”欄位的儲存區域中,將體重資料添加在行座標為第1行,列座標為“體重”欄位的儲存區域中。可按照上述方式將每個樣本物件化,將物件中儲存的資料填入樣本清單的儲存區域中,可獲得儲存了多個樣本的樣本清單。
在一種可能的實現方式中,可按照樣本索引對樣本清單進行初始化,例如,可將一個樣本的各欄位的資料添加至對應的儲存區域,再添加下一個樣本的各欄位的資料,即,按照清單中的行方向添加各樣本的資料,以將樣本清單初始化。
在一種可能的實現方式中,可按照欄位對樣本清單進行初始化,即,可將一個欄位的所有資料添加至對應的儲存區域,再添加下一個欄位的資料,即,按照清單中的列方向添加資料,以將樣本清單初始化。
在一種可能的實現方式中,可以採用二維元組方式定義字元型的欄位名稱,以及該欄位對應的樣本的數值清單或陣列,或者採用關鍵字參數方式,或者上述兩種混合的方式初始化樣本清單。
通過這種方式,可對樣本的參數值和/或標注物件化,並可通過樣本清單儲存多種資料類型的樣本,有利於樣本的快速儲存和讀取,減少儲存和讀取時的資源佔用,並可支援多種類型的資料儲存,適應更複雜類型的資料集的儲存。
在一種可能的實現方式中,在S12中,樣本可包括多個資料類型,各類型的樣本可具有特定的儲存和讀取方式,在儲存多種樣本時,可通過描述資訊對各樣本進行描述,以便於存取(如儲存或讀取)多個類型的樣本。在一種可能的實現方式中,所述樣本可包括視頻,描述資訊中可包括對視頻的儲存或讀取方式的描述,所述樣本還可包括圖像,描述資訊中還可包括對圖像的儲存或讀取方式的描述。所述描述資訊可以是中繼資料(Meta Data)格式的描述資訊,例如字典類型的中繼資料,便於提高資料查詢速度,本發明實施例對描述資訊的類型不做限制。
在一種可能的實現方式中,所述描述資訊包括對樣本的讀取方式的描述資訊,S12可包括:根據樣本清單中所述樣本的資料類型,確定用於讀取各樣本的讀取方式;根據所述樣本的資料類型和對應的讀取方式,獲得所述描述資訊。
在一種可能的實現方式中,所述描述資訊可以是對樣本的讀取方式進行描述的資訊。可根據樣本的資料類型,對各樣本的讀取方式進行判斷,例如,某個樣本的資料類型為圖像,則該樣本可用圖像讀取函數進行讀取,某個樣本的資料類型為視頻,則該樣本可用視頻讀取函數進行讀取,可分別確定每個樣本的讀取方式。也可匯總各樣本的資料類型,例如,樣本集中包括多個樣本,所述多個樣本的資料類型共有三種,分別為圖像、視頻和普通資料,可確定通過圖像讀取函數讀取圖像類型的樣本,通過視頻讀取函數讀取視頻類型的樣本,通過資料讀取函數讀取普通資料類型的樣本。本發明實施例對樣本的資料類型及讀取方式不做限制。
在一種可能的實現方式中,可根據樣本的資料類型和對應的讀取方式,獲得所述描述資訊,在一種可能的實現方式中,可將描述資訊配置為字典型資料,例如,字典的鍵為資料類型,字典的值為與資料類型對應的讀取方式,例如,字典的鍵為圖像,字典的值為圖像讀取函數。本發明實施例對描述資訊的資料類型不做限制。
在一種可能的實現方式中,所述描述資訊可包括對樣本的儲存位置的描述資訊,所述儲存位置包括所述樣本集的儲存路徑及樣本在所述樣本集中的索引位置。例如,所述樣本集的儲存路徑為所述樣本集存放在電腦的C槽中的“樣本集”資料夾中。
在一種可能的實現方式中,所述樣本在樣本集中的索引位置即為樣本的具體位置。在一種可能的實現方式中,每個樣本的資料可以以物件(object)的形式儲存於樣本集中,即,佔用樣本集中的某個儲存區域。所述樣本集可以以清單的形式儲存各樣本,則樣本的資料可佔用樣本集中的某一行,所述索引位置可表示行號,例如,第1個樣本位於樣本集中清單的第1行,第2個樣本位於樣本集中清單的第2行,……;樣本的欄位資訊中可包括樣本集的儲存路徑及各樣本的索引位置,可根據欄位資訊,確定每個樣本的具體位置,例如,第2個樣本位於電腦的C槽中的“樣本集”資料夾中的樣本集中清單的第2行。又例如,某些樣本可能只具有某些欄位,或者多個樣本屬於同類型或同一個樣本檔,該索引位置可以是樣本在樣本集中的行列範圍,或多個樣本的行列範圍。本發明實施例對儲存位置不做限制。
在一種可能的實現方式中,所述樣本集中可包括多個資料類型的樣本,如圖像、視頻、普通數位和/或文本資料等,樣本的儲存格式可包括字元分隔值檔(Comma-Separated Values,CSV)格式、層次資料格式5(Hierarchical Data Format 5,HDF5)等,樣本在樣本集中的索引位置可以是匯總同一類型樣本後,生成的同類型樣本的位置範圍。例如,以CSV格式儲存的樣本檔會在描述資訊中儲存該CSV檔的索引位置。
在一種可能的實現方式中,所述方法還包括:確定用於劃分樣本集中樣本的類別的索引範圍資訊;根據所述樣本集中樣本的描述資訊和所述樣本類別的索引範圍資訊,生成與所述樣本集對應的描述資訊。
在一種可能的實現方式中,與所述樣本集對應的描述資訊還包括用於劃分樣本集中各樣本的類型的索引範圍資訊。所述方法中確定與所述樣本集對應的描述資訊的過程還包括:確定用於劃分樣本集中各樣本的類別的索引範圍資訊;根據所述樣本集中樣本的描述資訊和樣本的索引範圍資訊,生成與所述樣本集對應的描述資訊。例如,可根據樣本的標注進行類別劃分。例如,可將樣本集分為訓練集、驗證集和測試集,在訓練集中包括5000個樣本,其中,3000個樣本的標注為1,2000個樣本的標注為0。或者,可不區分標注,直接根據樣本集中樣本的數量和索引來劃分,例如,所述樣本集中的樣本可以是訓練神經網路時使用的訓練樣本,可將訓練樣本劃分為多個類別,例如,可將40%的樣本劃分為訓練集,可將30%的樣本劃分為測試集,並將30%的樣本劃分為驗證集。或者可根據各樣本的索引進行劃分,並確定各類別的索引範圍。例如,所述樣本集以清單的形式儲存各樣本,在清單中儲存了10000個樣本,可將清單中的第1個-第4000個樣本劃分為訓練集,可將列表中第4001個-第7000個樣本劃分為測試集,並將第7001個-第10000個樣本劃分為驗證集。其中,描述資訊中可包括對樣本類別進行劃分的索引範圍資訊(例如,第1個-第4000個、第4001個-第7000個、第7001個-第10000個等)。本發明實施例對劃分方式和索引範圍不做限制。
樣本集除了包括上述訓練集、測試集和驗證集三個樣本類別的樣本子集外,還可以包括其他形式的資料子集,例如圖像子集和視頻子集等。樣本集的描述資訊除了包括上述訓練集、測試集和驗證集三個樣本類別的樣本子集及其對應的索引範圍的描述資訊外,還可包括樣本集中其他形式的資料子集的描述資訊。
通過這種方式,可確定多種樣本的讀取方式,有利於支援多種類型的資料儲存和存取,適應更複雜類型的資料集的儲存和存取。
在一種可能的實現方式中,在S13中,可根據樣本清單和樣本清單對應的描述資訊,獲得所述樣本集(dataset),在一種可能的實現方式中,可將樣本清單和樣本清單對應的描述資訊寫入樣本集中,獲得樣本集的檔,或者,將樣本清單對應的描述資訊和樣本清單打包獲得所述樣本集,本發明實施例對獲得樣本集的方式不做限制。
在一種可能的實現方式中,所述樣本集中包括儲存多個樣本的樣本清單,還包括記錄各樣本的讀取方式的描述資訊,以便於多種資料類型的樣本的儲存和讀取,為儲存多種資料類型的樣本提供了基礎。所述描述資訊可記錄各樣本的資料類型,以及讀取方式等資訊。可基於描述資訊,讀取樣本集中的樣本或樣本的資料。本發明實施例對描述資訊的內容不做限制。
在一種可能的實現方式中,所述方法還包括:根據所述描述資訊及所述樣本清單,讀取所述樣本清單中的樣本的參數值。
在一種可能的實現方式中,可根據描述資訊中對樣本的讀取方式的描述,採用合適的方式讀取樣本清單中的樣本,該讀取過程可包括:獲取所述樣本清單中的物件;根據樣本索引,從所獲取的物件中,獲得與所述樣本索引對應的第一樣本的第一物件;根據所述描述資訊確定所述第一樣本的資料類型及對應的讀取方式;根據所述讀取方式,從第一物件中讀取所述第一樣本的參數值。
在一種可能的實現方式中,所述樣本清單中包括多個樣本,所述樣本以物件的格式儲存於樣本清單中。在讀取樣本時,可獲取樣本清單中的各物件(例如,通過存取 ‘samples’屬性,即,存取樣本物件,可獲取包含全部樣本的清單的全部物件)。進一步地,可存取樣本清單中的樣本索引,並在樣本索引中選擇待讀取的第一樣本,即,選擇了與第一樣本對應的第一物件,例如,通過樣本索引選擇了樣本清單中,第一樣本所在的行。
在一種可能的實現方式中,所述描述資訊中可包括各樣本的讀取方式,可根據第一樣本的資料類型,在描述資訊中選擇對應的讀取方式,例如,第一樣本的資料類型為圖像,可選擇描述資訊中的圖像讀取函數來讀取第一樣本,第一樣本的資料類型為視頻,可選擇描述資訊中的視頻讀取函數來讀取第一樣本。
在一種可能的實現方式中,可通過與第一樣本的資料類型對應的讀取方式,在第一物件中讀取第一樣本的參數值。例如,所述第一樣本為某個人的資料資料,第一樣本可包括該人的身高資料、體重資料、學歷資料和國籍資料等,可通過資料讀取函數讀取該資料資料,可在第一物件中,提取第一樣本的資料,並通過資料讀取函數讀取第一樣本的各參數值。在一種可能的實現方式中,還可讀取第一樣本資料的一個或多個欄位的參數值,例如,可選取該資料資料中的身高資料和體重資料,並通過資料讀取函數讀取所述身高資料和體重資料。可無需將第一樣本的全部資料進行讀取,提高樣本讀取的靈活性。
在一種可能的實現方式中,根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值,包括:獲取樣本索引;根據所述樣本索引,從所述樣本清單中獲取所述樣本索引對應的樣本的參數值。
在一種可能的實現方式中,可利用樣本索引來存取樣本清單,讀取與樣本索引對應的樣本,並獲取該樣本的參數值。例如,需要讀取樣本資料時,可以接收到使用者或樣本獲取設備輸入的讀取指令,該讀取指令中攜帶需要讀取的樣本的樣本索引,可設置樣本索引值為100,則讀取時,可獲取列表中第100行的樣本,即,獲取清單中第100行的樣本,並按照該樣本的讀取方式讀取該樣本的參數值。例如,可根據描述資訊中的讀取方式來讀取該樣本的參數值,或者根據該樣本的尾碼來確定該樣本的資料類型,進而選擇對應的讀取方式來讀取該樣本,獲得該樣本的參數值。
通過這種方式,可減少讀取樣本時的資源消耗,且可通過統一的方式儲存樣本資料,並利用樣本描述資訊儲存樣本資料類型,從而可以根據描述資訊方便獲取資料讀取方式,便於讀取多種資料類型的樣本,有利於樣本的快速讀取。
在一種可能的實現方式中,還可通過存取樣本清單中的欄位,讀取某個欄位對應的多個參數值,或者某個樣本的該欄位的參數值。
在一種可能的實現方式中,根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值,包括:獲取所述樣本清單中目標欄位對應的物件;根據所述描述資訊確定所獲取的物件對應的第二樣本的資料類型及讀取方式;根據所述讀取方式,從所獲取的物件中讀取所述第二樣本的參數值。
在一種可能的實現方式中,可存取樣本清單中目標欄位,可獲得目標欄位對應的物件,例如通過存取 ‘fields’屬性,即,存取欄位,可獲取包含所有樣本資料欄位的全部物件,即,獲得多個樣本在該欄位下的參數所在的儲存空間(如欄位清單),例如,欄位清單中可包括“年齡”、“身高”和“國籍”等,還可通過欄位中的關鍵字來存取對應欄位,例如,可通過關鍵字“國籍”來存取“國籍”欄位中的參數值,或者,可直接存取欄位名稱或關鍵字來存取欄位中的參數值,無需存取欄位清單,例如,可直接通過欄位名稱“國籍”來存取欄位“國籍”中的參數值。在一種可能的實現方式中,每個欄位在樣本清單中對應有一列資料,在該列資料的某些區域,資料可為空。例如,在樣本的清單中,包括“國籍”欄位,在某個人的資料資料的樣本中,該欄位可存在資料,例如“中國”或“美國”等,而在人臉圖像樣本中,該欄位不存在資料,即,在所述列表中,在該人臉圖像樣本所在行,並且“國籍”欄位所在的列對應的區域中,資料為空。在獲取目標欄位對應的物件時,可忽略空的區域,也可不忽略,本發明實施例對是否忽略不做限制。在獲取目標欄位對應的物件時,可獲取到目標欄位所在列的所有物件,即,儲存該列資料的所有儲存空間。
在一種可能的實現方式中,可根據描述資訊確定待讀取的第二樣本的讀取方式,還可根據第二樣本的索引,在目標欄位對應的物件中,確定第二樣本的目標欄位的參數值的儲存空間,即,第二樣本的目標欄位的參數值的物件。
在一種可能的實現方式中,可在第二樣本的目標欄位的參數值的物件中,通過所述讀取方式,讀取第二樣本的目標欄位的參數值。例如,第二樣本為某個人的資料資料,第二樣本可包括該人的身高資料、體重資料、學歷資料和國籍資料等。在“身高”欄位對應的所有參數值的物件中,可確定第二樣本在該欄位的物件,並通過與資料資料對應的讀取方式讀取第二樣本的物件中的參數值,在一種可能的實現方式中,通過資料讀取函數讀取第二樣本在該欄位的物件中的身高資料,例如,讀取資料時,可先存取描述資訊查詢該欄位的讀取方式,例如,“身高”欄位中的所有參數值均為浮點型資料,再根據描述資訊中的浮點型資料的讀取方式,從第二樣本的物件中來讀取第二樣本在該欄位的參數值。
在一種可能的實現方式中,根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值,包括:獲取目標欄位的欄位名;根據所述欄位名,從樣本清單中獲取所述欄位名對應的目標欄位的參數值。
在一種可能的實現方式中,可利用目標欄位的欄位名來存取目標欄位,進而獲取目標欄位的參數值。例如,使用者或設備需要讀取樣本資料時,存放裝置或處理設備可以接收讀取指令,該讀取指令包括需要讀取的樣本的目標欄位的欄位名,目標欄位可被設置為“身高”,則讀取時,可通過欄位名“身高”來存取“身高”欄位的參數值。例如,可利用描述資訊中與該欄位的資料類型對應的讀取方式來讀取該欄位的參數值,或根據該欄位的參數的尾碼來確定該欄位的參數的資料類型,進而確定對應的讀取方式來讀取該欄位的參數值。進一步地,還可讀取該欄位下的任一參數值,例如,可獲得“身高”欄位下索引值為100的儲存位置中儲存的參數值。
通過這種方式,通過存取欄位的方式讀取一個或多個樣本在該欄位的參數值,提高樣本讀取的靈活性,有利於樣本的快速讀取。
在樣本資料讀取的情況下,包括在樣本或欄位參數值讀取的情況下,存放裝置或資料處理設備會接收讀取指令,該讀取指令會包括需要讀取的樣本資料資訊,例如樣本索引和欄位名等,根據該讀取指令,會從樣本集的描述資訊中獲取樣本的資料類型、儲存位置和對應的讀取方式,從而可以採用獲取的讀取方式在儲存位置讀取所需的樣本資料。因此,包含描述資訊的樣本集可以方便的儲存和讀取多種類型樣本資料,而且通過描述資訊可以便於使用者理解和查看樣本集中儲存的資料,適用於面向初學者的場景。
在一種可能的實現方式中,所述方法還包括:對讀取的所述樣本的參數值進行查詢、修改和刪除處理中至少一種操作。在一種可能的實現方式中,在讀取某個物件中的參數值後,可對該參數值進行查詢、修改和刪除等處理中的至少一種。例如,可查詢到該物件中的參數值,並可對該參數值進行複製。或者可修改該參數值,並將修改後的參數值保存在所述物件中。又或者,可將該物件中的參數值刪除,使該物件中的資料為空。本發明實施例對參數值的處理方式不做限制。
圖3示出根據本發明實施例的示例性的儲存方法的應用示意圖,如圖3所示,可將多個樣本保存在樣本清單中,所述多個樣本的資料類型可包括圖像、音頻、視頻和/或普通資料(例如,數值型資料、類別型資料和字元型資料)等。每個樣本可佔用樣本清單中的一行儲存區域。每個樣本可包括一個或多個欄位,例如,某樣本為某個人的資料資料,該樣本的欄位可包括該人的身高、體重、學歷和國籍等,該樣本可具有與各欄位對應的資料。
在一種可能的實現方式中,可將各樣本的欄位進行匯總,作為樣本清單的列座標,並將樣本的樣本索引確定為所述樣本清單的行座標,可獲得一個空的樣本清單。
在一種可能的實現方式中,可將樣本的標注與參數值物件化,即,設立與樣本的各參數值對應的儲存區域,將樣本的標注和參數值儲存在所述儲存區域中,獲得與樣本對應的物件,並將物件中的標注和參數值添加至樣本清單中,獲得儲存了多個樣本的樣本清單。
在一種可能的實現方式中,樣本可包括多個資料類型,各類型的樣本可具有特定的儲存和讀取方式,在儲存多種樣本時,可通過中繼資料格式的描述資訊對各樣本進行描述,以便於儲存或讀取多個類型的樣本。
在一種可能的實現方式中,可對樣本清單中各樣本的資料類型進行匯總,並對各資料類型的讀取方式進行判斷,樣本清單中的多個樣本的資料類型共有三種,分別為圖像、視頻和普通資料,可確定通過圖像讀取函數讀取圖像類型的樣本,通過視頻讀取函數讀取視頻類型的樣本,以及通過資料讀取函數讀取普通資料類型的樣本。並將描述資訊配置為字典型資料,例如,字典的鍵為資料類型,字典的值為與資料類型對應的讀取方式。
在一種可能的實現方式中,可將樣本清單和與樣本清單對應的描述資訊寫入樣本集中,獲得樣本集的檔。並可通過存取樣本索引或欄位來讀取樣本或樣本中的某個參數值。
在一種可能的實現方式中,可獲取樣本清單中的各物件,並可存取樣本清單中的樣本索引,以選擇待讀取的第一樣本,即,選擇了與第一樣本對應的第一物件。進一步地,可在描述資訊中選擇對應的讀取方式,例如,第一樣本的資料類型為圖像,可選擇描述資訊中的圖像讀取函數來讀取第一樣本。並可通過所述讀取方式讀取第一樣本,或可僅讀取第一樣本中的一個或多個欄位的參數值。
在一種可能的實現方式中,可存取樣本清單中的目標欄位,可獲得目標欄位對應的所有物件(可忽略目標欄位中空的區域)。可在目標欄位對應的所有物件中,讀取第二樣本在目標欄位的參數值。在一種可能的實現方式中,可確定第二樣本的資料類型,並在描述資訊中確定與第二樣本的資料類型對應的讀取方式。進一步地,在目標欄位的所有參數值的物件中,可確定第二樣本在該欄位的物件,可按照與第二樣本的資料類型對應的讀取方式在該物件中讀取第二樣本在目標欄位的參數值。
在一種可能的實現方式中,所述儲存方法可用於對多種類型的樣本的儲存中,例如,在電腦教育領域,使用該儲存方法可將多種類型的樣本按照統一的儲存方法進行儲存,且儲存和讀取的程式介面方便簡潔,各種樣本儲存和讀取方式統一且易於理解,便於學生進行學習和操作。
可以理解,本發明實施例提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本發明實施例不再贅述。
此外,本發明實施例還提供了資料處理裝置、電子設備、電腦可讀儲存介質、程式,上述均可用來實現本發明實施例提供的任一種圖像處理方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
圖4示出根據本發明實施例的資料處理裝置的方塊圖,如圖4所示,所述裝置包括:第一確定部分11,被配置為根據樣本的欄位及與所述欄位對應的參數值,確定包括多個樣本的樣本清單;第二確定部分12,被配置為根據所述樣本清單中樣本的資料類型,確定與所述樣本清單對應的描述資訊;第三確定部分13,被配置為根據所述樣本清單和所述描述資訊,確定樣本集。
在一種可能的實現方式中,每個樣本具有樣本索引,所述第一確定部分還被配置為:將所述欄位確定為所述樣本清單的列座標,將樣本的所述樣本索引確定為所述樣本清單的行座標;將所述欄位對應的參數值進行物件化,獲得與所述樣本對應的物件;將所述物件中的資料添加至與所述列座標和所述行座標對應的儲存區域,獲得所述樣本清單。
在一種可能的實現方式中,所述描述資訊包括對樣本的讀取方式的描述資訊,所述第二確定部分還被配置為:根據樣本清單中樣本的資料類型,確定用於讀取樣本的讀取方式;根據所述樣本的資料類型和對應的讀取方式,獲得所述描述資訊。
在一種可能的實現方式中,所述描述資訊還包括對樣本儲存位置的描述資訊,所述儲存位置包括所述樣本集的儲存路徑及樣本在所述樣本集中的索引位置。
在一種可能的實現方式中,所述裝置還包括:第四確定部分,被配置為確定用於劃分樣本集中樣本的類別的索引範圍資訊;生成部分,被配置為根據所述樣本集中樣本的描述資訊和所述樣本類別的索引範圍資訊,生成與所述樣本集對應的描述資訊。
在一種可能的實現方式中,所述裝置還包括:讀取部分,被配置為根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值。
在一種可能的實現方式中,所述讀取部分還被配置為:獲取所述樣本清單中的物件;根據樣本索引,從所獲取的物件中,獲得與所述樣本索引對應的第一樣本的第一物件;根據所述描述資訊確定所述第一樣本的資料類型及對應的讀取方式;根據所述讀取方式,從所述第一物件中讀取所述第一樣本的參數值。
在一種可能的實現方式中,所述讀取部分還被配置為:獲取樣本索引;根據所述樣本索引,從所述樣本清單中獲取所述樣本索引對應的樣本的參數值。
在一種可能的實現方式中,所述讀取部分還被配置為:獲取所述樣本清單中目標欄位對應的物件;根據所述描述資訊確定所獲取的物件對應的第二樣本的資料類型及讀取方式;根據所述讀取方式,從所獲取的物件中讀取所述第二樣本的參數值。
在一種可能的實現方式中,所述讀取部分還被配置為:獲取目標欄位的欄位名;根據所述欄位名,從樣本清單中獲取所述欄位名對應的目標欄位的參數值。
在一種可能的實現方式中,所述裝置還包括:操作部分,被配置為對讀取的所述樣本的參數值進行查詢、修改和刪除處理中至少一種操作。
在一些實施例中,本發明實施例提供的裝置具有的功能或包含的部分可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
在本發明實施例以及其他的實施例中,“部分”可以是部分電路、部分處理器、部分程式或軟體等等,當然也可以是單元,還可以是模組也可以是非模組化的。
本發明實施例還提出一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是易失性電腦可讀儲存介質或非易失性電腦可讀儲存介質。
本發明實施例還提出一種電子設備,包括:處理器;被配置為儲存處理器可執行指令的記憶體;其中,所述處理器被配置為上述方法。
電子設備可以被提供為終端、伺服器或其它形態的設備。
圖5是根據一示例性實施例示出的一種電子設備800的方塊圖。例如,電子設備800可以是行動電話,電腦,數位廣播終端,消息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖5,電子設備800可以包括以下一個或多個組件:處理組件802,記憶體804,電源組件806,多媒體組件808,音頻組件810,輸入/輸出(I/ O)介面812,感測器組件814,以及通信組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,資料通信,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他組件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互。
記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,消息,圖片,視頻等。記憶體804可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。
電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與為電子設備800生成、管理和分配電力相關聯的組件。
多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果螢幕包括觸摸面板,螢幕可以被實現為觸控式螢幕,以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝影頭和/或後置攝影頭。當電子設備800處於操作模式,如拍攝模式或視訊模式時,前置攝影頭和/或後置攝影頭可以接收外部的多媒體資料。每個前置攝影頭和後置攝影頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音頻組件810被配置為輸出和/或輸入音頻信號。例如,音頻組件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音辨識模式時,麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中,音頻組件810還包括一個揚聲器,用於輸出音頻信號。
I/ O介面812為處理組件802和週邊介面模組之間提供介面,上述週邊介面模組可以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
感測器組件814包括一個或多個感測器,用於為電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,組件的相對定位,例如所述組件為電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變,使用者與電子設備800接觸的存在或不存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中,所述通信組件816還包括近場通信(NFC)模組,以促進短程通信。例如,在NFC模組可基於射頻識別(RFID)技術,紅外資料協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式設計邏輯器件(PLD)、現場可程式設計閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子組件實現,用於執行上述方法。
在示例性實施例中,還提供了一種電腦可讀儲存介質,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
本發明實施例還提供了一種電腦程式產品,包括電腦可讀代碼,當電腦可讀代碼在設備上運行時,設備中的處理器執行用於實現如上任一實施例提供的方法的指令。
該電腦程式產品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中,所述電腦程式產品具體體現為電腦儲存介質,在另一個可選實施例中,電腦程式產品具體體現為軟體產品,例如軟體發展包(Software Development Kit,SDK)等等。
圖6是根據一示例性實施例示出的一種電子設備1900的方塊圖。例如,電子設備1900可以被提供為一伺服器。參照圖6,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置為執行指令,以執行上述方法。
電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理,一個有線或無線網路介面1950被配置為將電子設備1900連接到網路,和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非易失性電腦可讀儲存介質,例如包括電腦程式指令的記憶體1932,上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。
本發明可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質,其上載有用於使處理器實現本發明實施例的各個方面的電腦可讀程式指令。
電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是(但不限於)電存放裝置、磁存放裝置、光存放裝置、電磁存放裝置、半導體存放裝置或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子(非窮舉的列表)包括:可擕式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能盤(DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為暫態信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備,或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部存放裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。
用於執行本發明實施例操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼,所述程式設計語言包括物件導向的程式設計語言—諸如Smalltalk、C++等,以及常規的過程式程式設計語言—諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路(包括局域網(LAN)或廣域網路(WAN))連接到使用者電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路,例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本發明的各個方面。
這裡參照根據本發明實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本發明實施例的各個方面。應當理解,流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器,從而生產出一種機器,使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時,產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中,這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀介質則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上,使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方塊實際上可以基本並行地執行,它們有時也可以按相反的循序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
以上已經描述了本發明的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的技術改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
工業實用性 本發明實施例涉及一種資料處理方法、電子設備和電腦可讀儲存介質,所述方法包括:根據樣本的欄位及與所述欄位對應的參數值,確定包括多個樣本的樣本清單;根據所述樣本清單中樣本的資料類型,確定與所述樣本清單對應的描述資訊;根據所述樣本清單和所述描述資訊,確定樣本集。根據本發明實施例的資料處理方法,可確定用於儲存各樣本的樣本集,以及對應的描述資訊,可使用統一的方式儲存多種類型的樣本,且樣本集中包括描述資料類型的描述資訊,便於樣本資料的儲存和讀取,可支援多種類型的資料儲存和讀取,易於理解。
11:第一確定部分 12:第二確定部分 13:第三確定部分 800:電子設備 802:處理組件 804:記憶體 806:電源組件 808:多媒體組件 810:音頻組件 812:輸入/輸出介面 814:感測器組件 816:通信組件 820:處理器 1900:電子設備 1922:處理組件 1926:電源組件 1932:記憶體 1950:網路介面 1958:輸入輸出介面 S11~S13:步驟
此處的附圖被併入說明書中並構成本說明書的一部分,這些附圖示出了符合本發明的實施例,並與說明書一起用於說明本發明實施例的技術方案。 圖1示出根據本發明實施例的資料處理的流程圖; 圖2示出根據本發明實施例的示例性的樣本清單的示意圖; 圖3示出根據本發明實施例的示例性的儲存方法的應用示意圖; 圖4示出根據本發明實施例的資料處理裝置的方塊圖; 圖5示出根據本發明實施例的電子設備的方塊圖; 圖6示出根據本發明實施例的電子設備的方塊圖。
S11~S13:步驟

Claims (13)

  1. 一種資料處理方法,包括: 根據樣本的欄位及與所述欄位對應的參數值,確定包括多個樣本的樣本清單; 根據所述樣本清單中樣本的資料類型,確定與所述樣本清單對應的描述資訊; 根據所述樣本清單和所述描述資訊,確定樣本集。
  2. 根據請求項1所述的方法,其中,每個樣本具有樣本索引,根據樣本的欄位及與所述欄位對應的參數值,確定包括多個樣本的樣本清單,包括: 將所述欄位確定為所述樣本清單的列座標,將所述樣本索引確定為所述樣本清單的行座標; 將所述欄位對應的參數值進行物件化,獲得與所述樣本對應的物件; 將所述物件中的資料添加至與所述列座標和所述行座標對應的儲存區域,獲得所述樣本清單。
  3. 根據請求項1或2所述的方法,其中,所述描述資訊包括對樣本的讀取方式的描述資訊; 所述根據所述樣本清單中所述樣本的資料類型,確定與所述樣本清單對應的描述資訊,包括: 根據樣本清單中樣本的資料類型,確定用於讀取樣本的讀取方式; 根據所述樣本的資料類型和對應的讀取方式,獲得所述描述資訊。
  4. 根據請求項1或2所述的方法,其中,所述描述資訊還包括對樣本儲存位置的描述資訊,所述儲存位置包括所述樣本集的儲存路徑及樣本在所述樣本集中的索引位置。
  5. 根據請求項1或2所述的方法,還包括: 確定用於劃分樣本集中樣本的類別的索引範圍資訊; 根據所述樣本集中樣本的描述資訊和所述樣本類別的索引範圍資訊,生成與所述樣本集對應的描述資訊。
  6. 根據請求項1或2所述的方法,還包括: 根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值。
  7. 根據請求項6所述的方法,其中,所述根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值,包括: 獲取所述樣本清單中的物件; 根據樣本索引,從所獲取的物件中,獲得與所述樣本索引對應的第一樣本的第一物件; 根據所述描述資訊確定所述第一樣本的資料類型及對應的讀取方式; 根據所述讀取方式,從第一物件中讀取所述第一樣本的參數值。
  8. 根據請求項6所述的方法,其中,所述根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值,包括: 獲取樣本索引; 根據所述樣本索引,從所述樣本清單中獲取所述樣本索引對應的樣本的參數值。
  9. 根據請求項6所述的方法,其中,所述根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值,包括: 獲取所述樣本清單中目標欄位對應的物件; 根據所述描述資訊確定所獲取的物件對應的第二樣本的資料類型及讀取方式; 根據所述讀取方式,從所獲取的物件中讀取所述第二樣本的參數值。
  10. 根據請求項6所述的方法,其中,所述根據所述描述資訊及所述樣本清單,讀取所述樣本清單中樣本的參數值,包括: 獲取目標欄位的欄位名; 根據所述欄位名,從樣本清單中獲取所述欄位名對應的目標欄位的參數值。
  11. 根據請求項6所述的方法,還包括: 對讀取的所述樣本的參數值進行查詢、修改和刪除處理中至少一種操作。
  12. 一種電子設備,包括: 處理器; 被配置為儲存處理器可執行指令的記憶體; 其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行請求項1至11中任意一項所述的方法。
  13. 一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現請求項1至11中任意一項所述的方法。
TW109135575A 2019-10-28 2020-10-14 資料處理方法、電子設備和電腦可讀儲存介質 TWI755890B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911031910.5A CN110569329B (zh) 2019-10-28 2019-10-28 数据处理方法及装置、电子设备和存储介质
CN201911031910.5 2019-10-28

Publications (2)

Publication Number Publication Date
TW202117707A true TW202117707A (zh) 2021-05-01
TWI755890B TWI755890B (zh) 2022-02-21

Family

ID=68786157

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109135575A TWI755890B (zh) 2019-10-28 2020-10-14 資料處理方法、電子設備和電腦可讀儲存介質

Country Status (5)

Country Link
JP (1) JP2022510660A (zh)
KR (1) KR20210096230A (zh)
CN (1) CN110569329B (zh)
TW (1) TWI755890B (zh)
WO (1) WO2021082463A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI772233B (zh) * 2021-11-29 2022-07-21 大陸商常州欣盛半導體技術股份有限公司 Cof測試資料的自動整合方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569329B (zh) * 2019-10-28 2022-08-02 深圳市商汤科技有限公司 数据处理方法及装置、电子设备和存储介质
CN113642408A (zh) * 2021-07-15 2021-11-12 杭州玖欣物联科技有限公司 一种工业互联网实时处理解析图片数据的方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI255443B (en) * 1998-10-22 2006-05-21 Ibm A method to identify CD content
CN101192148B (zh) * 2006-12-01 2012-02-01 深圳迈瑞生物医疗电子股份有限公司 兼容新旧应用程序的数据处理方法及其数据存储方法
CN101470734A (zh) * 2007-12-29 2009-07-01 北大方正集团有限公司 数据标识、解析的方法及设备
CN102110202B (zh) * 2009-12-29 2014-01-01 比亚迪股份有限公司 一种在移动终端文件系统中读取drm文件的方法
CN102253810B (zh) * 2010-05-17 2014-02-05 深圳市世纪光速信息技术有限公司 数据读取方法、装置和系统
US9076152B2 (en) * 2010-10-20 2015-07-07 Microsoft Technology Licensing, Llc Semantic analysis of information
US9378065B2 (en) * 2013-03-15 2016-06-28 Advanced Elemental Technologies, Inc. Purposeful computing
CN104503707B (zh) * 2014-12-24 2018-03-06 华为技术有限公司 读取数据的方法以及装置
CN105094707B (zh) * 2015-08-18 2018-03-13 华为技术有限公司 一种数据存储、读取方法及装置
EP3369013A4 (en) * 2015-10-30 2019-04-10 Acxiom Corporation AUTOMATED INTERPRETATION FOR THE PRESENTATION OF MULTI-FIELD STRUCTURED FILES
CN106126692A (zh) * 2016-06-29 2016-11-16 北京奇虎科技有限公司 一种样本数据的搜索方法和装置
CN108509485B (zh) * 2018-02-07 2021-06-22 深圳壹账通智能科技有限公司 数据的预处理方法、装置、计算机设备和存储介质
CN109189822B (zh) * 2018-08-08 2022-01-14 北京大数据研究院 数据处理方法及装置
CN109522424B (zh) * 2018-10-16 2020-04-24 北京达佳互联信息技术有限公司 数据的处理方法、装置、电子设备及存储介质
CN110569329B (zh) * 2019-10-28 2022-08-02 深圳市商汤科技有限公司 数据处理方法及装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI772233B (zh) * 2021-11-29 2022-07-21 大陸商常州欣盛半導體技術股份有限公司 Cof測試資料的自動整合方法

Also Published As

Publication number Publication date
CN110569329A (zh) 2019-12-13
JP2022510660A (ja) 2022-01-27
WO2021082463A1 (zh) 2021-05-06
KR20210096230A (ko) 2021-08-04
TWI755890B (zh) 2022-02-21
CN110569329B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
WO2020029966A1 (zh) 视频处理方法及装置、电子设备和存储介质
TW202117707A (zh) 資料處理方法、電子設備和電腦可讀儲存介質
WO2017028416A1 (zh) 分类器训练方法、类型识别方法及装置
US20150213127A1 (en) Method for providing search result and electronic device using the same
WO2017092122A1 (zh) 相似性确定方法、装置及终端
WO2021031645A1 (zh) 图像处理方法及装置、电子设备和存储介质
KR20160048708A (ko) 통신 메시지 인식 방법, 장치, 프로그램 및 저장매체
US20160179899A1 (en) Method of providing content and electronic apparatus performing the method
US11334723B2 (en) Method and device for processing untagged data, and storage medium
CN109144285B (zh) 一种输入方法和装置
WO2017185567A1 (zh) 资源搜索方法及装置
TW202141352A (zh) 字元識別方法及電子設備和電腦可讀儲存介質
CN105373580A (zh) 主题显示方法及装置
WO2023078414A1 (zh) 相关文章搜索方法、装置、电子设备和存储介质
CN114090575A (zh) 基于键值数据库的数据存储方法、检索方法及相应的装置
TWI684104B (zh) 反饋的響應方法及裝置
KR20130117021A (ko) 메시지 내용을 검색하기 위한 방법 및 그 전자 장치
CN105187597B (zh) 一种语音记录的管理方法、装置及其移动终端
TWI739633B (zh) 儲存和讀取方法、電子設備和電腦可讀儲存介質
WO2019144724A1 (zh) 一种表情输入方法及装置
CN106959970B (zh) 词库、词库的处理方法、装置和用于处理词库的装置
CN110019657B (zh) 处理方法、装置和机器可读介质
WO2020056948A1 (zh) 一种数据处理方法、装置和用于数据处理的装置
CN108241438B (zh) 一种输入方法、装置和用于输入的装置
US10423706B2 (en) Method and device for selecting information