TWI735537B - 計算機可讀取儲存介質及資料清理裝置 - Google Patents

計算機可讀取儲存介質及資料清理裝置 Download PDF

Info

Publication number
TWI735537B
TWI735537B TW106105360A TW106105360A TWI735537B TW I735537 B TWI735537 B TW I735537B TW 106105360 A TW106105360 A TW 106105360A TW 106105360 A TW106105360 A TW 106105360A TW I735537 B TWI735537 B TW I735537B
Authority
TW
Taiwan
Prior art keywords
data
cleaning
rules
rule
target
Prior art date
Application number
TW106105360A
Other languages
English (en)
Other versions
TW201737101A (zh
Inventor
馬艷娟
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201737101A publication Critical patent/TW201737101A/zh
Application granted granted Critical
Publication of TWI735537B publication Critical patent/TWI735537B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本發明提供了資料清理方法和裝置,通過預先根據不同的資料特徵,設置多種清理規則,當需要對目標資料進行清理時,根據目標資料的資料特徵匹配清理規則,繼而利用匹配中的清理規則對該目標資料進行清理,從而保證了清理規則與資料特徵相適應,能夠更加有針對性的對目標資料進行清理,有效清理出更多的髒資料,同時也減少了將乾淨資料誤識別為髒資料的機率,改善了清理的效果。

Description

計算機可讀取儲存介質及資料清理裝置
本發明關於資訊技術,尤其關於一種資料清理方法和裝置。
資料清理是在資料產出後對資料進行重新審查和校驗的過程,目的在於識別出髒資料。因為資料倉庫中的資料是從多個業務系統中抽取而來,而且包含歷史資料和預測資料等多種類型,這樣就避免不了有的資料是錯誤資料、有的資料相互之間有衝突,這些錯誤的或有衝突的資料顯然是下一環節所不希望出現的,可以稱為髒資料。資料清理就是要按照一定的清理規則識別出這些髒資料。
現有技術中的資料清理是在資料產出後,針對所有的資料遍歷全部的清理規則進行清理,該清理規則是各業務間通用的,主要針對資料是否殘缺、資料格式是否有誤等方面進行清理,顯然,這種方式僅能夠清理出資料中的較為明顯的髒資料,當髒資料為存在取值有誤等情況時,則無法清理出該髒資料,從而清理後所獲得的乾淨資料中仍存在有髒資料,清理效果較差。
本發明提供一種資料清理方法和裝置,用於提高清理效果。
為達到上述目的,本發明的實施例採用如下技術方案:
第一方面,提供了一種資料清理方法,包括:根據目標資料的資料特徵匹配清理規則;利用匹配中的清理規則對該目標資料進行清理。
第二方面,提供了一種資料清理裝置,包括:匹配模組,用於根據目標資料的資料特徵匹配清理規則;清理模組,用於利用匹配中的清理規則對該目標資料進行清理。
本發明實施例提供的資料清理方法和裝置,通過預先根據不同的資料特徵,設置多種清理規則,當需要對目標資料進行清理時,根據目標資料的資料特徵匹配清理規則,繼而利用匹配中的清理規則對該目標資料進行清理,從而保證了清理規則與資料特徵相適應,能夠更加有針對性的對目標資料進行清理,有效清理出更多的髒資料,同時也減少了將乾淨資料誤識別為髒資料的機率,改善了清理的效果。
上述說明僅是本發明技術方案的概述,為了能夠更清楚瞭解本發明的技術手段,而可依照說明書的內容予以實 施,並且為了讓本發明的上述和其它目的、特徵和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。
101、102‧‧‧步驟
201~206‧‧‧步驟
31‧‧‧匹配模組
32‧‧‧清理模組
33‧‧‧提取模組
34‧‧‧歷史資料產生模組
35‧‧‧產生模組
311‧‧‧獲取單元
312‧‧‧匹配單元
321‧‧‧歷史資料單元
322‧‧‧資料清理單元
323‧‧‧輸入單元
324‧‧‧清理單元
351‧‧‧第一產生單元
352‧‧‧第二產生單元
353‧‧‧第三產生單元
藉由閱讀下文較佳實施方式的詳細描述,各種其他的優點和益處對於本領域普通技術人員將變得清楚明瞭。圖式僅用於示出較佳實施方式的目的,而並不認為是對本發明的限制。而且在整個圖式中,用相同的參考符號表示相同的元件。在圖式中:圖1為本發明實施例一提供的一種資料清理方法的流程示意圖;圖2為本發明實施例二提供的一種資料清理方法的流程示意圖;圖3為本發明實施例三提供的一種資料清理裝置的結構示意圖;圖4為本發明實施例四提供的一種資料清理裝置的結構示意圖;圖5為本發明實施例五提供的一種資料清理裝置的結構示意圖。
下面將參照圖式更詳細地描述本公開的示例性實施例。雖然圖式中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這裡闡述的實 施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,並且能夠將本公開的範圍完整的傳達給本領域的技術人員。
下面結合圖式對本發明實施例提供的資料清理方法和裝置進行詳細描述。
實施例一
圖1為本發明實施例一提供的一種資料清理方法的流程示意圖,如圖1所示,包括:
步驟101、根據目標資料的資料特徵匹配清理規則。
其中,資料特徵用於對目標資料進行描述。
具體的,可以從請求對目標資料進行清理的請求端獲取到資料相關資訊。例如:產生目標資料的原業務、目標資料所需用於的目標業務、原業務中產生目標資料的原計算任務和/或目標業務中目標資料所需用於的目標計算任務等資料相關資訊。
將產生目標資料的原業務、目標資料所需用於的目標業務、原業務中產生目標資料的原計算任務和/或目標業務中目標資料所需用於的目標計算任務作為資料特徵,採用資料特徵匹配預設的清理規則。
由於將與目標資料相關的任務和/或計算任務作為資料特徵,能夠準確對目標資料進行描述,從而使得清理規則與目標資料更加匹配,保證了清理的效果。
步驟102、利用匹配中的清理規則對目標資料進行清 理。
其中,清理規則可以包括至少兩個清理子規則。
作為一種可能的實現形式,各清理子規則之間為串行關係。具體來說,可以按照匹配中的清理子規則之間的層級順序,獲取上一層級清理子規則清理獲得的乾淨資料;讓後採用本層級清理子規則對上一層級所清理獲得的乾淨資料進行清理。
作為另一種可能的實現形式,各清理子規則之間為並行關係。具體來說,各清理子規則均遍歷目標資料,針對目標資料中的每一條資料進行清理。當一條資料被至少一個清理子規則標記為髒資料時,則將該資料標記為目標資料的髒資料;當一條資料被全部的清理子規則標記為乾淨資料時,則將該資料標記為目標資料的乾淨資料。
可見,由於在第二種實現形式中,需要各清理子規則均遍歷目標資料,因此,執行時間較長,而第一種實現形式中,逐層清理的方式僅對上一層獲得的乾淨資料進行清理,因而相較於第二種實現形式能夠減少運算量,同時節省執行時間和運行資源。
另外,根據目標資料的資料特徵匹配清理規則之後,利用匹配中的清理規則對該目標資料進行清理,保證了清理規則與資料特徵相匹配,能夠更加有針對性的對目標資料進行清理,有效清理出更多的髒資料,改善了清理的效果。
實施例二
圖2為本發明實施例二提供的一種資料清理方法的流程示意圖,如圖2所示,包括:
步驟201、對清理規則進行配置。
具體的,可以預先對清理規則進行配置,配置的過程可以由用戶手動完成,也可以由資料清理平台根據已存在的清理規則自動產生。
作為一種可能的實現形式,清理規則包括三個層級:分別為第一層級清理子規則、第二層級清理子規則和第三層級清理子規則。下面分別對三個層級進行說明:
A、第一層級清理子規則,由各業務通用的規則構成,主要用於識別出殘缺、重複和明顯錯誤的髒資料。
例如,第一層級清理子規則可以包括:資料中某個字段不能為空、資料已經完結態但是沒有完結時間、資料產生時間在民國前、判斷a字段加b字段是否等於c字段、某日期字段資料儲存格式有誤等。
B、第二層級清理子規則,由針對業務的規則構成,主要用於識別出不同業務所特有的髒資料。
例如,以報警監控系統為例,報警監控系統接入的業務方是確定的,如接入了元資料中心meta、交易系統pay、離線資料處理中心datax,則報警監控系統產出的資料中,調用方字段的取值只能屬三種列舉值,一旦出現其他的調用方,資料應該被清理出來。
第二級清理規則不僅可以針對不同業務設置清理規 則,還可以進一步,設置根據該業務的歷史資料進行清理的清理規則。
例如:計算業務資料中的特定字段相對歷史資料的波動範圍是否超出預設閾值,若超出,則作為髒資料。
C、第三級清理子規則,可供用戶自定義使用。
前兩個層級的清理子規則是預置在資料清理平台中的,第三級清理子規則可以基於資料清理平台所設置的接口,從用戶端獲取該第三層級清理子規則,從而實現用戶自定義設置清理規則。
作為一種可能的應用場景,高德業務方可以採用用戶端定義清理規則。例如:連續軌跡中,以資料起點為圓心,某一長度為半徑,確定一個圓,具體半徑取值可以參照資料產生的快慢,如果用戶是走路,則正常速度不會超過2m/s,折算到平面地圖比例即可。識別落在圓外的資料,如果是個別則忽略,若連續超過預設數目條的資料均落在圓外,則視這些落在圓外的資料為髒資料。這是由於,基於移動速度可以判斷出用戶不可能在這個時間段內處於資料所指示的位置,因而確定資料為髒資料。
第三層級清理子規則相似與第二層級清理子規則,同樣可以是基於歷史資料進行資料清理。例如:根據歷史資料確定出某用戶週末去了某商場,那麼推薦商品資訊的資料中將衣服和美食相關資料作為乾淨資料,而將健身和郊遊相關資料作為髒資料。
步驟202、接收用於請求對目標資料進行資料清理的 消息,查詢是否存在與請求中所指示的目標資料的資料特徵匹配的清理規則,若存在則執行步驟203-205,否則執行步驟206。
其中,該消息中可以攜帶有目標資料的基本資訊:目標資料所儲存在的分區和表名。
具體的,在接收到消息之後,首先提取目標資料的資料特徵,然後根據所提取的資料特徵匹配清理規則。作為一種可能的實現形式,消息中還可以攜帶有產生目標資料的原業務的標識。作為另一種可能的實現形式,根據目標資料目前所在位置確定產生該目標資料的原業務。
步驟203、若存在,對匹配中的清理規則進行解析,獲得採樣規則和各層級清理子規則。
若確定存在與目標資料的資料特徵匹配的清理規則,則對該目標匹配中的清理規則進行解析,獲得採樣規則和各層級清理子規則。其中,採樣規則指示了所需進行採樣的字段。這裡所說的需要進行採樣的字段是根據各層級清理子規則中涉及到的歷史資料中的字段進行設置的。
步驟204、根據採樣規則對目標資料進行採樣,獲得歷史資料。
根據解析所獲得的採樣規則對目標資料進行採樣,將採樣所獲得的樣本值持久化到資料庫中作為歷史資料,以便下一次進行資料清理過程中使用。
由於有些髒資料是需要基於歷史資料進行判別的,例如:當基於資料的波動性進行判別是,需要將資料與歷史 資料的平均值進行比較,從而確定兩者之差是否高於閾值。因此,需要維護一個用於記錄歷史資料的資料庫,便於採用涉及歷史資料的清理規則進行資料清理。
步驟205、按照各層級清理子規則之間的層級順序,依次採用各層級清理子規則對目標資料進行清理。
目標資料先經過本層級清理子規則進行清理,由下一層級清理子規則對本層級清理所獲得的乾淨資料進行清理,也就是說,各級清理是串行執行的,上一層級的清理結果作為下一層級的輸入,經過最後一層級清理獲得乾淨資料,將各層級清理所識別出的資料進行匯總獲得髒資料。
對乾淨資料正常儲存,例如儲存於表A,不符合清理規則的髒資料分離儲存,例如儲存於表A_dirty,從而方便後期針對髒資料進行分析。
步驟206、若不存在,則結束流程。
實施例三
圖3為本發明實施例三提供的一種資料清理裝置的結構示意圖,如圖3所示,包括:匹配模組31和清理模組32。
匹配模組31,用於根據目標資料的資料特徵匹配清理規則。
清理模組32,用於利用匹配中的清理規則對該目標資料進行清理。
本實施例中,通過根據目標資料的資料特徵匹配清理規則之後,利用匹配中的清理規則對該目標資料進行清理,從而保證了清理規則與資料特徵相匹配,能夠更加有針對性的對目標資料進行清理,有效清理出更多的髒資料,改善了清理的效果。
實施例四
圖4為本發明實施例四提供的一種資料清理裝置的結構示意圖,在圖3所提供的資料清理裝置的基礎上,本實施例中,清理模組32進一步包括:歷史資料單元321和資料清理單元322。
歷史資料單元321,用於獲取該匹配中的清理規則所涉及的歷史資料。
資料清理單元322,用於依據該歷史資料,採用所匹配中的清理規則對該目標資料進行清理。
進一步,資料清理裝置,還包括:提取模組33和歷史資料產生模組34。
提取模組33,用於當確定存在匹配中的清理規則時,根據該匹配中的清理規則所涉及的字段,從該目標資料中提取該字段的取值。
歷史資料產生模組34,用於將所提取到的字段的取值,作為下一次清理所需的歷史資料。
由於有些髒資料是需要基於歷史資料進行判別的,例如:當基於資料的波動性進行判別是,需要將資料與歷史 資料的平均值進行比較,從而確定兩者之差是否高於閾值。因此,需要維護一個用於記錄歷史資料的資料庫,便於採用涉及歷史資料的清理規則進行資料清理。
實施例五
圖5為本發明實施例五提供的一種資料清理裝置的結構示意圖,在圖3所提供的資料清理裝置的基礎上,本實施例中,匹配模組31進一步包括:獲取單元311和匹配單元312。
獲取單元311,用於將產生該目標資料的原業務、該目標資料所需用於的目標業務、該原業務中產生該目標資料的原計算任務和/或該目標業務中該目標資料所需用於的目標計算任務作為該資料特徵。
匹配單元312,用於採用該資料特徵匹配預設的清理規則。
進一步,清理規則包括至少兩個清理子規則,則清理模組32,包括:輸入單元323和清理單元324。
輸入單元323,用於按照該匹配中的清理子規則之間的層級順序,獲取上一層級清理子規則清理獲得的乾淨資料。
清理單元324,用於採用本層級清理子規則對該乾淨資料進行清理。
逐層清理的方式僅對上一層獲得的乾淨資料進行清理,因而相較於第二種實現形式能夠節省執行時間,同時 減少了運算量,節省了運行資源。
進一步,資料清理裝置還包括:產生模組35。
產生模組35,用於針對各業務和/或計算任務產生該清理規則。
若清理規則包括三個清理子規則,則產生模組35,包括:第一產生單元351、第二產生單元352和第三產生單元353。
第一產生單元351,用於將各業務通用的規則作為第一層級清理子規則。
第二產生單元352,用於將針對業務和/或計算任務設置的規則作為第二層級清理子規則。
第三產生單元353,用於將用戶自定義規則作為第三層級清理子規則。
本實施例中,通過預先根據不同的資料特徵,設置多種清理規則,當需要對目標資料進行清理時,根據目標資料的資料特徵匹配清理規則,繼而利用匹配中的清理規則對該目標資料進行清理,從而保證了清理規則與資料特徵相適應,能夠更加有針對性的對目標資料進行清理,有效清理出更多的髒資料,同時也減少了將乾淨資料誤識別為髒資料的機率,改善了清理的效果。另外,逐層清理的方式僅對上一層獲得的乾淨資料進行清理,因而能夠減少運算量,同時節省執行時間和運行資源。
本領域普通技術人員可以理解:實現上述各方法實施例的全部或部分步驟可以通過程式指令相關的硬體來 完成。前述的程式可以儲存於一計算機可讀取儲存介質中。該程式在執行時,執行包括上述各方法實施例的步驟;而前述的儲存介質包括:ROM、RAM、磁碟或者光碟等各種可以儲存程式代碼的介質。
最後應說明的是:以上各實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述各實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明各實施例技術方案的範圍。

Claims (14)

  1. 一種計算機可讀取儲存介質,該計算機可讀取儲存介質中儲存有程式,該程式在執行時,執行資料清理方法,該方法特徵在於,包括:根據目標資料的資料特徵匹配清理規則;利用匹配中的清理規則對該目標資料進行清理。
  2. 根據申請專利範圍第1項所述的資料清理方法,其中,該根據目標資料的資料特徵匹配清理規則,包括:將產生該目標資料的原業務、該目標資料所需用於的目標業務、該原業務中產生該目標資料的原計算任務和/或該目標業務中該目標資料所需用於的目標計算任務作為該資料特徵;採用該資料特徵匹配預設的清理規則。
  3. 根據申請專利範圍第1項所述的資料清理方法,其中,該清理規則包括至少兩個清理子規則,該利用匹配中的清理規則對該目標資料進行清理,包括:按照清理子規則之間的層級順序,獲取上一層級清理子規則清理獲得的乾淨資料;採用本層級清理子規則對該乾淨資料進行清理。
  4. 根據申請專利範圍第1項所述的資料清理方法,其中,該根據目標資料的資料特徵匹配清理規則之前,還包括:針對各業務和/或計算任務產生該清理規則。
  5. 根據申請專利範圍第4項所述的資料清理方法, 其中,該清理規則包括三個清理子規則;該針對各業務和/或計算任務產生清理規則,包括:將各業務通用的規則作為第一層級清理子規則;將針對業務和/或計算任務設置的規則作為第二層級清理子規則;將用戶自定義規則作為第三層級清理子規則。
  6. 根據申請專利範圍第1-5項任一項所述的資料清理方法,其中,該利用匹配中的清理規則對該目標資料進行清理,包括:獲取該匹配中的清理規則所涉及的歷史資料;依據該歷史資料,採用所匹配中的清理規則對該目標資料進行清理。
  7. 根據申請專利範圍第6項所述的資料清理方法,其中,該獲取該匹配中的清理規則所涉及的歷史資料之前,還包括:當確定存在匹配中的清理規則時,根據該匹配中的清理規則所涉及的字段,從該目標資料中提取該字段的取值;將所提取到的字段的取值,作為下一次清理所需的歷史資料,其中,該取值為列舉值或數值。
  8. 一種資料清理裝置,其特徵在於,包括:匹配模組,用於根據目標資料的資料特徵匹配清理規則; 清理模組,用於利用匹配中的清理規則對該目標資料進行清理。
  9. 根據申請專利範圍第8項所述的資料清理裝置,其中,該匹配模組,包括:獲取單元,用於將產生該目標資料的原業務、該目標資料所需用於的目標業務、該原業務中產生該目標資料的原計算任務和/或該目標業務中該目標資料所需用於的目標計算任務作為該資料特徵;匹配單元,用於採用該資料特徵匹配預設的清理規則。
  10. 根據申請專利範圍第8項所述的資料清理裝置,其中,該清理規則包括至少兩個清理子規則,該清理模組,包括:輸入單元,用於按照清理子規則之間的層級順序,獲取上一層級清理子規則清理獲得的乾淨資料;清理單元,用於採用本層級清理子規則對該乾淨資料進行清理。
  11. 根據申請專利範圍第8項所述的資料清理裝置,其中,該裝置,還包括:產生模組,用於針對各業務和/或計算任務產生該清理規則。
  12. 根據申請專利範圍第11項所述的資料清理裝置,其中,該清理規則包括三個清理子規則;該產生模組,包括: 第一產生單元,用於將各業務通用的規則作為第一層級清理子規則;第二產生單元,用於將針對業務和/或計算任務設置的規則作為第二層級清理子規則;第三產生單元,用於將用戶自定義規則作為第三層級清理子規則。
  13. 根據申請專利範圍第8-12項任一項所述的資料清理裝置,其中,該清理模組,包括:歷史資料單元,用於獲取該匹配中的清理規則所涉及的歷史資料;資料清理單元,用於依據該歷史資料,採用所匹配中的清理規則對該目標資料進行清理。
  14. 根據申請專利範圍第13項所述的資料清理裝置,其中,該裝置,還包括:提取模組,用於當確定存在匹配中的清理規則時,根據該匹配中的清理規則所涉及的字段,從該目標資料中提取該字段的取值;歷史資料產生模組,用於將所提取到的字段的取值,作為下一次清理所需的歷史資料,其中,該取值為列舉值或數值。
TW106105360A 2016-03-25 2017-02-17 計算機可讀取儲存介質及資料清理裝置 TWI735537B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610180063.9 2016-03-25
CN201610180063.9A CN107229662B (zh) 2016-03-25 2016-03-25 数据清洗方法和装置

Publications (2)

Publication Number Publication Date
TW201737101A TW201737101A (zh) 2017-10-16
TWI735537B true TWI735537B (zh) 2021-08-11

Family

ID=59899225

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106105360A TWI735537B (zh) 2016-03-25 2017-02-17 計算機可讀取儲存介質及資料清理裝置

Country Status (3)

Country Link
CN (1) CN107229662B (zh)
TW (1) TWI735537B (zh)
WO (1) WO2017162083A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304464B (zh) * 2017-12-26 2021-01-29 北京明略软件系统有限公司 一种数据清洗的方法及装置
CN108984708B (zh) * 2018-07-06 2022-02-01 蔚来(安徽)控股有限公司 脏数据识别方法及装置、数据清洗方法及装置、控制器
CN109033274A (zh) * 2018-07-10 2018-12-18 中国银行股份有限公司 一种数据清洗方法及装置
CN110942081B (zh) * 2018-09-25 2023-08-18 北京嘀嘀无限科技发展有限公司 图像处理方法、装置、电子设备及可读存储介质
CN109684319B (zh) * 2018-12-25 2021-06-04 北京小米移动软件有限公司 数据清洗系统、方法、装置及存储介质
CN111382143A (zh) * 2018-12-27 2020-07-07 中兴通讯股份有限公司 一种数据清洗方法、装置及计算机可读存储介质
CN109977110B (zh) * 2019-04-28 2020-12-04 杭州数梦工场科技有限公司 数据清洗方法、装置及设备
CN110097137B (zh) * 2019-05-10 2022-11-25 广东中建普联科技股份有限公司 工程概算项目数据的国标定额自定义特征数据提取方法
CN110263024B (zh) * 2019-05-20 2023-08-22 重庆盛本亚信息技术有限公司 数据处理方法、终端设备及计算机存储介质
CN110597793A (zh) * 2019-07-30 2019-12-20 深圳市华傲数据技术有限公司 数据管理方法及装置、电子设备和计算机可读存储介质
CN110569237A (zh) * 2019-09-12 2019-12-13 上海富数科技有限公司 实现实时数据清洗处理的系统及其方法
CN112581268A (zh) * 2019-09-30 2021-03-30 北京宸瑞科技股份有限公司 海量资金交易数据情报分析方法及系统
CN111552685B (zh) * 2019-12-27 2022-02-15 广东电网有限责任公司电力科学研究院 基于Spark的电能质量数据清洗方法及装置
CN111427873B (zh) * 2020-03-12 2023-03-14 无码科技(杭州)有限公司 数据清洗方法及系统
CN112395349A (zh) * 2020-11-17 2021-02-23 平安普惠企业管理有限公司 可视化报表的预警方法、装置、设备及存储介质
CN112256689A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112256688B (zh) * 2020-11-26 2024-07-26 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112633206A (zh) * 2020-12-28 2021-04-09 上海眼控科技股份有限公司 脏数据处理方法、装置、设备及存储介质
CN113609110A (zh) * 2021-07-05 2021-11-05 云从科技集团股份有限公司 数据清洗方法、装置及计算机存储介质
CN113949529B (zh) * 2021-09-09 2022-08-05 广州鲁邦通智能科技有限公司 一种可信的混合云管理平台接入方法及系统
CN113836131B (zh) * 2021-09-29 2024-02-02 平安科技(深圳)有限公司 一种大数据清洗方法、装置、计算机设备及存储介质
CN113868237A (zh) * 2021-09-30 2021-12-31 杭州数梦工场科技有限公司 数据清洗方法及装置
CN114780527A (zh) * 2022-04-21 2022-07-22 中国农业银行股份有限公司 一种数据清洗方法及装置
CN115002243B (zh) * 2022-08-02 2022-11-01 上海秉匠信息科技有限公司 一种数据处理方法及装置
CN116894032B (zh) * 2023-09-05 2023-11-21 江苏数兑科技有限公司 一种基于数据探查分析结果自动生成数据清洗规则的方法
CN118427536B (zh) * 2024-07-04 2024-09-24 成都市数字城市运营管理有限公司 一种面向智慧城市的数据指标管理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177094A (zh) * 2013-03-14 2013-06-26 成都康赛电子科大信息技术有限责任公司 一种物联网数据清洗方法
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置
CN104361064A (zh) * 2014-11-04 2015-02-18 中国银行股份有限公司 对数据文件的数据清洗方法和数据文件处理方法
CN105183814A (zh) * 2015-08-27 2015-12-23 湖南人文科技学院 一种物联网数据清洗方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050028046A1 (en) * 2003-07-31 2005-02-03 International Business Machines Corporation Alert flags for data cleaning and data analysis
CN101477548B (zh) * 2009-01-20 2011-12-28 中国测绘科学研究院 一种基于规则的通用空间数据质量检查的技术方法
CN102135995A (zh) * 2011-03-17 2011-07-27 新太科技股份有限公司 一种etl数据清洗设计方法
CN103412956A (zh) * 2013-08-30 2013-11-27 北京中科江南软件有限公司 异构数据源的数据加工处理方法及系统
CN103473375A (zh) * 2013-09-29 2013-12-25 方正国际软件有限公司 数据清洗系统和数据清洗方法
CN103699693B (zh) * 2014-01-10 2015-08-19 中国南方电网有限责任公司 一种基于元数据的数据质量管理方法及系统
CN104462604B (zh) * 2014-12-31 2017-10-31 成都市卓睿科技有限公司 数据加工方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置
CN103177094A (zh) * 2013-03-14 2013-06-26 成都康赛电子科大信息技术有限责任公司 一种物联网数据清洗方法
CN104361064A (zh) * 2014-11-04 2015-02-18 中国银行股份有限公司 对数据文件的数据清洗方法和数据文件处理方法
CN105183814A (zh) * 2015-08-27 2015-12-23 湖南人文科技学院 一种物联网数据清洗方法

Also Published As

Publication number Publication date
CN107229662B (zh) 2022-02-25
CN107229662A (zh) 2017-10-03
TW201737101A (zh) 2017-10-16
WO2017162083A1 (zh) 2017-09-28

Similar Documents

Publication Publication Date Title
TWI735537B (zh) 計算機可讀取儲存介質及資料清理裝置
US11977541B2 (en) Systems and methods for rapid data analysis
US9706348B2 (en) System and method for processing location data of target user
CN107563757B (zh) 数据风险识别的方法及装置
US8645332B1 (en) Systems and methods for capturing data refinement actions based on visualized search of information
CN111522968B (zh) 知识图谱融合方法及装置
CN104182435B (zh) 基于数据缺失标记的信息检索系统及方法
CN105931123B (zh) 基于网络账号的好友推荐方法及装置
CN105654201B (zh) 一种广告流量预测方法及装置
JP2015515686A (ja) ネットワーク仮想ユーザリスク抑制方法およびシステム
CN104699796A (zh) 一种基于数据仓库的数据清洗方法
CN114416703A (zh) 数据完整性自动监控方法、装置、设备及介质
CN110851485B (zh) 社交关系的挖掘方法及装置、计算机设备与可读介质
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
CN106033438A (zh) 舆情数据存储方法和服务器
CN113590839B (zh) 知识图谱的构建方法、目标业务的执行方法及装置
US11113348B2 (en) Device, system, and method for determining content relevance through ranked indexes
CN110324588B (zh) 基于字典结构的视频分析警告事件信息存储方法
CN116521896A (zh) 一种基于图的负样本获取方法和系统
CN112416922B (zh) 一种群体关联数据挖掘方法、装置、设备及存储介质
CN110781309A (zh) 一种基于模式匹配的实体并列关系相似度计算方法
JP2013218579A (ja) ユーザ属性推定装置及び方法及びプログラム
CN111160917A (zh) 对象状态检测方法、装置、电子设备及可读存储介质
CN110727763B (zh) 一种社交媒体传播中的特殊族群识别方法
CN111078721B (zh) 一种查询语句的解析、解析结果的处理方法及系统