TW201301063A - 重複資料處理方法、裝置及系統 - Google Patents

重複資料處理方法、裝置及系統 Download PDF

Info

Publication number
TW201301063A
TW201301063A TW100128694A TW100128694A TW201301063A TW 201301063 A TW201301063 A TW 201301063A TW 100128694 A TW100128694 A TW 100128694A TW 100128694 A TW100128694 A TW 100128694A TW 201301063 A TW201301063 A TW 201301063A
Authority
TW
Taiwan
Prior art keywords
data
compared
information
duplicate
database
Prior art date
Application number
TW100128694A
Other languages
English (en)
Other versions
TWI518530B (zh
Inventor
Yi-Xin He
rui-hai Ye
Xie-Yao Wu
wen-po Zhang
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of TW201301063A publication Critical patent/TW201301063A/zh
Application granted granted Critical
Publication of TWI518530B publication Critical patent/TWI518530B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Abstract

本申請公開了一種重複資料處理方法、裝置及系統,該方法包括:將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同,其中,重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的;將處理之後的待比較資料與重複資料庫中的資料進行比較,確定待比較資料是否是重複資料。透過本申請提高了伺服器進行去重處理時的效率,節約了伺服器資源。

Description

重複資料處理方法、裝置及系統
本申請係關於網路技術領域,具體而言,關於一種重複資料處理方法、裝置及系統。
對於網站而言,資料重複是不可避免的,例如,在電子商務網站中會出現重複的商品資訊。在現有技術中通常透過三個步驟來對重複資料進行清理(為了描述方便,以下將需要判定是否重複的資訊稱為A,將需要從儲存系統獲取的和A進行比較的資訊稱為B):
步驟S10,系統取數邏輯。
該步驟用於從資料儲存系統中取出需要比較重複的資訊資料集。對於大量資料來說,資料集的大小直接決定整個系統的運行效率。在該步驟中,通常採用線性排隊的方式,即,等待上一條資訊處理完畢後再繼續下一條資訊的處理。對於B的篩選通常透過以下的方式來實現:
方式一,透過資料庫或者其他資料源查詢的方式,逐個取資訊B和A進行比較,該方式沒有對B進行篩選;
方式二,透過預定條件只篩選出部分和A有明顯共同性的資訊B進行比較(例如,同一個發佈者發佈的資訊,或者和A屬於同一個行業的資訊B)來縮小查詢條件。
以下以清理重複商品資訊(其他重複資料也可以採用相同的處理方式)為例對方式二進行說明。圖1是根據現有技術的清理重複商品資訊的系統取資料的流程圖,如圖1所示,該流程包括如下步驟:步驟S102,讀取會員分佈資訊;步驟S104,逐個行業讀取資訊;步驟S106,按序取一條資訊;步驟S108,執行下述步驟S20判斷是否為重複資料,在不是重複資料的情況下,返回步驟S106,在是重複資料的情況執行步驟S110;步驟S110,進行步驟S30的去重處理。
步驟S20,判定A是否為重複資訊。
在該步驟中涉及到判斷資訊是否相似的演算法,而不同的演算法也會直接影響到系統處理方案的準確度和有效性。在現有技術中通常會採用以下方式:
方式一,對A和B所涉及到所有資料進行完全比對;
方式二,有選擇性的只選取A和B的關鍵資料進行完全比對;
方式三,進行相似度比較,根據A和B中的資料的相似程度來判斷A和B是否相同,例如,對某些說明部分文字進行相識度比較。
步驟S30,清理重複資訊。
現有技術中的上述處理方法對於資料量較少的情況比較適用,但是對於大量資料而言,上述方法處理效率就會變低,例如,現有技術的清理重複資訊的方法的演算法效率是O(n),其中,n代表資料量,O(n)代表演算法執行的時間,O(n)的值與n值是成線性關係甚至成指數關係的,無論形成什麼樣的函數關係,有一點是可以確定的,即O(n)的值是隨著n值的增大而增加的。因此,當n值相當大的前提下,必然導致用於執行O(n)的伺服器負荷過大,無法及時對重複資料進行處理,導致資訊審核速度根本跟不上新資訊發佈的速度。
現有技術中,解決上述問題的方式是可以透過縮小資料集(即n值)的方式來降低伺服器的負荷的,例如,按資訊發佈者所在行業,然後按每個行業逐個取資料的方式來實現。但是,雖然在一定程度上縮小了整個資料集(即,n值),但演算法的效率可以認為是O(n(n-1)/2),當資訊發佈者有很多資訊(例如,海量資料)的時候,該方法的效率依然太低。從而,為了解決該問題,只能透過增大硬體投入的方式(有些情況僅僅依靠加大硬體投入也無法取得理想的效果)滿足去除重複資料要求,這種處理方式也存在問題:其一,無法滿足今後擴展的需求;其二,浪費了伺服器資源,整體效能太低。
本申請的主要目的在於提供一種重複資料處理方法、裝置及系統,以至少解決上述問題之一。
根據本申請的一個態樣,提供了一種重複資料處理方法,包括以下步驟:將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同,其中,該重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的;將處理之後的該待比較資料與該重複資料庫中的資料進行比較,確定該待比較資料是否是重複資料;在該待比較資料不是重複資料的情況下,將該待比較資料寫入該資料庫。
在處理之後的該待比較資料包括用於進行完全匹配的第一資訊和用於進行相似度匹配的第二資訊的情況下,確定該待比較資料是否為重複資料包括:在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致,並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下,確定該待比較資料為重複資料。
在處理之後的該待比較資料還包括一張或多張圖片的大小的情況下,確定該待比較資料是否為重複資料包括:在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致,並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下,根據該待比較資料中的一張或多張圖片的大小與該重複資料庫中的該資料的一張或多張圖片的大小的關係,確定該待比較資料為重複資料的方式,其中,該重複資料的方式包括:該待比較資料與該重複資料庫中的該資料完全相同、該待比較資料包含該重複資料庫中的該資料、或者該重複資料庫中的該資料包括該待比較資料。
該第一資訊至少包括:將資料中需要進行完全匹配的部分中的一個或多個形成一個組合並將該組合透過雜湊演算法或加密演算法所得到的值;和/或,該第二資訊至少包括:將資料中需要進行相似度匹配的部分透過壓縮演算法所得到的值。
形成該組合的一個或多個部分是預先配置的。
該第一資訊和該第二資訊在該重複資料庫中透過鍵-值對的方式保存。
在將該待比較資料的資料結構處理成與該重複資料庫中的資料的資料結構相同之前,還包括:對該待比較資料進行預處理,其中,該預處理包括以下至少之一:大小寫轉換、全半形轉換、特殊字元過濾、形音詞替換、無意義詞替換、關鍵字抽取、去除HTML標記。
在將該待比較資料的資料結構處理成與該重複資料庫中的資料的資料結構相同之前,還包括:接收該待比較資料,其中,該待比較資料是經過負載均衡處理之後發送過來的。
根據本申請的另一個態樣,還提供了一種重複資料處理裝置,包括:處理模組,用於將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同,其中,該重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的;比較模組,用於將處理之後的該待比較資料與該重複資料庫中的資料進行比較,確定該待比較資料是否為重複資料;寫入模組,用於在該待比較資料不是重複資料的情況下,將該待比較資料寫入該資料庫。
在處理之後的該待比較資料包括用於進行完全匹配的第一資訊和用於進行相似度匹配的第二資訊的情況下,該比較模組,用於在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致,並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下,確定該待比較資料為重複資料。
在處理之後的該待比較資料還包括一張或多張圖片大小的情況下,該比較模組,用於在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致,並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下,根據該待比較資料中的一張或多張圖片的大小與該重複資料庫中的該資料的一張或多張圖片的大小的關係,確定該待比較資料為重複資料的方式,其中,該重複資料的方式包括:該待比較資料與該重複資料庫中的該資料完全相同、該待比較資料包含該重複資料庫中的該資料、或者該重複資料庫中的該資料包括該待比較資料。
該第一資訊至少包括:將資料中需要進行完全匹配的部分中的一個或多個形成一個組合並將該組合透過雜湊演算法或加密演算法所得到的值;和/或,該第二資訊至少包括:將資料中需要進行相似度匹配的部分透過壓縮演算法所得到的值。
該裝置還包括:預處理模組,用於對該待比較資料進行預處理,其中,該預處理包括以下至少之一:大小寫轉換、全半形轉換、特殊字元過濾、形音詞替換、無意義詞替換、關鍵字抽取、去除HTML標記。
根據本申請的再一個態樣,還提供了一種重複資料處理系統,包括:一個或多個上述的重複資料處理裝置、以及分發裝置,其中該分發裝置用於根據該一個或多個重複資料處理裝置的負載向該一個或多個重複資料處理裝置發送待比較資料。
透過本申請,解決了現有技術中去重處理效率較低而為了提高效率只能增加伺服器所導致的問題,進而提高了伺服器進行去重處理時的效率,節約了伺服器資源。
下文中將參考附圖並結合實施例來詳細說明本申請。需要說明的是,在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相互組合。
以下實施例中的重複資料處理方法可以應用在伺服器上,該伺服器可以專用於進行重複資料的處理,當然也可以應用於一組伺服器上。或者也可以作為伺服器中的一個模組與執行其他功能的伺服器公用。
以下實施例中用於進行重複資料比對的資料庫採用了記憶體資料庫(在以下實施例中稱為重複資料庫)的方式(以下實施例可以適用於基於鍵-值對的記憶體資料庫,但是並不限於此,在以下的實施例中會以示例的方式對基於鍵-值對的記憶體資料庫進行說明)。在現有技術中的重複資料的處理方式均是採用直接讀取資料庫進行逐條比較的方式來進行的(而這正是導致現有技術中處理方法效率較低的原因),在以下實施例中正是由於採用了記憶體資料庫作為重複資料庫(或簡稱重複庫),使得資料的處理效率相比於現有技術高,如果採用O(n)的評判方式的話,由於記憶體資料庫處理速度很快,因此,n的大小將對O(n)影響並不是很大。因此,以下實施例相比於現有技術改善了伺服器的內部性能,可以在佔用伺服器較少資源的情況下,完成較大資料的去重處理,即在相同的處理效率下,以下實施例使用的伺服器資源較少,在相同的伺服器資源的情況下,以下實施例的處理效率更高。並且,由於採用的是記憶體資料庫的處理方式,因此,擴展相對也比較容易。
圖2是根據本申請實施例的重複資料處理方法流程圖,如圖2所示,該方法包括如下步驟:
步驟S202,將待比較資料(即,需要進行比較的資料,也稱為待審核資訊,待對比資訊,待處理資料)的資料結構處理成與重複資料庫中的資料的資料結構相同,其中,重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的,在此處,重複資料庫中資料的資料結構即與預設的資料結構相同,其可以與資料庫中的資料結構相同,但是,這樣會導致重複資料庫資料量稍大。作為一個較佳的實施方式,重複資料庫中資料的資料結構可以與資料庫中資料的資料結構不同,例如,重複資料庫中的資料可以是資料庫中的資料透過預處理、部分壓縮後等的記憶體映射,這樣的處理相當於進行了很多抽取、濃縮等工作,一方面可以減少重複資料庫的資料量,另一方面可以為資料的比較提供更好的資料結構;
步驟S204,將處理之後的待比較資料與重複資料庫中的資料進行比較,確定待比較資料是否是重複資料;
步驟S206,在待比較資料不是重複資料的情況下,將待比較資料寫入資料庫。
透過上述步驟,不僅能夠透過記憶體映射的方式避免資料庫逐條查詢,還能夠在資訊入庫前進行去重處理,實現了從源頭上清理了重複資料。
作為一個較佳實施例方式,重複資料庫的資料結構是記憶體映射,並且,對應同一條資料、重複資料庫是資料庫資料預處理後(例如,可以只保留核心的、需要比對的部分)的一份拷貝,因此,在該較佳實施方式中,重複資料庫的大小要比原資料庫精簡的多。
對於步驟S204中的確定待比較資料是否為重複資料的比較方式可以採用現有的比較方式進行比較,例如,可以採用完全比對的方式。即使採用現有的比較方式,由於在上述步驟中使用了記憶體資料庫,也可以取得比現有技術更高的效率。
在本實施中提供了一種比現有技術更佳的比較方式,該方式結合了完全比對和相似度比對,兼顧了比較的準確性和效率。下面對該較佳的比較方式進行說明。
可以將待比較資料處理為第一資訊和第二資訊,其中,第一資訊用於進行完全匹配,第二資訊用於進行相似度匹配。這樣,可以首先比較第一資訊,在待比較資料的第一資訊與重複資料庫中的資料的第一資訊完全一致的情況下,再比較第二資訊,如果待比較資料的第二資訊與重複資料庫中的該資料的第二資訊相似度超過閾值,則可以確定待比較資料為重複資料。對於第一資訊,可以是比較重要的資訊,例如,標題、核心關鍵字、發佈者ID等等,對於這些比較重要的資訊可以只比對其中的一項,也可以對這些關鍵資訊的組合進行比對,這樣做可以靈活的把握需要精確匹配的幅度。當然,比較的資訊越多準確率就越高。對於第二資訊,可以是資料量相對較大的資料,例如,商品的說明書、產品的介紹等。由於資料量較大的資訊一般不會完全相同,但是往往又是相似的,作為一個較佳的實施方式,是對第二資訊進行相似度比較。
對於完全匹配的比較可以採用對於需要比較的部分進行逐一比較的方式,例如,如果需要比較標題和發佈者,那麼可以首先比較標題是否相同,在標題相同的情況下再比較發佈者是否相同,這樣的比較方式實現簡單,但是比較效率較低。在本實施例中提供了一種更優的處理方式,下面對該較佳實施方式進行說明。
對於需要完全匹配的部分,首先,將這些的部分中的一個或多個形成一個組合,然後,將該組合透過雜湊演算法或加密演算法進行計算得到一個值,然後使用該值進行比較。透過這樣的比較方式,在需要比較多個部分的情況下可以透過一次比較完成。例如,可以採用訊息摘要演算法5(Message Digest Algorithm5,簡稱為MD5)(還可以採用其他的演算法,例如,安全雜湊演算法SHA)對需要進行完全匹配的部分中的一個或多個形成的組合進行計算,得到一個128位元的值,當然,重複資料庫中保存的可以是這些需要完全匹配的部分,也可以是這些部分中的一個或多個的組合,或者是這些組合經過雜湊演算法或加密演算法所得到的值。
例如,需要完全匹配的部分(或者欄位)為標題和發佈者ID,標題+發佈者ID就可以得到一個字串(如“三防手機mobie3”,其中三防手機為商品的名稱,mobie3為發佈者ID),然後對該字串進行MD5運算得到一個128位元的值,使用該值進行比較。
由於在某些大型的資料庫中,涉及到的關鍵部分(或者欄位)比較多,因此,為了靈活處理,可以將需要進行完全匹配的部分配置在配置檔中,每次透過讀取該配置檔來得到需要比較那些關鍵部分(或者欄位),即形成組合的一個或多個部分是可以預先配置的。
對於相似度匹配,由於需要進行相似度匹配的部分資料量比較大,可以採用抽取關鍵字的比較方式,例如對於不同的行數可以抽取不同位置的關鍵字,如果這些關鍵字均相同(相似度為100%)或者相似度超過90%,則可以認為是重複資料。然而這種處理方法稍顯複雜。在本實施例中還可以採用另外一種比較好的處理方式,即將資料中需要進行相似度匹配的部分透過壓縮演算法所得到的值進行比較,例如,將待比較資料的詳細說明進行壓縮之後得到一個值,將重複資料庫中的詳細說明進行壓縮之後得到一個值(例如,壓縮之後的大小),然後對這兩個值進行比較,在這兩個值的相似度超過一定閾值時,表明是重複資料(例如,A為待比較資料的詳細說明部分壓縮之後的大小,B為重複資料庫中的詳細說明部分壓縮之後的大小,那麼該閾值可以是(A-B)/A,如果該比值小於1%,可以認定為重複資料)。
需要說明的是,上述較佳的完全匹配方式和相似度匹配的處理方式,可以擇一應用,也可以結合起來應用。只要採用了這兩種較佳方式的一種就可以在兼顧準確度的同時提高比較的效率,如果兩種結合起來使用將達到更好的效果。
上述對於相似度匹配和完全匹配較佳的可以用於對字元的處理,當然也可以應用在對圖片的處理中(例如,將圖片轉換成二進位資料之後進行比較)。在本實施例中提供了另外一種較佳的處理方式,即在待比較資料的第一資訊與重複資料庫中的資料的第一資訊完全一致,並且待比較資料的第二資訊與重複資料庫中的該資料的第二資訊相似度超過閾值的情況下,根據待比較資料中的一張或多張圖片的大小與重複資料庫中的該資料的一張或多張圖片的大小的關係,確定待比較資料是否為重複資料的方式,其中,確定是重複資料的方式包括:待比較資料與重複資料庫中的該資料完全相同、待比較資料包含重複資料庫中的該資料、或者重複資料庫中的該資料包括待比較資料。透過對圖片的比較,可以使重複資料的判斷更加準確。
較佳地,為了使完全匹配和相似度匹配得到比較結果更加準確,可以在將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同之前,對待比較資料進行預處理,例如,大小寫轉換、全半形轉換、特殊字元過濾、形音詞替換、無意義詞替換、關鍵字抽取、去除HTML標記,其中,可以進行上述預處理中的一個或多個,進行的預處理越多,那麼得到的資料就越便於進行重複資料判斷。
對於資料量較大的情況,可以採用多個伺服器來進行去重處理,例如,該比較資料可以是透過具有負載均衡功能的非同步消息系統發送過來的。在採用多個伺服器的情況下,可以根據伺服器的負載情況,或者根據待比較資料的標識選擇在哪個伺服器進行處理(通常在待比較的資料會有一個數位的ID,如何沒有數字的ID可以使用流水號的方式對待比較的資料進行標號,例如,該待比較資料的ID或流水號為3334,如果有3台伺服器,可以將3334除以3得到的餘數為1,使用1號伺服器處理該待比較資料)。在存在多個伺服器的情況下,可以採用基於記憶體資料庫的分散式資料庫架構。記憶體資料庫的分散式架構在現有技術中有不同的實現方式。而在本實施例中可以透過使用記憶體資料庫和分散式資料庫代理的整合來實現,例如,H2是一個高性能的記憶體資料庫,Amoeba是分散式資料庫代理,在現有技術中,Amoeba已經可以和Mysql進行整合,而對於Amoeba而言,Mysql節點和H2節點作為一個儲存是一樣的,因此,可以將現有技術中的Amoeba與Mysql的整合移植到Amoeba與H2的整合中,透過Amoeba和H2的整合可以實現基於記憶體資料庫的分散式資料庫架構。
在本實施例中還提供一種重複資料處理裝置,該資料處理裝置用於實現上述實施例中提及的實施方式,已經進行過說明的不再贅述,如以下所使用的,術語“模組”可以實現預定功能的軟體和/或硬體的組合。儘管以下實施例所描述的系統和方法較佳地以軟體來實現,但是硬體,或者軟體和硬體的組合的實現也是可能並被構想的,下面結合圖3對該裝置中涉及到的模組進行說明。
圖3是根據本申請實施例的重複資料處理裝置的結構示意圖,如圖3所示,該裝置包括:處理模組300,比較模組302和寫入模組304。其中,處理模組300,用於將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同,其中,重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的;比較模組302連接至處理模組300,該模組用於將處理之後的待比較資料與重複資料庫中的資料進行比較,確定待比較資料是否為重複資料;寫入模組304連接至比較模組302,該模組用於在待比較資料不是重複資料的情況下,將待比較資料寫入資料庫。
較佳地,在處理之後的待比較資料包括用於進行完全匹配的第一資訊和用於進行相似度匹配的第二資訊的情況下,比較模組302,用於在待比較資料的第一資訊與重複資料庫中的資料的第一資訊完全一致,並且待比較資料的第二資訊與重複資料庫中的該資料的第二資訊相似度超過閾值的情況下,確定待比較資料為重複資料。
較佳地,在處理之後的待比較資料還包括一張或多張圖片大小的情況下,比較模組302,用於在待比較資料的第一資訊與重複資料庫中的資料的第一資訊完全一致,並且待比較資料的第二資訊與重複資料庫中的該資料的第二資訊相似度超過閾值的情況下,根據待比較資料中的一張或多張圖片的大小與重複資料庫中的該資料的一張或多張圖片的大小的關係,確定待比較資料為重複資料的方式,其中,確定其為重複資料的方式包括:待比較資料與重複資料庫中的該資料完全相同、待比較資料包含重複資料庫中的該資料、或者重複資料庫中的該資料包括待比較資料,但不限於此。
圖4是根據本申請實施例較佳的重複資料處理裝置的結構示意圖,如圖4所示,該較佳的重複資料處理裝置包括圖3所示的處理模組300,比較模組302,寫入模組304,還包括預處理模組306,其中,預處理模組306連接至處理模組300,該模組用於對待比較資料進行預處理,其中,預處理包括以下至少之一:大小寫轉換、全半形轉換、特殊字元過濾、形音詞替換、無意義詞替換、關鍵字抽取、去除HTML標記。
在本實施例中,還提供了一種重複資料處理系統,該系統包括一個或多個上述的重複資料處理裝置之外,還包括分發裝置,該分發裝置用於根據一個或多個重複資料處理裝置的負載向一個或多個重複資料處理裝置發送待比較資料。
在以上實施例及較佳實施方式中,透過記憶體映射的方式(即使是海量資料也只需要一次記憶體映射)快速定位、對商品資訊的預處理,以及精確匹配和相似度匹配相結合的比較方式,從源頭上的永久清理重複資料,實現了資訊入庫前的去重處理,提高效率,排除不必要的干擾,提高匹配的準確度。需要說明的是,這些技術效果並不是上述所有的實施方式所具有的,有些技術效果是某些較佳實施方式才能取得的。
下面結合大型的電子商務網站中的商品資訊的去重處理對本申請的一個較佳的具體實施進行說明。需要說明的是,以下實施例是以商品資訊為例進行的說明,但是並不限於此,對於其他資訊的去重處理,也可以採用以下實施例中的實施方式。
在本較佳實施例中,提供了一種快速檢測清理重複資訊系統,該系統是後臺審核系統的一個子系統,其中,被比對資訊(即待比較資訊)會透過資訊佇列發送到本系統中處理。圖5是根據本申請較佳實施例的快速檢測清理重複資訊子系統的結構示意圖,如圖5所示,該清理重複子系統包括:去重資訊監聽器、去重分發元件(實現上述分發裝置的功能)、一個或多個去重監聽器(也可以理解為執行去重功能的伺服器)和資料庫,下面結合圖5對商品資訊的重複資訊的清理過程進行說明。需要說明的是,在實施時,去重監聽器可以是一個或多個專用於處理去重邏輯的伺服器,當然,如果該去重監聽器自身的記憶體足夠大,也可以兼做記憶體資料庫。
後臺資訊審核監聽器執行所有與資訊審核相關的其他處理邏輯,然後,待審核資訊透過資訊佇列流入去重資訊監聽器,然後,去重分發元件會根據發佈者的ID(例如,可以根據ID的首字母來確定將該資訊發送到哪個去重監聽器中)和/或每台伺服器的負載將待審核資訊分發到不同的消息佇列中(在實施時,可以較佳的透過負載均衡的方式來保證每台伺服器處理量均分),每個資訊佇列由一個去重監聽器來處理。其中,去重資訊監聽器、去重分發組件和去重監聽器執行清理重複的邏輯,該清理重複邏輯包括:預處理、判重和去重操作,並根據操作結果決定是否更新資料庫。重複資訊被清理後,較佳地,可以記錄相關日誌,這樣可以透過一個專門的日誌查詢介面查詢被清理的資訊。
作為一個較佳的實施例,上述系統可以是一個資訊非同步資訊系統,該系統基於非同步、非阻塞的資訊傳遞機制,能夠與其他子系統實現鬆耦合,該鬆耦合可以實現可插拔的方式,這表示上述的去重系統可以作為子系統方便的對接到其他系統中。更佳地,上述的非同步、非阻塞的資訊傳遞機制可以提高吞吐量和處理速度。再輔助以負載均衡,可以適合大吞吐量操作。
下面對本較佳實施例中的商品資訊的預處理過程進行說明,該預處理過程是在商品資訊比對之前進行的,在本較佳實施例中,以針對資訊的文本部分的預處理過程為例進行說明。可以透過以下幾個模組的至少之一來實現預處理過程,當然,如果採用了下面的所有模組會取得更好的效果:
特殊字元過濾模組,用於過濾指定字元表中的特殊字元(例如,換行符、I、←↑、羅馬字元等)。
形音詞替換模組,用於根據字表對形,音,意相似的字詞進行轉換(例如,“像”和“相”、“千克”和“kg”等)。
簡單無意義詞替換模組,用於對簡單無意義詞進行替換(例如,的、得、(圖)等)。
核心關鍵字抽取模組,用於根據字元表將指定字元(或稱為核心關鍵字)從文本中快速分離出來。
需要說明的是,上述模組的處理方式可以採用基於字典的方式,即,根據各自的處理邏輯,維護處理規則對應的字典檔,系統啟動時將對應的字典檔載入在記憶體中。
下面結合附圖以資訊的標題、詳細說明和屬性參數為例,對資訊的預處理過程進行說明。
圖6是根據本申請較佳實施的對標題預處理方法的流程圖,如圖6所示,該處理過程包括如下步驟:
步驟S602,將處理前的標題的全形轉換為半形,大寫轉換為小寫;
步驟S604,對標題中簡單無意義詞進行替換;
步驟S606,對特殊字元進行過濾;
步驟S608,對標題中的形音詞進行替換。
圖7是根據本申請較佳實施的對詳細說明預處理方法的流程圖,如7所示,該處理過程包括如下步驟:
步驟S702,除去常見的HTML標記(保留圖片標);
步驟S704,轉換全形為半形,大寫為小寫;
步驟S706,特殊字元過濾;
步驟S708,抽取核心關鍵字作為精確匹配用,剩下的部分做相似度匹配用。
圖8是根據本申請較佳實施的對產品屬性參數的預處理方法的流程圖,如8所示,該處理過程包括:
步驟S802,轉換全形為半形,大寫為小寫;
步驟S804,特殊字元過濾;
步驟S806,替換形音詞。
透過對待比較資訊的關鍵部分(標題,詳細說明,屬性參數,圖片等)做一系列的預處理,使得商品資訊可以排除很多不必要的干擾,從而大大提高匹配精確度。
在本較佳實施例中,提供了一個基於分散式快取的資訊重複比對庫,透過採用記憶體映射的方式來代替資料庫的直接迴圈查詢比對。圖9是根據本申請較佳實施例的基於分散式快取的資訊重複比對庫及其輸入輸出的示意圖,下面結合圖9對利用該資訊重複比對庫對海量商品信息的處理過程進行說明,圖9示出的邏輯結構Map結構(即,在記憶體中維護的一個鍵-值對),其結構為:Key=MD5(資訊發佈者ID+核心關鍵字串+專業化屬性+標題),其中的資訊發佈者ID、核心關鍵字串、專業化屬性和標題是示例性說明,也可以對其他的關鍵字段或者關鍵字段的組合進行MD5的運算。
Value=list of<資訊ID,圖片大小列表,經過預處理的詳細說明>,其中的資訊ID、圖片大小列表、經過預處理的詳細說明也是示例性說明,並不限於此。
其中,Key是一串把一條商品資訊所有需要精確匹配的部分合併生成的MD5資訊摘要,由於所用到的關鍵詞段在之前的預處理過程中進行了預處理,使得該結構可以簡單、快速地實現精確匹配。同時MD5串本身大大減少了記憶體佔用。
當Key被匹配到之後,再透過相似度演算法對Value部分進行相似度匹配,如果相似度超過閾值,則被認為是重複資訊。
在實際使用過程中對應哪些部分需要精確匹配是根據實際情況而定的,例如,某些情況下只要資訊的標題不一樣就認為是重複資訊;而在另外情況下標題相同的情況下還需要發佈者ID進行完全比配才可以判定該資訊是否為重複資訊。因此,在實施時,可以留有預先自定義需要精確匹配的部分的介面,例如,可以用專門的配置檔來記錄需要進行完全匹配的部分,這樣就實現了靈活地指定不同的需要進行完全匹配的組合。
更佳地,重複庫本身也可以透過最近最少使用演算法(Least Recently Used,簡稱為LRU)控制容量上限,例如,對於重複庫中的一條資訊B已經存放了一個月沒有被匹配到時,那麼就可以將該資訊從記憶體資料庫中刪除,這樣可以有效控制記憶體資料庫的大小,節約記憶體。
在本較佳實施例中,基於分散式的快取系統,透過生成MD5,以及精確匹配和相似度匹配相結合的方式。克服了單台伺服器訪問瓶頸,以及容量瓶頸。從而實現了精確快速匹配,並且實現了自身線性擴展,兼顧效率和準確性,同時,精確匹配部分可以透過規則自定義,實現了系統匹配的最大靈活性和比對效率。更佳地,為了提高吞吐量,還可以採用上述已經進行過說明的非同步資訊處理機制。
圖10是根據本申請較佳實施例的重複判斷的流程圖,下面結合圖10該流程進行說明。為了進行更清楚的說明,進行如下約定:
(1)被比對資訊B進入系統,預處理後與重複庫中的資訊A比對。
(2)【M,N】表示處理結果,M為資料庫中存在哪些資訊,N為重複庫中存在哪些資訊。例如:【A,A】表示處理後A仍存在資料庫和重複庫中,此時B已被清除,既不存在於資料庫中,也不存在於重複庫中。
(3)~A表示更新資訊A的審核通過時間為系統當前時間。
(4)A.MD5表示A(例如,發佈者ID+核心關鍵字串+專業化屬性+標題)的MD5值。
(5)A.Pic1表示A資訊的第一張圖片的大小,A.PicSet表示A資訊除了第一張圖片的所有其他圖片大小的集合。
(6)Similar(A,B)表示A與B是否相似,其較佳的一個判定方法為:zip(A+B)/zip(A)+zip(A+B)/zip(B)<2.1,其中,zip(A)表示對A的詳細說明做zip壓縮得到的大小,當然,zip僅僅是壓縮演算法的一個示例性說明,並不限於此,也可以採用其他的壓縮演算法。
(7)A與B相交表示A和B不是重複相似資訊,A==B表示A和B重複相似資訊,A包含B表示A包含B的所有內容,B包含A表示B包含A的所有內容;
(8)NEW/MOD表示資訊的狀態:待審核的新資訊/修改後待審核的資訊;APP/PUB表示資訊的狀態:後臺審核通過的資訊/已經對外發佈上網的資訊;TBD/DEL/EXP表示資訊的狀態:後臺審核未通過的資訊/被後臺審核系統刪除的資訊/已過期的線上資訊。
如圖10所示,該流程包括如下步驟:
步驟S1002,判斷A.MD5是否等於B.MD5,如果是,則A與B相交,否則,執行步驟S1004;
步驟S1004,判斷A與B是否相似,例如,zip(A+B)/zip(A)+zip(A+B)/zip(B)是否小於一個閾值(例如,2.1),如果不相似,則A與B相交,否則,執行步驟S1006;
步驟S1006,判斷A的第一張圖片的大小是否等於B的第一張圖片的大小,如果不相等,即,A.Pic1!=B.Pic1,則A與B相交,否則,執行步驟S1008;
步驟S1008,判斷A的除了第一張圖片的所有其他圖片的大小的集合與B的除了第一張圖片的所有其他圖片的大小的集合是否相等,如果相等,即A.PicSet.equals(B.PicSet),則A==B;如果A的除了第一張圖片的所有其他圖片的大小的集合包含B的除了第一張圖片的所有其他圖片的大小的集合,即A.PicSet.contains(B.PicSet),則A包含B;如果B的除了第一張圖片的所有其他圖片的大小的集合包含A的除了第一張圖片的所有其他圖片的大小的集合,即B.PicSet.contains(A.PicSet),則B包含A。
在該流程中,也可以加入控制重複庫大小的步驟,例如,判斷B的時間戳(timestamp)離當前時間是否超出指定值,如果是,則按B的資訊ID查找重複庫,並將B從重複庫中刪除。該步驟的執行時間不受到限制,例如,可以在伺服器的負載低於閾值時進行。
上述重複判斷可以用代碼表示如下:
a) IF A.MD5 !=B.MD5=>A與B相交
b) ELSEIF !Similar(A,B)=>A與B相交
c) ELSEIF A.Picl !=B.Picl=>A與B相交
d) ELSEIF A.PicSet.equals(B.PicSet)=>A==B
e) ELSEIF A.PicSet.contains(B.PicSet)=>A包含B
f) ELSEIF B.PicSet.contains(A.PicSet)=>B包含A
g) ELSE A與B相交
圖11是根據本申請較佳實施例的A包含B時的重複處理方法的流程圖,需要說明的是,該流程中的相關約定與圖10相同。下面結合圖11對A包含B時的重複處理方法進行說明:
步驟S1102,判斷A是否為NEW/MOD,如果是,則【A,A】(表示在資料庫和重複庫中均保存A),否則,執行步驟S1104;
步驟S1104,判斷A是否為APP/PUB,如果是,則【~A,A】(表示在資料庫中更新資訊A的審核通過時間為系統當前時間,並且在重複庫中保存A),否則,執行步驟S1106;
步驟S1106,判斷A是否為TBD/DEL/EXP,如果是,則【A~B,B】(表示在資料庫中保存A並且在資料庫中更新資訊B的審核通過時間為系統當前時間,在重複庫中保存B)。
需要說明的是,上述的步驟不一定按照步驟S1102至步驟S1106的順序執行,按照其他的順序執行也可以取得同樣的效果,上述的步驟S1102至步驟S1106僅僅是示例性說明。
圖12是根據本申請較佳實施例的A==B時的重複處理方法的流程圖,需要說明的是,該流程為圖10所示的後續流程,相關的約定與圖10相同。下面結合圖12對A==B時的重複處理方法進行說明:
步驟S1202,判斷A是否為NEW/MOD,如果是,則【B,B】,否則,執行步驟S1204;
步驟S1204,判斷A是否為APP/PUB,如果是,則【~A,A】,否則,執行步驟S1206;
步驟S1206,判斷A是否為TBD/DEL/EXP,如果是,則【AB,B】(表示在資料庫中保存A和B,而在重複庫中保存B)。
需要說明的是,上述的步驟不一定按照步驟S1202至步驟S1206的順序執行,按照其他的順序執行也可以取得同樣的效果,上述的步驟S1202至步驟S1206僅僅是示例性說明。
除圖10和圖11所示出的A包含B和A==B的情況之外,可以認為A和B相交,此時【AB,AB】(表示A和B均在資料庫和重複庫中保存)。
上述重複處理的流程可以用代碼表示如下:
a)IF A包含B
i. IF A為NEW/MOD=>【A,A】
ii. ELSEIF A為APP/PUB=>【~A,A】
iii.ELSE A為TBD/DEL/EXP=>【A~B,B】
b)ELSEIF A==B
i. IF A為NEW/MOD=>【B,B】
ii. ELSE IF A為APP/PUB=>【~A,A】
iii.ELSE A為TBD/DEL/EXP=>【AB,B】
c)ELSE A與B相交=>【AB,AB】
在另外一個實施例中,還提供了一種重複資料處理軟體,該軟體用於執行上述實施例及較佳實施例中描述的技術方案。
在另外一個實施例中,還提供了一種儲存媒體,該儲存媒體中儲存有上述重複資料處理軟體,該儲存媒體包括但不限於:光碟、軟碟、硬碟、可讀寫記憶體等。
顯然,本領域的技術人員應該明白,上述的本申請的各模組或各步驟可以用通用的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分佈在多個計算裝置所組成的網路上,可選地,它們可以用計算裝置可執行的程式碼來實現,從而可以將它們儲存在儲存裝置中由計算裝置來執行,或者將它們分別製作成各個積體電路模組,或者將它們中的多個模組或步驟製作成單個積體電路模組來實現。這樣,本申請不限制於任何特定的硬體和軟體結合。
以上所述僅為本申請的較佳實施例而已,並不用於限制本申請,對於本領域的技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本申請的保護範圍之內。
300...處理模組
302...比較模組
304...寫入模組
306...預處理模組
此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用於解釋本申請,並不構成對本申請的不當限定。在附圖中:
圖1是根據現有技術的清理重複商品資訊的流程圖;
圖2是根據本申請實施例的重複資料處理方法流程圖;
圖3是根據本申請實施例的重複資料處理裝置的結構示意圖;
圖4是根據本申請實施例較佳的重複資料處理裝置的結構示意圖;
圖5是根據本申請較佳實施例的快速檢測清理重複資訊子系統的結構示意圖;
圖6是根據本申請較佳實施例的對標題預處理方法的流程圖;
圖7是根據本申請較佳實施例的對詳細說明預處理方法的流程圖;
圖8是根據本申請較佳實施例的對產品屬性參數的預處理方法的流程圖;
圖9是根據本申請較佳實施例的基於分散式快取的資訊重複比對庫及其輸入輸出的示意圖;
圖10是根據本申請較佳實施例的重複判斷的流程圖;
圖11是根據本申請較佳實施例的A包含B時的重複處理方法的流程圖;以及
圖12是根據本申請較佳實施例的A==B時的重複處理方法的流程圖。

Claims (14)

  1. 一種重複資料處理方法,其特徵在於包括以下步驟:將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同,其中,該重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的;將處理之後的該待比較資料與該重複資料庫中的資料進行比較,確定該待比較資料是否為重複資料;在該待比較資料不是重複資料的情況下,將該待比較資料寫入該資料庫。
  2. 根據申請專利範圍第1項所述的方法,其中,在處理之後的該待比較資料包括用於進行完全匹配的第一資訊和用於進行相似度匹配的第二資訊的情況下,確定該待比較資料是否為重複資料包括:在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致,並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下,確定該待比較資料為重複資料。
  3. 根據申請專利範圍第2項所述的方法,其中,在處理之後的該待比較資料還包括一張或多張圖片的大小的情況下,確定該待比較資料是否為重複資料包括:在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致,並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下,根據該待比較資料中的一張或多張圖片的大小與該重複資料庫中的該資料的一張或多張圖片的大小的關係,確定該待比較資料為重複資料的方式,其中,該重複資料的方式包括:該待比較資料與該重複資料庫中的該資料完全相同、該待比較資料包含該重複資料庫中的該資料、或者該重複資料庫中的該資料包括該待比較資料。
  4. 根據申請專利範圍第2項所述的方法,其中,該第一資訊至少包括:將資料中需要進行完全匹配的部分中的一個或多個形成一個組合並將該組合透過雜湊演算法或加密演算法所得到的值;和/或,該第二資訊至少包括:將資料中需要進行相似度匹配的部分透過壓縮演算法所得到的值。
  5. 根據申請專利範圍第4項所述的方法,其中,形成該組合的一個或多個部分是預先配置的。
  6. 根據申請專利範圍第2至5項中任一項所述的方法,其中,該第一資訊和該第二資訊在該重複資料庫中透過鍵-值對的方式保存。
  7. 根據申請專利範圍第1至5項中任一項所述的方法,其中,在將該待比較資料的資料結構處理成與該重複資料庫中的資料的資料結構相同之前,還包括:對該待比較資料進行預處理,其中,該預處理包括以下至少之一:大小寫轉換、全半形轉換、特殊字元過濾、形音詞替換、無意義詞替換、關鍵字抽取、去除HTML標記。
  8. 根據申請專利範圍第1至5項中任一項所述的方法,其中,在將該待比較資料的資料結構處理成與該重複資料庫中的資料的資料結構相同之前,還包括:接收該待比較資料,其中,該待比較資料是經過負載均衡處理之後發送過來的。
  9. 一種重複資料處理裝置,其特徵在於,包括:處理模組,用於將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同,其中,該重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的;比較模組,用於將處理之後的該待比較資料與該重複資料庫中的資料進行比較,確定該待比較資料是否為重複資料;寫入模組,用於在該待比較資料不是重複資料的情況下,將該待比較資料寫入該資料庫。
  10. 根據申請專利範圍第9項所述的裝置,其中,在處理之後的該待比較資料包括用於進行完全匹配的第一資訊和用於進行相似度匹配的第二資訊的情況下,該比較模組,用於在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致,並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下,確定該待比較資料為重複資料。
  11. 根據申請專利範圍第10項所述的裝置,其特徵在於,在處理之後的該待比較資料還包括一張或多張圖片大小的情況下,該比較模組,用於在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致,並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下,根據該待比較資料中的一張或多張圖片的大小與該重複資料庫中的該資料的一張或多張圖片的大小的關係,確定該待比較資料為重複資料的方式,其中,該重複資料的方式包括:該待比較資料與該重複資料庫中的該資料完全相同、該待比較資料包含該重複資料庫中的該資料、或者該重複資料庫中的該資料包括該待比較資料。
  12. 根據申請專利範圍第10項所述的裝置,其中,該第一資訊至少包括:將資料中需要進行完全匹配的部分中的一個或多個形成一個組合並將該組合透過雜湊演算法或加密演算法所得到的值;和/或,該第二資訊至少包括:將資料中需要進行相似度匹配的部分透過壓縮演算法所得到的值。
  13. 根據申請專利範圍第9至12項中任一項所述的裝置,其中,還包括:預處理模組,用於對該待比較資料進行預處理,其中,該預處理包括以下至少之一:大小寫轉換、全半形轉換、特殊字元過濾、形音詞替換、無意義詞替換、關鍵字抽取、去除HTML標記。
  14. 一種重複資料處理系統,其特徵在於,包括:一個或多個根據申請專利範圍第9至13項中任一項所述的重複資料處理裝置、以及分發裝置,其中該分發裝置用於根據該一個或多個重複資料處理裝置的負載向該一個或多個重複資料處理裝置發送待比較資料。
TW100128694A 2011-06-17 2011-08-11 Repeated data processing methods, devices and systems TWI518530B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110164850.1A CN102831127B (zh) 2011-06-17 2011-06-17 重复数据处理方法、装置及系统

Publications (2)

Publication Number Publication Date
TW201301063A true TW201301063A (zh) 2013-01-01
TWI518530B TWI518530B (zh) 2016-01-21

Family

ID=47334270

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100128694A TWI518530B (zh) 2011-06-17 2011-08-11 Repeated data processing methods, devices and systems

Country Status (7)

Country Link
US (1) US20130013597A1 (zh)
EP (1) EP2721477A4 (zh)
JP (1) JP6051212B2 (zh)
CN (1) CN102831127B (zh)
HK (1) HK1173540A1 (zh)
TW (1) TWI518530B (zh)
WO (1) WO2012174268A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11388233B2 (en) 2019-04-30 2022-07-12 Clumio, Inc. Cloud-based data protection service

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140023227A1 (en) * 2012-07-17 2014-01-23 Cubic Corporation Broken mag ticket authenticator
CN104239301B (zh) * 2013-06-06 2018-02-13 阿里巴巴集团控股有限公司 一种数据比对方法和装置
CN104077338B (zh) * 2013-06-25 2016-02-17 腾讯科技(深圳)有限公司 一种数据处理的方法及装置
CN104714956A (zh) * 2013-12-13 2015-06-17 国家电网公司 一种异构记录集对比方法及装置
CN104361050A (zh) * 2014-10-29 2015-02-18 中国建设银行股份有限公司 一种数据转化比对方法及装置
CN104391894A (zh) * 2014-11-11 2015-03-04 广州科腾信息技术有限公司 一种重复数据的检查处理方法
CN105677645B (zh) * 2014-11-17 2018-12-21 阿里巴巴集团控股有限公司 一种数据表比对方法和装置
CN105095367B (zh) * 2015-06-26 2018-12-28 北京奇虎科技有限公司 一种客户端数据的采集方法和装置
EP3115906A1 (en) 2015-07-07 2017-01-11 Toedt, Dr. Selk & Coll. GmbH Finding doublets in a database
CN105183835B (zh) * 2015-08-31 2018-09-04 小米科技有限责任公司 社交软件中信息标记的方法及装置
CN105787083A (zh) * 2016-03-02 2016-07-20 深圳市元征科技股份有限公司 数据处理方法及装置
CN105787130B (zh) * 2016-03-30 2019-09-27 北京金山安全软件有限公司 图片清理方法、装置和移动终端
CN106209840A (zh) * 2016-07-12 2016-12-07 中国银联股份有限公司 一种网络包去重方法及装置
CN106250424B (zh) * 2016-07-22 2019-12-03 杭州朗和科技有限公司 一种日志上下文内容的搜索方法、装置及系统
CN107688978B (zh) * 2016-08-05 2021-05-25 北京京东尚科信息技术有限公司 用于检测重复订单信息的方法及装置
CN107784022B (zh) * 2016-08-31 2020-09-15 北京国双科技有限公司 检测法律文书是否重复的方法及装置
CN108073521B (zh) * 2016-11-11 2021-10-08 深圳市创梦天地科技有限公司 一种数据去重的方法和系统
CN108153793A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种原始数据处理方法
CN106503268B (zh) * 2016-12-07 2019-08-23 广东神马搜索科技有限公司 数据对比方法、装置和系统
CN108241615A (zh) * 2016-12-23 2018-07-03 中国电信股份有限公司 数据去重方法和装置
CN108280048B (zh) * 2017-01-05 2021-06-15 腾讯科技(深圳)有限公司 信息处理方法和装置
CN107084989B (zh) * 2017-03-27 2020-06-30 广州视源电子科技股份有限公司 一种aoi器件数据库的添加方法与系统
CN107025218B (zh) 2017-04-07 2021-03-02 腾讯科技(深圳)有限公司 一种文本去重方法和装置
CN108460098B (zh) * 2018-02-01 2023-04-07 北京百度网讯科技有限公司 信息推荐方法、装置和计算机设备
CN108921510A (zh) * 2018-06-27 2018-11-30 中国建设银行股份有限公司 银行业务远程自动审核方法及系统
CN109446190B (zh) * 2018-11-07 2022-11-01 湖北省标准化与质量研究院 一种标准元数据的数据处理方法
CN109885555B (zh) * 2019-01-07 2021-12-07 中国联合网络通信集团有限公司 一种用户信息管理方法及装置
CN109918518A (zh) * 2019-01-31 2019-06-21 平安科技(深圳)有限公司 图片查重方法、装置、计算机设备和存储介质
CN110012150B (zh) * 2019-02-20 2021-07-30 维沃移动通信有限公司 一种消息显示方法及终端设备
CN110555036A (zh) * 2019-08-21 2019-12-10 上海易点时空网络有限公司 基于异步处理的数据排重方法及装置
CN111158643A (zh) * 2019-11-29 2020-05-15 石化盈科信息技术有限责任公司 数据处理系统及方法
CN111651438A (zh) * 2020-04-28 2020-09-11 银江股份有限公司 基于MapDB的结构化数据去重方法、装置、设备及介质
CN111597178A (zh) * 2020-05-18 2020-08-28 山东浪潮通软信息科技有限公司 一种清洗重复数据的方法、系统、设备及介质
CN113259256B (zh) * 2021-07-15 2021-09-21 全时云商务服务股份有限公司 一种重复数据包过滤方法、系统及可读存储介质

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5915250A (en) * 1996-03-29 1999-06-22 Virage, Inc. Threshold-based comparison
US6493709B1 (en) * 1998-07-31 2002-12-10 The Regents Of The University Of California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
US6772196B1 (en) * 2000-07-27 2004-08-03 Propel Software Corp. Electronic mail filtering system and methods
US7660819B1 (en) * 2000-07-31 2010-02-09 Alion Science And Technology Corporation System for similar document detection
JP2003085946A (ja) * 2001-09-14 2003-03-20 Columbia Music Entertainment Inc データ記録装置およびデータ記録再生装置
JP2003122758A (ja) * 2001-10-11 2003-04-25 Canon Inc 画像検索方法及び装置
JP4065484B2 (ja) * 2001-11-06 2008-03-26 キヤノン株式会社 帳票検索システム
US20030101166A1 (en) * 2001-11-26 2003-05-29 Fujitsu Limited Information analyzing method and system
US20040107205A1 (en) * 2002-12-03 2004-06-03 Lockheed Martin Corporation Boolean rule-based system for clustering similar records
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
JP2006134041A (ja) * 2004-11-05 2006-05-25 Canon Inc データ管理装置
US7873782B2 (en) * 2004-11-05 2011-01-18 Data Robotics, Inc. Filesystem-aware block storage system, apparatus, and method
WO2006052242A1 (en) * 2004-11-08 2006-05-18 Seirad, Inc. Methods and systems for compressing and comparing genomic data
CA2545232A1 (en) * 2005-07-29 2007-01-29 Cognos Incorporated Method and system for creating a taxonomy from business-oriented metadata content
US20070073592A1 (en) * 2005-09-28 2007-03-29 Redcarpet, Inc. Method and system for network-based comparision shopping
JP2007156845A (ja) * 2005-12-05 2007-06-21 Toshiba Corp データ検索装置、データ検索方法、およびプログラム
JP5105894B2 (ja) * 2006-03-14 2012-12-26 キヤノン株式会社 文書検索システム、文書検索装置及びその方法とプログラム、記憶媒体
US7478113B1 (en) * 2006-04-13 2009-01-13 Symantec Operating Corporation Boundaries
WO2008041173A2 (en) * 2006-10-02 2008-04-10 Nokia Corporation Method system and devices for network sharing or searching of resources
WO2009086311A1 (en) * 2007-12-21 2009-07-09 Conrad Jack G Systems, methods, and software for entity relationship resolution
WO2009146038A1 (en) * 2008-03-31 2009-12-03 Sony Corporation Binding unit manifest file
US8838549B2 (en) * 2008-07-07 2014-09-16 Chandra Bodapati Detecting duplicate records
US8078646B2 (en) * 2008-08-08 2011-12-13 Oracle International Corporation Representing and manipulating RDF data in a relational database management system
JP5051061B2 (ja) * 2008-08-20 2012-10-17 富士通株式会社 情報検索装置
US8527522B2 (en) * 2008-09-05 2013-09-03 Ramp Holdings, Inc. Confidence links between name entities in disparate documents
JP2010191621A (ja) * 2009-02-17 2010-09-02 Fujitsu Ltd 電子カルテ管理システム、その方法、及びプログラム
EP2414940A4 (en) * 2009-03-30 2012-11-28 Hewlett Packard Development Co DEDUPLICATION OF DATA STORED IN A COPY VOLUME
JP2010257019A (ja) * 2009-04-22 2010-11-11 Fujitsu Ltd 文書管理装置、文書管理方法およびそのプログラム
US8073865B2 (en) * 2009-09-14 2011-12-06 Etsy, Inc. System and method for content extraction from unstructured sources
US8732473B2 (en) * 2010-06-01 2014-05-20 Microsoft Corporation Claim based content reputation service
US20110295722A1 (en) * 2010-06-09 2011-12-01 Reisman Richard R Methods, Apparatus, and Systems for Enabling Feedback-Dependent Transactions

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11388233B2 (en) 2019-04-30 2022-07-12 Clumio, Inc. Cloud-based data protection service
TWI798547B (zh) * 2019-04-30 2023-04-11 美商克魯密爾公司 從基於雲端的資料保護服務進行還原
US11888935B2 (en) 2019-04-30 2024-01-30 Clumio, Inc. Post-processing in a cloud-based data protection service

Also Published As

Publication number Publication date
HK1173540A1 (zh) 2013-05-16
WO2012174268A1 (en) 2012-12-20
EP2721477A4 (en) 2015-09-16
CN102831127A (zh) 2012-12-19
CN102831127B (zh) 2015-04-22
TWI518530B (zh) 2016-01-21
EP2721477A1 (en) 2014-04-23
JP6051212B2 (ja) 2016-12-27
JP2014517426A (ja) 2014-07-17
US20130013597A1 (en) 2013-01-10

Similar Documents

Publication Publication Date Title
TWI518530B (zh) Repeated data processing methods, devices and systems
CN108319654B (zh) 计算系统、冷热数据分离方法及装置、计算机可读存储介质
US9195738B2 (en) Tokenization platform
Roussev et al. Multi-resolution similarity hashing
US20080133565A1 (en) Device and method for constructing inverted indexes
US20120054197A1 (en) METHOD AND SYSTEM FOR STORING BINARY LARGE OBJECTS (BLObs) IN A DISTRIBUTED KEY-VALUE STORAGE SYSTEM
CN107729423B (zh) 一种大数据处理方法及装置
CN103678694A (zh) 视频资源的倒排索引文件建立方法及其系统
JP6598101B2 (ja) インデックス情報を生成するデータベースのアーカイビング方法及び装置、インデックス情報を含むアーカイビングされたデータベースの検索方法及び装置
CN114416670B (zh) 适用于网盘文档的索引创建方法、装置、网盘及存储介质
CN111045994A (zh) 一种基于kv数据库的文件分类检索方法及系统
CN112148359B (zh) 一种基于子块过滤的分布式代码克隆检测与搜索方法、系统及介质
CN111061719B (zh) 数据收集方法、装置、设备和存储介质
US11494093B2 (en) Method and apparatus for processing data of in-memory database
JP2014130498A (ja) ファセットを提示する装置及び方法
US11734282B1 (en) Methods and systems for performing a vectorized delete in a distributed database system
CN113792013B (zh) 基于邮件中附件内容的检索方法、计算设备及存储介质
JP7433335B2 (ja) 移動中のデータの処理技術
JP5121414B2 (ja) メールデータ検索装置、メールアーカイブ装置、メールデータ検索方法及びメールデータ検索プログラム
JP5906810B2 (ja) 全文検索装置、プログラム及び記録媒体
JP2002197099A (ja) データベースの処理方法
CN111444167A (zh) 一种基于数据摘要去重数据的方法、装置及存储介质
JP2004013764A (ja) 全文検索装置、プログラム、及び記録媒体
JP2004348574A (ja) 文書蓄積装置、文書蓄積方法およびそのプログラムを記録した記録媒体
JPS59133641A (ja) 情報検索装置