TW201301063A

TW201301063A - 重複資料處理方法、裝置及系統

Info

Publication number: TW201301063A
Application number: TW100128694A
Authority: TW
Inventors: Yi-Xin He; rui-hai Ye; Xie-Yao Wu; wen-po Zhang
Original assignee: Alibaba Group Holding Ltd
Priority date: 2011-06-17
Filing date: 2011-08-11
Publication date: 2013-01-01
Also published as: HK1173540A1; WO2012174268A1; EP2721477A4; CN102831127A; CN102831127B; TWI518530B; EP2721477A1; JP6051212B2; JP2014517426A; US20130013597A1

Abstract

本申請公開了一種重複資料處理方法、裝置及系統，該方法包括：將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同，其中，重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的；將處理之後的待比較資料與重複資料庫中的資料進行比較，確定待比較資料是否是重複資料。透過本申請提高了伺服器進行去重處理時的效率，節約了伺服器資源。

Description

重複資料處理方法、裝置及系統

本申請係關於網路技術領域，具體而言，關於一種重複資料處理方法、裝置及系統。

對於網站而言，資料重複是不可避免的，例如，在電子商務網站中會出現重複的商品資訊。在現有技術中通常透過三個步驟來對重複資料進行清理(為了描述方便，以下將需要判定是否重複的資訊稱為A，將需要從儲存系統獲取的和A進行比較的資訊稱為B)：

步驟S10，系統取數邏輯。

該步驟用於從資料儲存系統中取出需要比較重複的資訊資料集。對於大量資料來說，資料集的大小直接決定整個系統的運行效率。在該步驟中，通常採用線性排隊的方式，即，等待上一條資訊處理完畢後再繼續下一條資訊的處理。對於B的篩選通常透過以下的方式來實現：

方式一，透過資料庫或者其他資料源查詢的方式，逐個取資訊B和A進行比較，該方式沒有對B進行篩選；

方式二，透過預定條件只篩選出部分和A有明顯共同性的資訊B進行比較(例如，同一個發佈者發佈的資訊，或者和A屬於同一個行業的資訊B)來縮小查詢條件。

以下以清理重複商品資訊(其他重複資料也可以採用相同的處理方式)為例對方式二進行說明。圖1是根據現有技術的清理重複商品資訊的系統取資料的流程圖，如圖1所示，該流程包括如下步驟：步驟S102，讀取會員分佈資訊；步驟S104，逐個行業讀取資訊；步驟S106，按序取一條資訊；步驟S108，執行下述步驟S20判斷是否為重複資料，在不是重複資料的情況下，返回步驟S106，在是重複資料的情況執行步驟S110；步驟S110，進行步驟S30的去重處理。

步驟S20，判定A是否為重複資訊。

在該步驟中涉及到判斷資訊是否相似的演算法，而不同的演算法也會直接影響到系統處理方案的準確度和有效性。在現有技術中通常會採用以下方式：

方式一，對A和B所涉及到所有資料進行完全比對；

方式二，有選擇性的只選取A和B的關鍵資料進行完全比對；

方式三，進行相似度比較，根據A和B中的資料的相似程度來判斷A和B是否相同，例如，對某些說明部分文字進行相識度比較。

步驟S30，清理重複資訊。

現有技術中的上述處理方法對於資料量較少的情況比較適用，但是對於大量資料而言，上述方法處理效率就會變低，例如，現有技術的清理重複資訊的方法的演算法效率是O(n)，其中，n代表資料量，O(n)代表演算法執行的時間，O(n)的值與n值是成線性關係甚至成指數關係的，無論形成什麼樣的函數關係，有一點是可以確定的，即O(n)的值是隨著n值的增大而增加的。因此，當n值相當大的前提下，必然導致用於執行O(n)的伺服器負荷過大，無法及時對重複資料進行處理，導致資訊審核速度根本跟不上新資訊發佈的速度。

現有技術中，解決上述問題的方式是可以透過縮小資料集(即n值)的方式來降低伺服器的負荷的，例如，按資訊發佈者所在行業，然後按每個行業逐個取資料的方式來實現。但是，雖然在一定程度上縮小了整個資料集(即，n值)，但演算法的效率可以認為是O(n(n-1)/2)，當資訊發佈者有很多資訊(例如，海量資料)的時候，該方法的效率依然太低。從而，為了解決該問題，只能透過增大硬體投入的方式(有些情況僅僅依靠加大硬體投入也無法取得理想的效果)滿足去除重複資料要求，這種處理方式也存在問題：其一，無法滿足今後擴展的需求；其二，浪費了伺服器資源，整體效能太低。

本申請的主要目的在於提供一種重複資料處理方法、裝置及系統，以至少解決上述問題之一。

根據本申請的一個態樣，提供了一種重複資料處理方法，包括以下步驟：將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同，其中，該重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的；將處理之後的該待比較資料與該重複資料庫中的資料進行比較，確定該待比較資料是否是重複資料；在該待比較資料不是重複資料的情況下，將該待比較資料寫入該資料庫。

在處理之後的該待比較資料包括用於進行完全匹配的第一資訊和用於進行相似度匹配的第二資訊的情況下，確定該待比較資料是否為重複資料包括：在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致，並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下，確定該待比較資料為重複資料。

在處理之後的該待比較資料還包括一張或多張圖片的大小的情況下，確定該待比較資料是否為重複資料包括：在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致，並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下，根據該待比較資料中的一張或多張圖片的大小與該重複資料庫中的該資料的一張或多張圖片的大小的關係，確定該待比較資料為重複資料的方式，其中，該重複資料的方式包括：該待比較資料與該重複資料庫中的該資料完全相同、該待比較資料包含該重複資料庫中的該資料、或者該重複資料庫中的該資料包括該待比較資料。

該第一資訊至少包括：將資料中需要進行完全匹配的部分中的一個或多個形成一個組合並將該組合透過雜湊演算法或加密演算法所得到的值；和/或，該第二資訊至少包括：將資料中需要進行相似度匹配的部分透過壓縮演算法所得到的值。

形成該組合的一個或多個部分是預先配置的。

該第一資訊和該第二資訊在該重複資料庫中透過鍵-值對的方式保存。

在將該待比較資料的資料結構處理成與該重複資料庫中的資料的資料結構相同之前，還包括：對該待比較資料進行預處理，其中，該預處理包括以下至少之一：大小寫轉換、全半形轉換、特殊字元過濾、形音詞替換、無意義詞替換、關鍵字抽取、去除HTML標記。

在將該待比較資料的資料結構處理成與該重複資料庫中的資料的資料結構相同之前，還包括：接收該待比較資料，其中，該待比較資料是經過負載均衡處理之後發送過來的。

根據本申請的另一個態樣，還提供了一種重複資料處理裝置，包括：處理模組，用於將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同，其中，該重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的；比較模組，用於將處理之後的該待比較資料與該重複資料庫中的資料進行比較，確定該待比較資料是否為重複資料；寫入模組，用於在該待比較資料不是重複資料的情況下，將該待比較資料寫入該資料庫。

在處理之後的該待比較資料包括用於進行完全匹配的第一資訊和用於進行相似度匹配的第二資訊的情況下，該比較模組，用於在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致，並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下，確定該待比較資料為重複資料。

在處理之後的該待比較資料還包括一張或多張圖片大小的情況下，該比較模組，用於在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致，並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下，根據該待比較資料中的一張或多張圖片的大小與該重複資料庫中的該資料的一張或多張圖片的大小的關係，確定該待比較資料為重複資料的方式，其中，該重複資料的方式包括：該待比較資料與該重複資料庫中的該資料完全相同、該待比較資料包含該重複資料庫中的該資料、或者該重複資料庫中的該資料包括該待比較資料。

該裝置還包括：預處理模組，用於對該待比較資料進行預處理，其中，該預處理包括以下至少之一：大小寫轉換、全半形轉換、特殊字元過濾、形音詞替換、無意義詞替換、關鍵字抽取、去除HTML標記。

根據本申請的再一個態樣，還提供了一種重複資料處理系統，包括：一個或多個上述的重複資料處理裝置、以及分發裝置，其中該分發裝置用於根據該一個或多個重複資料處理裝置的負載向該一個或多個重複資料處理裝置發送待比較資料。

透過本申請，解決了現有技術中去重處理效率較低而為了提高效率只能增加伺服器所導致的問題，進而提高了伺服器進行去重處理時的效率，節約了伺服器資源。

下文中將參考附圖並結合實施例來詳細說明本申請。需要說明的是，在不衝突的情況下，本申請中的實施例及實施例中的特徵可以相互組合。

以下實施例中的重複資料處理方法可以應用在伺服器上，該伺服器可以專用於進行重複資料的處理，當然也可以應用於一組伺服器上。或者也可以作為伺服器中的一個模組與執行其他功能的伺服器公用。

以下實施例中用於進行重複資料比對的資料庫採用了記憶體資料庫(在以下實施例中稱為重複資料庫)的方式(以下實施例可以適用於基於鍵-值對的記憶體資料庫，但是並不限於此，在以下的實施例中會以示例的方式對基於鍵-值對的記憶體資料庫進行說明)。在現有技術中的重複資料的處理方式均是採用直接讀取資料庫進行逐條比較的方式來進行的(而這正是導致現有技術中處理方法效率較低的原因)，在以下實施例中正是由於採用了記憶體資料庫作為重複資料庫(或簡稱重複庫)，使得資料的處理效率相比於現有技術高，如果採用O(n)的評判方式的話，由於記憶體資料庫處理速度很快，因此，n的大小將對O(n)影響並不是很大。因此，以下實施例相比於現有技術改善了伺服器的內部性能，可以在佔用伺服器較少資源的情況下，完成較大資料的去重處理，即在相同的處理效率下，以下實施例使用的伺服器資源較少，在相同的伺服器資源的情況下，以下實施例的處理效率更高。並且，由於採用的是記憶體資料庫的處理方式，因此，擴展相對也比較容易。

圖2是根據本申請實施例的重複資料處理方法流程圖，如圖2所示，該方法包括如下步驟：

步驟S202，將待比較資料(即，需要進行比較的資料，也稱為待審核資訊，待對比資訊，待處理資料)的資料結構處理成與重複資料庫中的資料的資料結構相同，其中，重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的，在此處，重複資料庫中資料的資料結構即與預設的資料結構相同，其可以與資料庫中的資料結構相同，但是，這樣會導致重複資料庫資料量稍大。作為一個較佳的實施方式，重複資料庫中資料的資料結構可以與資料庫中資料的資料結構不同，例如，重複資料庫中的資料可以是資料庫中的資料透過預處理、部分壓縮後等的記憶體映射，這樣的處理相當於進行了很多抽取、濃縮等工作，一方面可以減少重複資料庫的資料量，另一方面可以為資料的比較提供更好的資料結構；

步驟S204，將處理之後的待比較資料與重複資料庫中的資料進行比較，確定待比較資料是否是重複資料；

步驟S206，在待比較資料不是重複資料的情況下，將待比較資料寫入資料庫。

透過上述步驟，不僅能夠透過記憶體映射的方式避免資料庫逐條查詢，還能夠在資訊入庫前進行去重處理，實現了從源頭上清理了重複資料。

作為一個較佳實施例方式，重複資料庫的資料結構是記憶體映射，並且，對應同一條資料、重複資料庫是資料庫資料預處理後(例如，可以只保留核心的、需要比對的部分)的一份拷貝，因此，在該較佳實施方式中，重複資料庫的大小要比原資料庫精簡的多。

對於步驟S204中的確定待比較資料是否為重複資料的比較方式可以採用現有的比較方式進行比較，例如，可以採用完全比對的方式。即使採用現有的比較方式，由於在上述步驟中使用了記憶體資料庫，也可以取得比現有技術更高的效率。

在本實施中提供了一種比現有技術更佳的比較方式，該方式結合了完全比對和相似度比對，兼顧了比較的準確性和效率。下面對該較佳的比較方式進行說明。

可以將待比較資料處理為第一資訊和第二資訊，其中，第一資訊用於進行完全匹配，第二資訊用於進行相似度匹配。這樣，可以首先比較第一資訊，在待比較資料的第一資訊與重複資料庫中的資料的第一資訊完全一致的情況下，再比較第二資訊，如果待比較資料的第二資訊與重複資料庫中的該資料的第二資訊相似度超過閾值，則可以確定待比較資料為重複資料。對於第一資訊，可以是比較重要的資訊，例如，標題、核心關鍵字、發佈者ID等等，對於這些比較重要的資訊可以只比對其中的一項，也可以對這些關鍵資訊的組合進行比對，這樣做可以靈活的把握需要精確匹配的幅度。當然，比較的資訊越多準確率就越高。對於第二資訊，可以是資料量相對較大的資料，例如，商品的說明書、產品的介紹等。由於資料量較大的資訊一般不會完全相同，但是往往又是相似的，作為一個較佳的實施方式，是對第二資訊進行相似度比較。

對於完全匹配的比較可以採用對於需要比較的部分進行逐一比較的方式，例如，如果需要比較標題和發佈者，那麼可以首先比較標題是否相同，在標題相同的情況下再比較發佈者是否相同，這樣的比較方式實現簡單，但是比較效率較低。在本實施例中提供了一種更優的處理方式，下面對該較佳實施方式進行說明。

對於需要完全匹配的部分，首先，將這些的部分中的一個或多個形成一個組合，然後，將該組合透過雜湊演算法或加密演算法進行計算得到一個值，然後使用該值進行比較。透過這樣的比較方式，在需要比較多個部分的情況下可以透過一次比較完成。例如，可以採用訊息摘要演算法5(Message Digest Algorithm5，簡稱為MD5)(還可以採用其他的演算法，例如，安全雜湊演算法SHA)對需要進行完全匹配的部分中的一個或多個形成的組合進行計算，得到一個128位元的值，當然，重複資料庫中保存的可以是這些需要完全匹配的部分，也可以是這些部分中的一個或多個的組合，或者是這些組合經過雜湊演算法或加密演算法所得到的值。

例如，需要完全匹配的部分(或者欄位)為標題和發佈者ID，標題+發佈者ID就可以得到一個字串(如“三防手機mobie3”，其中三防手機為商品的名稱，mobie3為發佈者ID)，然後對該字串進行MD5運算得到一個128位元的值，使用該值進行比較。

由於在某些大型的資料庫中，涉及到的關鍵部分(或者欄位)比較多，因此，為了靈活處理，可以將需要進行完全匹配的部分配置在配置檔中，每次透過讀取該配置檔來得到需要比較那些關鍵部分(或者欄位)，即形成組合的一個或多個部分是可以預先配置的。

對於相似度匹配，由於需要進行相似度匹配的部分資料量比較大，可以採用抽取關鍵字的比較方式，例如對於不同的行數可以抽取不同位置的關鍵字，如果這些關鍵字均相同(相似度為100%)或者相似度超過90%，則可以認為是重複資料。然而這種處理方法稍顯複雜。在本實施例中還可以採用另外一種比較好的處理方式，即將資料中需要進行相似度匹配的部分透過壓縮演算法所得到的值進行比較，例如，將待比較資料的詳細說明進行壓縮之後得到一個值，將重複資料庫中的詳細說明進行壓縮之後得到一個值(例如，壓縮之後的大小)，然後對這兩個值進行比較，在這兩個值的相似度超過一定閾值時，表明是重複資料(例如，A為待比較資料的詳細說明部分壓縮之後的大小，B為重複資料庫中的詳細說明部分壓縮之後的大小，那麼該閾值可以是(A-B)/A，如果該比值小於1%，可以認定為重複資料)。

需要說明的是，上述較佳的完全匹配方式和相似度匹配的處理方式，可以擇一應用，也可以結合起來應用。只要採用了這兩種較佳方式的一種就可以在兼顧準確度的同時提高比較的效率，如果兩種結合起來使用將達到更好的效果。

上述對於相似度匹配和完全匹配較佳的可以用於對字元的處理，當然也可以應用在對圖片的處理中(例如，將圖片轉換成二進位資料之後進行比較)。在本實施例中提供了另外一種較佳的處理方式，即在待比較資料的第一資訊與重複資料庫中的資料的第一資訊完全一致，並且待比較資料的第二資訊與重複資料庫中的該資料的第二資訊相似度超過閾值的情況下，根據待比較資料中的一張或多張圖片的大小與重複資料庫中的該資料的一張或多張圖片的大小的關係，確定待比較資料是否為重複資料的方式，其中，確定是重複資料的方式包括：待比較資料與重複資料庫中的該資料完全相同、待比較資料包含重複資料庫中的該資料、或者重複資料庫中的該資料包括待比較資料。透過對圖片的比較，可以使重複資料的判斷更加準確。

較佳地，為了使完全匹配和相似度匹配得到比較結果更加準確，可以在將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同之前，對待比較資料進行預處理，例如，大小寫轉換、全半形轉換、特殊字元過濾、形音詞替換、無意義詞替換、關鍵字抽取、去除HTML標記，其中，可以進行上述預處理中的一個或多個，進行的預處理越多，那麼得到的資料就越便於進行重複資料判斷。

對於資料量較大的情況，可以採用多個伺服器來進行去重處理，例如，該比較資料可以是透過具有負載均衡功能的非同步消息系統發送過來的。在採用多個伺服器的情況下，可以根據伺服器的負載情況，或者根據待比較資料的標識選擇在哪個伺服器進行處理(通常在待比較的資料會有一個數位的ID，如何沒有數字的ID可以使用流水號的方式對待比較的資料進行標號，例如，該待比較資料的ID或流水號為3334，如果有3台伺服器，可以將3334除以3得到的餘數為1，使用1號伺服器處理該待比較資料)。在存在多個伺服器的情況下，可以採用基於記憶體資料庫的分散式資料庫架構。記憶體資料庫的分散式架構在現有技術中有不同的實現方式。而在本實施例中可以透過使用記憶體資料庫和分散式資料庫代理的整合來實現，例如，H2是一個高性能的記憶體資料庫，Amoeba是分散式資料庫代理，在現有技術中，Amoeba已經可以和Mysql進行整合，而對於Amoeba而言，Mysql節點和H2節點作為一個儲存是一樣的，因此，可以將現有技術中的Amoeba與Mysql的整合移植到Amoeba與H2的整合中，透過Amoeba和H2的整合可以實現基於記憶體資料庫的分散式資料庫架構。

在本實施例中還提供一種重複資料處理裝置，該資料處理裝置用於實現上述實施例中提及的實施方式，已經進行過說明的不再贅述，如以下所使用的，術語“模組”可以實現預定功能的軟體和/或硬體的組合。儘管以下實施例所描述的系統和方法較佳地以軟體來實現，但是硬體，或者軟體和硬體的組合的實現也是可能並被構想的，下面結合圖3對該裝置中涉及到的模組進行說明。

圖3是根據本申請實施例的重複資料處理裝置的結構示意圖，如圖3所示，該裝置包括：處理模組300，比較模組302和寫入模組304。其中，處理模組300，用於將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同，其中，重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的；比較模組302連接至處理模組300，該模組用於將處理之後的待比較資料與重複資料庫中的資料進行比較，確定待比較資料是否為重複資料；寫入模組304連接至比較模組302，該模組用於在待比較資料不是重複資料的情況下，將待比較資料寫入資料庫。

較佳地，在處理之後的待比較資料包括用於進行完全匹配的第一資訊和用於進行相似度匹配的第二資訊的情況下，比較模組302，用於在待比較資料的第一資訊與重複資料庫中的資料的第一資訊完全一致，並且待比較資料的第二資訊與重複資料庫中的該資料的第二資訊相似度超過閾值的情況下，確定待比較資料為重複資料。

較佳地，在處理之後的待比較資料還包括一張或多張圖片大小的情況下，比較模組302，用於在待比較資料的第一資訊與重複資料庫中的資料的第一資訊完全一致，並且待比較資料的第二資訊與重複資料庫中的該資料的第二資訊相似度超過閾值的情況下，根據待比較資料中的一張或多張圖片的大小與重複資料庫中的該資料的一張或多張圖片的大小的關係，確定待比較資料為重複資料的方式，其中，確定其為重複資料的方式包括：待比較資料與重複資料庫中的該資料完全相同、待比較資料包含重複資料庫中的該資料、或者重複資料庫中的該資料包括待比較資料，但不限於此。

圖4是根據本申請實施例較佳的重複資料處理裝置的結構示意圖，如圖4所示，該較佳的重複資料處理裝置包括圖3所示的處理模組300，比較模組302，寫入模組304，還包括預處理模組306，其中，預處理模組306連接至處理模組300，該模組用於對待比較資料進行預處理，其中，預處理包括以下至少之一：大小寫轉換、全半形轉換、特殊字元過濾、形音詞替換、無意義詞替換、關鍵字抽取、去除HTML標記。

在本實施例中，還提供了一種重複資料處理系統，該系統包括一個或多個上述的重複資料處理裝置之外，還包括分發裝置，該分發裝置用於根據一個或多個重複資料處理裝置的負載向一個或多個重複資料處理裝置發送待比較資料。

在以上實施例及較佳實施方式中，透過記憶體映射的方式(即使是海量資料也只需要一次記憶體映射)快速定位、對商品資訊的預處理，以及精確匹配和相似度匹配相結合的比較方式，從源頭上的永久清理重複資料，實現了資訊入庫前的去重處理，提高效率，排除不必要的干擾，提高匹配的準確度。需要說明的是，這些技術效果並不是上述所有的實施方式所具有的，有些技術效果是某些較佳實施方式才能取得的。

下面結合大型的電子商務網站中的商品資訊的去重處理對本申請的一個較佳的具體實施進行說明。需要說明的是，以下實施例是以商品資訊為例進行的說明，但是並不限於此，對於其他資訊的去重處理，也可以採用以下實施例中的實施方式。

在本較佳實施例中，提供了一種快速檢測清理重複資訊系統，該系統是後臺審核系統的一個子系統，其中，被比對資訊(即待比較資訊)會透過資訊佇列發送到本系統中處理。圖5是根據本申請較佳實施例的快速檢測清理重複資訊子系統的結構示意圖，如圖5所示，該清理重複子系統包括：去重資訊監聽器、去重分發元件(實現上述分發裝置的功能)、一個或多個去重監聽器(也可以理解為執行去重功能的伺服器)和資料庫，下面結合圖5對商品資訊的重複資訊的清理過程進行說明。需要說明的是，在實施時，去重監聽器可以是一個或多個專用於處理去重邏輯的伺服器，當然，如果該去重監聽器自身的記憶體足夠大，也可以兼做記憶體資料庫。

後臺資訊審核監聽器執行所有與資訊審核相關的其他處理邏輯，然後，待審核資訊透過資訊佇列流入去重資訊監聽器，然後，去重分發元件會根據發佈者的ID(例如，可以根據ID的首字母來確定將該資訊發送到哪個去重監聽器中)和/或每台伺服器的負載將待審核資訊分發到不同的消息佇列中(在實施時，可以較佳的透過負載均衡的方式來保證每台伺服器處理量均分)，每個資訊佇列由一個去重監聽器來處理。其中，去重資訊監聽器、去重分發組件和去重監聽器執行清理重複的邏輯，該清理重複邏輯包括：預處理、判重和去重操作，並根據操作結果決定是否更新資料庫。重複資訊被清理後，較佳地，可以記錄相關日誌，這樣可以透過一個專門的日誌查詢介面查詢被清理的資訊。

作為一個較佳的實施例，上述系統可以是一個資訊非同步資訊系統，該系統基於非同步、非阻塞的資訊傳遞機制，能夠與其他子系統實現鬆耦合，該鬆耦合可以實現可插拔的方式，這表示上述的去重系統可以作為子系統方便的對接到其他系統中。更佳地，上述的非同步、非阻塞的資訊傳遞機制可以提高吞吐量和處理速度。再輔助以負載均衡，可以適合大吞吐量操作。

下面對本較佳實施例中的商品資訊的預處理過程進行說明，該預處理過程是在商品資訊比對之前進行的，在本較佳實施例中，以針對資訊的文本部分的預處理過程為例進行說明。可以透過以下幾個模組的至少之一來實現預處理過程，當然，如果採用了下面的所有模組會取得更好的效果：

特殊字元過濾模組，用於過濾指定字元表中的特殊字元(例如，換行符、I、←↑、羅馬字元等)。

形音詞替換模組，用於根據字表對形，音，意相似的字詞進行轉換(例如，“像”和“相”、“千克”和“kg”等)。

簡單無意義詞替換模組，用於對簡單無意義詞進行替換(例如，的、得、(圖)等)。

核心關鍵字抽取模組，用於根據字元表將指定字元(或稱為核心關鍵字)從文本中快速分離出來。

需要說明的是，上述模組的處理方式可以採用基於字典的方式，即，根據各自的處理邏輯，維護處理規則對應的字典檔，系統啟動時將對應的字典檔載入在記憶體中。

下面結合附圖以資訊的標題、詳細說明和屬性參數為例，對資訊的預處理過程進行說明。

圖6是根據本申請較佳實施的對標題預處理方法的流程圖，如圖6所示，該處理過程包括如下步驟：

步驟S602，將處理前的標題的全形轉換為半形，大寫轉換為小寫；

步驟S604，對標題中簡單無意義詞進行替換；

步驟S606，對特殊字元進行過濾；

步驟S608，對標題中的形音詞進行替換。

圖7是根據本申請較佳實施的對詳細說明預處理方法的流程圖，如7所示，該處理過程包括如下步驟：

步驟S702，除去常見的HTML標記(保留圖片標)；

步驟S704，轉換全形為半形，大寫為小寫；

步驟S706，特殊字元過濾；

步驟S708，抽取核心關鍵字作為精確匹配用，剩下的部分做相似度匹配用。

圖8是根據本申請較佳實施的對產品屬性參數的預處理方法的流程圖，如8所示，該處理過程包括：

步驟S802，轉換全形為半形，大寫為小寫；

步驟S804，特殊字元過濾；

步驟S806，替換形音詞。

透過對待比較資訊的關鍵部分(標題，詳細說明，屬性參數，圖片等)做一系列的預處理，使得商品資訊可以排除很多不必要的干擾，從而大大提高匹配精確度。

在本較佳實施例中，提供了一個基於分散式快取的資訊重複比對庫，透過採用記憶體映射的方式來代替資料庫的直接迴圈查詢比對。圖9是根據本申請較佳實施例的基於分散式快取的資訊重複比對庫及其輸入輸出的示意圖，下面結合圖9對利用該資訊重複比對庫對海量商品信息的處理過程進行說明，圖9示出的邏輯結構Map結構(即，在記憶體中維護的一個鍵-值對)，其結構為：Key=MD5(資訊發佈者ID+核心關鍵字串+專業化屬性+標題)，其中的資訊發佈者ID、核心關鍵字串、專業化屬性和標題是示例性說明，也可以對其他的關鍵字段或者關鍵字段的組合進行MD5的運算。

Value=list of<資訊ID,圖片大小列表，經過預處理的詳細說明>，其中的資訊ID、圖片大小列表、經過預處理的詳細說明也是示例性說明，並不限於此。

其中，Key是一串把一條商品資訊所有需要精確匹配的部分合併生成的MD5資訊摘要，由於所用到的關鍵詞段在之前的預處理過程中進行了預處理，使得該結構可以簡單、快速地實現精確匹配。同時MD5串本身大大減少了記憶體佔用。

當Key被匹配到之後，再透過相似度演算法對Value部分進行相似度匹配，如果相似度超過閾值，則被認為是重複資訊。

在實際使用過程中對應哪些部分需要精確匹配是根據實際情況而定的，例如，某些情況下只要資訊的標題不一樣就認為是重複資訊；而在另外情況下標題相同的情況下還需要發佈者ID進行完全比配才可以判定該資訊是否為重複資訊。因此，在實施時，可以留有預先自定義需要精確匹配的部分的介面，例如，可以用專門的配置檔來記錄需要進行完全匹配的部分，這樣就實現了靈活地指定不同的需要進行完全匹配的組合。

更佳地，重複庫本身也可以透過最近最少使用演算法(Least Recently Used，簡稱為LRU)控制容量上限，例如，對於重複庫中的一條資訊B已經存放了一個月沒有被匹配到時，那麼就可以將該資訊從記憶體資料庫中刪除，這樣可以有效控制記憶體資料庫的大小，節約記憶體。

在本較佳實施例中，基於分散式的快取系統，透過生成MD5，以及精確匹配和相似度匹配相結合的方式。克服了單台伺服器訪問瓶頸，以及容量瓶頸。從而實現了精確快速匹配，並且實現了自身線性擴展，兼顧效率和準確性，同時，精確匹配部分可以透過規則自定義，實現了系統匹配的最大靈活性和比對效率。更佳地，為了提高吞吐量，還可以採用上述已經進行過說明的非同步資訊處理機制。

圖10是根據本申請較佳實施例的重複判斷的流程圖，下面結合圖10該流程進行說明。為了進行更清楚的說明，進行如下約定：

(1)被比對資訊B進入系統，預處理後與重複庫中的資訊A比對。

(2)【M,N】表示處理結果，M為資料庫中存在哪些資訊，N為重複庫中存在哪些資訊。例如：【A,A】表示處理後A仍存在資料庫和重複庫中，此時B已被清除，既不存在於資料庫中，也不存在於重複庫中。

(3)~A表示更新資訊A的審核通過時間為系統當前時間。

(4)A.MD5表示A(例如，發佈者ID+核心關鍵字串+專業化屬性+標題)的MD5值。

(5)A.Pic1表示A資訊的第一張圖片的大小，A.PicSet表示A資訊除了第一張圖片的所有其他圖片大小的集合。

(6)Similar(A,B)表示A與B是否相似，其較佳的一個判定方法為：zip(A+B)/zip(A)+zip(A+B)/zip(B)<2.1，其中，zip(A)表示對A的詳細說明做zip壓縮得到的大小，當然，zip僅僅是壓縮演算法的一個示例性說明，並不限於此，也可以採用其他的壓縮演算法。

(7)A與B相交表示A和B不是重複相似資訊，A==B表示A和B重複相似資訊，A包含B表示A包含B的所有內容，B包含A表示B包含A的所有內容；

(8)NEW/MOD表示資訊的狀態：待審核的新資訊/修改後待審核的資訊；APP/PUB表示資訊的狀態：後臺審核通過的資訊/已經對外發佈上網的資訊；TBD/DEL/EXP表示資訊的狀態：後臺審核未通過的資訊/被後臺審核系統刪除的資訊/已過期的線上資訊。

如圖10所示，該流程包括如下步驟：

步驟S1002，判斷A.MD5是否等於B.MD5，如果是，則A與B相交，否則，執行步驟S1004；

步驟S1004，判斷A與B是否相似，例如，zip(A+B)/zip(A)+zip(A+B)/zip(B)是否小於一個閾值(例如，2.1)，如果不相似，則A與B相交，否則，執行步驟S1006；

步驟S1006，判斷A的第一張圖片的大小是否等於B的第一張圖片的大小，如果不相等，即，A.Pic1!=B.Pic1，則A與B相交，否則，執行步驟S1008；

步驟S1008，判斷A的除了第一張圖片的所有其他圖片的大小的集合與B的除了第一張圖片的所有其他圖片的大小的集合是否相等，如果相等，即A.PicSet.equals(B.PicSet)，則A==B；如果A的除了第一張圖片的所有其他圖片的大小的集合包含B的除了第一張圖片的所有其他圖片的大小的集合，即A.PicSet.contains(B.PicSet)，則A包含B；如果B的除了第一張圖片的所有其他圖片的大小的集合包含A的除了第一張圖片的所有其他圖片的大小的集合，即B.PicSet.contains(A.PicSet)，則B包含A。

在該流程中，也可以加入控制重複庫大小的步驟，例如，判斷B的時間戳(timestamp)離當前時間是否超出指定值，如果是，則按B的資訊ID查找重複庫，並將B從重複庫中刪除。該步驟的執行時間不受到限制，例如，可以在伺服器的負載低於閾值時進行。

上述重複判斷可以用代碼表示如下：

a) IF　A.MD5 !=B.MD5=>A與B相交

b) ELSEIF　!Similar(A,B)=>A與B相交

c) ELSEIF　A.Picl !=B.Picl=>A與B相交

d) ELSEIF　A.PicSet.equals(B.PicSet)=>A==B

e) ELSEIF　A.PicSet.contains(B.PicSet)=>A包含B

f) ELSEIF　B.PicSet.contains(A.PicSet)=>B包含A

g) ELSE　A與B相交

圖11是根據本申請較佳實施例的A包含B時的重複處理方法的流程圖，需要說明的是，該流程中的相關約定與圖10相同。下面結合圖11對A包含B時的重複處理方法進行說明：

步驟S1102，判斷A是否為NEW/MOD，如果是，則【A,A】(表示在資料庫和重複庫中均保存A)，否則，執行步驟S1104；

步驟S1104，判斷A是否為APP/PUB，如果是，則【~A,A】(表示在資料庫中更新資訊A的審核通過時間為系統當前時間，並且在重複庫中保存A)，否則，執行步驟S1106；

步驟S1106，判斷A是否為TBD/DEL/EXP，如果是，則【A~B,B】(表示在資料庫中保存A並且在資料庫中更新資訊B的審核通過時間為系統當前時間，在重複庫中保存B)。

需要說明的是，上述的步驟不一定按照步驟S1102至步驟S1106的順序執行，按照其他的順序執行也可以取得同樣的效果，上述的步驟S1102至步驟S1106僅僅是示例性說明。

圖12是根據本申請較佳實施例的A==B時的重複處理方法的流程圖，需要說明的是，該流程為圖10所示的後續流程，相關的約定與圖10相同。下面結合圖12對A==B時的重複處理方法進行說明：

步驟S1202，判斷A是否為NEW/MOD，如果是，則【B,B】，否則，執行步驟S1204；

步驟S1204，判斷A是否為APP/PUB，如果是，則【~A,A】，否則，執行步驟S1206；

步驟S1206，判斷A是否為TBD/DEL/EXP，如果是，則【AB,B】(表示在資料庫中保存A和B，而在重複庫中保存B)。

需要說明的是，上述的步驟不一定按照步驟S1202至步驟S1206的順序執行，按照其他的順序執行也可以取得同樣的效果，上述的步驟S1202至步驟S1206僅僅是示例性說明。

除圖10和圖11所示出的A包含B和A==B的情況之外，可以認為A和B相交，此時【AB，AB】(表示A和B均在資料庫和重複庫中保存)。

上述重複處理的流程可以用代碼表示如下：

a)IF　A包含B

i. IF　A為NEW/MOD=>【A,A】

ii. ELSEIF　A為APP/PUB=>【~A,A】

iii.ELSE　A為TBD/DEL/EXP=>【A~B,B】

b)ELSEIF　A==B

i. IF　A為NEW/MOD=>【B,B】

ii. ELSE IF　A為APP/PUB=>【~A,A】

iii.ELSE　A為TBD/DEL/EXP=>【AB,B】

c)ELSE　A與B相交=>【AB,AB】

在另外一個實施例中，還提供了一種重複資料處理軟體，該軟體用於執行上述實施例及較佳實施例中描述的技術方案。

在另外一個實施例中，還提供了一種儲存媒體，該儲存媒體中儲存有上述重複資料處理軟體，該儲存媒體包括但不限於：光碟、軟碟、硬碟、可讀寫記憶體等。

顯然，本領域的技術人員應該明白，上述的本申請的各模組或各步驟可以用通用的計算裝置來實現，它們可以集中在單個的計算裝置上，或者分佈在多個計算裝置所組成的網路上，可選地，它們可以用計算裝置可執行的程式碼來實現，從而可以將它們儲存在儲存裝置中由計算裝置來執行，或者將它們分別製作成各個積體電路模組，或者將它們中的多個模組或步驟製作成單個積體電路模組來實現。這樣，本申請不限制於任何特定的硬體和軟體結合。

以上所述僅為本申請的較佳實施例而已，並不用於限制本申請，對於本領域的技術人員來說，本申請可以有各種更改和變化。凡在本申請的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本申請的保護範圍之內。

300．．．處理模組

302．．．比較模組

304．．．寫入模組

306．．．預處理模組

此處所說明的附圖用來提供對本申請的進一步理解，構成本申請的一部分，本申請的示意性實施例及其說明用於解釋本申請，並不構成對本申請的不當限定。在附圖中：

圖1是根據現有技術的清理重複商品資訊的流程圖；

圖2是根據本申請實施例的重複資料處理方法流程圖；

圖3是根據本申請實施例的重複資料處理裝置的結構示意圖；

圖4是根據本申請實施例較佳的重複資料處理裝置的結構示意圖；

圖5是根據本申請較佳實施例的快速檢測清理重複資訊子系統的結構示意圖；

圖6是根據本申請較佳實施例的對標題預處理方法的流程圖；

圖7是根據本申請較佳實施例的對詳細說明預處理方法的流程圖；

圖8是根據本申請較佳實施例的對產品屬性參數的預處理方法的流程圖；

圖9是根據本申請較佳實施例的基於分散式快取的資訊重複比對庫及其輸入輸出的示意圖；

圖10是根據本申請較佳實施例的重複判斷的流程圖；

圖11是根據本申請較佳實施例的A包含B時的重複處理方法的流程圖；以及

圖12是根據本申請較佳實施例的A==B時的重複處理方法的流程圖。

Claims

一種重複資料處理方法，其特徵在於包括以下步驟：將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同，其中，該重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的；將處理之後的該待比較資料與該重複資料庫中的資料進行比較，確定該待比較資料是否為重複資料；在該待比較資料不是重複資料的情況下，將該待比較資料寫入該資料庫。
根據申請專利範圍第1項所述的方法，其中，在處理之後的該待比較資料包括用於進行完全匹配的第一資訊和用於進行相似度匹配的第二資訊的情況下，確定該待比較資料是否為重複資料包括：在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致，並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下，確定該待比較資料為重複資料。
根據申請專利範圍第2項所述的方法，其中，在處理之後的該待比較資料還包括一張或多張圖片的大小的情況下，確定該待比較資料是否為重複資料包括：在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致，並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下，根據該待比較資料中的一張或多張圖片的大小與該重複資料庫中的該資料的一張或多張圖片的大小的關係，確定該待比較資料為重複資料的方式，其中，該重複資料的方式包括：該待比較資料與該重複資料庫中的該資料完全相同、該待比較資料包含該重複資料庫中的該資料、或者該重複資料庫中的該資料包括該待比較資料。
根據申請專利範圍第2項所述的方法，其中，該第一資訊至少包括：將資料中需要進行完全匹配的部分中的一個或多個形成一個組合並將該組合透過雜湊演算法或加密演算法所得到的值；和/或，該第二資訊至少包括：將資料中需要進行相似度匹配的部分透過壓縮演算法所得到的值。
根據申請專利範圍第4項所述的方法，其中，形成該組合的一個或多個部分是預先配置的。
根據申請專利範圍第2至5項中任一項所述的方法，其中，該第一資訊和該第二資訊在該重複資料庫中透過鍵-值對的方式保存。
根據申請專利範圍第1至5項中任一項所述的方法，其中，在將該待比較資料的資料結構處理成與該重複資料庫中的資料的資料結構相同之前，還包括：對該待比較資料進行預處理，其中，該預處理包括以下至少之一：大小寫轉換、全半形轉換、特殊字元過濾、形音詞替換、無意義詞替換、關鍵字抽取、去除HTML標記。
根據申請專利範圍第1至5項中任一項所述的方法，其中，在將該待比較資料的資料結構處理成與該重複資料庫中的資料的資料結構相同之前，還包括：接收該待比較資料，其中，該待比較資料是經過負載均衡處理之後發送過來的。
一種重複資料處理裝置，其特徵在於，包括：處理模組，用於將待比較資料的資料結構處理成與重複資料庫中的資料的資料結構相同，其中，該重複資料庫是將資料庫中的資料按照預設的資料結構進行處理後透過記憶體映射形成的；比較模組，用於將處理之後的該待比較資料與該重複資料庫中的資料進行比較，確定該待比較資料是否為重複資料；寫入模組，用於在該待比較資料不是重複資料的情況下，將該待比較資料寫入該資料庫。
根據申請專利範圍第9項所述的裝置，其中，在處理之後的該待比較資料包括用於進行完全匹配的第一資訊和用於進行相似度匹配的第二資訊的情況下，該比較模組，用於在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致，並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下，確定該待比較資料為重複資料。
根據申請專利範圍第10項所述的裝置，其特徵在於，在處理之後的該待比較資料還包括一張或多張圖片大小的情況下，該比較模組，用於在該待比較資料的第一資訊與該重複資料庫中的資料的第一資訊完全一致，並且該待比較資料的第二資訊與該重複資料庫中的該資料的第二資訊相似度超過閾值的情況下，根據該待比較資料中的一張或多張圖片的大小與該重複資料庫中的該資料的一張或多張圖片的大小的關係，確定該待比較資料為重複資料的方式，其中，該重複資料的方式包括：該待比較資料與該重複資料庫中的該資料完全相同、該待比較資料包含該重複資料庫中的該資料、或者該重複資料庫中的該資料包括該待比較資料。
根據申請專利範圍第10項所述的裝置，其中，該第一資訊至少包括：將資料中需要進行完全匹配的部分中的一個或多個形成一個組合並將該組合透過雜湊演算法或加密演算法所得到的值；和/或，該第二資訊至少包括：將資料中需要進行相似度匹配的部分透過壓縮演算法所得到的值。
根據申請專利範圍第9至12項中任一項所述的裝置，其中，還包括：預處理模組，用於對該待比較資料進行預處理，其中，該預處理包括以下至少之一：大小寫轉換、全半形轉換、特殊字元過濾、形音詞替換、無意義詞替換、關鍵字抽取、去除HTML標記。
一種重複資料處理系統，其特徵在於，包括：一個或多個根據申請專利範圍第9至13項中任一項所述的重複資料處理裝置、以及分發裝置，其中該分發裝置用於根據該一個或多個重複資料處理裝置的負載向該一個或多個重複資料處理裝置發送待比較資料。