TWI221993B - System and method for searching for duplicate data - Google Patents

System and method for searching for duplicate data Download PDF

Info

Publication number
TWI221993B
TWI221993B TW091137303A TW91137303A TWI221993B TW I221993 B TWI221993 B TW I221993B TW 091137303 A TW091137303 A TW 091137303A TW 91137303 A TW91137303 A TW 91137303A TW I221993 B TWI221993 B TW I221993B
Authority
TW
Taiwan
Prior art keywords
data segment
identifier
data
segment
patent application
Prior art date
Application number
TW091137303A
Other languages
English (en)
Other versions
TW200302421A (en
Inventor
Mark Alan Schultz
Shu Lin
Michael Gene Kelly
Original Assignee
Thomson Licensing Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing Sa filed Critical Thomson Licensing Sa
Publication of TW200302421A publication Critical patent/TW200302421A/zh
Application granted granted Critical
Publication of TWI221993B publication Critical patent/TWI221993B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users
    • Y10S707/99953Recoverability

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Description

1221993 ⑴ 玖、發明說明 (發明說明應敘明:發明所屬之技術領域、先前技術、内容、實施方式及圖式簡單說明) 發明景背 1.技術領域 一般而言本發明的配置係關於該些記錄系統,尤其關於 將數位編碼信號記錄在磁碟媒體上的多媒體記錄系統,% 如硬式磁碟機與可記錄的光碟。 2 ·先前技藝 目前能夠將許多形式的資料記錄在許多不同類型的儲存 媒體上。例如,許多消費者將電視節目或音樂記綠在—光 碟媒體或一硬式磁碟驅動器(HDD)。隨著光碟媒體與HDD技 術的進步,光碟媒體與HDD的儲存能力已顯著地增加。事 實上,有些HDD能儲存超過50千兆字元的資料。因此,消費 者能將大量的節目或歌曲記錄在該類儲存媒體上。 當將資料記錄在一可記錄的儲存媒體上,該可記綠的儲 存媒體裝置通常允許該使用者輸入一用以識別該記綠作業 的標題。當該使用者想要查找特定的一段記錄資料時,該 等標題可用於判斷該使用者先前是否已記錄該資料。然 而’值得注意的是,該儲存媒體可能包括數以百計,甚至 =以千計的標題,所以該搜尋處理可能是費力、無效率且 合易出錯的。如果該儲存媒體是一大的HDD,或者如果某 二資料段的標題是特定的預設標題,則上述問題是非常的 嚴重。 凡=際上假設藉由搜尋該標題以查找一儲存媒體上的資料 段是相當, 、 9备务’但不同的資料段可能有相同的特定標題 0 例如,J*n WL 趾 ^ 禾將一首歌記錄在一儲存媒體上,並且根據該 -6- (2)1221993 發明說明續頁 首歌的名字提供一择蕻,鈷你π、λ 榇遞稍後可記錄名字與該第一首歌完 全相同的第二首激。μ^丄, ° 上I a發生混淆,例如,如果兩位藝 人記錄不同版本的同-首歌。當記綠該第二首歌時,該使 用者可松一先則圮錄的該等歌曲的標題,並且可能誤認該 第二首歌已經被記錄。因此, 資料的系統與方法,但不會增 當搜尋與考慮刪除複製資料時 需要存在一種用以搜尋複製 力口系統成本或複雜度,並且 ’可進一步降低可能的錯誤。
發明内容 +货明關於一種用以游羞%制 不里用以復+複製資料的方法。該方法包括 該等步驟:使用一唯一墦別货 隹硪別付函數,由一第一資料段的至 少一部分產生至少一砷别饵· ^ 减別付,使用一唯一識別符函數,由 一第二資料段的至少一 I施 J 對應邵分產生至少一識別符;以及 將與該第-資料段相關的至少一識別符和與該第二資料段 相關的至少—識別符相比較,以判斷該第一資料段與該第 一資料段貫質上是否完全相同。
於配置中,由一第一資料段的至少-部分產生至少一 識別符的步驟包括當該第—資料段被記錄在—料媒體 時’或者該第一資料段被記錄在該儲存媒體之後,使用一 唯:識:符函& ’由該第-資料段的至少-部分產生至少 -識別付。另外’由一第二資料段的至少一部分產生至少 一識別符的步驟包括當該第二資料段被記錄在該儲存媒體 :’使用該唯一識別符函數,由該第二資料段的至少一: 刀產生至少—識別符。然而,當該第二資料段被記錄在一 不同的儲存媒體時’由-第二資料段的至少-部分產生至 1221993 (3) 發明說明續頁 少一識別符的步驟也會發生 於一觀點中,該第一資料 料段。該方法也包括該等步 至少一識別符儲存於一表中 該表類取與該第一資料段相 方法包括’當與該第一資料 第二資料段相關的至少一識 料段與該第二資料段實質上 於另一配置中,該第一資 料段的至少一部分的大小係 量法。該第一資料段的至少 一部分的時序相符合或每個 觀點中,與該第一資料段相 資料段相關的至少一識別符 符函數是一雜凑函數,其中 段芫全相同時,與該第一資 二資料段相關的雜凑值。 再者,該比較步驟包括將 識別符和與該第二資料段相 判斷該第一資料段與該第二 步驟。此外,該比較步驟包 複數個識別符和與一第二組 比較,以判斷該第一組資料 否芫全相同的步驟。 段與該第二資料段是多媒體資 驟:將與該第一資料段相關的 ;以及在該比較步驟之前’從 關的至少一識別符。另外’該 段相關的至少一識別符和與該 別符相匹配時,呈現該第一資 是完全相同的指示的步驟。 料段的至少一部分與該第二資 根據一時序測量法或一位元測 一部分與該第二資料段的至少 位元符合相符合對應。於另一 關的至少一識別符和與該第二 是一雜湊值,而且該唯一識別 當該第一資料段與該第二資料 料段相關的雜湊值等於與該第 與該第一資料段相關的複數個 關的複數個識別符相比較,以 資料段實質上是否完全相同的 括將與一第一組資料段相關的 資料段相關的複數個識別符相 段與該第二組資料段實質上是 (4) (4)1221993 發明說明續頁 本發明也關於—種用以搜查複製資料的系統 括.-用:從一儲存媒體讀取資料或將資料窝入一:存: ,、中^控孩處理器:使用一唯 一識別符函數,由一第一資料辟 卜 “认的至少-部分產生至少一 識別付,使用該唯一識別符函數, 次 一料處细v ★ L 弟一具料段的至少 -對應邵,產生至少一識別符、乂及將與該第—資料,相 關的至少-識別符和與該第二資料段相關的至少^ 相比較,以判斷該第一資料段與 03 、 芣一貧枓段實質上是否 芫全相同。該系統也包括適合 電路。 只仃上述该寺万法的軟體與 實施方式 根據本發明的配置,一種用 喱用以只仃各種提高作業特性的 系統1〇°’以方塊方式顯示於圖1'然而,本發明不受限於 圖1所說明的該特定系統’能夠以任何其他具有接收一數位 編碼信號能力的系統來實作本發明β另外,該系統100不受 限於從任何特殊㈣㈣存錢讀取資料或將㈣寫入任 何特殊類型的儲存媒ft,因此能夠㈣使用任何能儲存數 位編碼資料的儲存媒體與該系統100。 G系、’’充100包括一用以從儲存媒體丨12讀取資料或將資料 窝入儲存媒體U2的控制器110。該控制器也能對一不同的儲 存媒植或圯憶體120讀取資料或寫入資料。該系統1〇〇也具有 一微處理器114、一表或記憶體·116與一顯示器118。再者, 為了使Μ微處理器114能控制該控制器u〇與該顯示器118的 乍業,並擷取儲存於表116的資訊,也提供該些控制與資料 1221993 (5) 發明說明續頁 介面。為了由該微處理器114執行該等慣用的作業,於記憶 體提供適合的軟體或韌體。再者,根據本發明的配置,提 供程式常式給該微處理器114。此外,任何其他適合的軟體 或電路能夠被用來代替該微處理器114。 於作業中,該控制器110能將第一資料段寫到該儲存媒體 112。於一配置中,當該第一資料段被記錄於該儲存媒體U2 時,該微處理器114使用一唯一識別符函數,由該第一資料 段的至少一部分產生至少一識別符,該微處理器U4將該至 少一識別符傳送給該表116。於另一配置中,該第一資料段 已被記錄於該儲存媒體112之後,任何時候皆可產生與該第 —資料段相關的至少一識別符。 遠微處理咨114也能使用該唯一識別符函數,產生一第二 資料段的至少一相對部分的至少一識別符^隨著該第二資 料段被記錄在該儲存媒體112,或者另一選擇,隨著該第二 資料段被記錄於該記憶體120,該微處理器Π4能產生與該第 二資料段相關的至少一識別符。請瞭解該記憶體120可以是 任何一種適合儲存數位編碼資料的記憶體。 —旦產生,該微處理器114從表116擷取與該第一資料段相 關的該至少一識別符。接著該微處理器114將與該第一資料 段相關的至少一識別符和與該第二資料段相關的至少一識 別符相比較,以判斷該第一資料段與該第二資料段實質上 是否完全相同。如果與該第一資料段相關的至少一識別符 和與該第二資料段相關的至少一識別符相匹配,則該第一 資料段與該第二資料段即使不是完全相同,實質上也是完 -10 - 1221993 ⑹ 發明說明續頁 全相同。該微處理器114接著透過兮% — σ〇ι丨。〇 、成頜π器118呈現該兩資料 段是完全相同的指示給一使用者。 ^ 將在下面更加詳細論述 本發明的全部作業。 複製資料的搜尋 圖2描繪以實例說明搜尋複製岑+ 灰及疋全相同足資料的流程 圖200。在步驟210,該處理開始。 那艾驟212所顯不,能夠 使用一唯一的識別符函數,由一箓 弟一資料段的至少一部分 產生至少一識別符。當該第一資# $ 貧枓ί又被記錄在一儲存媒體 上時’產生該識別符。相反地,兮箓 4弟一資料段已被記錄在 該儲存媒體之後,任何時候皆可產生該識別符。 該第-資料段可以是任何合適的資料類型,包括以文字 為主的資料、聲頻、視訊與其組合, -又苦其他任何一種合 適的資料。該第一資料段也可以是一 > J 乂疋加被或無加密的資料 段。再者,-識別符可以由該第一資料段的任何部分所產 生’包括第-資料段的非連續或非相繼的部分。此外,^ 夠由'第-資料段之任何部分所包含的資料產生多於二 的識別付。用以產生一識別符的該部 a &、、目,丨田、上 刀貝科的大小係根據 一時序測I法或一位元測量法。 如一範例,如果該第一資料 是一 只种权疋盲歌,則由整首歆產 生該識別符,因此該至少一部分#包 " 如另一範例 一結尾部分 時序測量法 ,、^部刀你匕括整個第一資料段。 將該首歌分成兩分離的部分. ” a · 一開端部分與 如果該首歌所分成的兩部 .、 刀 < 大小係根據一 則該開端部分肖枝该首I ^ 。—八二 ,,向 結尾《•刀i括該首歌後面的30秒。根據本發明的該等 刀匕括$ I歌則面的30秒,而該 -11 . 1221993 (7) I發明說明續頁 置,能夠將該首歌的該兩部分結合在一起,並且由該組合 產生至少一識別符。因此,每一資料段的一或更多識別符 能夠用於和與另一資料段相關的等量識別符相比較。 延續該範例,由該首歌的兩部分產生一識別符,使同一 首歌產生兩不同的識別符。另一選擇,在該開端與結尾部 分之間,由該時序測量法產生一識別符。此外,如果至少 一部分資料的大小係根據一位元測量法,則由例如該首歌 最前面的1百萬位元資料產生一識別符。然而,請注意,本 發明不受限於上述的範例,因此任何適合之資料類型的第 一資料段被分成多少部分(包括當至少一部分包含整個第 一資料段),即可產生多少識別符。 再參考該流程200,最好將與該第一資料段相關的至少一 識別符儲存於表中,如步驟214所顯示。在步驟216,使用該 唯一識別符函數’由一第二資料段的至少一部分產生至少 一識別符。而且可以根據關於該第一資料段之處理的論述 (參考步驟212的論述),產生與該第二資料段相關的至少一 識別符。然而,為了增加準確性,該第二資料段用以產生 至少一識別符的部分能夠對應該第一資料段的至少一部 分。該對應可根據時序或者以每個位元為基礎。 例如,如果該第一資料段是一首歌,並且由整首歌產生 與該第一資料段相關的至少一識別符(該至少一部分包括 整個第一資料段),則為了最大的準確性,可以由整首歌產 生與該第二資料段相關的至少一識別符(假設該第二資料 段確實是一首歌)。如另一實施例,如果該第一資料段的至 -12- 1221993 (8) 發明說明續頁 少一部分包括最前面的1百萬位元資料’並且由該部分產生 與該第一資料段相關的至少一識別符,接著最好由該第二 資料段最前面的1百萬位元資料產生與該第二資料段相關 的至少一識別符。 於一配置中,當該第二資料段記錄在已記錄該第一資料 段的儲存媒體上時,能夠產生與該第二資料段相關的至少 —識別符。相反地,當該第二資料段記錄在一不同的儲存 媒體上時,能夠產生與該第二資料段相關的至少一識別符。 在步驟218,一旦已經由該第二資料段產生適當的該識別 符或該等識別符,接著可從記憶體,但最好是從該表擴取 與該第一資料段相關的至少一識別符。在步驟22〇 ,將與該 第一資料段相關的至少一識別符和與該第二資料段相關的 至少一識別符相比較,以判斷該第一資料段與該第二資料 段實質上是否完全相同。如果該識別符是相同的,則實際 上為第一資料段與第一資料段一直是冗全相同的。在決策 方塊222,當與該第一資料段相關的至少_識別符和與該第 二資料段相關的至少一識別符相匹配,則呈現該第一資料 段與該第二資料段實質上是完全相同的指示給一使用者, 如步騾224所顯示。再者,在步驟226,為了該比較步驟,記 錄在一儲存媒體之第二資料段的任何部分不是由使用者選 擇刪除,就是自動被刪除。該處理結束於步驟228。 於一配置中,該至少一識別符可以是一雜湊值。另外, 該唯一識別符函數可以是一雜湊函數。當該第一資料段與 該第二資料段是完全相同或實質上完全相同時,與該第一 •13- 1221993 (9) 發明說明續頁 資料段相關的一雜湊值可以等於與該第二資料段相關的一 雜湊值。數個雜湊函數中能夠用於實作本發明的一範例是 互斥-或函數。然而,請瞭解,本發明明並不受限於該特定 的雜湊函數,也可以使用任何其他合適的雜湊函數。 雖然已經以該等於此所揭露的相關實施例描述本發明, 應瞭解前面的描述僅用於說明,並不限制本發明由該申請 專利範圍所定義的領域。 圖示簡單說明 圖1係一根據本發明於此的該等配置,能夠搜尋複製資料 的系統的方塊圖。 圖2係說明根據本發明的該等配置,搜尋複製資料之作業 的流程圖。 圖式代表符號說明 100 系統 112 儲存媒體 110 控制器 120 記憶體 116 表/記憶體 114 微處理器 118 顯示器 200 流程圖 210 開始 212 使用一唯一識別符函數,由一第一資料段的至少一部 分產生至少一識別符 -14- 1221993 (ίο) 發明說明續頁 214 儲存(最好於一表中)與該第一資料段相關的至少一 識別符 216 使用該唯一識別符函數,由一第二資料段的至少一部 分產生至少一識別符 218 擷取(最好從該表)與該第一資料段相關的至少一識 別符 220 將與該第一資料段相關的至少一識別符和與該第二 資料段相關的至少一識別符相比較,以判斷該第一資 料段與該第二資料段實質上是否完全相同 222 與該第一資料段相關的至少一識別符和與該第二資 料段相關的至少一識別符相匹配? 224 呈現指示給使用者 226 有選擇性或自動從儲存媒體刪除第二資料段 228 結束
-15-

Claims (1)

1221993 第091137303號專利申請案 中文申請專利範圍替換本(93年7月) 拾、申請專利範圍 1. 一種搜尋複製資料的方法,其包括該等步驟: 使用一唯一識別符函數,由一第一資料段的至少一部 分產生至少一識別符; 使用該唯一識別符函數,由一第二資料段的至少一部 分產生至少一識別符;以及 將與該第一資料段相關的至少一識別符和與該第二資 料段相關的至少一識別符相比較,以判斷該第一資料段 與該第二資料段實質上是否完全相同。 2. 如申請專利範圍第1項之方法,其中由該第一資料段的至 少一部分產生至少一識別符的該步騾,包括當該第一資 料段被記錄在一儲存媒體時,使用該唯一識別符函數, 由該第一資料段的至少一部分產生至少一識別符的步 驟。 3. 如申請專利範圍第2項之方法,其中由該第二資料段的至 少一部分產生至少一識別符的該步驟,包括當該第二資 料段被記錄在該儲存媒體時,使用該唯一識別符函數, 由該第二資料段的至少一部分產生至少一識別符的步 4. 如申請專利範圍第2項之方法,其中由該第二資料段的至 少一部分產生至少一識別符的該步驟,包括當該第二資 料段被記錄在一不同的儲存媒體時,使用該唯一識別符 函數,由該第二資料段的至少一部分產生至少一識別符 的步驟。 1221993 正 换 申請專利範圍續頁 5· 6. 如申請專利範圍第1項之方法, 、、 少一部分產生至少一識別符 由舔第一資料段的至 段被記錄在該儲存媒體之後。 〜务生在該第一資料 如申請專利範圍第5項之方法, 丹中由一第二資料段的至 V、一部分產生至少一識別符的 J成变驟,肖括冬兮楚一洛 料段被記錄在該儲存媒體時 , 、 便用咸唯一識別符函數, 由該第二資料段的至少一 f+處 主/對應邵分產生至少一識別符的 步驟。
7.如申請專利範圍第5項之方法.,其中由該第二資料段的至 '部刀產生至^ 一識別符的該步驟,包括當該第二資 料段被記錄在一不同的儲存媒體時,使用該唯一識別符 函數,由該第二資料段的至少一部分產生該至少一識別 符的步騾。 8·如申請專利範圍第1項之方法,其中該第一資料段與該第 二資料段是多媒體資料段。 9·如申請專利範圍第1項之方法,進一步包括該等步驟: 將與該第一資料段相關的該至少一識別符儲存於一表 中;以及 在該比較步驟之前,從該表擷取與該第一資料段相關 的該至少一識別符。 10·如申請專利範圍第1項之方法,進一步包括當與該第一資 料段相關的至少一識別符和與該第二知料奴相關的該至 少一識別符相匹配時,呈現該第一資料段與该第二資料 段實質上是完全相同的指示的步驟。 ^1993
申請專利範圍續頁 如申請專利範圍第1項之方法,其中該第一資料段的該至 少一部分與該第二資料段的該至少一部分的大小係根據 一時序測量’其中該第一資料段的該至少一部分與該第 二資料段的該至少一部分的時序相符合。 如申請專利範圍第1項之方法,其中該第一資料段的該至 ) 部分與該弟一訑料段的該至少一部分的大小係根據 —位元測量,其中該第一資料段的該至少—部分與該第 二資料段的該至少一部分的每個位元相符合。 13.如申請專利範圍第1項之方法,其中與該第一資料段相關 的該至少一識別符和與該第二資料段相關的該至少一識 別符是雜湊值,而且該唯一識別符函數是—雜凑函數, 其中當該第一資料段與該第二資料段完全相同時,與該 第一資料段相關的一雜湊值等於與該第二資料段相關的 一雜凑值。 14. 如申請專利範圍第 該第一資料段相關 關的複數個識別符 二資料段實質上是 15. 如申請專利範圍第 一第一組資料段相 段相關的複數個識 與該第二組資料段 16. —種用以搜查複製 一用以從一儲存 , 斤 Ο 7ίΤ 六 的複數個識別符和與該第二資料段相 相比較,以判斷該第—資料段與該第 否完全相同的步驟。 1項之万法,其中該比較步驟包括將與 關的複數個識別符和與一第二組資料 別符相比較,以判斷該第-組資料段 實質上是否完全相同的步驟。 資料的系統,其包括: 媒體讀取資料或將資料寫入一儲存媒 -3 - 1221993
申請專利範圍續頁 體的控制器;以及 一耦合至該控制器的處理器,其中程控該處理器: 使用一唯一識別符函數,由/第一資料段的至少一 對應部分產生至少一識別符; 使用該唯一識別符函數,由/第二資料段的至少一 部分產生至少一識別符;以及 將與該第一資料段相關的該至少一識別符和與該第 二資料段相關的該至少一識別符相比較,以判斷該第一 資料段與該第二資料段實質上是否完全相同。 17·如申請專利範圍第16項之系統,其中當該第一資料段被 記錄在該儲存媒體時,進一步程控該處理器,使用一唯 一識別付函數’由該第一資料段的該至少 部分產生至 少一識別符。 18·如申請專利範圍第π項之系統,其中當該第二資料段被 記錄在该儲存媒體時,進一步程控該處理器,使用該唯 一識別符函數,由該第二資料段的該至少一部分產生該 至少一識別符。 •如申請專利範圍第17項之系统,其中當該第二資料段被 記錄在一不同的儲存媒體時’進—步程控該處埋器,使 用該唯一識別符函數,由該第二資料段的該至少—部分 產生遠至少一識別符。 20.如申請專利範圍第16項之系统,其中在該第—資料段被 記錄在該儲存媒體之後,$ —步程控該處理器,使用該 唯一識別符函數,由該第-資料段的該至少-部分產生 -4- 1221993
申請專利範圍續頁 該至少一識別符。 21·如申請專利範圍第20項之系統,其中當該第二資料段被 記錄在該儲存媒體時,進一步程控該處理器,使用該唯 一識別符函數,由該第二資料段的該至少一部分產生該 至少一識別符。 22·如申請專利範圍第20項之系統,其中當該第二資料段被 記錄在一不同的儲存媒體時,進一步程控該處理器,使 用該唯一識別符函數,由該第二資料段的至少一對應部 分產生該至少一唯一識別符。 23·如申請專利範圍第16項之系統,其中該第一資料段與該 第二資料段是多媒體資料段。 24·如申請專利範圍第16項之系統,進一步包括一表,其中 進一步程控該處理器: 將與該第一資料段相關的至少一識別符儲存於該表 中;以及 在該比較步驟之前,從該表擷取與該第一資料段相關 的該至少一識別付。 25·如申請專利範圍第16項之系統,其中當與該第一資料段 相關的呈少一識別符和與該第二資料段相關的該至少一 識別符相匹配時,進一步程控該處理器,以呈現該第一 資料段與該第二資料段實質上是完全相同的指示。 26.如申請專利範圍第16项之系統,其中與該第一資料段相 關的該呈少一識別符和與該第二資料段相關的該至少一 識別符是雜湊值,而且該唯一識別符函數是—雜湊函 -5 - 1221993
申請專利範圍續頁 數,其中該處理器判斷要是與該第一資料段相關的一雜 湊值等於與該第二資料段相關的一雜湊值,則指示該第 一資料段與該第二資料段實質上是完全相同。
-6-
TW091137303A 2002-01-17 2002-12-25 System and method for searching for duplicate data TWI221993B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/051,999 US6795903B2 (en) 2002-01-17 2002-01-17 System and method for searching for duplicate data

Publications (2)

Publication Number Publication Date
TW200302421A TW200302421A (en) 2003-08-01
TWI221993B true TWI221993B (en) 2004-10-11

Family

ID=21974742

Family Applications (1)

Application Number Title Priority Date Filing Date
TW091137303A TWI221993B (en) 2002-01-17 2002-12-25 System and method for searching for duplicate data

Country Status (9)

Country Link
US (1) US6795903B2 (zh)
EP (1) EP1466251A4 (zh)
JP (2) JP4350521B2 (zh)
KR (1) KR100959306B1 (zh)
CN (1) CN100573471C (zh)
MX (1) MXPA04006924A (zh)
MY (1) MY132104A (zh)
TW (1) TWI221993B (zh)
WO (1) WO2003062996A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6795903B2 (en) * 2002-01-17 2004-09-21 Thomas Licensing S.A. System and method for searching for duplicate data
US9535624B1 (en) * 2004-09-13 2017-01-03 EMC IP Holding Company LLC Duplicate management
US8165221B2 (en) * 2006-04-28 2012-04-24 Netapp, Inc. System and method for sampling based elimination of duplicate data
US8739304B2 (en) * 2006-11-10 2014-05-27 Sony Computer Entertainment Inc. Providing content using hybrid media distribution scheme with enhanced security
US8752199B2 (en) * 2006-11-10 2014-06-10 Sony Computer Entertainment Inc. Hybrid media distribution with enhanced security
WO2008070688A1 (en) 2006-12-04 2008-06-12 Commvault Systems, Inc. Systems and methods for creating copies of data, such as archive copies
US7840537B2 (en) 2006-12-22 2010-11-23 Commvault Systems, Inc. System and method for storing redundant information
US7987531B2 (en) * 2007-02-27 2011-08-02 West Paul E Portable floating hot tub
KR100905218B1 (ko) * 2007-04-09 2009-07-01 삼성전자주식회사 애드혹 네트워크에서 콘텐츠 중복 검출 방법
US8767541B2 (en) * 2008-02-14 2014-07-01 Qualcomm Incorporated Scheduling policy-based traffic management
US8964651B2 (en) * 2008-02-14 2015-02-24 Qualcomm Incorporated Traffic management employing interference management messages
US8737314B2 (en) 2008-02-14 2014-05-27 Qualcomm Incorporated Traffic management for multi-hop wireless communication
US9098495B2 (en) 2008-06-24 2015-08-04 Commvault Systems, Inc. Application-aware and remote single instance data management
US8166263B2 (en) 2008-07-03 2012-04-24 Commvault Systems, Inc. Continuous data protection over intermittent connections, such as continuous data backup for laptops or wireless devices
US9015181B2 (en) 2008-09-26 2015-04-21 Commvault Systems, Inc. Systems and methods for managing single instancing data
WO2010036754A1 (en) 2008-09-26 2010-04-01 Commvault Systems, Inc. Systems and methods for managing single instancing data
US8412677B2 (en) 2008-11-26 2013-04-02 Commvault Systems, Inc. Systems and methods for byte-level or quasi byte-level single instancing
US8401996B2 (en) 2009-03-30 2013-03-19 Commvault Systems, Inc. Storing a variable number of instances of data objects
US8578120B2 (en) 2009-05-22 2013-11-05 Commvault Systems, Inc. Block-level single instancing
US20110055471A1 (en) * 2009-08-28 2011-03-03 Jonathan Thatcher Apparatus, system, and method for improved data deduplication
WO2012045023A2 (en) 2010-09-30 2012-04-05 Commvault Systems, Inc. Archiving data objects using secondary copies
US9246882B2 (en) * 2011-08-30 2016-01-26 Nokia Technologies Oy Method and apparatus for providing a structured and partially regenerable identifier
US9020890B2 (en) 2012-03-30 2015-04-28 Commvault Systems, Inc. Smart archiving and data previewing for mobile devices
US8762353B2 (en) * 2012-06-13 2014-06-24 Caringo, Inc. Elimination of duplicate objects in storage clusters
US8799746B2 (en) 2012-06-13 2014-08-05 Caringo, Inc. Erasure coding and replication in storage clusters
US9104560B2 (en) 2012-06-13 2015-08-11 Caringo, Inc. Two level addressing in storage clusters
US9633022B2 (en) 2012-12-28 2017-04-25 Commvault Systems, Inc. Backup and restoration for a deduplicated file system
US10324897B2 (en) 2014-01-27 2019-06-18 Commvault Systems, Inc. Techniques for serving archived electronic mail
CN104820851A (zh) * 2015-05-04 2015-08-05 柳州市瑞日信息科技有限公司 生成产品序列号的装置
US10324914B2 (en) 2015-05-20 2019-06-18 Commvalut Systems, Inc. Handling user queries against production and archive storage systems, such as for enterprise customers having large and/or numerous files
US10203953B2 (en) * 2017-02-24 2019-02-12 Microsoft Technology Licensing, Llc Identification of duplicate function implementations
US10700711B1 (en) 2017-11-03 2020-06-30 Caringo Inc. Multi-part upload and editing of erasure-coded objects

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5202982A (en) * 1990-03-27 1993-04-13 Sun Microsystems, Inc. Method and apparatus for the naming of database component files to avoid duplication of files
JP3036099B2 (ja) * 1991-01-30 2000-04-24 日本電気株式会社 データ管理方法
WO1996032685A1 (en) * 1995-04-11 1996-10-17 Kinetech, Inc. Identifying data in a data processing system
JP2686064B2 (ja) * 1996-05-28 1997-12-08 株式会社東芝 データ情報検索装置
US6763523B1 (en) * 1998-04-03 2004-07-13 Avid Technology, Inc. Intelligent transfer of multimedia data files from an editing system to a playback device
US6292880B1 (en) * 1998-04-15 2001-09-18 Inktomi Corporation Alias-free content-indexed object cache
US6477544B1 (en) * 1999-07-16 2002-11-05 Microsoft Corporation Single instance store for file systems
US6389433B1 (en) * 1999-07-16 2002-05-14 Microsoft Corporation Method and system for automatically merging files into a single instance store
JP2000331090A (ja) * 1999-12-22 2000-11-30 Oricon Direct Digital:Kk 音楽配信用の選曲支援システム及び選曲配信方法
AU2001238269B2 (en) 2000-02-18 2006-06-22 Emc Corporation Hash file system and method for use in a commonality factoring system
US6704730B2 (en) * 2000-02-18 2004-03-09 Avamar Technologies, Inc. Hash file system and method for use in a commonality factoring system
AU2001288469A1 (en) * 2000-08-28 2002-03-13 Emotion, Inc. Method and apparatus for digital media management, retrieval, and collaboration
US6795903B2 (en) * 2002-01-17 2004-09-21 Thomas Licensing S.A. System and method for searching for duplicate data

Also Published As

Publication number Publication date
JP5065317B2 (ja) 2012-10-31
CN100573471C (zh) 2009-12-23
US6795903B2 (en) 2004-09-21
WO2003062996A1 (en) 2003-07-31
MXPA04006924A (es) 2004-12-06
KR100959306B1 (ko) 2010-05-26
EP1466251A4 (en) 2007-04-25
JP2005516324A (ja) 2005-06-02
EP1466251A1 (en) 2004-10-13
JP2009187654A (ja) 2009-08-20
TW200302421A (en) 2003-08-01
MY132104A (en) 2007-09-28
US20030135700A1 (en) 2003-07-17
KR20040076885A (ko) 2004-09-03
CN1751295A (zh) 2006-03-22
JP4350521B2 (ja) 2009-10-21

Similar Documents

Publication Publication Date Title
TWI221993B (en) System and method for searching for duplicate data
US20050013448A1 (en) System for audio data collection and management
JP2006073196A (ja) コンパクトディスクメディアのデータの読み書き方法
US8565051B2 (en) Storage system and method for generating file system in the storage system
JP2006195588A (ja) ディスク・システム及びディスク管理方法、並びにコンピュータ・プログラム
JP4300669B2 (ja) 記録方法および装置、ならびに、記録媒体
JP4983297B2 (ja) データ複製装置
JPH0876935A (ja) バックアップデータ作成再生システム
JP4244011B2 (ja) データ再生装置およびデータ再生装置における再生データの管理方法
EP1652186B1 (en) Method for fast reconstruction of content information
JP2005539340A (ja) 着脱書き換え可能コンピュータ記憶装置のコマンドセット
JP3453185B2 (ja) 追記型光ディスク作成再生システム
JP2004021632A (ja) 記録媒体の未使用領域を有する記録単位に対して特定の情報を記録再生する方法
JP4383649B2 (ja) 編集装置
JP2004265570A (ja) データの記録方法、記録装置、再生方法、再生装置および記録メディア
US7634172B1 (en) Methods for recording multiple sessions on a rewritable DVD disc
JP2002251825A (ja) 記録媒体再生装置
JP2006099329A (ja) コンテンツ転送システム、コンテンツ管理装置、コンテンツ再生装置、コンテンツ記録装置、及びコンテンツ転送方法
JP2004259307A (ja) 再生装置
JP2004164761A (ja) ビデオ録画システムおよびビデオ録画方法
TW200922320A (en) Method and system for determining disc format for recovery of data recording
JP2007133917A (ja) データ記録方法及び装置
JP2005085301A (ja) 記録再生装置、曲データの複製方法及び曲データの複製プログラム
JPH06243017A (ja) 光磁気記憶装置
JP2003006017A (ja) 記録方法および記録装置

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees