TW582022B

TW582022B - A method and system for the automatic detection of similar or identical segments in audio recordings

Info

Publication number: TW582022B
Application number: TW090124511A
Authority: TW
Inventors: Uwe Fischer; Stefan Hoffmann; Werner Dr Kriechbaum; Gerhard Stenzel
Original assignee: Ibm
Priority date: 2001-03-14
Filing date: 2001-10-04
Publication date: 2004-04-01
Also published as: WO2002073593A1; EP1393299B1; EP1393299A1; ATE343195T1; DE60215495T2; DE60215495D1; US20040093202A1

Description

582022 A7 B7 五、發明説明（1 ) 發明範疇本發明通常和數位音頻處理範疇，更特別是和在至少二不同音頻流中電腦化辨識相似或完全相同區段之方法及系統有關。發明背景近來利用如WAVE，AIFF，MPEG，RealAudio等各種編碼及壓縮形式在數位媒體記錄、處理、分配及存檔之音頻資料越末越夕用於父換編碼格式之代碼轉換或重新取樣技術幾乎從未產生和在目標格式直接記錄完全相同之記錄。類似之效應發生在大部分壓縮架構，其中壓縮因數或其它參數之變化產生之新編碼及位元流和原始位元流不大相似。在二記錄以不同格式儲存時，此二效應使得音頻記錄和另一音頻記錄之相同性即二原始產生音頻記錄之相同性很難建立。a此在音頻製造、存#及著作權料上極需建立不同音頻記錄之可能相同性。在製造數位音頻記錄中，在中間處理步驟f發生各種編碼格式之許多不同版本並在各種不同電腦系統中分佈。在大部分情形這些記錄並未在資料庫中檢查或相互參考，而常由聽記錄決定二版次是否完全相同。自動程序將使此工作大為簡化。，類似問題發生在需處理以各種編輯(如爵士或流行歌曲) 或具各種載體（如丁oscanini和NBC交塑绝廟 # u 9樂團之著名錄音）出現之材料之音頻存擋。此記錄之原始主士土要口P分存檔數目常未吾己載’而在大部分情形只可由聽音頻視。己綠決定編輯之一軌 -4-

582022 A7 一 B7 五、發明説明（T~) 和另一聲音載體中相同作品記錄是否完全相同。、=外著作權保護音頻卫業之重要議題並和使音頻記錄複衣之產生及分散簡化之發明技術更相關。避免未授權複製之架構雖解決一部分問題，但也需有方法可债測未受保濩留傳材料之未授權才复製。{列如撕開CD將纟執内容以壓縮格式分达給未授權的消費者是現今最常有的違反著作權，而有些著作權知權是搜尋完全相同音頻記錄債測不到的。一個範例是將現有記錄切成區段並將之縫合組成”新”件。要能找i此種再使用必需有方法可偵側記錄不類a而記錄區段類似，但區段邊界又事先不知道之情形。未授權再使用之另一可能形式是在未變更或如轉換頻率下，由音頻記錄引用句或聲音特性。找出此種轉換子組不但對偵測可能之著作權侵權很重要，且是歷史及傳統材料音樂學分析之有用工具。相關技術大部分目前可用之辨識音頻記錄常見技術和水印有關（最近之技術參考 S. Katzenbeisser and F. Petitcolas eds.，

Infomiation Hiding : Techniques for steganography and digital water-marking，Boston 2000广這些技術利用插入一些聽不到的抗轉碼資況修改音頻記錄’故不適用於已上市之材料。另外現在的音頻產品很多是由較最終記錄節拍及頻率解析高之多個軌或聲音記錄組〜成。要利用水印辨識這些中間資料，在11些執混合為最終音流時水印需不能因干擾而被聽到。故可能想要由特性特徵而非水印辨識這些材料。 -5- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 五、發明説明（3 S、元王相同g頻記錄之非侵入技術使用能譜之總特f生做為曰頻兄錄之簽名。藉此稱為歐洲專利申請Ν〇·_ 月之d〇Cket n〇· DEe9-1999-0012)。如同所有總頻率為土楚之技# &方法無法分辨相同材料之排列記錄，即往走的曰k和彺下走的相同音階簽名相同。這些及類似總方法之其它限制是對音頻資料局部變化如漸弱或漸強之抗敏性。登Ji概論 :本發明之-目的是用以改良辨識完全相同或類似音頻圯錄區段或音頻記錄之系統及方法。另-目的是提供可偵測記錄不相似但記錄區段相似，卻先不知道區段邊界之系統及方法。目的是提供可自動㈣音頻記錄或音頻記錄區段之元全相同複製之系統及方法。另一目的是即使局部修改及變形仍可辨識音頻材料。另目的疋可建立以二不同格式特別是__ 儲存之一音頻流相似性或相同性。 @壓縮格式以上目的由獨立之申請專利範㈣性解決是本申請專利範圍之主題。 _ 丨貝把例本發明之觀念是根據音頻材料之時頻。該辨識架構由音頻記錄計算特性簽名，：#辨識架構算不同音頻記錄間之距離-然後選擇完全相同】用此簽名计明可自動債測音頻記錄之完全相同複製。;之記錄。本發立自動處理找出可能之未授權複製 '使用此技術建 .6. 此錄音工業之著作 582022 五、發明說明（4 權實行會更好。 =點是所提架構利用局部特性而非總特性改良目前技術。同：別是本發明可偵測音頻流或音頻流區段之相似性或相 ’即使它們是以不同格式提供及/或健存在不同物理載因此可決定一編輯之音頻區段是否和另一音頻載體中相同音頻作品之記錄完全相同。二外可自動執依照本發明之方法，而甚至—或多個使用者無法察覺。基於以上原賴提之架構可自動㈣音頻記 =之完全相同複製。可使用此技術建立自動化方法找出可能之未授權複製，因此更能實行錄音工業之著作權。以下利用實施例較詳細描述本發明，如此本發明特性及優點會更清楚，其中圖1之概略方塊圖揭示依照本發明之音頻簽名計算，其中灰方塊代表選擇性元件；圖2之流程圖說明依照本發明預處理主記錄之步驟；圖 3 是 J.S. Bach之Wohltemperiertes klavier之Praeludium XIV之記錄標準能譜，其中最大功率擾亂組具有一元素，而第二強尖峰擾亂組具二元素；~ . 圖4是對圖3揭示之音樂所算標度1〇〇〇，頻率497出之 Gabor能量密度分割一區段；圖5之流程圖說明依照·本發明將時頻能量密度分割量化之步驟；圖6是圖4所示頻率497 Hz及標度1〇〇〇區段之Gabor能量密本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 五、發明説明（5 ) 度分割條帶圖；圖7疋圖4所示頻率497 Hz及標度ι〇〇〇區段之Gab〇r能量密度分割累積條帶圖；圖8是對圖4範例所算之497沿簽名原始數據，其中在樣本單兀中開始及結束之樣本主要部分未合併執行；圖9疋497 Hz簽名由圖8得到之合併資料，但為樣本主要部分；圖10之流程圖說明依照本發明在二音頻簽名間之距離計算；圖11之另一 /爪程圖說明依照本發明之Haus(jorff距離計算；圖12是WAVE主要部分之497 Hz簽名和相同記錄之8 k位元 /秒之MPEG3壓縮版本間之Hausdorff距離，為主要及測試名間之位移函數； … 圖13所示之橢圓組是依照本發明之分割作用標準結果；圖14之範例樣板用於找出和樣板中區段相似或完全相同之可能記錄點樣式中區段；以及圖15顯示另一組橢圓，其中和圖14所示相同之樣數和在此揭不之具填滿擴圓之二區段相符。實施例細述 - 參照圖1 ’在計算音頻簽名60前利用適當措施將類比材料數位化。

以下所述之音頻簽名由…音頻記錄10利用對數位音頻信號進行以下步驟計算： f處理濾波IL -8 - 本紙張尺[適用中國國家標準(CNS)A4規格(210Χ297公爱） ^ ^ A7 B7 五、發明説明（ ::之材料類型及相似性_，2〇可由非必要之遽波 :二理音頻資料。此渡波器範例為去除形成類比記錄之 :二雜訊、模擬人耳及auditory cortex處理之―却⑹丨挑出獨奏樂器之前景/背景分隔。精於本技術者將號中適預處理遽波器在時頻密度較在數位音頻信

信號X之時頻能量密，估计曰頻圮錄之時頻能量密度度Px(t，v)定義為 —ΟΟ-ΚΛ 分等於信號之能量内容。最常見的是Wigner-ViUe* 即特性為密度t時間t及頻率V積已有多種估計時能密度之方法，佈及窗傅立葉轉換得到之能譜。 40利用計算能量密度和一平分割。然而密度平面相對於能定向產生有效密度分割及可用而並非所有定向產生之資訊有正交之切割平面只有一特定時以將一塊記錄切掉編輯之記錄通常不適於偵測二記錄之相同產生5己錄之時頻發展估計、，而特定頻率在一段時間之發展。無需決定整個能量密度即可計面之父又決定一或多個密度 1密度時，頻及能軸之任何於決定簽名，有些定向較佳助於辨識記錄；任何和時軸間事件之έ己錄能量密度。因等效時間很難決定，故分割性。和能軸垂直之切割平面和頻軸垂直之切割平面檢查在許多時頻能量密度估計，算和頻軸密度正交之密度分 582022 Ά7 一 B7

剎。和能軸垂直之定向及和頻軸垂直之定向捕捉足夠之資訊以辨識完全相同之記錄。真正選擇之定向和對辨識可：出之計算成本以及所要之簽名抗失真性有關。量密度分割利用50提供適當量化轉換密度分割。真正選擇之量化资度架構和分割定向及所要簽名精確性有關。實施例細述: 提供量化技術範例。要知道分割之辨識轉換導致有效量化 ’故此步驟為選擇性的。二簽名可由量測其最佳校準間距而比較。通常所用度量之選擇和量化密度分割對能量密度時，頻及能軸之定：；關。在本發明二實施例描述中有此距離量測範例。和度量有關之分隔值決定準則用於區別完全相同和不完全相記錄。以下細述二不同實施例。一實施例第一實施例描述本發明在密度分割和能量密度能軸正交之特殊狀況應用及選擇度量以辨識完全相同之記錄。能量度分佈得自信號之Gabor轉換（亦稱為具高氏窗之短時間傅，立葉轉換）。該實施例將具已知識別之音頻記錄（以下稱為 ’’全記錄”）和一組稱為”可能記錄”之其它音頻記錄比較。其辨識為由使記錄消失或剪下頭尾所產生原版子串列之可能記錄，但假設可能記錄無·如頻移或時間扭曲之轉換。 LJLMMAM- 如圖2流程圖所述預處理主記錄以選擇能量密度分佈之 -10 - 本紙張尺度適用巾S S家標準(CNS) A4規格X 297公董）—------一 —

裝

582022 \ί Β7 五、發明説明（8 分割平面。100計算信號之能譜，110選擇和最大能譜對應之頻率並以此頻率將最大擾亂組起始化。能譜之下一突出最大值能量120在130和最大能量比較，而14〇將這些最大值之頻率和擾亂值相加直到能譜最大值及第二尖峰值位置之此里在臨界’ thres’之下止。擾亂組之推論是對能值幾乎完全相同之尖峰，尖峰次方及能譜最大值頻率可能由不同編碼或壓縮架構變形。第一實施例所用之臨界值為1〇2。由擾亂組可看出做為描述第一實施例範例之主記錄只包含頻率497 Hz(圖4 )。對能量密度分割平面使用擾亂組元素，而將預處理時計算之值儲存或送到計算時頻能量密度之模組。 1. 2時頻能詈密度計篡對主記錄及所有可能記錄’計算頻譜最大值之擾亂組所有元素時頻密度。在第一實施例，根據Gab〇T轉換之時頻密度S為： ·+«〇 2 sx(t,v;h)^ 即使用高氏窗之短時間傅立葉轉換 h(z)^e'z/2°2 因可計算個別頻率之Gabor轉換，故無需明顯之分割作用而只計算擾亂組之頻率能量密度。圖4顯示標度參數聊及頻 = 497 Hz之範例主記錄左頻道時頻能量密度區&。時頻能量密度分割儲存或送到量化模組。 3時頻分割I仆、- 圖5之流程圖描述時（TF)能量密度分割量化。在2〇〇讀出 TF能量分割，210功率值利用將之除以分割最大值歸為

裝訂

線 -11 - 582022 A7~ _ _ B7 五、發明説明（9 ) 1。由歸一化分割220計算條帶圖及230累積條帶圖。第一實施例所用條帶圖bin寬為0.01。由累積條帶圖，240利用決定累積條帶圖值大於常數切割之最小指數jerd選擇切割值。第一實施例所用之常數切割為0.95。在歸一化分割，250決定大於perc *條帶圖bin寬之所有功率值，260決定執行所有這些值、起始時間、結束時間、功率和及執行最大功率。合併間隔小於間隙取樣之執行，計算合併執行之起始時間，終止時間、中央時間、平均功率及最大功率。此資料組構成分割平面頻率之音頻記錄簽名並在270儲存於資料庫。 1 . 4量化時頻分割比較第一實施例使用Hausdorff距離比較二簽名。對二有限點組A及B，定義Hausdorff距離為 H(A，B)=max(h(A，B)，h(B，A)) … 其中 /z(^5)==maxminlla~6l a^A b 龟β 第一實施例所用之norm是LI norm 〇為建立主簽名和測試簽名間之相似值，第一實施例計算主簽名和一組測試簽名之時頻複製間之Hausdorff距離，於是決定主及測試簽名間最佳對準距離。精於本技術者將了解圖10所示流程圖方法只是描述作用原則，而已有許多方法計算點組及編譯點組間之對準需要之作用較少（見如D. Huttenlocher et al·，Comparing images using the Hausdorff distance，IEEE PAMI，15, 850-863，1993)。所用距離量測是根據主及測試記錄完全相同只有些許漸強及漸弱之假設，要 -12- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐） 582022 A7 B7

偵測較嚴謹之編輯需使用不同度量及/或不同位移向量。現參照圖10，在第一步驟300比較模組讀出主及測試記錄之簽名。310計算位移向量，第一實施例檢查之位移範圍為 (-2*d，2*d)，其中d為主及未位移測試記錄間之Hausd〇rff距離。位移向量是10 msec步階寬之區間之線性空間。32〇計算各位移之主簽名及位移測試簽名間之Hausd〇rff距離及34〇在距離向量’distf儲存。主及樣板間距離為最小，⑴以，，即主及測試簽名間之最佳對準距離。圖11顯示Hausdorff距離計算流程。由主簽名及測試簽名選擇及儲存π中間"值到一向量4〇〇。於距離向量42〇計算及儲存主向量Μ之所有元素410和測試向量τ所有元素之距離。430设疋此距離向量最大元素為距離，di’。在下一步驟計异測試向量T之所有元素440和主向量Μ所有元素距離，並儲存在距離向量450。460設定此距離向量之最大元素為距離’d2’。470設定主簽名及測試簽名間Hausd〇rff距離為dl及d2 之最大值。根據Hausdorff距離之臨界值決定主及樣板記錄是否相同。只要主及測試間距小於或等於臨界，該二記錄視為相同 ;否則判定為不同。第一實施例所用臨界為50〇。 2 .第二f施例第二實施例描述於密度分割和能量密度分佈能軸正交之特殊狀況時應用本發明。〜該實施例將一或多個音頻記錄（，，可能記錄’’）和具有被偵測主題或句子之樣板（”主記錄”）比較。通#樣板為由和本實施例所述類似裝置處理之記錄時 -13- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)

裝訂

線 582022 A7 B7 五、發明説明（11 ) 間間隔。如同第一實施例，所用之時頻轉換為Gabor轉換。π可能記錄”之時頻密度利用如鋼琴頻率範圍之適當區間之對數間隔頻率計算。此對數標度可轉譯為和標度值對應之最大能量密度頻率。以此方式計算之時頻能量密度以和能軸正交之平面分割。此分割作用之結果是圖13說明之橢圓組。這些橢圓由triplet決定特性，triplet包含橢圓包圍之密度最大或總能量和橢圓主軸交叉之時及頻座標。可使用如第一實施例所述之標準技術找出和樣板中區段類似或完全相同之可能記錄點樣式中區段.。圖14所示之樣板和圖15具塗黑橢圓之二區段相符。可使用triplet之第三座標做為加權因數以增加對準特性，即拒絕相符者中對準能量擾亂組不同者。要知道因分割，可使用脊峰（R. Carmomet al，Practical Time-Frequency Analysis, Academic Press New York 1998)取代橢圓。 -14- 本紙張尺度適用中國國家標準(CNS) A4規格(210 x 297公釐）裝訂

Claims

582022 A8 B8 C8 D8 第090124511、號專利申請案中文申請專利範圍替換本(92年4月）申請專利範圍 1· 一種電腦化方法，用以決定第—音頻流之第一音頻區段和至v第一曰頻區段之至少第二音頻區段間之相同性或相似性，包含以下步驟：將該音頻流至少第二音頻區段和第一音頻區段數位化；由第一音頻區段和該至少第二音頻區段之至少一局部特性計算特性簽名；對準該至少二特性簽名；比較该至少二對準特性簽名及計算對準特性簽名間之距離；以及根據決足之距離決定該至少二音頻區段間之相似性或相同性。 2.如申請專利範圍第1項之方法，其中之特性簽名由能量密度表示。 3·如申請專利範圍第2項之方法，其中之能量密度由時頻能量密度表示。 4·如申請專利範圍第3項之方法，其中之時頻能量密度是根據個別頻率計算之Gabor轉換。 5·如申請專利範圍第2至4項任一項之方法，其中利用計算能量密度和一平面之交叉，算出至少一能量密度分割。 6.如申請專利範圍第2至4項任一項之方法，其中算出 Haussdorff距離，以比較至少二特性簽名。 7·如申凊專利範圍第6項之方法，其中使用Haussdorff距離臨界。 8·如申請專利範圍第2至4項任一項之方法，其中將能量本纸張尺度適用中國國豕標準(CNS) A4規格(21〇X 297公釐) 58202厂—— 年刀 A8 B8 C8 D8 六、申請專利範圍密度分割量化 9. 如申請專利範圍第2至4項任一員之线，提供具有決足相同性或相似性之分隔值之決定準則。 10. -種系、统，用以決定第一音頻流之第1音頻區段和至少第二音頻流之至少第二音頻區段之相同或相似性，包含：用以將該音頻流至少第二音頻區段和第一音頻區段數位化之裝置；第處理裝置，用以由第一音頻區段及該至少第二音頻區段之至少一局部特性算出特性簽名；第二處理裝置，用以對準該至少二特性簽名；第二處理裝置，用以比較該至少二對準特性簽名及算出對準特性簽名間距離；以及第四處理裝置，用以根據所決定距離決定該至少二音頻區段間之相同性或相似性。 11. 如申請專利範圍第1〇項之系、纟Μ包含計算時頻能量密产之裝置。又 12·如申請專利範圍第ι〇或丨丨項之系統，另包含計算個別頻率之Gabor轉換之裝置。 13.如申凊專利範圍第1 〇或11項之系統，另包含處理裝置用以算出Haussdorff距離以比較至少二特性簽名。 14·如申請專利範圍第10或11項之系統，另包含處理裝置用以將能量密度分割量化。 15·如申請專利範圍第10或11項之系統，包含處理裝置用以提供具用以決定相同性或相似性之分隔值之決定準則。 -2- 本纸張尺度適用中國國家標準(CNS) A4規格(210X297公釐）