TW582022B - A method and system for the automatic detection of similar or identical segments in audio recordings - Google Patents
A method and system for the automatic detection of similar or identical segments in audio recordings Download PDFInfo
- Publication number
- TW582022B TW582022B TW090124511A TW90124511A TW582022B TW 582022 B TW582022 B TW 582022B TW 090124511 A TW090124511 A TW 090124511A TW 90124511 A TW90124511 A TW 90124511A TW 582022 B TW582022 B TW 582022B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- patent application
- energy density
- characteristic
- distance
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000001514 detection method Methods 0.000 title 1
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 238000011002 quantification Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 15
- 239000013598 vector Substances 0.000 description 13
- 239000000463 material Substances 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000006073 displacement reaction Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 1
- 101100409194 Rattus norvegicus Ppargc1b gene Proteins 0.000 description 1
- 241000270666 Testudines Species 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000000078 claw Anatomy 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0033—Recording/reproducing or transmission of music for electrophonic musical instruments
- G10H1/0041—Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00086—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00086—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
- G11B20/00094—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving measures which result in a restriction to authorised record carriers
- G11B20/00123—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving measures which result in a restriction to authorised record carriers the record carrier being identified by recognising some of its unique characteristics, e.g. a unique defect pattern serving as a physical signature of the record carrier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/261—Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued
- G10H2250/275—Gaussian window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Time Recorders, Dirve Recorders, Access Control (AREA)
Description
582022 A7 B7 五、發明説明(1 ) 發明範疇 本發明通常和數位音頻處理範疇,更特別是和在至少二 不同音頻流中電腦化辨識相似或完全相同區段之方法及系 統有關。 發明背景 近來利用如WAVE,AIFF,MPEG,RealAudio等各種編碼 及壓縮形式在數位媒體記錄、處理、分配及存檔之音頻資 料越末越夕用於父換編碼格式之代碼轉換或重新取樣技 術幾乎從未產生和在目標格式直接記錄完全相同之記錄。 類似之效應發生在大部分壓縮架構,其中壓縮因數或其它 參數之變化產生之新編碼及位元流和原始位元流不大相似 。在二記錄以不同格式儲存時,此二效應使得音頻記錄和 另一音頻記錄之相同性即二原始產生音頻記錄之相同性很 難建立。a此在音頻製造、存#及著作權料上極需建立 不同音頻記錄之可能相同性。 在製造數位音頻記錄中,在中間處理步驟f發生各種編 碼格式之許多不同版本並在各種不同電腦系統中分佈。在 大部分情形這些記錄並未在資料庫中檢查或相互參考,而 常由聽記錄決定二版次是否完全相同。自動程序將使此工 作大為簡化。 ,類似問題發生在需處理以各種編輯(如爵士或流行歌曲) 或具各種載體(如丁oscanini和NBC交塑绝廟 # u 9樂團之著名錄音)出現 之材料之音頻存擋。此記錄之原始主 士 土要口P分存檔數目常未 吾己載’而在大部分情形只可由聽音頻 視。己綠決定編輯之一軌 -4-
582022 A7 一 B7 五、發明説明(T~) 和另一聲音載體中相同作品記錄是否完全相同。 、=外著作權保護音頻卫業之重要議題並和使音頻記錄 複衣之產生及分散簡化之發明技術更相關。避免未授權複 製之架構雖解決一部分問題,但也需有方法可债測未受保 濩留傳材料之未授權才复製。{列如撕開CD將纟執内容以壓縮 格式分达給未授權的消費者是現今最常有的違反著作權, 而有些著作權知權是搜尋完全相同音頻記錄債測不到的。 一個範例是將現有記錄切成區段並將之縫合組成”新”件。 要能找i此種再使用必需有方法可偵側記錄不類a而記錄 區段類似,但區段邊界又事先不知道之情形。 未授權再使用之另一可能形式是在未變更或如轉換頻率 下,由音頻記錄引用句或聲音特性。找出此種轉換子組不 但對偵測可能之著作權侵權很重要,且是歷史及傳統材料 音樂學分析之有用工具。 相關技術 大部分目前可用之辨識音頻記錄常見技術和水印有關( 最近之技術參考 S. Katzenbeisser and F. Petitcolas eds.,
Infomiation Hiding : Techniques for steganography and digital water-marking,Boston 2000广這些技術利用插入一些聽不到 的抗轉碼資況修改音頻記錄’故不適用於已上市之材料。 另外現在的音頻產品很多是由較最終記錄節拍及頻率解析 高之多個軌或聲音記錄組〜成。要利用水印辨識這些中間資 料,在11些執混合為最終音流時水印需不能因干擾而被聽 到。故可能想要由特性特徵而非水印辨識這些材料。 -5- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 五、發明説明(3 S、元王相同g頻記錄之非侵入技術使用能譜之總 特f生做為曰頻兄錄之簽名。藉此稱為歐洲專利申請Ν〇·_ 月之d〇Cket n〇· DEe9-1999-0012)。如同所有總頻率為 土楚之技# &方法無法分辨相同材料之排列記錄,即往 走的曰k和彺下走的相同音階簽名相同。這些及類似總 方法之其它限制是對音頻資料局部變化如漸弱或漸強之抗 敏性。 登Ji概論 :本發明之-目的是用以改良辨識完全相同或類似音頻 圯錄區段或音頻記錄之系統及方法。 另-目的是提供可偵測記錄不相似但記錄區段相似,卻 先不知道區段邊界之系統及方法。 目的是提供可自動㈣音頻記錄或音頻記錄區段之 元全相同複製之系統及方法。 另一目的是即使局部修改及變形仍可辨識音頻材料。 另目的疋可建立以二不同格式特別是__ 儲存之一音頻流相似性或相同性。 @壓縮格式 以上目的由獨立之申請專利範㈣性解決 是本申請專利範圍之主題。 _ 丨貝把例 本發明之觀念是根據音頻材料之時頻 。該辨識架構由音頻記錄計算特性簽名,:#辨識架構 算不同音頻記錄間之距離-然後選擇完全相同】用此簽名计 明可自動債測音頻記錄之完全相同複製。;之記錄。本發 立自動處理找出可能之未授權複製 '使用此技術建 .6. 此錄音工業之著作 582022 五、發明說明(4 權實行會更好。 =點是所提架構利用局部特性而非總特性改良目前技術。 同:別是本發明可偵測音頻流或音頻流區段之相似性或相 ’即使它們是以不同格式提供及/或健存在不同物理載 因此可決定一編輯之音頻區段是否和另一音頻載體中 相同音頻作品之記錄完全相同。 二外可自動執依照本發明之方法,而甚至—或多個使用 者無法察覺。基於以上原賴提之架構可自動㈣音頻記 =之完全相同複製。可使用此技術建立自動化方法找出可 能之未授權複製,因此更能實行錄音工業之著作權。 以下利用實施例較詳細描述本發明,如此本發明特性及 優點會更清楚,其中 圖1之概略方塊圖揭示依照本發明之音頻簽名計算,其 中灰方塊代表選擇性元件; 圖2之流程圖說明依照本發明預處理主記錄之步驟; 圖 3 是 J.S. Bach之Wohltemperiertes klavier之Praeludium XIV之 記錄標準能譜,其中最大功率擾亂組具有一元素,而第二 強尖峰擾亂組具二元素;~ . 圖4是對圖3揭示之音樂所算標度1〇〇〇,頻率497出之 Gabor能量密度分割一區段; 圖5之流程圖說明依照·本發明將時頻能量密度分割量化 之步驟; 圖6是圖4所示頻率497 Hz及標度1〇〇〇區段之Gabor能量密 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 五、發明説明(5 ) 度分割條帶圖; 圖7疋圖4所示頻率497 Hz及標度ι〇〇〇區段之Gab〇r能量密 度分割累積條帶圖; 圖8是對圖4範例所算之497沿簽名原始數據,其中在樣 本單兀中開始及結束之樣本主要部分未合併執行; 圖9疋497 Hz簽名由圖8得到之合併資料,但為樣本主要 部分; 圖10之流程圖說明依照本發明在二音頻簽名間之距離計 算; 圖11之另一 /爪程圖說明依照本發明之Haus(jorff距離計算; 圖12是WAVE主要部分之497 Hz簽名和相同記錄之8 k位元 /秒之MPEG3壓縮版本間之Hausdorff距離,為主要及測試名 間之位移函數; … 圖13所示之橢圓組是依照本發明之分割作用標準結果; 圖14之範例樣板用於找出和樣板中區段相似或完全相同 之可能記錄點樣式中區段;以及 圖15顯示另一組橢圓,其中和圖14所示相同之樣數和在 此揭不之具填滿擴圓之二區段相符。 實施例細述 - 參照圖1 ’在計算音頻簽名60前利用適當措施將類比材 料數位化。
以下所述之音頻簽名由…音頻記錄10利用對數位音頻信號 進行以下步驟計算: f處理濾波IL -8 - 本紙張尺[適用中國國家標準(CNS)A4規格(210Χ297公爱) ^ ^ A7 B7 五、發明説明( ::之材料類型及相似性_,2〇可由非必要之遽波 :二理音頻資料。此渡波器範例為去除形成類比記錄之 :二雜訊、模擬人耳及auditory cortex處理之―却⑹丨 挑出獨奏樂器之前景/背景分隔。精於本技術者將 號中適預處理遽波器在時頻密度較在數位音頻信
信號X之時頻能量密 ,估计曰頻圮錄之時頻能量密度 度Px(t,v)定義為 —ΟΟ-ΚΛ 分等於信號之能量内容。 最常見的是Wigner-ViUe* 即特性為密度t時間t及頻率V積 已有多種估計時能密度之方法, 佈及窗傅立葉轉換得到之能譜。 40利用計算能量密度和一平 分割。然而密度平面相對於能 定向產生有效密度分割及可用 而並非所有定向產生之資訊有 正交之切割平面只有一特定時 以將一塊記錄切掉編輯之記錄 通常不適於偵測二記錄之相同 產生5己錄之時頻發展估計、,而 特定頻率在一段時間之發展。 無需決定整個能量密度即可計 面之父又決定一或多個密度 1密度時,頻及能軸之任何 於決定簽名,有些定向較佳 助於辨識記錄;任何和時軸 間事件之έ己錄能量密度。因 等效時間很難決定,故分割 性。和能軸垂直之切割平面 和頻軸垂直之切割平面檢查 在許多時頻能量密度估計, 算和頻軸密度正交之密度分 582022 Ά7 一 B7
剎。和能軸垂直之定向及和頻軸垂直之定向捕捉足夠之資 訊以辨識完全相同之記錄。真正選擇之定向和對辨識可: 出之計算成本以及所要之簽名抗失真性有關。 量密度分割 利用50提供適當量化轉換密度分割。真正選擇之量化资 度架構和分割定向及所要簽名精確性有關。實施例細述: 提供量化技術範例。要知道分割之辨識轉換導致有效量化 ’故此步驟為選擇性的。 二簽名可由量測其最佳校準間距而比較。通常所用度量 之選擇和量化密度分割對能量密度時,頻及能軸之定:; 關。在本發明二實施例描述中有此距離量測範例。和度量 有關之分隔值決定準則用於區別完全相同和不完全相 記錄。 以下細述二不同實施例。 一實施例 第一實施例描述本發明在密度分割和能量密度能軸正交 之特殊狀況應用及選擇度量以辨識完全相同之記錄。能量 度分佈得自信號之Gabor轉換(亦稱為具高氏窗之短時間傅 ,立葉轉換)。該實施例將具已知識別之音頻記錄(以下稱為 ’’全記錄”)和一組稱為”可能記錄”之其它音頻記錄比較。 其辨識為由使記錄消失或剪下頭尾所產生原版子串列之可 能記錄,但假設可能記錄無·如頻移或時間扭曲之轉換。 LJLMMAM- 如圖2流程圖所述預處理主記錄以選擇能量密度分佈之 -10 - 本紙張尺度適用巾S S家標準(CNS) A4規格X 297公董)—------一 —
裝
582022 \ί Β7 五、發明説明(8 分割平面。100計算信號之能譜,110選擇和最大能譜對應 之頻率並以此頻率將最大擾亂組起始化。能譜之下一突 出最大值能量120在130和最大能量比較,而14〇將這些最大 值之頻率和擾亂值相加直到能譜最大值及第二尖峰值位置 之此里在臨界’ thres’之下止。擾亂組之推論是對能值幾乎完 全相同之尖峰,尖峰次方及能譜最大值頻率可能由不同編 碼或壓縮架構變形。第一實施例所用之臨界值為1〇2。由 擾亂組可看出做為描述第一實施例範例之主記錄只包含頻 率497 Hz(圖4 )。對能量密度分割平面使用擾亂組元素,而 將預處理時計算之值儲存或送到計算時頻能量密度之模組。 1. 2時頻能詈密度計篡 對主記錄及所有可能記錄’計算頻譜最大值之擾亂組所 有元素時頻密度。在第一實施例,根據Gab〇T轉換之時頻密 度S為: ·+«〇 2 sx(t,v;h)^ 即使用高氏窗之短時間傅立葉轉換 h(z)^e'z/2°2 因可計算個別頻率之Gabor轉換,故無需明顯之分割作用而 只計算擾亂組之頻率能量密度。圖4顯示標度參數聊及頻 = 497 Hz之範例主記錄左頻道時頻能量密度區&。時頻能 量密度分割儲存或送到量化模組。 3時頻分割I仆 、- 圖5之流程圖描述時(TF)能量密度分割量化。在2〇〇讀出 TF能量分割,210功率值利用將之除以分割最大值歸為
裝 訂
線 -11 - 582022 A7~ _ _ B7 五、發明説明(9 ) 1。由歸一化分割220計算條帶圖及230累積條帶圖。第一實 施例所用條帶圖bin寬為0.01。由累積條帶圖,240利用決定 累積條帶圖值大於常數切割之最小指數jerd選擇切割值。 第一實施例所用之常數切割為0.95。在歸一化分割,250決 定大於perc *條帶圖bin寬之所有功率值,260決定執行所有 這些值、起始時間、結束時間、功率和及執行最大功率。 合併間隔小於間隙取樣之執行,計算合併執行之起始時間 ,終止時間、中央時間、平均功率及最大功率。此資料組 構成分割平面頻率之音頻記錄簽名並在270儲存於資料庫。 1 . 4量化時頻分割比較 第一實施例使用Hausdorff距離比較二簽名。對二有限點 組A及B,定義Hausdorff距離為 H(A,B)=max(h(A,B),h(B,A)) … 其中 /z(^5)==maxminlla~6l a^A b 龟β 第一實施例所用之norm是LI norm 〇 為建立主簽名和測試簽名間之相似值,第一實施例計算 主簽名和一組測試簽名之時頻複製間之Hausdorff距離,於 是決定主及測試簽名間最佳對準距離。精於本技術者將了 解圖10所示流程圖方法只是描述作用原則,而已有許多方 法計算點組及編譯點組間之對準需要之作用較少(見如D. Huttenlocher et al·,Comparing images using the Hausdorff distance,IEEE PAMI,15, 850-863,1993)。所用距離量測是根 據主及測試記錄完全相同只有些許漸強及漸弱之假設,要 -12- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 582022 A7 B7
偵測較嚴謹之編輯需使用不同度量及/或不同位移向量。 現參照圖10,在第一步驟300比較模組讀出主及測試記錄 之簽名。310計算位移向量,第一實施例檢查之位移範圍為 (-2*d,2*d),其中d為主及未位移測試記錄間之Hausd〇rff距 離。位移向量是10 msec步階寬之區間之線性空間。32〇計算 各位移之主簽名及位移測試簽名間之Hausd〇rff距離及34〇在 距離向量’distf儲存。主及樣板間距離為最小,⑴以,,即主及 測試簽名間之最佳對準距離。 圖11顯示Hausdorff距離計算流程。由主簽名及測試簽名 選擇及儲存π中間"值到一向量4〇〇。於距離向量42〇計算及 儲存主向量Μ之所有元素410和測試向量τ所有元素之距離 。430设疋此距離向量最大元素為距離,di’。在下一步驟計 异測試向量T之所有元素440和主向量Μ所有元素距離,並 儲存在距離向量450。460設定此距離向量之最大元素為距 離’d2’。470設定主簽名及測試簽名間Hausd〇rff距離為dl及d2 之最大值。 根據Hausdorff距離之臨界值決定主及樣板記錄是否相同 。只要主及測試間距小於或等於臨界,該二記錄視為相同 ;否則判定為不同。第一實施例所用臨界為50〇。 2 .第二f施例 第二實施例描述於密度分割和能量密度分佈能軸正交之 特殊狀況時應用本發明。〜該實施例將一或多個音頻記錄(,, 可能記錄’’)和具有被偵測主題或句子之樣板(”主記錄”)比 較。通#樣板為由和本實施例所述類似裝置處理之記錄時 -13- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
裝 訂
線 582022 A7 B7 五、發明説明(11 ) 間間隔。 如同第一實施例,所用之時頻轉換為Gabor轉換。π可能 記錄”之時頻密度利用如鋼琴頻率範圍之適當區間之對數 間隔頻率計算。此對數標度可轉譯為和標度值對應之最大 能量密度頻率。以此方式計算之時頻能量密度以和能軸正 交之平面分割。此分割作用之結果是圖13說明之橢圓組。 這些橢圓由triplet決定特性,triplet包含橢圓包圍之密度最 大或總能量和橢圓主軸交叉之時及頻座標。可使用如第一 實施例所述之標準技術找出和樣板中區段類似或完全相同 之可能記錄點樣式中區段.。圖14所示之樣板和圖15具塗黑 橢圓之二區段相符。可使用triplet之第三座標做為加權因數 以增加對準特性,即拒絕相符者中對準能量擾亂組不同者。 要知道因分割,可使用脊峰(R. Carmomet al,Practical Time-Frequency Analysis, Academic Press New York 1998)取代橢 圓。 -14- 本紙張尺度適用中國國家標準(CNS) A4規格(210 x 297公釐) 裝 訂
Claims (1)
- 582022 A8 B8 C8 D8 第090124511、號專利申請案 中文申請專利範圍替換本(92年4月) 申請專利範圍 1· 一種電腦化方法,用以決定第—音頻流之第一音頻區段 和至v第一曰頻區段之至少第二音頻區段間之相同性或 相似性,包含以下步驟: 將該音頻流至少第二音頻區段和第一音頻區段數位化; 由第一音頻區段和該至少第二音頻區段之至少一局部 特性計算特性簽名; 對準該至少二特性簽名; 比較该至少二對準特性簽名及計算對準特性簽名間之 距離;以及 根據決足之距離決定該至少二音頻區段間之相似性或 相同性。 2.如申請專利範圍第1項之方法,其中之特性簽名由能量 密度表示。 3·如申請專利範圍第2項之方法,其中之能量密度由時頻 能量密度表示。 4·如申請專利範圍第3項之方法,其中之時頻能量密度是 根據個別頻率計算之Gabor轉換。 5·如申請專利範圍第2至4項任一項之方法,其中利用計 算能量密度和一平面之交叉,算出至少一能量密度分 割。 6.如申請專利範圍第2至4項任一項之方法,其中算出 Haussdorff距離,以比較至少二特性簽名。 7·如申凊專利範圍第6項之方法,其中使用Haussdorff距離 臨界。 8·如申請專利範圍第2至4項任一項之方法,其中將能量 本纸張尺度適用中國國豕標準(CNS) A4規格(21〇X 297公釐) 58202厂—— 年刀 A8 B8 C8 D8 六、申請專利範圍 密度分割量化 9. 如申請專利範圍第2至4項任一員之线,提供具有決 足相同性或相似性之分隔值之決定準則。 10. -種系、统,用以決定第一音頻流之第1音頻區段和至少 第二音頻流之至少第二音頻區段之相同或相似性,包含: 用以將該音頻流至少第二音頻區段和第一音頻區段數 位化之裝置; 第處理裝置,用以由第一音頻區段及該至少第二音 頻區段之至少一局部特性算出特性簽名; 第二處理裝置,用以對準該至少二特性簽名; 第二處理裝置,用以比較該至少二對準特性簽名及算 出對準特性簽名間距離;以及 第四處理裝置,用以根據所決定距離決定該至少二音 頻區段間之相同性或相似性。 11. 如申請專利範圍第1〇項之系、纟Μ包含計算時頻能量密产 之裝置。 又 12·如申請專利範圍第ι〇或丨丨項之系統,另包含計算個別頻 率之Gabor轉換之裝置。 13.如申凊專利範圍第1 〇或11項之系統,另包含處理裝置用 以算出Haussdorff距離以比較至少二特性簽名。 14·如申請專利範圍第10或11項之系統,另包含處理裝置用 以將能量密度分割量化。 15·如申請專利範圍第10或11項之系統,包含處理裝置用以 提供具用以決定相同性或相似性之分隔值之決定準則。 -2- 本纸張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01106232 | 2001-03-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW582022B true TW582022B (en) | 2004-04-01 |
Family
ID=8176771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW090124511A TW582022B (en) | 2001-03-14 | 2001-10-04 | A method and system for the automatic detection of similar or identical segments in audio recordings |
Country Status (6)
Country | Link |
---|---|
US (1) | US20040093202A1 (zh) |
EP (1) | EP1393299B1 (zh) |
AT (1) | ATE343195T1 (zh) |
DE (1) | DE60215495T2 (zh) |
TW (1) | TW582022B (zh) |
WO (1) | WO2002073593A1 (zh) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7644282B2 (en) | 1998-05-28 | 2010-01-05 | Verance Corporation | Pre-processed information embedding system |
US6737957B1 (en) | 2000-02-16 | 2004-05-18 | Verance Corporation | Remote control signaling using audio watermarks |
WO2003084196A1 (en) * | 2002-03-28 | 2003-10-09 | Martin Dunsmuir | Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel |
EP2442566A3 (en) | 2002-10-15 | 2012-08-08 | Verance Corporation | Media Monitoring, Management and Information System |
EP1593272B1 (en) * | 2003-02-14 | 2017-08-30 | Thomson Licensing DTV | Automatic synchronization of audio and video based media services of media content |
US20060239501A1 (en) | 2005-04-26 | 2006-10-26 | Verance Corporation | Security enhancements of digital watermarks for multi-media content |
WO2005041109A2 (en) | 2003-10-17 | 2005-05-06 | Nielsen Media Research, Inc. | Methods and apparatus for identifiying audio/video content using temporal signal characteristics |
US8150683B2 (en) * | 2003-11-04 | 2012-04-03 | Stmicroelectronics Asia Pacific Pte., Ltd. | Apparatus, method, and computer program for comparing audio signals |
US8229751B2 (en) | 2004-02-26 | 2012-07-24 | Mediaguide, Inc. | Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals |
JP2008504741A (ja) * | 2004-06-24 | 2008-02-14 | ランドマーク、ディジタル、サーヴィセズ、エルエルシー | 2つのメディア・セグメントの重なりを特徴付ける方法 |
DE602005018776D1 (de) | 2004-07-01 | 2010-02-25 | Nippon Telegraph & Telephone | System für detektionssektion mit einem bestimmten akustischen signal, verfahren und programm dafür |
US8020004B2 (en) | 2005-07-01 | 2011-09-13 | Verance Corporation | Forensic marking using a common customization function |
US8781967B2 (en) | 2005-07-07 | 2014-07-15 | Verance Corporation | Watermarking in an encrypted domain |
US8078153B2 (en) * | 2006-04-29 | 2011-12-13 | 724 Solutions Software, Inc. | System and method for dynamic provisioning of contextual-based identities |
US8327024B2 (en) * | 2006-04-29 | 2012-12-04 | 724 Solutions Software, Inc. | System and method for SMS/IP interoperability |
EP2016717A2 (en) * | 2006-04-29 | 2009-01-21 | 724 Solutions Software Inc. | Platform for interoperability |
US7912894B2 (en) * | 2007-05-15 | 2011-03-22 | Adams Phillip M | Computerized, copy-detection and discrimination apparatus and method |
US8849432B2 (en) * | 2007-05-31 | 2014-09-30 | Adobe Systems Incorporated | Acoustic pattern identification using spectral characteristics to synchronize audio and/or video |
US8185815B1 (en) * | 2007-06-29 | 2012-05-22 | Ambrosia Software, Inc. | Live preview |
US8259938B2 (en) * | 2008-06-24 | 2012-09-04 | Verance Corporation | Efficient and secure forensic marking in compressed |
EP2382623B1 (en) * | 2009-01-26 | 2013-11-20 | Telefonaktiebolaget LM Ericsson (publ) | Aligning scheme for audio signals |
US8886531B2 (en) * | 2010-01-13 | 2014-11-11 | Rovi Technologies Corporation | Apparatus and method for generating an audio fingerprint and using a two-stage query |
US8855101B2 (en) | 2010-03-09 | 2014-10-07 | The Nielsen Company (Us), Llc | Methods, systems, and apparatus to synchronize actions of audio source monitors |
US8838978B2 (en) | 2010-09-16 | 2014-09-16 | Verance Corporation | Content access management using extracted watermark information |
CN102956238B (zh) | 2011-08-19 | 2016-02-10 | 杜比实验室特许公司 | 用于在音频帧序列中检测重复模式的方法及设备 |
US8923548B2 (en) | 2011-11-03 | 2014-12-30 | Verance Corporation | Extraction of embedded watermarks from a host content using a plurality of tentative watermarks |
US9323902B2 (en) | 2011-12-13 | 2016-04-26 | Verance Corporation | Conditional access using embedded watermarks |
US9571606B2 (en) | 2012-08-31 | 2017-02-14 | Verance Corporation | Social media viewing system |
US8869222B2 (en) | 2012-09-13 | 2014-10-21 | Verance Corporation | Second screen content |
US9106964B2 (en) | 2012-09-13 | 2015-08-11 | Verance Corporation | Enhanced content distribution using advertisements |
US9262794B2 (en) | 2013-03-14 | 2016-02-16 | Verance Corporation | Transactional video marking system |
US9251549B2 (en) | 2013-07-23 | 2016-02-02 | Verance Corporation | Watermark extractor enhancements based on payload ranking |
US10585941B2 (en) * | 2013-07-30 | 2020-03-10 | Ace Metrix, Inc. | Audio object search and analysis system |
US9208334B2 (en) | 2013-10-25 | 2015-12-08 | Verance Corporation | Content management using multiple abstraction layers |
WO2015138798A1 (en) | 2014-03-13 | 2015-09-17 | Verance Corporation | Interactive content acquisition using embedded codes |
US9641892B2 (en) | 2014-07-15 | 2017-05-02 | The Nielsen Company (Us), Llc | Frequency band selection and processing techniques for media source detection |
US11094335B1 (en) * | 2016-07-22 | 2021-08-17 | Educational Testing Service | Systems and methods for automatic detection of plagiarized spoken responses |
CN108447501B (zh) * | 2018-03-27 | 2020-08-18 | 中南大学 | 一种云存储环境下基于音频字的盗版视频检测方法与系统 |
WO2020055141A1 (en) | 2018-09-12 | 2020-03-19 | Samsung Electronics Co., Ltd. | Method and device for detecting duplicate content |
US10997986B2 (en) * | 2019-09-19 | 2021-05-04 | Spotify Ab | Audio stem identification systems and methods |
US11437038B2 (en) | 2020-12-11 | 2022-09-06 | International Business Machines Corporation | Recognition and restructuring of previously presented materials |
US11295583B1 (en) | 2021-05-04 | 2022-04-05 | Bank Of America Corporation | Quantum computing-based video alert system |
CN114359590B (zh) * | 2021-12-06 | 2024-11-01 | 蚂蚁区块链科技(上海)有限公司 | Nft图像作品侵权检测方法、装置、及计算机存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5210820A (en) * | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
US5754704A (en) * | 1995-03-10 | 1998-05-19 | Interated Systems, Inc. | Method and apparatus for compressing and decompressing three-dimensional digital data using fractal transform |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
GR1003625B (el) * | 1999-07-08 | 2001-08-31 | Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου | |
CA2310769C (en) * | 1999-10-27 | 2013-05-28 | Nielsen Media Research, Inc. | Audio signature extraction and correlation |
US6332116B1 (en) * | 2000-04-19 | 2001-12-18 | National Instruments Corporation | System and method for analyzing signals of rotating machines |
US7031980B2 (en) * | 2000-11-02 | 2006-04-18 | Hewlett-Packard Development Company, L.P. | Music similarity function based on signal analysis |
-
2001
- 2001-10-04 TW TW090124511A patent/TW582022B/zh not_active IP Right Cessation
-
2002
- 2002-02-19 US US10/472,109 patent/US20040093202A1/en not_active Abandoned
- 2002-02-19 DE DE60215495T patent/DE60215495T2/de not_active Expired - Lifetime
- 2002-02-19 WO PCT/EP2002/001719 patent/WO2002073593A1/en active IP Right Grant
- 2002-02-19 EP EP02718143A patent/EP1393299B1/en not_active Expired - Lifetime
- 2002-02-19 AT AT02718143T patent/ATE343195T1/de not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
WO2002073593A1 (en) | 2002-09-19 |
EP1393299B1 (en) | 2006-10-18 |
EP1393299A1 (en) | 2004-03-03 |
ATE343195T1 (de) | 2006-11-15 |
DE60215495T2 (de) | 2007-05-24 |
DE60215495D1 (de) | 2006-11-30 |
US20040093202A1 (en) | 2004-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW582022B (en) | A method and system for the automatic detection of similar or identical segments in audio recordings | |
Gouyon et al. | On the use of zero-crossing rate for an application of classification of percussive sounds | |
US6799158B2 (en) | Method and system for generating a characteristic identifier for digital data and for detecting identical digital data | |
Casey et al. | Analysis of minimum distances in high-dimensional musical spaces | |
JP4825800B2 (ja) | 楽曲分類方法 | |
Gómez et al. | Towards computer-assisted flamenco transcription: An experimental comparison of automatic transcription algorithms as applied to a cappella singing | |
Dannenberg et al. | Music structure analysis from acoustic signals | |
Kroher et al. | Automatic transcription of flamenco singing from polyphonic music recordings | |
EP1929411A2 (en) | Music analysis | |
EP1579419B1 (en) | Audio signal analysing method and apparatus | |
EP3796306B1 (en) | Audio stem identification systems and methods | |
Tzanetakis et al. | Audio information retrieval (AIR) tools | |
EP3796305B1 (en) | Audio stem identification systems and methods | |
Rajan et al. | Music genre classification by fusion of modified group delay and melodic features | |
Shirazi et al. | Improvement to speech-music discrimination using sinusoidal model based features | |
Marolt | On finding melodic lines in audio recordings | |
Jun et al. | Music structure analysis using self-similarity matrix and two-stage categorization | |
KR100974871B1 (ko) | 특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악장르 분류 방법 및 장치 | |
Marolt | Gaussian Mixture Models For Extraction Of Melodic Lines From Audio Recordings. | |
Gurunath Reddy et al. | Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method | |
Eronen | Signal processing methods for audio classification and music content analysis | |
Every | Discriminating between pitched sources in music audio | |
KR20060113093A (ko) | 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약장치, 방법 및 이를 구현하기 위한 프로그램이 저장된기록매체 | |
Hartmann et al. | Musical feature and novelty curve characterizations as predictors of segmentation accuracy | |
Mitri et al. | Automatic music classification problems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |