TWI447601B - 使用多個搜尋組合改良音訊/視訊指紋搜尋正確性之技術 - Google Patents
使用多個搜尋組合改良音訊/視訊指紋搜尋正確性之技術 Download PDFInfo
- Publication number
- TWI447601B TWI447601B TW097120917A TW97120917A TWI447601B TW I447601 B TWI447601 B TW I447601B TW 097120917 A TW097120917 A TW 097120917A TW 97120917 A TW97120917 A TW 97120917A TW I447601 B TWI447601 B TW I447601B
- Authority
- TW
- Taiwan
- Prior art keywords
- fingerprint
- query
- search
- audio
- found
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本發明是關於音訊及視訊指紋。本發明尤其是關於改良指紋搜尋正確性之精確度。
隨著數位內容之快速發展,已增加對正確地管理及定位內容之需求。一具有前景的應用是識別在一已知內容儲存庫內的音訊或視訊之摘錄。這可用於監測網際網路上的內容之非法下載/傳輸。其也可用於提供使用者正在收聽或觀看以及感興趣的內容之智慧存取,但是他們不知道該等內容之名稱或作者資訊。該使用者可(例如)將一行動電話靠近目前正在播放一歌曲的揚聲器旁,且讓行動電話經營者之軟體找出歌曲之名稱、其演唱者以及專輯資訊等。
此識別能力一般藉由首先產生特徵資訊(被稱為指紋)而實現,該特徵資訊被設計以唯一地識別音訊及視訊信號,接著在來自儲存庫/資料庫的指紋與來自該搜尋查詢內的摘錄的指紋之間執行某形式的型樣匹配搜尋。此一資料庫一般以一搜尋樹之形式實施,雖然其他資料結構也是可能的。一般而言,每個指紋對應音訊或視訊之某一片段。因此一兩秒音訊指紋將對應音訊之一兩秒片段。一指紋一般以一般被稱為簽章的特徵資訊之小的連續區塊實施。一兩秒指紋可(例如)由兩百個10毫秒(ms)長的簽章組成,其中
每個簽章自10ms的新音訊或視訊資訊計算出。因此,指紋之型樣匹配是一種用於比較對應簽章的程序。這在第1圖中被描述,顯示了自簽章產生一指紋。
為了在來自一查詢摘錄的指紋與來自該資料庫的指紋間執行正確的型樣匹配,至關重要的是在比較期間其兩者之間的正確的時間對準。為了確保此,一般以每個可能的時間偏移開始的所有指紋都被加到該資料庫以保證其等中的至少一者具有足夠接近該查詢指紋的時間對準。若一簽章是10ms長,則一兩秒指紋在一兩秒滑動視窗上每隔10ms被偏移,接著被加到該資料庫。這也在第1圖中被描述,且在此情況下,其在連續的指紋之間產生一99.5%重疊,但是此冗餘一般被需要以確保良好的搜尋效能。對於小於10ms(或者一般是每個簽章之期間)的任何其他時間未對準,一種良好設計的指紋產生方法應按照時序選擇較接近的簽章以較佳地匹配來自該查詢的對應簽章。簡而言之,一指紋搜尋系統之目的是為了找到一查詢指紋之對應的配對指紋,且若此種未對準存在,則該配對應最小化其與該查詢指紋的時間未對準。
因為查詢摘錄可能經歷一些編輯或處理步驟(例如使用一行動電話重新擷取自一揚聲器播放的聲音),在被擷取的音訊/視訊信號中可能具有一些失真。因此,假設具有一配對,則產生的指紋也可能相對於該資料庫內的其等配對稍微改變。
該摘錄內的失真之可能性表示此一搜尋內的最佳匹配
一般不是一相同的匹配,而是一種最接近匹配。為了定義最接近匹配需要定義兩指紋之間的差值之一測量。例如,差值之一般被使用的測量是漢明距離,即來自該查詢摘錄的指紋與來自該資料庫的指紋之間的不同位元之數目。利用差值之測量的定義,最接近匹配之對應準則是與來自該查詢摘錄的指紋具有最小漢明距離之來自該資料庫的指紋。以一指紋內的位元之數目相除的兩指紋之間的漢明距離一般被稱為位元錯誤率(BER)。該BER是相對差值之測量的一例子。當來自該摘錄的指紋與其配對之間的BER小時,最小漢明距離準則運作良好。然而,當BER增加時,產生逐漸增加的最小漢明距離的搜尋結果未找到實際的配對。幸運地是,在大多數指紋搜尋應用中,只需要識別正確的音訊/視訊,而並不需要識別對應的片段。但是當BER進一步增加時,該搜尋結果甚至可能找到錯誤的音訊/視訊,而漏掉在該音訊/視訊段內的正確的片段。該BER取決於該查詢摘錄內的失真程度以及該指紋取出方法相對於此等失真之強健性。
此外,一摘錄不屬於該資料庫內的任何音訊/視訊是可能的。例如,該摘錄可以是音樂之一新的樂曲之錄音。因為沒有任何搜尋演算法可預先知道(沒有被告知)一摘錄是否屬於該資料庫,所以其最佳做法仍是應用最小漢明距離之相同準則,但是預期在此等情況下找出的最小漢明距離非常不同於(較佳的是高於)源於該資料庫的一摘錄之最小漢明距離,且使用某一臨界值決定該摘錄是否來自該資料庫。
因此,在應用任何臨界值之前(例如,按照BER),在一個單一搜尋操作之後可能具有3個可能的結果(其中只有一個查詢指紋被用以搜尋該資料庫):該摘錄屬於該資料庫,且該搜尋返回正確的音訊/視訊(找到正確的音訊/視訊是足夠的,此處並不需要找到正確的配對片段)。
該摘錄屬於該資料庫,且該搜尋返回錯誤的音訊/視訊。
該摘錄不屬於該資料庫,且因為該搜尋總是返回某一音訊/視訊,所以答案將總是錯誤的。
第2圖顯示了一個單一搜尋之三個不同的可能結果之BER分佈之一例子。該等結果中的每個將產生該BER之一對應的機率密度函數(PDF)分佈。對於一良好設計的指紋取出演算法,第一結果之BER一般應比第二及第三結果之BER小,如第2圖中所描述。
然而,若第二與第三結果之BER具有非常類似的PDF分佈,則難以區別屬於該資料庫但是具有一錯誤搜尋結果的一摘錄與不屬於該資料庫的一摘錄。此外,對於源於該資料庫的音訊/視訊,在施加一般的音訊/視訊失真(例如,編碼解碼器壓縮)之後,一典型的實施態樣內的搜尋結果是正確的(按照識別該正確音訊/視訊)的機率一般在90至99%的範圍內,取決於在施加任何BER臨界值之前的指紋期間及失真之類型。這是良好的,但是一較高等級的正確性肯定是被期望的,且在施加BER臨界值之後(比如第2圖中的
BER=0.2),正確的搜尋結果之比率只是稍微減少,因為結果1之BER分佈之尾部被丟棄以避免錯誤地選擇太多結果2中的頭部分佈。這表示單獨微調該BER臨界值在單個搜尋中無法產生非常高的正確性(比如99.9%)。
依據本發明之一實施例,係特地提出一種用於識別音訊及/或視訊資訊之一片段的方法,包含以下步驟:獲得該片段內的多數個隔開的時間位置之每個上的一查詢指紋;對每個此查詢指紋在一資料庫內搜尋指紋以獲得一可能的匹配;對每個此查詢指紋,獲得該資料庫內的一被找出的指紋之一可能的匹配之一置信等級;以及組合可能的匹配之搜尋結果,其中每個可能的匹配結果被賦予一個別置信等級之權重。
第1圖是一特定類型的指紋可藉以產生的方式之一示意性例子;第2圖顯示了以一個單一指紋匹配搜尋之三個可能的結果中的每個可能產生的一機率密度函數(PDF)為位元錯誤率(BER)之函數的一理想的例子;第3圖是利用關於三個搜尋的多數決的進行指紋匹配搜尋結果組合之一例子的一示意性概念;第4a圖是關於三個搜尋的指紋匹配搜尋結果之一例子的示意性概念,其中時間位置對於三個可能的匹配中的兩者是一致的;
第4b圖是關於三個搜尋的指紋匹配搜尋結果之一例子的示意性概念,其中時間位置對於三個可能的匹配中的兩者是不一致的;第5圖是一置信等級可藉以被映射為位元錯誤率(BER)之一函數的方式之一例子;第6圖是用於理解該指紋查詢之時間與一資料庫內找到的指紋之時間之間的相對時間位置可被決定之方法的一理想化例子,在此例中使用線性迴歸;以及第7圖是一置信等級可藉以被映射為該指紋查詢之時間與一資料庫內找出的指紋之時間之間的相對時間位置內的時間差值之一函數的方式之一例子。
依據本發明之層面,一種用於識別音訊及/或視訊資訊之一片段的方法包含以下步驟:在該片段內的每個隔開的時間位置獲得一查詢指紋、在一資料庫內搜尋指紋以對每個此查詢指紋獲得一可能的匹配、對每個此查詢指紋獲得該資料庫內的一被找出的指紋之一可能匹配的一置信等級,且合併可能匹配的搜尋結果,其中每個可能的匹配結果被賦予一個別置信等級之權重。
一置信等級可以是以下中的至少一者或兩者之一函數:(1)一查詢指紋與一被找出的指紋之間的差值之測量;以及(2)一查詢指紋之時間位置與一被找出的指紋之時間位置之間的相對時序關係。該差值之測量可以基於漢明距離
或者其相對差值變體(例如,位元錯誤率),或者其可基於Lp範數,其中組成一指紋的一向量之每一維上的差值之絕對值的p次方之總和的一p次根被獲得。該Lp範數測量可以是一L2範數差值測量,其中差值之絕對值的平方和之一平方根被獲得。作為另一選擇,差值之測量可藉由自相關獲得,其中相關性之值表示匹配之接近度。
該置信等級可以是以下中的至少一者或二者之一函數中的每個之個別置信等級之一組合:(1)一查詢指紋與一被找出的指紋之間的差值之測量;以及(2)一查詢指紋之時間位置與一被找出的指紋之時間位置之間的相對時序關係。個別置信等級之組合可以是(例如)個別置信度之總和或者個別置信等級之乘積。
一置信等級可以是該查詢指紋之時間位置與該資料庫內的可能匹配的被找出的指紋之時間位置之間的至少相對時序關係的一函數,在此情況下,具有至少三個隔開的時間位置。
音訊及/或視訊資訊之片段內的隔開的時間位置可被隔開以最小化查詢指紋之間的相關性。
可以具有多組隔開的時間位置,關於這些組中的每個,可能的匹配之搜尋結果被組合。搜尋之結果可被組合進入每一組內,且此等組合之結果接著可被進一步組合。可選擇的方式是,搜尋之結果可在所有組之間被合併。
該資料庫內的指紋可能具有與該音訊及/或視訊資訊有關的相關元資料。此元資料可包括該音訊及/或視訊資訊
之至少一名稱。
一查詢指紋可以實質上相同的方式在該等隔開的時間位置中的每個上獲得。
一種用於組合來自多個搜尋的結果之簡單但是有用的方法是多數決。例如,如第3圖中所描述,若進行三個搜尋,其中兩者返回A則(piece),一者返回B則,則我們推斷最後的搜尋結果應是A則。若我們獲得三個不同的答案(A、B及C則),則沒有多數獲勝者,且答案是非決定性的。在此情況下,最佳地是推斷該摘錄不屬於該資料庫,因為若其確實屬於該資料庫,則三個搜尋給出三個不同的結果是相對較不可能的。
這可對任何數目的搜尋被一般化,利用以下所示的偽碼所描述的多數決(其中獲得多於一半票數者獲勝),或者實施者期望的任何投票方案(例如,具有大多數票數且沒有平手者獲勝)。一投票方案應被設計以利用機率分析最大化正確答案之數目且最小化錯誤答案之數目。例如,對於源於該資料庫的音訊/視訊,若一個單一搜尋具有98%的正確性,則只有在三個搜尋中的至少兩者是錯誤的時,則利用多數決組合三個搜尋會得到錯誤的結論3×0.98×0.022
+0.023 1.2×10-3
,因此組合的正確性應幾乎為99.9%。此機率分析假設每個搜尋彼此獨立,即搜尋之間沒有相關性。
用於使用多數決的搜尋組合之示範性偽碼可表示如下:
N=3;在該摘錄之時間t, t+d[1],…, t+d[N-1]分別執行N個指紋搜尋;若(>N/2的搜尋返回相同的A則)返回A則;否則返回“摘錄不屬於該資料庫”。
第3圖中的時間間隔d[1], d[2],…,被用以在不同的位置執行搜尋,且一般而言,它們應被選擇以最小化它們的對應搜尋片段之間的重疊以減少搜尋結果之間的任何不被期望的相關性。在非決定性投票之情況下,該組合程序可由多個搜尋之額外疊代被進一步級聯,且只在新的疊代中考慮該等投票,或者利用該實施者選擇的一投票方案組合先前的投票中的一些或所有。
看似如多數決此類的簡單方案可給出非常良好的結果。以上例子建議一幾乎99.9%之正確性,但是當該搜尋內具有錯誤之強烈叢發或相關性時,實際的正確性可能只是比原來的98%好一些:若一搜尋給出錯誤的結果,則一附近時間位置上的搜尋也可能給出錯誤的結果,且一般是相同的錯誤結果。這可能(例如)由於音訊/視訊之一些區域(例如,視訊中的高度動作片段或安靜的音訊信號)對失真(分別為低位元率壓縮或背景雜訊)較敏感而產生。這將會誤導一多數決策演算法認為其找到正確答案,但實際上沒有。除此之外,若一音訊/視訊不屬於該資料庫,則必須處理多於
一個搜尋可返回相同音訊/視訊之情況,因為其將產生一錯誤的多數獲勝者。
藉由使用本發明之層面,正確性可增加,甚至在存在此等叢發錯誤之情況下。這可(例如)藉由不僅組合來自每個搜尋結果的音訊/視訊之名稱資訊,而且組合附屬資訊(例如,在被找出的音訊/視訊內的該被找到的片段之時間位置)以及該搜尋結果之BER而實現。例如,在第4(a)圖中,若三個搜尋中的兩者返回A則,且該兩搜尋片段之時間位置相差5秒,則該兩搜尋結果內的被找出的片段之時間位置也應相差5秒(或者在某一錯誤邊限內)。若此未被滿足,如第4(b)圖,其是一錯誤的多數獲勝者幾乎是肯定的。這是一公平假設,因為若一搜尋返回錯誤的音訊/視訊,則其幾乎肯定是由於以下偶然事故:其恰巧是產生最小漢明距離的結果。因此,被找出的片段之時間位置應是相當隨機,而不是確定性的。因此,兩個錯誤的搜尋結果返回相同的錯誤音訊/視訊及一對一致接近的時間位置之機率相當低。實際的機率可藉由分析正確及錯誤的搜尋結果之時間位置的PDF分佈而被估計。
為了一般化具有N個搜尋的比較,其表示該等搜尋之時間位置之間的差值對於該等查詢及搜尋結果應是相同或接近的。然而,為了使此比較更易於以軟體實施,可計算出原始音訊/視訊與一搜尋結果內的摘錄之時間位置之間的偏移(即,差值),且此值在第4(a)及4(b)圖中被稱為toffset
。第一搜尋之偏移是toffset,|
,第二搜尋之偏移是toff
set,2
。對於
返回相同音訊/視訊的每對搜尋結果,則可計算出它們的toffset
之間的差值。接著,對於獲得最小差值的每對搜尋結果,若此最小差值小於某一臨界值(比如0.2秒),則其音訊/視訊名稱可被認為是最終的答案。這在以下用於使用附屬資訊的搜尋組合之偽碼中被描述,其中Min_t_offset_dist是最小差值,且Candidate表示獲得此最小值的搜尋(對)。一具有0.2秒之一示範性值的臨界值d_A被用以決定該結果是否足以信賴。
用於使用toffset
附屬資訊進行搜尋組合之示範性偽碼可表示如下:N=3;分別在該摘錄之時間t, t+d[1],…, t+d[N-1]執行N個指紋搜尋;Min_t_offset_dist=min(t offset,i
-t offset,j
,其中search[i].piece==search[j].piece,i<j); Candidate=argmin(t offset,i
-t offset,j
,其中search[i].piece===search[j].piece,i<j); d_A=0.2;若(Min_t_offset_dist<d_A && Candidate有>N/2票數)返回search[Candidate].piece;否則返回“摘錄不屬於該資料庫”;在以上偽碼中,"search[i]"表示來自第i個搜尋的結果,以及"search[i].piece"是該則被找出的音訊/視訊之識別資訊,例如其名稱。一種用以使用在以下描述的附屬資訊時序資訊之較一般的方法使用一時間測量tdistance
,而不是toffset
。
對於一大的N數目的搜尋,若較多搜尋返回相同的音訊
/視訊(若結果是正確的),則很清楚地,Min_t_offset_dist之值將較小。例如,若其餘都相等,則五個樣本之間的最小值肯定比三個樣本之間的最小值小。因此,我們可定義更多的臨界值,例如除了d_A之外的d_B、d_C,取決於幾個搜尋返回相同的音訊/視訊。這樣,可基於該多數決資訊(多少搜尋返回相同的音訊/視訊)智慧地使用附屬資訊(在此例中是toffset
)且達成較高的正確性。
若查詢內容經歷某加速或減速(其有時是廣播節目之情形),則該等查詢指紋之間的間隔對來自該等搜尋結果的指紋之間的間隔不再相同。而是它們將相對於該等查詢指紋之間的間隔慢慢地漂移開。為了處理此,可確保該等查詢指紋之間的間隔不會引起toffset
之偏差超過一臨界值(例如d_A)。或者,若具有足夠數目的票數,則可觀察該等查詢指紋與來自該等搜尋結果的指紋之間的時序相關性,其應產生一線性趨勢,其一斜率稍微高於或低於一,取決於其是否經歷加速或減速,假設沒有任何其他失真對來自該等搜尋結果的指紋之時序內的錯誤產生貢獻。接著,我們可使用該線性趨勢(例如,基於線性迴歸)之置信度之測量決定被組合的結果之置信度。此一線性迴歸之一例子在以下討論的第6圖中被顯示。
類似於toffset
之概念,若一搜尋結果內的BER非常低(其表示一非常接近的匹配),則該搜尋結果之正確性應被高度信任。然而,若BER高,則結果較不可信。此外,當多於一則音訊/視訊的附屬資訊被用於一邏輯AND方式時,並不
限制只對它們使用固定的臨界值。例如,若該臨界值d_A一開始為0.2秒且BER臨界值為12%,但是一目前的搜尋之BER極低(例如0.1%),則可將該臨界值d_A從0.2秒放寬至(比如)0.3秒,具有一強置信度。這可被稱為動態臨界。此動態臨界之調整的確切量可由實施者決定,使用機率分析以確保自此動態臨界產生的錯誤匹配之數目是可忽略的。
若該結果在組合三個搜尋之後是非決定性的,則不是放棄且斷言該摘錄不屬於該資料庫,而是可執行較多搜尋且組合所有結果。例如,在第4(b)圖之情形下,可執行多於兩個搜尋。若該摘錄實際屬於A則,但是第二搜尋不知未何返回錯誤的時間位置,則在有多於兩個搜尋之情況下,該兩搜尋中的一者非常可能也返回具有正確時間位置的A則。然而,當組合五個搜尋時,一投票方案之定義變得較複雜。在一簡化的實施態樣之例子中,可定義返回相同音訊/視訊且按照時間位置是最一致的兩個搜尋(五個中的)作為獲勝者,以"min"及"argmin"運算符被用於以上偽碼之方式。
因此,依據本發明之層面,指紋搜尋正確性可藉由組合來自多數個搜尋的結果而被改良。較佳地,依據本發明之其他層面,此等結果被智慧地組合。
在以上所描述的本發明之層面中,一種基於搜尋結果內的可用資訊之投票方法被用以改良指紋搜尋正確性。主要可用的資訊是被搜尋的音訊/視訊(查詢摘錄)之(假定的)名稱。附屬可用資訊(可實質上改良組合該等結果之正確性)包括如toffset
(如以上所描述的)或tdistance
以及一距離之測量
(例如,BER)此類的參數。該參數tdistance
表示該查詢音訊/視訊與該(等)被找出的音訊/視訊之間的時間位置之線性:該等時間位置越接近一直線(可藉由線性迴歸獲得),則關於該等結果之匹配應越可信任。該tdistance
參數在以下結合第6圖被進一步描述。
類似地,自漢明距離得到的BER表示被找出的音訊/片段與該查詢音訊/片段有多不同。BER越高,則它們彼此越不同,以及BER越低,則它們相對於彼此較少不同且較類似。若所有其他都相同,則具有一較低BER的匹配應該比具有一較高BER的匹配較值得確信的。
因此,附屬資訊之該等值表現它們對應的搜尋結果之置信度。一種用以智慧地組合它們的方法(在此被描述)是在組合該等結果期間使用附屬資訊之個別值的置信等級作為權重。第5圖顯示了以BER之一函數的置信等級之一例子。可稱此函數為f B
(BER
)。
雖然在先前例子中,BER被映射到一置信等級,但是此差值之測量對於本發明之不是關鍵的且其他形式的差值測量也可被使用。一指紋可被視為數字之一向量。在漢明距離及BER之情形下,其被視為一二進制數字之一向量(即,一二進制向量)。此一向量之每一維僅一位元,但是可設想除了二進制之外的其他數字之指紋向量,且每一維之大小甚至在不同的維之間可以是不同的,雖然其應是可預測的。因此,較一般地,差值之測量可以是一Lp範數測量,其中組成一指紋的一向量之每一維上的距離之絕對值之p
次方之總和的p次根被獲得。該BER基於漢明距離,其是一L1範數差值測量(每一維上的差值之絕對值的總和,每一維是1位元)。也可有L2範數差值測量(其中差值之絕對值的平方和之平方根被獲得),雖然當每一維是1位元時,L2範數類似L1範數。也可具有藉由自相關的差值測量,其中一較高值表示較接近的匹配。
類似地,可測量一資料庫內的與一查詢指紋之一可能匹配之時間位置離被假設的位置多遠,如(例如)藉由線性迴歸所預測的。這在第6圖中被顯示,其中timequery
是查詢指紋之時間位置,以及timefound
是被找出的音訊/視訊內的一可能匹配的指紋之時間位置,且該兩個值對被顯示為第6圖中的菱形。接著線性迴歸在該等菱形點上被執行。每一菱形點與其產生的線性迴歸預測(直線)之偏差被稱為時間位置距離或tdistance
(被顯示為第6圖中的垂直線)。接著可將此距離映射到一置信等級,如第7圖中所示。我們可稱此函數為f l
(t distance
)。任何適合類型的線性迴歸可被使用。用以移除離群值的各種技術可在執行線性迴歸之前被使用或者作為線性迴歸程序之部分。
如以上所提到的,該tdistance
參數是該參數toffset
之較一般的形式。一使用該toffset
參數之例子在第4a及4b圖中被顯示。其測量該查詢摘錄內的一時間位置與一匹配內的對應時間位置之間的偏移。若連續的指紋匹配是正確的,則其應大約為一常數,但是當沒有加速或減速時,並不需要接近零(因為查詢內容之不確定的絕對時間)值。該參數tdistance
較一般,如第6圖中所示。其測量一樣本點(其X及Y座標分別是該查詢摘錄與該匹配內的時間位置)與藉由任何各種適合形式的線性迴歸所獲得直線之間的垂直距離。若其對應一良好匹配,則該tdistance
參數被認為接近零。tdistance
之概念甚至在具有加速或減速時也可用,因為其使用線性迴歸且其沒有假設線性迴歸之斜率為1,如同toffset
參數所執行的。也應注意到的是,因為tofsett
參數假設一1之斜率,所以可能對僅兩個時間位置檢查toffset
之一致性。然而,當使用tdistance
時,因為沒有假設斜率為1,所以至少需要三個時間位置以獲得一非顯然的線性迴歸(雖然若期望,可使用至少兩個時間位置以獲得一線性迴歸,接著丟棄遠離1之斜率的任何斜率)。
注意到在第7圖中,該置信等級比第5圖中降落得快得多。這是因為我們預期在典型的實施態樣中,BER之容限可能相當高,而tdistance
之任何非顯然量是該結果較不可信賴得多的一指示。除此之外,因為兩個點總是產生完美通過它們的一直線,所以基於tdistance
的置信等級之使用應只在具有三個或更多個點之情況下被考慮。
依據本發明之層面的用於組合置信等級且智慧地決定搜尋結果之結果的一程序之一例子在以下偽碼中被顯示。
用於組合置信等級且決定搜尋結果之結果的示範性偽碼可被表示如下:For (X in set of unique pieces in the results){For (i in where search[i].piece==X){Confidencel=f B
(search[i].BER);
If (the set where results[i].piece==X has>=3 points)Confidence2=ft (search[i].t_distance); Else Confidence2=0; Total_score[X]+=Confidencel+Confidence2;}Pick X for which Total_score[X] is the highest; If (Total_score[X]>threshold)Return "the query excerpt is piece X"; Else Return "unknown query excerpt";
如該偽碼中所指示的,首先將BER及tdistance
映射到它們對應的置信等級,接著組合它們。在此例子中,該組合僅僅是一求和運算,雖然可使用其他運算,例如乘法(於是該等置信等級必須為非負),只要該組合操作相對於每個置信等級是一單調非減少函數。若f B
()總是返回1,且f t
()總是返回0,且變數"threshold"具有值N/2(其中N是被執行的搜尋之數目),則以該偽碼表示的程序被簡化為一簡單的多數決方案。實際上,應選擇該等函數f B
()及f t
()使得它們最大化最後輸出是正確的機率。
本發明可以硬體或軟體或其二者之一組合(例如,可規劃邏輯陣列)實施。除非被另外指明,否則被包括為本發明之部分的方法或演算法並不固有地與任何特定電腦或其他裝置相關。特別地,各種通用機器可與依據此處的教示撰寫的程式一起被使用,或者製造較專用裝置(例如,積體電路)以執行所需的方法步驟可能是較方便的。因此,本發明
可以在一或多個可規劃電腦系統上執行的一或多個電腦程式實施,該等可規劃電腦系統各自包含至少一處理器、至少一資料儲存系統(包括依電性及非依電性記憶體及/或儲存元件)、至少一輸入裝置或埠以及至少一輸出裝置或埠。程式碼被施加給輸入資料以執行本文所描述的功能且產生輸出資訊。該輸出資訊以已知方式被施加給一或多個輸出裝置。
每個此程式可以任何期望的電腦語言(包括機器、組合或高階程序、邏輯或以物件為導向的程式語言)實施以與一電腦系統進行通訊。在任何情況下,該語言可以是一編譯或解譯語言。
每個此電腦程式較佳地被儲存在或下載到一可由一般或通用可規劃電腦讀取的儲存媒體或裝置(例如,固態記憶體或媒體或者磁或光學媒體)以當該儲存媒體或裝置被該電腦系統讀取時組配及操作該電腦以執行本文所描述的程序。本發明系統也可被認為需被實施為被組配一電腦程式的電腦可讀儲存媒體,其中被如此組配的儲存媒體使一電腦系統以一特定及預定方式操作以執行本文所描述的功能。
本發明之一些實施例已被描述。然而,將明白的是,在不背離本發明之精神及範圍下,可進行各種修改。例如,以上所描述的一些步驟可以與順序無關,因此可以不同於所描述的順序被執行。因此,其他實施例仍落於以下申請專利範圍之範圍內。
第1圖是一特定類型的指紋可藉以產生的方式之一示意性例子;第2圖顯示了以一個單一指紋匹配搜尋之三個可能的結果中的每個可能產生的一機率密度函數(PDF)為位元錯誤率(BER)之函數的一理想的例子;第3圖是利用關於三個搜尋的多數決的進行指紋匹配搜尋結果組合之一例子的一示意性概念;第4a圖是關於三個搜尋的指紋匹配搜尋結果之一例子的示意性概念,其中時間位置對於三個可能的匹配中的兩者是一致的;第4b圖是關於三個搜尋的指紋匹配搜尋結果之一例子的示意性概念,其中時間位置對於三個可能的匹配中的兩者是不一致的;第5圖是一置信等級可藉以被映射為位元錯誤率(BER)之一函數的方式之一例子;第6圖是用於理解該指紋查詢之時間與一資料庫內找到的指紋之時間之間的相對時間位置可被決定之方法的一理想化例子,在此例中使用線性迴歸;以及第7圖是一置信等級可藉以被映射為該指紋查詢之時間與一資料庫內找出的指紋之時間之間的相對時間位置內的時間差值之一函數的方式之一例子。
Claims (13)
- 一種用於識別一音訊及/或視訊資訊之片段的方法,包含以下步驟:獲得該片段內在多個隔開的時間位置中各個位置處的一查詢指紋;針對每個此查詢指紋搜尋在一指紋資料庫內之指紋以尋求一可能的匹配;針對每個此查詢指紋,獲得對該資料庫內的一被找出指紋之一可能的匹配之一置信等級,其中該置信等級係該查詢指紋之時間位置與該被找出指紋之時間位置之間的相對時序關係之一函數;以及組合對於可能的匹配之搜尋結果,以識別該音訊及/或視訊資訊之片段,或推斷該片段不屬於該資料庫,其中每個可能的匹配之結果係以一個別置信等級予以加權。
- 如申請專利範圍第1項所述之方法,其中該置信等級亦是該查詢指紋與該被找出指紋之間的差異之一測量值的一函數。
- 如申請專利範圍第2項所述之方法,其包含下列步驟:若一搜尋所具查詢指紋與被找出指紋間之相對時序上的一最小差異小於一臨界值,則從該一搜尋識別該音訊及/或視訊之片段,其中該臨界值取決於識別出音訊及/或視訊之相同片段的搜尋數目而改變。
- 如申請專利範圍第2項所述之方法,其中: 該查詢指紋之時間位置與該被找出指紋之時間位置之間的該相對時序關係為時間位置上之一差值,及若該等查詢指紋與被找出指紋之間的時間上差值係一最小值且小於在查詢指紋與被找出指紋間之差異的該測量值為低時所產生的一動態臨界值,則查詢指紋即被視為識別出一音訊及/或視訊資訊之片段。
- 如申請專利範圍第1至4項中任一項所述之方法,其中該等時間位置被隔開以使查詢指紋之間或之中的該等搜尋結果之相關性最小化。
- 如申請專利範圍第5項所述之方法,其中有多組隔開的時間位置,且對於各該等多組之搜尋結果被組合。
- 如申請專利範圍第6項所述之方法,其中該等搜尋結果在每一組內被組合,且此等組合之結果被進一步組合。
- 如申請專利範圍第6項所述之方法,其中該等搜尋結果跨越所有組而組合。
- 如申請專利範圍第6項所述之方法,其中有至少三個隔開的時間位置。
- 如申請專利範圍第9項所述之方法,其包含使用該查詢指紋之時間位置與在該等時間位置之該可能匹配被找出指紋之時間位置之間的相對時序關係之線性趨勢的置信度之測量值,來決定被組合的該等搜尋結果之置信度。
- 如申請專利範圍第1至4項中任一項所述之方法,其中:該等搜尋結果係藉由一投票方案予以組合, 在非決定性投票之情況下,該組合係由多個搜尋之額外疊代予以級聯,及投票僅在新的疊代中被考慮或者與一些或所有先前的投票予以組合。
- 一種適於執行用於識別音訊及/或視訊資訊之片段的方法之裝置,該方法係如申請專利範圍第1至11項中任一項之方法,該裝置包含:用以獲得該片段內在多個隔開的時間位置中各個位置處的一查詢指紋之構件;用以針對每個此查詢指紋搜尋在一指紋資料庫內之指紋以尋求一可能的匹配之構件;用以針對每個此查詢指紋獲得對該資料庫內的一被找出指紋之一可能的匹配之一置信等級之構件,其中該置信等級係該查詢指紋之時間位置與該被找出指紋之時間位置之間的相對時序關係之一函數;以及用以組合對於可能的匹配之搜尋結果以識別該音訊及/或視訊資訊之片段或推斷該片段不屬於該資料庫之構件,其中每個可能的匹配之結果係以一個別置信等級予以加權。
- 一種儲存有電腦程式之電腦可讀媒體,該電腦程式係用以致使一電腦執行如申請專利範圍第1至11項中任一項之方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US93361407P | 2007-06-06 | 2007-06-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200912681A TW200912681A (en) | 2009-03-16 |
TWI447601B true TWI447601B (zh) | 2014-08-01 |
Family
ID=39764983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW097120917A TWI447601B (zh) | 2007-06-06 | 2008-06-05 | 使用多個搜尋組合改良音訊/視訊指紋搜尋正確性之技術 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8266142B2 (zh) |
EP (1) | EP2168061A1 (zh) |
JP (1) | JP5090523B2 (zh) |
CN (1) | CN101681381B (zh) |
TW (1) | TWI447601B (zh) |
WO (1) | WO2008150544A1 (zh) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100215210A1 (en) * | 2008-05-21 | 2010-08-26 | Ji Zhang | Method for Facilitating the Archiving of Video Content |
US8611701B2 (en) * | 2008-05-21 | 2013-12-17 | Yuvad Technologies Co., Ltd. | System for facilitating the search of video content |
US20100215211A1 (en) * | 2008-05-21 | 2010-08-26 | Ji Zhang | System for Facilitating the Archiving of Video Content |
US8548192B2 (en) * | 2008-05-22 | 2013-10-01 | Yuvad Technologies Co., Ltd. | Method for extracting a fingerprint data from video/audio signals |
WO2009140824A1 (en) * | 2008-05-22 | 2009-11-26 | Yuvad Technologies Co., Ltd. | A system for identifying motion video/audio content |
US20100169911A1 (en) * | 2008-05-26 | 2010-07-01 | Ji Zhang | System for Automatically Monitoring Viewing Activities of Television Signals |
US8335786B2 (en) * | 2009-05-28 | 2012-12-18 | Zeitera, Llc | Multi-media content identification using multi-level content signature correlation and fast similarity search |
US8195689B2 (en) | 2009-06-10 | 2012-06-05 | Zeitera, Llc | Media fingerprinting and identification system |
CN102216952B (zh) * | 2008-11-17 | 2013-06-05 | 杜比实验室特许公司 | 通过矩不变量的投影可靠地与媒体内容对应的媒体指纹 |
US20100138411A1 (en) * | 2008-11-30 | 2010-06-03 | Nexidia Inc. | Segmented Query Word Spotting |
US8635211B2 (en) | 2009-06-11 | 2014-01-21 | Dolby Laboratories Licensing Corporation | Trend analysis in content identification based on fingerprinting |
US8644622B2 (en) * | 2009-07-30 | 2014-02-04 | Xerox Corporation | Compact signature for unordered vector sets with application to image retrieval |
JP5440051B2 (ja) * | 2009-09-11 | 2014-03-12 | 株式会社Jvcケンウッド | コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置 |
US8677400B2 (en) | 2009-09-30 | 2014-03-18 | United Video Properties, Inc. | Systems and methods for identifying audio content using an interactive media guidance application |
US8161071B2 (en) | 2009-09-30 | 2012-04-17 | United Video Properties, Inc. | Systems and methods for audio asset storage and management |
US20110085781A1 (en) * | 2009-10-13 | 2011-04-14 | Rovi Technologies Corporation | Content recorder timing alignment |
US8428955B2 (en) * | 2009-10-13 | 2013-04-23 | Rovi Technologies Corporation | Adjusting recorder timing |
US8682145B2 (en) | 2009-12-04 | 2014-03-25 | Tivo Inc. | Recording system based on multimedia content fingerprints |
US8606293B2 (en) | 2010-10-05 | 2013-12-10 | Qualcomm Incorporated | Mobile device location estimation using environmental information |
US8543562B2 (en) * | 2010-11-18 | 2013-09-24 | Sling Media Pvt Ltd | Automated searching for solutions to support self-diagnostic operations of web-enabled devices |
US8483725B2 (en) | 2010-12-03 | 2013-07-09 | Qualcomm Incorporated | Method and apparatus for determining location of mobile device |
US9317561B2 (en) | 2010-12-30 | 2016-04-19 | Dolby Laboratories Licensing Corporation | Scene change detection around a set of seed points in media data |
CN102622353B (zh) * | 2011-01-27 | 2013-10-16 | 天脉聚源(北京)传媒科技有限公司 | 一种固定音频检索方法 |
US9143571B2 (en) * | 2011-03-04 | 2015-09-22 | Qualcomm Incorporated | Method and apparatus for identifying mobile devices in similar sound environment |
US8706499B2 (en) * | 2011-08-16 | 2014-04-22 | Facebook, Inc. | Periodic ambient waveform analysis for enhanced social functions |
US9113202B1 (en) * | 2011-09-21 | 2015-08-18 | Google Inc. | Inverted client-side fingerprinting and matching |
US8433577B2 (en) | 2011-09-27 | 2013-04-30 | Google Inc. | Detection of creative works on broadcast media |
US8892572B2 (en) * | 2011-12-30 | 2014-11-18 | Cellco Partnership | Video search system and method of use |
US8681950B2 (en) | 2012-03-28 | 2014-03-25 | Interactive Intelligence, Inc. | System and method for fingerprinting datasets |
US9202255B2 (en) * | 2012-04-18 | 2015-12-01 | Dolby Laboratories Licensing Corporation | Identifying multimedia objects based on multimedia fingerprint |
EP2670157B1 (en) | 2012-06-01 | 2019-10-02 | Koninklijke KPN N.V. | Fingerprint-based inter-destination media synchronization |
US8959022B2 (en) * | 2012-07-03 | 2015-02-17 | Motorola Solutions, Inc. | System for media correlation based on latent evidences of audio |
CN103575323B (zh) * | 2012-07-30 | 2016-03-30 | 日电(中国)有限公司 | 占用检测方法及装置 |
CN103021440B (zh) * | 2012-11-22 | 2015-04-22 | 腾讯科技(深圳)有限公司 | 一种音频流媒体的跟踪方法及系统 |
US9529907B2 (en) * | 2012-12-31 | 2016-12-27 | Google Inc. | Hold back and real time ranking of results in a streaming matching system |
US20140280304A1 (en) * | 2013-03-15 | 2014-09-18 | Steven D. Scherf | Matching versions of a known song to an unknown song |
US9659014B1 (en) * | 2013-05-01 | 2017-05-23 | Google Inc. | Audio and video matching using a hybrid of fingerprinting and content based classification |
CN103440330A (zh) * | 2013-09-03 | 2013-12-11 | 网易(杭州)网络有限公司 | 一种音乐节目信息获取方法和设备 |
TWI527025B (zh) | 2013-11-11 | 2016-03-21 | 財團法人資訊工業策進會 | 電腦系統、音訊比對方法及其電腦可讀取記錄媒體 |
GB2523311B (en) * | 2014-02-17 | 2021-07-14 | Grass Valley Ltd | Method and apparatus for managing audio visual, audio or visual content |
CN104991946B (zh) * | 2015-07-13 | 2021-04-13 | 联想(北京)有限公司 | 一种信息处理方法、服务器和用户设备 |
US9836535B2 (en) * | 2015-08-25 | 2017-12-05 | TCL Research America Inc. | Method and system for content retrieval based on rate-coverage optimization |
CN105138886B (zh) * | 2015-08-26 | 2017-03-22 | 江苏久祥汽车电器集团有限公司 | 机器人生物体征识别系统 |
US10606879B1 (en) * | 2016-02-29 | 2020-03-31 | Gracenote, Inc. | Indexing fingerprints |
CN106910494B (zh) | 2016-06-28 | 2020-11-13 | 创新先进技术有限公司 | 一种音频识别方法和装置 |
TWI612516B (zh) * | 2016-08-25 | 2018-01-21 | 財團法人資訊工業策進會 | 聲紋辨識裝置、聲紋辨識方法及其電腦程式產品 |
CN107515931B (zh) * | 2017-08-28 | 2023-04-25 | 华中科技大学 | 一种基于聚类的重复数据检测方法 |
EP3561689A1 (en) * | 2018-04-23 | 2019-10-30 | QlikTech International AB | Knowledge graph data structures and uses thereof |
US10832692B1 (en) * | 2018-07-30 | 2020-11-10 | Amazon Technologies, Inc. | Machine learning system for matching groups of related media files |
CN111008301B (zh) * | 2019-12-19 | 2023-08-15 | 新华智云科技有限公司 | 一种以图搜视频的方法 |
CN111489757B (zh) * | 2020-03-26 | 2023-08-18 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020083060A1 (en) * | 2000-07-31 | 2002-06-27 | Wang Avery Li-Chun | System and methods for recognizing sound and music signals in high noise and distortion |
TW200519616A (en) * | 2003-10-17 | 2005-06-16 | Nielsen Media Res Inc | Methods and apparatus for identifying audio/video content using temporal signal characteristics |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7289643B2 (en) * | 2000-12-21 | 2007-10-30 | Digimarc Corporation | Method, apparatus and programs for generating and utilizing content signatures |
US5841888A (en) * | 1996-01-23 | 1998-11-24 | Harris Corporation | Method for fingerprint indexing and searching |
US5715518A (en) * | 1996-03-06 | 1998-02-03 | Cellular Technical Services Company, Inc. | Adaptive waveform matching for use in transmitter identification |
US7013301B2 (en) * | 2003-09-23 | 2006-03-14 | Predixis Corporation | Audio fingerprinting system and method |
US7277766B1 (en) * | 2000-10-24 | 2007-10-02 | Moodlogic, Inc. | Method and system for analyzing digital audio files |
KR100893671B1 (ko) * | 2001-02-12 | 2009-04-20 | 그레이스노트, 인크. | 멀티미디어 콘텐트의 해시들의 생성 및 매칭 |
AU2002346116A1 (en) * | 2001-07-20 | 2003-03-03 | Gracenote, Inc. | Automatic identification of sound recordings |
US7127106B1 (en) * | 2001-10-29 | 2006-10-24 | George Mason Intellectual Properties, Inc. | Fingerprinting and recognition of data |
US6859804B2 (en) * | 2002-06-11 | 2005-02-22 | The Regents Of The University Of California | Using histograms to introduce randomization in the generation of ensembles of decision trees |
US8055503B2 (en) * | 2002-10-18 | 2011-11-08 | Siemens Enterprise Communications, Inc. | Methods and apparatus for audio data analysis and data mining using speech recognition |
US20040153444A1 (en) * | 2003-01-30 | 2004-08-05 | Senders Steven L. | Technique for effectively providing search results by an information assistance service |
US7970644B2 (en) * | 2003-02-21 | 2011-06-28 | Accenture Global Services Limited | Electronic toll management and vehicle identification |
US20060229878A1 (en) * | 2003-05-27 | 2006-10-12 | Eric Scheirer | Waveform recognition method and apparatus |
US20040258280A1 (en) * | 2003-06-23 | 2004-12-23 | Canadian Bank Note Company, Ltd. | Optical document authentication system |
ATE509207T1 (de) | 2003-07-10 | 2011-05-15 | Skf Ab | Lagereinheit mit lot- oder hartlotverbindung |
WO2005011281A1 (en) * | 2003-07-25 | 2005-02-03 | Koninklijke Philips Electronics N.V. | Method and device for generating and detecting fingerprints for synchronizing audio and video |
US20070071330A1 (en) * | 2003-11-18 | 2007-03-29 | Koninklijke Phillips Electronics N.V. | Matching data objects by matching derived fingerprints |
FR2863080B1 (fr) * | 2003-11-27 | 2006-02-24 | Advestigo | Procede d'indexation et d'identification de documents multimedias |
US7519954B1 (en) * | 2004-04-08 | 2009-04-14 | Mcafee, Inc. | System and method of operating system identification |
US8688248B2 (en) * | 2004-04-19 | 2014-04-01 | Shazam Investments Limited | Method and system for content sampling and identification |
DE102004023436B4 (de) * | 2004-05-10 | 2006-06-14 | M2Any Gmbh | Vorrichtung und Verfahren zum Analysieren eines Informationssignals |
EP1779659B1 (en) * | 2004-08-12 | 2020-10-07 | Gracenote Inc. | Selection of content from a stream of video or audio data |
US20060265436A1 (en) * | 2005-05-20 | 2006-11-23 | Andrew Edmond | Grid network for distribution of files |
US7991770B2 (en) * | 2005-11-29 | 2011-08-02 | Google Inc. | Detecting repeating content in broadcast media |
US20090006337A1 (en) * | 2005-12-30 | 2009-01-01 | Mediaguide, Inc. | Method and apparatus for automatic detection and identification of unidentified video signals |
US7899625B2 (en) * | 2006-07-27 | 2011-03-01 | International Business Machines Corporation | Method and system for robust classification strategy for cancer detection from mass spectrometry data |
US7979464B2 (en) * | 2007-02-27 | 2011-07-12 | Motion Picture Laboratories, Inc. | Associating rights to multimedia content |
US7983915B2 (en) * | 2007-04-30 | 2011-07-19 | Sonic Foundry, Inc. | Audio content search engine |
-
2008
- 2008-06-04 EP EP08794341A patent/EP2168061A1/en not_active Withdrawn
- 2008-06-04 WO PCT/US2008/007054 patent/WO2008150544A1/en active Application Filing
- 2008-06-04 CN CN2008800188850A patent/CN101681381B/zh not_active Expired - Fee Related
- 2008-06-04 JP JP2010511189A patent/JP5090523B2/ja not_active Expired - Fee Related
- 2008-06-04 US US12/663,057 patent/US8266142B2/en not_active Expired - Fee Related
- 2008-06-05 TW TW097120917A patent/TWI447601B/zh not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020083060A1 (en) * | 2000-07-31 | 2002-06-27 | Wang Avery Li-Chun | System and methods for recognizing sound and music signals in high noise and distortion |
TW200519616A (en) * | 2003-10-17 | 2005-06-16 | Nielsen Media Res Inc | Methods and apparatus for identifying audio/video content using temporal signal characteristics |
Also Published As
Publication number | Publication date |
---|---|
CN101681381A (zh) | 2010-03-24 |
US8266142B2 (en) | 2012-09-11 |
JP5090523B2 (ja) | 2012-12-05 |
US20100205174A1 (en) | 2010-08-12 |
TW200912681A (en) | 2009-03-16 |
JP2010530100A (ja) | 2010-09-02 |
WO2008150544A1 (en) | 2008-12-11 |
CN101681381B (zh) | 2012-11-07 |
EP2168061A1 (en) | 2010-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI447601B (zh) | 使用多個搜尋組合改良音訊/視訊指紋搜尋正確性之技術 | |
EP2685450B1 (en) | Device and method for recognizing content using audio signals | |
US8886635B2 (en) | Apparatus and method for recognizing content using audio signal | |
US8335786B2 (en) | Multi-media content identification using multi-level content signature correlation and fast similarity search | |
Miller et al. | Audio fingerprinting: nearest neighbor search in high dimensional binary spaces | |
US7715934B2 (en) | Identification of input files using reference files associated with nodes of a sparse binary tree | |
CN100437572C (zh) | 音频指纹识别系统和方法 | |
EP2657884B1 (en) | Identifying multimedia objects based on multimedia fingerprint | |
US10803119B2 (en) | Automated cover song identification | |
BRPI0112901B1 (pt) | métodos para reconhecer uma amostra de áudio, e, sistema de computador para realizar o mesmo | |
JP2007519986A (ja) | 導出されたフィンガープリントのマッチングによるデータオブジェクトのマッチング | |
US20030236787A1 (en) | System and method providing automated margin tree analysis and processing of sampled data | |
US20140280304A1 (en) | Matching versions of a known song to an unknown song | |
US10657175B2 (en) | Audio fingerprint extraction and audio recognition using said fingerprints | |
CN103198293A (zh) | 用于指纹识别视频的系统和方法 | |
US10614312B2 (en) | Method and apparatus for determining signature actor and identifying video based on probability of appearance of signature actor | |
US20150310008A1 (en) | Clustering and synchronizing multimedia contents | |
US10534777B2 (en) | Systems and methods for continuously detecting and identifying songs in a continuous audio stream | |
US11907288B2 (en) | Audio identification based on data structure | |
KR20180027209A (ko) | 오디오 핑거프린트 추출 장치 및 방법 | |
Leonzio et al. | Audio splicing detection and localization based on acquisition device traces | |
CN113420178A (zh) | 一种数据处理方法以及设备 | |
Kumar et al. | An efficient space partitioning tree approach for indexing and retrieving fingerprint databases | |
KR101302568B1 (ko) | 허밍 질의 기반 음원 검색 고속화 시스템 및 그 방법 | |
Subramanian et al. | Concert Stitch: Organization and Synchronization of Crowd Sourced Recordings. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |