TWI442773B - 抽取視訊與音訊信號內容之特徵以提供此等信號之可靠識別的技術 - Google Patents
抽取視訊與音訊信號內容之特徵以提供此等信號之可靠識別的技術 Download PDFInfo
- Publication number
- TWI442773B TWI442773B TW096145374A TW96145374A TWI442773B TW I442773 B TWI442773 B TW I442773B TW 096145374 A TW096145374 A TW 096145374A TW 96145374 A TW96145374 A TW 96145374A TW I442773 B TWI442773 B TW I442773B
- Authority
- TW
- Taiwan
- Prior art keywords
- value
- frames
- signature
- vector
- difference
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title description 17
- 238000012545 processing Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims 39
- 238000010586 diagram Methods 0.000 description 33
- 230000003595 spectral effect Effects 0.000 description 28
- 230000004048 modification Effects 0.000 description 15
- 238000012986 modification Methods 0.000 description 15
- 238000012360 testing method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 230000001360 synchronised effect Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 230000000750 progressive effect Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 235000019557 luminance Nutrition 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000010415 tidying Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
- G06T1/005—Robust watermarking, e.g. average attack or collusion attack resistant
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
- G06T1/0028—Adaptive watermarking, e.g. Human Visual System [HVS]-based watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Television Signal Processing For Recording (AREA)
Description
本發明一般係有關視訊和音訊信號之處理,以及更明確地係有關自視訊信號和音訊信號抽取特徵以資識別該等信號之程序。遍及此揭示內容,術語“視訊信號”,係論及一些傳達視覺所望之內容,以及術語“音訊信號”,係論及一些傳達聽覺所望之內容。
一些類似嘗試偵測視訊和音訊信號所傳達之非法內容或嘗試重新同步化分離之視訊和音訊信號等應用,經常要仰仗於一些可檢驗信號內容來識別該等信號之程序。就許多此等應用而言,即使是在該等信號之內容已或無意或有意地被修飾過,重要的是要取得一個信號之可靠識別,而使該修飾過之內容,仍能被一個觀察員辨認出,如同大體上與該原始內容一般無二。若一個原始信號內容與一個修飾過的信號之間的感知差異很小,則該識別程序較佳的是能自該等彼此酷似之原始信號與修飾過的信號抽取出識別特徵。
一些對信號內容之無意修飾的範例,係包括在傳輸頻道中及儲存媒體上面之信號插入或加入雜訊。一些有意修飾視訊信號內容之範例,係包括輝度和色彩修飾,諸如對比/亮度調整、灰階校正、輝度柱狀圖等化、色彩飽和度調
整、和白平衡有關之色彩校正;係包括幾何性修飾,諸如影像剪接和尺寸還原、影像旋轉和反轉、伸展、斑點移除、模糊化、銳化和勾邊;以及係包括編碼技術,諸如有損性壓縮。一些有意修飾音訊信號之範例,係包括放大、等化、動態範圍修飾、頻道上混頻、時標修飾、頻譜整形、和有損性資料壓縮。
本發明之一目的,旨在提供識別程序,其可被用來取得視訊和音訊信號的一個可靠識別符,縱使該等信號之內容已被一些類似上文所提及之機構修飾過。
此目的係由本發明如下文所描述地加以達成。
本發明之各種特徵和其較佳實施例,可能藉由下文之討論和所附諸圖而有更佳之理解,其中,相似之參考數字,在各圖中係論及相似之元件。下文之討論和繪圖的內容,係僅列舉為一些範例,以及不應被理解為表示本發明之界定範圍的限制。
第1圖係一個可被用來取得視訊和音訊信號之可靠識別符的系統之示意方塊圖;第2圖係一個可被用來取得視訊信號之可靠識別符的系統之示意方塊圖;第3圖係一個可被用來取得音訊信號之可靠識別符的系統之示意方塊圖;
第4圖係一個可被用來產生一組可表示視訊內容的兩個圖框之間的差異之差分元件的程序之示意方塊圖;第5圖係一個低解析度差分影像中之一組中間值的示意方塊圖;第6圖係一個可被用來產生一段音訊內容之時間頻率信號表示的程序之示意方塊圖;第7圖係一個低解析度時間頻率信號表示中之一組中間值的示意方塊圖;第8圖係一個可接取同步化視訊/音訊串流有關之參考簽章和排齊資訊的裝置之示意方塊圖;第9圖係一個可回復對視訊/音訊串流之同步化的裝置之示意方塊圖;第10圖係一個可例示視訊/音訊串流中之時序延遲的示意方塊圖;第11圖係一個可管理一個用以偵測視訊或音訊內容之副本的簽章資料庫之裝置的示意方塊圖;而第12圖則係一個可能被用來實現本發明之各種特徵的裝置之示意方塊圖。
第1圖係一個範例性系統300之示意方塊圖,其可檢驗一個視訊/音訊信號3之節段3a至3d的內容,藉以取得該信號的一個可靠識別符。該視訊簽章抽取器100,可取得一組可
識別視訊內容之視訊簽章(SV)199b至199d,以及該音訊簽章抽取器200,可取得一組可識別音訊內容之音訊簽章(SA)299a至299d。在此圖內所顯示之範例中,視訊和音訊內容之個別簽章,係對應於該視訊/音訊信號之節段。此一特定範例係在以下幾節中進一步加以討論,其中,每一節段之視訊/音訊信號,可傳達一個圖框之視訊內容和一個節段之音訊內容。此種在節段、圖框、節段和簽章之間的特定之對應關係,係僅呈現作為一個範例。其他之安排係屬可能,以及有時如下文所討論係屬較佳。
第2圖係上述視訊簽章抽取器100的一個示意方塊圖。該差分資訊產生器110,可檢驗兩個視訊圖框1a、1b之內容,以及可產生一些可表示該兩圖框的全部或一部分之間的差異之差分元素。若每個視訊圖框之內容,係由一個表達分立圖像元素或像素之強度的值陣列來表示,舉例而言,該等差分元素,可能是一個對應像素的強度之間的差異之值陣列。該中間值產生器150,可檢驗差分元素之群組,以及可自每個群組中之差分元素的強度,導出一個中間值。該視訊簽章產生器170,可對該等中間值,應用一個散列函數,藉以產生一個可識別該等視訊圖框之內容的視訊簽章(SV)199b。
第3圖係一個音訊簽章抽取器200之示意方塊圖。該時間頻率信號表示式產生器210,可檢驗一個音訊節段2b之內容,以及可產生一些可表示該節段中之音訊內容的頻譜成分之全部或一部分的頻譜值。若該節段之音訊內容,係由
一些表達分立樣本之幅度的值來表示,舉例而言,該等頻譜值可能是一個區段時域對頻域變換所產生的一組係數。該中間值產生器250,可檢驗該等頻譜值群組,以及可自每個群組中之頻譜值的強度,導出一個中間值。該音訊簽章產生器270,可將一個散列函數,應用至該等中間值,藉以產生一個可識別該音訊節段之內容的音訊簽章(SA)299b。
該視訊簽章抽取器100之組件,可能以多種方式來實現。一些較佳之實現體,可抽取一個對視訊內容具有少許或無感知效果之修飾相對不靈敏的簽章。若對視訊內容之修飾在被感知之影像方面係不具顯著的效果,則較佳的是此等修飾對上述抽取出之簽章,亦不具有顯著之效果。兩個視訊簽章之間的某些差異量度,係與該等簽章抽取所出的兩個內容之間的差異量度相稱。少數範例性實現體係討論如下。
下文所討論之實現體,可計算視訊圖框間之差異,因為使用一個差異,可增加上述抽取出之簽章原始內容中之移動和其他改變的靈敏度,但可消除或減輕對來自在不同色彩空間之間會轉變或會應用色彩校正的類似改變亮度或對比等後繼程序之修飾的靈敏度。
1.差分資訊產生器
在視訊內容之圖框以一個分立像素陣列來表示的一個範例性實現體中,該差分資訊產生器110,可藉由計算毗連視訊圖框內的對應像素之間的絕對差異,來取得一個差分
元素陣列。若每個視訊圖框傳達一個舉例而言以紅色、綠色、和藍色(RGB)值表示之像素所組成的彩色影像,該等差分元素,係自對應像素有關的紅色、綠色、和藍色值之間的絕對差異計算出。較佳的是,該等差分元素,係自一些導自該等紅色、綠色、和藍色值之對應像素的輝度或亮度之間的絕對差異計算出。若每個視訊圖框傳達一個單色影像,該等差分元素可能係自該等對應像素的強度之間的絕對差異計算出。
若有需要,差分元素可能被限制至僅為總影像的一部分,使避免對該影像之邊緣或角落加進字框(letterbox)或圖形之任何程序所建立的改變。此可能藉由在計算該等差分元素之前剪接該影像,或者可藉由在彼等已被計算出之後剪接該差分元素陣列,來加以達成。
就一些類似電視等視訊應用而言,一個適當之剪接,可選擇該影像之中央部分,以致任何插進該影像之邊緣附近的視訊內容之內的標語或其他圖形物件,便不會影響到該抽取之簽章。剪接亦可能消除對該影像因漸進式掃描與交錯式掃描格式之間和高畫質(HD)與標準畫質(HD)格式之間的轉換所致之修飾。一個特定之HD對SD格式的轉換,係在接下來之諸節中加以討論。
舉例而言,若有一個具有1080×1920之解析度的HD-格式之原始視訊內容,被轉換成一個具有480×640之解析度的SD-格式,該原始影像可被剪接而選擇該原始影像仍被保留在被轉換之影像中的中央部分。一個適當之剪接,係自該
原始HD影像之左側邊緣移除240個像素,以及自其右側邊緣移除240個像素,藉以得到一個與該SD影像相同之寬高比的1080×1440之解析度。該被剪接之區域,可能會被調整使消除該影像如上文所提及可能以標語或圖形物件修飾過之額外區域。
該差分元素陣列,亦可能被下取樣(down-sampled),藉以降低對視訊圖框在不同格式間轉換時會發生之修飾的靈敏度。在電視應用中,舉例而言,該等影像可能被下取樣至120×160之解析度,其就HD和SD格式而言,以及就漸進式掃描和交錯式掃描格式而言,是一種方便之選擇。
舉例而言,假定一個原始視訊信號之內容,係在一個具有1080×1920之解析度的HD格式中。此內容如上文所述,可被剪接成一個具有1080×1440之解析度的影像,以及接著被下取樣至120×160之解析度。一個視訊簽章,係可自此低解析度影像中抽取出。進一步假定該原始視訊信號,被轉換成具有480×640之解析度的SD格式。此被轉換之影像,亦可能被下取樣至一個120×160之解析度,使基本上容許自該轉換之信號,抽取出如原始信號所完成者相同之視訊簽章。此相同之下取樣,可被用來適應自SD至HD格式及漸進式掃描和交錯式掃描格式之間的轉換。若所使用者係適當之下取樣,該簽章抽取程序對格式間之轉換所發生的修飾便不敏感。
若一個視訊信號傳達的內容,係在一種交錯式掃描格式中,其中,一個視訊圖框係被安排在兩個圖場中,其在
計算該差分元素之前,可能會被轉換成一個漸進式掃描之格式。或者,掃描格式之選擇的更大獨立性,可藉由僅一個交錯式掃描圖框中的一個圖場取得差分元素來加以達成。舉例而言,差分元素可僅在一個圖框之第一圖場之間取得,或者可僅在該圖框之第二圖場之間取得。另一個圖場內之視訊內容或將被忽略。此程序可避免在計算該差分影像之前轉換成一個漸進式掃描之格式的需要。或者,一個交錯式掃描格式,可在取得該等差分元素之前,被轉換成一個漸進式掃描之格式。
上文所討論之差分資訊產生器110的實現體所執行之運作,係示意例示在第4圖中。在此一實現體中,有一個減法運算114,可計算一個視訊圖框1a與一個視訊圖框1b中之對應像素的值之間的差異,以及有一個絕對值運算118,可自該等像素差異之絕對值取得一組差分元素△。有一個剪接運作122,可藉由清除該差分影像之頂部、底部、和右側緣、和左側緣附近的差分元素,使僅保留該差分影像之中央部分。有一個取樣運作126,可下取樣上述被剪接之差分影像。
上述計算差異、下取樣、和剪接之運作,可以不同之順序來執行。舉例而言,該等差分元素在計算上,可首先下取樣兩個視訊圖框之內容,其次剪接該兩下取樣之影像,以及接著計算該兩被剪接的影像之間的差異。
2.中間值產生器
在一個範例性實現體中,該等差分元素△,係被群分
成一個差分影像之區域,其中,每個區域係GX
元素寬和GY
元素高。藉由計算每個區域內之元素的平均強度,可自該等差分元素之強度,導出一些中間值Q
。此等中間值構成了該差分影像之低解析度表示,其係具有一個K×L
中間值之解析度。此係示意例示在第5圖中。該等中間值可能得自下列之表示式:
其中,Q(k,l)
=該低解析度影像中之中間值;GX
=元素數目中所表達之差分元素群組的寬度;GY
=元素數目中所表達之差分元素群組的高度;K
=該低解析度影像之水平解析度;L
=該低解析度影像之垂直解析度;以及△(i,j)
=差分元素。
該等群組之垂直尺寸GY
,係選擇使K
.GX
=RH
,以及該等群組之水平尺寸GX
,係選擇使L
.GY
=RV
,其中,RH
和RV
分別係該差分影像之水平和垂直解析度。就上文所討論之範例性實現體而言,可產生一個具有120×160之解析度的下取樣之差分影像,該等群組有關之適當尺寸為8×8,其可提供一個具有120/8×160/8=15×20之解析度的低解析度影像。藉由使用該低解析度中間值Q
而非該高解析度差分元素來抽取該視訊簽章,該抽取出之視訊簽章,對一些改變視訊信號內容之細節但保留平均強度之程序係較不敏感。
3.視訊簽章產生器
該視訊簽章產生器170,可對一個中間值Q
之K×L
陣列,應用一個散列函數,來產生一組N
個散列位元。此等散列位元,構成了上述可識別該等視訊圖框之內容的視訊簽章(SV)。較佳的是,該散列函數對該等中間值中之改變係相對不靈敏,但可能對任何可能被使用之散列關鍵字中之改變靈敏。不同於一個典型之編密散列函數,彼等之輸出會隨著其輸入的即使一個單一位元之改變而有顯著的改變,此應用有關的一個較佳之散列函數,可提供一個就該輸入中間值中之小改變僅會歷經小改變的輸出。此可容許該抽取出之視訊簽章,僅會隨著視訊信號內容之小改變而略有少許改變。
一個適當之散列函數,係使用一組N
個基矩陣(base matrices),來產生一組N
個散列位元。該等基矩陣P 1
至P N
,係一個K×L
隨機值矩陣元素之陣列。每個基矩陣P n
之矩陣元素Pn(k,l)
,可能係產生自下列之表示式:
其中,P n (k,l
)=基矩陣P n
之矩陣元素(k,l)
;RNG=一個隨機數產生器之輸出;而=每個中間矩陣有關之RNG所產生的平均值之數目。
該產生器RNG,可產生一些均勻分配在範圍[0,1]內之隨機或虛擬隨機值。該產生器之初始狀態,可由一個散列關鍵字來設定初值,藉以容許該散列函數和該抽取出之視訊簽章,在編密上能更穩固。
該組N
個散列位元在取得上,首先係藉由將該等中間值Q
投射至每個N
個基矩陣,彼等可能係表示為:就l n N
而言其中,H n
=該等中間值至該基矩陣P n
上面之投射值。
該等散列位元,接著係藉由比較每個至所有投射值之中位值的投射值,以及若該投射值等於或超過該臨界值,便設定該散列位元為一個第一值,而若該投射值小於該臨界值,便設定該散列位元為一個第二值,來加以取得。此可能被表示為:
其中,以及=所有投射值H n
之中位值。
該音訊簽章抽取器200之組件,可能係以多種方式來實現。一些較佳之實現體,係抽取一個對略具或不具感知效果之音訊內容的修飾相對不靈敏之簽章。若一些針對音訊內容之修飾在感知聲音方面無顯著之效應,則較佳的是,此等修飾對抽取出之簽章,亦不具顯著之效應。兩個音訊簽章之間的差異之某些量度,係與該等簽章抽取所由的兩個內容之間的差異之量度相稱。幾個適當之實現體係討論如下。
在一個音訊信號之節段係由一些表達分立樣本之幅度
的值來表示之範例性實現體中,該時間頻率信號表示式產生器210,係自一些藉由應用時域對頻域變換來覆蓋每一節段內之音訊樣本的區塊所產生之變換係數,取得一組頻譜值。若有需要,該等頻譜值可能被限制至僅該音訊內容之總頻寬的一部分,藉以避免任何改變該音訊內容的頻譜形狀之程序所造成的變化。舉例而言,一個有限度之表示,可能藉由排除上述表示最低頻率和最高頻率之頻譜成份的變換所產生之變換係數,或者藉由在應用該變換之前通帶濾波掉該音訊內容,來加以取得。
上述差分資訊產生器210之範例性實現體所執行的運作,係示意例示在第6圖中。在此一實現體中,一個音訊內容節段2a,係被分割成T
個交疊之區塊BLOCK-1至BLOCK-T之序列。每個節段之長度為LS
個樣本,以及每個區塊之長度為LB
個樣本。毗連區塊的開端之間的差距值,係一個被稱作區塊步階尺寸之樣本數ZB
。針對每個樣本區塊,係應用一個區塊變換,藉以產生一組頻譜值。第6圖例示了一個變換20使一個區塊成為一組頻譜值25之變換。在該節段2a內的所有T
個區塊均已被轉換成對應組的頻譜值之後,程序便會繼續處理次一節段2b內之區塊。彼等毗連之節段的開端之間的差距值,係一個被稱作節段步階尺寸之樣本數ZS
。
該時間頻率信號表示之時間解析度,係該等節段長度、區塊長度、和區塊步驟尺寸的一個函數,其可被表示如下:
其中,T
=每個節段內之區塊數目或時間解析度;LS
=樣本內之每個節段之長度;LB
=樣本內之每個區塊之長度;以及ZB
=區塊步階尺寸。
該頻率解析度,通常係由該區塊之長度或上述被用來產生頻譜值之變換的長度來加以決定。
在下文所討論使視訊和音訊內容同步化的一個應用中,音訊內容係被分割成一些等於三個視訊圖框之長度的節段。就某些電視應用而言,三個視訊圖框所跨越之時間間隔大約為100毫秒。若該音訊樣本率為48仟赫,則該音訊節段長度便為4,800個樣本。該區塊長度係被選定為256個樣本,以及該區塊步階尺寸係被選定為32個樣本。就此一實現體而言,每個音訊節段係具有T
=142個區塊;所以,該時間頻率信號表示之時間解析度係等於142。針對每個樣本區塊,係應用一個256-點快速傅立葉變換(FFT),藉以產生129個頻譜值;所以,時間頻率信號表示之頻率解析度係等於129。該節段步階尺寸,係被選定為512個樣本,或者大約10.7毫秒。
2.中間值產生器
該中間值產生器250,可檢驗該等群組之頻譜值,以及可自每個群組內之頻譜值的強度,導出一個中間值。
在一個範例性實現體中,該等頻譜值S,係被群分成一
些時間頻率區域,其中,每個區域係GF
個頻譜值寬和GT
個頻譜值長。一些中間值Q
,係藉由計算每個區域內之頻譜值的平均強度,而導自該等頻譜值之強度。此等中間值,構成了一個低解析度時間頻率信號表示,其係具有K×L
中間值之解析度。此係示意例示在第7圖中。該等中間值可能得自下列之表示式:
其中,Q(k,l
)=該低解析度表示中之中間值;GF
=以值數量表達之頻譜值群組的寬度;GT
=以區塊數量表達之頻譜值群組的長度;K
=低解析度表示之頻率解析度;L
=低解析度表示之時間解析度;以及S(i,j)
=頻譜值。
該等群組之尺寸GT
,係選擇使K
.GF
=RT
,以及該等群組之尺寸GF
,係選擇使L
.GT
=RT
,其中,RF
和RT
分別為該低解析度表示之頻率和時間解析度。就上文和下文所討論之範例性實現體,該等群組有關的適當尺寸為GF
=6和GT
=14,其可提供一個129/6×142/14≒20×10中間值之低解析度表示。藉由使用該低解析度中間值Q
而非該高解析度時間頻率信號表示,來抽取該音訊簽章,該抽取出之音訊簽章,對一些改變頻譜內容之細節但保留平均頻譜位準之程序係較不靈敏。
該等計算時間頻率信號表示和中間值之運作,可能以
其他方式來執行。舉例而言,一組具有一個低頻率解析度之頻譜值,可能藉由縮短該區塊長度和該變換長度及增加該等頻譜值群組之長度GT
而取得,藉以取得相同之時間解析度。若有需要,該等群組之寬度GF
,可橫跨該頻譜而被改變。若高頻之頻譜成份就該抽取出之簽章而言,被認為比低頻成份較不明顯,此相對明顯性,可藉由增加較高頻率有關之群組的寬度來加以實現。
3.音訊簽章產生器
該音訊簽章產生器270,可對一個中間值Q
之K×L
陣列,應用一個散列函數,來產生一組N
個散列位元。此等散列位元,構成了上述可識別該等音訊節段之內容的音訊簽章(SA)。此可能以上文有關視訊簽章之說明者相同的方式來完成。
上文所討論之視訊和音訊簽章抽取器,可能被用在多種應用中,其中係包括一種可回復在視訊和音訊內容的串流之間失去的同步之應用和一種可偵測視訊和音訊內容的副本之應用。此等應用之範例性實現體係如下。
1.視訊/音訊之同步化
視訊和音訊內容之串流,在彼等被記錄或被建立時,經常係彼此同步,但同步化可能會在後繼之處理程序期間失去。在一個電視廣播系統中,舉例而言,一些同步化之視訊和音訊串流,在彼等被匯整在一起以供傳輸之前,經常係被分開成兩條不同路徑以供信號處理。該兩條路徑中
不同之處理延遲,會引起同步的喪失。該等串流可手動使重新同步化,但此係既繁瑣又易生人為錯誤。上文所說明之簽章抽取器,可被使用在一個可自動回復同步之系統中。在一個廣播系統中,舉例而言,同步化可在該系統之任何點處被回復,其中包括恰在廣播之前的發射器處或在收聽之前的一個接收器處。
一些類似上文所說明者之技術,係在該等視訊/音訊串流已知要被同步化時,被用來自視訊和音訊內容之串流抽取出簽章。一個可指明此等簽章下層的視訊和音訊內容之間的排齊之排齊資訊亦會被接取。此等視訊和音訊簽章和該排齊資訊,係提供給一個負責回復該兩串流之間的同步之“重新同步化裝置”。此重新同步化裝置,可在該等視訊和音訊內容之串流已經被處理過且已彼此失去同步之後,接收該等串流,可連同當前之排齊資訊,抽取新的簽章,可使該新近抽取之簽章和當前之排齊資訊,與該等原始之簽章和排齊資訊相互關聯。以及可調整該當前之排齊,直至適當之同步被達成為止。此可被完成的一種方式,係更詳細地說明如下。
a)範例性實現體概觀
第8圖係一個接取裝置350之示意方塊圖,其可自一些同步化之視訊和音訊串流,抽取視訊和音訊簽章和排齊資訊。該等同步化之視訊和音訊內容和串流,本說明書係稱作參考內容和參考串流。上述自該等參考串流抽取出之簽章和排齊資訊,本說明書係分別稱作參考簽章和參考排齊
資訊。該視訊簽章係由該視訊簽章抽取器100取得,以及係沿該路徑190傳遞,以供一個重新同步化裝置後繼使用。該音訊簽章係由該音訊簽章抽取器200取得,以及係沿該路徑290傳遞,以供一個重新同步化裝置後繼使用。一些可被用來抽取視訊和音訊簽章之技術,係說明在上文中。
該接取裝置350,亦可接取可能以多種方式表示之排齊資訊。舉例而言,該排齊資訊,可由聯結一個特定之視訊簽章與一個音訊簽章而使暗指,其中,該兩簽章係抽取自大體同一時刻下開始視訊內容之圖框和音訊內容的節段。在此背景環境中,該等視訊和音訊內容起始時間,係被視為大體上相同,倘若一個觀察員難以指出何者內容領先另一個。就另一個範例而言,該排齊資訊可能係由一些與該等視訊和音訊簽章相聯結及指明下層視訊內容和音訊內容之時間印記或時間差距值來表示。若所提供係明指性排齊資訊,其便沿著該路徑390傳遞,以供一個重新同步化裝置後繼使用。無特定類型之排齊資訊是重要的。下文所討論之範例,係符合該排齊資訊為暗指之假定。此等範例可輕易被改變,來考量任何可能伴隨該等簽章之明指性時間印記或時間差距值。
第9圖係一個可能被用來回復視訊和音訊內容的串流之間的同步之重新同步化裝置400的示意方塊圖。此重新同步化裝置400,係包含有一個視訊簽章抽取器100和一個音訊簽章抽取器200,彼等可自經由該路徑33接收到之視訊和音訊內容的串流,抽取出視訊和音訊簽章。該等串流之內
容,可能已有意地及無意地被多種程序修飾過,以及可能彼此未被適當同步化。該等視訊和音訊內容和串流,本說明書係稱作當前之內容和當前之串流。該等自當前之串流抽取出的簽章,本說明書係稱作當前之簽章。
該內容延遲計算器410,可相對該等參考視訊簽章,來比較該等當前之視訊簽章,以及可評估該等參考視訊內容和當前之視訊內容被認為屬對應圖框的下層圖框之間的相對性時序差異。該內容延遲計算器420,可相對該等參考音訊簽章,來比較該等當前之音訊簽章,以及可評估該等參考音訊內容和當前之音訊內容被認為屬對應節段的下層節段之間的相對性時序差異。就類似廣播等應用而言,該等參考簽章和排齊資訊,應在該等當前的串流到達之前,遞送給該等內容延遲計算器,以便有充份之資訊可供實時回復同步化利用。
該相對性延遲計算器430,可使用該等相對性時序差異,來計算為調整該等當前之串流的任何一個或兩者以達成適當之同步化所需的延遲量。一個表示此延遲之資訊,係沿該路徑490傳遞,以供其他設備用來實現上述之延遲。舉例而言,假定該相對視訊時序差異,係表明該參考視訊圖框領前該對應之當前視訊圖框四秒,以及該相對音訊時序差異,係表明該參考音訊節段領前該對應之當前音訊節段五秒。該相對性延遲計算器430,便可計算出為達成適當之同步化,該當前之視訊串流,有等於一秒之延遲量。
b)內容延遲計算器
上面所論及的兩個內容延遲計算器,可比較該等參考簽章和當前之簽章的序列,以及可評估該等下層的視訊/音訊內容之間的相對性時序差異。此等計算器可能以多種方式來實現。一個使用漢明(Hamming)距離函數之實現體,係說明在以下之段落中。
假定該當前之視訊串流,係透過一條強加有以符號δV
表明之處理延遲的信號處理路徑,而得自該參考視訊串流。進一步假定該當前之音訊串流,係透過一條強加有以符號δA
表明之延遲的信號處理路徑,而得自該參考音訊串流。該內容延遲計算器410,可比較該等參考視訊簽章SVREF
和當前之影像簽章SVCURR
,以及可產生上述視訊處理延遲的一個評估值εV
。該等參考視訊串流和當前的視訊串流之間的相對性時序差異,可得自於上述估計之延遲εV
。該內容延遲計算器420,可比較該等參考音訊簽章SAREF
和當前之音訊簽章SACURR
,以及可產生上述音訊處理延遲之評估值εA
。該等參考串流和當前的音訊串流之間的相對性時序差異,可得自於上述評估之延遲εA
。
一個可被用來評估該處理延遲之技術,係說明在以下之段落中。視訊和音訊之間並無區別,因為該等視訊處理延遲評估值εV
和音訊處理延遲估值εA
,可以相同之方式來計算。
該內容延遲計算器,可接收兩組簽章。第一組係一個以{S REF (i
)}指明之參考簽章序列,以及第二組係一個以{S CURR (i)
}指明之當前的簽章序列。該關聯器可搜尋過該兩
序列之範圍,藉以找出該等簽章組在其中具有最高程度之關聯性的一個窗口。此可藉由首先計算下列之點數來完成:
其中,D(m,i)
=串流之間的一個特定之排齊有關的計得之點數;HD[r,c
]=簽章r
與c
之間的漢明距離;F
=該組參考簽章{S REF
(i
)}中之簽章數目;U
=該關聯器有關之搜尋範圍;以及W
=以簽章數目來表達之關聯性窗口的長度。
該漢明距離係等於兩個簽章在其中不同之位元位置的數目。
上述評估之處理延遲,可能導自m
之值,其中,上述關聯性窗口內之參考簽章和當前的簽章之間的最接近之匹配會被找出。此可被表示成;
若其中無處理延遲,則ε i
=i
。若上述評估之延遲,係三個圖框或三個節段,則ε i
=i
+3
。該等對應於上述簽章S REF (i)
之圖框或節段有關的相對性時序差異,係ε i
與i
之間的差距值。視訊圖框i
有關之相對性時序差異,本說明書係以dv(i)
來指明,以及音訊節段i
相對性時序差異,本說明書係以da(i)
來指明。
在一個電視有關之實現體中,該等值W
=10和U
=45,係就視訊圖框供該內容延遲計算器410使用,以及該等值W
=23和U
=47,係就音訊節段供該內容延遲計算器420使用該等視訊和音訊延遲計算器中所使用之F
值有關的值,在該等參考串流中,分別係視訊圖框和音訊節段之數目。
該相對性延遲計算器430,係使用該等視訊和音訊串流有關之相對性時序差異,來計算當前之串流中的任何一個或兩者有關之延遲量,藉以達成適當之同步化。此係示意例示在第10圖中。一個參考視訊串流1中之參考視訊圖框1b,和一個參考音訊串流2中之參考音訊節段2b,係顯示屬同步。該視訊串流1有關之信號處理81和該音訊串流2有關之信號處理82,會在該兩串流中導入不同之延遲。結果,該當前之視訊串流41中的當前之視訊圖框1b,和該當前之音訊串流42中的當前之音訊節段2b,係不再同步。該當前之視訊圖框1b,業已延遲了dv
,以及該當前之音訊節段2b,業已延遲了da
。上述回復同步需要對延遲所做之調整值adj
係等於(dv
-da
)。若dv
如該圖中所顯示係大於da
,則同步可能藉由使該音訊節段延遲該項調整值adj
來回復。若dv
小於da
,則同步可能藉由使該視訊圖框延遲該項調整值adj
來回復。該等串流基本上可以任何可能想要之方式中被延遲,但有一種方法是使串流內容儲存進及取回自一個有充份容量來提供相對該延遲之調整值的先進先出(FIFO)緩衝器內。
該等自視訊和音訊內容抽取出之簽章係可被用來識別該內容,縱使該內容已被多種類似上文所提及之程序修飾過。此種可靠地決定出特定之視訊內容或音訊內容是否為
一個即使在被修飾過時之參考視訊內容或音訊內容的副本之能力,係可被使用在多種應用中。少數範例係簡要說明在以下之列表中:
‧偵測未經授權之副本:一些端對端伺服器之網路,可促成內容之分配,彼等亦會增加偵測專屬性內容之未經授權或非法副本的困難度,因為該內容之許多副本,會存在於該等端對端伺服器之間。一個設備可藉由自該網路可供利用之所有內容抽取出簽章,以及相對於一個參考簽章資料庫,來核對該等簽章,而自動決定出是否有任何之盜版副本,存在於該網路中。
‧廣播之確認:一些承包分配特定之視訊和音訊內容的廣播網路之企業,可藉由自一個廣播接收器所接收之信號抽取出簽章,以及使此等簽章與該特定之內容有關的參考簽章相比較,來確認該合約有效期是否滿足。
‧接收之識別:一些提供廣播網路之收視率的企業,可藉由抽取來自被接收之信號的簽章,以及使此等簽章與一些參考簽章相比較,來識別一個接收器所接收到之內容。
第11圖係一個可被用來實現多種類似先前之列表中所提及的應用例的系統之示意方塊圖。該等視訊簽章抽取器100和音訊簽章抽取器200,可由接收自該路徑31之內容的參考視訊/音訊串流,抽取出參考視訊簽章和參考音訊簽
章。該等抽取出之參考視訊簽章,係使儲存進該視訊資料庫180內,以及該抽取出之參考音訊簽章,係使儲存進該音訊資料庫280內。該等參考簽章,可能係與其他可能促成該應用例之實現的資訊一起儲存。舉例而言,該等參考簽章可能係與其本身之下層內容一起儲存,或者與一個可識別有關該內容類似內容所有人、內容許可證有效期、內容標題、或內容本文說明等資訊之資料一起儲存。每個參考簽章,可能與一個資料庫搜尋和取回關鍵字相聯結,或者該參考簽章本身,可能充作該搜尋和取回關鍵字。
任何特定之視訊內容或音訊內容的識別碼,可能係相對於該等視訊和音訊資料庫中所儲存之資訊所代示的參考內容而被核對。其識別碼要被核對之內容,本說明書係稱作測試內容。該測試視訊內容之識別碼,可藉由令視訊簽章抽取器101,自接收自該路徑33之測試視訊內容,抽取出一些測試視訊簽章,以及將該等測試視訊簽章,傳遞至該視訊搜尋引擎140,來加以核對。該視訊搜尋引擎140,可嘗試找出該視訊資料庫180內與該等測試視訊簽章精確或密切匹配之參考視訊簽章。該測試音訊內容之識別碼,可藉由令音訊簽章抽取器201,自接收自該路徑33之測試音訊內容,抽取出一些測試音訊簽章,以及將該等測試音訊簽章,傳遞至該音訊搜尋引擎240,來加以核對。該音訊搜尋引擎240,可嘗試找出該音訊資料庫280內與該等測試音訊簽章精確或密切匹配之參考音訊簽章。
在一個實現體中,該搜尋引擎,可計算該等測試簽章
與該等資料庫中所儲存的參考簽章之間的漢明距離,以及可搜尋最接近該測試視訊簽章之序列的參考簽章序列。上文所顯示之表示式6和7中的計算或彼等之某些變體,可被用來引導該搜尋。若兩個簽章序列之間的距離小於某些臨界值,上述與測試簽章序列相聯結之測試內容,係被認為屬上述與匹配之參考簽章序列相聯結的參考內容之正本或修飾過之副本。一些經驗結果間接表明,使用表示大約兩秒之內容的簽章序列,多種視訊和音訊之內容,可得到良好之結果。
一些合併了本發明之各種特徵的裝置,可在多種方式中被實現,其中包括可供一個電腦或某些其他包含有類似與一些類似於通用型電腦中可見者之組件相耦合的數位信號處理器(DSP)電路等更專屬性之組件的裝置執行的軟體。第12圖係一個可被用來實現本發明之特徵的裝置70之示意方塊圖。有一個處理器72,可提供電腦計算資源。有一個RAM(隨機存取記憶體)73,係一個供該處理器72處理用之系統隨機存取記憶體(RAM)。ROM 74係代表某些形式之持續性儲存器,諸如唯讀記憶體(ROM),其可用以儲存該裝置70運作所需之程式,以及可能用以實行本發明之各種特徵。輸入/輸出(I/O)控制器75,係代表用以經由該等通訊通道76、77來接收及傳輸信號之介面電路。在此顯示之實施例中,所有之主要系統組件,係鏈結至一個匯流排71,其可能代表超過一條之實體或邏輯匯流排;然而,一條匯
流排架構非為實現本發明所必備。
在一個通用型電腦系統所實現之實施例中,可能包括有一些附加組件,藉以介接至一些類似鍵盤或滑鼠和顯示器等裝置,以及控制一個具有類似磁帶或磁碟片、或光學媒體等儲存媒體之儲存裝置78。該儲存媒體可能被用來記錄作業系統、公用程式、和應用程式有關之指令程式,以及可能係包含有一些可實現本發明之各種特徵的程式。
該等實行本發明之各種特徵所必需之功能,可由一些以包括分立式邏輯組件、積體電路、一個或多個ASIC、和/或程式控制式處理器等各種方式中所實現之組件來執行。此等組件在其中被實現之方式,對本發明而言並不重要。
本發明之軟體實現體,可藉由多種機器可讀取式媒體,諸如橫跨超音波至紫外線頻率之頻譜的基帶或調變式通訊路徑,或者藉由基本上可使用任何記錄技術來傳達資訊之儲存媒體,其中包括磁帶、插卡或碟片、光學卡或盤、和紙帶等媒體上面之可偵測性標記,來加以輸送。
1‧‧‧視訊串流
1a,1b‧‧‧視訊圖框
2b‧‧‧音訊節段
2‧‧‧參考音訊串流
3‧‧‧訊/音訊信號
3a-3d‧‧‧節段
2a‧‧‧音訊內容節段
20‧‧‧變換
25a,25b‧‧‧頻譜值
31‧‧‧視訊串流
32‧‧‧當前之音訊串流
33,190,290,390,490‧‧‧路徑
70‧‧‧裝置
71‧‧‧匯流排
72‧‧‧處理器
73‧‧‧RAM(隨機存取記憶體)
74‧‧‧讀記憶體(ROM)
75‧‧‧輸入/輸出(I/O)控制器
76,77‧‧‧通訊通道
78‧‧‧儲存裝置
81,82‧‧‧信號處理
100,101‧‧‧視訊簽章抽取器
110‧‧‧差分資訊產生器
114‧‧‧減法運算
118‧‧‧絕對值運算
122‧‧‧剪接運作
126‧‧‧取樣運作
150‧‧‧中間值產生器
170‧‧‧視訊簽章產生器
170‧‧‧視訊搜尋引擎
180‧‧‧視訊資料庫
199b-199d‧‧‧視訊簽章(SV)
200,201‧‧‧音訊簽章抽取器
210‧‧‧時間頻率信號表示式產生器
250‧‧‧中間值產生器
270‧‧‧音訊簽章產生器
27‧‧‧音訊搜尋引擎
280‧‧‧音訊資料庫
299a-299d‧‧‧音訊簽章(SA)
300‧‧‧系統
350‧‧‧接取裝置
400‧‧‧重新同步化裝置
410,420‧‧‧內容延遲計算器
430‧‧‧相對性延遲計算器
第1圖係一個可被用來取得視訊和音訊信號之可靠識別符的系統之示意方塊圖;第2圖係一個可被用來取得視訊信號之可靠識別符的系統之示意方塊圖;第3圖係一個可被用來取得音訊信號之可靠識別符的系統之示意方塊圖;第4圖係一個可被用來產生一組可表示視訊內容的兩
個圖框之間的差異之差分元件的程序之示意方塊圖;第5圖係一個低解析度差分影像中之一組中間值的示意方塊圖;第6圖係一個可被用來產生一段音訊內容之時間頻率信號表示的程序之示意方塊圖;第7圖係一個低解析度時間頻率信號表示中之一組中間值的示意方塊圖;第8圖係一個可接取同步化視訊/音訊串流有關之參考簽章和排齊資訊的裝置之示意方塊圖;第9圖係一個可回復對視訊/音訊串流之同步化的裝置之示意方塊圖;第10圖係一個可例示視訊/音訊串流中之時序延遲的示意方塊圖;第11圖係一個可管理一個用以偵測視訊或音訊內容之副本的簽章資料庫之裝置的示意方塊圖;而第12圖則係一個可能被用來實現本發明之各種特徵的裝置之示意方塊圖。
3‧‧‧視訊/音訊信號
200‧‧‧音訊簽章抽取器
3a-3d‧‧‧節段
299a-299d‧‧‧音訊簽章(SA)
100‧‧‧視訊簽章抽取器
300‧‧‧系統
199b-199d‧‧‧視訊簽章(SV)
Claims (15)
- 一種用以處理視訊信號之方法,其包含之步驟有:產生一些表示被安排成一個或多個元素之群組的差分元素之中間值,其中,每個群組內之該等差分元素係代表一些用以表示一個視訊信號之圖框序列中的兩個圖框之一部分的資訊之間的差異;以及藉由對該等中間值施加一個散列函數,來產生一個識別該視訊信號之內容之簽章,其中施加該散列函數之步驟包含將該等中間值投射至一組隨機向量上面,其中,該簽章之每一成分係由該等中間值至一個別隨機向量上面之投射值而導出。
- 如申請專利範圍第1項之方法,其中,該差分資訊係藉由下列步驟而產生:取得該兩圖框中之影像內容的對應部分之強度間的絕對差異,以及剪接及向下取樣該等絕對差異,藉以取得該等差分元素;以及其中,一個個別之中間值係藉由計算對應於由該兩圖框所表示之影像的個別部分之個別之差分元素群組中的一個或多個該等差分元素之平均強度而被導出。
- 如申請專利範圍第2項之方法,其中包含之步驟有:產生該圖框序列中之每個多數成對的圖框有關之簽章。
- 如申請專利範圍第1項之方法,其中包含之步驟有:產生該圖框序列中之每個多數成對的圖框有關之簽章。
- 如申請專利範圍第1項之方法,其中:該組隨機向量中的每個個別向量所具有之向量元素的值,係得自一個在零至一之範圍內的均勻分佈式隨機變數之間的差異,和該個別向量之所有向量元素有關的均勻分佈式隨機變數之平均值;該等中間值在一個個別的隨機向量上面之該投射值係得自該等中間值與該個別向量之向量元素的內積;以及若該等中間值在一個對應之隨機向量上面的投射值大於一個臨界值,該等簽章之每一成分便具有一個第一值,或者若該等中間值在該對應之隨機向量上面的投射值小於一個臨界值,該等簽章之每一成分便具有一個第二值,其中,該臨界值係等於中間值在該組隨機向量上面之投射值的中位值。
- 一種用以處理視訊信號之裝置,其係包含有:用以產生一些表示安排在一個或多個元素之群組中的差分元素之中間值的裝置,其中,每一群組內之該等差分元素係代表一個表示一個視訊信號之圖框序列中的兩個圖框之一部分的資訊之間的差異;以及用以藉由對該等中間值施加一個散列函數來產生一個識別該視訊信號之內容的簽章之裝置,其中施加該散列函數之步驟包含將該等中間值投射至一組隨機向量上面,其中,該簽章之每一成分係由該等中間值至一個別隨機向量上面之投射值而導出。
- 如申請專利範圍第6項之裝置,其中,該用以產生中間值之裝置係:可取得該兩圖框中之影像內容的對應部分之強度間的絕對差異,可剪接及向下取樣該等絕對差異,以取得該等差分元素;以及可計算對應於該兩圖框所表示之影像的個別部分之個別差分元素群組中的一個或多個差分元素之平均強度。
- 如申請專利範圍第7項之裝置,其中係包含有用以產生該圖框序列中之每個多數成對的圖框有關之簽章的裝置。
- 如申請專利範圍第6項之裝置,其中係包含有用以產生該圖框序列中之每個多數成對的圖框有關之簽章的裝置。
- 如申請專利範圍第6項之裝置,其中:該組隨機向量中的每個個別向量所具有之向量元素的值,係得自一個在零至一之範圍內的均勻分佈式隨機變數之間的差異,和該個別向量之所有向量元素有關的均勻分佈式隨機變數之平均值;該等中間值在一個個別隨機向量上面之投射值係得自該等中間值與該個別向量之向量元素的內積;以及若該等中間值在一個對應之隨機向量上面的投射值大於一個臨界值,該等簽章之每一成分便具有一個第 一值,或者若該等中間值在該對應之隨機向量上面的投射值小於一個臨界值,該等簽章之每一成分,便具有一個第二值,其中,該臨界值係等於中間值在該組隨機向量上面之投射值的中位值。
- 一種其上儲存有指令之電腦可讀取式媒體,其在被一部電腦執行時,可使該電腦執行一種用以處理視訊信號之方法,此種方法包含之步驟有:產生一些表示被安排成一個或多個元素之群組的差分元素之中間值,其中,每個群組內之該等差分元素係表示一些用以表示一個視訊信號之圖框序列中的兩個圖框之一部分的資訊之間的差異;以及藉由對該等中間值施加一個散列函數,來產生識別該視訊信號之內容之簽章,其中施加該散列函數之步驟包含將該等中間值投射至一組隨機向量上面,其中,該簽章之每一成分係由該等中間值至一個別隨機向量上面之投射值而導出。
- 如申請專利範圍第11項之媒體,其中,該差分資訊係藉由下列步驟產生:取得該兩圖框中之影像內容的對應部分之強度間的絕對差異,以及剪接及向下取樣該等絕對差異,以取得該等差分元素;以及其中,一個對應之中間值係藉由計算對應於由該兩圖框所表示之影像的個別部分之個別差分元素群組中 的一個或多個差分元素之平均強度而被導出。
- 如申請專利範圍第12項之媒體,其中,該方法包含之步驟有:產生該圖框序列中之每個多數成對的圖框有關之簽章。
- 如申請專利範圍第11項之媒體,其中,該方法包含之步驟有:產生該圖框序列中之每個多數成對的圖框有關之簽章。
- 如申請專利範圍第11項之媒體,其中:該組隨機向量中的每個個別向量所具有之向量元素的值,係得自一個在零至一之範圍內的均勻分佈式隨機變數之間的差異,和該個別向量之所有向量元素有關的均勻分佈式隨機變數之平均值;該等中間值在一個個別隨機向量上面之投射值得自該等中間值與該個別向量之向量元素的內積;以及若該等中間值在一個對應之隨機向量上面的投射值大於一個臨界值,該等簽章之每一成分便具有一個第一值,或者若該等中間值在該對應之隨機向量上面的投射值小於一個臨界值,該等簽章之每一成分便具有一個第二值,其中,該臨界值係等於中間值在該組隨機向量上面之投射值的中位值。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US87209006P | 2006-11-30 | 2006-11-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200833116A TW200833116A (en) | 2008-08-01 |
TWI442773B true TWI442773B (zh) | 2014-06-21 |
Family
ID=39325541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW096145374A TWI442773B (zh) | 2006-11-30 | 2007-11-29 | 抽取視訊與音訊信號內容之特徵以提供此等信號之可靠識別的技術 |
Country Status (6)
Country | Link |
---|---|
US (2) | US8259806B2 (zh) |
EP (2) | EP2126833A2 (zh) |
JP (1) | JP5060565B2 (zh) |
CN (1) | CN101548294B (zh) |
TW (1) | TWI442773B (zh) |
WO (1) | WO2008066930A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI806577B (zh) * | 2022-04-28 | 2023-06-21 | 瑞昱半導體股份有限公司 | 數位簽章方法及數位簽章的驗證方法 |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2457694B (en) * | 2008-02-21 | 2012-09-26 | Snell Ltd | Method of Deriving an Audio-Visual Signature |
KR101230479B1 (ko) * | 2008-03-10 | 2013-02-06 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법 |
WO2009140816A1 (en) * | 2008-05-21 | 2009-11-26 | Yuvad Technologies Co., Ltd. | A method for facilitating the archiving of video content |
US20100215211A1 (en) * | 2008-05-21 | 2010-08-26 | Ji Zhang | System for Facilitating the Archiving of Video Content |
US8335786B2 (en) * | 2009-05-28 | 2012-12-18 | Zeitera, Llc | Multi-media content identification using multi-level content signature correlation and fast similarity search |
US8195689B2 (en) | 2009-06-10 | 2012-06-05 | Zeitera, Llc | Media fingerprinting and identification system |
US8793498B2 (en) * | 2008-08-11 | 2014-07-29 | Nbcuniversal Media, Llc | System and method for forensic analysis of media works |
US8406462B2 (en) * | 2008-08-17 | 2013-03-26 | Dolby Laboratories Licensing Corporation | Signature derivation for images |
JP5602138B2 (ja) * | 2008-08-21 | 2014-10-08 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 |
JP4966285B2 (ja) * | 2008-10-30 | 2012-07-04 | 株式会社東芝 | 情報処理装置、エフェクトプログラムおよびコンテンツ補正処理方法 |
US8891813B2 (en) * | 2008-11-17 | 2014-11-18 | Dolby Laboratories Licensing Corporation | Media fingerprints that reliably correspond to media content with projection of moment invariants |
US8571255B2 (en) | 2009-01-07 | 2013-10-29 | Dolby Laboratories Licensing Corporation | Scalable media fingerprint extraction |
CN104537127B (zh) * | 2009-01-23 | 2018-04-10 | 日本电气株式会社 | 视频描述符生成装置 |
WO2010129630A1 (en) | 2009-05-08 | 2010-11-11 | Dolby Laboratories Licensing Corporation | Storing and searching fingerprints derived from media content based on a classification of the media content |
GB2470201A (en) * | 2009-05-12 | 2010-11-17 | Nokia Corp | Synchronising audio and image data |
WO2010135623A1 (en) * | 2009-05-21 | 2010-11-25 | Digimarc Corporation | Robust signatures derived from local nonlinear filters |
US8635211B2 (en) | 2009-06-11 | 2014-01-21 | Dolby Laboratories Licensing Corporation | Trend analysis in content identification based on fingerprinting |
US8436939B2 (en) * | 2009-10-25 | 2013-05-07 | Tektronix, Inc. | AV delay measurement and correction via signature curves |
WO2011063520A1 (en) * | 2009-11-30 | 2011-06-03 | Miranda Technologies Inc. | Method and apparatus for providing signatures of audio/video signals and for making use thereof |
US8860883B2 (en) * | 2009-11-30 | 2014-10-14 | Miranda Technologies Partnership | Method and apparatus for providing signatures of audio/video signals and for making use thereof |
US8542869B2 (en) * | 2010-06-02 | 2013-09-24 | Dolby Laboratories Licensing Corporation | Projection based hashing that balances robustness and sensitivity of media fingerprints |
US8928809B2 (en) * | 2010-09-15 | 2015-01-06 | Verizon Patent And Licensing Inc. | Synchronizing videos |
WO2012091938A1 (en) * | 2010-12-30 | 2012-07-05 | Dolby Laboratories Licensing Corporation | Ranking representative segments in media data |
EP2671374B1 (en) * | 2011-01-31 | 2015-07-22 | Dolby Laboratories Licensing Corporation | Systems and methods for restoring color and non-color related integrity in an image |
US8786785B2 (en) * | 2011-04-05 | 2014-07-22 | Microsoft Corporation | Video signature |
CN102222222A (zh) * | 2011-05-27 | 2011-10-19 | 汉王科技股份有限公司 | 跳帧扫描识别装置和方法 |
KR101778530B1 (ko) * | 2011-06-14 | 2017-09-15 | 삼성전자 주식회사 | 영상 처리 방법 및 장치 |
CN102393903B (zh) * | 2011-07-15 | 2013-10-30 | 汉王科技股份有限公司 | 基于三轴加速计的扫描识别装置和方法 |
JP5896661B2 (ja) * | 2011-09-14 | 2016-03-30 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法、およびプログラム |
WO2013076522A1 (en) * | 2011-11-24 | 2013-05-30 | Freescale Semiconductor, Inc. | Data processing system and method of controlling access to a shared memory unit |
US8572092B2 (en) * | 2011-12-16 | 2013-10-29 | Palo Alto Research Center Incorporated | Generating sketches sensitive to high-overlap estimation |
US9386069B2 (en) * | 2011-12-28 | 2016-07-05 | The Nielsen Company (Us), Llc | Media exposure data collection and security |
ITMI20121210A1 (it) | 2012-07-11 | 2014-01-12 | Rai Radiotelevisione Italiana | A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose |
US10158927B1 (en) * | 2012-09-05 | 2018-12-18 | Google Llc | Systems and methods for detecting audio-video synchronization using timestamps |
US9602858B1 (en) | 2013-01-28 | 2017-03-21 | Agile Sports Technologies, Inc. | Method and system for synchronizing multiple data feeds associated with a sporting event |
US10133636B2 (en) | 2013-03-12 | 2018-11-20 | Formulus Black Corporation | Data storage and retrieval mediation system and methods for using same |
US9304703B1 (en) * | 2015-04-15 | 2016-04-05 | Symbolic Io Corporation | Method and apparatus for dense hyper IO digital retention |
US9817728B2 (en) | 2013-02-01 | 2017-11-14 | Symbolic Io Corporation | Fast system state cloning |
CN105493422A (zh) * | 2013-06-20 | 2016-04-13 | 汤姆逊许可公司 | 用于辅助内容的分布式播放的同步的系统和方法 |
US9542976B2 (en) | 2013-09-13 | 2017-01-10 | Google Inc. | Synchronizing videos with frame-based metadata using video content |
AU2013403805B2 (en) * | 2013-10-21 | 2019-08-15 | Microsoft Technology Licensing, Llc | Mobile video search |
TWI527025B (zh) * | 2013-11-11 | 2016-03-21 | 財團法人資訊工業策進會 | 電腦系統、音訊比對方法及其電腦可讀取記錄媒體 |
EP2876890A1 (en) * | 2013-11-21 | 2015-05-27 | Thomson Licensing | Method and apparatus for frame accurate synchronization of video streams |
US9336567B2 (en) | 2013-12-16 | 2016-05-10 | Telefonaktiebolaget L M Ericsson (Publ) | Content-aware weighted image manipulations |
US11023737B2 (en) | 2014-06-11 | 2021-06-01 | Arris Enterprises Llc | Detection of demarcating segments in video |
US9930375B2 (en) * | 2014-06-16 | 2018-03-27 | Nexidia Inc. | Media asset management |
CN107112024B (zh) * | 2014-10-24 | 2020-07-14 | 杜比国际公司 | 音频信号的编码和解码 |
US10061514B2 (en) | 2015-04-15 | 2018-08-28 | Formulus Black Corporation | Method and apparatus for dense hyper IO digital retention |
US9996769B2 (en) | 2016-06-08 | 2018-06-12 | International Business Machines Corporation | Detecting usage of copyrighted video content using object recognition |
KR20180068121A (ko) * | 2016-12-13 | 2018-06-21 | 삼성전자주식회사 | 컨텐트를 인식하는 방법 및 디바이스 |
US10782965B2 (en) * | 2017-04-02 | 2020-09-22 | SafeDK Mobile Ltd. | Monitoring of media displayed by third-party components |
US10313710B1 (en) * | 2017-07-31 | 2019-06-04 | Amazon Technologies, Inc. | Synchronizing encoding between encoders |
US10572186B2 (en) | 2017-12-18 | 2020-02-25 | Formulus Black Corporation | Random access memory (RAM)-based computer systems, devices, and methods |
US10997427B1 (en) * | 2018-04-25 | 2021-05-04 | Zorroa Corporation | Using motion-based features to match video sequences |
US11115712B2 (en) * | 2018-12-15 | 2021-09-07 | Activision Publishing, Inc. | Systems and methods for indexing, searching for, and retrieving digital media |
US10725853B2 (en) | 2019-01-02 | 2020-07-28 | Formulus Black Corporation | Systems and methods for memory failure prevention, management, and mitigation |
US11134318B2 (en) | 2019-03-26 | 2021-09-28 | Rovi Guides, Inc. | System and method for identifying altered content |
EP3797368B1 (en) * | 2019-03-26 | 2023-10-25 | Rovi Guides, Inc. | System and method for identifying altered content |
US11228799B2 (en) * | 2019-04-17 | 2022-01-18 | Comcast Cable Communications, Llc | Methods and systems for content synchronization |
US11281929B2 (en) * | 2019-05-06 | 2022-03-22 | Rovi Guides, Inc. | Systems and methods for determining whether to modify content |
US11120273B2 (en) * | 2019-06-21 | 2021-09-14 | Gfycat, Inc. | Adaptive content classification of a video content item |
US10929677B1 (en) | 2019-08-07 | 2021-02-23 | Zerofox, Inc. | Methods and systems for detecting deepfakes |
US11302095B2 (en) | 2020-01-09 | 2022-04-12 | International Business Machines Corporation | Cognitive motion picture analysis |
US20210352341A1 (en) * | 2020-05-06 | 2021-11-11 | At&T Intellectual Property I, L.P. | Scene cut-based time alignment of video streams |
US12099618B2 (en) | 2021-06-09 | 2024-09-24 | Bank Of America Corporation | System for image/video authenticity verification |
US11417099B1 (en) * | 2021-11-08 | 2022-08-16 | 9219-1568 Quebec Inc. | System and method for digital fingerprinting of media content |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5436653A (en) | 1992-04-30 | 1995-07-25 | The Arbitron Company | Method and system for recognition of broadcast segments |
US5550594A (en) | 1993-07-26 | 1996-08-27 | Pixel Instruments Corp. | Apparatus and method for synchronizing asynchronous signals |
US5946049A (en) | 1993-07-26 | 1999-08-31 | Pixel Instruments Corp. | Apparatus and method for synchronizing multiple asynchronous signals |
US6469741B2 (en) | 1993-07-26 | 2002-10-22 | Pixel Instruments Corp. | Apparatus and method for processing television signals |
US5530483A (en) | 1994-10-11 | 1996-06-25 | Pixel Instruments Corp. | Delay detector apparatus and method for plural image sequences |
US5920842A (en) | 1994-10-12 | 1999-07-06 | Pixel Instruments | Signal synchronization |
JPH11261961A (ja) * | 1998-03-10 | 1999-09-24 | Toshiba Corp | 動画像処理装置 |
AU2002232817A1 (en) * | 2000-12-21 | 2002-07-01 | Digimarc Corporation | Methods, apparatus and programs for generating and utilizing content signatures |
CN1235408C (zh) | 2001-02-12 | 2006-01-04 | 皇家菲利浦电子有限公司 | 生成和匹配多媒体内容的散列 |
CN1628302A (zh) | 2002-02-05 | 2005-06-15 | 皇家飞利浦电子股份有限公司 | 指纹的有效存储器 |
KR20050013620A (ko) | 2002-06-24 | 2005-02-04 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 신호 인증용 강력한 서명 |
US7212651B2 (en) * | 2003-06-17 | 2007-05-01 | Mitsubishi Electric Research Laboratories, Inc. | Detecting pedestrians using patterns of motion and appearance in videos |
WO2005036877A1 (en) * | 2003-09-12 | 2005-04-21 | Nielsen Media Research, Inc. | Digital video signature apparatus and methods for use with video program identification systems |
US7987369B2 (en) | 2005-03-03 | 2011-07-26 | Interdigital Technology Corporation | Using watermarking to reduce communication overhead |
US7684587B2 (en) * | 2005-04-04 | 2010-03-23 | Spirent Communications Of Rockville, Inc. | Reduced-reference visual communication quality assessment using data hiding |
US20070104943A1 (en) | 2005-11-10 | 2007-05-10 | 3M Innovative Properties Company | Filled polymer composites |
US20070250311A1 (en) * | 2006-04-25 | 2007-10-25 | Glen Shires | Method and apparatus for automatic adjustment of play speed of audio data |
US8126280B2 (en) * | 2007-09-21 | 2012-02-28 | Adobe Systems Incorporated | Enhanced decompression of compressed data |
JP5602138B2 (ja) | 2008-08-21 | 2014-10-08 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 |
US8891813B2 (en) | 2008-11-17 | 2014-11-18 | Dolby Laboratories Licensing Corporation | Media fingerprints that reliably correspond to media content with projection of moment invariants |
US8571255B2 (en) | 2009-01-07 | 2013-10-29 | Dolby Laboratories Licensing Corporation | Scalable media fingerprint extraction |
WO2010129630A1 (en) | 2009-05-08 | 2010-11-11 | Dolby Laboratories Licensing Corporation | Storing and searching fingerprints derived from media content based on a classification of the media content |
US8635211B2 (en) | 2009-06-11 | 2014-01-21 | Dolby Laboratories Licensing Corporation | Trend analysis in content identification based on fingerprinting |
EP2671374B1 (en) | 2011-01-31 | 2015-07-22 | Dolby Laboratories Licensing Corporation | Systems and methods for restoring color and non-color related integrity in an image |
-
2007
- 2007-11-29 US US12/312,840 patent/US8259806B2/en not_active Expired - Fee Related
- 2007-11-29 EP EP07867605A patent/EP2126833A2/en not_active Withdrawn
- 2007-11-29 EP EP13171236.6A patent/EP2642483B1/en not_active Not-in-force
- 2007-11-29 JP JP2009539366A patent/JP5060565B2/ja not_active Expired - Fee Related
- 2007-11-29 CN CN2007800440832A patent/CN101548294B/zh not_active Expired - Fee Related
- 2007-11-29 WO PCT/US2007/024744 patent/WO2008066930A2/en active Application Filing
- 2007-11-29 TW TW096145374A patent/TWI442773B/zh not_active IP Right Cessation
-
2012
- 2012-08-30 US US13/599,992 patent/US8626504B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI806577B (zh) * | 2022-04-28 | 2023-06-21 | 瑞昱半導體股份有限公司 | 數位簽章方法及數位簽章的驗證方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2008066930A3 (en) | 2008-10-09 |
WO2008066930A2 (en) | 2008-06-05 |
TW200833116A (en) | 2008-08-01 |
CN101548294A (zh) | 2009-09-30 |
EP2126833A2 (en) | 2009-12-02 |
EP2642483B1 (en) | 2015-01-07 |
EP2642483A3 (en) | 2013-10-30 |
JP2010512057A (ja) | 2010-04-15 |
US8626504B2 (en) | 2014-01-07 |
EP2642483A2 (en) | 2013-09-25 |
JP5060565B2 (ja) | 2012-10-31 |
US20130064416A1 (en) | 2013-03-14 |
CN101548294B (zh) | 2012-06-27 |
US20090304082A1 (en) | 2009-12-10 |
US8259806B2 (en) | 2012-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI442773B (zh) | 抽取視訊與音訊信號內容之特徵以提供此等信號之可靠識別的技術 | |
US8400566B2 (en) | Feature optimization and reliability for audio and video signature generation and detection | |
US8488061B2 (en) | Deriving video signatures that are insensitive to picture modification and frame-rate conversion | |
JP5341095B2 (ja) | メディア・コンテンツに信頼性よく対応するメディア・フィンガープリント | |
US9536545B2 (en) | Audio visual signature, method of deriving a signature, and method of comparing audio-visual data background | |
KR100893671B1 (ko) | 멀티미디어 콘텐트의 해시들의 생성 및 매칭 | |
US9628837B2 (en) | Systems and methods for providing synchronized content | |
EP1081960A1 (en) | Signal processing method and video/voice processing device | |
US20120143915A1 (en) | Content-based video copy detection | |
KR20050000307A (ko) | 비디오 복제 검출 방법 및 장치 | |
CN104853244A (zh) | 用于管理音视频、音频或视频内容的方法和装置 | |
KR20140058643A (ko) | 강건한 낮은 복잡도 비디오 핑거프린팅을 위한 장치 및 방법 | |
CN110896503A (zh) | 视音频同步的监测方法及系统,以及视音频播出系统 | |
Radhakrishnan et al. | Audio and video signatures for synchronization | |
CN110619362B (zh) | 一种基于感知与像差的视频内容比对方法及装置 | |
Stojancic et al. | Interoperable AV SYNC Systems in SMPTE 22TV LIP SYNC AHG (Content-Fingerprinting Based Audio-Video Synchronization) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |