TWI223231B - Digital audio with parameters for real-time time scaling - Google Patents
Digital audio with parameters for real-time time scaling Download PDFInfo
- Publication number
- TWI223231B TWI223231B TW091122548A TW91122548A TWI223231B TW I223231 B TWI223231 B TW I223231B TW 091122548 A TW091122548 A TW 091122548A TW 91122548 A TW91122548 A TW 91122548A TW I223231 B TWI223231 B TW I223231B
- Authority
- TW
- Taiwan
- Prior art keywords
- time
- parameters
- audio data
- frame
- audio
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00007—Time or data compression or expansion
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00007—Time or data compression or expansion
- G11B2020/00014—Time or data compression or expansion the compressed signal being an audio signal
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B2020/10935—Digital recording or reproducing wherein a time constraint must be met
- G11B2020/10944—Real-time recording or reproducing, e.g. for ensuring seamless playback of AV data
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
五、發明說明(1) 發明背景 數位音訊信號之時間飨妨 间蝻放(例如:時間壓縮或延展) 改變已記錄音訊信號之播放读盡二T t 狄逑率而不改變音訊系統之感覺 的音調。因此,使用具有時間飨 β 了间細放旎力之本系統的聽者可 以加速播放以加快接收資訊或者減速播放以減慢接收資 訊’由於此時間縮放技術提供如同原始音訊之音調而使資 訊更易㈣與了解。理想地,具有時間縮放能力之本發明 應賦予聽者播放速率之控制能力或者時間縮放之能力,使 得聽者可以選擇應變播放中資訊之複雜度以及聽者本身對 播放資訊之專注狀態的速率。 時間縮放系統對於即時將預錄數位音訊資料轉為時間 縮放數位音訊資料流—般需求大量處理H因此,許多 諸如可攜式電話等之有限處理電源系統即無法做即時的音 科間縮放,且鋪純必鮮卩賴_種提供具有所欲時間 ‘度之時間縮放信號的來源。再者,使用者對時間標度之 ,擇需求時間縮放音訊來源能夠準確地回應所選定之時間 :度内之改^ ’以及在正確時間標度提供時間縮放音訊資 、,名稱”播放時錄放速率之即時控制,,之第〇9/849,719號 =國專利中請案中描述-種對具有時間縮放數位音訊之多 聲道來源提供播放速率即時㈣的方法,料聲道對應 2同時間標度。此類方向允許所欲時間縮放資料在網路 專輪,一個具有低處理能力之接收器。然:而,在此來源 ^有斗夕不同時間標度以及相關音訊資料聲道需要龐大的 五、發明說明(2) 資料結構。具有較小資料結構但仍 電源之系統中做即時時間縮放之另外方法被=用處理 發明之概要破号找中。 依據本發明之_層 減少對音錢日士心 位音訊資料結構提供 =對二做„縮放之處理負荷的時間縮 力接收為"播放器在播放具有良好音質之 時間縮放音料執行_ 、 m 悝岈間鈿放參數之型式 0 二不用於時間縮放過程之偏置量,且使用偏置量 排除了,找對時間縮放音訊提供最佳音質之音訊段的需 =-種時間縮放參數型式將例如指示那個訊框對應至 月尹曰專之音訊訊框内容分類,且—時間縮放方法可用於處 理不冋類訊框時不同的技術或時間標度。其他型式時間縮 放參數視所使用縮放方法而定。 為了產生擴充音訊資料,一預先處理系統利用時間縮 放方法產生時間縮放參數。包括時間縮放參數之擴充音訊 資料結構可被儲存用於等一下之使用或馬上被傳輸至一個 播放系統。此播放系統使用預先處理時間縮放參數來避免 萬在做%•間縮放以及播放時間縮放音訊時之密集計算程 序。一低電源系統因而可執行音訊資料之即時時間縮放且 提供良好音質。因此,與一特定時間標度相關之時間縮放 參數在比較音訊資料時需要非常少的額外儲存器或者是傳 輸頻寬。 在本發明之一實施例中,增加之參數指示用於產生時 間縮放音訊資料之”最匹配”資料區塊的時間偏置量。一 五、發明說明(3) 般找哥最匹配區塊需求一大部份耗費於時間縮放方法上 之處理電源。因此,一個具有較一般用於做即時時間縮放 所需之處理電源為小的可用處理電源之系統更可接收具參 數之擴充音訊資料、不需尋找即鑑識出最匹配區塊、及執 5行即時時間縮放。 在本發明之另-實施例中,在擴充資料結構中之參數 將t訊資料訊框部段之音訊内容分類,且音訊資料之非線 性、%放可依訊框之音訊内容施以不同時間縮放方法或時間 標度於不同部段。在_具體實_中,擴充音訊 之參數包括鑑識對應至靜音之旗標。在播放音訊資料時, 對應至靜音之訊框可被停止、被更有效地縮放,或更特別 地可視為達到一種理想的音訊資料時間縮放。 本發明之一具體實施例是一種包括處理音訊資料以決 疋關係著時間縮放音訊資料的方法。音訊資料及參數可被 15供於一在記錄媒體上諸如CD或DVD等播放系統可讀取、或 者播放系統可經由諸如電話網路、LAN、或網際網路等之 網路來接收之播放系統。播放系統當對音訊資料做縮放以 產生時間縮放音訊資料量時使用參數。利用預先時間縮放 參數之時間縮放方法需要較沒有時間縮放參數之音訊資料 2〇時間縮放少的處理電源。因此,較低處理能力播放系統可 執行即時時間縮放。 典型上’音訊資料具有包含音訊樣本之輸入匡架、及 匕括對樣本區燒之偏置量的參數。一般,各偏置量鑑識出 用於從輸入訊框產生時間縮放音訊資料之一區塊樣本。多 重偏置量可對各气框 到-個不_日^#=,其中對各訊框之個偏置量對應 另一本發明實施 收具有指示-小區心音訊時間縮放方法,其包括接 ;訊框、利轉料=置4與時間標度之參㈣音訊資料 偏置量、以β 】區塊上且對應到選定時間標度之 間縮放訊框。參:二量鑑識出之區塊内的樣本產生時 同時間標度之預設偏置量^:小區塊上且分別對應到不 置量所具有之其中之4門;:用者選定之時間標度非偏 置量間可決定對庫到選^不又日”將小區塊插入預設偏 耵應到噠疋時間標度之偏置量。 然而另-個本發明實施例係 擴充音訊資料結構包括對廡s, U曰Λ貝枓結構 仏 到不同音訊部段之訊框和一個 Γ::1 訊框之參數。各訊框包括音訊對應部段之樣 本,且參數提供取樣音訊資料之時間縮放的資訊。尤直, 一訊框之,,偏置量,,參數可梦 八 區塊用於產生時間縮放資 ㈣樣本1各音訊訊框可具有分別對應到不㈣間標度之 1重偏置里,且對訊框之各偏置量在時間標度與偏置量關 I而對訊㈣時間㈣時鑑識出_與訊框結合之樣本區 0 7 即使-低處理能力播放器可利用前述之時間縮放方法 和擴充音訊資料結構來執行即時時間縮放,_種諸如飼服 器之高電源處理系統亦可做到對時間縮放資料之即時社構 時_放方法和擴充音訊資料結構。飼服器於是可僅提供 時間縮放資料給有限音訊資料傳輪頻寬之系統内 1223231 五、發明說明(5) 器。 圖式之簡要說明 第1圖緣不從輸入音訊資料訊框之時間縮放輸出的時 間縮放音訊資料訊框。 5 第2圖係一時間縮放方法的流程圖。 第3圖繪示一鑑識出一用於第2圖之時間縮放方法之最 匹配區塊的偏置量。 縮放 ~第4圖繪示一用於利用最匹配資料區塊產生時間 貧料之方法。 10 第5圖繪示對一用於第2圖時間縮放方法之 出及填充方法。 緩衝器的輸 第6圖係建構一簡化音訊資料之即時時間縮放之擴充 曰訊資料結構的流程圖。 八 15 範例。 第7圖繪示—利用偏置量得到最匹配區塊之時間標度 圖。 第8圖繪示一利用擴充音訊結構之時間 縮放方法流程 用其 弟9圖顯示包含一非線性時間縮放方法可 2〇 方式做特別地處理的靜音區間之聲波波形。’ 之第10圖係一系統方塊圖,該系統中一饲服 曰訊資料結構來建構傳輸至播放器的時間缩放:—擴充 /同圖中相同符號之使用係指示料。 發明之詳細說明 次相冋之項目。 構包括數位 依據本發明之_層面,_擴充音訊資料結 五、發明說明(6) 音訊資料和參數以 所需之處理電源。 咸低對數位音訊資料執行時間縮放方法 Μ圖緣不分成輸人訊框IF1至IFX之數位音訊資料 100。在-範式性之實施例中,各輸人訊框包含—固定之聲 音信號樣本數m且需m之時間τ以在—般播放速率 播出。尤其,對應至各輸人訊框之時間了等於訊框内之樣 本數除以用於播放操作之取樣頻率。 諸如更之後敘述之時間縮放方法將數位音訊資料⑽ 及輸入Λ框IF1至IFX轉換成具有輸出時間縮放訊框⑽至 〇FX之時間縮放數位音訊資料11〇。每一輸出訊框之η個樣 本數等於每—輸人訊框之m個樣本數除以時間標度8。因 此,一時間標度S等於2,各輸出訊框⑽至㈣之樣本數 係各輸人訊框IF1至IFX樣本數之―半^播放時間縮放資 料110需花費1.5倍利用相同取樣時間來播放之輸入資料 100所需的時間。一時間標度8等於〇5,各輸出訊框⑽至 OFX之樣本數係'各輸人訊框Ιη·χ樣本數之2倍,且播放 時間縮放資料m需要2倍利用相同取樣時間來播放之輸入 貧料⑽所需的時間。對於大於1之時間標度(例如:時間壓 縮),每單位時間之時間縮放資料ho較音訊資料1()〇在正常 比=下播放傳播更多資訊(例如:發音、音樂等)。時間縮 放藉由移除-般記錄包含演說及音樂之音訊資料的冗賛資 料達到較高資訊比^另外,對於小於i之時間標度,時間 Μ擴大輸入音訊訊框因而輸出時間縮,放音訊訊框包含 更多樣本且花費更多時間來傳遞資訊。例如,時間標度 1223231 五、發明說明(7 ) 0.5,時間縮放即增加冗贅資訊而音訊資料得花兩倍時間來 播放。 第2圖係一自輸入音訊資料1〇〇產生時間縮放音訊資料 110之範式性時間縮放方法200之流程圖。一開始,步驟21〇 5儲存一第一輸入訊框IF1於緩衝器之開始,將訊框索引初始 化為2且設定〇為第一輸入訊框之偏置量。緩衝器之尺 寸可依據時間標度來選擇。一般,音訊緩衝器之儲存容量 至少大於2m和2n之greater,其中輸入訊框包含m個樣本而 輸出訊框包含η個樣本。接下來,一資料區塊大小g等於輸 1〇 入σ凡框大小m及輸出訊框大小η之greater(例如:g=max η})。因此,緩衝器典型上大小為2g。 步驟220將輸入資料填進緩衝器,首先填入跟隨最後所 使用來源之資料並馬上在儲存位置之起始位置、緩衝器内 最後修改資料之後儲存緩衝器内之輸入資料。在步驟22〇 15之第一項執行中,包括輸入訊框1172之輸入資料馬上被儲存 在輸入訊框IF1之後,因而來自輸入訊框IF1和1172之2111樣本 在緩衝器内係連續的。對少於丨之時間標度,初始填入緩衝 器之步驟220同時儲存來自訊框IF3及連續地跟著訊框Ιρ2 之可能的連續訊框IF4··.等之樣本。 20 在緩衝器因而被填入後,步驟230對部份緩衝器搜尋一 最匹配輸入訊框之m個樣本區塊。為了做時間壓縮,步驟 230從少於或等於m樣本之緩衝器之起始尋找所有以偏置 量起始之區塊。為了做時間壓縮,步驟23〇從少於或等於η 樣本之緩衝器之起始尋找以一偏置量起始之區塊。 1223231
如第3圖所繪示,來自緩衝器300之起始之一偏置量△ Ti唯地鐘4出一最匹配輸入訊框iFi之區塊31〇。偏置量 △Tl亦鑑識出一包含g個樣本之最匹配訊框320。對於時間 壓縮(例如:一大於1之時間標度),區塊320與區塊31〇相 5等。對於時間擴張(例如··一小於1之時間標度),區塊3 1 〇 係區塊320之一個子集。
在步驟240中,時間縮放方法200藉由將緩衝器3〇〇内最 匹配區塊320之g個樣本與包括訊框IFi之來源資料的g個樣 本而修改緩衝器3〇〇之内容。對於時間壓縮,輸入訊框Ifi 10之來源貪料(一開始係IF2)。對於時間壓縮,來源資料係n 個以輸入訊框Ifi開始之n個連續樣本。
第4圖繪示一範式性的結合方法4〇〇。對於結合步驟 400 ’位於來源資料或最匹配區塊320内之各樣本具有依據 來源貧料内或最匹配區塊内之樣本順序而指定的具值1到g 15之樣本索引j,結合步驟400將來源資料内之對照樣本乘以 一對照值F1⑴為一加權函式41 〇且將最匹配區塊320内之 對照樣本乘以一對照值们⑴為一加權函式42〇。相加這兩 個對應到相同樣本索引之結果產生一對照修改過之樣本, 其儲存於緩衝器300内先前被最匹配區塊31〇佔有之儲存位 20 置。結果’步驟240在緩衝器300中以一修改的區塊510取代 區塊3 2 0。 在一範式性實施例中,加權函式410及420之值Fl(j)和 F2(j)隨樣本索弓丨j而變化以致兩對應至相同樣本索引之加 權值加到1(即,Fl(j)+F2(j)=l,其中j = l到g)。此外,加權 11
1223231 函式420具有等於1之加權值?2(1)以保存從緩衝器3〇〇 一開 始之偏置量ATi樣本值的連續性,且加權函式41〇具有維持 樣本值連續性之等於1的加權值F1 (g)以........
[0034]步驟250藉左移η個樣本出緩衝器3〇〇產生一輸 5出訊框0F(i_l)。此後,步驟260增加訊框索引;[,且決定步 驟270決定步驟2〇〇是否到達最後輸入訊框汀乂。若又更多 輸入訊框待做時間縮放,步驟200跳回步驟22〇並且以緊跟 著用於步驟結合240中步驟中最後來源資料之輸入資料來 填入緊跟著修改區塊51〇之移位位置的部分緩衝器3〇〇。步 10驟22〇、230、240、及250重覆於各輸入訊框IF2至IFX到輸 出時間縮放訊框OF1到OF(X-l)。於最後輸入訊框IFX後, 步驟200從決定步驟270分支出產生最後輸出訊框〇fx之步 驟 2 8 0 〇 對於時間縮放步驟200中找尋最匹配區塊之步驟23〇需 15求大部分的處理能力。尤其,對於框架索引i之各值,第3 圖之搜尋步驟230—般需要比較來源資料與g個候選區塊, 且各比較程序一般需要約3m則數學運算,譬如,對輸入訊 框之各樣本做減法、絕對值或平方根、以及加法運算等。 因此,搜尋步驟230每訊框需要3m*g則數學運算。相對的, 2〇第4圖之組合運算需要3m則運算,譬如,對樣本索引j之值 做兩則乘法運算及一則加法運算。在一例示程序其各輸入 訊框包含440個樣本(m=44)且縮放因子3係2(n=222),搜尋 步驟230約需200次的數學運算來值行組合步驟24()。 第6圖繪示依據本發明之一實施例以產生一用於時間 12 五、發明說明(10) 縮^之擴充音訊資料結構程序600,其減少用於時間縮放之 ^學運算次數。程序_始於步驟㈣,其利用—串不同的 T門‘度對輸人音訊資料執行時間縮放。尤其,對各時間 標度,步驟610施加—猶如時間縮放步驟細之時間縮放步 驟於輸入音訊資料。步驟62〇鐘識出在時間縮放步驟61〇間 尋得之特定參數’且步驟63〇將該參數合併至一擴充音訊資 料結構。 、 擴充音訊資料結構内之特定參數一般依據所用的時間 縮放程序而^,在一利用時間縮放程序200之實施例中,時 間縮放步驟610決定-組偏置量△丁㈣,其中k涉及標度因 子71係訊框索引(i=1到X)。各偏置量△ T(k,i)在-對應時 間標度索引k之時間縮放程序中鑑識出一與包括輸入訊框 阳之來源資料組合之最佳匹配區塊。步驟62〇鑑識出表示 偏置量之參數,且步驟㈣將音訊資料結構内之來 數合併。 ’ 在另一可選擇之實施例中,時間縮放步驟610將音訊資 料之訊框或部段之音訊内容分類並對不同輸入音訊訊框或 部段依其不同音訊内容利用不同的時間縮放方法或時間標 度。利用此技術’ -非線性時間縮放方法可更有效地對包 含較不重要資料之訊框做時間縮放並只要提供較少的時間 縮放方法予較關鍵之資訊。更具體地,在—實施例中,+ 驟6聰識出那個訊㈣照靜音(譬如,具有小於某臨界= 之總能或平均能的訊框)且當做參數,步驟62〇鑑識指示那 個輸出訊框對照靜音之旗標。其他時間縮放方法利用其 五、發明說明(u) 可表示步驟620和630在擴充 數的資訊。 資料結構内所鑑識及含括之參 依據本發明之-範式實施例,此擴充資料結構表示 包括輸入訊框!WX之音訊資料,且與各輸入訊框如 相《係對涉及-組時間標度值之時間標度索引鑑識出偏 置=T(k,j)之參數。第7圖緣示圖7⑼,其中偏置量μ對 特疋讯框為時間標度s之函式。對—時間標度為卜偏置量 △ T為m ’但偏置量Δτ更—般地依據時間標度和音訊資料 内容而定。較佳地,關於訊框之參數指示—種完全連續的 關係,諸多圖之形狀則插入可對時間標請識出圖 700上之—偏置量Δτ。若時間縮放採用了對偏置量△丁不 精確之判斷’許多使用者將可察覺粗韃的音質,譬如:對 訊框之偏置量不在圖700上。 ^ 在本發明之-範式實施例中,步驟61G執行人個時間縮 放操作,其中之-對介於0.5至4()之各時間標度k_致為 0.5,而加至各輸人訊框之音訊資料結構的參數係對輸入訊 框及時間標度k鑑識最匹配區塊之偏置量Δτ⑻。當各輸入 訊框包含440個樣本,加上8個參數增加了約少於之=% 資料總量。 、。曰- 假使即時縮放是必須的或吾人欲直接廣 時,一有力的處理系統可以即時執行程序 程序_係在擴充音訊資料用於時間縮放播放前所執 行之預先處理。因此,程序__般不需即時執行。然而, 播至一播放系統 600 〇 其使用諸如程序 第8圖係時間縮放程序8〇〇之流程圖
五、發明說明(l2) 6〇〇(第6圖)所提供之擴充音訊資料來簡化第2圖所示時間 鈿放程序200。在步驟81〇中,可為諸如攜帶電話或pDA等 之低處理能力播放系統存取擴充音訊資料。有許多不同的 方法可提擴充音訊資料至播放系統中。譬如,擴充資料可 5被存在諸如CD、DVD等記錄媒體、或其他播放系統可存取 之儲存裝置’且此播放系統能從播放系統之一部份的内部 驅動器或記憶體取得擴充音訊資料。另一種可選擇地,擴 充音訊貢料可直接地經由諸如區域網路(LAN)、電話網 路、或網際網路等廣播至播放系統 10 步驟210、220、830、240、250、260、270、及280在 播放系統内執行時間縮放操作。此時間縮放操作與第2圖之 時間縮放操作在步驟830上尋得最匹配區塊有所不同。除此 之外 210、220、240、250、260、270、和 280如同前述第 2 15 為了找出最匹配輸入訊框IFi之區塊,步驟830利用來 自擴充音訊資料結構之參數來判斷對照當下所選定時間標 度之偏置量△ Ti。譬如,若參數為偏置量△ T(k,i),其中不 連續值k為時間標度且選定時間標度s對應至其中一個不 連續值k,步驟830僅存取及使用正確的那一個輸入訊框IFi 20 之偏置量。另外可選擇地,步驟830可插入具有的偏置量之 間’以判斷除了那些對照擴充資料之偏置量以外的時間標 度偏置量。即使插入是必須的,利用擴充音訊資料判斷偏 置量典型地需約較搜尋最匹配區塊少兩個數量級之數量運 算。 15 1223231
五、發明說明(l3 ) 時間縮放參數之使用可適用於如第2、8圖所示之線性 日守間縮放以及適用於非線性時間縮放。其中一型非線性時 間縮放移除靜音區段、或另特別地處理靜音區段,以對以 較短時間播放之輸入音訊做時間縮放。第9圖繪示一包括輸 5入訊框IF1,IF2等之音訊波形9〇〇。各訊框IFi、IF2......
可藉包含臨界值比ENERGY/ZC來歸類是否為靜音,其中 ENERGY係訊框内平均音訊能量而zc為訊框内之零交 又。函式1指示包含m個音訊樣本之輸入訊框内的平均能量 A。訊框内之零交叉ZC可從訊框樣本之正負號轉變次數總 10 和來判斷。 函式 1 : ENERGY=丄· f a.2
m % J
依據本發明之一範例實施例,擴充音訊資料結構内之 參數指示那個音訊訊框對照靜音。譬如,各訊框可具設定 來指示那個訊框對照靜音之一位元旗標。一實施時間縮放 15之播放系統不需計算各訊框之能量或零交又,反而可在選 擇於即時、非線性時間縮放期間做特殊處理之訊框時利用 旗標。 關於前述方法之一具體應用係於一語音郵件系統 内、或其他其中之伺服器或其他裝置儲存諸如電話訊息、 1〇新聞、或顯示等已錄好之訊息之資訊系統。伺服器可建構 具時間縮放參數之擴充音訊資料,而電話、或其他接收語 音郵件或其他資訊之裝置可利用擴充音訊資料而使得在使 用者希望加速或減速所接收信號之播放速率時執行即時高 16 1223231
品質之時間縮放。
^如同前述所強調,利用包括時間縮放參數之擴充資料 結構可降低對音訊做即時時間縮放之處理能力需求,而擴 充賁料結構僅稍大於原來的音訊資料。然而,對於即時時 5間壓縮,一播放器必須以一高於播放輸出訊框時之樣= 率的速率接收輸出音訊訊框(且附加參數)。尤其,對於時 間標度為2,播放器執行時間縮放對輸入音訊資料之需要^ 係至少兩倍樣本頻率。接受擴充音訊資料結構所需之資料 率可能為有限傳輸頻寬系統的一個問題。(相對的,對於即 1〇時時間音訊擴展,擴充音訊資料結構之傳輪一般需較時間 擴張資料為少之頻寬。)
第10圖繪示依據本發明之一實施例的系統1〇〇〇,其降 低即時時間縮放之頻寬需求。系統1000包括一連接至伺服 器1020之用戶端1010。在本發明之另一可選擇的實施例 15中,用戶端1010可為電腦、PDA、或使用諸如lAN、WAN、 網際網路、或連接至伺服器1〇2〇之電話網路的電話。伺服 器1020可為儲存至少一個播放物之電腦,該播放物具有一 擴充音訊資料結構以播放播放物之音訊部份。 在操作中,用戶端1010發出一個連接的要求1030至伺 20服态I20並等待伺服器1020允許該連接。在回應1040中,伺 服為1020鑑識用戶端ι〇1〇要求的播放物,對播放物初始化 一音訊緩衝,並允許連接至用戶端1〇1〇。 一旦連接建立了’客戶端1010對特定具有一索引i及時 間標度S之音訊訊框發出要求1〇52。伺服器1〇2〇接收訊框 17 五、發明說明(15 ) 索引1及日守間;^度s並擷取包括相聯輸入訊框iFi和來自擴 充資料結構之相聯參數。伺服器1020於是產生—輸入訊框 以傳輸至用戶端1010。尤其,對第8圖之時間縮放方法,伺 服器1020對訊框索引i及時間標度8判斷出一偏置量ATi, 將包括輸入訊框IFi之來源資料與偏置量ATi鑑識之緩衝 區塊結合。伺服器i 0 2 0於是將輸出訊框左移出緩衝器,傳 遞輸出訊框至用戶端ΠΗ0’然後再用以下個輸人訊框為起 始之音訊資料填入緩衝器。 用戶端1010收到傳輸的輪出訊框,儲存接收到的輸出 矾框於一播放緩衝器中,增加訊框索引,且向伺服器1020 要求下一個訊框。用戶端1010不要求伺服器用於產生輸入 Λ框之輸入訊框或參數。因此,系統丨000需求一約等於用 於播放音訊之樣本頻率之音訊頻寬。 即使本發明已藉參考一些特定實施例來描述,但這些 描述僅是對本發明應用之一些例子而非局限本發明僅止於 此。言如,雖然别述音訊資料係播放物,但播放物更可包 括諸如圖像、視訊等之多媒體資訊。因此,縱然前述特定 袼式化音訊資料於固定訊框尺寸,利用各種訊框尺寸之時 間縮放程序亦適用於本發明之其他可選擇的實施例。各式 各樣所揭露之實施例特徵的改變與組合皆落於其後申請專 利範圍所界定之範圍中。 元件標號對照表 100……數位音訊資料 110……時間縮放資料 1223231 五、發明說明(l6) 200……程序 810……步驟 210-280……步驟 1000……系統 300……緩衝器 1010……用戶端 310……區塊 1020……伺服器 320……最匹配區塊 1030……步驟(要求) 400……結合方法 1040……步驟(回應) 410……加權函式 1052……步驟 420……加權函式 1054……步驟 510……區塊 1056……步驟 520……區塊 1058……步驟 600……程序 1062……步驟 610-630……步驟 1064……步驟 700……圖 1066……步驟 800......程序 1068......步驟 19
Claims (1)
1223231
第9112254 8號申請案申請專利範圍修正本 93·3·5. 1· 一種用於產生時間縮放音訊之方法,包含: 預先處理曰Λ二貝料以判斷與該音訊資料之時間縮 放相關聯的參數; 將該音訊資料與該等參數供至一裝置;以及 使該裝置湘料參數來對該音訊資料做時間縮放, 以產生時間縮放音訊,&中利用該等參數於該時間縮 放動作需要較不使用該等參數之音訊資料時間縮放動 作為少的處理能力。
ίο 15 〒印寻㈣圍“項之方法,其中該裝置利用該音 資料與該等參數來執行該音訊資料之即時時間縮放。 如*申請專利範圍^項之方法,其中提供該音訊資料 该等參數之㈣包含將該音訊資料與料參數記錄 該^置可讀取之-記錄媒體上,^該裝置存取該記錄 體以讀取該音訊資料與該等參數。 如申請專利範圍第3項之方法,其中該記錄媒體是一 碟片。
5 . 20 =請專職圍第w之方法,其中提供該音訊資料與 =專參數之步驟包含經由—網路傳輸該音訊資料與該 4參數至該裝置。 6·如申請專利範圍第1項之方法,其中: 該音訊資料包含多數個輸入訊框;及 该等參數對各輸入訊框包含一 各偏置1對一相關聯輸入訊框鑑識 個或多個偏置量, 出一樣本區塊,用 20 夂、申請專利範圍 於從該相關聯輸入訊框產生時間縮放資料。 7. 如申請專職㈣6項之方法,其中料各輸入訊框該 〇數包含多數個偏置量,线人訊框之該等多數個偏 置量對應於不同的時間標度。 8. 次如申請專利範圍第X項‘法,其中該裝置執行該音訊 ^枓之預先處理㈣清該等參數,域存該音訊資料和 =等參數’供使用於之後的音訊資料即時時間縮放動 9. 如申請專利範圍第丄項之方法,其中: 该音訊資料包含多數輸入訊框;及 一個或更多該等參數將該等輸人訊框 内容分類。 ^ :識 1 ◦•如中請專利範圍第9項之方法,其中該等參數鐘 出哪個輸入訊框表示靜音。 ^二申請專利範圍第9項之方法,其中使裝置利用該 之步驟包含以不同方式處理該等參數指示為靜 曰之輸入錢與該等參數指㈣非靜音之輪入訊框。 l2·如申請專利範圍第1項之方法,其中一扭立勒丄 該音訊資料之該預先處理,以判斷相於^ 式貝料之時間縮放動作的參數。 電 話0 认如中請專利範圍第12項之方法,其中該裝置包含— 接收來自該語音郵件系統之音訊資料與該等參數的 14.如申請專利範圍第1項之方法,其中—飼服器執行 1223231
六、申請專利範圍 10 15 20 該音訊資料之該預先處理以判斷相關聯於該音訊資料 之時間縮放動作的參數。 1 5 ·如申請專利範圍第1 4項之方法,其中該裝置包含一 接收來自該伺服器之音訊資料與該等參數之電話。 1 6 ·如申請專利範圍第1項之方法,其中該裝置包含一 伺服器,該伺服器執行該音訊資料之該預先處理以判斷 相關聯於該音訊資料之時間縮放、儲存該音訊資料與該 等參數做為之後之使用、且執行即時時間縮放以提供該 被縮放之音訊資料至一播放器。 17· 一種用於音訊之時間縮放的方法,其包含: 接收一具有指示偏置量與時間標度間關係之參數 的音訊訊框; 利用該等參數來判斷對應於一選定時間標度的一 偏置量;及 利用該偏置量所鑑識出之一區塊中的樣本產生一 時間縮放訊框。 18· 請專利範圍第17項之方法,其中該等參數包含 多數預域理過的偏置量,該等偏置量分別對應於多數 時間標度。 二如申請專利範圍第18項之方法,其中利用包含插入 及,先處理過之偏置量間的該等參數來判斷該對照該 選定的時間標度之該偏置量。 2〇.如中請專利ϋ圍第17項之方法,其更包含由一聽者 選擇用於該音訊之播放的被選定時間標度的聽者。
22 - 己錄有音汛資料結構之儲存媒體,該音訊資 料結構包含: •夕數個刀別對應於多個音訊部段之訊框,各該訊框 包含多數個對應音訊部段之樣本;及 供各個該等訊框用的一或更多個參數,該等參數提 八減V忒音汛資料時間縮放程序所需之處理能力的資 訊。 2 ·如申請專利範圍第21項之儲存媒體,其中供一訊框 用之該一個或多數個參數鑑識出用於產生時間縮放資 料之該等樣本之一區塊。 23.如申請專利範圍第21項之儲存媒體,其中供一訊框 用之各參數從該訊框中鑑識出用於產生時間縮放資料 之该等樣本之一區塊。 24 ·如申請專利範圍第21項之儲存媒體,其中供一訊框 用之一個或更多個參數包含多數個分別對應於多數個 時間標度之偏置量,各該偏置量鑑識出用於產生對應於 與該偏置量相對應之該時間標度的時間縮放資料之該 等樣本之一區塊。 25· 如申請專利範圍第21項之儲存媒體,其中一個或多 數個參數指出哪些訊框對應於該音訊之靜音部段。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/010,514 US7171367B2 (en) | 2001-12-05 | 2001-12-05 | Digital audio with parameters for real-time time scaling |
Publications (1)
Publication Number | Publication Date |
---|---|
TWI223231B true TWI223231B (en) | 2004-11-01 |
Family
ID=21746102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW091122548A TWI223231B (en) | 2001-12-05 | 2002-09-30 | Digital audio with parameters for real-time time scaling |
Country Status (7)
Country | Link |
---|---|
US (1) | US7171367B2 (zh) |
EP (1) | EP1451822A2 (zh) |
JP (1) | JP2005512134A (zh) |
KR (1) | KR20040055802A (zh) |
CN (1) | CN1703738A (zh) |
TW (1) | TWI223231B (zh) |
WO (1) | WO2003049108A2 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7426470B2 (en) * | 2002-10-03 | 2008-09-16 | Ntt Docomo, Inc. | Energy-based nonuniform time-scale modification of audio signals |
US8832540B2 (en) * | 2006-02-07 | 2014-09-09 | Nokia Corporation | Controlling a time-scaling of an audio signal |
US8855275B2 (en) * | 2006-10-18 | 2014-10-07 | Sony Online Entertainment Llc | System and method for regulating overlapping media messages |
US8489774B2 (en) * | 2009-05-27 | 2013-07-16 | Spot411 Technologies, Inc. | Synchronized delivery of interactive content |
US8718805B2 (en) * | 2009-05-27 | 2014-05-06 | Spot411 Technologies, Inc. | Audio-based synchronization to media |
TWI506583B (zh) * | 2013-12-10 | 2015-11-01 | 國立中央大學 | 分析系統及其方法 |
US10354422B2 (en) * | 2013-12-10 | 2019-07-16 | National Central University | Diagram building system and method for a signal data decomposition and analysis |
TWM513078U (zh) * | 2015-09-08 | 2015-12-01 | Tct Global Ltd | 鑽頭結構 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4885791A (en) * | 1985-10-18 | 1989-12-05 | Matsushita Electric Industrial Co., Ltd. | Apparatus for speech recognition |
US5175769A (en) * | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
US5448679A (en) | 1992-12-30 | 1995-09-05 | International Business Machines Corporation | Method and system for speech data compression and regeneration |
EP0652560A4 (en) | 1993-04-21 | 1996-05-01 | Advance Kk | DEVICE FOR RECORDING AND PLAYING BACK VOICE. |
US5828964A (en) * | 1994-12-08 | 1998-10-27 | Bell Atlantic Science & Technology Inc | Apparatus and method for point-to-point multipoint radio transmission |
US5920840A (en) * | 1995-02-28 | 1999-07-06 | Motorola, Inc. | Communication system and method using a speaker dependent time-scaling technique |
US5809454A (en) * | 1995-06-30 | 1998-09-15 | Sanyo Electric Co., Ltd. | Audio reproducing apparatus having voice speed converting function |
US5828994A (en) | 1996-06-05 | 1998-10-27 | Interval Research Corporation | Non-uniform time scale modification of recorded audio |
JP3092652B2 (ja) | 1996-06-10 | 2000-09-25 | 日本電気株式会社 | 音声再生装置 |
JP3439307B2 (ja) * | 1996-09-17 | 2003-08-25 | Necエレクトロニクス株式会社 | 発声速度変換装置 |
US6766300B1 (en) * | 1996-11-07 | 2004-07-20 | Creative Technology Ltd. | Method and apparatus for transient detection and non-distortion time scaling |
JP3017715B2 (ja) * | 1997-10-31 | 2000-03-13 | 松下電器産業株式会社 | 音声再生装置 |
US6718309B1 (en) * | 2000-07-26 | 2004-04-06 | Ssi Corporation | Continuously variable time scale modification of digital audio signals |
KR100385331B1 (ko) * | 2000-12-19 | 2003-05-27 | 주식회사 코스모탄 | 변속재생 시에도 음색변화를 유발하지 않도록 하는오디오신호 재생방법과 이를 위한 재생장치 |
JP2004519738A (ja) | 2001-04-05 | 2004-07-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 決定された信号型式に固有な技術を適用する信号の時間目盛修正 |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
WO2002093560A1 (en) | 2001-05-10 | 2002-11-21 | Dolby Laboratories Licensing Corporation | Improving transient performance of low bit rate audio coding systems by reducing pre-noise |
-
2001
- 2001-12-05 US US10/010,514 patent/US7171367B2/en not_active Expired - Fee Related
-
2002
- 2002-09-30 TW TW091122548A patent/TWI223231B/zh not_active IP Right Cessation
- 2002-11-27 JP JP2003550219A patent/JP2005512134A/ja active Pending
- 2002-11-27 KR KR10-2004-7007077A patent/KR20040055802A/ko not_active Application Discontinuation
- 2002-11-27 WO PCT/JP2002/012373 patent/WO2003049108A2/en not_active Application Discontinuation
- 2002-11-27 EP EP02804356A patent/EP1451822A2/en not_active Withdrawn
- 2002-11-27 CN CNA028241061A patent/CN1703738A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2005512134A (ja) | 2005-04-28 |
WO2003049108A3 (en) | 2004-02-26 |
US20030105640A1 (en) | 2003-06-05 |
KR20040055802A (ko) | 2004-06-26 |
WO2003049108A2 (en) | 2003-06-12 |
US7171367B2 (en) | 2007-01-30 |
CN1703738A (zh) | 2005-11-30 |
EP1451822A2 (en) | 2004-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9240187B2 (en) | Identification of utterance subjects | |
WO2021083071A1 (zh) | 语音转换、文件生成、播音、语音处理方法、设备及介质 | |
KR101275467B1 (ko) | 오디오 재생 장치의 이퀄라이저 자동 제어 장치 및 방법 | |
US8457322B2 (en) | Information processing apparatus, information processing method, and program | |
WO2020113733A1 (zh) | 动画生成方法、装置、电子设备及计算机可读存储介质 | |
US20110066438A1 (en) | Contextual voiceover | |
US20090070114A1 (en) | Audible metadata | |
US11295069B2 (en) | Speech to text enhanced media editing | |
CN107851440A (zh) | 经编码音频扩展的基于元数据的动态范围控制 | |
JP3621686B2 (ja) | データ編集方法、データ編集装置、データ編集プログラム | |
KR20090047159A (ko) | 오디오-북 재생 방법 및 장치 | |
KR20080061747A (ko) | 오디오 배속 재생 방법 및 장치 | |
TWI223231B (en) | Digital audio with parameters for real-time time scaling | |
CN112562638A (zh) | 语音预览的方法、装置及电子设备 | |
JP2002189498A (ja) | デジタル音声処理装置及びコンピュータプログラム記録媒体 | |
JPWO2002058053A1 (ja) | ディジタル音声データの符号化方法及び復号化方法 | |
WO2023005193A1 (zh) | 字幕显示方法及装置 | |
CN109495786B (zh) | 视频处理参数信息的预配置方法、装置及电子设备 | |
WO2005104125A1 (ja) | 記録再生装置、同時記録再生制御方法、および同時記録再生制御プログラム | |
WO2023010949A1 (zh) | 一种音频数据的处理方法及装置 | |
US11740862B1 (en) | Method and system for accelerated decomposing of audio data using intermediate data | |
EP4375984A1 (en) | Method and system for accelerated decomposing of audio data using intermediate data | |
US7795526B2 (en) | Apparatus and method for reproducing MIDI file | |
CN1924990B (zh) | Midi音讯的播放架构和方法与其应用的多媒体装置 | |
JP4792819B2 (ja) | 遠隔編集方法及び遠隔編集システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |