TWI223231B - Digital audio with parameters for real-time time scaling - Google Patents

Digital audio with parameters for real-time time scaling Download PDF

Info

Publication number
TWI223231B
TWI223231B TW091122548A TW91122548A TWI223231B TW I223231 B TWI223231 B TW I223231B TW 091122548 A TW091122548 A TW 091122548A TW 91122548 A TW91122548 A TW 91122548A TW I223231 B TWI223231 B TW I223231B
Authority
TW
Taiwan
Prior art keywords
time
parameters
audio data
frame
audio
Prior art date
Application number
TW091122548A
Other languages
English (en)
Inventor
Kenneth H P Chang
Original Assignee
Ssi Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ssi Corp filed Critical Ssi Corp
Application granted granted Critical
Publication of TWI223231B publication Critical patent/TWI223231B/zh

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • G11B2020/00014Time or data compression or expansion the compressed signal being an audio signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B2020/10935Digital recording or reproducing wherein a time constraint must be met
    • G11B2020/10944Real-time recording or reproducing, e.g. for ensuring seamless playback of AV data

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

五、發明說明(1) 發明背景 數位音訊信號之時間飨妨 间蝻放(例如:時間壓縮或延展) 改變已記錄音訊信號之播放读盡二T t 狄逑率而不改變音訊系統之感覺 的音調。因此,使用具有時間飨 β 了间細放旎力之本系統的聽者可 以加速播放以加快接收資訊或者減速播放以減慢接收資 訊’由於此時間縮放技術提供如同原始音訊之音調而使資 訊更易㈣與了解。理想地,具有時間縮放能力之本發明 應賦予聽者播放速率之控制能力或者時間縮放之能力,使 得聽者可以選擇應變播放中資訊之複雜度以及聽者本身對 播放資訊之專注狀態的速率。 時間縮放系統對於即時將預錄數位音訊資料轉為時間 縮放數位音訊資料流—般需求大量處理H因此,許多 諸如可攜式電話等之有限處理電源系統即無法做即時的音 科間縮放,且鋪純必鮮卩賴_種提供具有所欲時間 ‘度之時間縮放信號的來源。再者,使用者對時間標度之 ,擇需求時間縮放音訊來源能夠準確地回應所選定之時間 :度内之改^ ’以及在正確時間標度提供時間縮放音訊資 、,名稱”播放時錄放速率之即時控制,,之第〇9/849,719號 =國專利中請案中描述-種對具有時間縮放數位音訊之多 聲道來源提供播放速率即時㈣的方法,料聲道對應 2同時間標度。此類方向允許所欲時間縮放資料在網路 專輪,一個具有低處理能力之接收器。然:而,在此來源 ^有斗夕不同時間標度以及相關音訊資料聲道需要龐大的 五、發明說明(2) 資料結構。具有較小資料結構但仍 電源之系統中做即時時間縮放之另外方法被=用處理 發明之概要破号找中。 依據本發明之_層 減少對音錢日士心 位音訊資料結構提供 =對二做„縮放之處理負荷的時間縮 力接收為"播放器在播放具有良好音質之 時間縮放音料執行_ 、 m 悝岈間鈿放參數之型式 0 二不用於時間縮放過程之偏置量,且使用偏置量 排除了,找對時間縮放音訊提供最佳音質之音訊段的需 =-種時間縮放參數型式將例如指示那個訊框對應至 月尹曰專之音訊訊框内容分類,且—時間縮放方法可用於處 理不冋類訊框時不同的技術或時間標度。其他型式時間縮 放參數視所使用縮放方法而定。 為了產生擴充音訊資料,一預先處理系統利用時間縮 放方法產生時間縮放參數。包括時間縮放參數之擴充音訊 資料結構可被儲存用於等一下之使用或馬上被傳輸至一個 播放系統。此播放系統使用預先處理時間縮放參數來避免 萬在做%•間縮放以及播放時間縮放音訊時之密集計算程 序。一低電源系統因而可執行音訊資料之即時時間縮放且 提供良好音質。因此,與一特定時間標度相關之時間縮放 參數在比較音訊資料時需要非常少的額外儲存器或者是傳 輸頻寬。 在本發明之一實施例中,增加之參數指示用於產生時 間縮放音訊資料之”最匹配”資料區塊的時間偏置量。一 五、發明說明(3) 般找哥最匹配區塊需求一大部份耗費於時間縮放方法上 之處理電源。因此,一個具有較一般用於做即時時間縮放 所需之處理電源為小的可用處理電源之系統更可接收具參 數之擴充音訊資料、不需尋找即鑑識出最匹配區塊、及執 5行即時時間縮放。 在本發明之另-實施例中,在擴充資料結構中之參數 將t訊資料訊框部段之音訊内容分類,且音訊資料之非線 性、%放可依訊框之音訊内容施以不同時間縮放方法或時間 標度於不同部段。在_具體實_中,擴充音訊 之參數包括鑑識對應至靜音之旗標。在播放音訊資料時, 對應至靜音之訊框可被停止、被更有效地縮放,或更特別 地可視為達到一種理想的音訊資料時間縮放。 本發明之一具體實施例是一種包括處理音訊資料以決 疋關係著時間縮放音訊資料的方法。音訊資料及參數可被 15供於一在記錄媒體上諸如CD或DVD等播放系統可讀取、或 者播放系統可經由諸如電話網路、LAN、或網際網路等之 網路來接收之播放系統。播放系統當對音訊資料做縮放以 產生時間縮放音訊資料量時使用參數。利用預先時間縮放 參數之時間縮放方法需要較沒有時間縮放參數之音訊資料 2〇時間縮放少的處理電源。因此,較低處理能力播放系統可 執行即時時間縮放。 典型上’音訊資料具有包含音訊樣本之輸入匡架、及 匕括對樣本區燒之偏置量的參數。一般,各偏置量鑑識出 用於從輸入訊框產生時間縮放音訊資料之一區塊樣本。多 重偏置量可對各气框 到-個不_日^#=,其中對各訊框之個偏置量對應 另一本發明實施 收具有指示-小區心音訊時間縮放方法,其包括接 ;訊框、利轉料=置4與時間標度之參㈣音訊資料 偏置量、以β 】區塊上且對應到選定時間標度之 間縮放訊框。參:二量鑑識出之區塊内的樣本產生時 同時間標度之預設偏置量^:小區塊上且分別對應到不 置量所具有之其中之4門;:用者選定之時間標度非偏 置量間可決定對庫到選^不又日”將小區塊插入預設偏 耵應到噠疋時間標度之偏置量。 然而另-個本發明實施例係 擴充音訊資料結構包括對廡s, U曰Λ貝枓結構 仏 到不同音訊部段之訊框和一個 Γ::1 訊框之參數。各訊框包括音訊對應部段之樣 本,且參數提供取樣音訊資料之時間縮放的資訊。尤直, 一訊框之,,偏置量,,參數可梦 八 區塊用於產生時間縮放資 ㈣樣本1各音訊訊框可具有分別對應到不㈣間標度之 1重偏置里,且對訊框之各偏置量在時間標度與偏置量關 I而對訊㈣時間㈣時鑑識出_與訊框結合之樣本區 0 7 即使-低處理能力播放器可利用前述之時間縮放方法 和擴充音訊資料結構來執行即時時間縮放,_種諸如飼服 器之高電源處理系統亦可做到對時間縮放資料之即時社構 時_放方法和擴充音訊資料結構。飼服器於是可僅提供 時間縮放資料給有限音訊資料傳輪頻寬之系統内 1223231 五、發明說明(5) 器。 圖式之簡要說明 第1圖緣不從輸入音訊資料訊框之時間縮放輸出的時 間縮放音訊資料訊框。 5 第2圖係一時間縮放方法的流程圖。 第3圖繪示一鑑識出一用於第2圖之時間縮放方法之最 匹配區塊的偏置量。 縮放 ~第4圖繪示一用於利用最匹配資料區塊產生時間 貧料之方法。 10 第5圖繪示對一用於第2圖時間縮放方法之 出及填充方法。 緩衝器的輸 第6圖係建構一簡化音訊資料之即時時間縮放之擴充 曰訊資料結構的流程圖。 八 15 範例。 第7圖繪示—利用偏置量得到最匹配區塊之時間標度 圖。 第8圖繪示一利用擴充音訊結構之時間 縮放方法流程 用其 弟9圖顯示包含一非線性時間縮放方法可 2〇 方式做特別地處理的靜音區間之聲波波形。’ 之第10圖係一系統方塊圖,該系統中一饲服 曰訊資料結構來建構傳輸至播放器的時間缩放:—擴充 /同圖中相同符號之使用係指示料。 發明之詳細說明 次相冋之項目。 構包括數位 依據本發明之_層面,_擴充音訊資料結 五、發明說明(6) 音訊資料和參數以 所需之處理電源。 咸低對數位音訊資料執行時間縮放方法 Μ圖緣不分成輸人訊框IF1至IFX之數位音訊資料 100。在-範式性之實施例中,各輸人訊框包含—固定之聲 音信號樣本數m且需m之時間τ以在—般播放速率 播出。尤其,對應至各輸人訊框之時間了等於訊框内之樣 本數除以用於播放操作之取樣頻率。 諸如更之後敘述之時間縮放方法將數位音訊資料⑽ 及輸入Λ框IF1至IFX轉換成具有輸出時間縮放訊框⑽至 〇FX之時間縮放數位音訊資料11〇。每一輸出訊框之η個樣 本數等於每—輸人訊框之m個樣本數除以時間標度8。因 此,一時間標度S等於2,各輸出訊框⑽至㈣之樣本數 係各輸人訊框IF1至IFX樣本數之―半^播放時間縮放資 料110需花費1.5倍利用相同取樣時間來播放之輸入資料 100所需的時間。一時間標度8等於〇5,各輸出訊框⑽至 OFX之樣本數係'各輸人訊框Ιη·χ樣本數之2倍,且播放 時間縮放資料m需要2倍利用相同取樣時間來播放之輸入 貧料⑽所需的時間。對於大於1之時間標度(例如:時間壓 縮),每單位時間之時間縮放資料ho較音訊資料1()〇在正常 比=下播放傳播更多資訊(例如:發音、音樂等)。時間縮 放藉由移除-般記錄包含演說及音樂之音訊資料的冗賛資 料達到較高資訊比^另外,對於小於i之時間標度,時間 Μ擴大輸入音訊訊框因而輸出時間縮,放音訊訊框包含 更多樣本且花費更多時間來傳遞資訊。例如,時間標度 1223231 五、發明說明(7 ) 0.5,時間縮放即增加冗贅資訊而音訊資料得花兩倍時間來 播放。 第2圖係一自輸入音訊資料1〇〇產生時間縮放音訊資料 110之範式性時間縮放方法200之流程圖。一開始,步驟21〇 5儲存一第一輸入訊框IF1於緩衝器之開始,將訊框索引初始 化為2且設定〇為第一輸入訊框之偏置量。緩衝器之尺 寸可依據時間標度來選擇。一般,音訊緩衝器之儲存容量 至少大於2m和2n之greater,其中輸入訊框包含m個樣本而 輸出訊框包含η個樣本。接下來,一資料區塊大小g等於輸 1〇 入σ凡框大小m及輸出訊框大小η之greater(例如:g=max η})。因此,緩衝器典型上大小為2g。 步驟220將輸入資料填進緩衝器,首先填入跟隨最後所 使用來源之資料並馬上在儲存位置之起始位置、緩衝器内 最後修改資料之後儲存緩衝器内之輸入資料。在步驟22〇 15之第一項執行中,包括輸入訊框1172之輸入資料馬上被儲存 在輸入訊框IF1之後,因而來自輸入訊框IF1和1172之2111樣本 在緩衝器内係連續的。對少於丨之時間標度,初始填入緩衝 器之步驟220同時儲存來自訊框IF3及連續地跟著訊框Ιρ2 之可能的連續訊框IF4··.等之樣本。 20 在緩衝器因而被填入後,步驟230對部份緩衝器搜尋一 最匹配輸入訊框之m個樣本區塊。為了做時間壓縮,步驟 230從少於或等於m樣本之緩衝器之起始尋找所有以偏置 量起始之區塊。為了做時間壓縮,步驟23〇從少於或等於η 樣本之緩衝器之起始尋找以一偏置量起始之區塊。 1223231
如第3圖所繪示,來自緩衝器300之起始之一偏置量△ Ti唯地鐘4出一最匹配輸入訊框iFi之區塊31〇。偏置量 △Tl亦鑑識出一包含g個樣本之最匹配訊框320。對於時間 壓縮(例如:一大於1之時間標度),區塊320與區塊31〇相 5等。對於時間擴張(例如··一小於1之時間標度),區塊3 1 〇 係區塊320之一個子集。
在步驟240中,時間縮放方法200藉由將緩衝器3〇〇内最 匹配區塊320之g個樣本與包括訊框IFi之來源資料的g個樣 本而修改緩衝器3〇〇之内容。對於時間壓縮,輸入訊框Ifi 10之來源貪料(一開始係IF2)。對於時間壓縮,來源資料係n 個以輸入訊框Ifi開始之n個連續樣本。
第4圖繪示一範式性的結合方法4〇〇。對於結合步驟 400 ’位於來源資料或最匹配區塊320内之各樣本具有依據 來源貧料内或最匹配區塊内之樣本順序而指定的具值1到g 15之樣本索引j,結合步驟400將來源資料内之對照樣本乘以 一對照值F1⑴為一加權函式41 〇且將最匹配區塊320内之 對照樣本乘以一對照值们⑴為一加權函式42〇。相加這兩 個對應到相同樣本索引之結果產生一對照修改過之樣本, 其儲存於緩衝器300内先前被最匹配區塊31〇佔有之儲存位 20 置。結果’步驟240在緩衝器300中以一修改的區塊510取代 區塊3 2 0。 在一範式性實施例中,加權函式410及420之值Fl(j)和 F2(j)隨樣本索弓丨j而變化以致兩對應至相同樣本索引之加 權值加到1(即,Fl(j)+F2(j)=l,其中j = l到g)。此外,加權 11
1223231 函式420具有等於1之加權值?2(1)以保存從緩衝器3〇〇 一開 始之偏置量ATi樣本值的連續性,且加權函式41〇具有維持 樣本值連續性之等於1的加權值F1 (g)以........
[0034]步驟250藉左移η個樣本出緩衝器3〇〇產生一輸 5出訊框0F(i_l)。此後,步驟260增加訊框索引;[,且決定步 驟270決定步驟2〇〇是否到達最後輸入訊框汀乂。若又更多 輸入訊框待做時間縮放,步驟200跳回步驟22〇並且以緊跟 著用於步驟結合240中步驟中最後來源資料之輸入資料來 填入緊跟著修改區塊51〇之移位位置的部分緩衝器3〇〇。步 10驟22〇、230、240、及250重覆於各輸入訊框IF2至IFX到輸 出時間縮放訊框OF1到OF(X-l)。於最後輸入訊框IFX後, 步驟200從決定步驟270分支出產生最後輸出訊框〇fx之步 驟 2 8 0 〇 對於時間縮放步驟200中找尋最匹配區塊之步驟23〇需 15求大部分的處理能力。尤其,對於框架索引i之各值,第3 圖之搜尋步驟230—般需要比較來源資料與g個候選區塊, 且各比較程序一般需要約3m則數學運算,譬如,對輸入訊 框之各樣本做減法、絕對值或平方根、以及加法運算等。 因此,搜尋步驟230每訊框需要3m*g則數學運算。相對的, 2〇第4圖之組合運算需要3m則運算,譬如,對樣本索引j之值 做兩則乘法運算及一則加法運算。在一例示程序其各輸入 訊框包含440個樣本(m=44)且縮放因子3係2(n=222),搜尋 步驟230約需200次的數學運算來值行組合步驟24()。 第6圖繪示依據本發明之一實施例以產生一用於時間 12 五、發明說明(10) 縮^之擴充音訊資料結構程序600,其減少用於時間縮放之 ^學運算次數。程序_始於步驟㈣,其利用—串不同的 T門‘度對輸人音訊資料執行時間縮放。尤其,對各時間 標度,步驟610施加—猶如時間縮放步驟細之時間縮放步 驟於輸入音訊資料。步驟62〇鐘識出在時間縮放步驟61〇間 尋得之特定參數’且步驟63〇將該參數合併至一擴充音訊資 料結構。 、 擴充音訊資料結構内之特定參數一般依據所用的時間 縮放程序而^,在一利用時間縮放程序200之實施例中,時 間縮放步驟610決定-組偏置量△丁㈣,其中k涉及標度因 子71係訊框索引(i=1到X)。各偏置量△ T(k,i)在-對應時 間標度索引k之時間縮放程序中鑑識出一與包括輸入訊框 阳之來源資料組合之最佳匹配區塊。步驟62〇鑑識出表示 偏置量之參數,且步驟㈣將音訊資料結構内之來 數合併。 ’ 在另一可選擇之實施例中,時間縮放步驟610將音訊資 料之訊框或部段之音訊内容分類並對不同輸入音訊訊框或 部段依其不同音訊内容利用不同的時間縮放方法或時間標 度。利用此技術’ -非線性時間縮放方法可更有效地對包 含較不重要資料之訊框做時間縮放並只要提供較少的時間 縮放方法予較關鍵之資訊。更具體地,在—實施例中,+ 驟6聰識出那個訊㈣照靜音(譬如,具有小於某臨界= 之總能或平均能的訊框)且當做參數,步驟62〇鑑識指示那 個輸出訊框對照靜音之旗標。其他時間縮放方法利用其 五、發明說明(u) 可表示步驟620和630在擴充 數的資訊。 資料結構内所鑑識及含括之參 依據本發明之-範式實施例,此擴充資料結構表示 包括輸入訊框!WX之音訊資料,且與各輸入訊框如 相《係對涉及-組時間標度值之時間標度索引鑑識出偏 置=T(k,j)之參數。第7圖緣示圖7⑼,其中偏置量μ對 特疋讯框為時間標度s之函式。對—時間標度為卜偏置量 △ T為m ’但偏置量Δτ更—般地依據時間標度和音訊資料 内容而定。較佳地,關於訊框之參數指示—種完全連續的 關係,諸多圖之形狀則插入可對時間標請識出圖 700上之—偏置量Δτ。若時間縮放採用了對偏置量△丁不 精確之判斷’許多使用者將可察覺粗韃的音質,譬如:對 訊框之偏置量不在圖700上。 ^ 在本發明之-範式實施例中,步驟61G執行人個時間縮 放操作,其中之-對介於0.5至4()之各時間標度k_致為 0.5,而加至各輸人訊框之音訊資料結構的參數係對輸入訊 框及時間標度k鑑識最匹配區塊之偏置量Δτ⑻。當各輸入 訊框包含440個樣本,加上8個參數增加了約少於之=% 資料總量。 、。曰- 假使即時縮放是必須的或吾人欲直接廣 時,一有力的處理系統可以即時執行程序 程序_係在擴充音訊資料用於時間縮放播放前所執 行之預先處理。因此,程序__般不需即時執行。然而, 播至一播放系統 600 〇 其使用諸如程序 第8圖係時間縮放程序8〇〇之流程圖
五、發明說明(l2) 6〇〇(第6圖)所提供之擴充音訊資料來簡化第2圖所示時間 鈿放程序200。在步驟81〇中,可為諸如攜帶電話或pDA等 之低處理能力播放系統存取擴充音訊資料。有許多不同的 方法可提擴充音訊資料至播放系統中。譬如,擴充資料可 5被存在諸如CD、DVD等記錄媒體、或其他播放系統可存取 之儲存裝置’且此播放系統能從播放系統之一部份的内部 驅動器或記憶體取得擴充音訊資料。另一種可選擇地,擴 充音訊貢料可直接地經由諸如區域網路(LAN)、電話網 路、或網際網路等廣播至播放系統 10 步驟210、220、830、240、250、260、270、及280在 播放系統内執行時間縮放操作。此時間縮放操作與第2圖之 時間縮放操作在步驟830上尋得最匹配區塊有所不同。除此 之外 210、220、240、250、260、270、和 280如同前述第 2 15 為了找出最匹配輸入訊框IFi之區塊,步驟830利用來 自擴充音訊資料結構之參數來判斷對照當下所選定時間標 度之偏置量△ Ti。譬如,若參數為偏置量△ T(k,i),其中不 連續值k為時間標度且選定時間標度s對應至其中一個不 連續值k,步驟830僅存取及使用正確的那一個輸入訊框IFi 20 之偏置量。另外可選擇地,步驟830可插入具有的偏置量之 間’以判斷除了那些對照擴充資料之偏置量以外的時間標 度偏置量。即使插入是必須的,利用擴充音訊資料判斷偏 置量典型地需約較搜尋最匹配區塊少兩個數量級之數量運 算。 15 1223231
五、發明說明(l3 ) 時間縮放參數之使用可適用於如第2、8圖所示之線性 日守間縮放以及適用於非線性時間縮放。其中一型非線性時 間縮放移除靜音區段、或另特別地處理靜音區段,以對以 較短時間播放之輸入音訊做時間縮放。第9圖繪示一包括輸 5入訊框IF1,IF2等之音訊波形9〇〇。各訊框IFi、IF2......
可藉包含臨界值比ENERGY/ZC來歸類是否為靜音,其中 ENERGY係訊框内平均音訊能量而zc為訊框内之零交 又。函式1指示包含m個音訊樣本之輸入訊框内的平均能量 A。訊框内之零交叉ZC可從訊框樣本之正負號轉變次數總 10 和來判斷。 函式 1 : ENERGY=丄· f a.2
m % J
依據本發明之一範例實施例,擴充音訊資料結構内之 參數指示那個音訊訊框對照靜音。譬如,各訊框可具設定 來指示那個訊框對照靜音之一位元旗標。一實施時間縮放 15之播放系統不需計算各訊框之能量或零交又,反而可在選 擇於即時、非線性時間縮放期間做特殊處理之訊框時利用 旗標。 關於前述方法之一具體應用係於一語音郵件系統 内、或其他其中之伺服器或其他裝置儲存諸如電話訊息、 1〇新聞、或顯示等已錄好之訊息之資訊系統。伺服器可建構 具時間縮放參數之擴充音訊資料,而電話、或其他接收語 音郵件或其他資訊之裝置可利用擴充音訊資料而使得在使 用者希望加速或減速所接收信號之播放速率時執行即時高 16 1223231
品質之時間縮放。
^如同前述所強調,利用包括時間縮放參數之擴充資料 結構可降低對音訊做即時時間縮放之處理能力需求,而擴 充賁料結構僅稍大於原來的音訊資料。然而,對於即時時 5間壓縮,一播放器必須以一高於播放輸出訊框時之樣= 率的速率接收輸出音訊訊框(且附加參數)。尤其,對於時 間標度為2,播放器執行時間縮放對輸入音訊資料之需要^ 係至少兩倍樣本頻率。接受擴充音訊資料結構所需之資料 率可能為有限傳輸頻寬系統的一個問題。(相對的,對於即 1〇時時間音訊擴展,擴充音訊資料結構之傳輪一般需較時間 擴張資料為少之頻寬。)
第10圖繪示依據本發明之一實施例的系統1〇〇〇,其降 低即時時間縮放之頻寬需求。系統1000包括一連接至伺服 器1020之用戶端1010。在本發明之另一可選擇的實施例 15中,用戶端1010可為電腦、PDA、或使用諸如lAN、WAN、 網際網路、或連接至伺服器1〇2〇之電話網路的電話。伺服 器1020可為儲存至少一個播放物之電腦,該播放物具有一 擴充音訊資料結構以播放播放物之音訊部份。 在操作中,用戶端1010發出一個連接的要求1030至伺 20服态I20並等待伺服器1020允許該連接。在回應1040中,伺 服為1020鑑識用戶端ι〇1〇要求的播放物,對播放物初始化 一音訊緩衝,並允許連接至用戶端1〇1〇。 一旦連接建立了’客戶端1010對特定具有一索引i及時 間標度S之音訊訊框發出要求1〇52。伺服器1〇2〇接收訊框 17 五、發明說明(15 ) 索引1及日守間;^度s並擷取包括相聯輸入訊框iFi和來自擴 充資料結構之相聯參數。伺服器1020於是產生—輸入訊框 以傳輸至用戶端1010。尤其,對第8圖之時間縮放方法,伺 服器1020對訊框索引i及時間標度8判斷出一偏置量ATi, 將包括輸入訊框IFi之來源資料與偏置量ATi鑑識之緩衝 區塊結合。伺服器i 0 2 0於是將輸出訊框左移出緩衝器,傳 遞輸出訊框至用戶端ΠΗ0’然後再用以下個輸人訊框為起 始之音訊資料填入緩衝器。 用戶端1010收到傳輸的輪出訊框,儲存接收到的輸出 矾框於一播放緩衝器中,增加訊框索引,且向伺服器1020 要求下一個訊框。用戶端1010不要求伺服器用於產生輸入 Λ框之輸入訊框或參數。因此,系統丨000需求一約等於用 於播放音訊之樣本頻率之音訊頻寬。 即使本發明已藉參考一些特定實施例來描述,但這些 描述僅是對本發明應用之一些例子而非局限本發明僅止於 此。言如,雖然别述音訊資料係播放物,但播放物更可包 括諸如圖像、視訊等之多媒體資訊。因此,縱然前述特定 袼式化音訊資料於固定訊框尺寸,利用各種訊框尺寸之時 間縮放程序亦適用於本發明之其他可選擇的實施例。各式 各樣所揭露之實施例特徵的改變與組合皆落於其後申請專 利範圍所界定之範圍中。 元件標號對照表 100……數位音訊資料 110……時間縮放資料 1223231 五、發明說明(l6) 200……程序 810……步驟 210-280……步驟 1000……系統 300……緩衝器 1010……用戶端 310……區塊 1020……伺服器 320……最匹配區塊 1030……步驟(要求) 400……結合方法 1040……步驟(回應) 410……加權函式 1052……步驟 420……加權函式 1054……步驟 510……區塊 1056……步驟 520……區塊 1058……步驟 600……程序 1062……步驟 610-630……步驟 1064……步驟 700……圖 1066……步驟 800......程序 1068......步驟 19

Claims (1)

1223231
第9112254 8號申請案申請專利範圍修正本 93·3·5. 1· 一種用於產生時間縮放音訊之方法,包含: 預先處理曰Λ二貝料以判斷與該音訊資料之時間縮 放相關聯的參數; 將該音訊資料與該等參數供至一裝置;以及 使該裝置湘料參數來對該音訊資料做時間縮放, 以產生時間縮放音訊,&中利用該等參數於該時間縮 放動作需要較不使用該等參數之音訊資料時間縮放動 作為少的處理能力。
ίο 15 〒印寻㈣圍“項之方法,其中該裝置利用該音 資料與該等參數來執行該音訊資料之即時時間縮放。 如*申請專利範圍^項之方法,其中提供該音訊資料 该等參數之㈣包含將該音訊資料與料參數記錄 該^置可讀取之-記錄媒體上,^該裝置存取該記錄 體以讀取該音訊資料與該等參數。 如申請專利範圍第3項之方法,其中該記錄媒體是一 碟片。
5 . 20 =請專職圍第w之方法,其中提供該音訊資料與 =專參數之步驟包含經由—網路傳輸該音訊資料與該 4參數至該裝置。 6·如申請專利範圍第1項之方法,其中: 該音訊資料包含多數個輸入訊框;及 该等參數對各輸入訊框包含一 各偏置1對一相關聯輸入訊框鑑識 個或多個偏置量, 出一樣本區塊,用 20 夂、申請專利範圍 於從該相關聯輸入訊框產生時間縮放資料。 7. 如申請專職㈣6項之方法,其中料各輸入訊框該 〇數包含多數個偏置量,线人訊框之該等多數個偏 置量對應於不同的時間標度。 8. 次如申請專利範圍第X項‘法,其中該裝置執行該音訊 ^枓之預先處理㈣清該等參數,域存該音訊資料和 =等參數’供使用於之後的音訊資料即時時間縮放動 9. 如申請專利範圍第丄項之方法,其中: 该音訊資料包含多數輸入訊框;及 一個或更多該等參數將該等輸人訊框 内容分類。 ^ :識 1 ◦•如中請專利範圍第9項之方法,其中該等參數鐘 出哪個輸入訊框表示靜音。 ^二申請專利範圍第9項之方法,其中使裝置利用該 之步驟包含以不同方式處理該等參數指示為靜 曰之輸入錢與該等參數指㈣非靜音之輪入訊框。 l2·如申請專利範圍第1項之方法,其中一扭立勒丄 該音訊資料之該預先處理,以判斷相於^ 式貝料之時間縮放動作的參數。 電 話0 认如中請專利範圍第12項之方法,其中該裝置包含— 接收來自該語音郵件系統之音訊資料與該等參數的 14.如申請專利範圍第1項之方法,其中—飼服器執行 1223231
六、申請專利範圍 10 15 20 該音訊資料之該預先處理以判斷相關聯於該音訊資料 之時間縮放動作的參數。 1 5 ·如申請專利範圍第1 4項之方法,其中該裝置包含一 接收來自該伺服器之音訊資料與該等參數之電話。 1 6 ·如申請專利範圍第1項之方法,其中該裝置包含一 伺服器,該伺服器執行該音訊資料之該預先處理以判斷 相關聯於該音訊資料之時間縮放、儲存該音訊資料與該 等參數做為之後之使用、且執行即時時間縮放以提供該 被縮放之音訊資料至一播放器。 17· 一種用於音訊之時間縮放的方法,其包含: 接收一具有指示偏置量與時間標度間關係之參數 的音訊訊框; 利用該等參數來判斷對應於一選定時間標度的一 偏置量;及 利用該偏置量所鑑識出之一區塊中的樣本產生一 時間縮放訊框。 18· 請專利範圍第17項之方法,其中該等參數包含 多數預域理過的偏置量,該等偏置量分別對應於多數 時間標度。 二如申請專利範圍第18項之方法,其中利用包含插入 及,先處理過之偏置量間的該等參數來判斷該對照該 選定的時間標度之該偏置量。 2〇.如中請專利ϋ圍第17項之方法,其更包含由一聽者 選擇用於該音訊之播放的被選定時間標度的聽者。
22 - 己錄有音汛資料結構之儲存媒體,該音訊資 料結構包含: •夕數個刀別對應於多個音訊部段之訊框,各該訊框 包含多數個對應音訊部段之樣本;及 供各個該等訊框用的一或更多個參數,該等參數提 八減V忒音汛資料時間縮放程序所需之處理能力的資 訊。 2 ·如申請專利範圍第21項之儲存媒體,其中供一訊框 用之該一個或多數個參數鑑識出用於產生時間縮放資 料之該等樣本之一區塊。 23.如申請專利範圍第21項之儲存媒體,其中供一訊框 用之各參數從該訊框中鑑識出用於產生時間縮放資料 之该等樣本之一區塊。 24 ·如申請專利範圍第21項之儲存媒體,其中供一訊框 用之一個或更多個參數包含多數個分別對應於多數個 時間標度之偏置量,各該偏置量鑑識出用於產生對應於 與該偏置量相對應之該時間標度的時間縮放資料之該 等樣本之一區塊。 25· 如申請專利範圍第21項之儲存媒體,其中一個或多 數個參數指出哪些訊框對應於該音訊之靜音部段。
TW091122548A 2001-12-05 2002-09-30 Digital audio with parameters for real-time time scaling TWI223231B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/010,514 US7171367B2 (en) 2001-12-05 2001-12-05 Digital audio with parameters for real-time time scaling

Publications (1)

Publication Number Publication Date
TWI223231B true TWI223231B (en) 2004-11-01

Family

ID=21746102

Family Applications (1)

Application Number Title Priority Date Filing Date
TW091122548A TWI223231B (en) 2001-12-05 2002-09-30 Digital audio with parameters for real-time time scaling

Country Status (7)

Country Link
US (1) US7171367B2 (zh)
EP (1) EP1451822A2 (zh)
JP (1) JP2005512134A (zh)
KR (1) KR20040055802A (zh)
CN (1) CN1703738A (zh)
TW (1) TWI223231B (zh)
WO (1) WO2003049108A2 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7426470B2 (en) * 2002-10-03 2008-09-16 Ntt Docomo, Inc. Energy-based nonuniform time-scale modification of audio signals
US8832540B2 (en) * 2006-02-07 2014-09-09 Nokia Corporation Controlling a time-scaling of an audio signal
US8855275B2 (en) * 2006-10-18 2014-10-07 Sony Online Entertainment Llc System and method for regulating overlapping media messages
US8489774B2 (en) * 2009-05-27 2013-07-16 Spot411 Technologies, Inc. Synchronized delivery of interactive content
US8718805B2 (en) * 2009-05-27 2014-05-06 Spot411 Technologies, Inc. Audio-based synchronization to media
TWI506583B (zh) * 2013-12-10 2015-11-01 國立中央大學 分析系統及其方法
US10354422B2 (en) * 2013-12-10 2019-07-16 National Central University Diagram building system and method for a signal data decomposition and analysis
TWM513078U (zh) * 2015-09-08 2015-12-01 Tct Global Ltd 鑽頭結構

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885791A (en) * 1985-10-18 1989-12-05 Matsushita Electric Industrial Co., Ltd. Apparatus for speech recognition
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
US5448679A (en) 1992-12-30 1995-09-05 International Business Machines Corporation Method and system for speech data compression and regeneration
EP0652560A4 (en) 1993-04-21 1996-05-01 Advance Kk DEVICE FOR RECORDING AND PLAYING BACK VOICE.
US5828964A (en) * 1994-12-08 1998-10-27 Bell Atlantic Science & Technology Inc Apparatus and method for point-to-point multipoint radio transmission
US5920840A (en) * 1995-02-28 1999-07-06 Motorola, Inc. Communication system and method using a speaker dependent time-scaling technique
US5809454A (en) * 1995-06-30 1998-09-15 Sanyo Electric Co., Ltd. Audio reproducing apparatus having voice speed converting function
US5828994A (en) 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
JP3092652B2 (ja) 1996-06-10 2000-09-25 日本電気株式会社 音声再生装置
JP3439307B2 (ja) * 1996-09-17 2003-08-25 Necエレクトロニクス株式会社 発声速度変換装置
US6766300B1 (en) * 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
US6718309B1 (en) * 2000-07-26 2004-04-06 Ssi Corporation Continuously variable time scale modification of digital audio signals
KR100385331B1 (ko) * 2000-12-19 2003-05-27 주식회사 코스모탄 변속재생 시에도 음색변화를 유발하지 않도록 하는오디오신호 재생방법과 이를 위한 재생장치
JP2004519738A (ja) 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
WO2002093560A1 (en) 2001-05-10 2002-11-21 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Also Published As

Publication number Publication date
JP2005512134A (ja) 2005-04-28
WO2003049108A3 (en) 2004-02-26
US20030105640A1 (en) 2003-06-05
KR20040055802A (ko) 2004-06-26
WO2003049108A2 (en) 2003-06-12
US7171367B2 (en) 2007-01-30
CN1703738A (zh) 2005-11-30
EP1451822A2 (en) 2004-09-01

Similar Documents

Publication Publication Date Title
US9240187B2 (en) Identification of utterance subjects
WO2021083071A1 (zh) 语音转换、文件生成、播音、语音处理方法、设备及介质
KR101275467B1 (ko) 오디오 재생 장치의 이퀄라이저 자동 제어 장치 및 방법
US8457322B2 (en) Information processing apparatus, information processing method, and program
WO2020113733A1 (zh) 动画生成方法、装置、电子设备及计算机可读存储介质
US20110066438A1 (en) Contextual voiceover
US20090070114A1 (en) Audible metadata
US11295069B2 (en) Speech to text enhanced media editing
CN107851440A (zh) 经编码音频扩展的基于元数据的动态范围控制
JP3621686B2 (ja) データ編集方法、データ編集装置、データ編集プログラム
KR20090047159A (ko) 오디오-북 재생 방법 및 장치
KR20080061747A (ko) 오디오 배속 재생 방법 및 장치
TWI223231B (en) Digital audio with parameters for real-time time scaling
CN112562638A (zh) 语音预览的方法、装置及电子设备
JP2002189498A (ja) デジタル音声処理装置及びコンピュータプログラム記録媒体
JPWO2002058053A1 (ja) ディジタル音声データの符号化方法及び復号化方法
WO2023005193A1 (zh) 字幕显示方法及装置
CN109495786B (zh) 视频处理参数信息的预配置方法、装置及电子设备
WO2005104125A1 (ja) 記録再生装置、同時記録再生制御方法、および同時記録再生制御プログラム
WO2023010949A1 (zh) 一种音频数据的处理方法及装置
US11740862B1 (en) Method and system for accelerated decomposing of audio data using intermediate data
EP4375984A1 (en) Method and system for accelerated decomposing of audio data using intermediate data
US7795526B2 (en) Apparatus and method for reproducing MIDI file
CN1924990B (zh) Midi音讯的播放架构和方法与其应用的多媒体装置
JP4792819B2 (ja) 遠隔編集方法及び遠隔編集システム

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees