TW518557B - Continuously variable time scale modification of digital audio signals - Google Patents

Continuously variable time scale modification of digital audio signals Download PDF

Info

Publication number
TW518557B
TW518557B TW090118180A TW90118180A TW518557B TW 518557 B TW518557 B TW 518557B TW 090118180 A TW090118180 A TW 090118180A TW 90118180 A TW90118180 A TW 90118180A TW 518557 B TW518557 B TW 518557B
Authority
TW
Taiwan
Prior art keywords
input
output
samples
patent application
item
Prior art date
Application number
TW090118180A
Other languages
English (en)
Inventor
Roger Selly
Original Assignee
Ssi Corp
Roger Selly
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ssi Corp, Roger Selly filed Critical Ssi Corp
Application granted granted Critical
Publication of TW518557B publication Critical patent/TW518557B/zh

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本發明係關於數位音訊信號處理。更特別地,它關於 使用一經改良同步化重疊及增加(S0LA)演繹法則來不改 變音調地修正音訊信號之輸出率的方法。 fcor 景— 多種應用需要修正音訊信號之播放率。落於時間標产 修正(TSM)之範疇内的技術包括壓縮(亦即,加速)和擴張 (亦即,減緩)兩者。音訊壓縮應用包括加速無線電脫口秀 來允許較多廣告,允許使用者或碟片操作員來針對舞曲而 選擇節拍,加速口白材料之播放率,加速音訊信息之播放 率’且把音訊和視訊播放率同步化。不管輸入信號(語言、 音樂、或經組合語言和音樂)之類型,TSM之目標係保留輸 入信號之音調,同時改變其節拍。明顯地,增加或減少播 放率需要改變音調。 同步化重疊及增加技術於1985年由S. Roucos和A.M. Wilgus在IEEE國際論集ASSP之”針對語言的高品質時間標 度修正”第493-496頁中被介紹,且仍係許多新近發展技術 之基礎。該方法被圖說於第1A圖中。藉由數位地取樣一類 比音訊信號來獲得一系列時域樣本x(t)而獲得一數位輸入 信號10。輸入信號10被分成重疊的視窗、方塊、或訊框12, 各包含N個樣本且彼此以Sa個樣本(“a”係用於分析)來偏 離。經縮放輸出14包含相同重疊視窗之樣本y(t) ’且彼此 以不同數目之樣本Ss(“s”係用於合成化)來偏移。藉由把含 有與呈現在輸入10中不同的時間落後之輸入視窗12連續地 4 518557 五、發明說明(2) 重疊來產生輸出14。時間標度比率《被界定為Sa/Ss;針對 壓縮α>1且針對擴張α〈卜說明於第1B圖中如一線性交叉 隱現的一加權函數被用來組合經重疊視窗。為了把一輸入 方塊16與一輸出方塊18重疊,在輸入方塊16之經重疊區中 的樣本由一線性增加的函數來縮放,而輸出方塊18中的樣 本由一線性減少的函數來縮放,以產生新的輸出信號2〇。 请注意到SOLA方法不改變個別視窗之速率地來改變信號 之整體速率,藉此保留音調。 為了把所產生信號14之品質最大化,訊框不重疊於一 預定分開距離。實際偏移量典型上被選擇於一給定範圍 内,來把兩經重疊訊框間的一相似度量測最大化,以確定 最佳聲音品質。對於在一預定搜尋範圍内的各潛在重疊偏 移量,相似度量測被計算,且所選擇偏移量係有相似度量 測之最高數值者。例如,可藉由相乘於各偏移量的x(t)和 y(t)來計算兩訊框間的一相互關係函數。此技術產生一高 品質之信號(亦即,對聽者聽起來自然者)、及高可理解性 (亦即,可由聽者容易地瞭解者)。技術中已知多種品質和 可理解性量測,如總諧音扭曲(THD)。 基本SOLA架構允許在視窗大小選擇、相似度量測、 計算方法、和針對重疊偏移量之搜尋範圍上的多種修正。 頒給Vogten等人的美國專利第5,479,564號揭露根據一局部 音調週期來選擇輸入信號之視窗的方法。已知為 WS0LA-SD的一依賴講話者方法在頒給Satyamurti等人的 美國專利第5,828,995號中被揭露。WSOLA-SD根據音調週 518557 五、發明說明(3) 期來選擇輸入信號之訊框大小《這些和其他依賴音調方法 之缺點係它們只能使用於語言信號,而不能用於音樂。再 者’它們需要判定信號係語音或非語音的額外步驟,其可 隨信號之不同部份、且決定音調的語音信號而改變。語言 信號之音調經常不恆定,以多個基礎音調週期來改變。所 產生音調估計需要人工的平順化來在此等多個週期間連續 地移動,使人工品加入最後之輸出信號。 典型上,根據所計算相似度量測來選擇在重疊有新的 輸入訊框之一現有輸出訊框内的位置。然而,一些SOLA 方法使用相似度量測來選擇輸入方塊之重疊位置◊頒給Jr. Hejna等人的美國專利第5,175,769號揭露用來選擇在一預 定範圍内的輸入方塊之位置的方法。jr· Hejna之方法需要 幾個與原來SOLA方法不同的計算步驟。然而,它引入完 全跳過輸入信號之部份的可能性,特別是在高壓縮比率(亦 即’ α ^ 2)。描述在都頒給suzuki等人的美國專利第 5,341,432號和第5,630,013號中的一語言速率修正方法判 定兩連續輸入訊框之最佳重疊,其然後被重疊來產生一輸 出信號。在其中輸入訊框被連續重疊到輸出訊框上的傳統 SOLA方法中,各輸出訊框可為所有前面經重疊訊框之總 和。然而,用Suzuki等人之方法,輸入訊框只重疊到彼此 上’防礙多個訊框之重疊。在有些情形中,此受限之重疊 可能減少所產生信號之品質。因此澤擇在輸出信號内的偏 移量係最可靠方法,特別是於高壓縮比率。 方法之計算成本隨著輸入取樣率和壓縮比率而改 6 518557
五、發明說明(4) 變。高取樣率因其產生高品質之輸出信號而被期望。另外, 南!縮比率需要輸入樣本之高處理率。例如,CD品質音訊 對應於一個44.1kHz取樣率;於α=4的一壓縮比率,每秒必 須處理大約176,000個輸入樣本來產生CD品質輸出。為了 以該輸入取樣率和高壓縮比率來處理信號,方法之計算效 率很重要。计异在重疊輸入和輸出樣本方塊間的相似度量 測係/貝繹法則之袁需要計异部份。藉由針對兩方塊之每一 可能偏移量來相乘輸入和輸出方塊之對應樣本,來計算為 一潛在相似度量測的一相互關係函數。對於含有N個樣本 的一輸入訊框,需要N2個乘法運算。對於在1〇〇〇等級上的 N之高輸入取樣率,針對各輸入訊框來實施N2個運算是行 不通的。 結果’ SOLA上的趨勢係簡化計算來縮減所實施運算 之次數。一個解決方法係使用一絕對誤差計量,其只需要 減法運算,而非需要乘法運算的一相互關係函數。頒給 Bialick的美國專利第4—,864,620號揭露使用一平均量度差 值函數(AMDF)來選擇最佳重疊的方法。AMDF把針對各可 能偏移量的輸入和輸出樣本間之差值的絕對值平均,且選 擇有最低數據機之偏移量。頒給Lin等人的美國專利第 5,832,442號揭露使用在重疊中之一相等平均絕對誤差的 方法。當絕對誤差方法明顯需要較少計算時,它們不如在 局部最佳偏移量中的相互關係那樣可靠和易於接受。正確 度之程度因計算效率而犧牲。 現有SOLA方法之絕大多數藉由選擇用來判定最佳重 7 518557 五、發明說明(5) 疊偏移量的一受限之搜尋範圍來縮減複雜度。例如,頒給 Satyamurti的美國專利第5,8〇6,023號揭露一法,其中最佳 重疊被選擇於一預定搜尋範圍内。上述之Bialick專利使用 輸入信號音調週期來判定搜尋範圍。在可從www.cs.ust.hk/ 〜rren/sound一tech/RSM—Paper一Long.htm獲得的”用於音波 信號的時間標度修正之邊緣檢測方法”中,介紹一種經改良 SOLA技術。仍然,Ren之方法使用一小型搜尋視窗(在此情 形中小於輸入訊框的量度之等級),來找出最佳偏移量。它 也使用邊緣檢測且因此特定於一型式之信號,針對不同型 式信號來產生不同重疊。 限定最佳重疊偏移量之搜尋範圍的一習知技術方法 在第毛圖之例子中被說明。在一輸出方塊24 y(t)内與一輸入 方塊22 x(t)重疊之最佳位置被找出。輸出方塊y(t)具有 S〇+H+L個樣本之一長度,且輸入方塊χ(ί)具有%個樣本之 一長度。在此情形中,計算有相似度量測的搜尋範圍係H+L 個樣本;亦即,潛在落後值之範圍係等於被比較的兩樣本 方塊間之長度上的差值。重疊落後之三個可能值被說明: -L、0、和+H。在此方法中,相似度量測%具有越過被估 計的落後值之範圍的一矩形包封形狀。此意味在平均跨越 所有可能信號時,相似度量測之最大值的位置在被估計的 落後值之範圍内具有-相等或平坦之機率分佈。此特性不 依賴所使用相似度量測之類型,而是針對所有潛在落後值 而比較來自兩段落之一相等數目樣本的結果。 藉由限制搜尋範圍,所有習知技術在快速改變或複雜 518557
五、發明說明(6 混合信號期間容易不正確地預測重疊偏移量。另外,藉由 預定-相當窄的搜尋範圍,這些方法本質上把壓縮比^固 定於很接近一已知值。因此,它們無法處理以高改變率來 取樣的輸入信號。一般上,它們最佳用於相當長訊框之小 重疊,其不能產生高(亦即,α ^ 2)壓縮比率。 因此,有需要係计异上行得通、高正確度、且適用於 廣範圍音訊信號的一種經改良時間標度修正方法。 發明之概要 據此,本發明之一主要目的係提供用來不改變其音調 地改變音訊信號之播放率的時間標度修正方法。 本發明之進一步目的係提供可處理語言、音樂、或經 組合語言和音樂信號的時間標度修正方法。 本發明之一額外目的係提供從可變化、非即時率的輸 入樣本來產生一恆定、即時率輸出之時間標度修正方法。 本發明之另一目的係提供可提供由所需輸出率和可 變化輸入率來決定的一可改變壓縮比率之時間標度修正方 法。 本發明之再一目的係提供一種時間標度修正方法,其 在維持計算效率時,不只越過一特定窄小搜尋範圍, 越過輸出訊框之整個範圍來重疊輸入和輸出訊框。連續1 框甚至可插於前面訊框後,允許1高屋缩1 出。 本發明之又一目的係提供使用一相互關係函數來判 定經重疊輸入和輸出訊框之最佳偏移量的時間標度修正方 9 518557 五、發明說明(7) 法。一相互關係函數係熟知為一最大相似度估算器,不像 絕對誤差計量方法。 最後,本發明之另一目的係提供無需判定音調或其他 信號特徵的時間標度修正方法。 這些目的和優點可由一種方法來達成,其係針對包含 輸入樣本的一數位音訊輸入信號之時間標度修正,來形成 包含輸出樣本的一數位音訊輸出信號。該方法包含下列步 驟:選擇N/2個輸入樣本的一輸入方塊;選擇N/2個輸出樣 本的一輸出方塊,判定用來把輸入方塊之起頭與輸出方塊 之起頭重疊的一最佳偏移量T;及重疊該等方塊,使輸入 方塊起頭與輸出方塊起頭偏移T個樣本。丁具有氺/2至N/2 之可能範圍,且係藉由採用n/2輸入樣本和n/2輸出樣本之 分立頻率轉換、且然後計算其相互關係函數而計算出。相 互關係函數之一反轉分立頻率轉換的最大值發生於偏移量 t=T之數值。頻率轉換較佳係一分立傅立葉轉換,但它可為 諸如一分立餘弦轉換、一分立正弦轉換、一分立哈特雷轉 換、或根據維夫雷特式函數的一分立轉換之任何其他頻率 轉換。較佳地,在實施頻率轉換前N/2個零被附於輸入樣本 和附於輸出樣本來防止人工捲繞。較佳地,相互關係函數 係 Z(k)=X*(k)· Y(k),而 k=0”..,N/2-l,其中X*(k)係經頻 率轉換輸入樣本的複共軛數,Y(k)係經頻率轉換輸出樣 本,且Z(k)係其複數乘積。較佳地,在實施反轉頻率轉換 前把Z(k)標稱化。 輸出信號較佳為一恆定、即時率之輸出,其決定輸出
10 518557 五、發明說明(〇 方塊之起頭的選擇。輸入信號可以一可改變速率來獲得。 較佳地,獨立於輸入信號之一音調週期來選擇輸入方塊大 小和位置。藉由施用較佳為一線性函數的一加權函數來重 疊輸入方塊和輸出方塊。 本發明也提供一種方法,係針對如一立體信號的多頻 道數位音訊輸入信號之時間標度修正,來形成一多頻道數 位音訊輸出信號。該方法包含下列步驟:獲得個別輸入頻 道;獨立地修正各輸入頻道;且組合該等輸出頻道來形成 該多頻道數位音訊輸出信號。可由把一多頻道輸入信號分 離成個別輸入頻道、或由從一單頻道輸入信號來產生多個 輸入頻道,而獲得個別頻道。根據針對一數位輸入信號之 時間標度修正的上述方法來獨立地修正各輸入頻道。在不 同音訊頻道之經重疊方塊間沒有相互關係;輸入頻道之對 應樣本不再對應於輸出信號。然而,聽者可整合感知到不 同頻道來適配對應性之喪失。 也提供的是一種數位信號處理器,其包含組配來實施 用來實施上述之時間標度修正方法的方法步驟之一處理單 元。 圖式之簡單描述 第1八圖說明習知技術的同步化重疊及增加(SOLA)方 法; 第1B圖說明使用來把兩樣本方塊重疊的一習知技術 線性交又隱現; 第2圖說明一習知技術相互關係來找出用來把一輸出 11 518557
方塊與一輸入方塊合併的最佳重疊落後; 第3圖係用來實施本發明之方法的一系統之構造圖; 第4圖說明本發明之輸入緩衝器、縮放緩衝器、和輸 出緩衝器; 第5圖係本發明之時間標度修正方法的一方塊圖· 第6A-6D圖說明第5圖之時間標度修正方法的一重複; 第7A-7C圖說明第5圖之時間標度修正方法的_後續 重複; β 第8圖係用來計算最佳重疊落後τ的本發明之方法的 一方塊圖; 第9圖係用於多頻道音訊信號之時間標度修正的本發 明之方法的一方塊圖; 第10圖係藉由產生多個頻道而用於一單頻道音訊信 號之時間標度修正的本發明之方法的一方塊圓;及 第11圖說明用來從一單頻道產生多個頻道之方法。 詳細描述 雖然下面詳細描述包含用來說明的許多特點,任何熟 知該技術者將銘感到針對下面描述的許多變化和改變係在 發明之範疇内。據此,發明之下列較佳實施例被設定不損 失申請專利範圍之一般性、也不對其加諸限制。 本發明使用一經改良同步化重疊及增加(S0LA)技術 來提供針對數位音訊信號之時間標度修正的方法。此方法 有计*rr上效率,可適用於包括語言、音樂、和經組合語言 與音樂的所有類型之音訊信號;且能夠在高壓縮比率(習 518557 五、發明說明(10 ) 知技術方法有問題的情況)下來處理複雜或快速改變信 號。此方法特別適於處理有可變輸入率的一輸入信號來產 生有怪定率的一輸出信號,因此提供連續改變的壓縮比率 a 〇 第3圖中說明用來實施本發明的一系統30。由一數位 信號處理器34來實施本發明之方法。數位信號處理器34係 技術中已知的一傳統數位信號處理器,被程式化來實施本 發明之方法。它包含一處理單元、隨機存取記憶體(RAM)、 和傳送有資料的一匯流排介面。數位信號處理器34接收來 自一類比至數位轉換器(ADC)32的一數位音訊信號,其在 分立的時點來取樣一類比音訊信號,以產生一數位音訊信 號。本發明能夠用寬廣範圍之取樣率來處理信號。例如, 本發明處理的典型信號包括有8kHz取樣率的電話信號、及 有44.1kHz取樣率的光碟(CD)品質信號。請注意到較高取樣 率產生較高品質音訊信號。樣本被A D c 3 2於經特定且不改 變的一取樣率來採用。該速率可由輸入到八;〇(:32效果上恆 定的壁鐘來設定。ADC 32典型上需要一低抖動(亦即,恆 定率)時鐘輸入。數位音訊信號然後可儲存在記憶體中,被 記錄、傳輸、或不然在以一改變或未知率或不即時率(亦 即,從原來記錄速度而改變的)而輸入數位信號處理器“ 前在資料處理器33中被操作。輸入率參照於到達數位^號 處理器34每秒取樣之次數,而與固定的取樣率無關。數位 化號處理器34實施輸入信號的時間標度壓缩,來產生係於 一預定、較佳值定且即時率的一數位輸出信號。在時間標
13 518557 五、發明說明(11 ) 度壓縮中,一給定量之輸入資料以一較小時間週期來輪 出。例如,在α=2的一壓縮比率,花4分鐘來播放的一輸 入说被複製於2分鐘中。請注意到在=4,產生於CD品 質的經壓縮音訊信號(亦即,44· 1 kHz取樣率)需要每秒來處 理176,400個輸入樣本。此等高處理率在習知技術方法禁止 時可用使用現有100MIPS(每秒百萬指令)信號處理器來輕 易達成。所產生數位輸出信號然後送到一數位至類比轉換 器(DAC)36,來用和原來信號相同的音調產生一類比信 號,但以一較短時間期間來複製。DAC 36較佳也需要一低 抖動時鐘輸入且因此輸出一恆定率之信號。 第4圖說明數位信號處理器34之三個圓形緩衝器,其 儲存輸入、輸出、和經縮放音訊信號。緩衝器被說明為矩 形,但意圖代表圓形緩衝器。亦即,矩形之兩端捲繞來彼 此連結。沿著緩衝器的水平距離代表時間。在所有緩衝器 中的距離都用取用有樣本的分立時點來測量,等於取樣之 次數。所有三個緩衝器在長度上可改變。因為緩衝器係圓 形,故指標被用來指示輸入、輸出、和處理點。在所有三 個緩衝器中,指標在樣本進入、輸出、和被處理時移到右 側。緩衝器指標之移動到右側(亦即,在順時方向上)參照 為推前指標。 在考慮方法的整個細節前,檢視緩衝器本身之内容是 有用的。輸入緩衝器40具有兩指標,一輸入指標42和一程 序指標44。新的輸入音訊樣本從ADC 32被接收,且儲存在 輸入緩衝器40中。樣本被插於輸入指標42後;亦即,輸人 518557 五、發明說明(12) 指標42在加上新樣本時被推前。新輸入樣本藉由一中斷服 務常式來加到輸入緩衝器40。程序指標44和輸入指標42彼 此獨立地移動,在兩指標間的距離46上引起改變。當新樣 本加到輸入緩衝器40時,距離46增加。當樣本被處理時, 距離46減少。 縮放緩衝器50儲存正組合來形成經縮放輸出信號的 樣本。縮放緩衝器頭前指標52找出正與輸入樣本重疊的輸 出樣本。如下進一步解說的,針對重疊落後的搜尋範圍被 設置在縮放緩衝器頭前指標52的中心處。尾後指標54指出 要從縮放缓衝器50去除的樣本。當尾後指標54推前超越信 號時,它們自縮放緩衝器50輸出。尾後指標54和頭前指標 52以一固定距離56分開··當縮放緩衝器尾後指標54推前 時,縮放緩衝器頭前指標52以一等量來推前。 自細放緩衝器50去除的樣本被拷貝到輸出緩衝器6〇 於輸出緩衝器頭前指標62,其前進來保持於所有新拷貝樣 本之右側。於輸出緩衝器尾後指標64左側的樣本由一中斷 服務常式來輸出例如到DAC 36。輸出緩衝器尾後指標64 之移動由所選擇輸出率來決定。當輸出緩衝器尾後指標Μ 連續前進超越信號時,它們自輸出緩衝器6〇輸出。相對地, 頭前指標62以等於從頭前指標62上次推前而由尾後指標斜 推前的樣本數目之量來週期地前進。結果,緊接於頭前指 標62前進後,尾後指標64和頭前指標62以一預定距離μ來 分開。然而,在頭前指標62前進間中,距離66減少。輸出 緩衝器尾後指標64之移動因此控制輸出緩衝器頭前指標 15 518557 五、發明說明(l3 ) 62、縮放尾後指標54、和縮放緩衝器頭前指標^之週期性 推進。 在-替換實施例中,從縮放緩衝器5〇直接去除輸出樣 本。在此情形中,距離56不固定,且尾後指標54繼續地前 進。頭前指標52只週期地推進,以等於從頭前指標%上次 推前而尾後指標54前進的樣本數目之一距離。此替換實施 例在信號無需進一步處理時較佳。在上述情形中,其中所 有三個緩衝器都被使用,可在實施時間標度修正後於經縮 放緩衝器樣本上實施進一步處理。已進一步處理的樣本在 輸出前被拷貝到輸出緩衝器6〇中。 本發明之方法的一目的係壓縮在輸入緩衝器扣中的 樣本來產生輸出緩衝器60之經壓縮信號。藉由於導致最高 可能信號品質、同時限定於所期望輸出率的位置來把輸入 樣本與輸出樣本重疊而實施壓縮。 第5圖係針對數位音訊信號的時間壓縮之本發明的整 體方法70之方塊圖。方法7〇把於可改變和非即時的一率輸 入之一數位音訊信號72轉換成於一恆定、即時率的一數位 輸出信號94。第6A-6D圖說明相關緩衝器位置和對應於方 法70的改變。第6A-6D圖之緩衝器顯示有長度1^/2個樣本之 汛框或方塊。當然,此等區分是任意的,且不對應於信號 之音調週期或任何特性。 藉由同時考慮第5和6A-6D圖可最佳瞭解此方法。在第 一步驟74中,輸入樣本被保存到一輸入緩衝器1〇〇中於其輸 入指標102,其然後被推前。例如,包含n/2個樣本的方塊 16 518557 五、發明說明(Μ) 104已最近保存到輸入緩衝器1〇〇中。其次,在步驟乃,程 序指標103前面的N個樣本從輸入緩衝器1〇〇拷貝到縮放緩 衝器108於縮放緩衝器頭前指標112,而不推進程序指標 103。需要這些步驟來把緩衝器和方法初始化;第圖說 明在業已發生處理重複後的緩衝器。在步驟76,方法等待 輸入指標102為程序指標1〇3前面的至少3N/2個樣本。在第 6A圖中,輸入指標1〇2係51<[/2個樣本超前程序指標1〇3。當 此情況被滿足時,在步驟78,超前程序指標1〇3、標示1〇6 的N/2個樣本被拷貝到一 x(t)緩衝器中。同樣地,在步驟 80,超前縮放緩衝器1〇8之頭前指標in的N/2個樣本(標示 110)被拷貝到一 y(t)緩衝器中。在第6B圖中說明x(t)和 y(t)。使用如詳述於下的一分立傅立葉轉換式相互關係函 數之一分立頻率轉換式相互關係函數,在步驟82來找出在 x(t)樣本106之起頭和y(t)樣本11〇之起頭間的最佳重疊落 後丁。T具有-N/2到+N/2之一可能範圍;第6B圖中說明三個 可能落後。在T=-N/2之一落後,樣本106被重疊落後樣本 110。在T=0之落後,樣本1〇6直接重疊在樣本110上面。在 +Ν/2-1之落後,樣本1〇6被重疊超前樣本110。請注意到落 後Τ之所有中間整數值都可能。 如第6C圖中顯示的,針對此例的最佳重疊係Τ=0,由 標示113之大箭頭指出的,用從縮放緩衝器頭前指標112之 位置測量的亦即,樣本106直接重疊在樣本110上面, 從縮放緩衝器頭前指標112之位置開始。在步驟84中使用一 線性交又隱現把兩樣本方塊106和110合併來獲得被加總的 17 518557 五、發明說明(l5) 經加權樣本114和116。緊隨經合併樣本之後,在步驟86, N個額外輸入緩衝器樣本118被拷貝到經修正縮放緩衝器 109。當這些額外樣本118被拷貝時,原來在縮放緩衝器中 的樣本被蓋寫。結果的縮放緩衝器124被顯示在第6D圖中。 縮放緩衝器尾後指標120、縮放緩衝器頭前指標112、 和輸出緩衝器頭前指標129(第6D圖)被推進,且落後縮放緩 衝器尾後指標120的樣本在步驟88被拷貝到輸出緩衝器輪 入緩衝器程序指標103在步驟90被推進N/2個樣本,且方法 回到步驟76。在連續發生而不只是於一處理重複之末端的 步驟92,在輸出緩衝器尾後指標127的樣本被輸出,推進到 輸出緩衝器尾後指標127,來產生於一恆定即時率的數位音 訊信號。此推進決定輸出緩衝器頭前指標丨2 9、縮放緩衝器 尾後指標120、和縮放緩衝器頭前指標112在步驟88的推進 量。三個指標都以輸出緩衝器尾後指標127從處理重複開始 已推進的量來推進。控制輸出緩衝器尾後指標127之推進的 所選擇輸出率因此針對後續重複有效地決定樣本y(t)之起 j和縮放緩衝器中的搜尋範圍之位置,透過縮放緩衝器頭 月j拍軚112之推進。結果的輸入緩衝器122、縮放緩衝器 124、和輸出緩衝器126被說明在第6D圖中。請注意到針對 此特定處理重複,輸出信號尚未壓縮。 。月再參考第6B圖,注意到所使用相互關係函數之特定 特l± V致針對個不同偏移量或落後值了在乂⑴和 的相似度量測之評估。從這些N個潛在值來選出最 佳偏移值。亦即,可能落後之範圍係等於兩輸入方塊106 18 518557 五、發明說明(l6) 和110之長度的躲。請注意到這與具有等於兩輸入方塊之 長度間的差僅之一偏移搜尋範圍的習知技術方法不同。
從本方法中使用的相互關係函數所得的一額外特性 係越過潛在落後值之範圍的相似度量測之一三角形包封 130。仍然,這與對於相似度量測有一三角形狀的習知技術 方法有直接對照。在本發明中,當跨越所有可能信號來平 均時,相似度量測之最大值的位置具有一中央最大值及在 落後值範圍之任一端下降到零的尾緣之一機率分佈。此三 角形狀有重要優點,特別是在較高時間壓縮比率。作為此 形狀之結果,輸入訊框之連續重複可具有彼此重疊的大偏 移量,且仍具有不同的中央最大值。在有三角形重疊的習 知技術方法中,連續重複在維持不同中心時無法具有此等 大且南重疊的偏移ϊ。結果,習知技術方法無法如在較低 比率般地於高壓縮比率來良好實施。 本發明之重疊連續重複的此能力被說明在第7A-7C圖 中,其顯示在第6D圖之重疊後實施的後續重複。尾隨程序 指標103的N/2個樣本(標示134)被拷貝到x(t)緩衝器。尾隨 縮放緩衝器頭前指標112的N/2個樣本(標示136)被拷貝到 y(t)緩衝器。從由三角形132說明的落後值之潛在範圍,一 最佳值被找到,由第7A圖中的箭頭138之位置說明的。箭 頭138顯示縮放緩衝器頭前指標ip加上偏移量τ之位置。 尾隨箭頭138的N/2個縮放緩衝器樣本被加權來形成如第 7A圖中顯示地與經加權n/2個輸入樣本140合併的樣本 139。直接尾隨經合併樣本,一額外n個樣本142被拷貝到 19 518557 五、發明說明(l7) 縮放緩衝器。
在縮放緩衝器尾後120和頭前112指標和程序指標103 推進後,結果的輸入緩衝器150和縮放緩衝器152被說明在 第7B圖中。其次決定樣本154和156之最佳重疊落後。在此 情形中,如第7C圖中說明的,τ具有一負值使得輸入樣本 154被合併於縮放緩衝器頭前指標U2後面。在箭頭158,頭 刖指標加上偏移量T ’使用一線性交叉隱現來把經加權n/2 個輸入樣本160與經加權縮放緩衝器樣本丨62重疊。一額外 N個樣本164然後拷貝到縮放緩衝器中。把第7C圖與第6A 圖比較顯現緩衝器100中的原來輸入信號之高度壓縮,來形 成結果將被輸出的最後縮放緩衝器。第7 C圖中說明的方法 之重複也顯示後續重複如何與前面偏移落後來重疊。第7C 圖也說明在縮放緩衝器頭前指標和縮放緩衝器尾後指標間 的距離必須至少為N / 2,使得從縮放緩衝器去除的樣本可完 全被處理。
本發明因用來计异輸入樣本X(t)和輸出樣本y(t)間的 最佳重疊落後或偏移量T之特定方法而享用許多優點。第8 圖係方法170之方塊圖。在本發明中,藉由計算在兩樣本方 塊間於N個可能偏移值的一相互關係函數、且然後判定產 生最高相互關係函數的T值來完成τ之計算。不像具有遠為 較小可能範_習知技術方法&,可㊣落後值之範圍係等 於兩樣本方塊之長度的總和。 方法no以步驟190和192開始。在步驟19〇,N/2個樣 本自直接尾隨程序指標的輸入緩衝器被拷貝到x^而 20 518557 五、發明說明(18 t=0,...,N/2-卜在步驟192,心2個樣本自直接尾隨縮放緩衝 器頭前指標的縮放緩衝器被拷貝到y⑴,Mm 在步驟194和196,N/2個零樣本被附於乂⑴和y⑴兩樣本方 塊來產生包3 N個樣本的樣本方塊。在步驟198和2〇〇,在N 樣本方塊X(t)和y⑴上實施如傅立葉轉換的分立頻率轉 換’來獲得N/2個頻域複數對組χ⑻和Y(k),而 h〇,〜,N/2-l。在步驟202獲得x(k)之複共軛數x*(k),且在 步驟204,實施X*(k)和Y(k)間的複數乘法來獲得N/2個複數 對組之相互關係函數Z(k)。在步驟206藉由找出Z(k)之實數 和虛數分量的最大絕對量度、且然後用等於由實際最大值 除名義最大值的一因數來縮放Z(k),而把Z(k)取捨地重新 標稱化以獲得Z’(k)。名義最大值係一預定數目,例如針對 變數類型的一允許範圍之分數。在步驟208,在Z’(k)上實 施實數反轉分立頻率轉換來獲得相互關係函數z(t)之N個 實數值,而t==0,...,N-l。在步驟210,最佳偏移量T被選擇使 得針對所有的户〇,...,义1,2(丁)^抑)。若丁$1<[/2,則在步 驟212從T值減掉N使得丁之最後值從-N/2到+N/2。最後在步 騾214,τ值被送回。 本發明之方法可使用任何Ν值,其典型上隨著取樣率 而改變。於該取樣率’在一給定時間期間内必須處理更多 樣本。例如,為了產生有44·ΚΗζ取樣率的CD品質音訊,Ν 之適當值為1024 ^較佳地,N值為2之冪級,其針對頻率轉 換演繹法擇最有效率。然而,其他N值可被處理。 較佳地,本發明使用一分立傅立葉轉換和一反轉分立 21 518557
五、發明說明(19 ) 傅立葉轉換來計算和估算相互關係函數。然而,技術中已 知的任何其他分立頻率轉換和對應的反轉分立頻率轉換係 在本發明之範嘴内。例如,適當的轉換包括:—分立餘弦 轉換(DCT)、-分立正弦轉換(DST)、一分立哈特雷轉換 (DHT)和根據維夫雷特函數的一轉換。所有這些轉換都 有反轉分立轉換,其也為本發明所需要。 方法170 4效於計算在各包含N個樣本的兩組樣本間 之一相互關係函數,如在1992年牛津大學論報的Press等人 之c中的數量配方第545_546頁中描述的。為了不使用傅立 葉轉換來計算該函數,將需要於各可能時間落後處來計算 A/—1 〜矛PX(r,)池)],一個0(N2)運算。以目前可用的信號處理 器,針對各經處理訊框來實施N2個運算在成本上不可行, 特別疋在南取樣率。較佳地,使用一快速傅立葉轉換(FF丁) 演繹法則來計算步驟198和200之傅立葉轉換,其細節可在 1992年牛津大學論報的Press等人之c中的數量配方中找 到。在N個樣本上實施一FFT需要Ν1〇^Ν個計算,以目前數 位k號處理器即使在高取樣率仍為可行。例如,對於 N=1024,N2=l,048,576 ,但Nl〇g2N=10,240。FFT演繹法則 因此允許整個落後範圍被有效率地搜尋。 與由本發明使用需要一乘法運算的相互關係對照 的’大多習知技術使用絕對誤差計量。一絕對誤差計量測 量樣本間差值之絕對值,以最佳落後發生於誤差計量之最 小值處。對照地,一相互關係函數係一最小平方誤差計量: 22 518557
五、發明說明(20) 所算出解答與一完美結果不同有係效果上一最小平方誤差 的-誤差。$知到_最小平方誤差計量係一最大相似估計 器,其中它提供最適合之常態(亦即,高斯的)分佈資料, 而一絕對誤差計量較不適於作為一數學最佳化方法。 把零樣本附於N/2個樣本的方法170之步驟ι94和 196,對本發明搜哥等於要合併的兩樣本方塊之總和的一落 後範圍之能力也很重要。相互關係函數先天地假設兩樣本 基本上為週期性,亦即,在x(t)緩衝器之最後樣本後,次 一樣本係與x(t)緩衝器之第一樣本相同。一般上,這不真 實,且此一假設在相互關係函數計算上和在決定落後T之 最佳值上引起巨大誤差。零被附於N/2個樣本來防止所謂的 捲繞問題之發生。相互關係函數把負落後值儲存在所有正 落後值之後,且藉由從大於或等於N/2的T值減掉N來獲得 負落後值。 凊注意到在步驟102,只有輸入樣本x(k)之複共輛數被 採用。這導致所計算落後係等於來自縮放緩衝器樣本y(t) 的輸入樣本x(t)之落後。 取捨步驟206主要是用於固定的點系統(亦即,整數), 而不用於儲存浮點數目的系統。因為相互關係函數之絕對 值不重要,而是相對值,故有利地來縮放Z(k)值以把正確 度最大化且防止溢流。例如,在一 16位元整數系統中,相 互關係函數之資料類型的可能值範圍從-32,768到 +32,767。極低的相互關係函數值減少精確度,而極高值有 溢流之危險。一適合的名義最大值可被選擇如在此情形中 23 518557 五、發明說明(2i) 的8,191,最大值範圍的四分之一,且所有數值都縮放至此 名義最大值。 第9圖說明用於多頻道數位音訊信號之時間標度修正 的方法220。任何數目之音訊頻道可被處理,包括兩頻道之 一立體信號、四頻道之一四重音訊信號、和五頻道之一環 效信號。頻道也可能與一視訊信號相關。方法220合併用來 處理單頻道音訊的方法,獨立地處理各頻道。在步驟222, 一多頻道音訊信號被輸入,可能在一可改變、非即時率。 在步驟224,音訊頻道被分離使得可個別地處理它們。在步 驟226、228、和230,根據第5圖之方法70來獨立處理各頻 道。因為頻道被獨立處理,不同頻道之對應輸入方塊不與 其個別輸出方塊於相同重疊落後T來重疊。而是,只考慮 該特定頻道之相互關係函數來選擇各頻道之重疊落後。 在步驟232、234、和236中,以恆定、即時率來輸出 所產生時間縮放的數位音訊頻道。請注意到不同頻道之對 應樣本不再對應,且可以不同時間來播放。當此可能出現 來縮減多頻道輸出信號之品質時,明顯的事實卻顯示相 反。在步驟238,根據方法220處理的多頻道音訊呈現給聽 者為比不獨立處理之多頻道音訊信號高的品質。據相信, 聽者能夠整合不同頻道來在效果上,,建立,,從一頻道遺失、 但出現在另一頻道的樣本。這係與聽者感知來自一移動來 源的聲音之方式一致。若聲音的空間解析度可由聽者檢 知,則聽者能夠正確整合聲音、解釋任何時間延遲 ,好像 匕來自一移動源。事實上,人類(和其他動物)被調設來傾 24 518557 五、發明說明(22) 聽聲源之移動。 這後一原理在本發明之一替換實施例中被利用,其中 一^號在被處理前被分成多個頻道。方法240被說明在第1 〇 圖之方塊圖中。在步驟242,以可變和非即時的速率來輸入 一單頻道數位音訊信號。在步驟244中使用任何適當方法來 把音訊信號分成多個頻道;一較佳方法被討論於下^多個 頻道可彼此偏移小量之時間落後。信號被分成至少兩個、 且可能更多頻道。在步驟246和248至250,本發明之繼續可 變時間細放方法被獨立施於各頻道。如第9圖之方法,7 〇 的,針對方法240中的個別頻道計算的重疊偏移量τ並無關 連。在步驟252和254至256中個別頻道被輸出,較佳以一恆 定、即時率。最後,在步驟258,聽者整合獨立的頻道,感 知它們如來自一移動源。 在方法240中,時間壓縮的輸出頻道被聽者使用移動 源原理來整合。因為頻道被獨立處理,故其訊框以不同時 間落後來合併;聽者感知它為在頻道間空間地移動的一聲 源。針對各頻道的不同時間延遲偏移量可對應於針對各頻 道的不同輸入訊框序列、且使各頻道來處理不同相位之輸 入k號。不同時間延遲偏移量應較佳在其中不同頻道被感 知係空間地不同(亦即,在聽者之左或右側上)的範圍中, 而不如一回音效果主宰般地大。此訊匡推進之一半頻道偏 移量係等於256個樣本。在44,100的一樣本率,此偏移量對 應於輸入頻道間的一5.8毫秒時間延遲偏移量。此時間延遲 偏移篁已發現係用於在高達4·0(在一雙頻道組態中)的時 25 518557 五、發明說明(23) 間壓縮比率的增加可感知度之一有效頻道分離。特別是在 快速語言之情形中,其可能在時間被壓縮時難以瞭解,兩 獨立處理的頻道比單一頻道更可被聽者感知。頻道間的移 動之感知有助於瞭解輸出。 自單一頻道產生多頻道的一法被說明在第11圖中。一 單輸入緩衝器260包含多個程序指標。超前各程序指標的樣 本被拷貝到不同緩衝器,藉此產生不同輸出頻道。在第U 圖之情形中,產生兩分離輸出頻道的兩程序指標被顯示。 任何期望數目之程序指標可被使用。以代表兩輸出頻道(亦 即,兩麥克風)之空間分開的一預定時間落後來分開程序指 標。因為在各重複中方法處理N/2個樣本(在此特定例子 中),在兩頻道間的時間落後為N/4。同樣地,三個程序指 標將由N/2個樣本之1/3(亦即,n/6個樣本)來分開。一第一 縮放緩衝器262被使用來處理與一第一輸入緩衝器程序指 標264對應的第一頻道。一第二縮放緩衝器266被使用來處 理與一第二輸入緩衝器程序指標268對應的第二頻道。所產 生輸出樣本用固定時間落後N/2來輸出,使得使用者感知樣 本如來自空間分開的點源。 對熟知該技術者將是清楚的,上述實施例可以許多方 式來改變而不偏離本發明之範疇。據此,本發明之範嘴廣 由下面申請專利範圍及其法定等效者來決定。 26 518557 五、發明說明(μ) 元件標號對照 ίο…數位輸入信號 12…視s /方塊/訊框 14…輸出 16、22…輸入方塊 18、24…輸出方塊 20…輸出信號 26…相似度量測 30…系統 32…類比至數位轉換器(ADC) 33…資料處理器 34…數位信號處理器 36…數位至類比轉換器(DAC) 40、100、260…輸入緩衝器 42、102…輸入指標 44、103…程序指標 46、56、66…距離 50、108…縮放緩衝器 52、112…縮放緩衝器頭前指標 54、120…縮放緩衝器尾後指標 60…輸出緩衝器 62、129…輸出緩衝器頭前指標 64、127…輸出緩衝器尾後指標 70、170、220、240…方法 72…數位音訊信號 74-94、190-214、222·238、 242-258…步驟 94…數位音訊輸出信號 104…方塊 106、110、134、136、139、140、 142、154、156、164…樣本 109…經修正縮放緩衝器 113、 138、158…箭頭 114、 116、160、162…經加權 樣本 118···額外的輸入緩衝器樣本 122、150···結果的輸入緩衝器 124、152···結果的縮放緩衝器 126···結果的輸出緩衝器 130···三角形包封 132···三角形 262···第一縮放緩衝器 264…第一輸入緩衝器程序指標 266···第二縮放緩衝器 268…第二^入緩衝器程序指標 27

Claims (1)

  1. 518557 AS BS CS D8 ___ 力、申請專利範圍 1. 一種係針對包含輸入樣本的數位音訊輸入信號之時間 標度修正方法,可形成包含輸出樣本的一數位音訊輸出 信號,該方法包含下列步驟: a) 選擇N/2個輸入樣本的一輸入方塊; b) 選擇N/2個輸出樣本的一輸出方塊; c) 決定用來把該輸入方塊之一起頭與該輸出方塊 之一起頭重疊的一最佳偏移量T;其中-N/2 S T $ N/2,其中該偏移量決定步驟包含計算在該等N/2個輸入 樣本之分立頻率轉換和該等N/2個輸出樣本之分立頻率 轉換間的一相互關係函數,其中該相互關係函數之一反 轉分立頻率轉換的一最大值發生於該最佳偏移量T; 及 d) 把該輸入方塊與該輸出方塊重疊來形成該輸出 信號’其中該輸入方塊起頭與輸出方塊起頭偏移T個樣 本。 2·依據申請專利範圍第1項之方法,其中該偏移量決定步 驟更包含在實施該輸入頻率轉換前把N/2個零樣本附於 該等N/2個輸入樣本,且在實施該輸出頻率轉換前把N/2 個零樣本附於該等N/2個輸出樣本。 3. 依據申請專利範圍第丨項之方法,其中該分立頻率轉換 係分立傅立葉轉換,且其中該反轉分立頻率轉換係一反 轉分立傅立葉轉換。 4. 依射請專利範圍第3項之方法,其中該偏移量決定步 驟包含: 本紙張尺度適用中國國豕標準(CNS)A4規格(2】〇 X 297公g ) --------------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 28 518557 經濟部智慧財產局員工消費合作社印?衣 AS BS CS D8 六、申請專利範圍 Ο實施該等輸入樣本之一分立傅立葉轉換,以獲得 X(k),而 k=〇,〜,N/2-l; π)實施該等輸出樣本之一分立傅立葉轉換,以獲得 Y(k),而 k=〇,〜,N/2-l; U1)實施X(k)之一複共軛數,以獲得X*(k),而 k=0,.",N/2-l; iv) 實施一複數乘法乘積Z(k)=X*(k) · Y(k),而 k=0,“.,N/2-l; v) 實施Z(k)之一反轉分立傅立葉轉換,以獲得 z⑴;及 vi) 決定z(T)為一最大值處的τ。 5·依據申請專利範圍第丨項之方法,其中該分立頻率轉換 係從由分立餘弦轉換、分立正弦轉換、分立哈特雷轉 換、和根據維夫雷特式函數的分立轉換組成之群組所選 出。 6·依據中請專利範圍第!項之方法,其中該相互關係函數 係一經標稱化相互關係函數。 7·依據中請專利範圍第!項之方法,其更包含輸出於 定率的該輸出信號。 8. 依據申请專利範圍第7項之方法,其中該怪定率係一即 9. 依據中請專利範圍第7項之方法,其中該輸出方塊之該 起頭的位置係依賴該.〖互定率來選擇。 10. 依據申請專利範圍第丨項之方法,其更包含獲得於一可 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) II--------I--^--I----Γ-— 訂-----I I-- (請先Μ讀背面之注意事項再填寫本頁) 29 經濟部智慧財產局員工消費合作社印 518557 AS BS C8 _ D8 六、申請專利範圍 變率的該輸入信號。 11·依據申請專利範圍第1項之方法,其中步驟(a)係獨立於 該輸入信號的一音調週期。 12·依據申請專利範圍第1項之方法,其中該重疊步驟包含 把一加權函數施加於該輸出方塊和施加於該輸入方塊。 13·依據申請專利範圍第12項之方法,其中該加權函數係一 線性函數。 14. 一種用於多頻道數位音訊輸入信號之時間標度修正方 法,各輸入頻道包含多個輸入樣本,來形成一個多頻道 數位音訊輸出信號,各輸出頻道包含多個輸出樣本,該 方法包含下列步驟: a) 獲得該等多個輸入頻道; b) 針對各個該等輸入頻道,獨立地: 1)選擇N/2個輸入樣本的一輸入方塊; ii) 從該等輸出頻道之一對應者選擇N/2個輸出樣 本的一輸出方塊; iii) 決定用來把該輸入方塊之一起頭與該輸出方 塊之一起頭重疊的一最佳偏移量T,其中·Ν/2 $ T $ N/2,該偏移量決定步驟包含計算在該等n/2個輸入樣 本之分立頻率轉換和該等N/2個輸出樣本之分立頻率 轉換間的一相互關係函數,其中該相互關係函數之一 反轉分立頻率轉換的一最大值發生於該最佳偏移量 T;及 iv) 把該輸入方塊與該輸出方塊重疊來形成該對 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) I ---I--I I — — — —--—^Aw. (請先閱讀背面之注意事項再填寫本頁) 30 518557 經濟部智慧財產局員工消費合作社印制衣 AS Βδ CS D8 六、申請專利範圍 應的輸出頻道,其中該輸入方塊起頭與該輸出方塊起 頭偏移T個樣本;以及 c)把該等輸出頻道組合來形成該多頻道數位音訊 輸出信號。 15·依據申請專利範圍第14項之方法,其中步驟(a)包含把 該多頻道數位音訊信號分離成該等輸入樣本。 16·依據申請專利範圍第14項之方法,其中步驟(a)包含從 一單頻道數位音訊輸入信號來產生該等輸入頻道。 17·依據申請專利範圍第16項之方法,其中該等輸入頻道以 一預定時間落後量來彼此分開。 18·依據申請專利範圍第14項之方法,其中該分立頻率轉換 係分立傅立葉轉換,且其中該反轉分立頻率轉換係一反 轉分立傅立葉轉換。 19·依據申請專利範圍第14項之方法,其更包含輸出於一恆 定率的該多頻道數位音訊輸出信號。 20·依據申凊專利範圍第19項之方法,其中該恆定率係一即 時率。 21.依據申請專利範圍第19項之方法,其中針對各頻道,依 賴該恆定率來選擇該輸出方塊之該起頭的一位置。 22·依據申請專利範圍第14項之方法,其更包含獲得於一可 變率的該多頻道數位輸入信號。 23·依據申請專利範圍第14項之方法,其中步驟係獨 立於該輸入頻道之音調週期。 24.依據申請專利範圍第14項之方法,其中該多頻道數位音 — — — — — — IIIIIII · I I I I I I 1 ·11111111 (請先«讀背面之注意事項再填寫本頁)
    518557 經濟部智慧財產局員工消費合作社印制π AS BS C8 D8 六、申請專利範圍 訊輸入信號和該多頻道數位音訊輸出信號係立體信號。 25· —種數位信號處理器,包含組配來實施針對包含輸入樣 本的一數位音訊輸入信號之時間標度修正的方法步 驟’以形成包含輸出樣本的一數位音訊輸出信號,該方 法步驟包含: a) 選擇N/2個輸入樣本的一輸入方塊; b) 選擇N/2個輸出樣本的一輸出方塊; c) 決定用來把該輸入方塊之一起頭與該輸出方塊 之一起頭重疊的一最佳偏移量T;其中·Ν/2 ^ T $ N/2,其中該偏移量決定步驟包含計算在該等n/2個輸入 樣本之分立頻率轉換和該等N/2個輸出樣本之分立頻率 轉換間的一相互關係函數,其中該相互關係函數之一反 轉分立頻率轉換的一最大值發生於該最佳偏移量T; 及 d) 把該輸入方塊與該輸出方塊重疊來形成該輸出 信號,其中該輸入方塊起頭與輸出方塊起頭偏移τ個樣 本。 26_依據申請專利範圍第25項之數位信號處理器,其中該偏 移量決定步驟更包含在實施該輸入頻率轉換前把N/2個 零樣本附於該等N/2個輸入樣本,且在實施該輸出頻率 轉換前把N/2個零樣本附於該等n/2個輸出樣本。 27.依據申請專利範圍第25項之數位信號處理器,其中該分 立頻率轉換係分立傅立葉轉換,且其中該反轉分立頻率 轉換係一反轉分立傅立葉轉換。 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱〉 (請先sait背面之注意事項再填寫本頁)
    32 518557 六、申請專利範圍 28.依據申請專利範圍第27項之數位信號處理器,其中該偏 移量決定步驟包含: i) 實施該等輸入樣本之一分立傅立葉轉換,以獲得 X(k),而 k=0”“,N/2-l; ii) 實施該等輸出樣本之一分立傅立葉轉換,以獲得 Y(k),而 k=0”",N/2-l ; \ lu)實施x(k)之一複共軛數,以獲得X*(k),而 k=0,".,N/2-l; iv) 實施一複數乘法乘積z(k)=x*(k) · Y(k),而 k=0,.",N/2-l ; 訂 v) 實施Z(k)之一反轉分立傅立葉轉換,以獲得 z(t);及 v0決定z(T)為一最大值處的τ。 29·依據申請專利範圍第25項之數位信號處理器,其中該分 線 立頻率轉換係從由分立餘弦轉換、分立正弦轉換、分立 哈特雷轉換、和根據維夫雷特式函數的分立轉換組成之 群組所選出。 30·依據申請專利範圍第25項之數位信號處理器,其中該相 互關係函數係一經標稱化相互關係函數。 3^•依據申請專利範圍第25項之數位信號處理器,其中該方 法步驟更包含輸出於_蚊率的該輸出信號。" 32·依射請專利範圍第31項之數位信號處㈣ 定率係一即時率。 、〒这[互 33·依據申請專利範圍第31項之數位信號處理器,其中該依 本紙張尺度適用中國國家標準(CNS)A4胡;格(210 X 297公爱· 518557 As BS CS D8 申請專利範圍 賴該恆定率來選擇該輸出方塊之該起頭的一位置。 34·依據申请專利範圍第25項之數位信说處理’其中該方 法步驟更包含獲得於一可變率的該輸入信號。 35.依據申請專利範圍第25項之數位信號處理器,其中步驟 (a)係獨立於該輸入信號之音調週期。 36·依據申請專利範圍第25項之數位信號處理器,其中該重 疊步驟包含把一加權函數施加於該輸出方塊和施加於 該輸入方塊。 37·依據申請專利範圍第36項之數位信號處理器,其中該加 權函數係一線性函數。 f靖先,閱讀背面之注意事項再填寫本頁) -111 — — — — 一^·11111111 ▲ 經濟部智慧財產局員工消費合作社印制π 34 本紙張尺度適用中國國家標準(CNS)A4規格(210 χ 297公釐)
TW090118180A 2000-07-26 2001-07-25 Continuously variable time scale modification of digital audio signals TW518557B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/626,046 US6718309B1 (en) 2000-07-26 2000-07-26 Continuously variable time scale modification of digital audio signals

Publications (1)

Publication Number Publication Date
TW518557B true TW518557B (en) 2003-01-21

Family

ID=24508730

Family Applications (1)

Application Number Title Priority Date Filing Date
TW090118180A TW518557B (en) 2000-07-26 2001-07-25 Continuously variable time scale modification of digital audio signals

Country Status (7)

Country Link
US (1) US6718309B1 (zh)
EP (1) EP1303855A2 (zh)
JP (1) JP2004505304A (zh)
KR (1) KR20030024784A (zh)
CN (1) CN1181468C (zh)
TW (1) TW518557B (zh)
WO (1) WO2002009090A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090109B2 (en) 2005-08-30 2012-01-03 Realtek Semiconductor Corp. Apparatus for processing audio signal and method thereof
US8423372B2 (en) 2004-08-26 2013-04-16 Sisvel International S.A. Processing of encoded signals
TWI466109B (zh) * 2008-07-03 2014-12-21 Thomson Licensing 一序列輸入訊號值之時間標度方法及裝置

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004519738A (ja) * 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7146503B1 (en) * 2001-06-04 2006-12-05 At&T Corp. System and method of watermarking signal
US7131007B1 (en) * 2001-06-04 2006-10-31 At & T Corp. System and method of retrieving a watermark within a signal
US7171367B2 (en) * 2001-12-05 2007-01-30 Ssi Corporation Digital audio with parameters for real-time time scaling
KR100547444B1 (ko) * 2002-08-08 2006-01-31 주식회사 코스모탄 가변길이합성과 상관도계산 감축 기법을 이용한오디오신호의 시간스케일 수정방법
US7941037B1 (en) * 2002-08-27 2011-05-10 Nvidia Corporation Audio/video timescale compression system and method
US7426470B2 (en) * 2002-10-03 2008-09-16 Ntt Docomo, Inc. Energy-based nonuniform time-scale modification of audio signals
US7426221B1 (en) 2003-02-04 2008-09-16 Cisco Technology, Inc. Pitch invariant synchronization of audio playout rates
US20040186709A1 (en) * 2003-03-17 2004-09-23 Chao-Wen Chi System and method of synthesizing a plurality of voices
JP3871657B2 (ja) * 2003-05-27 2007-01-24 株式会社東芝 話速変換装置、方法、及びそのプログラム
US8340972B2 (en) * 2003-06-27 2012-12-25 Motorola Mobility Llc Psychoacoustic method and system to impose a preferred talking rate through auditory feedback rate adjustment
US6999922B2 (en) * 2003-06-27 2006-02-14 Motorola, Inc. Synchronization and overlap method and system for single buffer speech compression and expansion
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US20050137730A1 (en) * 2003-12-18 2005-06-23 Steven Trautmann Time-scale modification of audio using separated frequency bands
US20050137729A1 (en) * 2003-12-18 2005-06-23 Atsuhiro Sakurai Time-scale modification stereo audio signals
US6982377B2 (en) * 2003-12-18 2006-01-03 Texas Instruments Incorporated Time-scale modification of music signals based on polyphase filterbanks and constrained time-domain processing
US20050166135A1 (en) * 2004-01-05 2005-07-28 Burke David G. Apparatus, system and method for synchronized playback of data transmitted over an asynchronous network
US20060075347A1 (en) * 2004-10-05 2006-04-06 Rehm Peter H Computerized notetaking system and method
US20060149535A1 (en) * 2004-12-30 2006-07-06 Lg Electronics Inc. Method for controlling speed of audio signals
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US11561951B2 (en) 2005-05-16 2023-01-24 Panvia Future Technologies, Inc. Multidimensional associative memory and data searching
US10438690B2 (en) * 2005-05-16 2019-10-08 Panvia Future Technologies, Inc. Associative memory and data searching system and method
WO2006128144A2 (en) * 2005-05-26 2006-11-30 Groove Mobile, Inc. Systems and methods for high resolution signal analysis
US8155972B2 (en) * 2005-10-05 2012-04-10 Texas Instruments Incorporated Seamless audio speed change based on time scale modification
US20070081663A1 (en) * 2005-10-12 2007-04-12 Atsuhiro Sakurai Time scale modification of audio based on power-complementary IIR filter decomposition
US8345890B2 (en) * 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8073704B2 (en) 2006-01-24 2011-12-06 Panasonic Corporation Conversion device
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
EP2013871A4 (en) * 2006-04-27 2011-08-24 Technologies Humanware Inc METHOD FOR TEMPORALLY NORMALIZING AN AUDIO SIGNAL
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8934641B2 (en) * 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US7752038B2 (en) * 2006-10-13 2010-07-06 Nokia Corporation Pitch lag estimation
TWI312500B (en) * 2006-12-08 2009-07-21 Micro Star Int Co Ltd Method of varying speech speed
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US20080221876A1 (en) * 2007-03-08 2008-09-11 Universitat Fur Musik Und Darstellende Kunst Method for processing audio data into a condensed version
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8050934B2 (en) * 2007-11-29 2011-11-01 Texas Instruments Incorporated Local pitch control based on seamless time scale modification and synchronized sampling rate conversion
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
EP2077671B1 (en) * 2008-01-07 2019-06-19 Vestel Elektronik Sanayi ve Ticaret A.S. Streaming media player and method
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
ATE539433T1 (de) * 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
US8379794B2 (en) * 2008-09-05 2013-02-19 The Board Of Trustees Of The Leland Stanford Junior University Method to estimate position, motion and trajectory of a target with a single x-ray imager
US20100063825A1 (en) * 2008-09-05 2010-03-11 Apple Inc. Systems and Methods for Memory Management and Crossfading in an Electronic Device
US8655466B2 (en) * 2009-02-27 2014-02-18 Apple Inc. Correlating changes in audio
JP5785082B2 (ja) * 2009-08-20 2015-09-24 ジーブイビービー ホールディングス エス.エイ.アール.エル. オーディオ・ストリームを合成する装置、方法及びプログラム
CN102117613B (zh) * 2009-12-31 2012-12-12 展讯通信(上海)有限公司 数字音频变速处理方法及其设备
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US20120035922A1 (en) * 2010-08-05 2012-02-09 Carroll Martin D Method and apparatus for controlling word-separation during audio playout
US8473084B2 (en) 2010-09-01 2013-06-25 Apple Inc. Audio crossfading
US8996389B2 (en) * 2011-06-14 2015-03-31 Polycom, Inc. Artifact reduction in time compression
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CN104123943B (zh) * 2013-04-28 2017-05-31 安凯(广州)微电子技术有限公司 一种音频信号重采样的方法和装置
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
EP2881944B1 (en) * 2013-12-05 2016-04-13 Nxp B.V. Audio signal processing apparatus
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US11418879B2 (en) * 2020-05-13 2022-08-16 Nxp B.V. Audio signal blending with beat alignment

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4417103A (en) 1981-05-11 1983-11-22 The Variable Speech Control Company ("Vsc") Stereo reproduction with gapless splicing of pitch altered waveforms
IL84902A (en) 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
EP0427953B1 (en) 1989-10-06 1996-01-17 Matsushita Electric Industrial Co., Ltd. Apparatus and method for speech rate modification
US5175769A (en) 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
EP0527527B1 (en) 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal
EP0608833B1 (en) 1993-01-25 2001-10-17 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
US5694521A (en) * 1995-01-11 1997-12-02 Rockwell International Corporation Variable speed playback system
US5828995A (en) 1995-02-28 1998-10-27 Motorola, Inc. Method and apparatus for intelligible fast forward and reverse playback of time-scale compressed voice messages
US5832442A (en) 1995-06-23 1998-11-03 Electronics Research & Service Organization High-effeciency algorithms using minimum mean absolute error splicing for pitch and rate modification of audio signals
US5806023A (en) 1996-02-23 1998-09-08 Motorola, Inc. Method and apparatus for time-scale modification of a signal
US5893062A (en) * 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
US6622171B2 (en) * 1998-09-15 2003-09-16 Microsoft Corporation Multimedia timeline modification in networked client/server systems
US6665751B1 (en) * 1999-04-17 2003-12-16 International Business Machines Corporation Streaming media player varying a play speed from an original to a maximum allowable slowdown proportionally in accordance with a buffer state
US6625655B2 (en) * 1999-05-04 2003-09-23 Enounce, Incorporated Method and apparatus for providing continuous playback or distribution of audio and audio-visual streamed multimedia reveived over networks having non-deterministic delays
US6278387B1 (en) * 1999-09-28 2001-08-21 Conexant Systems, Inc. Audio encoder and decoder utilizing time scaling for variable playback

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8423372B2 (en) 2004-08-26 2013-04-16 Sisvel International S.A. Processing of encoded signals
US8090109B2 (en) 2005-08-30 2012-01-03 Realtek Semiconductor Corp. Apparatus for processing audio signal and method thereof
TWI466109B (zh) * 2008-07-03 2014-12-21 Thomson Licensing 一序列輸入訊號值之時間標度方法及裝置

Also Published As

Publication number Publication date
US6718309B1 (en) 2004-04-06
WO2002009090A3 (en) 2002-07-18
KR20030024784A (ko) 2003-03-26
CN1440549A (zh) 2003-09-03
CN1181468C (zh) 2004-12-22
WO2002009090A2 (en) 2002-01-31
JP2004505304A (ja) 2004-02-19
EP1303855A2 (en) 2003-04-23

Similar Documents

Publication Publication Date Title
TW518557B (en) Continuously variable time scale modification of digital audio signals
US8195472B2 (en) High quality time-scaling and pitch-scaling of audio signals
EP2261892B1 (en) High quality time-scaling and pitch-scaling of audio signals
US5842172A (en) Method and apparatus for modifying the play time of digital audio tracks
KR101521368B1 (ko) 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체
US7734473B2 (en) Method and apparatus for time scaling of a signal
JPH11194796A (ja) 音声再生装置
JP2002524759A (ja) オーディオ信号の時間スケール及び/又は基本周波数を変更するための信号処理技術
JP4031813B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法およびその方法をコンピュータに実行させるプログラム
Duxbury et al. Improved time-scaling of musical audio using phase locking at transients
EP2881944B1 (en) Audio signal processing apparatus
CN104205212A (zh) 听觉场景中的讲话者冲突
JP4608650B2 (ja) 既知音響信号除去方法及び装置
WO2020105195A1 (ja) 映像制御装置、及び映像制御方法
Roberts et al. Stereo time-scale modification using sum and difference transformation
JP2009282536A (ja) 既知音響信号除去方法及び装置
Lin et al. High quality and low complexity pitch modification of acoustic signals
US11495200B2 (en) Real-time speech to singing conversion
EP4276824A1 (en) Method for modifying an audio signal without phasiness
Dorran et al. Audio time-scale modification using a hybrid time-frequency domain approach
JP2011095510A (ja) 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム
JP2669088B2 (ja) 音声速度変換装置
Zhao et al. Time-scaling non-vibrato musical tones while preserving timbral texture
JP2021156975A (ja) テンポ検出装置、方法、及びプログラム
CN113674723A (zh) 一种音频处理方法、计算机设备及可读存储介质

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees