TWI480861B - 用於控制聲頻信號之時間縮放的方法、裝置及系統 - Google Patents

用於控制聲頻信號之時間縮放的方法、裝置及系統 Download PDF

Info

Publication number
TWI480861B
TWI480861B TW096104019A TW96104019A TWI480861B TW I480861 B TWI480861 B TW I480861B TW 096104019 A TW096104019 A TW 096104019A TW 96104019 A TW96104019 A TW 96104019A TW I480861 B TWI480861 B TW I480861B
Authority
TW
Taiwan
Prior art keywords
time
frames
change
scaling
time scaling
Prior art date
Application number
TW096104019A
Other languages
English (en)
Other versions
TW200807395A (en
Inventor
Pasi Ojala
Ari Lakaniemi
Original Assignee
Nokia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corp filed Critical Nokia Corp
Publication of TW200807395A publication Critical patent/TW200807395A/zh
Application granted granted Critical
Publication of TWI480861B publication Critical patent/TWI480861B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/02Details
    • H04J3/06Synchronising arrangements
    • H04J3/062Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
    • H04J3/0632Synchronisation of packets and cells, e.g. transmission of voice via a packet network, circuit emulation service [CES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/54Store-and-forward switching systems 
    • H04L12/56Packet switching systems
    • H04L12/5601Transfer mode dependent, e.g. ATM
    • H04L2012/5603Access techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Communication Control (AREA)
  • Stringed Musical Instruments (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Electromechanical Clocks (AREA)

Description

用於控制聲頻信號之時間縮放的方法、裝置及系統
本發明係關於一種控制聲頻訊號之時間縮放之方法,本發明亦關於控制聲頻訊號之時間縮放之晶片組、聲頻接收器、電子裝置及系統。本發明進一步關於一種軟體程式產品,其儲存控制聲頻訊號之時間縮放之軟體碼。
時間縮放聲頻訊號可例如被啟動於一聲頻接收器,該接收器適用於經由封包交換系統(例如,網際網路)接收封包內之編碼聲頻訊號,將該編碼聲頻訊號解碼及向使用者播放該解碼之聲頻訊號。
封包交換通訊之特性基本上會將變化導入封包之傳送時間,即所謂之抖動(jitter),其自接收器觀之,封包係抵達於不規則區間。除封包遺失之情況,網路抖動,尤其對於封包交換網路所提供之傳統語音服務,是主要之障礙。
更特別地,操作於即時之聲頻接收器之聲頻播放部件需要持續不斷之輸入以維持好的聲音品質;即使短暫之干擾也應避免。因此,若某些包含聲頻訊框(audio frames)之封包只能抵達於該等聲頻訊框必須被解碼及進一步處理之時間之後,該等封包及其包含之聲頻訊框將被視為遺失。聲頻解碼器將執行錯誤隱藏以補救負載於該遺失訊框內之聲頻訊號。明顯地,大量的錯誤隱藏也將降低聲音品質。
典型地,抖動緩衝器(jitter buffer)因此被用於隱藏不規則之封包抵達時間,及提供一個連續之輸入至解碼器及隨後 之聲頻播放部件。該抖動緩衝器為此目的將接踵而至之聲頻訊框儲存一段預定之時間量。該時間可被指定於當接收到封包流之第一個封包之時候。抖動緩衝器加入一個額外之延遲部件,因為被接收之封包將於進一步處理之前被儲存。如此增加端至端(end-to-end)之延遲。抖動緩衝器之特徵在於平均緩衝延遲及延遲訊框在所有接收訊框中之比率。
使用固定延遲之抖動緩衝器不可避免地是低的端至端延遲與低的延遲訊框數之妥協,而尋求最佳之平衡並非易事。雖然期望之抖動量在特定之環境及應用下可被估計以保持在預定之範圍內,大體上,抖動之變化可從零至數百毫秒(milliseconds),即使在相同之通訊期。使用固定延遲,其被設定一足夠大之值以應付預估最壞情況之抖動,將能維持控制延遲訊框數,但同時有導入太長之端至端延遲以致於不能自然通話之危險。因此,使用固定延遲於封包交換網路之多數聲頻傳送應用並非最佳選擇。
自適應抖動緩衝器(adaptive jitter buffer)可用於動態地控制足夠短的延遲與足夠低的延遲訊框數之平衡。在此方法中,進來之封包流是被持續地監控,且緩衝延遲是依據所觀測之該封包流之延遲行為而調整。若傳送延遲似乎增加或抖動趨於惡化,則緩衝延遲將增加以符合網路之狀況。在相反之情況,緩衝延遲將減少,因此整體端至端延遲將被最小化。
因為聲頻播放部件需要規律之輸入,但該緩衝器調整並非全然簡單的。一個由事實所引發的問題是,若緩衝延遲減少,則提供給該聲頻播放部件之聲頻信號需要被縮短以彌補 該被縮短之緩衝延遲,而另一方面,若緩衝延遲增加,則該聲頻信號必須被增長以彌補該被增加之緩衝延遲。
對於網際網路電話(Voice over IP;VoIP)應用,當使用非連續傳輸模式(Discontinuous Transmission;DTX)時,藉丟棄或重複介於活動語音期間之柔和噪音訊號(comfort noise signal)之一部分以增加或減少緩衝延遲之情況之訊號修改是已知之方法。但該方法並非總是可行的。例如,DXT功能可能不被使用,或DXT可能沒被轉換至柔和噪音,因為喧鬧之背景噪音情況,例如背景中干擾之談話者。
在更進步之處理改變緩衝延遲之方法中,訊號時間縮放被用於改變傳送至播放部件之輸出聲頻訊框之長度。該訊號時間縮放可被實行於解碼器或解碼器之後的後處理單元(post-processing unit)。在此方法中,當減少延遲時,抖動緩衝器內之訊框被解碼器相較於正常操作更頻繁地讀取,而當增加延遲時,則將該抖動緩衝器之訊框輸出率緩慢下來。
在配備有自適應抖動緩衝器及時間縮放功能之聲頻接收器中,網路狀態及該緩衝器狀態是被持續地監控。基於該緩衝器及該網路之狀態,時間縮放(time scale)改變被執行於聲頻訊號,藉增加或移除該聲頻訊號,以彌補在該緩衝延遲之任何改變。
在聲頻訊號之活動部件中執行時間縮放改變之挑戰在於維持感知之聲頻品質於一足夠高之位階。
本發明之目的在於改進應用於聲頻訊號之時間縮放操 作。本發明之進一步目的在於將時間縮放之聲頻訊號之品質最佳化。
本發明提出一種控制聲頻訊號之方法,該聲頻訊號被分佈至經由封包交換網路被接收之訊框序列。該方法包括偵測接收之訊框之延遲之改變。該方法進一步包括決定時間縮放量,其被應用於接收之訊框以彌補該偵測到之改變。該方法進一步包括決定該改變之類型。該方法進一步包括決定時間視窗(time window)之長度;在該時間視窗內,依據所決定之該改變之類型,完成決定之該時間縮放量之時間縮放。
此外,本發明提出一種具有至少一晶片之晶片組。該至少一晶片包含一用於控制聲頻訊號之時間縮放之時間縮放控制部件,該聲頻訊號被分佈至經由封包交換網路被接收之訊框序列。該時間縮放控制部件是用於偵測接收之訊框之延遲之改變。該時間縮放控制部件進一步用於決定時間縮放量,其被應用於接收之訊框以彌補該偵測到之改變。該時間縮放控制部件進一步用於該改變之類型。該時間縮放控制部件進一步用於決定時間視窗(time window)之長度;在該時間視窗內,依據所決定之該改變之類型,完成決定之該時間縮放量之時間縮放。
此外,本發明提出一種聲頻接收器,其包含用於控制聲頻訊號之時間縮放之時間縮放控制部件。該聲頻訊號假定被分佈至經由封包交換網路被接收之訊框序列。該時間縮放控制部件是用於實行與上述晶片組之時間縮放控制部件相應之功能。應注意的是,該時間縮放控制部件也可以硬體及/或軟 體來實行。該時間縮放控制部件可被實行於晶片組,或其可藉處理器執行相應之軟體程式碼部件來實行。
此外,本發明還提出一種電子裝置,其包含用於控制聲頻訊號之時間縮放之時間縮放控制部件。該聲頻訊號假定被分佈至經由封包交換網路被接收之訊框序列。該電子裝置之該時間縮放控制部件對應上述音頻接收器之時間縮放控制部件。該電子裝置可能之實例為單純音頻處理裝置,或較複雜之裝置,例如行動終端機或多媒體閘道器等等。
此外,本發明還提出一種系統,其包含:用於傳送聲頻訊號之封包交換系統,用於經由該封包交換網路傳送聲頻訊號之傳送器,及用於經由該封包交換網路接收聲頻訊號之接收器。該接收器對應上述提出之接收器。
最後,本發明提出一種軟體程式產品,其中用於控制聲頻訊號之時間縮放之軟體碼被儲存於一可讀取之媒體。該聲頻訊號被分佈至經由封包交換網路被接收之訊框序列。當該軟體碼由處理器執行時,可實行本發明提出之方法。該軟體程式產品可能是分開之記憶體裝置、聲頻接收器內之記憶體、等等。
本發明著手於考慮時間縮放之操作應該對不同之狀況做出不同之反應。
一般而言,當施加於時間縮放之改變僅可能地少,時間縮放操作可得到最好之聲頻品質。舉例言之,延長聲頻訊號之20ms分段成為25ms分段可被預期不會造成特別之品質降級,當延長20ms分段成為40ms分段時,很可能致使若干 之聲頻品質降級。此表示將稍大之時間縮放請求分割成為一連續較短之縮放步驟通常提供了一個在聲頻品質方面之明顯好處。
雖然上述要求似乎贊同漸近似修改,傳送延遲特性之突然改變可能要求即刻之時間縮放修改,而不顧先前提及之漸近式修改。雖然立即及在短時限內實行修改可能造成一定之品質降級,但是緩衝器之溢位(overflow)或下溢(underflow)致使一或多個訊框之損失可能由於漸近式修改所產生,品質降級可能更嚴重。
因此,本發明不僅提供所需之時間縮放量,且另外提供時間視窗之長度(亦即執行縮放之時限),以使用視窗化時間縮放操作及控制該時間縮放。如此使得該時間縮放可被執行於該時間視窗內之許多小步驟。
本發明之優點在於緩衝延遲及延遲聲頻訊號之量可以最佳方式維持折衷。需要不同緩衝器調適方法之傳送特性之改變可藉時間縮放之相應控制而被考慮。如此,時間縮放操作改進了聲頻品質。
改變之類型若非為決定之時間縮放量要求較短時間視窗,就是為決定之時間縮放量要求較長時間視窗。
要求較短時間視窗之改變可能發生於偵測到延遲改變,且其超過預定值。該改變可能表示封包交換網路中之“靜態”(static)傳送延遲。此外,要求較短時間視窗之改變可能發生於偵測到延遲尖波(spike)。
要求較長時間視窗之改變可能發生於偵測到延遲訊框之 改變量。該改變可能表示封包交換網路中之改變的抖動。若接收之訊框於接收後被緩衝於可變之緩衝器內,則允許較長時間視窗之改變可能發生於偵測到漸近改變緩衝器佔用。該緩衝器佔用之改變可能表示傳送器與接收器之間之時脈飄移(clock drift)。
依據決定長度之時間視窗內之決定量,接收之訊框可被時間縮放。該實際縮放可執行以任何適當之方法。各縮放週期可對應一個適當之複合音高週期。
應了解的是,時間縮放不須一定被執行於實際具有改變延遲之接收訊框及該延遲改變被偵測到。至少在某些系統及實施中,該接收訊框之改變延遲可基於接收統計來決定,而非基於最初單獨訊框之延遲。
對於實際之時間縮放,可能進一考慮時間縮放改變後之聲頻品質結果並非對於所有之聲頻內容皆相同。舉例言之,對於語音訊號之特定訊框類型,例如短暫訊框或濁音起始(voiced onsets),可被有效地細心處理以不使聲頻品質降級。此表示由於嚴格品質要求,最好之結果可得自於禁止該特定訊框之縮放。尤其,若決定之時間視窗之長度比較長,則於該決定之時間視窗內之訊框內容之類型將被決定。在該時間視窗內之訊框,其具有預先決定類型之內容,則可避免時間縮放。
時間縮放可能不直接實施於接收之訊框,而是實施於處理後之接收訊框。
舉例言之,當接收時,接收之訊框可被緩衝於可變緩衝 器,然後自該可變緩衝器中擷取以進行解碼。然後,該解碼之訊框可被時間縮放。此選擇方式特別適用於當時間縮放是實施於特定之處理區塊,亦即,在限定之硬體電路或限定之軟體碼。
另外,時間縮放可能結合其他處理功能(例如,解碼或轉碼功能)實施。音高同步縮放(pitch-synchronous scaling)與語音解碼器之結合特別有助益於提供高品質之時間縮放。例如,結合AMR編解碼器,就低處理負荷而言,可提供好處。
假若時間縮放結合解碼,接收之訊框可同樣地於接收時被緩衝於可變緩衝器及擷取自該可變緩衝器以進行解碼。然而,在此情況,時間縮放之訊框可能是包含有產生於解碼之線性預測綜合濾波器(linear prediction(LP)synthesis filter)激發訊號之訊框。
本發明可應用於任何類型之聲頻編解碼器,尤其(但不限定),任何類型之語音編解碼器。此外,例如可用於AMR及VoIP。
圖1是傳送系統實例之示意區塊圖,其中可實行依據本發明實施例之增強之時間縮放。
該系統包括:備有聲頻傳送器111之電子裝置110、封包交換通訊網路120及備有聲頻接收器131之電子裝置130。聲頻傳送器111可將包含解碼聲頻資料之聲頻訊框經由封包交換通訊網路120傳送至聲頻接收器131,各封包包含具有編碼聲頻資料之聲頻訊框。
聲頻接收器131之輸入一方面連接至抖動緩衝器132,另一方面連接至網路分析器133。抖動緩衝器132經由解碼器134及時間縮放單元135連接至聲頻接收器131之輸出。網路分析器133之控制訊號輸出是連接至時間縮放控制邏輯單元136之第一控制輸入,而抖動緩衝器132之控制訊號輸出是連接至時間縮放控制邏輯單元136之第二控制輸入。時間縮放控制邏輯單元136之控訊號輸出進一步連接至時間縮放單元135之輸入。
聲頻接收器131之輸出可連接至電子裝置130之播放部件138,例如揚聲器。
抖動緩衝器132是用於儲存等待解碼及播放之接收聲頻訊框。抖動緩衝器132可具有之能力包含整理接收訊框成為正確解碼次序,及提供已整理之該訊框或有關遺失訊框之資訊以序列方式至解碼器140。此外,抖動緩衝器132提供有關其狀態之資訊至時間縮放控制邏輯單元136。基於訊框接收統計及接收訊框之時機,網路分析器133計算一組敘述目前接收特性之參數及提供該組參數至時間縮放控制邏輯單元136。基於該接收之資訊,時間縮放控制邏輯單元136決定所需之緩衝延遲改變及給予時間縮放單元135相應之時間縮放指令。平均緩衝延遲不須為輸入訊框長度之整數倍。最佳之平均緩衝延遲是能做小化緩衝時間而無任何遲到之訊框。
每當播放部件138要求新資料,解碼器134就從抖動緩衝器132中擷取聲頻訊框。該解碼器將擷取之聲頻訊框解碼及傳送該解碼之聲頻訊框至時間縮放單元135。時間縮放單 元135執行時間縮放控制邏輯單元136之縮放指令,亦即,延長或縮短該接收之解碼訊框。該經解碼及時間縮放之訊框將被提供給播放部件138以對使用者顯示。
應了解的是,圖1之聲頻接收器131之結構祇意圖表示依據本發明之聲頻接收器之基本功能。在實際實施中,所表示之功能可配設不同於圖式之處理區塊。可替代結構之某些區塊可將上述之若干功能合併。時間縮放單元與解碼器合併,例如在計算上可提供非常有效率之解決。此外,附加之處理區塊或某些部件(例如,緩衝器132)可甚至配設於該聲頻接收器131之外部。
除了聲頻接收器131之時間縮放控制邏輯單元136及時間縮放單元135以外,本發明之系統可實施如同傳統之系統,其中聲頻資料由聲頻傳送器傳送至聲頻接收器。
圖2表示時間縮放控制邏輯單元136之功能細部。
時間縮放控制邏輯單元136之實施方式是由聲頻接收器131之處理器200執行軟體碼。應了解的是,相同之處理器200可執行另外之軟體碼以實施其他聲頻接收器131之功能,或者更廣泛地,電子裝置130之功能。應注意的是,時間縮放控制邏輯單元136之功能也可使用硬體來實施,例如積體電路或晶片。
時間縮放控制邏輯單元136包括“時間縮放量”決定部件210及連接至此決定部件210之“時間視窗長度”決定部件211。時間縮放控制邏輯單元136之控制輸入,其個別連接至網路分析器133及抖動緩衝器132,兩者皆連接至決定 部件210。決定部件210輸出被饋入時間縮放單元135之縮放要求。決定部件211輸出被饋入時間縮放單元135之時間視窗長度。
圖3表示時間縮放單元135之功能細部。
時間縮放單元135可同樣由聲頻接收器131之處理器200執行軟體碼來實施。應了解的是,相同之處理器200可執行另外之軟體碼以實施其他聲頻接收器131之功能,或者更廣泛地,電子裝置130之功能。尤其,實行時間縮放單元135之功能之軟體碼可由實行時間縮放單元135之功能之軟體碼之相同處理器200來執行。應注意的是,該時間縮放單元135之功能也可由硬體來實行,例如,晶片或晶片組形式之積體電路,可能地,該相同之晶片或晶片組也整合時間縮放控制邏輯單元136成為一體。
時間縮放單元135包括“訊框類型”決定部件310及連接至此決定部件310之“視窗化時間縮放”部件311。時間縮放控制邏輯單元136之用於縮放請求及時間視窗之控制訊號輸出皆連接到“視窗化時間縮放”部件311。解碼器134之輸出連接到決定部件310。“視窗化時間縮放”部件311將解碼及縮放後之訊框輸出至播放部件138。
若如圖示,時間縮放單元135是一分開之處理區塊,則所述之時間縮放修改通常是執行於解碼之語音訊號。若時間縮放單元135與解碼器134結合,則所述之時間縮放修改可例如執行於解碼器134所產生之線性預測綜合濾波器激發訊號。
圖4是根據本發明實施例之時間縮放控制之流程圖。步 驟401至405是由時間縮放控制邏輯單元136來實行,而步驟406至407是由時間縮放單元135來實行。
時間縮放控制邏輯單元136自網路分析器133接收網路狀態之訊息,及自抖動緩衝器132接收緩衝器狀態之資訊。基於該等資訊,決定部件210決定是否緩衝延遲之改變即將發生,果若如此,進一步決定彌補該改變所需之時間縮放量(步驟401)。當網路特徵及緩衝狀態指示增加之延遲,某些訊框必須被延長一適當的量,致使播放部件138請求較低速率之新資料,以防止當緩衝延遲增加時,產生緩衝器之下溢。當網路特徵及緩衝狀態指示減少之延遲,某些訊框必須被縮短一適當的量,致使播放部件138請求較高速率之新資料,以防止當緩衝延遲減少時,產生緩衝器之溢位。
決定部件210通知決定部件211有關任何所需之時間縮放以及目前網路及緩衝狀態。此外,決定部件210產生時間縮放請求,包括該時間縮放之量,及提供其至時間縮放單元135。
假若需要時間縮放(步驟402),決定部件211決定是否該類之改變延遲需要快速反應(步驟403)。決定部件211可能用於區別,例如,時脈漂移、“靜態”傳送延遲之改變、改變抖動及延遲尖波;以下將做詳述。
在某些情況,驅動傳送器111及接收器131之操作之時脈不是同步,原因在於該時脈訊號非完全正確。可能存在一個小誤差,使得實際時脈率稍微不同於標稱值而造成時脈漂移。若傳送器之時脈比接收器之時脈進行的較快,訊框似乎 抵達接收器131於一太短之間隔,如此在接收器131方面將逐漸地增加緩衝器佔用及增加平均緩衝延遲。反過來說,若傳送器之時脈比接收器之時脈進行的較慢,訊框似乎抵達接收器131於一太長之間隔,如此在接收器131方面將逐漸地減少緩衝器佔用及減少平均緩衝延遲。這現象若無妥善處理,則遲早將造成緩衝器溢位或下溢。
上述是第1個考慮之面向,決定部件211可藉觀測逐漸改變之緩衝器佔用而察覺。
“靜態”傳送延遲之改變可能發生,若網路負載突然改變。因此,延遲之明顯改變可能需要緩衝器調整。延遲明顯的增加可能導致緩衝器下溢,然而突然減少延遲可能造成緩衝器溢位。
上述是第2個考慮之面向,決定部件211可藉觀測接收封包之延遲之明顯改變而察覺。
網路負載之改變也可能視為改變抖動而非靜態延遲構成要素之改變。改變抖動可能實際上比改變靜態延遲更為普通之現象。在此情況,增加之抖動將造成遲到訊框數量之增加,若緩衝延遲無法相應地增加。相反地,減少抖動之傾向將減少由於訊框遲到所造成遺失訊框之數量,其可被利用於減少緩衝延遲。
上述是第3個考慮之面向,決定部件211可藉評估遲到之訊框數量而察覺。
在網路120中非常短期之“干擾”於接收器131中可視為延遲尖波,亦即,封包之叢發(burst)跟隨於完全沒有封包 之短暫期間之後。
上述是第4個考慮之面向,決定部件211可藉評估封包之接收時間之分配而察覺。
同樣之修改步調將不會於所有上述情況中得到最好之聲頻品質。時脈漂移及改變抖動是典型地藉逐步修改來處理,其就自身而言是維持高聲頻品質之最好方法。改變靜態傳送延遲及延遲尖波,相反地,需要一較快速之反應以減少由於封包遺失所產生之聲頻品質降低。
若查覺快速之反應是沒有必要的(步驟403),則決定部件211為所需之縮放量設定時間視窗之長度為一大值,及提供該值至時間縮放單元135(步驟404)。該大值適用於相對長的修改期間,控制時間縮放單元135執行所需之時間縮放量。
若查覺快速之反應是必要的(步驟403),則決定部件211為所需之縮放量設定時間視窗之長度為一小值,及提供該值至時間縮放單元135(步驟405)。該小值適用於短的修改期間,控制時間縮放單元135執行所需之時間縮放量。
應了解的是,在上述兩種情況中,該選擇之視窗大小可能也另外基於其他之準則。舉例言之,基於時間縮放量,因為同一時間視窗之縮放量之大或小將有明顯不同之效果。
時間縮放單元135從解碼器134接收解碼之聲頻訊框。另外,其自時間縮放控制單元136接收縮放指令及關聯之視窗長度。
決定部件310檢查目前接收之解碼訊框以偵測具有特別聲頻品質要求之訊框,例如,瞬間訊框或具有濁音起始之訊 框(步驟406)。
時間縮放單元135之視窗化時間縮放部件311然實施時間縮放於該接收之解碼訊框(步驟407)。
時間縮放以要求之量被執行於指定之時間視窗內。該視窗化時間縮放部件311為時間縮放選擇適當之訊框及該訊框內最佳之改變點。
原則上,在新的縮放指令後,時間縮放從所接收之第一個訊框開始。若時間縮放量及指示之視窗大小之組合沒有表示快速反應是必須的,然而,該視窗化時間縮放部件311處理避免由決定部件310所偵測之敏感訊框之時間縮放。
典型地,訊號延伸或收縮是如同復合之音高週期。一個適當之時間縮放實例可發現於“語音之高品質時間縮放修改”(“High quality time-scale modification for speech”,S.Roucos及A.M.Wilgus,IEEE ICASSP 1985,493-496頁)。然而,應了解的是,其他時間縮放方法也可被使用。
應注意的是,時間縮放量可能不僅是以所需縮放之絕對量來設定,該縮放是完成於設定之時間視窗所接收之訊框。時間縮放量可能也指示,例如,多少時間縮放訊框應該納入被指定之時間視窗。因此,時間視窗之長度可能限制時間縮放之前所設想之訊框量或限定該時間縮放所需之訊框之範圍。
此外應注意的是另一種方法,其中時間縮放控制邏輯單元136一較大之縮放請求分散成為一序列較小之縮放請求,該方法不如提議之視窗有助益。原因是時間縮放單元135具 有目前訊號特徵之知識,因此能夠做正確縮放點之決定,以盡量減少聲頻品質之降低。
總之,自適應抖動緩衝器應將網路狀況、解碼操作及時間縮放單元能力列入考慮。
雖然基本上本發明之新穎特徵已闡述於較可取之實施例中,應了解的是,熟悉此技藝之士可做不同之修改或替代而不違反本發明之精神。舉例言之,實質上執行相同之功能以達成相同結果之元件及/或方法步驟之所有組合是在本發明之範圍以內。此外,應認知的是任何本發明揭示之形式或實施例有關聯之結構及/或元件及/或方法步驟可合併於任何其它陳述或建議之實施例中以成為一般之設計選擇。因此,本發明只有受限制於本發明之申請專利範圍。
110‧‧‧電子裝置
111‧‧‧聲頻傳送器
120‧‧‧網路
130‧‧‧電子裝置
131‧‧‧聲頻接收器
132‧‧‧緩衝器
133‧‧‧網路分析器
134‧‧‧解碼器
135‧‧‧時間縮放單元
136‧‧‧時間縮放控制邏輯單元
138‧‧‧播放部件
200‧‧‧處理器
210‧‧‧“時間縮放量”決定部件
211‧‧‧“時間視窗長度”決定部件
310‧‧‧“訊框類型”決定部件
311‧‧‧“視窗化時間縮放”部件
401‧‧‧決定所需之時間縮放量
402‧‧‧是否需要時間縮放?
403‧‧‧是否延遲之該類型需要快速反應?
404‧‧‧設定所需縮放量之時間視窗長度為大值
405‧‧‧設定所需縮放量之時間視窗長度為小值
406‧‧‧決定訊框之類型
407‧‧‧考慮訊框類型並藉設定時間視窗內之縮放量將解碼訊框予以時間縮放
圖1.依據本發明之實施例之傳送系統之示意區塊圖。
圖2.圖1系統之聲頻接收器之細部圖。
圖3.圖1系統之聲頻接收器之另一細部圖。
圖4.圖1系統之聲頻接收器之操作流程圖。
110‧‧‧電子裝置
111‧‧‧聲頻傳送器
120‧‧‧網路
130‧‧‧電子裝置
131‧‧‧聲頻接收器
132‧‧‧緩衝器
133‧‧‧網路分析器
134‧‧‧解碼器
135‧‧‧時間縮放單元
136‧‧‧時間縮放控制邏輯單元
138‧‧‧播放部件

Claims (20)

  1. 一種用於控制聲頻信號之時間縮放的方法,包括:在一裝置偵測經由一封包交換網路接收到之多個經接收的訊框的延遲之改變,該等訊框屬於一音訊信號被分佈其中之一序列訊框;決定施加到經接收的該訊框以彌補該偵測到之改變所需之時間縮放量;藉由評估延遲的該等訊框的量之至少一改變,決定該改變之一類型;及決定一時間視窗之長度,在該長度內,將依據經決定之該改變類型來完成該所需量之時間縮放量。
  2. 如申請專利範圍第1項之方法,其中經決定之該改變類型是一種需要較短時間視窗用於決定之時間定標量之類型,抑或是一種允許較長時間視窗用於決定之時間縮放量之類型。
  3. 如申請專利範圍第2項之方法,其中決定需要較短時間視窗之改變類型決定是在至少以下的情況被給予,該情況是,改變超過一預定值之一延遲改變、以及一延遲尖波被偵測到,當中的一種。
  4. 如申請專利範圍第2項之方法,其中經接收之該等訊框於接收時是緩衝於一可變緩衝器,且其中允許較長時間視 窗之改變之類型是在至少偵測到一漸進式改變之緩衝器佔用之情況下,決定被給予。
  5. 如申請專利範圍第1項之方法,包括藉該決定長度之時間視窗內之決定縮放量以將經接收的該等訊框予以時間縮放之一後續步驟。
  6. 如申請專利範圍第5項之方法,進一步包括決定在該時間視窗內之該等訊框之內容類型,及防止在該時間視窗內有一預定類型之內容的彼等訊框之一時間縮放。
  7. 如申請專利範圍第5項之方法,其中該時間縮放是於經接收之該等訊框之前置處理之後被施加到經接收之該等訊框。
  8. 如申請專利範圍第5項之方法,其中經接收之該等訊框於接收時是緩衝於一可變緩衝器,並自該可變緩衝器中擷取以進行解碼,且其中遭受該時間縮放之該等訊框係經解碼之訊框。
  9. 如申請專利範圍第5項之方法,其中經接收之該等訊框於接收時是緩衝於一可變緩衝器,並自該可變緩衝器中擷取以進行解碼,且其中遭受該時間縮放之該等訊框係包含在該解碼中產生之一線性預測綜合濾波器激發信號之訊框。
  10. 一種用於控制聲頻信號之時間縮放的裝置,包含:包括一電路之一晶片,該電路組配來致使該裝置至少去執行下述步驟;或者一處理器及包括一軟體碼之一記憶體,該記憶體和該軟體碼係組配來配合該處理器致使該裝置至少去執行以下步驟:偵測一音訊信號之經接收的訊框之一延遲的一改變,該音訊信號係被分佈到經由一封包交換網路接收到之一序列訊框;決定被施加到經接收的該等訊框以彌補偵測到之一改變所需之時間縮放量;藉由評估延遲的該等訊框的量之至少一改變,以決定經偵測的改變之一類型;及決定一時間視窗之長度,在該長度內,將依據經決定之該改變之類型完成該所需量之一時間縮放量。
  11. 如申請專利範圍第10項之裝置,其中經決定之該改變類型是一種需要較短時間視窗用於決定之時間縮放量之類型,抑或是一種允許較長時間視窗用於決定之時間縮放量之類型。
  12. 如申請專利範圍第10項之裝置,其中該電路係進一步組配來或該記憶體及該軟體碼係進一步組配來配合該處理 器,致使該裝置藉一決定長度之時間視窗內之一決定量將經接收之該等訊框予以時間縮放。
  13. 如申請專利範圍第12項之裝置,其中該電路係進一步組配來,或該記憶體及該軟體碼係進一步組配來配合該處理器,致使該裝置去決定在該時間視窗內之該等訊框之內容類型,及防止在該時間視窗內具有一預定類型之內容的彼等訊框之一時間縮放。
  14. 如申請專利範圍第11項之裝置,其中該電路係進一步組配來或該記憶體及該軟體碼係進一步組配來配合該處理器,致使該裝置去決定需要一較短時間視窗之一改變的一類型是在至少以下的情況被給予,該情況是,一改變超出一預定值之一延遲改變、以及一延遲尖波被偵測到,當中的一種。
  15. 如申請專利範圍第11項之裝置,包含適於接收時緩衝經接收的該等訊框之一可變緩衝器,其中該電路係進一步組配來或該記憶體及該軟體碼係進一步組配來配合該處理器,致使該裝置去決定允許一較長時間視窗之一改變的一類型,是在至少一漸進式改變緩衝器佔用被偵測到的情況下,被給予。
  16. 如申請專利範圍第10項之裝置,其中該裝置係具有至少一晶片的一晶片組、一音訊接收器及一電子裝置之其中一者。
  17. 一種用於控制聲頻信號之時間縮放的系統,包括:組配來傳送音訊信號之一封包交換網路、組配來提供用於經由該封包交換網路傳送之音訊信號之一傳送器,及組配來經由該封包交換網路接收音訊信號之一接收器,該音訊信號係被分佈到一序列訊框;該接收器包括:包括一電路之一晶片,該電路組配來致使該接收器至少去執行下述動作;或者一處理器及包括一軟體碼之一記憶體,該記憶體及該軟體碼組配來配合該處理器致使該接收器至少去執行下述動作:偵測經接收的該等訊框的一延遲之一改變;決定施加到經接收的該等訊框以彌補一經偵測之改變所需的一時間縮放量;藉由評估延遲的該等訊框量之至少一改變決定一經偵測之改變之一類型;及決定一時間視窗之長度,在該長度內,將依據經決定之該改變之類型完成該所需之時間縮放量。
  18. 一種軟體程式產品,其中一軟體碼被儲存,其中該軟體碼於處理器執行時實施下列步驟:偵測經由一封包交換網路接收到之多個訊框之一延遲之改變,該等訊框屬於一音訊信號被分佈其中之一序列訊框;決定施加到經接收的該等訊框以彌補該經偵測之改變所需之一時間縮放量; 藉由評估延遲的該等訊框之量的至少一改變,決定該改變之一類型;及決定一時間視窗之長度,在該長度內,將依據該改變之決定類型完成該所需之時間縮放量。
  19. 如申請專利範圍第18項之軟體程式產品,其中經決定之該改變類型是一種需要較短時間視窗用於決定之時間縮放量之類型,抑或是一種允許較長時間視窗用於決定之時間縮放量之類型。
  20. 如申請專利範圍第18項之軟體程式產品,其中當軟體碼被處理器執行時,其實施一藉該決定長度之一時間視窗內之決定量以將所接收訊框予以時間縮放之後續步驟。
TW096104019A 2006-02-07 2007-02-05 用於控制聲頻信號之時間縮放的方法、裝置及系統 TWI480861B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/349,745 US8832540B2 (en) 2006-02-07 2006-02-07 Controlling a time-scaling of an audio signal

Publications (2)

Publication Number Publication Date
TW200807395A TW200807395A (en) 2008-02-01
TWI480861B true TWI480861B (zh) 2015-04-11

Family

ID=38037463

Family Applications (1)

Application Number Title Priority Date Filing Date
TW096104019A TWI480861B (zh) 2006-02-07 2007-02-05 用於控制聲頻信號之時間縮放的方法、裝置及系統

Country Status (10)

Country Link
US (1) US8832540B2 (zh)
EP (1) EP1982332B1 (zh)
KR (1) KR101002405B1 (zh)
CN (1) CN101379556B (zh)
AT (1) ATE463030T1 (zh)
DE (1) DE602007005605D1 (zh)
ES (1) ES2340545T3 (zh)
PT (1) PT1982332E (zh)
TW (1) TWI480861B (zh)
WO (1) WO2007091204A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983309B2 (en) 2007-01-19 2011-07-19 Nokia Corporation Buffering time determination
US20080222636A1 (en) * 2007-03-05 2008-09-11 David Tzat Kin Wang System and method of real-time multiple-user manipulation of multimedia threads
WO2012167479A1 (en) * 2011-07-15 2012-12-13 Huawei Technologies Co., Ltd. Method and apparatus for processing a multi-channel audio signal
US9420475B2 (en) * 2013-02-08 2016-08-16 Intel Deutschland Gmbh Radio communication devices and methods for controlling a radio communication device
WO2014202647A1 (en) 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Jitter buffer control, audio decoder, method and computer program
EP3321934B1 (en) * 2013-06-21 2024-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time scaler, audio decoder, method and a computer program using a quality control
US10700797B2 (en) 2017-07-07 2020-06-30 Nxp B.V. Signal processing using multiple sources
US10313416B2 (en) 2017-07-21 2019-06-04 Nxp B.V. Dynamic latency control

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW419645B (en) * 1996-05-24 2001-01-21 Koninkl Philips Electronics Nv A method for coding Human speech and an apparatus for reproducing human speech so coded
TW446935B (en) * 1999-10-26 2001-07-21 Elan Microelectronics Corp Method and apparatus of multi-channel voice analysis and synthesis
TW533405B (en) * 2000-11-22 2003-05-21 Vialta Inc Perceptual audio signal compression system and method
US20030105640A1 (en) * 2001-12-05 2003-06-05 Chang Kenneth H.P. Digital audio with parameters for real-time time scaling
WO2005117366A1 (ja) * 2004-05-26 2005-12-08 Nippon Telegraph And Telephone Corporation 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6512761B1 (en) * 1999-02-02 2003-01-28 3Com Corporation System for adjusting billing for real-time media transmissions based on delay
US6735192B1 (en) * 1999-09-29 2004-05-11 Lucent Technologies Inc. Method and apparatus for dynamically varying a packet delay in a packet network based on a log-normal delay distribution
KR100964437B1 (ko) 2004-08-30 2010-06-16 퀄컴 인코포레이티드 V o I P 용 적응성 디-지터 버퍼

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW419645B (en) * 1996-05-24 2001-01-21 Koninkl Philips Electronics Nv A method for coding Human speech and an apparatus for reproducing human speech so coded
TW446935B (en) * 1999-10-26 2001-07-21 Elan Microelectronics Corp Method and apparatus of multi-channel voice analysis and synthesis
TW533405B (en) * 2000-11-22 2003-05-21 Vialta Inc Perceptual audio signal compression system and method
US20030105640A1 (en) * 2001-12-05 2003-06-05 Chang Kenneth H.P. Digital audio with parameters for real-time time scaling
WO2005117366A1 (ja) * 2004-05-26 2005-12-08 Nippon Telegraph And Telephone Corporation 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
H. VALBRET, E. MOULINES, and J.P. TUBACH, VOICE TRANFORMATION USING PSOLA TECHNIQUE, IEEE International Conference,Vol. 1, 1992年, pp. I-145 - I-148. *

Also Published As

Publication number Publication date
US20070186145A1 (en) 2007-08-09
CN101379556A (zh) 2009-03-04
KR101002405B1 (ko) 2010-12-21
DE602007005605D1 (de) 2010-05-12
ES2340545T3 (es) 2010-06-04
EP1982332B1 (en) 2010-03-31
ATE463030T1 (de) 2010-04-15
EP1982332A1 (en) 2008-10-22
US8832540B2 (en) 2014-09-09
TW200807395A (en) 2008-02-01
PT1982332E (pt) 2010-05-06
CN101379556B (zh) 2012-11-14
KR20080083206A (ko) 2008-09-16
WO2007091204A1 (en) 2007-08-16

Similar Documents

Publication Publication Date Title
TWI480861B (zh) 用於控制聲頻信號之時間縮放的方法、裝置及系統
KR100964437B1 (ko) V o I P 용 적응성 디-지터 버퍼
JP4673411B2 (ja) 移動通信ネットワークにおける方法および装置
KR101121212B1 (ko) 통신 시스템에서 데이터 전송 방법
TWI439086B (zh) 顫動緩衝器調整技術
US20070263672A1 (en) Adaptive jitter management control in decoder
JP2006135974A (ja) 適応的バッファ遅延を有する音声受信機
US20070294087A1 (en) Synthesizing comfort noise
US20140172420A1 (en) Audio or voice signal processor
US20070201656A1 (en) Time-scaling an audio signal
EP2070294B1 (en) Supporting a decoding of frames
KR20140108119A (ko) 음성 복호 장치
US7983309B2 (en) Buffering time determination
US20070186146A1 (en) Time-scaling an audio signal