TWI470618B - 用以利用諧波鎖定技術修改音訊信號之裝置與方法 - Google Patents

用以利用諧波鎖定技術修改音訊信號之裝置與方法 Download PDF

Info

Publication number
TWI470618B
TWI470618B TW100105447A TW100105447A TWI470618B TW I470618 B TWI470618 B TW I470618B TW 100105447 A TW100105447 A TW 100105447A TW 100105447 A TW100105447 A TW 100105447A TW I470618 B TWI470618 B TW I470618B
Authority
TW
Taiwan
Prior art keywords
signal
bandpass
band pass
pitch
overtone
Prior art date
Application number
TW100105447A
Other languages
English (en)
Other versions
TW201142815A (en
Inventor
Sascha Disch
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of TW201142815A publication Critical patent/TW201142815A/zh
Application granted granted Critical
Publication of TWI470618B publication Critical patent/TWI470618B/zh

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/08Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/18Selecting circuits
    • G10H1/20Selecting circuits for transposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Networks Using Active Elements (AREA)
  • Amplitude Modulation (AREA)
  • Amplifiers (AREA)
  • Toys (AREA)

Description

用以利用諧波鎖定技術修改音訊信號之裝置與方法
依據本發明之實施例係有關於音訊處理及特別係有關於用以修改音訊信號之裝置及方法。
數位信號處理技術可解決極值信號需求來將預錄的,例如取自資料庫的音訊信號匹配成新的音樂脈絡,對此種技術的需求漸增。為了達成此項目的,需要調適高階語義信號,諸如音高、音樂音調及音階模式。全部此等操作的共通之處在於其係針對實質上變更原先音訊材料的音樂性質,同時仍然儘可能良好地保留主觀聲音品質。換言之,此等編輯強力改變音訊材料的音樂內容,但雖言如此,仍保有經處理的音訊樣本的自然及如此維持可靠性所需。如此,理想上要求可廣義地應用至不同類別信號包括複曲調混合音樂內容之信號處理方法。
今日已知多項用以修改音訊信號之構想。此等構想部分係基於聲碼器(vocoder)。
例如於「S. Disch及B. Edler,「用於音訊信號處理之調幅及調頻聲碼器」,國際數位音訊效果(DAFx)會議議事錄,2008年」、「S. Disch及B. Edler,「音訊信號之多頻帶知覺調變分析、處理與合成」,IEEE-ICASSP議事錄,2009年」或「S. Disch及B. Edler,「依據估算所得局部COG音訊信號頻譜之迭代重複分段演繹法則」,第12屆國際數位音訊效果會議(DAFx-09),2009年」,業已介紹調變聲碼器(MODVOC)構想,且已指出其對複曲調音樂內容施行有意義的選擇性轉調(transposition)之一般性能力。如此使得針對改變預錄PCM音樂樣本的音調模式之應用用途變可能(例如參考「S. Disch及B. Edler,「音訊信號之多頻帶知覺調變分析、處理與合成」,IEEE-ICASSP議事錄,2009年」)。也可購買可處理此種複曲調工作的第一市售軟體(西蒙尼公司(Celemony)出品的旋律聆(Melodyne)編輯器)。該軟體實現已經有品牌且藉術語直接音符存取(DNA)上市之一項技術。後來已經公開專利申請案(EP2099024,P. Neubacker,「用於複曲調聲音記錄之聽覺物件取向分析及音符物件取向處理之方法」,2009年9月)且推定其涵蓋因而揭示直接音符存取(DNA)之主要功能。與用以修改音訊信號之方法獨立無關,其係期望獲得具有高知覺品質之音訊信號。
本發明之目的係提供一種用以修改音訊信號之改良構想,其允許提高修改音訊信號之知覺品質。
此項目的係藉如申請專利範圍第1項之裝置、如申請專利範圍第14項之方法或如申請專利範圍第15項之電腦而獲得解決。
本發明之實施例提供一種用以修改一音訊信號之裝置包含一濾波器排組處理器、一基音(fundamental)測定器、一泛音(overtone)測定器、一信號處理器及一組合器。該濾波器排組處理器係經組配來基於一音訊信號而產生多個帶通信號。又,該基音測定器係經組配來選擇該等多個帶通信號中之一帶通信號而獲得一基音帶通信號。該泛音測定器係經組配來識別多個帶通信號中滿足有關所選基音帶通信號之泛音標準之一帶通信號,而獲得與該所選基音帶通信號相關聯之一泛音帶通信號。又,該信號處理器係經組配來基於一預先界定的修改目標而修改該所選基音帶通信號。此外,該信號處理器係經組配來依據該所選基音帶通信號之修改而來修改與該所選基音帶通信號相關聯之一經識別的泛音帶通信號。又,該組合器係經組配來組合該等多個帶通信號而獲得一修改音訊信號。
藉由識別基音頻率之泛音以及以對應基音之相同方式而修改泛音,可避免基音及其泛音的不同修改,因而比較原先音訊信號,可更準確地保有經修改之音訊信號的音質。藉此方式,經修改之音訊信號的知覺品質可顯著改良。舉例言之,期望選擇性音高轉調(例如將一給定音樂信號的曲調模式從C大調改成C小調)時,經識別的泛音帶通信號之修改係與基音帶通信號之修改有相關性。比較上,與基音帶通信號不同地,已知方法係修改帶通信號之表示泛音之頻率區。換言之,藉由使用所述構想,經識別的泛音帶通信號係鎖定於基音帶通信號。
於本發明之若干實施例,藉由比較基音帶通信號與多個帶通信號中之一帶通信號之頻率,藉由比較基音帶通信號與多個帶通信號中之一帶通信號之能含量及/或藉由評估基音帶通信號之一時間波封與多個帶通信號中之一帶通信號之時間波封的相關性,可識別一泛音帶通信號。藉此方式,可定義一或多項泛音標準來最小化錯誤泛音的識別。
依據本發明之若干實施例係有關於基音帶通信號之迭代重複測定及泛音帶通信號與該等多個帶通信號之識別。已經選擇的基音帶通信號及已經識別的泛音帶通信號可從搜尋空間去除,或換言之,可未考慮用於另一基音帶通信號或另一泛音帶通信號的測定。藉此方式,該等多個帶通信號之各個帶通信號可被選用作為一基音帶通信號(及因此可與其它基音帶通信號獨立無關地修改)或一泛音帶通信號(及因此可與相關聯之所選基音帶通信號獨立無關地修改)。
本發明之另一實施例提供一種用以修改一音訊信號之裝置包含一波封形狀測定器、一濾波器排組處理器、一信號處理器、一組合器及一波封整形器。該波封形狀測定器係經組配來基於表示一時域輸入音訊信號之一頻域音訊信號而測定波封形狀係數。又,該濾波器排組處理器係經組配來基於頻域音訊信號而產生多個在次頻帶域之帶通信號。該信號處理器係經組配來基於一預先界定之修改目標而修改該等多個次頻帶域帶通信號中之一個次頻帶域帶通信號。又,該組合器係經組配來組合含有該已修改之次頻帶域帶通信號之該等多個次頻帶域帶通信號之至少一子集而獲得一時域音訊信號。此外,該波封整形器係經組配來基於波封形狀係數而整形該時域音訊信號之一波封,基於波封形狀係數而整形含有該已修改之次頻帶域帶通信號之該等多個次頻帶域帶通信號之一波封,或在一次頻帶域帶通信號藉該信號處理器修改前,基於波封形狀係數而整形該等多個次頻帶域帶通信號之一波封來獲得一整形音訊信號。
藉由在多個次頻帶域帶通信號中的該頻域音訊信號分離前,測定該頻域音訊信號之波封形狀係數,可保留有關該音訊信號之頻譜相干性之資訊且可用來在一或多個次頻帶域帶通信號修改後,整形該時域音訊信號之波封。藉此方式,可更準確地保留該經修改之音訊信號之頻譜相干性,雖然只有數個(或只有一個)次頻帶域帶通信號係經修改或次頻帶域帶通信號係差異地修改,可能干擾該音訊信號之頻譜相干性。如此,可顯著改良經修改之音訊信號之知覺品質。
依據本發明之若干實施例係有關於一種經組配來基於第二預先界定的修改目標而修改該等多個次頻帶域帶通信號中之一第二次頻帶域帶通信號的信號處理器。該預先界定的修改目標係與第二預先界定的修改目標相異。雖然帶通信號係差異地修改,但由於在帶通信號之個別修改後進行波封整形,故可更準確地保留經修改之音訊信號之頻譜相干性。
圖式簡單說明
後文將參考附圖說明依據本發明之實施例之細節,附圖中:第1圖為用以修改音訊信號之裝置之方塊圖;第2圖為用以修改音訊信號之裝置之方塊圖;第3圖為用以修改音訊信號之方法之流程圖;第4圖為使用諧波鎖定而調變聲碼器之一部分之方塊圖;第5圖為用以修改音訊信號之方法之流程圖;第6a、6b、6c、6d圖為用以修改音訊信號之裝置之方塊圖;第7圖為濾波器排組處理器之方塊圖;第8圖為波封整形器之方塊圖;第9圖為具有波封整形之調變分析之示意說明圖;第10圖為具有波封整形之調變合成之示意說明圖;第11圖為用以修改音訊信號之方法之流程圖;第12圖為用以修改音訊信號之裝置之方塊圖;第13圖為調變分析之示意說明圖;第14圖為調變分析之實現之示意說明圖;第15圖為調變合成之示意說明圖;第16圖為對調變聲碼器成分之選擇性轉調之示意說明圖;第17圖為一種用以產生測試集合其係用於對調變聲碼器處理用於選擇性音高轉調工作的主觀品質的評估之程序之示意說明圖;第18圖為略圖指示絕對MUSHRA分數及收聽測試定址選擇性音高轉調之95%信賴區間;第19圖為略圖指示就調變聲碼器狀況之差異MUSHRA分數及收聽測試定址選擇性音高轉調之95%信賴區間;及第20圖為略圖指示就直接音符存取(DNA)狀況之差異MUSHRA分數及收聽測試定址選擇性音高轉調之95%信賴區間。
後文中,相同元件符號係部分用於具有相同或相似功能性質之物件及功能單元,及有關一幅圖式之敘述說明將也適用於其它圖式來減少實施例之詳細說明部分的冗餘。
較佳實施例之詳細說明
選擇性頻帶修改也稱作選擇性音高轉調例如可藉聲碼器或調變聲碼器實現。
多頻帶調變解碼(例如參考「S. Disch及B. Edler,「音訊信號之多頻帶知覺調變分析、處理與合成」,IEEE-ICASSP議事錄,2009年」)將音訊信號分割成分析適應性(分析)帶通信號,其個自進一步劃分成正弦載波及其調幅(AM)及調頻(FM)。帶通濾波器集合可經運算,使得一方面,全頻頻譜係無縫式覆蓋,而另一方面,例如濾波器係與總重心(COG)對齊。此外,人類聽覺可藉由選擇濾波器頻寬而匹配知覺音階,例如ERB音階加以考慮(例如參考「B. C. J. Moore及B. R. Glasberg,「威克氏響度模型之修正」,Acta Acustica,82期335-345頁,1996年」)。
舉例言之,局部重心(COG)係與收聽者因該頻率區的頻譜貢獻而所感知的平均頻率相對應。此外,取中(centered)在局部COG的頻帶可與傳統相角聲碼器之基於影響區的相角鎖定相對應(例如參考「J. Laroche及M. Dolson,「改良式音訊之相角聲碼器時間音階修改」,IEEE語音及音訊處理之變遷,第7卷第3期323-332頁,1999年」或「C. Duxbury、M. Davies及M. Sandler,「使用於瞬態的相角鎖定之改良式音樂音訊之時間音階」,第112屆AES會議,2002年」)。帶通信號波封表示型態及傳統影響區相角鎖定皆係保留帶通信號之時間波封:或為本質上地,或為在後述情況下,藉由於合成期間確保局部頻譜相角相干性。至於與估算得之局部COG對應的頻率之正弦載波,AM及FM皆係分別地被捕捉在分析帶通信號之振幅波封及外差(heterodynes)相角。專用合成方法允許從載頻AM及FM之輸出信號呈現。
信號分解成載波信號及其相關調變成分之可能實現1300之方塊圖係顯示於第13圖。該圖中顯示抽取多頻帶成分(帶通信號)中之一者的示意信號流程。全部其它成分係以類似方式獲得。首先,寬頻輸入信號x係饋至已經指派信號來適應性獲得一輸出信號之一帶通濾波器。其次,分析信號係依方程式(1)藉希伯特(Hilbert)變換而導出。
AM(調幅信號)係藉的振幅波封獲得,
而FM(調頻信號)係藉具有角頻率ωc 的穩態正弦載波外差的該分析信號之相角導數獲得。載頻係經測定為局部COG之估值。如此,FM可解譯為在載頻fc 之IF(瞬時頻率)變化。
例如,於專屬公開文獻描述前端濾波器排組之局部COG之估算及信號適應性設計(參考「S. Disch及B. Edler,「依據估算所得局部COG音訊信號頻譜之迭代重複分段演繹法則」,第12屆國際數位音訊效果會議(DAFx-09),2009年」)。
實際上,於離散時間系統,可如第14圖例示說明,對全部成分聯合地進行成分抽取。處理方案可支援即時運算。某個時間區塊的處理只取決於先前區塊的參數。如此,無需前瞻來維持總處理延遲儘可能地低。處理係使用例如離散富利葉變換(DFT)之75%分析區塊重疊及施用於各個開窗信號區塊而以逐一區塊基準運算。窗可為依據方程式(4)之平頂窗。如此確保前傳用以利用50%重疊的隨後調變合成之取中的N/2樣本係不受分析窗的裙裾影響。較高度重疊可用於改良準確度,但導致運算複雜度增高的犧牲。
給定該頻譜表示型態,其次,計算對齊局部COG位置的信號適應性頻譜帶通加權函數集合。於帶通加權施加至頻譜後,信號係移轉至時域,分析信號可藉希伯特變換導算。此二處理步驟可藉由對各帶通信號計算單邊IDFT而有效地組合。給定該離散時間帶通信號,藉方程式(3)來估算IF(瞬時頻率)係藉如方程式(5)定義之相角差分(phase differencing)相角實現,此處*表示複共軛(complex conjugate)。此一表示法係方便地使用,原因在於其避免相角含糊及因而避免相角展開的需求。
信號係基於全部成分的加法基礎合成。連續區塊係藉重疊-加法運算(OLA)攙混,其係藉連結機制控制。即便該等成分係實質上藉調變域處理變更,成分聯結確保相鄰區塊的邊界間的平滑變遷。連結確實只將前一區塊列入考慮,如此可能允許即時處理。連結大致上執行實際(actual)區塊成分的成對逐一匹配至其前一區塊的前驅者(predecessor)。此外,連結對齊實際區塊的絕對成分相角與前一區塊的絕對成分相角。對跨時間區塊並無匹配的成分分別施加漸強或漸弱。
對一個成分,處理鏈係顯示於第15圖。詳言之,首先將FM信號加至穩態載頻,及所得信號前傳至OLA階段,其輸出信號隨後進行時間性積分。由所得相角信號饋進正弦振盪器。AM信號係藉第二OLA階段處理。其次,振盪器的輸出信號在振幅上係藉AM信號調變而獲得該成分對輸出信號之加法貢獻。於最後步驟,全部成分之貢獻相加而獲得輸出信號y。
換言之,第13及14圖例示說明調變分析器1300。調變分析器1300較佳包含帶通濾波器1320a其提供帶通信號。此係輸入分析信號轉換器1320b。方塊1320b之輸出信號可用於計算AM資訊及FM資訊。為了計算AM資訊分析信號之振幅係藉方塊1320c計算。分析信號方塊1320b之輸出信號係輸入乘法器1320d,在其另一輸入端,乘法器1320d接收來自振盪器1320e之振盪器信號,其係藉帶通濾波器1320a之實際載波頻率fc 1310控制。然後,乘法器輸出信號之相角係於方塊1320f測定,瞬時相角係於方塊1320g差分來最終獲得FM資訊。此外,第14圖顯示產生音訊信號之DFT頻譜之前置處理器1410。
多頻帶調變分解將音訊信號分割成(分析)帶通信號之信號適應性集合,其各自又再分割成正弦載波及其調幅(AM)及調頻(FM)。帶通濾波器集係經運算使得一方面,全頻帶頻譜係無縫式地覆蓋,而另一方面,濾波器各自對齊局部COG。此外,人類聽覺可藉由選擇濾波器頻寬而匹配知覺音階,例如ERB音階加以考慮(例如參考「B. C. J. Moore及B. R. Glasberg,「威克氏響度模型之修正」,Acta Acustica,82期335-345頁,1996年」)。
局部COG係與收聽者因該頻率區的頻譜貢獻而所感知的平均頻率相對應。此外,取中在局部COG的頻帶可與傳統相角聲碼器之基於影響區的相角鎖定相對應(例如參考「J. Laroche及M. Dolson,「改良式音訊之相角聲碼器時間音階修改」,IEEE語音及音訊處理之變遷,第7卷第3期323-332頁,1999年」或「C. Duxbury、M. Davies及M. Sandler,「使用於瞬態的相角鎖定之改良式音樂音訊之時間音階」,第112屆AES會議,2002年」;「A. Robel,「相角聲碼器之變遷處理之新穎辦法」,國際數位音訊效果會議議事錄(DAFx),344-349頁,2003年」;「A. Robel,「相角聲碼器之變遷檢測及保留」,國際數位音訊效果會議議事錄(DAFx),247-250頁,2003年」)。帶通信號波封表示型態及傳統影響區相角鎖定皆係保留帶通信號之時間波封:或為本質上地,或為在後述情況下,藉由於合成期間確保局部頻譜相角相干性。至於與估算得之局部COG對應的頻率之正弦載波,AM及FM皆係分別地被捕捉在分析帶通信號之振幅波封及外差(heterodynes)相角。專用合成方法允許從載頻AM及FM之輸出信號呈現。
信號分解成載波信號及其相關成分之方塊圖係顯示於第12圖。圖中,顯示用以抽取一個成分之示意信號流程。全部其它成分係以類似方式獲得。實際上,藉由施加離散富利葉變換(DFT)至各個開窗信號區塊,使用例如以48千赫茲抽樣頻率及75%分析重疊,亦即粗略相當於340毫秒時間間隔及85毫秒跨幅的N=214 區塊大小,對在逐一區塊基礎上對全部成分聯合進行抽取。窗可為依據方程式(a)的「平頂」窗。如此可確保送至隨後調變合成的取中N/2樣本不受分析窗斜率的影響。較高度重疊可用來改良準確度,但造成運算複雜度增高之犧牲。
給定頻譜表示型態,其次可計算(以載波頻率估算或多重載波COG頻率估算表示,藉載頻測定器1330計算)對齊局部COG位置的信號適應性頻譜加權函數(具有帶通特性)集合。於施加帶通加權至頻譜後,信號變換至時域,分析信號係藉希伯特變換而導算出。此二處理步驟可藉由對各個帶通信號之單邊IDFT計算而有效地組合。隨後,各分析信號係藉其估算得之載波頻率而外差。最後,信號進一步分解成藉由運算相角導數所得的其振幅波封及其瞬時頻率(IF)而獲得期望的AM及FM信號(例如參考「S. Disch及B. Edler,「用於音訊信號處理之調幅及調頻聲碼器」,國際數位音訊效果(DAFx)會議議事錄,2008年」)。
適切地,第15圖顯示修改合成器1500亦即音訊信號之參數化表示型態之方塊圖。例如,優異的實現係基於在調變域,亦即在產生時域帶通信號前該域之重疊加法運算(OLA)。輸入信號可為位元串流,但也可直接連結至分析器或修改器,該輸入信號係分離成AM成分1502、FM成分1504及載頻成分1506。AM合成器較佳包含一重疊加法器1510,及此外,成分連結控制器1520其較佳不僅包含方塊1510同時也包含方塊1530,其為在FM合成器內部之重疊加法器。FM合成器額外地包含一頻率重疊加法器1530、一瞬時頻率積分器1532、一相角組合器1534其再度可實施為常規加法器,及一相移器1536其係可藉成分連結控制器1520控制來從一區塊至另一區塊再生常數相角,使得來自前一區塊的信號之相角係與實際區塊之相角連續。因此,可謂在元件1534、1536之相角加法係對應第13圖中方塊1520g在分析器端之差分期間損耗的常數之再生。從知覺域的資訊損耗觀點,須注意此乃唯一資訊損耗,亦即藉第13圖中差分裝置1320g導致的常數部分損耗。此一損耗可藉由將藉成分連結裝置1520測得之常數相角相加而予補償。
重疊加法(OLA)係施加於參數域,而非施加於業已合成的信號來避免相鄰時間區塊間的打擊效應。OLA係藉成分連結機制控制,該機制係藉頻率鄰近(以ERB音階量測)駕駁,執行實際區塊成分的成對逐一匹配至其前一區塊的前驅者。此外,連結對齊實際區塊的絕對成分相角與前一區塊的絕對成分相角。
詳言之,首先FM信號係加至載波頻率,及結果所得信號前傳至OLA階段,其輸出信號係隨後積分。正弦振盪器1540被饋以結果所得相角信號。該AM信號係藉第二OLA階段處理。最後,振盪器之輸出信號之振幅係藉結果所得AM信號調變1550而獲得該成分對輸出信號1560之加法貢獻。
須強調在調變分析內部,信號之妥當頻譜分段具有用於任何進一步調變參數處理之令人信服結果具有參數重要性。因此,此處描述適當分段演繹法則之一實例。
適切地,第16圖顯示用於複曲調模式變化應用之一實例1600。該圖顯示對調變聲碼器成分之選擇性轉調。載波頻率經量化成MIDI音符,其係對應至適當對應MIDI音符。藉由對映成分乘以原先載頻與修改後載頻之比,可保留相對FM調變。
音訊信號的轉調同時維持原先回放速度乃一項挑戰性工作。使用所擬議系統,此項目的係藉全部載波成分乘以常數因數而直接達成。由於輸入信號之時間結構單獨係藉AM信號捕捉,故不受載波頻譜間隔的伸展影響。
藉由選擇性處理可獲得又更有需求的效應。一塊音樂的音調模式可從例如小調轉成大調,或反之亦然。因此只有與某個預先界定的頻率區間對應的載波之一子集係對映至適當新值。為了達成此項目的,載波頻率係量化1670至MIDI音高,其隨後對映1672至適當新的MIDI音高(使用預先知曉的欲處理之音樂項目之模式及音調知識)。
然後,已對映之MIDI音符被逆轉換1574而來獲得用在合成的已修之載波頻率。不要求有專用的MIDI音符開始/偏移(onset/offset)檢測,原因在於時間特性主要係由未修改的AM表示,如此仍保留該時間特性。可定義任意對映表,允許在與其它小調流行風味(minor flavour)(例如諧波小調(和聲小調,harmonic minor))間互相轉換。
應用在音訊效果領域乃音訊信號之通用轉調。此項音訊效果要求的處理乃載波與常數轉調因數的單純乘法。也藉由FM乘以相同因數,對各成分,確保保留相對FM調變深度。因輸入信號之時間結構單純係藉AM信號捕捉,故不受處理影響。通用轉調朝向目標音調改變了原先音樂信號(例如C大調改成G大調),而仍然保留原先節奏(拍子,tempo)。
但由於所提示的調變分析之信號適應性本質,調變聲碼器具有超越此項工作的潛力。現在,即便複曲調音樂的所選成分之轉調已變成可行,允許例如改變給定音樂信號之音調模式應用(例如C大調改成C小調)(例如參考「S. Disch及B. Edler,「音訊信號之多頻帶知覺調變分析、處理與合成」,IEEE-ICASSP議事錄,2009年」)。此點為可能,原因在於各成分載波係緊密對應其頻譜區的知覺音高(perceived pitch)。若只有與某個原先音高相關的載波係朝向新目標值對映,則操縱由音調模式所測定的總音樂特性。
如前述,調變聲碼器(MODVOC)成分之所需處理係顯示在第16圖。在調變聲碼器(MODVOC)分解領域以內,載波頻率係經量化成MIDI音符,其隨後對映至適當相應的MIDI音符。為了有意義地重新指派MIDI音高及音符名稱,可能要求預先知曉原先音樂項目的模式及音調知識。全部成分之AM絲毫也不受影響,原因在於其不含音高資訊。
更明確言之,表示成分音高的成分載波頻率f 依據方程式6被轉換成MIDI音高值m ,此處f std 表示對應MIDI音高69,音符A0的標準音高。
隨後,MIDI音高被量化成MIDI音符n(f) ,及此外,測定各音符的音高偏移o(f) 。藉由利用依據音調、原先模式及目標模式之MIDI音符對映表,此等MIDI音符被變換成適當目標值n’。下表中,對C調從大調轉成自然小調當作對映實例。表顯示從C大調轉成C自然小調的音階模式變換之MIDI音符對映表。對映關係係適用於全部八度音階的音符。
最後,已對映的MIDI音符包括其音高偏移係被轉換回頻率f’來獲得用於合成的經修改的載波頻率(方程式7)。此外,為了保留相對FM調變深度,已對映成分之FM係乘以個別音高轉調因數,其係獲得為原先載波頻率與經修改之載波頻率之比。可能不要求專用MIDI音符開始/偏移檢測,原因在於時間特性主要係以未經修改的AM表示,因而保留時間特性。
所述調變聲碼器乃差異地修改音訊信號之不同頻率範圍(帶通信號)之一項可能,其係敘述為選擇性音高轉調。本發明構想允許加強此種經修改之音訊信號的知覺品質。雖然本發明構想之若干實施例係關聯聲碼器或調變聲碼器做描述,但也可一般性地用來與聲碼器之使用獨立無關地改良經修改之音訊信號的知覺品質。
第1圖顯示依據本發明實施例之用以修改音訊信號102之裝置100之方塊圖。裝置100包含濾波器排組處理器110、基音測定器120、泛音測定器130、信號處理器140及組合器150。濾波器排組處理器110係連結至基音測定器120、泛音測定器130及信號處理器140,以及基音測定器120係連結至泛音測定器130及信號處理器140。又,泛音測定器130係連結至信號處理器140,及信號處理器140係連結至組合器150。濾波器排組處理器110基於音訊信號102而產生多個帶通信號112。又,基音測定器選擇多個帶通信號中之一個帶通信號112而獲得基音帶通信號122。泛音測定器識別多個帶通信號中滿足有關所選基音帶通信號122之泛音標準的一個帶通信號112來獲得與該所選基音帶通信號122相關聯之泛音帶通信號132。又,信號處理器140基於預先界定的修改目標而修改所選基音帶通信號122。此外,一信號處理器140依據所選基音帶通信號122之修改而修改與所選基音帶通信號122相關聯之經識別的泛音帶通信號132。組合器150組合含有經修改的所選基音帶通信號及經修改且經識別的泛音帶通信號之多個帶通信號來獲得修改音訊信號152。
藉由以相同方式修改基音帶通信號122及與基音帶通信號122相關聯之經識別的泛音帶通信號132,可保有此等諧波之共通表現,但該等多個帶通信號中之其它帶通信號可以不同方式修改。藉此方式,可更準確地保有原先音訊信號102之音色,因此可顯著改良經修改之音訊信號的知覺品質。例如,大部分樂器激發由基音頻率部分及其和音所組成的和聲。若基音頻率部分須經修改,則根據所述構想之合音相關性修改可獲得經修改之音訊信號的顯著較佳的知覺品質。又,音訊信號可即時修改,原因在於可能不需要有關整個音訊信號(例如整個複曲調音樂名稱)的先前資訊。
例如音訊信號102可為時域輸入音訊信號或表示時域輸入音訊信號之頻域音訊信號。
基音測定器120可提供所選基音帶通信號122給信號處理器140用於修改,或可提供觸發信號122(例如所選基音帶通信號之指數i[0...I-1],其中I為多個帶通信號之帶通信號數目)來觸發信號處理器140,而依據預先界定的修改目標來修改該等多個帶通信號中之所選帶通信號。結果,泛音測定器130也提供經識別的泛音帶通信號132用來修改給信號處理器140,或可提供觸發信號132(例如指數指示該等多個帶通信號中之該帶通信號被識別為泛音帶通信號)來觸發信號處理器140而修改該等多個帶通信號中所識別的帶通信號。
泛音標準可包含識別基音之泛音的一項或多項規則。可有一項或多項欲滿足的泛音標準來將該等多個帶通信號中之一個帶通信號識別為所選基音帶通信號122之泛音。
預先界定之修改目標可與包含不同頻率範圍之帶通信號相異且可取決於音訊信號102之期望的修改。舉例言之,音訊信號之原先音調須朝向目標音調修改。係藉上表從C大調改成C自然小調的音調作為對應實例。舉例言之,若多個帶通信號中之一帶通信號的頻率範圍係與原先音符C相對應,目標音符也是C,使得此一帶通信號未經修改(但被識別為相關聯之基音帶通信號之泛音帶通信號係經修改)。此種情況下,修改目標係將此種帶通信號維持未經修改。另一方面,可修改多個帶通信號中包含與原先音符A相關聯的頻率範圍之一個帶通信號,使得經修改的帶通信號可含有與目標音符Ab相關的頻率範圍(但下述情況除外,依據另一個修改目標帶通信號被識別為欲修改的基音帶通信號之泛音帶通信號)。又,所識別之泛音帶通信號(包含與原先音符A之泛音相關頻率範圍之帶通信號)可經修改,使得經修改之泛音帶通信號包含與目標音符Ab之泛音相關聯之頻率範圍。
該等多個帶通信號中之全部帶通信號112可包含載波頻率。載波頻率可為由帶通信號所表示的或含有的頻率範圍之特性頻率,例如該頻率範圍之平均頻率、該頻率範圍之上切除頻率、下切除頻率或該帶通信號之頻率範圍的重心。帶通信號之載波頻率可與其它帶通信號之載波頻率彼此相異。此等載波頻率可由泛音測定器130用來識別泛音帶通信號。舉例言之,泛音測定器130可比較多個帶通信號之一帶通信號112之載波頻率與所選基音帶通信號122之載波頻率。由於泛音可能約略為基音頻率的倍數,若帶通信號112之載波頻率為所選基音帶通信號122之載波頻率的倍數(具有預定載波頻率公差,例如100 Hz、50 Hz、20 Hz或以下),則可滿足泛音標準。換言之,泛音標準可為帶通信號112之載波頻率為所選基音帶通信號122之載波頻率之倍數具有預先界定的載波頻率公差。
此外或另外,泛音測定器130可比較該等多個帶通信號之帶通信號112之能含量與所選基音帶通信號122之能含量。於本實例中,若帶通信號112之能含量對所選基音帶通信號122之能含量之比可於預先界定之能公差範圍,則可滿足泛音標準。泛音標準係考慮通常和音具有比基音更低的能量。預先界定的能公差範圍可為例如自0.3至0.9,自0..5至0.8,自0.6至0.7或其它範圍。此種基於能含量之泛音標準可組合前述基於載波頻率之泛音標準。
此外或另外,泛音測定器130可計算相關性值,指示多個帶通信號中之該帶通信號112之時間波封與所選基音帶通信號122之時間波封之相關性。此種情況下,若相關性值係高於預先界定的相關性臨界值,則可滿足泛音標準。此種泛音標準考慮實際上基音及其和音共享相當類似的時間波封。預先界定的相關性臨界值可為例如0.2、0.3、0.4或以上。所述基於相關性之泛音標準可組合前述基於載波頻率之泛音標準及/或基於能含量之泛音標準。
基音測定器120可選擇該等多個帶通信號中之又一帶通信號112而未考慮全部已選擇之基音帶通信號122及全部已識別之泛音帶通信號132。換言之,基音測定器120可從帶通信號之一個集合中選出迭代重複的基音帶通信號,其含有非為已經選定之基音帶通信號及已經識別之泛音帶通信號132之帶通信號。如此進行直到多個帶通信號中之全部帶通信號可選擇作為基音帶通信號或識別作為基音帶通信號之泛音為止。結果,泛音測定器130可識別該等多個帶通信號中滿足有關進一步選出的基音帶通信號之帶通信號112,而未考慮全部已經識別之泛音帶通信號也未考慮全部已經選擇的基音帶通信號122。
又,信號處理器140可基於進一步預先界定之修改目標來修改進一步經選定的基音帶通信號122,而與全部其它所選擇的基音帶通信號獨立無關。換言之,對各個基音帶通信號或對所選基音帶通信號中之一部分可界定不同的修改目標。例如,修改目標可由指示從一個音調音符變換至另一個音調音符之前文指示之表界定。由於基音帶通信號可彼此獨立無關地修改,又選擇性地,只有特定樂器的基音及和音可經修改來改變此種樂器的音調模式或響度。
帶通信號112可藉基音測定器120基於能標準而選擇。例如,具有最高能含量或最高能含量中之一者(高於其它帶通信號中之70%或以上)之帶通信號可經選擇。於本實例中,已經選定的基音帶通信號可藉由設定能含量參數指示所選基音帶通信號之能含量係等於零,而從進一步選擇中排除。為了選擇帶通信號112,各帶通信號之能含量(例如藉基音測定器所測得之能含量參數指示)可經加權(例如藉a-加權)而強調知覺上重要的帶通信號之選擇。
信號處理器140可以多種方式修改所選基音帶通信號132及相關聯之泛音帶通信號132。舉例言之,經由所選基音帶通信號122之載波頻率乘以轉調因子(例如取決於音調模式改變)或經由將轉調頻率加至所選基音帶通信號122之載波頻率,信號處理器140可修改所選基音帶通信號122。又,經由將經識別的帶通信號132之載波頻率乘以轉調因子(例如20%、10%、5%、1%或以下之公差)或經由將轉調頻率之倍數(例如具有20%、10%、5%、1%或以下之公差)加至經識別的泛音帶通信號132之載波頻率,信號修改器140可修改經識別之泛音帶通信號。換言之,經由將基音及相關聯的和音乘以相同轉調音子或將轉調頻率加至基音以及將轉調頻率之倍數加至泛音,可實現音調模式改變。藉此方式所識別之泛音帶通信號132係依據(以相同方式)所選基音帶通信號122而修改。
第2圖顯示根據本發明之一實施例用以修改音訊信號102之裝置200之方塊圖。裝置200係類似第1圖所述之裝置,但額外包含載頻測定器260,及濾波器排組處理器110包含濾波器排組212及信號轉換器214。濾波器排組212係連結至信號轉換器214及信號轉換器214係連結至信號處理器140。選擇性地,載頻測定器260係連結至濾波器排組處理器110及信號處理器140之濾波器排組212。
濾波器排組212可基於音訊信號102而產生帶通信號,及信號轉換器214可將所產生的帶通信號轉成次頻帶域而獲得提供給基音測定器120、泛音測定器130及信號處理器140之多個帶通信號。信號轉換器214例如可呈單邊離散富利葉反變換單元實現,使得該等多個帶通信號中之各個帶通信號112可表示一個分析信號。此種次頻帶域中,基音測定器120可從多個帶通信號中選出此等次頻帶域帶通信號中之一者來獲得基音帶通信號122。又,泛音測定器可識別該等多個帶通信號中之此等次頻帶域帶通信號中之一者。
此外,載頻測定器260可基於音訊信號102而測定多個載波頻率,及濾波器排組處理器110之濾波器排組212可產生帶通信號,使得各個帶通信號包含含有該等多個載波頻率中之不同載波頻率262之一頻率範圍,來獲得與該等多個載波頻率中之各個載波頻率262相關聯之一帶通信號。換言之,由濾波器排組212所產生之帶通信號之頻寬及平均頻率可藉載頻測定器260控制。可以多種方式進行,例如如前述,計算音訊信號102之重心(COG)。
如前文已經敘述,帶通信號112可以多種方式修改。舉例言之,信號處理器140可對該等多個帶通信號中之各個帶通信號112產生一調幅信號(AM)及一調頻信號(FM)。由於各個帶通信號表示在次頻帶域中之分析信號,信號處理器140可如前文關聯調變聲碼器(舉例)所述而產生調幅信號及調頻信號。又,信號處理器140可基於預先界定的修改目標而修改所選基音帶通信號122之調幅信號及調頻信號,以及可依據所選基音帶通信號122之修改而修改與該所選基音帶通信號122相關聯之經識別的泛音帶通信號132之調幅信號或調頻信號。
濾波器排組處理器110、基音測定器120、泛音測定器130、信號處理器140、組合器150及/或載頻測定器260例如可為數位信號處理器、電腦或微控制器之個別硬體單元或部件,以及可為組配來在數位信號處理器、電腦或微控制器上跑,電腦程式或軟體產品。
依據本發明之若干實施例係有關一種依據本發明之實施例修改音訊信號之方法300。方法300包含基於一音訊信號產生310多個帶通信號,及選擇320多個帶通信號中之一帶通信號來獲得基音帶通信號。又,方法300包含識別330多個帶通信號中滿足有關所選基音帶通信號之泛音標準的一個帶通信號來獲得與該所選基音帶通信號相關聯之泛音帶通信號。又,所選基音帶通信號係基於預先界定之修改目標而修改340,及與該所選基音帶通信號相關聯之經識別的泛音帶通信號係依據所選基音帶通信號之修改而修改350。又,該方法300可包含組合360含有經修改之所選的基音帶通信號及經修改且經識別的泛音帶通信號之多個帶通信號來獲得經修改之音訊信號。
選擇性地,方法300可包含表示前述及後文陳述之本發明構想之選擇性特徵。
後文中,所述構想係以使用調變聲碼器來實施的實例舉例說明,但所提示之構想也可更一般性地用於其它實施例。
大部分樂器激發由基音頻率部分所組成的和聲,而其和音約略為該基音頻率的整數倍數。由於音樂間隔遵守對數音階,各個和音泛音相對於基音(及其八度音階)彷彿一個不同的音樂區間。下表列舉和音數目及對頭七個和音之音樂區間的對應關係。該表也顯示就基音及其八度音階而言的和音數目及相關音樂區間。
如此,於複曲調音樂內容的選擇性轉調工作中,就MODVOC成分之音樂函數具有特有的混淆。若源自於基音的成分根據期望的音階對映被需轉調,或若由欲歸因於基音的和音所主控,則必需連同此一基音一起轉調,以便最佳保有原先音調的音色。由此處產生需要對各個MODVOC成分(帶通信號)做指派來選擇最適當的轉調音子。
為了達成此項目的,先前介紹的簡單處理方案係藉諧波鎖定功能加以延伸。諧波鎖定檢驗轉調前全部MODVOC成分是否一個成分(帶通信號)係歸因於基音,或將視為獨立的實體。如此可藉迭代重複演繹法則進行。此種演繹法則之流程可顯示於第5圖。演繹法則評估510測試成分t(基音帶通信號)相對於全部其它藉指數i E[0...I-1]\t檢索的成分(帶通信號之頻率比、能比及波封交叉相關性,I表示成分整數(多個帶通信號之帶通信號數目)。於疊積期間測試成分(基音帶通信號)之連續性係由其A-加權能測定520,使得評估順序係在能量遞減的順序。A-加權(ANSI,「Ansi標準sl.4-1983」,1983),(ANSI,「Ansi標準sl.42-2001」,2001)應用來以其響度而模型化各個成分的知覺凸顯(例如參考「H. Fletcher及W.A. Munson,「響度,其定義,量測與計算」,J. Acoust Soc Amer.,vol. 5,pp.82-108,1933.」)。
藉由測定臨界值可檢查諧波載波頻率匹配、諧波載波頻率不匹配、成分能及/或於零-延遲的標準化振幅波封相關性。
頻率匹配及頻率不匹配可根據方程式8定義,ft 為測試成分載波頻率(所選基音帶通信號之載波頻率)及fi 為具有指數i之成分(多個帶通信號中之一帶通信號)。對頻率匹配,全部大於1之乘數皆為可能的和音。對可能和音所容許的頻率不匹配的適當臨界值(載波頻率臨界值)為例如22 Hz。
匹配i =近似
不匹配i =|fi -(匹配i ‧ft )| (8)
和音相對於基音之a-加權成分能比(方程式9)可能要求小於預先界定的臨界值,反映出實際上對大部分樂器而言,和音具有比基音更低的能。適當臨界值(能公差範圍)例如為0.6之比。
測試成分envt 之波封與具有指數i之成分之波封envi 之標準化零延遲交叉相關性係以方程式10定義。如此測量探勘下述事實,基音及其和音共享在區塊長度M以內的相當類似的時間波封。藉由非正式實驗適當臨界值(相關性臨界值)測定為0.4。
檢查後,滿足570全部臨界值條件的全部成分i被標記580作為相對於測試成分欲鎖定的和音,及隨後從搜尋當中被移除。其次,藉由設定542其能為零,測試成分也從額外疊積當中被排除。演繹法則重複直到全部成分皆已經被指派且係以最大成分能為零指示為止。
第4圖顯示藉MODVOC結合諧波鎖定之選擇性轉調之經加強的處理方案。與第16圖相反,只有未經鎖定的成分進入轉調階段,而經鎖定的成分係在第二階段藉已經施加至其貢獻基音的相同轉調因子修改。
換言之,第5圖顯示所述諧波鎖定之流程圖(用以修改音訊信號之方法500)。匹配測試基音(所選基音帶通信號)之和音條件的成分係迭代重複標記及從搜尋空間移開。為了達成此項目的,多個帶通信號中之各個帶通信號包含載波頻率、能量含量、及時間波封或載波頻率,能量含量及/或時間波封(時間波封參數)係對多個帶通信號中各個帶通信號測定510。又,各個帶通信號之能含量(能含量參數)係經a-加權520。如此,選擇530包含最大能(能含量參數)之基音帶通信號(測試基音ft )。由於全部已經選出的基音帶通信號皆設定為零,及全部經識別的泛音帶通信號係從搜尋空間排除,故所選基音帶通信號可包含能含量參數等於零,因此迭代重複演繹法則停止540在此點。否則,比較560多個帶通信號中之所選基音帶通信號與其餘帶通信號間之頻率匹配(或不匹配)、能含量及/或時間波封交叉相關性。若滿足一項、部分或全部條件(泛音標準),則個別帶通信號被識別580為泛音帶通信號,可產生諧波鎖定資料(例如將所識別的帶通信號之指數儲存在泛音表單),以及所識別的泛音帶通信號係從搜尋空間移除。有關相關聯之所選基音帶通信號之諧波鎖定信號可儲存590。識別全部所選基音帶通信號之泛音帶通信號後,所選基音帶通信號之能(能含量參數)設定592為零,及選出530包含最高能的下一個基音帶通信號。
信號處理器可使用諧波鎖定資料用來修改帶通信號。可能的實施例顯示於第4圖。於本實施例中,例如信號處理器包含MIDI對映器1600及泛音修改器400。MIDI對映器1600可依據個別修改目標(也可包括未經修改的基音帶通信號)而修改各個所選基音帶通信號之載波頻率。MIDI對映器1600例如可如第16圖所顯示及說明而實現。泛音修改器400可包含泛音修改控制器410、泛音乘法器420及泛音修改提供器430。泛音修改控制器410可連結至泛音乘法器420及泛音修改提供器430,及泛音乘法器420可連結至泛音修改提供器430。泛音乘法器420可將經識別之泛音帶通信號之載波頻率f乘以與相關聯之基音帶通信號所乘的相同轉調因子(具有前述公差),且可提供經修改的載波頻率f’給泛音修改提供器430。若泛音修改器400識別該載波頻率為經識別的泛音帶通信號之載波頻率(例如基於諧波鎖定資料),則泛音修改控制器410可觸發泛音修改提供器430來提供經識別之泛音帶通信號的經修改之載波頻率。否則泛音修改提供器430可提供MIDI對映器1600之輸出信號。又,第4圖顯示於聲碼器所提示之構想實施,使得除了帶通信號之載波頻率外,相對應之調頻信號(FM)係藉乘以修改前載波頻率對已修改之載波頻率之比加以修改。另外,對頻率修改或除了頻率修改之外,音訊信號之響度可經帶通信號選擇性修改。為了達成此項目的可修改帶通信號之調幅信號(AM)。
換言之,第4圖顯示使用諧波鎖定而對調變聲碼器成分(帶通信號)之加強選擇性轉調(依據相關聯之基音帶通信號的修改而修改所識別之泛音帶通信號)。唯有未經鎖定的載波頻率(然後可為基音帶通信號)被量化至MIDI音符,該等MIDI音符係對映至適當相對應的MIDI音符(依據個別修改目標)。經鎖定的成分(經識別的泛音帶通信號)可藉乘以貢獻基音(相關聯基音帶通)之原先載波頻率與修改載波頻率之比而轉調。
第6a圖顯示依據本發明之實施例用以修改音訊信號之裝置600之方塊圖。裝置600包含一波封形狀測定器610、濾波器排組處理器620、信號處理器630、組合器640及波封整形器650。波封形狀測定器610係連結至波封整形器650,濾波器排組處理器620係連結至信號處理器630,信號處理器630係連結至組合器640,及組合器640係連結至波封整形器650。波封形狀測定器610係基於表示時域輸入音訊信號之頻域音訊信號602而測定波封形狀係數612。又,濾波器排組處理器620基於頻域音訊信號602而產生多個在次頻帶域之帶通信號622。信號處理器630基於預先界定的修改目標而修改多個次頻帶域帶通信號。又,組合器640組合該等多個次頻帶域帶通信號中之至少一個子集(例如含有經修改的次頻帶域帶通信號)來獲得時域音訊信號642。波封整形器650基於波封形狀係數612整形時域音訊信號642之波封來獲得整形音訊信號652。
另外,波封整形器650可定位在信號處理器630與組合器640間(信號處理器630係連結至波封整形器650,及波封整形器650係連結至組合器640),且可基於波封形狀係數612而整形該等多個含有經修改之次頻帶域帶通信號之次頻帶域帶通信號的波封。
在音訊信號為經選擇性處理的帶通信號之前,經由抽取612,及於修改一或多個帶通信號後藉由使用波封形狀係數612來整形音訊信號波封,可更準確地保有經差異修改的帶通信號之頻譜相干性。又,特別對瞬時信號,隨著時間經過而展開的量化雜訊也可藉波封整形器650整形。藉此方式,經修改的音訊信號之知覺品質顯著改良。又,音訊信號可即時修改,原因在於無需有關整個音訊信號(例如整個複曲調音樂名稱)的前置資訊。
又另外,波封整形器650可位在信號處理器630與濾波器排組處理器620間(濾波器排組處理器620連結至波封整形器650及波封整形器650係連結至信號處理器630),及可在次頻帶域帶通信號藉信號處理器630修改而獲得整形音訊信號652之前,基於波封形狀係數612而整形多個次頻帶域帶通信號之波封。
在音訊信號為選擇性處理的帶通信號前經由抽取波封形狀係數612及於次頻帶域藉濾波器排組處理器620而產生多個帶通信號622後,經由使用波封形狀係數612來整形多個帶通信號622的波封,可實現適應性濾波器排組,其特別對瞬時信號可提供局部相干性(例如參考「J. Herre及J. D. Johnston,「高品質知覺音訊編碼之連續信號-適應性排組」,IEEE ASSP對信號處理應用於音訊及聲學工作坊,蒙哈克,1997年」)。此種情況下,不只是經修改的信號(或修改帶通信號)經整形,同時在修改之前以暫態複製表示而產生的帶通信號品質增高。
頻域音訊信號602例如可從前置處理器基於時域輸入音訊信號產生頻域音訊信號602而提供(例如藉離散富利葉變換),或可從儲存單元提供。藉波封形狀測定器610測定的波封形狀係數612例如可為將頻域音訊信號602的頻譜參數化之線性預測係數或其它係數。
信號處理器630可修改多個次頻帶域帶通信號中之一個、部分或全部次頻帶域帶通信號622。例如對全部或對部分次頻帶域帶通信號,預先界定的目標可不同。例如為了改變音訊信號的音調模式,次頻帶域帶通信號之經預先界定的修改目標可如前文關聯上表所述定義。
頻域音訊信號602可包含例如藉富利葉變換所得頻譜線。頻域音訊信號(也可假設為帶通信號)之頻譜線與藉濾波器排組處理器620產生的帶通信號間之差異可為頻域音訊信號602之頻譜線標示的頻寬比由濾波器排組處理器620所產生之次頻帶域帶通信號622所表示的頻寬更窄。例如,頻域音訊信號602指示藉離散富利葉變換所得之頻譜,其係藉濾波器排組處理器620而劃分成多個帶通信號,其中多個帶通信號之帶通信號數目(例如10、16、20或以上)係顯著少於頻譜之頻譜值或頻譜線數目(例如512或以上頻譜值)。
波封形狀測定器610可基於頻域音訊信號602之整個頻率預測而測定波封形狀係數,例如可如同前文對線性預測係數測定所述之方式而實現。
濾波器排組處理器620可提供多個帶通信號,各個帶通信號622表示頻域音訊信號602之特定頻率範圍。另外,濾波器排組處理器620可包含預測濾波器710、信號減法器720及濾波器排組730來基於殘差音訊信號722而獲得多個帶通信號622,如第7圖所示。為了達成此項目的,預測濾波器710可基於頻域音訊信號602及波封形狀係數612(例如線性預測濾波器)而產生預測音訊信號712。又,信號減法器720可從頻域音訊信號602扣除預測音訊信號712來獲得殘差音訊信號722。此種殘差音訊信號722可由濾波器排組730用來產生帶通信號而獲得多個帶通信號。
又,濾波器排組處理器620可包含選擇性信號轉換器。此種信號轉換器(例如單邊離散富利葉反轉換器)可將藉濾波器排組730所產生的帶通信號轉換至次頻帶域來獲得多個帶通信號622。另外,信號轉換器也可構成信號處理器630之一部分。
於依據本發明之若干實施例中,輸入音訊信號之低頻部分可從可能的修改排除,來避免在已修改之音訊信號的低頻部分產生假影(artifacts)。為了達成此項目的,用以修改音訊信號之裝置680可包含高通/低通濾波器,例如第6b圖所示。高通/低通濾波器660高通濾波時域輸入音訊信號或表示該時域輸入音訊信號之頻域信號,使得波封形狀測定器610基於頻域音訊信號602而測定波封形狀係數612,及濾波器排組處理器620基於高通頻域音訊信號602而產生多個在次頻帶域的帶通信號622。又,高通/低通濾波器660低通時域輸入音訊信號或表示該時域輸入音訊信號之頻域音訊信號來獲得低通音訊信號662。又,裝置680包含全頻帶信號提供器670,其係組配來組合整形音訊信號652及低通音訊信號662而獲得全頻帶音訊信號。換言之,高通/低通濾波器660可將時域輸入音訊信號或表示該時域輸入音訊信號之頻域音訊信號分開成高通音訊信號及低通音訊信號。高通音訊信號或高通音訊信號之頻域表示型態可提供給波封形狀測定器610及濾波器排組處理器620。如此係取決於高通/低通濾波器是否係在時域實施,接著信號前置處理器產生基於該高通音訊信號之頻域音訊信號,或該高通/低通濾波器係在頻域實施,已經接收表示該時域輸入音訊信號之頻域音訊信號。
高通/低通濾波器660可濾波該時域輸入音訊信號或表示該時域輸入音訊信號之頻域音訊信號,使得低通音訊信號含有高達預先界定的臨界值頻率(例如100 Hz或以上)之頻率。結果,高通音訊信號可包含低抵預先界定的臨界值頻率之頻率。換言之,大於預先界定的臨界值頻率之頻率可藉高通/低通濾波器660衰減用來提供低通音訊信號662;及低於該預先界定的臨界值頻率之頻率可藉高通/低通濾波器660衰減用來提供該高通信號。
另外,波封整形器650係位在信號處理器630與組合器640間,如第6c圖所示。此種情況下,高通/低通濾波器660提供低通音訊信號給組合器640。組合器640組合含有經修改的次頻帶域帶通信號之多個次頻帶域帶通信號及該低通音訊信號662來獲得一時域音訊信號642。此種情況下,波封整形器650可對各個與個別次頻帶域帶通信號相對應之次頻帶域帶通信號(例如對應於個別次頻帶域帶通信號所含頻率區),基於波封形狀係數612測定帶通波封形狀係數之集合(例如藉係數轉換器810)。然後例如,次頻帶域帶通信號之各個時間樣本可乘以該相對應波封形狀係數集合的帶通波封形狀係數。例如,於第15圖所示聲碼器之實施例,波封整形器650可位在乘法器1550與組合器1560間。
又另外,波封整形器650可位在信號處理器630與濾波器排組處理器620間(濾波器排組處理器620係連結至波封整形器650及波封整形器650係連結至信號處理器630)且可在次頻帶域帶通信號藉信號處理器630修改前,基於波封形狀係數612而整形該等多個次頻帶域帶通信號之波封來獲得整形音訊信號652。
於根據本發明之若干實施例中,輸入音訊信號之低頻部分可從波封整形排除來避免在修改音訊信號之低頻部分產生假影。為了達成此項目的,用以修改音訊信號之裝置680可包含高通/低通濾波器,例如第6d圖所示。高通/低通濾波器660高通濾波時域輸入音訊信號或表示該時域輸入音訊信號之頻域音訊信號。又,高通/低通濾波器660低通濾波時域輸入音訊信號或表示該時域輸入音訊信號之頻域音訊信號來獲得低通音訊信號662。波封形狀測定器610基於高通頻域音訊信號602而測定波封形狀係數612,而未考慮低通音訊信號622。濾波器排組處理器620基於高通頻域音訊信號602及低通音訊信號622而產生在次頻帶域的多個帶通信號622。若使用預測濾波器,例如第7圖所示,則只有高通頻域音訊信號602提供給預測濾波器及信號減法器來產生高通殘差音訊信號。低通音訊信號622可直接提供給濾波器排組用來產生次頻帶域帶通信號。信號處理器630可修改與該高通頻域音訊信號602或低通音訊信號622相對應之次頻帶域帶通信號。另外,信號處理器630可修改與該高通頻域音訊信號602相對應之次頻帶域帶通信號及與該低通音訊信號622相對應之次頻帶域帶通信號。組合器640可只組合與高通頻域音訊信號602相對應之次頻帶域帶通信號,因此只有與高通頻域音訊信號602相對應之次頻帶域帶通信號(而非與低通音訊信號622相對應之次頻帶域帶通信號)可藉波封整形器650整形。
又,裝置680包含全頻帶信號提供器670,其係組配來組合整形音訊信號652及與低通音訊信號662相對應之次頻帶域帶通信號而獲得全頻帶音訊信號。為了達成此項目的,信號處理器630可將與低通音訊信號662相對應之次頻帶域帶通信號提供給全頻帶信號提供器670。
另外,波封整形器650係位在信號處理器630與組合器640間。此種情況下,信號處理器630可提供與低通音訊信號662相對應之次頻帶域帶通信號給組合器640。組合器640組合含有經修改的次頻帶域帶通信號之多個次頻帶域帶通信號(與低通音訊信號662相對應之次頻帶域帶通信號及與高通頻域音訊信號602相對應之次頻帶域帶通信號)而獲得時域音訊信號642。此種情況下,波封整形器650可對與高通頻域音訊信號602相對應之次頻帶域帶通信號之個別次頻帶域帶通信號相對應的各個次頻帶域帶通信號(例如對應於由個別次頻帶域帶通信號所含頻域),基於波封形狀係數612測定帶通波封形狀係數集合(例如藉波封形狀測定器610)。然後例如次頻帶域帶通信號的各個時間樣本可乘以相對應波封形狀係數集合之一帶通波封形狀係數。例如,於第15圖所示聲碼器實施例中,波封整形器650可位在乘法器1550與組合器1560間。
又另外,波封整形器650可位在信號處理器630與濾波器排組處理器620間(濾波器排組處理器620可連結至波封整形器650及波封整形器650可連結至信號處理器630),且可在次頻帶域帶通信號藉信號處理器630修改前,基於波封形狀係數612而整形與高通頻域音訊信號602相對應之次頻帶域帶通信號之波封來獲得整形音訊信號652。
就此方式,輸入音訊信號之低頻部分可免除波封整形。但低頻部分送至接受其餘處理(例如次頻帶域帶通信號之修改)。又,預測濾波器(例如第7圖所示)可只應用在預定臨界值頻率以上。另外,若高通/低通分離已經在分析端實施,則高通信號波封可在該時域藉波封形狀係數的倒數修改。
例如,用於選擇性轉調應用,所示位置可提供與處理後之位置相等結果,原因在於AM可能未經修改。
依據一個面相,波封整形器650可測定頻域音訊信號602之能含量E FDAS 與殘差音訊信號722之能含量E RAS 之能比。基於此能比,若能比係基於預先界定的能臨界值PET(0.1,0.2,0.5,0.8,1,2或甚至更多或更少),波封整形器650可中斷時域音訊信號642之波封的整形。
換言之,從事波封整形可依據預測的良好情況而適應性地啟動信號或切斷信號。預測的良好情況可藉預測增益測量,預測增益可定義為信號(頻域音訊信號)與預測誤差(殘差音訊信號)之能比。若時域音訊信號642之波封整形被中斷,則整形音訊信號652可等於組合器640所提供的時域音訊信號642。
波封整形器650可以多種方式實施。一個實例係顯示於第8圖。波封整形器650可包含係數轉換器810及乘法器820。係數轉換器810可將波封形狀係數612變換成時域,使得已轉換之波封形狀係數812可乘以時域音訊信號642來整形時域音訊信號的時間波封及獲得整形音訊信號652。如此可藉乘法器820達成。舉例言之,時域音訊信號642之一時間區塊含有512個(或以上)時間樣本,及係數轉換器810可提供512個(或以上)已轉換之波封形狀係數812用來將各個時間樣本乘以已轉換之波封形狀係數812。
如前文已述,裝置600可以不同方式修改不同次頻帶域帶通信號。更加概略言之,如此表示信號處理器630可基於第二或進一步預先界定的修改目標來修改該等多個次頻帶域帶通信號中之第二個或額外次頻帶域帶通信號622。前文已述或第一預先界定的修改目標及進一步或第二預先界定修改目標可不同。
於若干實施例,所述構想可連結聲碼器或調變聲碼器使用。此種情況下,信號處理器630可對多個次頻帶域帶通信號之各個次頻帶域帶通信號622產生調幅信號(AM)及調頻信號(FM)。又,信號處理器630可基於預先界定的修改目標而修改該欲修改的次頻帶域帶通信號之調幅信號或調頻信號。
又,裝置600可包含如前文已經對裝置200說明且顯示於第2圖之選擇性的載波頻率測定器。載波頻率測定器可基於頻域音訊信號602而測定多個載波頻率。此等所測定的載波頻率可由濾波器排組處理器620使用,或於第7圖所示實施例中藉濾波器排組處理器620之濾波器排組730用來產生次頻帶域帶通信號,使得各個次頻帶域帶通信號包含含有多個載波頻率中之一個不同載波頻率之頻率範圍而獲得與該等多個載波頻率之各個載波頻率相關聯之一次頻帶域帶通信號。例如可藉由如前文說明測定頻域音訊信號之重心而完成。
波封形狀測定器610、濾波器排組處理器620、信號處理器630、組合器640及/或波封整形器650例如可為個別硬體單元或數位信號處理器之一部分、組合器或微控制器以及經組配來在數位信號處理器、電腦或微控制器上跑的電腦程式或軟體產品。
依據本發明之若干實施例係有關調變聲碼器之所述構想之實施例。用於本實例,該構想之進一步細節說明如下。所述特徵也可用在其它實施例或其它應用。
前文陳述MODVOC處理保留環繞載波位置之帶通區的頻譜相干性。但並未保留寬頻通用頻譜相干性。對於準穩態信號,可能對於合成信號之知覺品質只有微小影響。若信號含有顯著瞬時信號,例如擊鼓或響板,則通用相干性的保留可大為改良此等信號的重製品質。
藉由頻域之線性預測可改良通用相干性的保留。某些辦法被用在音訊編解碼器,例如利用時間雜訊整形(TNS)工具(例如參考「J. Herre及J. D. Johnston,「經由使用時間雜訊整形(tns)增強知覺音訊編碼器的效能」,第101屆AES會議,洛杉磯,no. Preprint 4384,1996。」)於MPEG 2/4進階音訊編碼(AAC)。於「J. Herre及J.D. Johnston,「用於高品質知覺音訊編碼之連續信號適應性濾波器排組」,IEEE ASSP信號處理應用至音訊及聲學之工作坊,蒙哈克,1997年」,顯示高解析度時頻變換及頻譜預測的組合對應於信號適應性變換。
第9圖摘述所述構想整合成MODVOC處理方案。分析中,在輸入信號之初步DFT後,正向預測器之線性預測係數(LPC)連同具有脈衝響應h(w)之頻率係經由例如就最小平方而言,最小化預測誤差之自動相干性方法導算出。隨後,濾波器施加至頻譜值,殘差信號進一步藉MODVOC演繹法則處理。表示通用波封之濾波係數被傳輸至合成階段。合成時,經由在單位圓評估預測濾波器所導算出之通用波封係藉將其倍增施用至和信號獲得輸出信號y而回復,如第10圖所示。
換言之,第9及10圖顯示在調變聲碼器實施所述構想。第9圖顯示包含前置處理器910之調變分析器部分,其例如執行時域音訊信號之離散富利葉變換來獲得頻域音訊信號602,及將該頻域音訊信號602提供給波封形狀測定器610、預測濾波器710(例如LPC濾波器h (ω))、信號減法器710及載頻測定器920。信號減法器720可提供殘差音訊信號722給濾波器排組730。載頻測定器920可估算多個載波重心頻率,且將此等載波頻率提供給濾波器排組730用來控制帶通頻譜權值。濾波器排組730可提供帶通信號給信號轉換器930用來對各個帶通信號進行單端離散富利葉反變換而提供多個次頻帶域帶通信號給信號處理器。調變聲碼器之成分已經如前文詳細說明。又,第10圖顯示調變聲碼器之合成部分。其包含組合器640及包含係數轉換器810及乘法器820之波封整形器。有關調變聲碼器成分及波封整形器之進一步細節已經如前文解釋。
第11圖顯示根據本發明之實施例用以修改音訊信號之方法1100之流程圖。方法1100包含基於表示時域輸入音訊信號之頻域音訊信號測定1110波封形狀係數,及基於頻域音訊信號產生1120在次頻帶域之多個帶通信號。又,方法1100包含基於預先界定之修改目標而修改1130多個次頻帶域帶通信號中之一次頻帶域帶通信號。此外,多個次頻帶域帶通信號之至少一個子集係組合1140來獲得時域音訊信號。又,方法110包含基於波封形狀係數而整形1150時域音訊信號之波封,基於波封形狀係數整形含有經修改之次頻帶域帶通信號之多個次頻帶域帶通信號之一波封,或在次頻帶域帶通信號藉信號處理器修改前,基於波封形狀係數整形1150多個次頻帶域帶通信號之一波封來獲得已整形之音訊信號。
選擇性地,方法1100可包含表示前述構想之特徵之額外步驟。
依據本發明之若干實施例係有關組合第1或2圖所示裝置之特徵與第6圖所示裝置之特徵之一種用以修改音訊信號之裝置。匹配地,第12圖顯示依據本發明之實施例之裝置1200之方塊圖。
始於第1圖所示裝置,裝置1200額外包含一波封形狀測定器610及一波封整形器650。就此方面而言,音訊信號可為表示時域輸入音訊信號之頻域音訊信號,其可由波封形狀測定器用來基於頻域音訊信號而測定波封形狀係數。又,藉濾波器排組所產生的多個帶通信號可基於頻域音訊信號而於次頻帶域產生。於組合含有經修改之所選基音帶通信號及經修改且經識別之泛音帶通信號之多個次頻帶域帶通信號後,所得時域音訊信號152、642可提供給波封整形器650。波封整形器650可基於波封形狀係數612整形時域音訊信號之波封來獲得整形音訊信號652。
否則,始於第6圖所示裝置,裝置1200額外包含如就第1圖所示裝置說明之基音測定器120及泛音測定器130。基音測定器120可選擇多個次頻帶域帶通信號中之一個次頻帶域帶通信號來獲得基音帶通信號122。又,泛音測定器130可識別多個次頻帶域帶通信號中滿足有關所選所選基音帶通信號122之泛音標準的次頻帶域帶通信號112而獲得與所選基音帶通信號122相關聯之泛音帶通信號132。信號處理器140、630可基於預先界定之修改目標而修改所選基音帶通信號,以及依據前述所選基音帶通信號122之修改而修改與所選基音帶通信號122相關聯之經識別的泛音帶通信號132。
藉此方式,基音之泛音及泛音在音訊信號之修改期間可同等處理,在帶通信號修改前,基於所導算的波封形狀係數經由整形已修改之時域音訊信號可極為準確地保有多個帶通信號之頻譜相干性。藉此方式,可顯著改良經修改之音訊信號之知覺品質。
裝置1200可進一步實現前述不同具體實施例之額外特徵。
後文中,藉收聽測試結果顯示經修改之音訊信號之知覺品質的改良。用於本收聽測試,使用基於調變聲碼器(MODVOC)之實施例,但其結果對所提出之構想通常也有效。
為了評估調變聲碼器(MODVOC)應用於選擇性音高轉調之主觀音訊品質,及此外,對基本MODVOC原理所提議之提升效果,已經組裝且據此而處理音訊檔案實例集合。此外,MODVOC技術與市售音訊軟體比較用於複曲調音訊操作。西蒙尼出版的旋律聆編輯器自從2009年後期已經上市。
由於接受測試處理可大為變更信號的音訊內容,原先信號與處理後信號直接比較,通常為標準收聽測試中的特有部分顯然不適合用於此種情況。雖言如此,為了以有意義方法測量主觀音訊品質,已經應用特殊收聽測試程序:收聽測試集合係源自於符碼MIDI資料,其使用高品質MIDI擴充器而成像為波形。此種辦法允許直接比較測試內部類似變更的音訊信號,及允許研究單獨做選擇性音高處理的效果。產生測試集合之程序摘述於第17圖。原先測試信號係在符碼MIDI資料表示型態製備(左上)。此等信號之第二版本係藉符碼MIDI處理產生,其類似在波形成像原先音訊接受測試的標靶處理(右上)。隨後,此等信號對藉高品質MIDI擴充器成像成為波形(WAV)檔案(左下及右下)。於收聽測試中,比較從經處理的MIDI檔案所成像的波形及經成像之原先MIDI檔案之若干調變聲碼器(MODVOC)處理版本(右下)。此外,MODVOC之輸出係與旋律聆編輯器的輸出做比較。
除了MODVOC處理狀況外,測試包括經由使用旋律聆編輯器所得的狀況,旋律聆編輯器目前為唯一市面上應用來解決此類型音訊操作,如此可視為工業標準的產品。旋律聆編輯器初步執行整個音訊檔案的自動分析。於啟動期之後,旋律聆提示音訊檔案分解。藉由用戶互動,此種分解進一步精製。為了與MODVOC處理結果做公平比較,評估係基於此種自動初期分析結果,原因在於除了預先知曉音調及標準音高知識之外,MODVOC分解也是全自動。
收聽測試設定值根據ITU推薦BS.1534也是基於標準多重刺激帶有隱藏參考及錨定(MUSHRA)測試(ITU-R,「中間聲音品質之主觀評估標準(mushra)」,2001年)。MUSHRA是一種盲目收聽測試。一次只有一個人接受測試。對各個項目,測試以時間對齊方式提供全部測試狀況連同隱藏參考及隱藏低通濾波錨定給收聽者。隱藏參考及隱藏錨定係含括用來檢查收聽者的信賴度。當收聽期間在不同條件間切換為許可,如此在任意選擇的項目區隔設定一回路,如BS.1116-1提示(ITU-R,「於包括多頻道聲音系統之音訊系統中稍微受損之主觀評估方法」,1994-1997年)且也可應用至MUSHRA測試。對於在評級該項目且前進至下一個測試項目之前測試個體收聽的重複次數並無限制,如此允許極為密切的比較及徹底檢查不同狀況。項目的知覺品質係依據從<<優異>>(100分)通過<<良好>>及<<普通>>至<<不良>>(0分)的刻度評級。測試項目順序係任意排序,此外各項目狀況的順序也隨機化。
八個測試項目係來自於MUTOPIA計畫(http://www.mutopiaproject.org/),其提供公開使用的免費音樂單張。對至多約有20秒持續時間的專家已經從含有單一樂器(例如G、E)及緊密完整交響樂部分(例如F)的各塊傳統音樂中抽取。又,伴隨有其它樂器的主要樂器獨奏旋律(例如C)係含括在測試集合。除了短期準穩態音調部分外,全部打擊樂元素也含括在數項(撥絃吉他的起點在C及鋼琴在G)對接受測試系統的瞬時響應產生特殊挑戰。下表列舉該集合的全部項目。
為了獲得原先所提出之信號的的MIDI處理已經在凱沃克(Cakewalk)製造的Sonar8進行。使用得自國家樂器樂器演奏台聲音存庫1.0.1 R3版本進行高品質波形呈像。MODVOC處理係在三個不同組合評估,有兩個加強處理步驟為諧波鎖定及波封整形。為了與旋律聆編輯器做比較,採用1.0.11版本。全部狀況皆列舉於下表。
主觀收聽測試係在隔音收聽實驗室中進行,該實驗室設計來允許於類似於<<理想>>起居室的環境中進行高品質收聽測試。收聽者裝配有STAX靜電耳機,該耳機係從連結至蘋果迷你電腦(Apple MAC mini)之Edirol USB聲音介面驅動。收聽測試軟體為逢霍弗(Fraunhofer) IIS出品的wavswitch,於MUSHRA模式操作,提供簡單圖形使用者介面(GUI)來支援收聽者進行測試。收聽者可在播放期間在參考狀況(1)及不同狀況(2-7)間切換。各個收聽者可個別判斷對各項目及各狀況收聽多長時間。實際上切換期間,聲音的播放變成無聲。於圖形使用者介面,直條以視覺顯示對各種狀況的評級。選擇有經驗的收聽者,其熟悉音訊編碼但同時也具有音樂背景,一方面可對典型信號處理假影例如前-及後-回聲或瞬時分散做受過訓練的判斷,而另一方面,可對音樂參數諸如頻譜音高、旋律及音色做出判斷。此外,要求收聽者提供其非正式觀察與印象。
共有15人提供測試結果,一位收聽者必需接受後篩選,原因在於其顯然未能成功地識別隱藏的原音(評分為64分)。
第18圖摘述收聽測試結果。經由選擇性音高轉調處理而對各項目的知覺品質係從普通至良好。較低錨定被評級為不良至差中間,因此從經處理項目至錨定座中間距離約為40 MUSHRA分。
絕對分數提供量化各項目的知覺品質(於各測試狀況)之資訊,藉此暗示在測試集合中在各項目間的品質差異等級,但不適合比較在收聽測試內部的不同狀況,原因在於此等狀況的評級不具有相依性。為了直接比較源自於不同選擇性轉調處理方案的狀況,後文中考慮分數差值。
第19圖顯示基於經加強的MODVOC變化例(狀況4及5)相對於普通MODVOC(狀況3)結果之分數差的研究結果。此處,全部經加強的MODVOC變化例分數皆係顯著優於普通MODVOC處理(全部分數皆高於零)。對全部項目及狀況具有95%信賴度意義,但諧波鎖定只應用於項目A及C。
第20圖顯示測試分數作為相對於狀況6(旋律聆編輯器)之分數差。對項目C,於狀況5之MODVOC分數顯著優於旋律聆編輯器;狀況4略微正面,及狀況3具有95%信賴區間而言為無結論(信賴區間與0重疊)。對項目B(狀況2)、F、G(狀況5)也無法獲得顯著結論,但MODVOC之較佳表現傾向對狀況4的項目C及狀況4及5之項目F也可見。於全部其它情況下,MODVOC分數皆顯著比旋律聆編輯器更差。
分數反映出總體品質判定,包含例如非自然聲音假影例如音前-或後-回聲而瞬時降級、音高準確度、旋律正確性及音色的保留等面相。為了進一步以細節解譯結果,要求收聽人註記其非正式觀察連同紀錄實際分數。從此等觀察獲得結論,音色的保留以及非自然聲音假影的不存在比較旋律保留的良好程度在總分上佔有更高程度。此外,若某個旋律為收聽者所未知,則似乎測試者在測試期間無法記憶在skort通知的參考頻率,如此不確定真正的旋律。如此可說明旋律聆編輯器處理項目的總分較高,就音色的保留有較高可靠度,特別為源自於單一樂器的聲音尤為如此。但如此需要犧牲意外發生嚴重旋律錯誤,推定其發生原因為歸類錯誤。就該方面而言MODVOC較為穩健,原因在於MODVOC並非主要仰賴基於特徵的分類技術。
依據本發明之若干實施例係有關用於音高選擇性轉調之加強式調變聲碼器。已經介紹調變聲碼器(MODVOC)之構想,也已經指出對複曲調音樂內容進行選擇性轉調的一般能力。如此允許更佳可針對改變預錄PCM音樂樣本的音樂模式之應用用途。提出兩種藉MODVOC選擇性音高轉調之增強技術。選擇性轉調應用之效能及此等技術之效果係藉得自特別設計的收聽測試方法做基準,該方法可就原先音訊刺激,以音高管控極值變化。此等主觀知覺品質評估結果呈現給已經藉MODVOC而在小調及大調音調模式間轉換的項目,此外利用首先上市的軟體也可處理此項工作。
值得注意者,雖然旋律聆編輯器係在允許任何操作之前初步進行全部音訊檔案的自動化分析,但MODVOC係以逐塊方式運算,如此允許即時運算。
已經提出調變聲碼器(MODVOC)用於音高選擇性轉調之加強技術。從MIDI呈像測試信號所得收聽測試結果獲得結論,普通MODVOC知覺品質確實係藉諧波鎖定及波封整形而加強。對全部項目預期可增高高達10 MUSHRA分。改良主要係值基於諧波鎖定。
此外,市售軟體(旋律聆編輯器)進行MODVOC比較顯示於選擇性音高轉調可達到一般品質程度,此時可能位在「普通」與「良好」間。MODVOC較為穩健不易發生旋律的錯誤解譯,原因在於其主要並非仰賴分類決策。
與操作前藉旋律聆編輯器對整個音訊檔案進行多通分析相反,MODVOC單純係基於單通逐塊處理,可能允許串流化或即時運算景況。
雖然已經以裝置脈絡來描述所述構想之若干面相,但顯然此等構想也表示相對應方法之描述,此處一方塊或一裝置係對應於一方法步驟或一方法步驟的特徵結構,同理,以方法步驟脈絡所描述的面相也表示相對應區塊或項目之描述或對應裝置的特徵結構。
本發明之編碼音訊信號已經儲存於數位儲存媒體,或可在傳輸媒體諸如無線傳輸媒體或有線傳輸媒體諸如網際網路傳送。
依據若干具體實施要求,本發明之實施例已經於硬體或軟體實現。實現可使用數位儲存媒體進行,例如軟碟、DVD、藍光碟、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體(FLASH memory)其上儲存有電子可讀取控制信號,其與可規劃電腦系統協力合作(或可協力合作)因而進行個別方法。因此數位儲存媒體可為電腦可讀取。
依據本發明之若干實施例包含具有電子可讀取控制信號之資料載體,其可與可規劃電腦系統協力合作,因而執行此處所述方法中之一者。
大致上,本發明之實施例可實現為具有程式碼之電腦程式產品,當該電腦程式產品在電腦上跑時,該程式碼可操作用來執行該等方法中之一者。該程式碼例如可儲存於機器可讀取載體上。
其它實施例包含用來執行此處所述方法中之一者且儲存在機器可讀取載體上之電腦程式。
換言之,因此本發明方法之實施例為具有程式碼之一種電腦程式,用來當該電腦程式在電腦上跑時執行此處所述方法中之一者。
因此本發明方法之又一實施例為一種資料載體(或數位儲存媒體或電腦可讀取媒體)包含於其上紀錄之用以執行此處所述方法中之一者之電腦程式。
因此本發明方法之又一實施例為用來執行此處所述方法中之一者之表示電腦程式的資料串流或信號序列。資料串流或信號序列例如可經組配來透過資料通訊連結例如透過網際網路傳送。
又一實施例包含一種處理裝置例如電腦或可程式邏輯裝置,其係組配來或適應執行此處所述方法中之一者。
額外實施例包含其上裝置用以執行此處所述方法中之一者之電腦程式的電腦。
於若干實施例中,可程式邏輯裝置(例如場可規劃閘陣列)可用來執行此處所述方法之部分或全部功能。於若干實施例中,場可規劃閘陣列可與微處理器協力合作來執行此處所述方法中之一者。大致上,該等方法較佳係藉硬體裝置執行。
前述實施例僅為了舉例說明本發明原理之用。須瞭解此處所述配置及細節之修改及變化對熟諳技藝人士顯然易知。因此意圖僅受隨附之申請專利範圍之範圍所限而非由此處實施例之描述及解說呈現的特定細節所限。
100、200、600、680、1200...裝置
102...音訊信號
110、620...濾波器排組處理器
112、622...帶通信號
120...基音測定器
122...所選基音帶通信號
130...泛音測定器
132...泛音帶通信號
140、630...信號處理器
150、640...組合器
152...修改音訊信號
212、730...濾波器排組
214、930...信號轉換器
260、920...載頻測定器
262...載波頻率
300、1100...方法
310~360、1110~1150...方法步驟
400...泛音修改器
410...泛音修改控制器
420...泛音乘法器
430...泛音修改提供器
500...演繹法則
510~592...處理方塊
602...頻域音訊信號
610...波封形狀測定器
612...波封形狀係數
642...時域音訊信號
650...波封整形器
652...整形音訊信號
660...高通/低通濾波器
662...低通音訊信號
670...全頻帶信號提供器
710...預測濾波器
712‧‧‧預測音訊信號
720‧‧‧信號減法器
722‧‧‧殘差音訊信號
730‧‧‧濾波器排組
810‧‧‧係數轉換器
812‧‧‧已轉換之波封形狀係數
820、1550‧‧‧乘法器
900‧‧‧調變聲碼器
910、1410‧‧‧前置處理器、DFT
920‧‧‧載波頻率測定器、多載波重心(COG)頻率估算
930‧‧‧信號轉換器、單邊IDFT
1300‧‧‧調變分析器
1310‧‧‧實際載波頻率
1320a‧‧‧帶通濾波器
1320b‧‧‧分析信號轉換器、分析信號方塊
1320c、1320f、1320g‧‧‧方塊
1320d‧‧‧乘法器
1320e‧‧‧振盪器
1330‧‧‧載波頻率估算
1500‧‧‧修改合成器
1502‧‧‧AM調幅信號、AM成分
1504‧‧‧FM調頻信號、FM成分
1506‧‧‧載頻成分
1510‧‧‧重疊-加法器(OLA)、方塊
1520‧‧‧成分連結控制器
1530‧‧‧頻率重疊-加法器(OLA)、方塊
1532‧‧‧瞬時頻率積分器
1534‧‧‧相角組合器
1536‧‧‧相移器
1540‧‧‧正弦振盪器
1560‧‧‧組合器、輸出信號
1574‧‧‧逆轉換、MIDI音符量化成頻率
1600‧‧‧實例
1670‧‧‧量化、頻率量化成MIDI音符
1672‧‧‧對映、MIDI音符對映關係
第1圖為用以修改音訊信號之裝置之方塊圖;
第2圖為用以修改音訊信號之裝置之方塊圖;
第3圖為用以修改音訊信號之方法之流程圖;
第4圖為使用諧波鎖定而調變聲碼器之一部分之方塊圖;
第5圖為用以修改音訊信號之方法之流程圖;
第6a、6b、6c、6d圖為用以修改音訊信號之裝置之方塊圖;
第7圖為濾波器排組處理器之方塊圖;
第8圖為波封整形器之方塊圖;
第9圖為具有波封整形之調變分析之示意說明圖;
第10圖為具有波封整形之調變合成之示意說明圖;
第11圖為用以修改音訊信號之方法之流程圖;
第12圖為用以修改音訊信號之裝置之方塊圖;
第13圖為調變分析之示意說明圖;
第14圖為調變分析之實現之示意說明圖;
第15圖為調變合成之示意說明圖;
第16圖為對調變聲碼器成分之選擇性轉調之示意說明圖;
第17圖為一種用以產生測試集合其係用於對調變聲碼器處理用於選擇性音高轉調工作的主觀品質的評估之程序之示意說明圖;
第18圖為略圖指示絕對MUSHRA分數及收聽測試定址選擇性音高轉調之95%信賴區間;
第19圖為略圖指示就調變聲碼器狀況之差異MUSHRA分數及收聽測試定址選擇性音高轉調之95%信賴區間;及
第20圖為略圖指示就直接音符存取(DNA)狀況之差異MUSHRA分數及收聽測試定址選擇性音高轉調之95%信賴區間。
100...裝置
102...音訊信號
110...濾波器排組處理器
112...帶通信號
120...基音測定器
122...所選基音帶通信號
130...泛音測定器
132...泛音帶通信號
140...信號處理器
150...組合器
152...修改音訊信號

Claims (15)

  1. 一種用以修改一音訊信號之裝置,其係包含:一濾波器排組處理器其係組配來基於一音訊信號而產生多個帶通信號;一基音(fundamental)測定器其係組配來選擇該等多個帶通信號中之一帶通信號來獲得一基音帶通信號;一泛音(overtone)測定器其係組配來識別該等多個帶通信號中滿足有關所選基音帶通信號之泛音標準之一帶通信號而獲得與該所選基音帶通信號相關聯之一泛音帶通信號;一信號處理器其係組配來基於一預先界定的修改目標而修改該所選基音帶通信號,及其係組配來依據該所選基音帶通信號之修改而修改與該所選基音帶通信號相關聯之一經識別的泛音帶通信號,其中該信號處理器係組配來對該等多個帶通信號中之各個帶通信號產生一調幅信號及一調頻信號,其中該信號處理器係組配來基於該預先界定的修改目標而修改該調幅信號或該調頻信號,及其中該信號處理器係組配來依據該所選基音帶通信號之修改而修改與該所選基音帶通信號相關聯之經識別的泛音帶通信號之該調幅信號或該調頻信號,或其中該信號處理器係組配來藉由該所選基音帶通信號之載波頻率乘以一轉調(transposition)因數或藉由 將一轉調頻率加至該所選基音帶通信號之載波頻率而修改所選基音帶通信號,其中該信號處理器係組配來藉由該經識別的泛音帶通信號之載波頻率乘以具有10%公差之該轉調因數或藉由將具有10%公差之該轉調頻率加至該經識別的泛音帶通信號之載波頻率而修改經識別的泛音帶通信號;及一組合器其係組配來組合該等多個帶通信號而獲得一修改音訊信號。
  2. 如申請專利範圍第1項之裝置,其中該等多個帶通信號中之各個帶通信號包含一載波頻率,其中該泛音測定器係經組配來比較該等多個帶通信號中之一帶通信號之載波頻率與該所選基音帶通信號之載波頻率,其中若該帶通之載波頻率為為該所選基音帶通信號之載波頻率的倍數且具有預先界定的載波頻率公差,則滿足一泛音標準。
  3. 如申請專利範圍第1或2項之裝置,其中該泛音測定器係經組配來比較該等多個帶通信號中之一帶通信號之能含量與該所選基音帶通信號之能含量,其中若該帶通信號之能含量與該所選基音帶通信號之能含量之比係在一預先界定的能公差範圍內即滿足一泛音標準。
  4. 如申請專利範圍第1項之裝置,其中該泛音測定器係經組配來計算指示該等多個帶通信號中之一帶通信號之一時間波封與該所選基音帶通信號之一時間波封之關聯性的一相關值,其中若該相關值係高於一預先界定的 相關臨界值即滿足一泛音標準。
  5. 如申請專利範圍第1項之裝置,其中該基音測定器係經組配來選擇該等多個帶通信號中之又一帶通信號,而未考慮全部已經選擇的基音帶通信號及全部已經識別的泛音帶通信號來獲得又一基音帶通信號。
  6. 如申請專利範圍第5項之裝置,其中該泛音測定器係經組配來識別該等多個帶通信號中滿足有關該又一所選基音帶通信號之泛音標準的一帶通信號,而未考慮全部已經識別的泛音帶通信號來獲得與該又一基音帶通信號相關聯之一泛音帶通信號。
  7. 如申請專利範圍第5項之裝置,其中該信號處理器係經組配來基於又一預先界定的修改目標而修改該又一所選基音帶通信號。
  8. 如申請專利範圍第1項之裝置,其中該基音測定器係經組配來基於能標準而選擇該帶通信號。
  9. 如申請專利範圍第1項之裝置,其中該基音測定器係經組配來測定該等多個帶通信號中之各帶通信號之加權能含量,且係經組配來選擇包含該最高加權能含量之一帶通信號而獲得該基音帶通信號。
  10. 如申請專利範圍第1項之裝置,其係包含一載波頻率測定器,其中該濾波器排組處理器係包含一濾波器排組及一信號轉換器,其中該濾波器排組係經組配來基於一音訊信號而產生帶通信號,其中該信號轉換器係經組配來將所產生的帶通信號轉換至次頻帶域來獲得該等多個 帶通信號,其中該載波頻率測定器係經組配來基於該音訊信號而測定多個載波頻率,其中該濾波器排組處理器之濾波器排組係經組配來產生帶通信號,使得各帶通信號包含多個載波頻率中之一不同載波頻率之一頻率範圍而獲得與該等多個載波頻率中之各載波頻率相關聯之一帶通信號。
  11. 如申請專利範圍第1項之裝置,其中該信號處理器係經組配來對該等多個帶通信號中之各個帶通信號產生一調幅信號及一調頻信號,其中該信號處理器係經組配來基於該預先界定的修改目標而修改該調幅信號或調頻信號,及其中該信號處理器係經組配來依據該所選基音帶通信號之修改而修改與該所選基音帶通信號相關聯之經識別的泛音帶通信號之調幅信號或調頻信號,及其中該信號處理器係經組配來藉由該所選基音帶通信號之載波頻率乘以一轉調因數或藉由將一轉調頻率加至該所選基音帶通信號之載波頻率而修改所選基音帶通信號,其中該信號處理器係經組配來藉由該經識別的泛音帶通信號之載波頻率乘以具有10%公差之該轉調因數或藉由將具有10%公差之該轉調頻率加至該經識別的泛音帶通信號之載波頻率而修改經識別的泛音帶通信號。
  12. 如申請專利範圍第1項之裝置,其中該信號處理器係組配來將該所選基音帶通信號之載波頻率乘以一轉調因 數並將該所選基音帶通信號之調頻信號乘以該相同的轉調因數。
  13. 如申請專利範圍第1項之裝置,其係包含一波封形狀測定器及一波封整形器,其中該波封形狀測定器係經組配來基於該音訊信號而測定波封形狀係數,其中該音訊信號為表示一時域輸入音訊信號之一頻域音訊信號,其中該濾波器排組處理器係經組配來基於該頻域音訊信號而產生在次頻帶域之多個帶通信號,其中該組合器係經組配來組合該等多個帶通信號之至少一子集來獲得表示一時之該修改音訊信號,其中該波封整形器係經組配來基於該等波封形狀係數而整形該時域音訊信號之一波封,基於該等波封形狀係數而整形含有該修改次頻帶域帶通信號之多個次頻帶域帶通信號之一波封,或在一次頻帶域帶通信號係藉該信號處理器修改前,基於該等波封形狀係數而整形該等多個次頻帶域帶通信號之一波封而獲得一整形音訊信號。
  14. 一種用以修改一音訊信號之方法,該方法包含下列步驟:基於一音訊信號而產生多個帶通信號;選擇該等多個帶通信號中之一帶通信號來獲得一基音帶通信號;識別該等多個帶通信號中滿足有關所選基音帶通信號之泛音標準之一帶通信號而獲得與該所選基音帶通信號相關聯之一泛音帶通信號; 基於一預先界定的修改目標而藉由以下步驟修改該所選基音帶通信號:藉由對該等多個帶通信號中之各個帶通信號產生一調幅信號及一調頻信號,且基於該預先界定的修改目標而修改該所選基音帶通信號之該調幅信號或調頻信號,或藉由該所選基音帶通信號之載波頻率乘以一轉調因數或藉由將一轉調頻率加至該所選基音帶通信號之載波頻率;依據該所選基音帶通信號之修改而藉由以下步驟修改與該所選基音帶通信號相關聯之一經識別的泛音帶通信號:藉由依據該所選基音帶通信號之修改而修改與該所選基音帶通信號相關聯之經識別的泛音帶通信號之調幅信號或調頻信號,或藉由該經識別的泛音帶通信號之載波頻率乘以具有10%公差之該轉調因數或藉由將具有10%公差之該轉調頻率加至該經識別的泛音帶通信號之載波頻率;及組合該等多個帶通信號而獲得一修改音訊信號。
  15. 一種具有一程式碼之電腦程式,其中當該電腦程式在一數位信號處理器、一電腦或一微處理器上跑時,該程式碼係用以執行如申請專利範圍第14項之方法。
TW100105447A 2010-02-26 2011-02-18 用以利用諧波鎖定技術修改音訊信號之裝置與方法 TWI470618B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US30851310P 2010-02-26 2010-02-26
EP10175282A EP2362375A1 (en) 2010-02-26 2010-09-03 Apparatus and method for modifying an audio signal using harmonic locking

Publications (2)

Publication Number Publication Date
TW201142815A TW201142815A (en) 2011-12-01
TWI470618B true TWI470618B (zh) 2015-01-21

Family

ID=44041608

Family Applications (2)

Application Number Title Priority Date Filing Date
TW100105447A TWI470618B (zh) 2010-02-26 2011-02-18 用以利用諧波鎖定技術修改音訊信號之裝置與方法
TW100105449A TWI456566B (zh) 2010-02-26 2011-02-18 用以利用波封整形技術修改音訊信號之裝置與方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW100105449A TWI456566B (zh) 2010-02-26 2011-02-18 用以利用波封整形技術修改音訊信號之裝置與方法

Country Status (19)

Country Link
US (2) US9203367B2 (zh)
EP (4) EP2362375A1 (zh)
JP (2) JP5655098B2 (zh)
KR (2) KR101494062B1 (zh)
CN (2) CN102859579B (zh)
AR (2) AR080319A1 (zh)
AU (2) AU2011219780B2 (zh)
BR (2) BR112012021370A2 (zh)
CA (2) CA2790651C (zh)
ES (2) ES2484718T3 (zh)
HK (2) HK1180444A1 (zh)
MX (2) MX2012009787A (zh)
MY (2) MY161212A (zh)
PL (2) PL2539885T3 (zh)
RU (2) RU2591732C2 (zh)
SG (2) SG183461A1 (zh)
TW (2) TWI470618B (zh)
WO (2) WO2011104354A1 (zh)
ZA (2) ZA201207111B (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050120870A1 (en) * 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
US20100169303A1 (en) 2008-12-31 2010-07-01 David Biderman Playlists for real-time or near real-time streaming
GB201105502D0 (en) 2010-04-01 2011-05-18 Apple Inc Real time or near real time streaming
US8805963B2 (en) 2010-04-01 2014-08-12 Apple Inc. Real-time or near real-time streaming
TWI451279B (zh) 2010-04-07 2014-09-01 Apple Inc 即時或接近即時串流傳輸之內容存取控制
US8843586B2 (en) 2011-06-03 2014-09-23 Apple Inc. Playlists for real-time or near real-time streaming
US8856283B2 (en) 2011-06-03 2014-10-07 Apple Inc. Playlists for real-time or near real-time streaming
CN102543091B (zh) * 2011-12-29 2014-12-24 深圳万兴信息科技股份有限公司 一种模拟音效的生成系统及方法
US9712127B2 (en) * 2012-01-11 2017-07-18 Richard Aylward Intelligent method and apparatus for spectral expansion of an input signal
JP6173484B2 (ja) 2013-01-08 2017-08-02 ドルビー・インターナショナル・アーベー 臨界サンプリングされたフィルタバンクにおけるモデル・ベースの予測
CN105122357B (zh) 2013-01-29 2019-04-23 弗劳恩霍夫应用研究促进协会 频域中基于lpc进行编码的低频增强
WO2014118179A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates
US20150003633A1 (en) * 2013-03-21 2015-01-01 Max Sound Corporation Max sound audio program
CN105122359B (zh) * 2013-04-10 2019-04-23 杜比实验室特许公司 语音去混响的方法、设备和系统
CN104282312B (zh) * 2013-07-01 2018-02-23 华为技术有限公司 信号编码和解码方法以及设备
EP2830058A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
AU2014204540B1 (en) * 2014-07-21 2015-08-20 Matthew Brown Audio Signal Processing Methods and Systems
US9391649B2 (en) * 2014-11-17 2016-07-12 Microsoft Technology Licensing, Llc Envelope shaping in envelope tracking power amplification
GB2539875B (en) * 2015-06-22 2017-09-20 Time Machine Capital Ltd Music Context System, Audio Track Structure and method of Real-Time Synchronization of Musical Content
BE1023229B1 (nl) * 2015-06-30 2017-01-05 Van Den Broeck Bram Stemmen van een trommel
CN105118523A (zh) * 2015-07-13 2015-12-02 努比亚技术有限公司 音频处理方法和装置
US10262677B2 (en) * 2015-09-02 2019-04-16 The University Of Rochester Systems and methods for removing reverberation from audio signals
JP6705142B2 (ja) * 2015-09-17 2020-06-03 ヤマハ株式会社 音質判定装置及びプログラム
US9654181B1 (en) * 2015-12-14 2017-05-16 Nxp B.V. Dynamic transmitter signal envelope shaping control for NFC or RFID devices
CN105750145B (zh) * 2016-03-26 2018-06-01 上海大学 能综合展现音乐频域时域特性的音乐喷泉的实现方法
EP3246923A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
JP6754243B2 (ja) * 2016-08-05 2020-09-09 株式会社コルグ 楽音評価装置
WO2019068915A1 (en) * 2017-10-06 2019-04-11 Sony Europe Limited AUDIO FILE ENVELOPE BASED ON RMS POWER IN SUB-WINDOW SEQUENCES
CN108269579B (zh) * 2018-01-18 2020-11-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质
US11017787B2 (en) * 2018-02-09 2021-05-25 Board Of Regents, The University Of Texas System Self-adjusting fundamental frequency accentuation subsystem for natural ear device
US10950253B2 (en) 2018-02-09 2021-03-16 Board Of Regents, The University Of Texas System Vocal feedback device and method of use
US10186247B1 (en) * 2018-03-13 2019-01-22 The Nielsen Company (Us), Llc Methods and apparatus to extract a pitch-independent timbre attribute from a media signal
JP2019164107A (ja) * 2018-03-20 2019-09-26 本田技研工業株式会社 異音判定装置および判定方法
US11122354B2 (en) * 2018-05-22 2021-09-14 Staton Techiya, Llc Hearing sensitivity acquisition methods and devices
EP3576088A1 (en) * 2018-05-30 2019-12-04 Fraunhofer Gesellschaft zur Förderung der Angewand Audio similarity evaluator, audio encoder, methods and computer program
CN109683142B (zh) * 2018-12-04 2020-06-09 郑州轻工业大学 基于差分包络检波的三角线性调频连续信号参数估计方法
EP3671741A1 (en) 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
GB2596169B (en) * 2020-02-11 2022-04-27 Tymphany Acoustic Tech Ltd A method and an audio processing unit for detecting a tone
JP7475988B2 (ja) * 2020-06-26 2024-04-30 ローランド株式会社 効果装置および効果処理プログラム
CN112908347A (zh) * 2021-02-25 2021-06-04 益阳市信维声学科技有限公司 一种杂音检测方法及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW502248B (en) * 1998-10-29 2002-09-11 Paul Reed Smith Guitars Method of modifying harmonic content of a complex waveform
TWI251807B (en) * 2002-11-19 2006-03-21 Yamaha Corp Interchange format of voice data in music file
EP2099024A1 (de) * 2008-03-07 2009-09-09 Peter Neubäcker Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen
EP2104096A2 (en) * 2008-03-20 2009-09-23 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthesizing a parameterized representation of an audio signal

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251151A (en) * 1988-05-27 1993-10-05 Research Foundation Of State Univ. Of N.Y. Method and apparatus for diagnosing the state of a machine
JP2990777B2 (ja) * 1990-09-28 1999-12-13 ヤマハ株式会社 電子楽器の効果装置
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
JP2713102B2 (ja) * 1993-05-28 1998-02-16 カシオ計算機株式会社 音信号ピッチ抽出装置
JPH07219597A (ja) * 1994-01-31 1995-08-18 Matsushita Electric Ind Co Ltd ピッチ変換装置
KR19980013991A (ko) * 1996-08-06 1998-05-15 김광호 음성 줌신호 강조회로
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
RU2155387C1 (ru) * 1998-12-10 2000-08-27 Общество с ограниченной ответственностью "Институт ноосферного естествознания" Музыкальный синтезатор (варианты)
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP4245114B2 (ja) * 2000-12-22 2009-03-25 ローランド株式会社 音色制御装置
JP3862061B2 (ja) 2001-05-25 2006-12-27 ヤマハ株式会社 楽音再生装置および楽音再生方法ならびに携帯端末装置
US6825775B2 (en) * 2001-08-01 2004-11-30 Radiodetection Limited Method and system for reducing interference
US20050190199A1 (en) * 2001-12-21 2005-09-01 Hartwell Brown Apparatus and method for identifying and simultaneously displaying images of musical notes in music and producing the music
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP3797283B2 (ja) * 2002-06-18 2006-07-12 ヤマハ株式会社 演奏音制御方法及び装置
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
US7062414B2 (en) * 2003-07-18 2006-06-13 Metrotech Corporation Method and apparatus for digital detection of electromagnetic signal strength and signal direction in metallic pipes and cables
US8023673B2 (en) * 2004-09-28 2011-09-20 Hearworks Pty. Limited Pitch perception in an auditory prosthesis
DE102004021403A1 (de) * 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7676043B1 (en) * 2005-02-28 2010-03-09 Texas Instruments Incorporated Audio bandwidth expansion
DE602006004959D1 (de) * 2005-04-15 2009-03-12 Dolby Sweden Ab Zeitliche hüllkurvenformgebung von entkorrelierten signalen
US7872962B1 (en) * 2005-10-18 2011-01-18 Marvell International Ltd. System and method for producing weighted signals in a diversity communication system
WO2007052088A1 (en) * 2005-11-04 2007-05-10 Nokia Corporation Audio compression
JP2007193156A (ja) * 2006-01-20 2007-08-02 Yamaha Corp 調律装置付電子楽器
EP2005424A2 (fr) 2006-03-20 2008-12-24 France Télécom Procede de post-traitement d'un signal dans un decodeur audio
JP4757130B2 (ja) * 2006-07-20 2011-08-24 富士通株式会社 ピッチ変換方法及び装置
JP4630980B2 (ja) * 2006-09-04 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
US8392198B1 (en) * 2007-04-03 2013-03-05 Arizona Board Of Regents For And On Behalf Of Arizona State University Split-band speech compression based on loudness estimation
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
JP5228432B2 (ja) * 2007-10-10 2013-07-03 ヤマハ株式会社 素片検索装置およびプログラム
US8498667B2 (en) 2007-11-21 2013-07-30 Qualcomm Incorporated System and method for mixing audio with ringtone data
JP5336522B2 (ja) * 2008-03-10 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 瞬間的事象を有する音声信号の操作装置および操作方法
JP4983694B2 (ja) * 2008-03-31 2012-07-25 株式会社Jvcケンウッド 音声再生装置
EP2109328B1 (en) * 2008-04-09 2014-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for processing an audio signal
US8583424B2 (en) * 2008-06-26 2013-11-12 France Telecom Spatial synthesis of multichannel audio signals
RU2443028C2 (ru) * 2008-07-11 2012-02-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра
CA2730198C (en) * 2008-07-11 2014-09-16 Frederik Nagel Audio signal synthesizer and audio signal encoder
AU2010206911B2 (en) * 2009-01-20 2013-08-01 Med-El Elektromedizinische Geraete Gmbh High accuracy tonotopic and periodic coding with enhanced harmonic resolution
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8321215B2 (en) * 2009-11-23 2012-11-27 Cambridge Silicon Radio Limited Method and apparatus for improving intelligibility of audible speech represented by a speech signal
MX2012010415A (es) * 2010-03-09 2012-10-03 Fraunhofer Ges Forschung Aparato y metodo para procesar una señal de audio de entrada utilizando bancos de filtro en cascada.
US9998081B2 (en) * 2010-05-12 2018-06-12 Nokia Technologies Oy Method and apparatus for processing an audio signal based on an estimated loudness
CN103262409B (zh) * 2010-09-10 2016-07-06 Dts(英属维尔京群岛)有限公司 用于改进的感觉的频谱不平衡的音频信号的动态补偿
JP5747562B2 (ja) * 2010-10-28 2015-07-15 ヤマハ株式会社 音響処理装置
JP5758774B2 (ja) * 2011-10-28 2015-08-05 ローランド株式会社 効果装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW502248B (en) * 1998-10-29 2002-09-11 Paul Reed Smith Guitars Method of modifying harmonic content of a complex waveform
TWI251807B (en) * 2002-11-19 2006-03-21 Yamaha Corp Interchange format of voice data in music file
EP2099024A1 (de) * 2008-03-07 2009-09-09 Peter Neubäcker Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen
EP2104096A2 (en) * 2008-03-20 2009-09-23 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthesizing a parameterized representation of an audio signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EVERY M. R. and SZYMANSKI J. E. "Separation of synchronous pitched notes by spectral filtering of harmonics," IEEE Transactions on Audio, Speech and Language Processing, 2006/09/01, Vol: 14, No: 5, pp. 1845 - 1856 Klapuri A. P. "Multiple fundamental frequency estimation based on harmonicity and spectral smoothness," IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, 2003/11/01, Vol: 11, No: 6, pp. 804 - 816 *

Also Published As

Publication number Publication date
AU2011219778A1 (en) 2012-10-18
JP2013520697A (ja) 2013-06-06
JP5655098B2 (ja) 2015-01-14
BR112012021540B1 (pt) 2021-07-27
US9264003B2 (en) 2016-02-16
JP5592959B2 (ja) 2014-09-17
CA2790650A1 (en) 2011-09-01
CN102859579B (zh) 2014-10-01
CN102859579A (zh) 2013-01-02
EP2539885A1 (en) 2013-01-02
BR112012021540A2 (pt) 2017-07-04
ES2484718T3 (es) 2014-08-12
WO2011104354A1 (en) 2011-09-01
EP2539886A2 (en) 2013-01-02
WO2011104356A2 (en) 2011-09-01
AU2011219780B2 (en) 2013-12-05
EP2362375A1 (en) 2011-08-31
KR101494062B1 (ko) 2015-03-03
KR20130010118A (ko) 2013-01-25
CA2790651A1 (en) 2011-09-01
SG183464A1 (en) 2012-09-27
TW201205555A (en) 2012-02-01
ZA201207112B (en) 2013-05-29
RU2012140707A (ru) 2014-05-27
AR080319A1 (es) 2012-03-28
ES2523800T3 (es) 2014-12-01
MX2012009787A (es) 2012-09-12
AU2011219778B2 (en) 2013-12-05
CA2790651C (en) 2015-11-24
RU2012140725A (ru) 2014-04-10
TWI456566B (zh) 2014-10-11
CN102870153B (zh) 2014-11-05
WO2011104356A3 (en) 2012-06-07
BR112012021370A2 (pt) 2023-04-11
RU2591732C2 (ru) 2016-07-20
HK1180443A1 (zh) 2013-10-18
US9203367B2 (en) 2015-12-01
MX2012009776A (es) 2012-09-07
RU2591733C2 (ru) 2016-07-20
CN102870153A (zh) 2013-01-09
MY161212A (en) 2017-04-14
EP2539885B1 (en) 2014-07-02
US20130216053A1 (en) 2013-08-22
CA2790650C (en) 2015-11-24
AU2011219780A1 (en) 2012-10-18
EP2539886B1 (en) 2014-08-13
EP2362376A3 (en) 2011-11-02
EP2362376A2 (en) 2011-08-31
KR20120128140A (ko) 2012-11-26
PL2539886T3 (pl) 2015-01-30
SG183461A1 (en) 2012-09-27
AR080320A1 (es) 2012-03-28
BR112012021540A8 (pt) 2018-07-03
JP2013520698A (ja) 2013-06-06
PL2539885T3 (pl) 2014-12-31
TW201142815A (en) 2011-12-01
US20130182862A1 (en) 2013-07-18
HK1180444A1 (zh) 2013-10-18
MY154205A (en) 2015-05-15
ZA201207111B (en) 2013-05-29
KR101492702B1 (ko) 2015-02-11

Similar Documents

Publication Publication Date Title
TWI470618B (zh) 用以利用諧波鎖定技術修改音訊信號之裝置與方法
RU2487426C2 (ru) Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала
Virtanen Audio signal modeling with sinusoids plus noise
Disch et al. An enhanced modulation vocoder for selective transposition of pitch
Disch et al. Frequency selective pitch transposition of audio signals
US20230215454A1 (en) Audio transposition
Bartkowiak et al. Hybrid sinusoidal modeling of music with near transparent audio quality
Huber Harmonic audio object processing in frequency domain
Disch Modulation vocoder for analysis, processing and synthesis of audio signals with application to frequency selective pitch transposition