TW293118B - - Google Patents

Download PDF

Info

Publication number
TW293118B
TW293118B TW085101995A TW85101995A TW293118B TW 293118 B TW293118 B TW 293118B TW 085101995 A TW085101995 A TW 085101995A TW 85101995 A TW85101995 A TW 85101995A TW 293118 B TW293118 B TW 293118B
Authority
TW
Taiwan
Prior art keywords
spectrum
speech
frequency
sound
information
Prior art date
Application number
TW085101995A
Other languages
English (en)
Original Assignee
Digital Voice Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Voice Systems Inc filed Critical Digital Voice Systems Inc
Application granted granted Critical
Publication of TW293118B publication Critical patent/TW293118B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

經濟部中央標準局負工消費合作社印製 A7 B7 五、發明説明(1 ) 本發明係有闞用K表示語音以便利有效的低至中位元 率編碼和解碼之方法。
相闉的出版物包括:J.L. Flanagan,語音分析、合 成和知覺* Springer-Verlag,1972年,第 378至 386頁(討 論相位音碼器-頻率為主之語音分析-合成系統);Jayant 等人所著之M波形之数位®碼”,Prentice-Hall· 1984 年,(主要討論語音級碼);美國専利獮號4,885,790(掲示 弦波處理方法);美困専利纖號5,0 54,0 72 (掲示弦波钃碼 方法);Almeida等人•“有轚語音之不穩定模式”,IEEE TASSP,ASSP-31卷,第 3冊,1983年 6月,第 664至 677頁( 揭示諧波棋式和编碼器);Alneida等人* M可變頻率合 成:一種改良的諧波編碼機構M ,IEEE Proc.ICASSP 84 ,第27.51至27.5 4頁(揭示多項式發轚音合成方法); Quatieri等人,“依據一弦波表示之語音轉換” * IEEE TASSP,第 ASSP34卷,第 6冊,1986年 12月,第 1449至 1986 頁·(討論依據一弦波表示之分析-合成技術);McAulay等 人,“依據語音之弦波表示的中位元率编碼”,Proc. ICASSP 85,第 945至948頁,1985年 3月 26-29日於Tampa, FL.,(討論弦波轉換語音編碼器);Griffin,“多頻箝激 勵音碣器”,Ph.D.論文,M.I.T. 1987年,(討諭多頻帶 激勵(MBE)語音横式和一種80QQ bps MBE諝音钃碼器); Hardwick,,“一種4.8 kbps多頻帶激勵語音鑷碼器” SM.論文,M.I.T. 1988年5月(討論一種4800 bps多頻帶激 勵語音編碼器);霣信工業協畲(TIA),“ APC0計劃2 5音礓 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁) 袈 A7 ^93118 B7_ _ 五、發明説明(2 ) 器說明”,1.3版,1993年7月15日,IS102BABA(討論用於 APCO計劃2 5摞準之7.2 kbps IMBE™語音鑷碼器);美國専 利編號5,081,681(揭示MBE隨機相位合成);美画專利编號 5 , 24 7,57 9 (掲示MBE頻道誤差级和法K及共振峰增強法); 美國專利煽號5 , 2 2 6,084(掲示付8£量化和誤差级和法)。逭 些出版物的内容在此被列為參考文獻。(IMBE是數位轚音 系統公司之商禰。) 語音之編碼和解碼已具有大曇之應用例子且因此受廣 泛之研究。在許多情況下,要求減少表示一語音信號所爾 之賁料率而不致於顯著地減低語音之品質或明瞭性。該問 題•通常稱做“語音壓縮” •是Μ—種語音编碼器或音碼 器而達成。 一種語音編碼器一般具有二部份程序。第一部份,一 般稱為煽碼器,Μ語音之數位表示開始,例如利用將麥克 風之输出傳經過一組類比至數位轉換器而產生,並且赖出 一懕縮的位元流。第二部份,一般稱為解碼器,將被懕嫌 的位元流轉回成為數位表示之語音•其癰合經由一姐數位 至類比轉換器和一组播轚器而重新放出。在許多應用中* 钃碼器和解碼器是實際分離且位元流經由某些通訊頻道而 傳送於它們之間。 語音編碼器之一主要參數是其達成之壓縮量,它可經 由其位元率而量得。所得到的實曄《縮位元率一般是所要 求傳輿性(亦即,語音品質)和諝音型式之函數。不同型式 的語音编碣器已被設計出Μ便在高位元率(大於8 kbps), 本紙張尺度適用中國國家標準(CNS ) Μ規格(21〇Χ297公釐) -6 - --------<衣----各—丸------C i ' - (請先閱讀背面之注意事項再填寫本頁) 經濟部中央棣準局貝工消费合作.社印製 經濟部中央橾準局貝工消费合作社印製 2 y 〇ί i 3 A7 ___B7_ 五、發明説明(3 ) 中位元率(3-8 kbps)和低位元率(小於3 kbps)操作。最近 ,中位元率語音編碼器已成為大範之行動通訊應用(细 胞式、衛星霄話、地面行動無線霣、機上電話等)之強烈 興趣主題。瑄些應用一般需要高品質語音Μ及對於音頻雜 訊和頻道雜訊(位元誤差)所引起因素之強健性。 有一類的語音钃碼器,其經證實高度逋用於行動通訊 •是依據於一語音的基礎横式。埴類例子包括線性預估音 碼器、同構音碼器、弦波轉換編碼器、多頻薄激勵語音编 碼器和通道音碼器。在這些音碼器中,語音被分成短片段 (―般是10至40 ms)且各片段被一組棋式參數加以特性化 。埴些參數一般代表一些基本元素*包括各語音片段之音 距、發音狀態和頻譜包絡。一種橫式為主之語音編礴器可 Μ使用一些習知表示之一棰於各參數。例如在CELP編碼器 中•音距可表示為一音距週期、一基本頻率、或一長期預 測延埋。相似地,發音狀態可由一次或多次發音/不發音 決定、一發音櫬率量測、或通期對推測能ft之比值而表示 。頻譜包絡通常Μ—全棰濾波器響應(LPC)表示·但可相 等地Κ一組諧波振幅或其他頻譜量測加以特性化。因為通 常只需小量參數Κ表示一諝音片段·撗式為主之諝音纗碼 器一般能以中度至低度資料率操作。然而* 一棋式為主糸 統之品霣取決於所依據棋式之精確性。因此•如果埴些語 音纗碼器欲得到高語音品»,則須使用一高傳真棋式。 一種經證實能提供良好品«語音且以中度至低度位元 率工作之語音模式是Griffin和Lim所發展的多頻帶激騙( 本紙張尺度逋用中國國家標準(CNS ) A4規格(210 X 297公釐) ----------ί 力衣-- -· (請先閱讀背面之注意事項再填寫本頁) 訂 經濟部中央揉準局貞工消费合作社印製 f A7 B7 五、發明说明(4) MBE)語音棋式。該棋式使用一彌性發音架構,其可產生更 自然的語音,且其在轚波背景雜訊之存在下更強健。埴些 性質使得MBE語音棋式被採用於一些商用行動通訊應用。 該MBE語音模式使用一基本頻率、一組二進位發音或 不發音(V/UV)決定以及一組諧波振幅表示語音片段。該 MBE棋式優於許多傳統横式之主要優點是在發音表示。該 MBE棋式將每個片段之傳統軍一 V/UV決定一般化成為一組 決定,各表示在一特定頻帶内之發音狀態。埴種在發音棋 式中之附加彈性使得MBE横式可較佳地容納混合的發音, 例如某些有聲的摩擦音。此外,此種附加彈性允許被轚波 背景雜訊干擾的語音有更精確的表示。進一步的测試示出 該一般化導致改良的聲音品霣和瞭解性。 一種MBE為主的語音煸碼器估計各語音片段之棋式參 數組。該MBE棋式參數包含一基本頻率•它是音距遇期之 倒數;一組將發音狀態特性化之V/UV決定;以及一組將頻 譜包络特性化之頻譜振幅。一旦對各片段估計出MBE携式 參數時•它們在編碼器被董化Μ產生一位元框。逭些位元 接著被Μ誤差更正/檢测碼(ECC)加Μ選擇地保護且所形 成的位元流被傳至一對應之解璀器。該解碣器轉換所接收 到的位元流回復至分別位元框,且進行理揮性的誤差控制 解《Μ更正及/或檢测位元誤差。所形成的位元接著被用 以簠建ΜΒΕ棋式參數而供解碼器合成在知覺上接近原始信 號之語音信號。賓際上,解碼器合成分別的有聲和無聲成 份且將二成份相加Μ產生最終输出。 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) 袈. 訂 經濟部中央標準局W:工消費合作社印裝 A7 ____B7_ 五、發明説明(5 ) 在MBE為主的系統中•在所估計基本頻率之各箱波處 使用一頻譜振幅以表示頻譜包絡。一般而言,依據包含對 應諧波之頻帶是否被直告為有聲或無轚而可禰示各諧波為 有轚或無轚。煸碼器接著對各諧波頻率估計一頻譜振幅, 且在先前技術之MBE系統中依據被摞示為有轚或無轚而使 用不同的振幅估計器。在解碼器處,有轚和無聲諧波再次 被辨雄且分雄的有聲和無聲成份被利用不同步》合成。無 聲成份被利用一種加播重叠相加法合成以遇漶白色雜訊信 號*該滅波器對於被宣告有聲的所有頻率區域設定為零而 對於檷示無轚者則配合其頻譜振幅。有®成份被利用一調 諧振撤器庫加以合成*而Μ—振盪器指定至各檷示有聲之 諧波。瞬間振幅、頻率和相位被内插以配合在鄰近片段之 對應參數。雖然ΜΒΕ為主之語音煽碼器已被證實可提供良 好性能,但它也具有導致語音品霣某些衮減之問囲。聆Β 測試證實,在頻域中之合成信號的振幅和相位必須被小心 地控制以便得到高語音品質和瞭解性。在頻譜振幅之處理 可有大範園之效應,但在中度至低度位元率之一共同間題 是引入一悶音品霣及/或在語音的Λ音之增加。逭些間颶 通常是由於在重建振幅中明顯的量化誤差(因太少位元)之 结果。語音音索增強法,其放大對懕於語音音索之頻譜振 幅而衮減其餘的頻譜振幅•已被採用以更正逭些間趙。疽 些方法改良隳覺品質,但最終它們引入的失真太大且品《 開始惡化。 由於相位假象之介入•那是由於解碼器必須再產生有 本紙張尺度適用中國國家揉準(CNS ) A4規格(210 X297公釐) (請先閱讀背面之注意事項再填寫本頁) tx
經濟部中央標準局員工消费合作社印製 J 293118 at B7 五、發明説明(6) 聲語音成份之相位所引起,而使得性能被進一步減低。在 低度至中度賁料率時,並沒有足夠的位元傳输任何相位賁 訊於钃碼器和解碼器之間。所Μ,钃碣器忽略實際信號相 位*且解碼器必須Μ產生自然語音之方式假象地再生發音 相位。 進一步的實驗證明再生相位在聽覺品質上具有明顯的 影響。再生相位之早期方法包括從某組初始相位之諧波頻 率的簡單積分。這步驟確保有轚成份在片段邊界處是連獷 的;然而,S擇一組可導致高品質語音之初始相位是有問 颶的。若初始相位被設定為零,則所形成的語音有嗡嗡聲 ,而若初始相位是嫌櫬,則語音有迴響。對於瑄结果有一 說明於美画專利煸號5,081,681之較佳方法,其取決於V/UV 決定,一受控的随機悬被加至相位以調整“嗡嗡轚”和“ 迴響”之間的平衡。聆眩測試示出當有轚成份主宰語音時 最好有較少的随櫬性*而當無轚成份主宰時最好有較多的 相位《櫬性。所Μ,在此法中計算出一簡軍的發音比例Μ 控制相位随櫬量。雖然依據發音的醣機相位已證實足夠於 許多應用,聆»試驗仍指出在有聲的成份相位中有一些品 霣問題。試驗證實利用以更靠近配合»際語音之方式而在 各諧波頻率分別控制相位以取代随櫬相位,可明顯地改良 聲音品質。逭發規形成本發明,此處以較佳實梅例說明。 在一第一論黏中,本發明係有闞在語音合成中一種再 生有轚成份相位之改良法。該相位是從有轚成份的頻譜包 絡(例如,從有聲成份附近的頻譜包絡形狀)估計出。解碼 本紙張尺度適用中國國家標準(CNS ) A4规格(210X 297公釐) (請先閱讀背面之注意事項再填寫本頁) 訂 10 經濟部中央標隼局貝工消費合作社印裝 A7 __B7_ 五、發明説明(7 ) 器對於多數個音框之各個重建頻譜包絡和發音資訊,且該 發音資訊被用以決定一特定音框之頻帶是有S或無轚。對 於有聲頻箝利用再生的頻譜相位資訊合成語音成份。對於 無轚頻帶的成份則利用其他技術,例如由一濾波器對於一 随檄雜訊信號之響應,而產生,其中該濾波器具有近似無 聲頻帶之頻譜包絡且在有聲頻帶中具有接近零之振幅。 最好是,合成語音信號被合成之數位位元包括代表基 本頻率資訊之位元•且頻譜包絡資訊包括在基本頻率之諧 波倍數之頻譜振幅。發音資訊被用以禰示有聲或無聲之各 頻铕(以及在一頻帶内之各諧波)*且對於一有轚帶内之諧 波·一分別相位以該諧波頻率附近之頻譜包络(由頻譜振 幅所表示之頻譜形狀)之函數再產生。 最好是,頻譜振幅•不論一頻帶是有聲或無》*代表 頻譜包络。再產生的頻譜相位資訊是利用_加一邊緣檢測 函數核於頻譜包络之表示而決定,且應用該邊緣檢测函數 核之頻譜包络的表示被®縮。語音成份利用一組弦波振通 器庫而至少部份地決定*其中該等振邇器特性是由基本頻 率和再生頻譜相位資訊而決定。 本發明產生K峯值對均方根值而言相對於先前技術更 靠近*際語音之合成語音*因而形成改良之動慇範函。此 外,合成語音IS起來更自然且具有較少Μ於相位之失真。 本發明之其他特點和優點將可從下列較佳實施例的說 明和申請專利範_而更明白。 -第1圖岳太發明夕新“£為羊語苷煸礓器之圔形。一 本紙張又度適用中國國家橾準(CNS ) Α4規格(210Χ297公釐) 11 (請先閲讀背面之注意事項再填寫本頁) ,今 1Τ- 經濟部中央橾準局貝工消费合作社印製 A7 ______B7_ 五、發明説明(8 ) 數位語音信號s(n)首先K 一滑動窗函數<yU-iS)合成片 段,其中之框移位S—般等於20 ms。所形成語音片段,K S»(n)示之,接著被處理Μ估計基本頻率ω。,一組有聲/ 無聲決定,以及一組頻譜振幅L。在以快速傅立爾轉 換(FFT)將語音片段轉至頻域之後,頻譜振幅與發音資訊 無闞地被計算出。MBE棋式參數框接著被ft化且编碼成為 一數位位元流。«擇性的FEC冗餘量被添加上去Μ保護位 元流免於傳输時之位元誤差。 第2圜是本發明之新ΜΒΕ為主語音编碣器之形。該 數位位元流•由第1圜所示之對應纗碼器產生,首先被解 碼且用Μ重建各MBE棋式參數框。重建的發音賁訊,vfc· 被用Μ重建Κ個發音帶且依所屬各帶的發音狀態而播示各 諧波頻率為有聲或無聲。頻譜相位* ,從頻譜振幅ih 再產生 > 且接著被用Μ合成代表所有禰示有轚之鍇波頻率 之有聲成份su (η)。該有聲成份接著被加至無轚成份(代表 無聲帶)以產生合成語音信虢。 本發明之較佳實施例Μ—種新ΜΒΕ為主語音編碼器加 Μ說明。該糸统適用於廣大應用範圃,包括行動通訊應用 如行動衛星、细胞式®話、地面行動無線《(SMR,PMR)等 等。該新語音編碼器組合具有一奇特分析/合成步»之檷 準ΜΒΕ語音横式而用以計算棋式參數且從疽些參數合成語 音。新方法使語音品質改進而且降低編礓及傅_語音信虢 所需的位元率。雖然本發明Μ此特定的ΜΒΕ為主語音钃碼 器加Μ說明,此處所掲示之技術和方法可由热習本技術者 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) 12 ----------{,衣-----.—訂 ^------{) (請先閱讀背面之注意事項再填寫本頁) 經濟部中央揉準局員工消费合作社印装 A7 ___B7_ 五、發明説明(9 ) 容易地應用於其他系统和技術而不脫離本發明之精神和範 園。 在新MBE為主語音编碼器中,一組M8 kHz取樣之數位 語音信號首先被利用一短(20-40 ms)窗函數如一漢明窗乘 以該數位語音信號而合成重叠Η段。音框一般以此方式每 20 ms計算一次,且對於各音框算出基本頻率和發音決定 。在新MBE為主之語音纗碼器中•埴些參數是依據待決美 國専利申請案•序號08/222,1 19和08/371,743 ·檷薄均為 “激膽參數之估計”所述之新改良法而算出。另外•基本 頻率和發音決定可依TIA暫時禰準IS102BABA,_趙“APC0 計劃25音钃器”所述算出。在各情況中,小數量之發音決 定(一般是12或更少)被用Μ表示各音框內不同頻帶之發音 狀態。例如,在一 3.6 kbps語音纗碼器中,一般使用8個 V/UV決定以表示0至4 kHz之間8個不同頻帶之發音狀態。 令s (η)代表分離語音信號,第1涸音框之語音頻譜, S„U,i · S)依下式計算
Sw(w, i.) = y^s{n)w{n - 7: · S)c~ju,n (1) η 其中ω (n)是窗函数且S是音框大小,其一般是20 ms (8 kHz 取搛之160樣本)。對於第i傾音框所估計之基本頻率和發 音決定接蓍分別表示為ω 〇 U ·各)和vK(i · S),lskj,其 中K是V/UV決定之總數(一般κ = 8)。為籣化表示,當參考目 前音框時•音框指摞i· S可被略去,因此目前頻譜、基本 頻率、和發音決定可分別表示為:Su(o>),ω。和vfc。 本紙張尺度逋用中國國家樣车(CNS ) A4規格(2丨0X297公釐) 13 ---------·{衣----1--許------二 (請先閱讀背面之注意事項再填寫本頁) A7 B7 五、發明説明(10) 在MBE糸统中,頻譜包络一般Μ從語音頻譜S„(〇> )估 計出的一組頻譜振幅表示。一般在各諧波頻率(亦即在ω= <y。l,l = 0,l,...)計算頻譜包絡。與先前技術MBE系統不 同的,本發明具特激於利用與發音吠態無闞地估計埴些頻 譜振幅之一種新方法。因為不連鑛性被消除,它們一般是 當一發音轉變發生時在先前技術ΜΒΕ系統中出現,可形成 較平滑的一組頻譜振幅。本發明也具特激於提供局部頻譜 能霣之正確表示而保留聽覺音霣之附加優點。而且•本發 明保留局部頻譜能ft而能補償一般高效率快速傅立爾轉換 (FFT)所採用頻率取樣格子效應。瑄也有肋於得到一组平 滑的頻譜振幅。平滑性對於整體性能是重要的*因它壜加 量化效率且允許較佳之音素增強(亦即後级»波)Μ及通道 誤差減輕。 經濟部中央橾準局MC工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁) 、衣. tr· 為了計算一組平滑的頻譜振幅·需要考慮有聲或無聲 語音的性質。對有聲語音而言,頻譜能董(亦即丨Su(〇>)丨 集中在諧波頻率,而對於無聲諝音*頻譜能量更均勻地分 佈。在先前技術MBE糸统中,無轚頻譜振幅是K各對應諧 波頻率為中心而涵蓋一頻率區間(一般等於所估計之基頻) 之平均頻譜能量計算出。相對地,在先前技術MBE系统的 有聲頻譜振幅被設定等於在相同頻率區間癉頻譜能量之某 些分量(通常是一)。因為平均能量和總能量可能非常不同 *尤其是當頻率區間廣大時(亦即,一種大的基頻)·當在 發轚吠態之連鑛轉變時(亦即•有聲至無轚,或無聲至有 聲),通常有一不連鑛性介入頻譜振幅中。 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) _ 14 - 經濟部中央樣準局貝工消费合作社印製 2^3118 A7 B7 五、發明説明(11) 能解決上述先前技術MBE系統中所發現問思之一種頻 譜振幅表示是將各頻譜振幅表示為一對應區間内之平均頻 譜能量或瘅頻譜能量。雖然這兩種解決方法可移去在發轚 轉變處之不連缜性,但當與一頻譜轉換,如快速傅立爾轉 換(FFT)或對等之分離式傅立爾轉換(DFT)組合時,二者均 引入其他之變動。實際上,FFT通常用以在由FFT畏度N, 其一般是2的次方,所決定之均勻取樣格子上計算SM(o>) 。例如,一個N點FFT將產生在0至2 π間的N個頻率取樣, 如下式所示:
Sw(m) = Nf^s(n、w(n - i. ΐον Ο < m < N (2) n=0 在較佳實施例中,頻謅是用H = 256之FFT計算出,且 ω (η)—般被設定等於表1所示之255點對稱窗函數。 由於其複雜性,需使用FFT計算頻譜。但是,所形成 之取樣區間,2π/Ν,一般不是基頻倍數之倒數。所Μ * 在諧波之間任何二連縝諧波頻率之間的FFT取樣數並非一 定。其结果是,如果用平均頻譜能董表示諧波振幅*則有 聲諧波,其具有集中之頻譜分佈,因為用以計算各平均值 之FFT取樣變化數目而將在諧波之間經歷變動。相似地, 如果用蠔頻譜能量表示鍇波振幅時,則無聲箝波,其具有 更均勻頻譜分佈,因為計算總能量之?丨1:取樣變化數目而 將在諧波之間經歷變動。在各情況中,得自FFT之小數目 頻率取樣可能在頻謙振幅中引入尖銳之變動•尤其當基本 頻率小時更是如此。 本紙張尺度適用中國國家橾準(CNS ) A4规格(210X297公釐) -15 - (請先閲讀背面之注意事項再填寫本頁) 訂 Μ五、發明説明(l2) Α7 Β7 本發明使用對於所有頻譜之一種補償總能量方法以消 除在發聲轉變處之不邃續性。本發明之補償法也防止FFT 有闥之變動使有《或無《振幅失真。尤其是,本發明依據 下式計算目前音框之一組頻譜振幅· M fh表之,Os IsL: Μι S^[^(m)|2g(^P-^〇) ^ Σ,η=0 ^2{η) (3) 從上式可看出*各頻譜振幅是Μ頻譜能量I s»(b) I »之加 權和計算出,其中加權函数對各特定頻譜振楢Μ諧波頻率 加Μ偏移。加榷函數6(ω)被設計Μ補償諧波頻率1ω。和 在2 π m/N發生的FFT頻率取樣之間的差量。該函數依下式 在各音框變化以反應所估計之基本頻率: 1 for |ω| < 专—昜 0 otherwise ⑷ 經濟部中央橾準局負工消费合作社印製 該頻譜振幅表示之一有用性質是對於有轚和無聲諧波而言 它均是依據於局部頻譜能霣(亦即I Sw(m)丨*)。頻繕能量 一般被認為極近似人類對語音的知覺,因為它傳送相對頻 率內含和音最資訊而不受語音信號相位之影響。因為新的 振幅表示法與發轚狀態無關,在表示中沒有因為有聲和無 聲區域之間的轉變或因為有聲和無聲能曇之混合而引起的 變動或不連績性。加攉函數6(〇))進一步地移除由於FFT取 樣格子引起的任何變動。這可利用一種平滑方式内插在所 估計基頻的鍇波之間所fi测之能置而達成。在第(4)式所 示加權函數之另一優點是在語音內之期能量被保留在頻譜 --------人衣------訂------{-· 1 - (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度逋用中國國家橾準(CNS ) A4規格(210X297公釐) 16 A7 B7 五、發明説明(I3) 振幡内。瑄可檢視下列在頻譜振幅組之瘅能最的方程式而 更明白。 I Λ N-l L· 1 (請先閲讀背面之注意事項再填寫本頁) Σ 丨 —ίω〇) (η) m=0 ί=0 (5) Ν iv Σή=〇ι 瑄式子可因在區間(^DIS ^之之和等於1而 化籣。這表示在語音中之雄能置在該區間被保留,因為在 頻譜振幅之能fi等於在語音頻繒內之能量。注意•在第(5) 式之分母只用Μ補償依據第(1)式計算S„U)之窗函數ω (η) 。另一重點是該表示之帶寬取決於乘稹L〇> 〇。實際上*所 需帶寬逋常是Κπ表示之尼奎士頻率之分董。所以,頻譜 振幅之總數L與對於目前音框所估計之基本頻率成反比闢 係且一般Μ下式計算: /=〇
L ⑹ 衣 訂' ω〇 經濟部中央樣準局員工消費合作社印製 其中Osot ίΐ。一使用8 fcHz取樣率之3.6 fcbps糸統被設計 具有α=.925而提供3700 Hz之帶寬。 與上述不同的加權函數也可使用於第(3>式中。事實 上•如果在第(5)式之6(ω)之和在某些作用帶寬時大約等 於一常數(一般是一),則缌功率維持不變。在第(4)式之 加權函數在FFT取樣區間(2π/Ν)使用媒性内插而使取樣格 子所引入之任何變動平顚化。或是,可將二次或其他内插 法併入(3(ω)而不脫離本發明之範围。 雖然本發明經由ΜΒΕ語音棋式之二進位V/UV決定加Μ 說明*本發明也逋用於使用不同發音賣訊表示之糸統。例 本紙張尺度適用中國國家揉準(CNS ) Α4規格(2!0X297公釐) 17 m m 經濟部中央橾準局貝工消费合作社印製 A7 B7 五、發明説明(14) 如•在弦波鏞碼器中普通使用之一種方法是κ一截止頻率 表示發轚資訊•其中頻譜在截止頻率Μ下為有轚且截止頻 率以上為無《。其他之延伸,例如非二進位發轚資訊,也 將因本發明而受益。 因為由FFT取樣格子所引起的發聲轉移和變動之不連 纊性被凿免,所以本發明改進振幅表示之平顒性。一資訊 理論之習知结果是增加之平顒性便利Μ小數目位元對於頻 譜振幅之精確量化。在3·6 kbps系統中,使用72位元對於 各20 ns音框量化棋式參數。7個位元被用Μ量化基本頻率 ,且8個位元被用以編碼8個不同頻箝(大約每頻箝500 Hz) 之V/UV決定。每個音框的其餘57位元被用Μ量化各音框之 頻譖振幅。一種微分方塊離敗餘弦轉換(DCT)方法被應用 於對数的頻譜振幅。本發明之增加平順性將大部份的信號 功率堆於缓慢變化的DCT成份。位元安排和量化器步距被 加以調整Μ顧嫌對於每音框之可用位元數目而言有較低之 頻譜失真。在行動通訊應用中,在傳經行動頻道之前通常 需包含附加之冗餘悬至位元流。該冗餘悬一般是利用誤差 更正及/或檢測碼產生*其添加該附加冗餘董至位元流之 方式使得當傳輪時介入之位元誤差可被更正及/或檢測。 例如•在一 4.8 kbps行動衛星應用中,有1.2 kbps冗餘資 料加至3.6 kbps之語音資料。一格雷碼和三個漢明碼之組 合被用Μ產生添加至各音框的附加24冗餘位元。許多其他 型式的誤差更正碼•例如捲積、BCH、Reed-Soloeoii等· 也可被採用以變化誤差之強健性而實際地符合任何通道條 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 18 (請先閲讀背面之注意事項再填寫本頁) 裝. 言 經濟部中央標準局貝工消費合作社印装 Μ A7 B7 五、發明説明(15) 件。 在接收器處,解碼器接收傳輪之位元流且重建各音框 之棋式參數(基本頻率、V/UV決定和頻譜振幅)。實際上, 所接收的位元流由於通道中之雜訊而可能含有位元誤差。 结果,V/UV位元可能被錯誤地解碼》専致一有轚振幅被解 釋為無轚或相反。本發明減少由埴些發聲誤差引起的聽覺 失真•因振幅本身與發聲狀態無關。本發明之另一優點發 生於接收器處之音素強化時。實驗證明如果在音素峯值之 頻譜振幅相對於在音素谷底之頻譜振幅被增加•則驄覺品 '質壜強。這程序傾向於反轉當量化時介入之某些音素變宽 。語音接蕃K起來較淸晰且較少迴響。寅際上,在大於局 部平均值處頻譜振幅被增加且在小於局部平均值處頻譜振 幅被減小。不幸地·在頻譜振幅之不連鑛處可能Μ音素形 式出現,引起不竇的增加或減小。本發明之改良平順性有 助於解決逭問題而能有改進的音素強化且減少不實的變化 0 如先前之ΜΒΕ系統一般,新ΜΒΕ為主的編碼器並不估計 或傳送任何頻譜相位資訊。所Μ ·新ΜΒΕ為主解碼器在有 聲語音合成時必須對所有的有聲諧波再產生一合成相位。 本發明具特戡於一種新的振幅相闢之相位產生法•其更接 近實際的語音且改進所有的轚音品質。在有聲成份中使用 随機相位之先前技術被頻譜包錤之局郤平順性所取代。埴 可由線性糸統理論所裁定,其頻嫌相位是取決於極點和零 點位置。逭可利用將相位與頻譜振幅中平順性之位準連接 本紙張尺度適用中國國家標準(CNS ) Α4规格(210Χ297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝. 訂 19 五、發明説明(16) A7 B7 而被携式化。實際上*下列形式之邊緣檢测計算可應用於 目前音框之解碼頻譜振幅:
D Φΐ = h(m.)Bi+r m= — D
for 1 < / < L ⑺ 經濟部中央橾準局負工消费合作社印«. 其中1代表壓縮的頻譜振幅且h(m)是一逋當調整之邊緣檢 測函數核。這式子的输出是一組再產生之相位值·其 決定有聲諧波之間的相位關係。應注意到,埴些值不論發 轚狀態而對所有諧波被定義。但是,在MBE為主之系铳中 ,只有聲合成步驟使用埴些相位值*而無聲合成步》忽略 它們。實際上,再生相位值是對所有諧波被計算且儲存, 因為當下一音框合成時它們將被採用,下面將詳细說明( 參考第2Q式)。 壓縮振幅參數h—般是利用將頻譜振《Mt傳經通一組 壓擴函數而計算出以減小它們的動態範画。此外*進行外 插Μ產生超《振幅表示邊緣(亦即Id且1SL)之額外頻譜值 。一特別適當的颳縮函數是對數函數,因它將頻譜振幅th 之整個幅度(亦即其音量)轉成在Bx之相加差量。假定在第 7式中的h(n)是零均值,則該差董被忽略且再生相位值炎i 與幅度無醐。實際上使用log» ·因它在數位霣騮上容易計 算。逭導致下列1之表示式: Βι
0 for / = 0 log2(M/) for 1 < |i| < L log2(Mi,) - η *{l- L) ί〇ΐ L < \l\< L + D (8) 對於1>L之外插Bt值被設計以強調在所代表頻帶宽上方之 本紙張尺度逋用中國國家標準(CNS ) A4規格(210 X 297公釐) 20 (請先閱讀背面之注意事項再填寫本頁) 策. 訂 A7 B7 五、發明説明(17) 譜波頻率處之平順性。在3.6 kbps系統中使用7=.72之值 •但該值並不嚴格,因為高頻率成份一般比低頻率成份對 整個語音有較小之貢獻。聆聽測試證賁對於lUSBt值在 _覺品質上可具有明顯影響。在1 = 0之值被設定為一小值 ,因為在許多應用中,例如電話*沒有DC響應。此外,聆 聽测試也示出對於正性或負性末鏞最好是BD=Q。一種對稱 響應B-^Bt的使用是依據於糸統理論Μ及聆臃测轼。 對於整個品質而言,一逋當邊緣檢测函數核h(m)之理 取是重要的。形狀和幅度均影響在有聲合成中使用的相位 變數,但是一廣大範圃之可能函數核可被成功地採用 。已被發現有多個限制可導致良好設計之函數核。明確地 說*若h(m)匕0,η>0且若h(n)=-h(-m) ·則該函數一般較遘 於將不連獷性局部化。此外•可利用h(0)=0之限制而得到 與幅度無醑之零均值函數核。另一必須性霣是,當丨丨 增加時,h(m)的絕對值應衮減K便集中於在頻譜振幡之局 部變化。埴可使h(B〇與b成反比而達成。在許多方程式中 滿足所有埴些限制之一種示於第9式。 經濟部中央梯準局貝工消費合作社印製 —for τη odd and — ί) < m < D /〇\
h{m.) = m W 0 otherwise 本發明之較隹實fe例使用具有λ =0.44之第9式。逭值能產 生具有遘度複雜性之好》語音,並且合成的語音具有接近 原始語音之峯值對均方根值能Μ比。具有不同λ值之測試 證實從較佳值之小變化導致接近相等之表現。函數核長度 21 ----------{ 篆-- (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度逋用中國國家標準(CNS ) Α4規格(210X 297公釐) 經濟部中央橾準局貝工消費合作社印装 α 293118 A7 A7 B7 五、發明説明(18 ) D可被調整以便在複雜性和平順量之間折衷。聆K者一般 偏好較長的D值·但發現D = 19之值可相當於較長之長度且 因此D = 19被採用於新的3.6 kbps系统中。 應注意到,第7式的形式使得各音框之再生相位爱數 可經由一組順向和反向FFT運算而計算出。依據處理器類 型,FFT之製作可以比直接計算對於大D和L值有較佳之計 算效率。 再生相位變數之計算可利用本發明之與發轚狀態無闞 的新頻譜振幅表示而更便利。如上面所述,第7式的函數 核強調邊緣或在頻譜包絡中之其他變動。逭可利用頻譜相 位被連接之一線性糸铳的相位闞係經由極點和零點位置而 接近在頻譜振幅之變化而逹成。為了採用該性霣之優黏, 相位再生步驟必須假設頻譜振梅精確地代表語音之頻繒包 絡。瑄可由本發明之新頻譜振幅代表而達成•因為它產生 比先前技術更平順之一組頻譜振幅。移除由發》轉變和FFT 取揉格子所引起的不連續性和變動可更精確地估計在頻繒 包絡之真正改變。所Μ ·相位再生被強化,且整β語音品 質被改進。 一旦再生相位變數4 ^被依上述步驟計算之後,有聲 合成程序Μ第10式所示分別弦波成份之和合成有聲語音 s„(n)。該有聲合成法是依據一籣單顒序諧波指定而將目 前音框的第1僱頻譜振幅與先前音框的第1個頻譜振幅配 對。在該程序中•目前音框之諧波數目、基本頻率、V/UV 決定Μ及頻譜振《分別ML(0)、ω »(0)、vdO)*、(0)表 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) I衣. >1T- 22 m 經濟部中央標準局貝工消费合作杜印製 A7 B7 五、發明説明(19 ) 示,而先前音框之相同參數則ML(-S)、<yD(-S)、Vk(-S) 和Mi (-S)表之。S值等於音框長度,在新的3.6 kbps系统 中是2 0 m s (16 0個取樣)。 moi(£,(-5),L(0)]
Sv(n) = [ 2 · sv^i(n) for -S < η <Q (10) (=1 有轚成份sw,i(n)代表從第1個諧波對至有轚語音的 貢獻。實際上,有聲成份被設計成級慢變化弦波,其中各 成份之振幅和相位被調整K便在目前合成區間之末蟠(亦 即在n = -S及n=0)近似來自先前和目前音框之棋式參數,而 在整個區間,-S<n<0,在疽些參數之間平順地内插。 為了容納在連缜音框間參數之數目可能不同之搴資, 該合成法假設超出允許箝宽之所有諧波等於零•如下列式 子所示。 Μι(0) = 0 for / > L(0) (11) Mi(—S) = 0 for l > L{-S) (12) 此外,它假設在正常帶寬外側之頻繒振幅被禰示為無聲。 埴些假設對於在目前音框之頻譜振幅數目不等於在先前音 框之頻繒振幡數目之情況是需要的(亦即L(0);iL(-S))。 對於各旛波對而言•振輻和相位函數被不同地計算。 尤其是•在基本頻率之發聲狀態和相對變化抉定對於目前 合成區間而言四組可能函數之何組被採用於各鍇波。如果 對於先前和目前音框而言第1個諧波被禰示為無聲*則第 一種可能狀況發生*在該情況下,有聲成份在整«區間被 設定為零*如下式所示。 本紙張尺度遑用中國國家標準(CNS ) A4坑格(210X297公釐) 23 (請先閲讀背面之注意事項再填寫本頁) 訂- 經濟部中央橾準局i消费合作社印製 一 A7 B7_ 五、發明説明(2〇)
Sv,l(n) = 0 for -S < η < 0 (13) 在疽情況中,在第1個諧波附近之語音能量完全無聲且無 聲合成步驟負貴合成整個作用。 或是,如果第1個諧波對目前音框而言被標示為無聲 且對先前音框而言為有聲,則s„,i (η)Μ下式決定。 sVti{n) = w3{n + S) Mt{-S) cos[w〇(-5) {n + S)l+ for -S < n : 在此情況中,頻譜區域中之能悬在整涸合成匾間中從有轚 合成法轉至無聲合成法。 相似地,如果第1個鍇波對於目前音框而言被標示為 有聲且對於先前音框而言為無音•則Sw^u) Μ下式決定 之0 s„,f(n) = %(η) Μ/(0) cos[u>〇(0) η Ζ + 力(0)j for — S < η < 0 (15) 在此情況中,頻譜S域中之能量從無轚合成法轉至有聲合 成法。 另外,如果第1個諧波對於目前和先前音框而言被標 示為有聲,且如果Id或丨ω 〇(0)-〇> 〇(-S) I匕.1ω 〇(0), 則以下式決定,其中變數η被限制於-S<nsO之範園 0
Sv,i(n) = + S)的(—S) cos[w〇(—51) (η + Z + 内(―S)] + ios(n) Λ/,⑼ cos[w〇(0) η Z + 0,(〇)j (16) 諧波在二音框被檷示為有轚之事實對應於局部頻譜能量維 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) ---------人策-----^_丨訂------{:>«- 黌 (請先閲讀背面之注意事項再填寫本頁) 24 經濟部中央棣準局負工消費合作杜印裝 A7 B7_ 五、發明説明(21 ) 捋有聲且完全在有轚成份内被合成之情況。因為疽情況對 懕於在諧波頻率之相對大變化,一重叠相加之步驟被用以 組合來自先前和目前音框之寅獻。在方程式(14)· (15)和 (16)中所使用的相位變數Θ t(-S)和0 ^ (0)是利用在n=-S 及n = 0估計在第20式所述之連鑛相位函數θ 1 (η)而決定。 如果對於目前和先前音框而言第1涸頻譜振幅是有轚 •且如果1<8及丨ω 〇(0)-ω d(-S)丨匕·1α>。(0),則使用最 终之一種合成法。如同在先前情況,埴事件只當局部頻譜 能量是完全有聲時發生。但是*在埴情況中*在先前和目 前音框之間的頻率差很小而使得在合成區間之旋波相位有 連缅性轉變。在此情況,有聲成份以下式計算· 4,ί(η.) = a,(n) cos[力(n)j for -5 < η £ 0 (17) 其中振幅函數(n)是依(18)式計算•且相位函數0 x (η) 是在(19)和(20)式中所述之低階多項式型式。 ai(n) = ws(n + S) Mi(-S) + w3(n) M/(0) (18) θι{η) — 〇i{-S) + [ω〇(-5) / + Δω;](π + 5) + [ω〇(0) - ω〇(-5)] · ’(η + 歹),,(⑼
*2iS △叫=I - M-s) - 24^2). -^.75)+ (20) L 2tt 上述之相位更動程序使用本發明之再生相位值於先前和目 前音框(亦即φι(0)和控制第1個諧波之相位函 數。埴是經由在(19)式所示之二階相位多項式而達成,其 經由一镍性相位項而在合成邊界末端確保相位之連缅性且 其另外也符合所要求之再生相位。此外•逭相位多項式之 本紙張尺度逋用中國國家梂準(CNS ) A4規格(210X 297公釐) 25 (請先閲讀背面之注意事項再填寫本頁) 訂 經濟部中央橾率局貝工消费合作社印袈 Α7 Β7 五、發明説明(22 ) 變化率大約等於在區間末端之缠當諧波頻率。 在(14)、(15)、(16)和(18)式所用之合成窗ω,(η) — 般被設計而内插於目前和先前音框之棋式參數之間。如果 下列重叠相加方程式滿足於整個目前合成區間*則可有利 達成。 ws(n) + w3(n + S) = 1 for < n < 0 (21) 一種合成窗滿足上面限制且在新的3.6 kbps糸统中有用, 其定義如下: '1 for |n| < (5-)3)/2 1 + (1'社 for (5-^)/2<n<(5+/?)/2 u;s(n) = < p (22) 1 + iS=g±2n for >n> _(S+^)/2 0 otherwise
N 對於一 20 ms音框大小(S = 160),通常使用/3=50。在(22) 式所示之合成窗主要等於使用線性内插。 經由(10)式和所述步《合成的有轚語音成份仍須被加 至無聲成份Μ完成合成程序。無聲語音成份3„„ (η)—般是 以在有轚頻帶為零之濾波器響應Κ及在無轚頻帚由頻繕振 幅決定之«波器響應《濉一白色雑訊信«而合成。實際上 •埴可經由使用一姐顚向和反向FFTM進行濾波之一加權 簠疊相加步嫌而達成。因為疽步驟為一般習知•其细節可 參考相鼷文獻。 此處所述之特定技術的各種變化和延伸可被採用而不 脫饑本發明之精神和範_。例如*在(19)式中可用具有正 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) 26 (請先閲讀背面之注意事項再填寫本頁) 袈· ir 經濟部中央梂準局員工消費合作社印製 一 293118 A7B7五、發明説明(23 ) 確邊界條件之三次項取代Λωι項而使用三階相位多項式 。此外,先前技術說明各種窗函數和内插法以及其他變化 *本發明之其他實腌例在下面申講専利範園内。 ----------{本------訂------C I m (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) A4規格(210X29?公釐) 27 經濟部中央標準局貝工消費合作社印製 A7 B7 五、發明説明(24) 表1 :較徉窗函»(2夕1) η χυ(η) v?(-n) η vj(n) = w(-n) 0 0.67217G 32 0.596732 1 0.672100 33 0.592X72 2 0.671868 34 0.587499 3 0.67U83 35 0.582715 4 0.670944 30 0.577824 5 0.670252 37 [),572828 6 0.669406 38 0.567729 7 0.668408 39 0.562530 8 0.667258 40 0.557233 9 0.6C595C 41 0.551842 1ϋ 0.664504 42 0.5d635S 11 0.662901 43 0.540785 12 0.661149 44 0.535125 13 0.659249 45 0.529382 14 0.657201 46 0.523558 1δ 0.655008 47 0.5] 7655 16 0.652668 48 0.511677 17 0.650180 49 0.505628 IS 0.6475C0 50 ϋ.499508 19 0.644794 51 0.403323 20 0.641887 52 0.4S7U74 21 0.638843 53 0.480765 22 ϋ.635602 54 0.474399 23 0.632346 5δ 0.467979 24 0.C28896 56 11.461507 25 0.6253X5 57 0.454988 26 0.62IG05 58 0.448424 27 U.6177G7 59 0.441818 28 0.613803 60 0.435173 29 ϋ.609716 61 0.428493 30 0.605506 62 0.-121780 31 0.601178 1 63 1 0.415038 (請先閱讀背面之注意事項再填寫本頁) 一衣· 訂 本紙張尺度逋用中國國家橾準(CNS ) A4規格(210X297公釐) 28 五、發明説明(25) A7B7 表2 :酧佳窗函»(2夕2) 經濟部中央標準局員工消费合作社印製 η νι(η) = v)(~n) 71 w(n) = v)(-n) 64 0.408270 96 0.195568 6〇 0.401478 97 0.189549 66 0..394667 98 0.183595 67 0.3S7839 99 0.177708 68 0.380996 100 0.171889 69 0.374143 101 0.166141 70 0.367282 102 0.1604C5 71 0.360417 103 0.154S62 72 0.353549 104 0.149335 73 0.346G83 105 0.143885 74 0.339S21 106 0.138513 75 0.332967 107 0.133221 76 0.326123 108 0.128010 77 ϋ.319291 109 0.122882 78 0.312470 no 0.11.7838 79 U.305679 111 0.11287.9 80 0.298904 112 (U08U05 81 0.292102 113 0.103219 82 0.285429 114 0-098521 83 0.278733 115 0.093912 84 0.272073 116 0.089393 85 U.265446 117 0,084964 86 0.258857 118 0.080627 87 0.252308 119 0.076382 8S 0.245802 120 0.072229 89 0.239340 121 0.068170 90 0.232927 122 0.064204 91 0.226562 123 0.051844 92 0.220251 124 0.040169 93 0.213993 125 0.029162 94 0.207792 126 0.018809 95 0.201650 127 0.009094 (請先閱讀背面之注意事項再填寫本頁) 訂 本紙張尺度適用中國國家橾準(CNS ) A4規格(210X297公釐) 29

Claims (1)

  1. Λ Λ 經濟部中央標準局負工消费合作社印製 Α8 Β8 C8 D8 六、申請專利範圍 1. 一種從多數涸數位位元解碼且合成一合成的數位語音 信號之方法,該等數位位元之產生是利用分割一語音 信號成為多數個音框•決定各音框之多數®頻帶之各 帶應被合成為有轚或無轚頻帶之發轚賁訊表示;處理 該等語音音框Μ決定在該等頻帶之頻譜振幅之頻譜包 络資訊表示,以及量化且钃碼該頻譜包络和發聲資訊 •其中用以解碼且合成該合成數位語音信號之該方法 包含的步驟有: 將該等多數個位元解碼Μ提供多數個音框之各音 框的頻譜包絡和發聲賁訊; 處理該頻譜包絡資訊以決定該等多數個音框之各 音框的再生頻譜相位賁訊; 從該發®資訊決定對於一特定音框的頻帶是有轚 或無聲; 對於有聲頻帶使用該再生頻譜相位賁訊合成語音 成份; 在至少一無聲頻帶合成表示該語音信虢之一語音 成份;以及 利用姐合對於有轚或無S頻帶之該等合成語音成 份而合成該語音信號。 2. —種從多數個數位位元解碼且合成一合成的數位語音 信號之櫬構,該等數位位元之產生是利用分割一語音 信號成為多數個音框*決定各音框之多败個頻帶之各 帶應被合成為有聲或無聲頻帶之發聲賁訊表示·•處理 本紙張尺度適用中國國家標隼(CNS ) Α4規格(210Χ297公釐) 30 (請先閲讀背面之注意事項再填寫本頁) 袈. 訂 m m A8 B8 C8 D8 293118 七、申請專利範圍 該等語音音框以決定在該等頻箝之頻譜振椹之頻謙包 络資訊表示,Μ及量化且鑭碼該頻譜包络和發聲賁訊 ,其中用Μ解碼且合成該合成數位語音信號之該櫬構 包含有: 將該等多數個位元解碼Μ提供多數個音框之各音 框的頻譜包络和發聲資訊之装置; 用Κ處理該頻譜包絡賁訊Μ決定該等多數偁音框 之各音框的再生頻譜相位賁訊之装置; 用Μ從該發聲資訊決定對於一特定音框的頻箝是 有轚或無聲之裝置; 用Μ對於有聲頻帶使用該再生頻譜相位責訊合成 語音成份之裝置; 用Μ在至少一無聲頻帶合成表示該語音信號之一 語音成份之裝置;以及 用以利用組合對於有聲或無轚頻帶之該等合成譖 音成份而合成該語音信號之装置。 3. 如申講專利範圈第1或2項之方法或檐構,其中該合 成語音信虢用Μ合成之數位位元包含代表頻譜包絡和 發聲資訊之位元以及代表基本頻率賁訊之位元。 4. 如申謫専利範画第3項之方法或檐構·其中該頻譜包 絡資訊包含代表在該語音信號之基本頻率的諧波倍數 處之頻譜振轘之賁訊。 5. 如申謫専利範園第4項之方法或櫬構·其中該等頻譜 振幅代表與一頻帶是有轚或無轚不相醐之頻譜包络。 本紙張尺度適用中國國家標準(CNS ) Α4规格(210X297公釐) -31 - (請先閱讀背面之注意事項再填寫本f) 策· 訂 經濟部中央揉準局貞工消费合作社印袈 293118 A8 B8 C8 D8 六、申請專利範圍 6. 如申請專利範園第4項之方法或機構,其中該再生頻 譜相位資訊是從與該再生頻譜相位賁訊有闞之鍇波倍 數附近的頻譜包络形狀而決定。 7. 如申請專利範園第4項之方法或櫬構·其中該再生頻 譜相位賁訊是利用施加一邊緣檢測函數核於一頻譜包 絡之表示而決定。 8. 如申請專利範園第7項之方法或機構,其中該邊缘檢 测函數核所施加之該頻譜包络的表示被加Μ壓嫌。' 9. 如申請專利範圓第4項之方法或機構·其中該合成語 音信號之無聲語音成份是從響應一隨櫬雑訊信號之一 組濾波器而決定,其中該濾波器具有接近在無轚帶之 頻譜振幅且在有轚箝接近零振幅。 10.如申請専利範圃第4項之方法或機構,其中該等有轚 語音成份至少部份地使用一組弦波振邋器庫而決定, 而振邇器特性是由基本頻率和再生頻譜相位資訊而決 定。 (請先閲讀背面之注意事項再填寫本貢) 訂 經濟部中央揉準局属工消費合作社印製 32 本紙張尺度逋用中國國家標準(CNS > Α4規格(210><297公釐)
TW085101995A 1995-02-22 1996-02-16 TW293118B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/392,099 US5701390A (en) 1995-02-22 1995-02-22 Synthesis of MBE-based coded speech using regenerated phase information

Publications (1)

Publication Number Publication Date
TW293118B true TW293118B (zh) 1996-12-11

Family

ID=23549243

Family Applications (1)

Application Number Title Priority Date Filing Date
TW085101995A TW293118B (zh) 1995-02-22 1996-02-16

Country Status (7)

Country Link
US (1) US5701390A (zh)
JP (2) JP4112027B2 (zh)
KR (1) KR100388388B1 (zh)
CN (1) CN1136537C (zh)
AU (1) AU704847B2 (zh)
CA (1) CA2169822C (zh)
TW (1) TW293118B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI585751B (zh) * 2014-03-25 2017-06-01 弗勞恩霍夫爾協會 具有動態範圍控制中有效增益編碼之音訊編碼器裝置及音訊解碼器裝置

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774856A (en) * 1995-10-02 1998-06-30 Motorola, Inc. User-Customized, low bit-rate speech vocoding method and communication unit for use therewith
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
FI116181B (fi) * 1997-02-07 2005-09-30 Nokia Corp Virheenkorjausta ja virheentunnistusta hyödyntävä informaationkoodausm enetelmä ja laitteet
KR100416754B1 (ko) * 1997-06-20 2005-05-24 삼성전자주식회사 다중 밴드 여기 음성 부호화기에서 매개변수 추정 장치 및 방법
WO1999017279A1 (en) * 1997-09-30 1999-04-08 Siemens Aktiengesellschaft A method of encoding a speech signal
EP1041539A4 (en) * 1997-12-08 2001-09-19 Mitsubishi Electric Corp METHOD AND DEVICE FOR PROCESSING THE SOUND SIGNAL
KR100294918B1 (ko) * 1998-04-09 2001-07-12 윤종용 스펙트럼혼합여기신호의진폭모델링방법
KR100274786B1 (ko) * 1998-04-09 2000-12-15 정영식 재생타이어의 제조방법 및 그 장치
US6438517B1 (en) * 1998-05-19 2002-08-20 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6119082A (en) * 1998-07-13 2000-09-12 Lockheed Martin Corporation Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6324409B1 (en) 1998-07-17 2001-11-27 Siemens Information And Communication Systems, Inc. System and method for optimizing telecommunication signal quality
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US6304843B1 (en) * 1999-01-05 2001-10-16 Motorola, Inc. Method and apparatus for reconstructing a linear prediction filter excitation signal
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6505152B1 (en) 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
AU7486200A (en) * 1999-09-22 2001-04-24 Conexant Systems, Inc. Multimode speech encoder
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6975984B2 (en) * 2000-02-08 2005-12-13 Speech Technology And Applied Research Corporation Electrolaryngeal speech enhancement for telephony
JP3404350B2 (ja) * 2000-03-06 2003-05-06 パナソニック モバイルコミュニケーションズ株式会社 音声符号化パラメータ取得方法、音声復号方法及び装置
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
US6466904B1 (en) * 2000-07-25 2002-10-15 Conexant Systems, Inc. Method and apparatus using harmonic modeling in an improved speech decoder
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7243295B2 (en) * 2001-06-12 2007-07-10 Intel Corporation Low complexity channel decoders
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US8605911B2 (en) 2001-07-10 2013-12-10 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
EP1423847B1 (en) 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US20050259822A1 (en) * 2002-07-08 2005-11-24 Koninklijke Philips Electronics N.V. Sinusoidal audio coding
DE60305944T2 (de) * 2002-09-17 2007-02-01 Koninklijke Philips Electronics N.V. Verfahren zur synthese eines stationären klangsignals
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7970606B2 (en) 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
US7634399B2 (en) * 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US8359197B2 (en) * 2003-04-01 2013-01-22 Digital Voice Systems, Inc. Half-rate vocoder
US7383181B2 (en) 2003-07-29 2008-06-03 Microsoft Corporation Multi-sensory speech detection system
US7516067B2 (en) * 2003-08-25 2009-04-07 Microsoft Corporation Method and apparatus using harmonic-model-based front end for robust speech recognition
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7346504B2 (en) 2005-06-20 2008-03-18 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
KR100770839B1 (ko) * 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
JP4894353B2 (ja) * 2006-05-26 2012-03-14 ヤマハ株式会社 放収音装置
US8036886B2 (en) * 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
KR101547344B1 (ko) * 2008-10-31 2015-08-27 삼성전자 주식회사 음성복원장치 및 그 방법
US8620660B2 (en) 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
US9117455B2 (en) * 2011-07-29 2015-08-25 Dts Llc Adaptive voice intelligibility processor
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US9640185B2 (en) 2013-12-12 2017-05-02 Motorola Solutions, Inc. Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder
EP2916319A1 (en) 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
CN107924686B (zh) 2015-09-16 2022-07-26 株式会社东芝 语音处理装置、语音处理方法以及存储介质
US10734001B2 (en) * 2017-10-05 2020-08-04 Qualcomm Incorporated Encoding or decoding of audio signals
CN113066476B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation
CN111681639B (zh) * 2020-05-28 2023-05-30 上海墨百意信息科技有限公司 一种多说话人语音合成方法、装置及计算设备
US11990144B2 (en) 2021-07-28 2024-05-21 Digital Voice Systems, Inc. Reducing perceived effects of non-voice data in digital speech

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3706929A (en) * 1971-01-04 1972-12-19 Philco Ford Corp Combined modem and vocoder pipeline processor
US3982070A (en) * 1974-06-05 1976-09-21 Bell Telephone Laboratories, Incorporated Phase vocoder speech synthesis system
US3975587A (en) * 1974-09-13 1976-08-17 International Telephone And Telegraph Corporation Digital vocoder
US3995116A (en) * 1974-11-18 1976-11-30 Bell Telephone Laboratories, Incorporated Emphasis controlled speech synthesizer
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
US4091237A (en) * 1975-10-06 1978-05-23 Lockheed Missiles & Space Company, Inc. Bi-Phase harmonic histogram pitch extractor
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
GB1563801A (en) * 1975-11-03 1980-04-02 Post Office Error correction of digital signals
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
ATE15415T1 (de) * 1981-09-24 1985-09-15 Gretag Ag Verfahren und vorrichtung zur redundanzvermindernden digitalen sprachverarbeitung.
US4441200A (en) * 1981-10-08 1984-04-03 Motorola Inc. Digital voice processing system
AU570439B2 (en) * 1983-03-28 1988-03-17 Compression Labs, Inc. A combined intraframe and interframe transform coding system
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
US4622680A (en) * 1984-10-17 1986-11-11 General Electric Company Hybrid subband coder/decoder method and apparatus
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US5067158A (en) * 1985-06-11 1991-11-19 Texas Instruments Incorporated Linear predictive residual representation via non-iterative spectral reconstruction
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
US4720861A (en) * 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit
US4799059A (en) * 1986-03-14 1989-01-17 Enscan, Inc. Automatic/remote RF instrument monitoring system
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
DE3640355A1 (de) * 1986-11-26 1988-06-09 Philips Patentverwaltung Verfahren zur bestimmung des zeitlichen verlaufs eines sprachparameters und anordnung zur durchfuehrung des verfahrens
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
NL8701798A (nl) * 1987-07-30 1989-02-16 Philips Nv Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal.
US4809334A (en) * 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
US5095392A (en) * 1988-01-27 1992-03-10 Matsushita Electric Industrial Co., Ltd. Digital signal magnetic recording/reproducing apparatus using multi-level QAM modulation and maximum likelihood decoding
US5179626A (en) * 1988-04-08 1993-01-12 At&T Bell Laboratories Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
JPH0782359B2 (ja) * 1989-04-21 1995-09-06 三菱電機株式会社 音声符号化装置、音声復号化装置及び音声符号化・復号化装置
DE69029120T2 (de) * 1989-04-25 1997-04-30 Toshiba Kawasaki Kk Stimmenkodierer
US5036515A (en) * 1989-05-30 1991-07-30 Motorola, Inc. Bit error rate detection
US5081681B1 (en) * 1989-11-30 1995-08-15 Digital Voice Systems Inc Method and apparatus for phase synthesis for speech processing
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
JP3218679B2 (ja) * 1992-04-15 2001-10-15 ソニー株式会社 高能率符号化方法
JPH05307399A (ja) * 1992-05-01 1993-11-19 Sony Corp 音声分析方式
US5517511A (en) * 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI585751B (zh) * 2014-03-25 2017-06-01 弗勞恩霍夫爾協會 具有動態範圍控制中有效增益編碼之音訊編碼器裝置及音訊解碼器裝置
US10074377B2 (en) 2014-03-25 2018-09-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control
USRE49107E1 (en) 2014-03-25 2022-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control

Also Published As

Publication number Publication date
US5701390A (en) 1997-12-23
AU4448196A (en) 1996-08-29
CN1140871A (zh) 1997-01-22
KR100388388B1 (ko) 2003-11-01
JPH08272398A (ja) 1996-10-18
AU704847B2 (en) 1999-05-06
KR960032298A (ko) 1996-09-17
CA2169822A1 (en) 1996-08-23
JP4112027B2 (ja) 2008-07-02
CA2169822C (en) 2006-01-10
JP2008009439A (ja) 2008-01-17
CN1136537C (zh) 2004-01-28

Similar Documents

Publication Publication Date Title
TW293118B (zh)
US7957963B2 (en) Voice transcoder
US5754974A (en) Spectral magnitude representation for multi-band excitation speech coders
US8200497B2 (en) Synthesizing/decoding speech samples corresponding to a voicing state
JP4166673B2 (ja) 相互使用可能なボコーダ
US6377916B1 (en) Multiband harmonic transform coder
US8577673B2 (en) CELP post-processing for music signals
TWI321314B (en) Methods of encoding or decoding a highband portion of a speech signal,apparatus configured to decode a highband portion of a speech signal and highband speech decoder
KR100531266B1 (ko) 스펙트럼 진폭의 듀얼 서브프레임 양자화
US11282530B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
US8359197B2 (en) Half-rate vocoder
US20050159943A1 (en) Compressed domain universal transcoder
US20100063812A1 (en) Efficient Temporal Envelope Coding Approach by Prediction Between Low Band Signal and High Band Signal
JP2010501080A (ja) 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法
TW463143B (en) Low-bit rate speech encoding method
Meuse A 2400 bps multi-band excitation vocoder

Legal Events

Date Code Title Description
MK4A Expiration of patent term of an invention patent