TW546630B - Optimized local feature extraction for automatic speech recognition - Google Patents

Optimized local feature extraction for automatic speech recognition Download PDF

Info

Publication number
TW546630B
TW546630B TW089124931A TW89124931A TW546630B TW 546630 B TW546630 B TW 546630B TW 089124931 A TW089124931 A TW 089124931A TW 89124931 A TW89124931 A TW 89124931A TW 546630 B TW546630 B TW 546630B
Authority
TW
Taiwan
Prior art keywords
scope
patent application
node
sound
item
Prior art date
Application number
TW089124931A
Other languages
English (en)
Inventor
Luca Rigazio
David Kryze
Ted Applebaum
Jean-Claude Junqua
Original Assignee
Matsushita Electric Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Ind Co Ltd filed Critical Matsushita Electric Ind Co Ltd
Application granted granted Critical
Publication of TW546630B publication Critical patent/TW546630B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)

Description

546630 五、發明説明(2 術將可建構並使用一種單二辨識器,而在該辨識器 中,浯音模型已經透過一種獨特特徵抽取程序為各 種不同聲音層級進行最佳化。因此,本發明的辨識 器可以在不需要增加辨識分析程序之複雜性的狀況 下’為各種不同聲音層級進行最佳化。 為了能更完整地了解本發明以及其目的與優 點,請參照以下的發明說明及附錄的圖式。 第1圖為一個概觀性硬體或軟體方塊圖,其展 用以製造聲音語音信號之子波封包轉換的本發明 ------------------------裝:: (請先閲讀背面之注意事項再填寫本頁) 不 的 一較佳實施例 第2圖展示在副波帶分析中所進行之較佳時間頻 率分解。 第3圖為-較佳實施例的方塊圖,其根據本發明 用以實行副波帶特徵抽取。 第4圖展示用以處理高通濾波器頻疊效應的本發 明較佳技術;以及 第5圖為一個流程圖,其展示用以選出特定聲音 層級之最佳子波樹狀結構的程序。 曰 較佳實施例的說明 本發明的局部特徵抽取系統將使用聲音波形的 子波分解技術。子波分解技術可形成以局部時間與 5 本紙張尺度適用中國國家標準(CNS) Α4規格(210X297公釐) ----------------tr------------- :線- < 546630 五、發明説明(4 ^ >= // (x)g(x) * dx 二胃g為函數(或信號,數學上這二種名稱 _,相同東西)時,g*則為9的伴矩陣。這表示可 2以針對函數空間來建立基則,以在該基則中投 途個函數’亚且利用方程式1與方程式2來重新 建立信號。 特別地,子波基礎可從位移w(x)—w(x+b)以及 雛形函數w(x)的擴張w(x) — w(ax)中建構,稱作母 波。-旦母波滿足某些基本性質時,將可透過位移 ^擴張該母波而取得函數空間的基準,如前面所解 此目的是表示函數的一種新方法,特別是在時間 與頻率上為局部的函數。如果我們與傅立葉串聯分 解進行比較的話,我們可以說正弦與餘弦在頻率上 具有完美的局部性,但在時間或空間上則具有整體 性。 ,本發明將運用子波以達成時間與頻率的局部支 援。當有數種方法可以進行子波分解時,本發明較 佳的技術便是使用根據在高通與低通組件中分解信 號的-種遞歸算法。另外,也可應用—種反覆過^ 第1圖顯示如何利用設置於一個串聯樹狀結構中 的低通與高通濾、波器來進行子波的分解。該樹狀結 構中的各個節點包括由高通遽波器10與對應低通濾 波器12所組成的-基礎區塊。跟隨在各個渡波器之 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公楚)
裝:; -i?先閲讀背面,5意事?H) -線------- 546630 A7 _B7 -五、發明説明(6 ) • 供局部支援,以便直接地對原始信號進行處理。換 - g之’並不需要如習知快速傅立葉變換處理一般來 - 施加開窗術。 .本發明較佳的實施例將使用藉著以長度為15的 訊澤窗口頻率回應來旋繞理想低通(或高通)濾波器 頻率回應而没計出的遽波器’以最小化所得濾、波器 •I 的漣波。此目的是要取得傳輸頻帶與抑制頻帶之間 ' 的急劇轉調過渡段,以使濾波器的最小重複成為必 要。這將依次地在濾波器排組的輸出端產生略減的 相關性。在利用此種方式計算出低通濾波器後,可 隨後利用對離散迪拉克函數的脈波回應總和來測定 出南通濾、波器。 第3圖中,轉換區塊32的輸出將展示在34處作 為表示一種時間頻率分解技術,如更詳細地展示於 第2圖中般。 • 雖然可以在進行向下取樣後直接地使用低通濾 波器的輸出端,較佳實施例將在高通濾波器的輸出 端上進行額外處理以反轉某些頻疊效應(即所謂的 灰碼’’Gray code”效應)。第4圖將展示頻疊方案。 要注意的是,低通濾波與向下取樣步驟將產生從零 頻率到尼奎斯特頻率的頻率範圍。此將大概地展示 於40處。相反地,在進行高通率波與向下取樣之後, " 維持於介在零頻率至尼奎斯特頻率之間頻率範圍的 頻譜將為過濾信號高頻率頻譜的及者影濛。因此, -7-— ---—_ ____ 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
------------------------裝—— (請先閲讀背面之注意事項再填寫本頁) ;訂------- -線丨 546630 五、發明説明(8 ) 樣本的數目N可針對最高副波帶來進行調整上以使 平均窗口時間延伸決不會小於一訊框。 ,接下來’如區塊37所示,將進行—項壓縮運算。 壓縮運算所進行的型態可依賴語音信號的本質來進 行。將針對未使,料的語音進行-項非線性對數運 算。將反之針對受雜音干擾的語音進行—項根壓縮 運算。該等運算中任一項均將對ei施用非線性。雖 然上述對數運算式為本發明的較佳運算式,也可以 應用其他非線性運算。 在區塊38巾,將藉著施用一項離散餘弦轉換 (DCT)來抽取出逆譜係數,如方程式2所示: 方程式2 C-tl〇g(e;)cos[^^J^〇jl5 ^ 這項結果是一組副波帶特徵39,其當建構如隱藏 式馬可夫模型的語音模型時’可用來表示原始語音 信號30。 D扣曰 副波帶分析可提供相當程度的自由。本質上來 說,可以選出濾、波器排組樹狀結構中的任_節點來 到:對特定聲音層級備置時間頻率分解。換言之,未 必只有葉節點會用於子波分解中。反之,可以使用 葉節點與中間節點的任-項組合。可針對特定聲音 11 546630 五、發明説明(10 ) 鑑別力5算,如步驟112所展示。 在計算出母節點與子節點的鑑別力後,步驟114 將比較母節點的鑑別力以及子節點的鑑別力總和。
參 士 y驟116中所示’如果子節點鑑別力總和大於母 U 力總和的話,那麼子節點將包含在該樹狀 結構中。否則,在步驟118中,將利用去除子節點 以及該子節點任域代的方法來修剪㈣狀結構。 將持續進行第5圖中所展示的程序,直到每個節 點都如所述地測試,或者由排除在外的子節點排除 在外為止。此項結果是已經針對所欲的聲音層級對 一子波樹狀結構進行最佳化修剪。在以此種方式發 展—樹狀結構後’本系統可以針對其他的聲音層^ 繼續發展其他樹狀結構(以不同的修剪方式)。 可使不同樹狀結構最佳化以鑑別出特定群組的 聲音。此種樹狀結構均從過分茂密的樹狀結構所抽 取出來,因此針對對應於用以計算出所欲特徵之最 佳子樹狀結構㈣點,只要進行-項分解即可。— 可針對各個專門特徵來訓練專業隱藏式馬可夫 模型。例如,可從最佳化專業特徵中建構出一組可 鑑別母音與子音之不同的專業模型,以取得該等聲 音之間的南度鑑別性。 因此,可藉由先辨識出寬廣層級(例如子音對母 音)’再辨識出多通辨識範例中之一層級内的特定聲 音來達成模型的粗至細解析率。另外,在單 13 546630 五、發明説明(12 42 反轉的高頻帶 100分類訓練資料 步驟102抽取出所欲的聲音層級(音素) 步驟104計算出子波樹狀結構 步驟106針對樹狀結構的每個節點計算出 能量 步驟108如果能量在臨界值之下的話, 的生長 步驟110透過距離計算方法來計算出(母)節點的鑑 別力 步驟112計算出母節點之子節點的鑑別力 步驟114 Λ較母節點的鑑別力與子節點的鑑別力 總和 步驟116如果子節點的鑑別力總和較大的話,便在 樹狀結構中使用子節點 步驟118使用母節點的上層樹狀結構分枝
便停止節;I (請先閲讀背面之注意事項再填寫本頁) 袭丨 ------ :線丨 15 本紙張尺度適用中國國家標準(CNS) Α4規格(210X297公釐)

Claims (1)

  1. 546630
    ^、申請專利範圍 f 89124931號申請案申請專利範圍修正本911〇29. 1_ 一種自動語音辨識用之特徵抽取方法,其包含: 用、’且子波來分解—聲音語音信號,該 組子波係組織為具有多個頻率副波帶節點之一資料 結構中之一組子信號; 對對應於每一節點之每—子信號計算一平 均向量; % ±界定並選出—子波基準以提昇對特定層級 聲音的鑑別性;以及 本 索 應用該基準到該紐子波以自該等平均向量產 生二個分解係數,其中該等分解係數代表從該聲 音語音信號中抽取出之特徵。 2_如申請專利範圍第1項之方法,其另包含將該 組子波表示為分解絲,且對該純進行後處 理以對其進行解聯結與壓縮。 3_如申請專利範圍第,項之方法,其中該聲音語 音信號係以數位形式進行取樣與表現。 4·如申請專利範圍第)項之方法,其中該組子波 係組織為樹狀結構。 5.如申請專利範圍第4項之方法,其中該樹狀結 構為取自基礎處理區塊連鎖的一種二元樹狀結 構。 6_如申請專利範圍帛5項之方法’其中該基礎處 理區塊可進行向下取樣之後的高通與低通濾 546630
    波 如申:專利範圍第4項之方法,其中該樹狀社 構可界(出多個葉節點,而各個葉 分解係數。 1有1 8.如申請專利範圍第4頊之古 ^ 項之方法’其中該樹狀結
    構叮界疋出-根節點’且其中該方法另包含連 續地將該聲音語音信號送人至該根節點。 9·如申請專利範圍第4項之方法,其中該樹狀結 構可界定出多個瑩# # π u β μ 夕似茱即點,而戎葉郎點係被選出 以使一業已決定的聲音層級鑑別性最大化。 1〇.如申請專利範圍第1項之方法,其另包含在一 個時間視窗上求得該分解係數的積分。 11.如申請專利範圍第!項之方法,其另包含對該 分解係數進行一項非線性運算。
    泛如:請專利範圍第”項之方法,其中該非線性 運算包括壓縮該分解係數。 13.2申請專利範圍第1項之方法,其另包含對該 節點中選出的節點進行一項離散餘弦轉換,進 而抽取出逆譜係數。 14·如申請專利範圍第彳項之方法,其另包含藉著 計算出各個節點上代表能量的一數值來選出該 節點的一部份,並且如果計算出的數值在一業 已決定的臨界值之下的話,便修剪一節點。 15·如申凊專利範圍第彳4項之方法,其中代表能量 17 的该數值為一壓縮能量。 16·:'申請專利範圍帛4項之方法,其另包含藉著 :异出该卽點中第一個節點的鑑別力來選出該 即點的^份,而如果該子節點的鑑別力總和 少於該節點第一節點的鑑別力的話,便另計算 出4即點第一節點之子節點的鑑別力且修剪該 子節點。 •如申請專利範圍帛,項之方法,其包含產生第 -多個分解係數以代表聲音的第一層級且產生 第二多個分解係數以代表聲音的第二層級,並 和用^第-與第二多個分解係數以產生用於語 音辨識的第一組與第二組特定模型。 18.如申請專利範圍第”項之方法,其中該第一組 與第一組特定模型係使用於多通組態中,藉此 第一組模型可先與辨識結果一同使用,之後再 利用第二組模型進行處理。 瓜如申請專利範圍第17項之方法,其中該第一組 與第二組特定模型係同時被使用,以滿足對應 於該第一與第二聲音層級的辨識結果。 20·如申請專利範圍第17項之方法,其中該第一聲 音層級對應於聲音廣層之間的第一鑑別層,且 其中該第二聲音層級對應於聲音窄層之間的第 二鑑別層。 54601___^ 面影印I 、 ------______ '
    第1圖 546630 ⑽· !· ίο
    546630 91 10 J
TW089124931A 1999-11-24 2001-02-01 Optimized local feature extraction for automatic speech recognition TW546630B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/449,053 US6513004B1 (en) 1999-11-24 1999-11-24 Optimized local feature extraction for automatic speech recognition

Publications (1)

Publication Number Publication Date
TW546630B true TW546630B (en) 2003-08-11

Family

ID=23782687

Family Applications (1)

Application Number Title Priority Date Filing Date
TW089124931A TW546630B (en) 1999-11-24 2001-02-01 Optimized local feature extraction for automatic speech recognition

Country Status (7)

Country Link
US (1) US6513004B1 (zh)
EP (1) EP1103951B1 (zh)
JP (1) JP3654831B2 (zh)
CN (1) CN1152367C (zh)
DE (1) DE60018886T2 (zh)
ES (1) ES2240019T3 (zh)
TW (1) TW546630B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7940844B2 (en) 2002-06-18 2011-05-10 Qualcomm Incorporated Video encoding and decoding techniques
TWI405185B (zh) * 2007-12-13 2013-08-11 Qualcomm Inc 用於5點離散餘弦轉換-ii(dct-ii),離散餘弦轉換-iv(dct-iv)及離散正弦轉換-iv(dst-iv)之計算的快速演算法與結構
US9042461B2 (en) 2005-03-10 2015-05-26 Qualcomm Incorporated Efficient employment of digital upsampling using IFFT in OFDM systems for simpler analog filtering

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7076315B1 (en) 2000-03-24 2006-07-11 Audience, Inc. Efficient computation of log-frequency-scale digital filter cascade
US7337114B2 (en) * 2001-03-29 2008-02-26 International Business Machines Corporation Speech recognition using discriminant features
US6678656B2 (en) * 2002-01-30 2004-01-13 Motorola, Inc. Noise reduced speech recognition parameters
US20050228518A1 (en) * 2002-02-13 2005-10-13 Applied Neurosystems Corporation Filter set for frequency analysis
KR100436305B1 (ko) * 2002-03-22 2004-06-23 전명근 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별
ITTO20020306A1 (it) * 2002-04-09 2003-10-09 Loquendo Spa Metodo per l'estrazione di caratteristiche di un segnale vocale e relativo sistema di riconoscimento vocale.
TW564375B (en) * 2002-09-17 2003-12-01 Ind Tech Res Inst Amplitude phase shift information embedding and detecting method based on phase features
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
US7343284B1 (en) 2003-07-17 2008-03-11 Nortel Networks Limited Method and system for speech processing for enhancement and detection
JP4649859B2 (ja) * 2004-03-25 2011-03-16 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7729909B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
JP4760179B2 (ja) * 2005-07-15 2011-08-31 ヤマハ株式会社 音声特徴量算出装置およびプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
KR100655953B1 (ko) 2006-02-06 2006-12-11 한양대학교 산학협력단 웨이블릿 패킷 변환을 이용한 음성 처리 시스템 및 그 방법
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8150065B2 (en) * 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8934641B2 (en) * 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
KR100798056B1 (ko) 2006-10-24 2008-01-28 한양대학교 산학협력단 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법
KR100789084B1 (ko) 2006-11-21 2007-12-26 한양대학교 산학협력단 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법
KR20080053739A (ko) * 2006-12-11 2008-06-16 삼성전자주식회사 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8655811B2 (en) * 2009-01-29 2014-02-18 Raytheon Company Method and system for data stream identification by evaluation of the most efficient path through a transformation tree
US8359195B2 (en) * 2009-03-26 2013-01-22 LI Creative Technologies, Inc. Method and apparatus for processing audio and speech signals
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
WO2011037587A1 (en) * 2009-09-28 2011-03-31 Nuance Communications, Inc. Downsampling schemes in a hierarchical neural network structure for phoneme recognition
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8423516B2 (en) * 2010-09-15 2013-04-16 International Business Machines Corporation Speculative execution in a real-time data environment
GB201203717D0 (en) 2012-03-02 2012-04-18 Speir Hunter Ltd Fault detection for pipelines
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN108535636A (zh) * 2018-05-16 2018-09-14 武汉大学 一种模拟电路基于参数随机分布邻近嵌入胜者为王的故障特征提取方法
CN110174281B (zh) * 2019-06-05 2021-08-13 北京博识创智科技发展有限公司 一种机电设备故障诊断方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US5321776A (en) * 1992-02-26 1994-06-14 General Electric Company Data compression system including successive approximation quantizer
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
WO1997015145A1 (en) * 1995-10-18 1997-04-24 Philips Electronics N.V. Region-based texture coding and decoding method, and corresponding systems
US5926791A (en) * 1995-10-26 1999-07-20 Sony Corporation Recursively splitting the low-frequency band with successively fewer filter taps in methods and apparatuses for sub-band encoding, decoding, and encoding and decoding
US5852806A (en) * 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
US6026359A (en) 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US6058205A (en) * 1997-01-09 2000-05-02 International Business Machines Corporation System and method for partitioning the feature space of a classifier in a pattern classification system
JPH11191153A (ja) * 1997-12-26 1999-07-13 Ricoh Co Ltd ウェーブレット変換係数の符号化方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7940844B2 (en) 2002-06-18 2011-05-10 Qualcomm Incorporated Video encoding and decoding techniques
US9042461B2 (en) 2005-03-10 2015-05-26 Qualcomm Incorporated Efficient employment of digital upsampling using IFFT in OFDM systems for simpler analog filtering
TWI405185B (zh) * 2007-12-13 2013-08-11 Qualcomm Inc 用於5點離散餘弦轉換-ii(dct-ii),離散餘弦轉換-iv(dct-iv)及離散正弦轉換-iv(dst-iv)之計算的快速演算法與結構
US8631060B2 (en) 2007-12-13 2014-01-14 Qualcomm Incorporated Fast algorithms for computation of 5-point DCT-II, DCT-IV, and DST-IV, and architectures

Also Published As

Publication number Publication date
EP1103951A2 (en) 2001-05-30
US6513004B1 (en) 2003-01-28
ES2240019T3 (es) 2005-10-16
EP1103951A3 (en) 2001-09-26
CN1299127A (zh) 2001-06-13
JP3654831B2 (ja) 2005-06-02
DE60018886D1 (de) 2005-04-28
DE60018886T2 (de) 2006-02-09
CN1152367C (zh) 2004-06-02
EP1103951B1 (en) 2005-03-23
JP2001184083A (ja) 2001-07-06

Similar Documents

Publication Publication Date Title
TW546630B (en) Optimized local feature extraction for automatic speech recognition
CN107845389B (zh) 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
Sarikaya et al. High resolution speech feature parametrization for monophone-based stressed speech recognition
US6253175B1 (en) Wavelet-based energy binning cepstal features for automatic speech recognition
EP0575815B1 (en) Speech recognition method
US8412526B2 (en) Restoration of high-order Mel frequency cepstral coefficients
Daqrouq et al. Average framing linear prediction coding with wavelet transform for text-independent speaker identification system
Villanueva-Luna et al. De-noising audio signals using MATLAB wavelets toolbox
Anusuya et al. Comparison of different speech feature extraction techniques with and without wavelet transform to Kannada speech recognition
CN113380262B (zh) 一种基于注意力机制与扰动感知的声音分离方法
Abdalla et al. DWT and MFCCs based feature extraction methods for isolated word recognition
US7120587B2 (en) Sinusoidal model based coding of audio signals
US20070055519A1 (en) Robust bandwith extension of narrowband signals
US7305339B2 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
KR102204975B1 (ko) 심층 신경망 기반 음성인식 방법 및 그 장치
Raj et al. Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients
CN112863517A (zh) 基于感知谱收敛率的语音识别方法
CN117037824A (zh) 一种声学场景分类的数据增强方法及系统
Agcaer et al. Optimization of amplitude modulation features for low-resource acoustic scene classification
Hossain et al. Dual-transform source separation using sparse nonnegative matrix factorization
Daqrouq et al. Wavelet LPC with neural network for speaker identification system
Srinivasarao Speech signal analysis and enhancement using combined wavelet Fourier transform with stacked deep learning architecture
JP3230782B2 (ja) 広帯域音声信号復元方法
Tiwari et al. Wavelet based noise robust features for speaker recognition
CN117935826B (zh) 音频升采样方法、装置、设备及存储介质

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees