TWI235823B - Speech recognition system and method thereof - Google Patents
Speech recognition system and method thereof Download PDFInfo
- Publication number
- TWI235823B TWI235823B TW093129523A TW93129523A TWI235823B TW I235823 B TWI235823 B TW I235823B TW 093129523 A TW093129523 A TW 093129523A TW 93129523 A TW93129523 A TW 93129523A TW I235823 B TWI235823 B TW I235823B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- original
- absolute value
- module
- recorded
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Description
1235823 九、發明說明: 【發明所屬之技術領域】 本發明係有關於一種語音識別系統以及方法,更詳而 言之係有關於-種應用於資料處理I置之語音識別系统盘 方法。 〃 【先前技術】 隨著電子資訊產業發展的日新月異,各種功能強大且 價格低廉的消費性電子資訊產品紛紛問世。舉例而言,為 了能進-步與使用外國語言的人士溝通,大量具有語言學 習功能的資料處理裝置如雨後春筍—般出現在消費市場 中。透過如電腦或電子辭典等資料處理裝置進行語文學習 =過財,如何驗提供學f者近乎與真人相同之學習環 境’藉以達到無須透過與真人的互動,僅透過與該資料處 理襄置間的互動即可達到敎學習的功效,已成為研發者 所必須面對的問題。 中華明國公告第308666號專利揭露一種「智錢型國 語語音學習线及其方法」,其技術特徵在於㈣機器先谓 :使用者所輸入的學習例句的語音信號之特徵參數後,經 用以辨認輸人的學習例句的語音至計算其辨認結果與學 =例句比較的符合率之辨認裝置,以及—藉由使用者如學 :例句的語音以訓練使用者的語音模型並更新#中資料之 二、練裝置。經過-組學習例句之訓練後,該使用者的語音 ^型幾已涵蓋所有本身的語音特性,致使在正式上線使用 〜’能有效的依據該語音模型内之語音特性辨認使用者的 18094 5 1235823 輪入信號。 7迷的έ吾音學習與識別系統及方法係為現今語音識 ==所習用之技術。㈣卻存在著相當大的缺點,亦即 必縣依據接近預定之標準速度與音量朗讀例句, 曰(立使用者的語音特徵俾降低系統識別錯誤之機會, 養成用清晰料的朗讀方式輸人語音的習慣。此種語 二寸被建立及識㈣以要求使料龜卿的識別習 二不但欠缺人性化,對於反應較不敏捷的使用者而言則 =反覆多次的嘗試才能求得較佳的識別效果。此外 用者若有變更❹須該建立❹麵徵制無法進 别0 綜而言之’習知的語言識別至今仍存在兩個主要的問 方面是學習者無法自行決定取樣之解,換言之, 羽’ #疋9頻解析度的㊣低,高解析度固然可以讓學 t學習到更準確的發音,但相對的也會造成辨別成功率 &低的困擾。另-方面現行的語言學習㈣中的語言識別 功此,亚無法提供學習者依據自身的需求做聲音的播放速 度以及播放頻率的改變’欠缺個性化的語音識別功能,無 法域學f者在接近自身發音特性的環境下做語言的學習, 對於學習效率提升而言當然是一種阻礙。 、不上所述,如何能夠提供一種更具有使用者個性化的 的-曰識別系統以及方法’遂成為目前亟待解決之課題。 【發明内容】 為解決上述習知技術之缺點,本發明之主要目的在於 18094 6 1235823 才疋供一種可依據需求設定音頻取樣頻率之語音識別系統以 及方法。 本發明之另一目的在於提供一種可依據需求設定語 音播放速度與頻率之語音識別系統以及方法。 為達成以上所述及其他目的,本發明之語音識別系統 包括有·用以儲存至少包括原聲音頻、錄入音頻以及識別 標準等資料之儲存單元;用以依據預設之數值設定原聲音 頻與錄入音頻取樣頻率值的取樣頻率設定模組;用以將該 原每音頻與錄入音頻轉換為波形訊號之音頻波形訊號轉換 权組;用以分析該原聲音頻與錄入音頻取樣頻率之最大音 里值的分析模組;用以分別計算出該原聲音頻與錄入音頻 之絕對值的計算模組;用以依據該識別標準比較該原聲音 頻與錄入音頻絕對值以決定識別的結果的判斷模組;以及 。又疋浯音播放之速度與頻率等音頻特性的音頻處理模組。 透過忒5吾音識別系統執行語音識別的方法係:提供儲 ^單^ ^用以儲存至少包括原聲音頻、錄入音頻以及識別 払準等貢料;提供取樣頻率設定模組,用以依據預設之數 值^定原聲音頻與錄入音頻取樣頻率值;提供音頻波形訊 :π換模、、且,用以將该原聲音頻與錄入音頻轉換為波形訊 提供分析模組,用以分析該原聲音頻與錄入音頻取樣 ^ 之最大音量值;提供計算模組,用以分別計算出該原 聲音頻與錄入音頻之絕對值;以及提供判斷模組,用以依 據忒4別標準比較該原聲音頻與錄入音頻絕對值以決定識 另J的結果。此外,復包括提供音頻處理模組,以設定語音 18094 7 1235823 播放之速度與頻率等音頻特性。 相較於習知的語音識別技術,本發明之語音識別 以及方法除可依據需求設定音頻取樣頻率外,復可依據兩 求設定語音播放之速度與頻率。藉以讓學f者在接近自: 發音特性的環境下做語言的學習,進而有效提升語 之效率。 〇白 【實施方式】 以下係藉由特定的具體實施例說明本發明之實施方 式,熟悉此技藝之人士可由本說明書所揭示之内容 瞭解本發明之其他優點與功效。本發㈣可藉由其他不同 的具體實施例加以施行或制,本說明書巾的各項細節亦 可基於不同觀點與應用,在不悖離本發明之 種修飾與變更。 Τ σ 請參閱第1圖,係為本發明之語音識別系統i之基本 架構圖,包括:儲存單元u、取樣頻率設定模組12 ㈣訊號轉換模組13、分龍組Η、計算模組15、判斷 模組16以及音頻處理模組17。 於本實施例中,本發明之語音識別系統1係應用於一 個人電腦2中’更具體而言係用以提供該個人電腦2語言 發:學習之功能。此外,該個人電腦2包括一用以輸二 :貝料之知入早兀22 ’其可例如為一麥克風。需特別說明 者:係該個人電腦2實際上復包括其他用以執行資料運算 更及/或韌肢,然為避免模糊本案之技術特徵所在, 故僅顯示與實施本發明之語音識別㈣丨以及方法相關 8 18094 1235823 者。此外,該個人電腦2亦可 々J月且換成如電子辭電 位助理、行動電話等具有去五立 人數 裝置。 、 曰出輪入功能之資料處理 捕存單兀U係用以儲存至少包括原聲音頻 曰頻以及預設識別標準等資料 、% 分n作炎 τ半寺貝枓。於本實施例中,該儲存單 為一硬碟裝置。除用以儲存該原聲音頻、錄入音頻 以及識別標準等資料外,復 9、 — ^ 又T用以储存该個人電腦2於執 仃s月之語音識別系統1時所產生的資料。 該取樣頻率設定模組1 2私 犋、、且12係用以依據預設之數值設定 原奪曰頻錄入音頻取樣頻率 由於將類比音頻訊號轉 換為數位曰頻訊號的過程中必須先確定取樣頻率,以供類 比音頻轉換缝位音頻的過程中,每秒取樣次數之依據。 般而σ ’耷音播出時的品質通常只能達到取樣頻率 $半,因此須採取雙倍樣率才能將原音準確重現。正常 十月况下,一般人的聽力極限約為20ΚΗζ,所以高品質的取 榼應為其兩倍以上,當聲音來源為音樂時,因位它所橫跨 的頻卞、交化極為寬廣,通常以採441KHz的頻率為⑶音 樂取樣率的標準;但是若以語音為主,由於人說話的語音 大約為ΙΟΚΗζ,因此加倍採樣,只取22KHz即可。取樣率 越同,所s己錄下來的音質就越清晰;當然,越高的取樣所 。己錄下來的檔案就會越大。於本實施例中,本發明之語音 識別系統1係作為語音識別之用,故取樣頻率可取為 22ΚΗζ。附帶一提者,係關於取樣解析度之部分則可依據 使用者之需求設定八位元、十六位元或更高,然由於取樣 9 18094 1235823 解析度與本發明之技術内容無直接關聯,故不予費述之 該音頻波形訊號轉換模組13係用以依據該取樣頻率 設定模組12所設定之取樣頻率值,將該原聲音頻與錄入音 頻轉換為波形訊號。於本實施例中,該音頻波形訊號轉換 模組13係利用個人電腦上習用的數位音效檔案 audio file)格式「.WAV」檔。在將該原聲音頻與錄入音頻 轉換為波形訊號之過程中,可依據該取樣頻率設定模組12 所設定之不同的取樣頻率(44kHz、22kHz或UkHz)與位元 數(8位元或16位元)及單音/立體聲等。需特別說明者,係 該音頻波形訊號轉換模組13亦可利用其它的音頻波形訊 號轉換格式,如「 「-iff」或「.mat」 式係為習知技術, •au」、「.snd」、「.voc」、r aiff」、「afc」、 等格式,由於該些音頻波形訊號轉換格 故亦不予贅述之。 該分析模組14係用以分析該原聲音頻與錄入音頻取 樣頻率之最大音量值。由於類比音頻訊號在進入該個人電 腦2之丽是一種連續性的訊號,所謂的連續性號是指時間 j的連續,透過該輸入單元22將類比音頻訊號傳到該個人 電腦2中,亦即數位化的過程。原來連續性的類比音頻訊 號,經過數位化的處理後,變成—種不連續的訊號,該些 轉換後之波形訊號只在某些固定的時間刻度上有值,而該 分析杈組14即係用以分析該時間刻度上的值。於本實施例 中4 間刻度上的值可為伏特(v〇h )或分貝(decibel ; dB) 〇 該計算模組15係用以分別計算出該原聲音頻與錄入 10 18094 1235823 音,之絕對值。於本實施财,該絕對值的計算係依據該 原聲音頻與錄入音頻之每一時間刻度上的值,亦即將每— 時間刻度除以料間刻度上的伏特或分貝值作為該絕對 值0 該判斷模組16係用以依據該識別標準比較該原聲音 頻與錄入音頻絕對值以決定識別的結果。於本實施例中, 該識別標準可例如為比較該計算模組15所計算出之原聲 音頻每-時間刻度之絕對值以及錄人音縣—時間刻产耳之 絕對值之相似程度,更具體而言,係以該原聲音頻絕^值 與錄入音頻絕對值之差值,除該原聲音頻的絕對值並求其 相似度百分比。接著,進—步於求出所有時間刻度之相似 度百分比後’再求出所有時間刻度相似度百分比之鐵平均 值。若本發明之語音識別系統i進―步係應用於語^學習 軟體之發音準確度鑑別功能巾,㈣總平均㈣可作為鑑 別之依據。 ^ —該音頻處理模組17係用以設定語音播放之速度與頻 率等音頻特性。於本實施例中,該音頻處理模組17可透過 4如,序變化的方式,加快或放慢該原聲音頻資料的速 f ’藉以符合不同使用者之說話速度。另-方面,該原聲 音頻音調的高低係與振動的快慢成正比,若在相同時間内 f動較快者則其頻率較高,而音調亦會相對提高,是故, & 2交更該原琴音頻資料之頻率即可變更該原聲音頻資料 之音調’例如趨近於女聲或男聲’同樣的可符合不同使用 者之說話音調。 18094 11 1235823 凊苓閱第2圖,係為本發明之語音識別之流程。 h立於步驟S201中,提供儲存單元11以儲存至少包括原 聲音頻、錄入音頻以及預設識別標準等資料。 +、
驟 S202 。 V 於步驟S202中,該音頻處理模組17係用以設定語音 拮放之速度與頻率等音頻特性。於本實施例中,該音頻處 =模組17可透過諸如時序變化的方式,加快或放慢該^ ^ 曰頻貪料的速度。另一方面’復可變更該原聲音頻資料之 頻率即可變更該原聲音頻資料之音調。接著進賢 S203。 ^於步驟S203中,提供取樣頻率設定模組12以依據預 叹之數值^原聲音頻與錄人音頻取樣頻率值。於本實施 例中’本發明之語音識別系統作為語音識別之用,、故 取樣頻率可取為22KHz。接著進行步驟s2〇4。 於步驟S204巾,提供音頻波形訊號轉換模組i3以依 立該取樣財設定餘12所較之取㈣率值,將該原聲 曰頻與錄入音頻轉換為波形訊號。於本實施例中,該音頻 波形訊號轉換模組13係利用個人電腦上習用的數位音曰效、 檔案格式「.WAV」檔。接著進行步驟§2〇5。 於步驟S205中,提供該分析模組14以分析該原聲音 =與錄入音頻取樣頻率之最大音量值。於本實施例中,該 日可j刻度上的值可為伏特(v〇h)或分貝(decibei ;犯 接著進行步驟S206。 於步驟S206中,提供該計算模組15以分別計算出該 18094 12 1235823 頻與錄人音狀絕對值。於本實施财,該絕對值 古。异係依據該原聲音頻與錄入音頻之每—時間刻度上的 即將每—時間刻度除以該時間刻度上的伏特或分貝 值作為該絕對值。接著進行步驟S207。 別尸S207中,於該提供該判斷模組16以依據該識 ㈣準比㈣原聲音頻錢人音㈣對值料定識別的結 二本/把例中’ _谶別標準可例如為比較該計算模組 =料算出之原聲音頻每—相黯线對值以及錄入 曰頻母-時間刻度之絕對值之相似程度,更具體而言,係 以该原聲音頻絕對值與錄入音頻絕對值之差值,除該原聲 音頻的絕對值並求其相似度百分比。接著,進—步於求出 所^間刻度之相似度百分比後’再求出所有時間刻度相 似度百分比之總平均值。 综上所述,本發明之語音識別系統以及方法除可依據 需求設定音頻取樣料外,復可依翁求設定語音播放之 速度與頻率。藉以讓學f者在接近自身發音特性的環境下 做語言的學習,進而有效提升語言學習之效率。 上述實施例僅為例示性說明本發明之原理及其功 效,=非用於限制本發明。任何熟習此項技藝之人士均可 在不違月本發明之精神及範轉下,對上述實施例進行修飾 與變化。因此,本發明之權利保護範圍,應如後述之申請 專利範圍所列。 【圖式簡單說明】 第1圖,係為本發明之語音識別系統之基本架構圖; 18094 13 1235823 以及 第2圖,係為本發明之語音識別之流程圖。 【主要元件符號說明】 1 語音識別系統 11 儲存單元 12 取樣頻率設定模組 13 音頻波形訊號轉換模組 14 分析模組 15 計算模組 16 判斷模組 17 音頻處理模組 2 個人電腦 22 輸入單元 S201〜S207 步驟 14 18094
Claims (1)
1235823 十、申請專利範圍: 1. 一種語音識別系統,係應用於資料處理裝置中,包括: 儲存單元’係用以儲存至少包括原聲音頻、錄入音 頻以及識別標準等資料; 取樣頻率設定模組’係用以依據預設之數值設定原 聲音頻與錄入音頻取樣頻率值; 音頻波形訊號轉換模組,係用以將該原聲音頻與錄 入音頻轉換為波形訊號; 分析模組,係用以分析該原聲音頻與錄入音頻取樣 頻率之最大音量值; 計算模組,係用以分別計算出該原聲音頻與錄入音 頻之絕對值; 判斷模組,係用以依據該識別標準比較該原聲音頻 與錄入音頻絕對值以決定識別的結果;以及 音頻處理模組,係設定語音播放之速度與頻率等音 頻特性。 2·如申請專利範圍第1項之系統,其中,該取樣頻率係為 44·1ΚΗζ及22KHz之其中一者。 3·如申請專利範圍第1項之系統,其中,該音頻波形訊號 轉換模組的音頻波形訊號轉換格式係為「 • wav」、「.au」、 「.snd」、「.voc」、r aiff」、r .afc」、r iff」或 r mat」之 其中之一種檔案格式。 4·如申請專利範圍第丨項之系統,其中,該音量值係為波 形訊號時間刻度上的值係為伏特(volt )及分貝 15 18094 1235823 (decibel ; dB )之其中一者。 5. 6. 7. 8· 9. 10 11 如申請專利範圍第1項之系統,其中,該絕對值的計算 係依據该原聲音頻與錄入音頻之每一時間刻度上的值。 如申請專利範圍第1項之系統,其中,該識別標準係為 比較該計算模組所計算出之原聲音頻每一時間刻度之 絕對值以及錄入音頻每一時間刻度的絕對值之相似程 度。 如申請專利範圍第6項之系統,其中,該絕對值之相似 矛王度係以該原聲音頻絕對值與錄入音頻絕對值之差值 除。亥原聲音頻的絕對值後所得的值。 如申請專利範圍第6項之系統,其中,該判斷模組復於 求出所有時間刻度之相似程度後,再求出所有時間刻度 相似程度之總平均值。 如申請專利範圍第丨項之系統,其中,該音頻處理模組 係透過時序變化的方式,調整該原聲音頻資料的速度。 如申請專利範圍第丨項之系統,其中,該音頻處理模組 係透過變更該原聲音頻資料之頻率以變更該原聲音頻 資料的音調。 一種語音識別方法,係應用於資料處理裝置中,包括: 提供儲存單元,用以儲存至少包括原聲音頻、錄入 音頻以及識別標準資料; 提供音頻處理模組,以設定語音播放之速度與頻率 等音頻特性; 提供取樣頻率設定模組,用以依據預設之數值設定 16 18094 1235823 原聲音頻與錄入音頻取樣頻率值; ^ · 提供音頻波形訊號轉換模組,用以將該原聲音頻與._ 錄入音頻轉換為波形訊號; 提供分析模組,用以分析該原聲音頻與錄入音頻取、 樣頻率之最大音量值; , 提供計算模組,用以分別計算出該原聲音頻與錄入 音頻之絕對值;以及 提供判斷模組,用以依據該識別標準比較該原聲音 頻與錄入音頻絕對值以決定識別的結果。 _ 12·如申請專利範圍第u項之方法,其中,該取樣頻率係 為44·1ΚΗζ及22KHz之其中一者。 13·如申請專利範圍第u項之方法,其中,該音頻波形訊 號轉換模組的音頻波形訊號轉換格式係為 r .wav」、 「.au」、「.snd」、「·ν〇(;」、Γ aiff」、「afc」、「iff」或「撕丈」 之其中之一種檔案格式。 14. 如申請專利範圍第11項之方法,其中,該音量值係為 波形訊號時間刻度上的值係為伏特(v〇lt)及分貝 (decibel ; dB )之其中一者。 15. 如申凊專利In圍第i!項之方法,其中,該絕對值的計 算係依據該原聲音頻與錄入音頻之每一時間刻度上的 值。 16. 如申請專利範圍第11項之方法,其中,該識別標準係 為比較該計算模組所計算出之原聲音頻每一時間刻度 之絶對值以及錄入音頻每一時間刻度的絕對值之相似 17 18094 1235823 程度。 17 18 19 20 如申請專利範圍第16項之方法,其中,該絕對值之相 似程度係以該原聲音頻絕對值與錄入音頻絕對值之差 值除該原聲音頻的絕對值後所得的值。 如申請專利範圍第16項之方法,其中,該判斷模組復 於求出所有時間刻度之相似程度後,再求出所有時間刻 度相似程度之總平均值。 =申請專利範圍第11項之方法,其中,該音頻處理模 組係透過時序變化的方式,調整該原聲音頻資料的 度。 如申請專利範圍第11項之方法,其中,該音頻處理模 組係透過變更該原聲音頻資料之頻率以變更該原聲音 頻資料的音調。 18 18094
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW093129523A TWI235823B (en) | 2004-09-30 | 2004-09-30 | Speech recognition system and method thereof |
US10/988,306 US20060074650A1 (en) | 2004-09-30 | 2004-11-12 | Speech identification system and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW093129523A TWI235823B (en) | 2004-09-30 | 2004-09-30 | Speech recognition system and method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI235823B true TWI235823B (en) | 2005-07-11 |
TW200610946A TW200610946A (en) | 2006-04-01 |
Family
ID=36126663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW093129523A TWI235823B (en) | 2004-09-30 | 2004-09-30 | Speech recognition system and method thereof |
Country Status (2)
Country | Link |
---|---|
US (1) | US20060074650A1 (zh) |
TW (1) | TWI235823B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005076258A1 (ja) * | 2004-02-03 | 2005-08-18 | Matsushita Electric Industrial Co., Ltd. | ユーザ適応型装置およびその制御方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6295391B1 (en) * | 1998-02-19 | 2001-09-25 | Hewlett-Packard Company | Automatic data routing via voice command annotation |
JP3465628B2 (ja) * | 1999-05-06 | 2003-11-10 | ヤマハ株式会社 | オーディオ信号の時間軸圧伸方法及び装置 |
US6296489B1 (en) * | 1999-06-23 | 2001-10-02 | Heuristix | System for sound file recording, analysis, and archiving via the internet for language training and other applications |
US7366659B2 (en) * | 2002-06-07 | 2008-04-29 | Lucent Technologies Inc. | Methods and devices for selectively generating time-scaled sound signals |
US7299188B2 (en) * | 2002-07-03 | 2007-11-20 | Lucent Technologies Inc. | Method and apparatus for providing an interactive language tutor |
JP2004246184A (ja) * | 2003-02-14 | 2004-09-02 | Eigyotatsu Kofun Yugenkoshi | 視覚化された発音の提案を備えた言語学習システム及び方法 |
JP4407305B2 (ja) * | 2003-02-17 | 2010-02-03 | 株式会社ケンウッド | ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム |
US20060057545A1 (en) * | 2004-09-14 | 2006-03-16 | Sensory, Incorporated | Pronunciation training method and apparatus |
-
2004
- 2004-09-30 TW TW093129523A patent/TWI235823B/zh active
- 2004-11-12 US US10/988,306 patent/US20060074650A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
TW200610946A (en) | 2006-04-01 |
US20060074650A1 (en) | 2006-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
US6182044B1 (en) | System and methods for analyzing and critiquing a vocal performance | |
CN110675886B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN112992109B (zh) | 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体 | |
CN100585663C (zh) | 语言学习系统 | |
CN109346057A (zh) | 一种智能儿童玩具的语音处理系统 | |
CN111739536A (zh) | 一种音频处理的方法和装置 | |
Xue et al. | Cross-modal information fusion for voice spoofing detection | |
JP6728116B2 (ja) | 音声認識装置、音声認識方法およびプログラム | |
CN114125506A (zh) | 语音审核方法及装置 | |
TWI235823B (en) | Speech recognition system and method thereof | |
KR20000049500A (ko) | 음성 인식 및 음성 합성을 이용한 외국어 교육 서비스방법 및 그 시스템 | |
Choi et al. | Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech | |
CN100458914C (zh) | 语音识别系统以及方法 | |
Kamble et al. | Audio Visual Speech Synthesis and Speech Recognition for Hindi Language | |
Kiran Reddy et al. | DNN-based cross-lingual voice conversion using Bottleneck Features | |
WO2020154916A1 (zh) | 视频字幕合成方法、装置、存储介质及电子设备 | |
KR20170051759A (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
Tsai et al. | Speaker Identification in Overlapping Speech. | |
Tamaru et al. | Perception analysis of inter-singer similarity in Japanese song | |
Liu et al. | Speech Disorders Classification by CNN in Phonetic E-Learning System | |
Zain et al. | A review of CALL-based ASR and its potential application for Malay cued Speech learning tool application | |
Patil et al. | Teager energy mel cepstrum for identification of twins in Marathi | |
Ajmera et al. | Audio cloud: creation and rendering |