TWI235823B - Speech recognition system and method thereof - Google Patents

Speech recognition system and method thereof Download PDF

Info

Publication number
TWI235823B
TWI235823B TW093129523A TW93129523A TWI235823B TW I235823 B TWI235823 B TW I235823B TW 093129523 A TW093129523 A TW 093129523A TW 93129523 A TW93129523 A TW 93129523A TW I235823 B TWI235823 B TW I235823B
Authority
TW
Taiwan
Prior art keywords
audio
original
absolute value
module
recorded
Prior art date
Application number
TW093129523A
Other languages
English (en)
Other versions
TW200610946A (en
Inventor
Xiao-Hui Shao
Chaucer Chiu
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to TW093129523A priority Critical patent/TWI235823B/zh
Priority to US10/988,306 priority patent/US20060074650A1/en
Application granted granted Critical
Publication of TWI235823B publication Critical patent/TWI235823B/zh
Publication of TW200610946A publication Critical patent/TW200610946A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Description

1235823 九、發明說明: 【發明所屬之技術領域】 本發明係有關於一種語音識別系統以及方法,更詳而 言之係有關於-種應用於資料處理I置之語音識別系统盘 方法。 〃 【先前技術】 隨著電子資訊產業發展的日新月異,各種功能強大且 價格低廉的消費性電子資訊產品紛紛問世。舉例而言,為 了能進-步與使用外國語言的人士溝通,大量具有語言學 習功能的資料處理裝置如雨後春筍—般出現在消費市場 中。透過如電腦或電子辭典等資料處理裝置進行語文學習 =過財,如何驗提供學f者近乎與真人相同之學習環 境’藉以達到無須透過與真人的互動,僅透過與該資料處 理襄置間的互動即可達到敎學習的功效,已成為研發者 所必須面對的問題。 中華明國公告第308666號專利揭露一種「智錢型國 語語音學習线及其方法」,其技術特徵在於㈣機器先谓 :使用者所輸入的學習例句的語音信號之特徵參數後,經 用以辨認輸人的學習例句的語音至計算其辨認結果與學 =例句比較的符合率之辨認裝置,以及—藉由使用者如學 :例句的語音以訓練使用者的語音模型並更新#中資料之 二、練裝置。經過-組學習例句之訓練後,該使用者的語音 ^型幾已涵蓋所有本身的語音特性,致使在正式上線使用 〜’能有效的依據該語音模型内之語音特性辨認使用者的 18094 5 1235823 輪入信號。 7迷的έ吾音學習與識別系統及方法係為現今語音識 ==所習用之技術。㈣卻存在著相當大的缺點,亦即 必縣依據接近預定之標準速度與音量朗讀例句, 曰(立使用者的語音特徵俾降低系統識別錯誤之機會, 養成用清晰料的朗讀方式輸人語音的習慣。此種語 二寸被建立及識㈣以要求使料龜卿的識別習 二不但欠缺人性化,對於反應較不敏捷的使用者而言則 =反覆多次的嘗試才能求得較佳的識別效果。此外 用者若有變更❹須該建立❹麵徵制無法進 别0 綜而言之’習知的語言識別至今仍存在兩個主要的問 方面是學習者無法自行決定取樣之解,換言之, 羽’ #疋9頻解析度的㊣低,高解析度固然可以讓學 t學習到更準確的發音,但相對的也會造成辨別成功率 &低的困擾。另-方面現行的語言學習㈣中的語言識別 功此,亚無法提供學習者依據自身的需求做聲音的播放速 度以及播放頻率的改變’欠缺個性化的語音識別功能,無 法域學f者在接近自身發音特性的環境下做語言的學習, 對於學習效率提升而言當然是一種阻礙。 、不上所述,如何能夠提供一種更具有使用者個性化的 的-曰識別系統以及方法’遂成為目前亟待解決之課題。 【發明内容】 為解決上述習知技術之缺點,本發明之主要目的在於 18094 6 1235823 才疋供一種可依據需求設定音頻取樣頻率之語音識別系統以 及方法。 本發明之另一目的在於提供一種可依據需求設定語 音播放速度與頻率之語音識別系統以及方法。 為達成以上所述及其他目的,本發明之語音識別系統 包括有·用以儲存至少包括原聲音頻、錄入音頻以及識別 標準等資料之儲存單元;用以依據預設之數值設定原聲音 頻與錄入音頻取樣頻率值的取樣頻率設定模組;用以將該 原每音頻與錄入音頻轉換為波形訊號之音頻波形訊號轉換 权組;用以分析該原聲音頻與錄入音頻取樣頻率之最大音 里值的分析模組;用以分別計算出該原聲音頻與錄入音頻 之絕對值的計算模組;用以依據該識別標準比較該原聲音 頻與錄入音頻絕對值以決定識別的結果的判斷模組;以及 。又疋浯音播放之速度與頻率等音頻特性的音頻處理模組。 透過忒5吾音識別系統執行語音識別的方法係:提供儲 ^單^ ^用以儲存至少包括原聲音頻、錄入音頻以及識別 払準等貢料;提供取樣頻率設定模組,用以依據預設之數 值^定原聲音頻與錄入音頻取樣頻率值;提供音頻波形訊 :π換模、、且,用以將该原聲音頻與錄入音頻轉換為波形訊 提供分析模組,用以分析該原聲音頻與錄入音頻取樣 ^ 之最大音量值;提供計算模組,用以分別計算出該原 聲音頻與錄入音頻之絕對值;以及提供判斷模組,用以依 據忒4別標準比較該原聲音頻與錄入音頻絕對值以決定識 另J的結果。此外,復包括提供音頻處理模組,以設定語音 18094 7 1235823 播放之速度與頻率等音頻特性。 相較於習知的語音識別技術,本發明之語音識別 以及方法除可依據需求設定音頻取樣頻率外,復可依據兩 求設定語音播放之速度與頻率。藉以讓學f者在接近自: 發音特性的環境下做語言的學習,進而有效提升語 之效率。 〇白 【實施方式】 以下係藉由特定的具體實施例說明本發明之實施方 式,熟悉此技藝之人士可由本說明書所揭示之内容 瞭解本發明之其他優點與功效。本發㈣可藉由其他不同 的具體實施例加以施行或制,本說明書巾的各項細節亦 可基於不同觀點與應用,在不悖離本發明之 種修飾與變更。 Τ σ 請參閱第1圖,係為本發明之語音識別系統i之基本 架構圖,包括:儲存單元u、取樣頻率設定模組12 ㈣訊號轉換模組13、分龍組Η、計算模組15、判斷 模組16以及音頻處理模組17。 於本實施例中,本發明之語音識別系統1係應用於一 個人電腦2中’更具體而言係用以提供該個人電腦2語言 發:學習之功能。此外,該個人電腦2包括一用以輸二 :貝料之知入早兀22 ’其可例如為一麥克風。需特別說明 者:係該個人電腦2實際上復包括其他用以執行資料運算 更及/或韌肢,然為避免模糊本案之技術特徵所在, 故僅顯示與實施本發明之語音識別㈣丨以及方法相關 8 18094 1235823 者。此外,該個人電腦2亦可 々J月且換成如電子辭電 位助理、行動電話等具有去五立 人數 裝置。 、 曰出輪入功能之資料處理 捕存單兀U係用以儲存至少包括原聲音頻 曰頻以及預設識別標準等資料 、% 分n作炎 τ半寺貝枓。於本實施例中,該儲存單 為一硬碟裝置。除用以儲存該原聲音頻、錄入音頻 以及識別標準等資料外,復 9、 — ^ 又T用以储存该個人電腦2於執 仃s月之語音識別系統1時所產生的資料。 該取樣頻率設定模組1 2私 犋、、且12係用以依據預設之數值設定 原奪曰頻錄入音頻取樣頻率 由於將類比音頻訊號轉 換為數位曰頻訊號的過程中必須先確定取樣頻率,以供類 比音頻轉換缝位音頻的過程中,每秒取樣次數之依據。 般而σ ’耷音播出時的品質通常只能達到取樣頻率 $半,因此須採取雙倍樣率才能將原音準確重現。正常 十月况下,一般人的聽力極限約為20ΚΗζ,所以高品質的取 榼應為其兩倍以上,當聲音來源為音樂時,因位它所橫跨 的頻卞、交化極為寬廣,通常以採441KHz的頻率為⑶音 樂取樣率的標準;但是若以語音為主,由於人說話的語音 大約為ΙΟΚΗζ,因此加倍採樣,只取22KHz即可。取樣率 越同,所s己錄下來的音質就越清晰;當然,越高的取樣所 。己錄下來的檔案就會越大。於本實施例中,本發明之語音 識別系統1係作為語音識別之用,故取樣頻率可取為 22ΚΗζ。附帶一提者,係關於取樣解析度之部分則可依據 使用者之需求設定八位元、十六位元或更高,然由於取樣 9 18094 1235823 解析度與本發明之技術内容無直接關聯,故不予費述之 該音頻波形訊號轉換模組13係用以依據該取樣頻率 設定模組12所設定之取樣頻率值,將該原聲音頻與錄入音 頻轉換為波形訊號。於本實施例中,該音頻波形訊號轉換 模組13係利用個人電腦上習用的數位音效檔案 audio file)格式「.WAV」檔。在將該原聲音頻與錄入音頻 轉換為波形訊號之過程中,可依據該取樣頻率設定模組12 所設定之不同的取樣頻率(44kHz、22kHz或UkHz)與位元 數(8位元或16位元)及單音/立體聲等。需特別說明者,係 該音頻波形訊號轉換模組13亦可利用其它的音頻波形訊 號轉換格式,如「 「-iff」或「.mat」 式係為習知技術, •au」、「.snd」、「.voc」、r aiff」、「afc」、 等格式,由於該些音頻波形訊號轉換格 故亦不予贅述之。 該分析模組14係用以分析該原聲音頻與錄入音頻取 樣頻率之最大音量值。由於類比音頻訊號在進入該個人電 腦2之丽是一種連續性的訊號,所謂的連續性號是指時間 j的連續,透過該輸入單元22將類比音頻訊號傳到該個人 電腦2中,亦即數位化的過程。原來連續性的類比音頻訊 號,經過數位化的處理後,變成—種不連續的訊號,該些 轉換後之波形訊號只在某些固定的時間刻度上有值,而該 分析杈組14即係用以分析該時間刻度上的值。於本實施例 中4 間刻度上的值可為伏特(v〇h )或分貝(decibel ; dB) 〇 該計算模組15係用以分別計算出該原聲音頻與錄入 10 18094 1235823 音,之絕對值。於本實施财,該絕對值的計算係依據該 原聲音頻與錄入音頻之每一時間刻度上的值,亦即將每— 時間刻度除以料間刻度上的伏特或分貝值作為該絕對 值0 該判斷模組16係用以依據該識別標準比較該原聲音 頻與錄入音頻絕對值以決定識別的結果。於本實施例中, 該識別標準可例如為比較該計算模組15所計算出之原聲 音頻每-時間刻度之絕對值以及錄人音縣—時間刻产耳之 絕對值之相似程度,更具體而言,係以該原聲音頻絕^值 與錄入音頻絕對值之差值,除該原聲音頻的絕對值並求其 相似度百分比。接著,進—步於求出所有時間刻度之相似 度百分比後’再求出所有時間刻度相似度百分比之鐵平均 值。若本發明之語音識別系統i進―步係應用於語^學習 軟體之發音準確度鑑別功能巾,㈣總平均㈣可作為鑑 別之依據。 ^ —該音頻處理模組17係用以設定語音播放之速度與頻 率等音頻特性。於本實施例中,該音頻處理模組17可透過 4如,序變化的方式,加快或放慢該原聲音頻資料的速 f ’藉以符合不同使用者之說話速度。另-方面,該原聲 音頻音調的高低係與振動的快慢成正比,若在相同時間内 f動較快者則其頻率較高,而音調亦會相對提高,是故, & 2交更該原琴音頻資料之頻率即可變更該原聲音頻資料 之音調’例如趨近於女聲或男聲’同樣的可符合不同使用 者之說話音調。 18094 11 1235823 凊苓閱第2圖,係為本發明之語音識別之流程。 h立於步驟S201中,提供儲存單元11以儲存至少包括原 聲音頻、錄入音頻以及預設識別標準等資料。 +、
驟 S202 。 V 於步驟S202中,該音頻處理模組17係用以設定語音 拮放之速度與頻率等音頻特性。於本實施例中,該音頻處 =模組17可透過諸如時序變化的方式,加快或放慢該^ ^ 曰頻貪料的速度。另一方面’復可變更該原聲音頻資料之 頻率即可變更該原聲音頻資料之音調。接著進賢 S203。 ^於步驟S203中,提供取樣頻率設定模組12以依據預 叹之數值^原聲音頻與錄人音頻取樣頻率值。於本實施 例中’本發明之語音識別系統作為語音識別之用,、故 取樣頻率可取為22KHz。接著進行步驟s2〇4。 於步驟S204巾,提供音頻波形訊號轉換模組i3以依 立該取樣財設定餘12所較之取㈣率值,將該原聲 曰頻與錄入音頻轉換為波形訊號。於本實施例中,該音頻 波形訊號轉換模組13係利用個人電腦上習用的數位音曰效、 檔案格式「.WAV」檔。接著進行步驟§2〇5。 於步驟S205中,提供該分析模組14以分析該原聲音 =與錄入音頻取樣頻率之最大音量值。於本實施例中,該 日可j刻度上的值可為伏特(v〇h)或分貝(decibei ;犯 接著進行步驟S206。 於步驟S206中,提供該計算模組15以分別計算出該 18094 12 1235823 頻與錄人音狀絕對值。於本實施财,該絕對值 古。异係依據該原聲音頻與錄入音頻之每—時間刻度上的 即將每—時間刻度除以該時間刻度上的伏特或分貝 值作為該絕對值。接著進行步驟S207。 別尸S207中,於該提供該判斷模組16以依據該識 ㈣準比㈣原聲音頻錢人音㈣對值料定識別的結 二本/把例中’ _谶別標準可例如為比較該計算模組 =料算出之原聲音頻每—相黯线對值以及錄入 曰頻母-時間刻度之絕對值之相似程度,更具體而言,係 以该原聲音頻絕對值與錄入音頻絕對值之差值,除該原聲 音頻的絕對值並求其相似度百分比。接著,進—步於求出 所^間刻度之相似度百分比後’再求出所有時間刻度相 似度百分比之總平均值。 综上所述,本發明之語音識別系統以及方法除可依據 需求設定音頻取樣料外,復可依翁求設定語音播放之 速度與頻率。藉以讓學f者在接近自身發音特性的環境下 做語言的學習,進而有效提升語言學習之效率。 上述實施例僅為例示性說明本發明之原理及其功 效,=非用於限制本發明。任何熟習此項技藝之人士均可 在不違月本發明之精神及範轉下,對上述實施例進行修飾 與變化。因此,本發明之權利保護範圍,應如後述之申請 專利範圍所列。 【圖式簡單說明】 第1圖,係為本發明之語音識別系統之基本架構圖; 18094 13 1235823 以及 第2圖,係為本發明之語音識別之流程圖。 【主要元件符號說明】 1 語音識別系統 11 儲存單元 12 取樣頻率設定模組 13 音頻波形訊號轉換模組 14 分析模組 15 計算模組 16 判斷模組 17 音頻處理模組 2 個人電腦 22 輸入單元 S201〜S207 步驟 14 18094

Claims (1)

1235823 十、申請專利範圍: 1. 一種語音識別系統,係應用於資料處理裝置中,包括: 儲存單元’係用以儲存至少包括原聲音頻、錄入音 頻以及識別標準等資料; 取樣頻率設定模組’係用以依據預設之數值設定原 聲音頻與錄入音頻取樣頻率值; 音頻波形訊號轉換模組,係用以將該原聲音頻與錄 入音頻轉換為波形訊號; 分析模組,係用以分析該原聲音頻與錄入音頻取樣 頻率之最大音量值; 計算模組,係用以分別計算出該原聲音頻與錄入音 頻之絕對值; 判斷模組,係用以依據該識別標準比較該原聲音頻 與錄入音頻絕對值以決定識別的結果;以及 音頻處理模組,係設定語音播放之速度與頻率等音 頻特性。 2·如申請專利範圍第1項之系統,其中,該取樣頻率係為 44·1ΚΗζ及22KHz之其中一者。 3·如申請專利範圍第1項之系統,其中,該音頻波形訊號 轉換模組的音頻波形訊號轉換格式係為「 • wav」、「.au」、 「.snd」、「.voc」、r aiff」、r .afc」、r iff」或 r mat」之 其中之一種檔案格式。 4·如申請專利範圍第丨項之系統,其中,該音量值係為波 形訊號時間刻度上的值係為伏特(volt )及分貝 15 18094 1235823 (decibel ; dB )之其中一者。 5. 6. 7. 8· 9. 10 11 如申請專利範圍第1項之系統,其中,該絕對值的計算 係依據该原聲音頻與錄入音頻之每一時間刻度上的值。 如申請專利範圍第1項之系統,其中,該識別標準係為 比較該計算模組所計算出之原聲音頻每一時間刻度之 絕對值以及錄入音頻每一時間刻度的絕對值之相似程 度。 如申請專利範圍第6項之系統,其中,該絕對值之相似 矛王度係以該原聲音頻絕對值與錄入音頻絕對值之差值 除。亥原聲音頻的絕對值後所得的值。 如申請專利範圍第6項之系統,其中,該判斷模組復於 求出所有時間刻度之相似程度後,再求出所有時間刻度 相似程度之總平均值。 如申請專利範圍第丨項之系統,其中,該音頻處理模組 係透過時序變化的方式,調整該原聲音頻資料的速度。 如申請專利範圍第丨項之系統,其中,該音頻處理模組 係透過變更該原聲音頻資料之頻率以變更該原聲音頻 資料的音調。 一種語音識別方法,係應用於資料處理裝置中,包括: 提供儲存單元,用以儲存至少包括原聲音頻、錄入 音頻以及識別標準資料; 提供音頻處理模組,以設定語音播放之速度與頻率 等音頻特性; 提供取樣頻率設定模組,用以依據預設之數值設定 16 18094 1235823 原聲音頻與錄入音頻取樣頻率值; ^ · 提供音頻波形訊號轉換模組,用以將該原聲音頻與._ 錄入音頻轉換為波形訊號; 提供分析模組,用以分析該原聲音頻與錄入音頻取、 樣頻率之最大音量值; , 提供計算模組,用以分別計算出該原聲音頻與錄入 音頻之絕對值;以及 提供判斷模組,用以依據該識別標準比較該原聲音 頻與錄入音頻絕對值以決定識別的結果。 _ 12·如申請專利範圍第u項之方法,其中,該取樣頻率係 為44·1ΚΗζ及22KHz之其中一者。 13·如申請專利範圍第u項之方法,其中,該音頻波形訊 號轉換模組的音頻波形訊號轉換格式係為 r .wav」、 「.au」、「.snd」、「·ν〇(;」、Γ aiff」、「afc」、「iff」或「撕丈」 之其中之一種檔案格式。 14. 如申請專利範圍第11項之方法,其中,該音量值係為 波形訊號時間刻度上的值係為伏特(v〇lt)及分貝 (decibel ; dB )之其中一者。 15. 如申凊專利In圍第i!項之方法,其中,該絕對值的計 算係依據該原聲音頻與錄入音頻之每一時間刻度上的 值。 16. 如申請專利範圍第11項之方法,其中,該識別標準係 為比較該計算模組所計算出之原聲音頻每一時間刻度 之絶對值以及錄入音頻每一時間刻度的絕對值之相似 17 18094 1235823 程度。 17 18 19 20 如申請專利範圍第16項之方法,其中,該絕對值之相 似程度係以該原聲音頻絕對值與錄入音頻絕對值之差 值除該原聲音頻的絕對值後所得的值。 如申請專利範圍第16項之方法,其中,該判斷模組復 於求出所有時間刻度之相似程度後,再求出所有時間刻 度相似程度之總平均值。 =申請專利範圍第11項之方法,其中,該音頻處理模 組係透過時序變化的方式,調整該原聲音頻資料的 度。 如申請專利範圍第11項之方法,其中,該音頻處理模 組係透過變更該原聲音頻資料之頻率以變更該原聲音 頻資料的音調。 18 18094
TW093129523A 2004-09-30 2004-09-30 Speech recognition system and method thereof TWI235823B (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW093129523A TWI235823B (en) 2004-09-30 2004-09-30 Speech recognition system and method thereof
US10/988,306 US20060074650A1 (en) 2004-09-30 2004-11-12 Speech identification system and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW093129523A TWI235823B (en) 2004-09-30 2004-09-30 Speech recognition system and method thereof

Publications (2)

Publication Number Publication Date
TWI235823B true TWI235823B (en) 2005-07-11
TW200610946A TW200610946A (en) 2006-04-01

Family

ID=36126663

Family Applications (1)

Application Number Title Priority Date Filing Date
TW093129523A TWI235823B (en) 2004-09-30 2004-09-30 Speech recognition system and method thereof

Country Status (2)

Country Link
US (1) US20060074650A1 (zh)
TW (1) TWI235823B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005076258A1 (ja) * 2004-02-03 2005-08-18 Matsushita Electric Industrial Co., Ltd. ユーザ適応型装置およびその制御方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295391B1 (en) * 1998-02-19 2001-09-25 Hewlett-Packard Company Automatic data routing via voice command annotation
JP3465628B2 (ja) * 1999-05-06 2003-11-10 ヤマハ株式会社 オーディオ信号の時間軸圧伸方法及び装置
US6296489B1 (en) * 1999-06-23 2001-10-02 Heuristix System for sound file recording, analysis, and archiving via the internet for language training and other applications
US7366659B2 (en) * 2002-06-07 2008-04-29 Lucent Technologies Inc. Methods and devices for selectively generating time-scaled sound signals
US7299188B2 (en) * 2002-07-03 2007-11-20 Lucent Technologies Inc. Method and apparatus for providing an interactive language tutor
JP2004246184A (ja) * 2003-02-14 2004-09-02 Eigyotatsu Kofun Yugenkoshi 視覚化された発音の提案を備えた言語学習システム及び方法
JP4407305B2 (ja) * 2003-02-17 2010-02-03 株式会社ケンウッド ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
US20060057545A1 (en) * 2004-09-14 2006-03-16 Sensory, Incorporated Pronunciation training method and apparatus

Also Published As

Publication number Publication date
TW200610946A (en) 2006-04-01
US20060074650A1 (en) 2006-04-06

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
CN106898340B (zh) 一种歌曲的合成方法及终端
US6182044B1 (en) System and methods for analyzing and critiquing a vocal performance
CN110675886B (zh) 音频信号处理方法、装置、电子设备及存储介质
CN112992109B (zh) 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体
CN100585663C (zh) 语言学习系统
CN109346057A (zh) 一种智能儿童玩具的语音处理系统
CN111739536A (zh) 一种音频处理的方法和装置
Xue et al. Cross-modal information fusion for voice spoofing detection
JP6728116B2 (ja) 音声認識装置、音声認識方法およびプログラム
CN114125506A (zh) 语音审核方法及装置
TWI235823B (en) Speech recognition system and method thereof
KR20000049500A (ko) 음성 인식 및 음성 합성을 이용한 외국어 교육 서비스방법 및 그 시스템
Choi et al. Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech
CN100458914C (zh) 语音识别系统以及方法
Kamble et al. Audio Visual Speech Synthesis and Speech Recognition for Hindi Language
Kiran Reddy et al. DNN-based cross-lingual voice conversion using Bottleneck Features
WO2020154916A1 (zh) 视频字幕合成方法、装置、存储介质及电子设备
KR20170051759A (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
Tsai et al. Speaker Identification in Overlapping Speech.
Tamaru et al. Perception analysis of inter-singer similarity in Japanese song
Liu et al. Speech Disorders Classification by CNN in Phonetic E-Learning System
Zain et al. A review of CALL-based ASR and its potential application for Malay cued Speech learning tool application
Patil et al. Teager energy mel cepstrum for identification of twins in Marathi
Ajmera et al. Audio cloud: creation and rendering