TW201349222A - 語音識別方法及系統 - Google Patents
語音識別方法及系統 Download PDFInfo
- Publication number
- TW201349222A TW201349222A TW101117791A TW101117791A TW201349222A TW 201349222 A TW201349222 A TW 201349222A TW 101117791 A TW101117791 A TW 101117791A TW 101117791 A TW101117791 A TW 101117791A TW 201349222 A TW201349222 A TW 201349222A
- Authority
- TW
- Taiwan
- Prior art keywords
- speaker
- speech
- acoustic model
- data
- identity
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000006978 adaptation Effects 0.000 claims abstract description 36
- 238000013480 data collection Methods 0.000 claims description 20
- 238000012790 confirmation Methods 0.000 claims description 16
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
一種語音識別方法及系統。此方法係擷取語音資料中的語音特徵,據以辨識此語音資料的語者身份,接著使用第一聲學模型來辨識語音資料中的語句,而根據所辨識的語句及語音資料,計算所辨識語句的信心分數,並判斷此信心分數是否超過門檻值。其中,當信心分數超過門檻值時,即收集所辨識的語句及語音資料,以使用此語音資料進行與語者身份相對應的第二聲學模型的語者調適。
Description
本發明是有關於一種語音識別系統及方法,且特別是有關於一種可針對不同語者調適的語音識別系統及方法。
自動語音識別系統是利用不特定語者(speaker independent)聲學模型來辨識語者所說的單字。此不特定語者模型是利用由大量語音素材(corpus)中取得的多個語者的語音資料以及已知轉譯(transcription)資料所建立。此種方法雖可產生較為均衡(average)的不特定語者模型,但針對使用特定方式說話的不同語者,仍不一定能夠提供準確的辨識結果,且若使用上述系統的使用者並非本國語者(native speaker)或是為幼童,系統的辨識準確度將大幅下降。
特定語者(speaker dependent)聲學模型則是針對特定語者所建立,其係將每個語者的語音特性模組化為語音模型,因此可提供相當高的辨識準確度。然而,要產生這樣的特定語者聲學模型需要取得大量的語音資料,才得以進行語者調適(speaker adaptation)。
常見的聲學模型訓練方式為離線監督式語者調適(off-line supervised speaker adaptation),其係要求使用者重覆唸出預先定義的語句並錄製為語音資料,而當收集足夠數量語句的語音資料後,系統再根據已知語句及所收集
的語音資料進行語者調適,從而建立該語者的聲學模型。然而,在許多系統、應用或裝置中,使用者多不願意進行上述的訓練過程,因此要從單一語者上收集足夠的語音資料,並用以產生特定語者聲學模型,是相當困難且不實際的。
另一種方式則為線上非監督式語者調適(on-line unsupervised speaker adaptation),其係先辨識語者的語音資料,然後根據辨識結果(transcript)在系統運行(run time)期間進行不特定語者聲學模型的調適。此種方式雖可提供線上即時的語者調適,但卻需要先辨識語音資料才能進行調適,相對於已知語句的離線調適方式而言,辨識結果不太可能完全正確。
有鑑於此,本發明提出一種語音識別方法及系統,藉由辨識語音資料的語者身份,據以進行聲學模型的語者調適(speaker adaptation),可增加語音識別的準確性。
本發明提出一種語音識別方法,其係擷取一語音資料中的至少一個語音特徵,據以辨識此語音資料的語者身份,接著使用第一聲學模型來辨識語音資料中的語句,而根據所辨識的語句及語音資料,計算所辨識語句的信心分數(confidence score),並判斷此信心分數是否超過第一門檻值。其中,當信心分數超過第一門檻值時,即收集所辨識的語句及語音資料,以使用此語音資料進行與語者身
份相對應的第二聲學模型的語者調適。
本發明提出一種語音識別系統,其包括語者識別模組、語音辨識模組、詞語確認模組、資料收集模組及語者調適模組。其中,語者識別模組係用以擷取語音資料中的至少一個語音特徵,據以辨識語音資料的語者身份。語音辨識模組係使用第一聲學模型辨識語音資料中的語句。詞語確認模組係根據語音辨識模組所辨識的語句及語音資料,計算所辨識語句的信心分數,並判斷此信心分數是否超過第一門檻值。資料收集模組係在詞語確認模組判斷信心分數超過第一門檻值時,收集語音辨識模組所辨識的語句及語音資料。語者調適模組係使用資料收集模組所收集的語音資料進行與語者身份相對應的第二聲學模型的語者調適。
基於上述,本發明之語音識別方法及系統係針對不同語者建立專屬的聲學模型,並在接收到語音資料時,計算辨識該語音資料的信心分數及發音分數,據以決定是否以此語音資料來進行相對應語者之聲學模型的語者調適,藉此可增加語音識別的準確性。
為讓本發明之上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明係收集不同語者輸入的語音資料,辨識語音資料中的語句,並確認所辨識語句的正確性,據以決定是否
將此語音資料用來進行語者調適(speaker adaptation)以產生語者的聲學模型。隨著所收集語音資料的遞增,可將聲學模型調適為愈來愈接近語者的語音特性,而針對不同語者自動切換使用專屬的聲學模型來辨識語句,則可增加辨識的準確度。上述語音資料的收集及聲學模型的調適均是在背景中執行,因此可在使用者不知情或不干擾使用者的情況下自動進行,提供使用便利性。
圖1是依照本發明一實施例所繪示之語音識別系統的方塊圖。圖2是依照本發明一實施例所繪示之語音識別方法的流程圖。請同時參照圖1及圖2,本實施例的語音識別系統10包括語者識別模組11、語音辨識模組12、詞語確認模組13、資料收集模組14及語者調適模組15,以下即搭配圖1中語音識別系統10的各項元件說明本實施例語音識別方法的詳細步驟:
首先,由語者識別模組11接收語者輸入的語音資料,而擷取此語音資料中的至少一個語音特徵,據以辨識語音資料的語者身份(步驟S202)。其中,語者識別模組11例如分別利用已建立在語音識別系統10之聲學模型資料庫(未繪示)中的多個語者的聲學模型來辨識上述語音資料中的語音特徵,而根據各個聲學模型取得語音資料的辨識結果,語者識別模組11即可判斷出語音資料的語者身份。
接著,由語音辨識模組12使用第一聲學模型辨識語音資料中的語句(步驟S204)。其中,語音辨識模組12
例如會應用自動語音辨識(automatic speech recognition,ASR)技術,而使用一個不特定語者(speaker independent)聲學模型來辨識語音資料中的語句。此不特定語者聲學模型例如是內建在語音識別系統10中,而可用以辨識不特定語者輸入的語音資料。
需說明的是,本實施例的語音識別系統10還可針對不同的語者建立各自專屬的聲學模型,並給予此語者或其聲學模型一個特定的語者身份。藉此,每當語者識別模組11接收到由已建立有聲學模型之語者輸入的語音資料時,即可立即識別出該語者的身份,從而選用其對應的聲學模型來辨識語音資料。
舉例來說,圖3是依照本發明一實施例所繪示之根據語者身份選擇聲學模型以辨識語音資料的方法流程圖。請參照圖3,在語者識別模組11擷取語音資料中的至少一個語音特徵,並據以辨識語音資料的語者身份(步驟S302)。之後,語音辨識模組12會進一步判斷語者識別模組11是否辨識出語音資料的語者身份(步驟S304)。其中,若語者識別模組11可辨識語者身份,語音辨識模組12即可從語者識別模組11接收語者身份,並使用與此語者身份相對應的聲學模型來辨識語音資料中的語句(步驟S306);反之,若語者識別模組11無法辨識該語者身份,則可額外建立一個新的語者身份,而語音辨識模組12在從語者識別模組11接收到新的語者身份時,則會使用不特定語者(speaker independent)聲學模型來辨識語音資料中的語句
(步驟S308)。藉此,即便是在沒有可與語音資料相對應的語者聲學模型的情況下,語音識別系統10仍然能夠藉由使用不特定語者聲學模型來辨識語音資料,進而建立此語者專屬的聲學模型。
回到圖2的流程,在語音辨識模組12辨識語音資料中的語句之後,詞語確認模組13即根據語音辨識模組12所辨識的語句及語音資料,計算所辨識語句的信心分數(步驟S206)。其中,詞語確認模組13例如是利用詞語確認(utterance verification)技術來量測所辨識語句的信心分數,藉此判斷所辨識語句的正確性(correctness)。
接著,詞語確認模組13會判斷所計算的信心分數是否超過第一門檻值(步驟S208),並在此信心分數超過第一門檻值時,輸出語音辨識模組12所辨識的語句及語音資料,而由資料收集模組14收集,語者調適模組15則使用資料收集模組14收集的語音資料進行與語者身份相對應的第二聲學模型的語者調適(步驟S210)。反之,在詞語確認模組13判斷信心分數不超過第一門檻值時,資料收集模組14則不會收集此語音資料,語者調適模組15也不會使用此語音資料進行語者調適(步驟S212)。
詳言之,資料收集模組14例如會將具有高信心分數的語音資料及其語句儲存在語音識別系統10的語音資料庫(未繪示)中,以準備做為聲學模型的語者調適之用。語者調適模組15則會根據語者識別模組11所辨識的語者身份,判斷語音識別系統10中是否已建立有此語者對應的
聲學模型。而若系統中已有對應的聲學模型,則語者調適模組15即會使用資料收集模組14所收集的語句及語音資料直接對該聲學模型進而語者調適,從而將該聲學模型調適得愈來愈接近該語者的語音特性。其中,上述的聲學模型例如是一個採用隱藏式馬可夫模型(Hidden-Markov Model,HMM)的統計模型,其例如會記錄先前資料的平均值(mean)和變異數(variacne)等統計值,而每當有新的語音資料進入後,這些統計值也將會對應此語音資料做小幅變動,最終獲得一個更強健(robust)的統計模型。
另一方面,若系統中沒有對應的聲學模型,則語者調適模組15還會根據資料收集模組14所收集的語音資料的數目,而決定是否進行語者調適以新增新的聲學模型。
詳言之,圖4是依照本發明一實施例所繪示之新增聲學模型的方法流程圖。請參照圖4,本實施例係由資料收集模組14收集語句及語音資料(步驟S402),而語者調適模組15則會在資料收集模組14每次收集到新的語音資料時,判斷其所收集的語音資料數目是否超過第三門檻值(步驟S404)。其中,當判斷數目超過第三門檻值時,即代表所收集的資料已足以建立聲學模型,此時語者調適模組15即會利用資料收集模組14所收集的語音資料,將一個不特定語者(speaker independent)聲學模型轉換為特定語者(speaker dependent)聲學模型,並用以作為與語者身份相對應的聲學模型(步驟S406)。反之,當判斷數目不超過第三門檻值時,則回到步驟S402,由資料收集模組
14繼續收集語句及語音資料。
藉由上述方法,當使用者將配備本案語音識別系統的裝置買回家時,即可由家中成員分別輸入語音資料,藉以建立各自的聲學模型。而隨著各個成員使用次數的增加,各個聲學模型也將調適得愈來愈接近成員的語音特性。此外,在每次接收到語音資料時,語音識別系統也會自動辨識成員身分,並選用相對應的聲學模型來進行語音辨識,因此可增加語音辨識的正確性。
除了上述辨識語句正確性的評分機制外,本發明還針對語音資料中多個詞語(utterance),設計一個發音的評分機制,並用以篩選語音資料,從而去除語意正確但發音不正確的語音資料。以下則再舉一實施例詳細說明。
圖5是依照本發明一實施例所繪示之語音識別系統的方塊圖。圖6是依照本發明一實施例所繪示之語音識別方法的流程圖。請同時參照圖5及圖6,本實施例的語音識別系統50包括語者識別模組51、語音辨識模組52、詞語確認模組53、資料收集模組54、語音評分模組55及語者調適模組56,以下即搭配圖5中語音識別系統50的各項元件說明本實施例語音識別方法的詳細步驟:
首先,由語者識別模組51接收語者輸入的語音資料,而擷取此語音資料中的至少一個語音特徵,據以辨識語音資料的語者身份(步驟S602)。接著,由語音辨識模組52使用第一聲學模型辨識語音資料中的語句(步驟S604)。之後,由詞語確認模組53根據語音辨識模組52
所辨識的語句及語音資料,計算所辨識語句的信心分數(步驟S606),並判斷此信心分數是否超過第一門檻值(步驟S608)。其中,當信心分數不超過第一門檻值時,詞語確認模組53即不會輸出所辨識的語句及語音資料,而此語音資料也不會用來進行語者調適(步驟S610)。
反之,在判斷信心分數超過第一門檻值時,詞語確認模組53即會輸出所辨識的語句及語音資料,而由語音評分模組55進一步利用語音評分(speech evaluation)技術評價此語音資料中多個詞語(utterance)的發音分數(pronunciation score)(步驟S612)。其中,語音評分模組55例如會評價語音資料中的音素(phoneme)、單字(word)、片語(phrase)、語句(sentence)等詞語,藉此提供每一個詞語的詳細資訊。
接著,語者調適模組56會判斷語音評分模組55所計算的發音分數是否超過第二門檻值,從而使用發音分數超過第二門檻值的全部或部分語音資料來進行與語者身份相對應的第二聲學模型的語者調適(步驟S614)。
藉由上述方法,即可進一步篩選出發音不正確的語音資料,因此可避免將此語音資料用在聲學模型的調適,而造成聲學模型的偏差。
綜上所述,本發明的語音識別方法及系統藉由辨識語音資料的語者身份,選用對應的聲學模型來進行語音識別,因此可大幅增加語音識別的準確性。本發明更進一步計算語音識別結果的信心分數及發音分數,從而去除語意
不正確及發音不正確的語音資料,並僅使用分數較高、具有參考價值的語音資料來對聲學模型進行語者調適,因此可使得聲學模型接近語者的語音特性,從而增加語音辨識的正確性。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,故本發明之保護範圍當視後附之申請專利範圍所界定者為準。
10、50‧‧‧語音識別系統
11、51‧‧‧語者識別模組
12、52‧‧‧語音辨識模組
13、53‧‧‧詞語確認模組
14、54‧‧‧資料收集模組
15、56‧‧‧語者調適模組
55‧‧‧語音評分模組
S202~S212‧‧‧本發明一實施例之語音識別方法的步驟
S302~S308‧‧‧本發明一實施例之根據語者身份選擇聲學模型以辨識語音資料的方法步驟
S402~S406‧‧‧本發明一實施例之新增聲學模型的方法步驟
S602~S614‧‧‧本發明一實施例之語音識別方法的步驟
圖1是依照本發明一實施例所繪示之語音識別系統的方塊圖。
圖2是依照本發明一實施例所繪示之語音識別方法的流程圖。
圖3是依照本發明一實施例所繪示之根據語者身份選擇聲學模型以辨識語音資料的方法流程圖。
圖4是依照本發明一實施例所繪示之新增聲學模型的方法流程圖。
圖5是依照本發明一實施例所繪示之語音識別系統的方塊圖。
圖6是依照本發明一實施例所繪示之語音識別方法的流程圖。
S202~S212‧‧‧本發明一實施例之語音識別方法的步驟
Claims (20)
- 一種語音識別方法,包括:擷取一語音資料中的至少一語音特徵,據以辨識該語音資料的一語者身份;使用一第一聲學模型辨識該語音資料中的一語句;根據所辨識的該語句及該語音資料,計算所辨識該語句的一信心分數(confidence score),並判斷該信心分數是否超過一第一門檻值;以及當該信心分數超過該第一門檻值時,收集所辨識的該語句及該語音資料,以使用該語音資料進行與該語者身份相對應的一第二聲學模型的一語者調適。
- 如申請專利範圍第1項所述之語音識別方法,其中擷取該語音資料中的該至少一語音特徵,據以辨識該語音資料的該語者身份的步驟包括:分別利用已建立的多個語者的第二聲學模型辨識該至少一語音特徵,以根據各該些第二聲學模型的一辨識結果,判斷該語音資料的該語者身份。
- 如申請專利範圍第2項所述之語音識別方法,其中使用該第一聲學模型辨識該語音資料中的該語句的步驟包括:判斷是否可辨識該語音資料的該語者身份;若無法辨識該語者身份,建立一新語者身份,並使用一不特定語者(speaker independent)聲學模型辨識該語音資料中的該語句;以及 若可辨識該語者身份,使用與該語者身份相對應的該第二聲學模型辨識該語音資料中的該語句。
- 如申請專利範圍第1項所述之語音識別方法,其中根據所辨識的該語句及該語音資料,計算所辨識該語句的該信心分數的步驟包括:利用一詞語確認(utterance verification)技術,量測所辨識該語句的該信心分數。
- 如申請專利範圍第1項所述之語音識別方法,其中收集所辨識的該語句及該語音資料,以使用該語音資料進行與該語者身份相對應的該第二聲學模型的該語者調適的步驟包括:利用一語音評分(speech evaluation)技術評價該語音資料中多個詞語(utterance)的一發音分數(pronunciation score),並判斷該發音分數是否超過一第二門檻值;以及使用該發音分數超過該第二門檻值的全部或部分該語音資料進行與該語者身份相對應的該第二聲學模型的該語者調適。
- 如申請專利範圍第5項所述之語音識別方法,其中該些詞語包括音素(phoneme)、單字(word)、片語(phrase)及語句(sentence)其中之一或其組合。
- 如申請專利範圍第1項所述之語音識別方法,其中使用該第一聲學模型辨識該語音資料中的該語句的步驟包括:使用一自動語音辨識(automatic speech recognition, ASR)技術辨識該語音資料中的該語句。
- 如申請專利範圍第1項所述之語音識別方法,其中收集所辨識的該語句及該語音資料,使用該語音資料進行與該語者身份相對應的該第二聲學模型的該語者調適的步驟包括:判斷所收集的語音資料的一數目是否超過一第三門檻值;以及當該數目超過該第三門檻值時,利用所收集的語音資料,轉換一不特定語者(speaker independent)聲學模型為一特定語者(speaker dependent)聲學模型,以作為與該語者身份相對應的該第二聲學模型。
- 如申請專利範圍第1項所述之語音識別方法,其中該第一聲學模型及該第二聲學模型為隱藏式馬可夫模型(Hidden-Markov Model,HMM)。
- 一種語音識別系統,包括:一語者識別模組,擷取一語音資料中的至少一語音特徵,據以辨識該語音資料的一語者身份;一語音辨識模組,使用一第一聲學模型辨識該語音資料中的一語句;一詞語確認模組,根據該語音辨識模組所辨識的該語句及該語音資料,計算所辨識該語句的一信心分數,並判斷該信心分數是否超過一第一門檻值;一資料收集模組,當該詞語確認模組判斷該信心分數超過該第一門檻值時,收集該語音辨識模組所辨識的該語 句及該語音資料;以及一語者調適模組,使用該資料收集模組所收集的該語音資料進行與該語者身份相對應的一第二聲學模型的一語者調適。
- 如申請專利範圍第10項所述之語音識別系統,更包括:一聲學模型資料庫,記錄已建立的多個語者的第二聲學模型。
- 如申請專利範圍第11項所述之語音識別系統,其中該語者識別模組包括分別利用該聲學模型資料庫中該些語者的第二聲學模型辨識該至少一語音特徵,以根據各該些第二聲學模型的一辨識結果,判斷該語音資料的該語者身份。
- 如申請專利範圍第12項所述之語音識別系統,其中該語者識別模組包括判斷是否可辨識該語音資料的該語者身份,其中若無法辨識該語者身份,建立一新語者身份,並由該語音辨識模組使用一不特定語者聲學模型辨識該語音資料中的該語句;以及若可辨識該語者身份,由該語音辨識模組使用與該語者身份相對應的該第二聲學模型辨識該語音資料中的該語句。
- 如申請專利範圍第10項所述之語音識別系統,其中該詞語確認模組是利用一詞語確認技術,量測所辨識該 語句的該信心分數。
- 如申請專利範圍第10項所述之語音識別系統,更包括:一語音評分模組,利用一語音評分技術評價該語音資料中多個詞語的一發音分數。
- 如申請專利範圍第15項所述之語音識別系統,其中該語者調適模組更包括判斷該語音評分模組所評價的該發音分數是否超過一第二門檻值,而使用該發音分數超過該第二門檻值的全部或部分該語音資料進行與該語者身份相對應的該第二聲學模型的該語者調適。
- 如申請專利範圍第16項所述之語音識別系統,其中該些詞語包括音素、單字、片語及語句其中之一或其組合。
- 如申請專利範圍第10項所述之語音識別系統,其中該語音辨識模組是使用一自動語音辨識技術辨識該語音資料中的該語句。
- 如申請專利範圍第10項所述之語音識別系統,其中該語者調適模組更包括判斷該資料收集模組所收集的語音資料的一數目是否超過一第三門檻值,而當該數目超過該第三門檻值時,利用該資料收集模組所收集的語音資料,轉換一不特定語者聲學模型為一特定語者聲學模型,以作為與該語者身份相對應的該第二聲學模型。
- 如申請專利範圍第10項所述之語音識別系統,其中該第一聲學模型及該第二聲學模型為隱藏式馬可夫模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101117791A TWI466101B (zh) | 2012-05-18 | 2012-05-18 | 語音識別方法及系統 |
US13/705,168 US20130311184A1 (en) | 2012-05-18 | 2012-12-05 | Method and system for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101117791A TWI466101B (zh) | 2012-05-18 | 2012-05-18 | 語音識別方法及系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201349222A true TW201349222A (zh) | 2013-12-01 |
TWI466101B TWI466101B (zh) | 2014-12-21 |
Family
ID=49582031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101117791A TWI466101B (zh) | 2012-05-18 | 2012-05-18 | 語音識別方法及系統 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20130311184A1 (zh) |
TW (1) | TWI466101B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI832552B (zh) * | 2022-11-11 | 2024-02-11 | 國立雲林科技大學 | 基於元學習應用於開放集環境下之即時短語句的語者辨識系統 |
Families Citing this family (104)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9466286B1 (en) * | 2013-01-16 | 2016-10-11 | Amazong Technologies, Inc. | Transitioning an electronic device between device states |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9558749B1 (en) * | 2013-08-01 | 2017-01-31 | Amazon Technologies, Inc. | Automatic speaker identification using speech recognition features |
KR20150031984A (ko) * | 2013-09-17 | 2015-03-25 | 한국전자통신연구원 | 디바이스 구분 음향모델 누적 적응을 이용한 음성인식 시스템 및 방법 |
US9508345B1 (en) | 2013-09-24 | 2016-11-29 | Knowles Electronics, Llc | Continuous voice sensing |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9953634B1 (en) * | 2013-12-17 | 2018-04-24 | Knowles Electronics, Llc | Passive training for automatic speech recognition |
KR102225404B1 (ko) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | 디바이스 정보를 이용하는 음성인식 방법 및 장치 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
KR102545764B1 (ko) | 2016-04-01 | 2023-06-20 | 삼성전자주식회사 | 음성 번역을 위한 장치 및 방법 |
US10152974B2 (en) * | 2016-04-15 | 2018-12-11 | Sensory, Incorporated | Unobtrusive training for speaker verification |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
CN109257942B (zh) * | 2017-05-12 | 2020-01-14 | 苹果公司 | 用户特定的声学模型 |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
CN109559759B (zh) * | 2017-09-27 | 2021-10-08 | 华硕电脑股份有限公司 | 具备增量注册单元的电子设备及其方法 |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11257493B2 (en) | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
US11152005B2 (en) * | 2019-09-11 | 2021-10-19 | VIQ Solutions Inc. | Parallel processing framework for voice to text digital media |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112992187B (zh) * | 2021-02-26 | 2023-04-18 | 平安科技(深圳)有限公司 | 基于上下文的语音情感检测方法、装置、设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5566272A (en) * | 1993-10-27 | 1996-10-15 | Lucent Technologies Inc. | Automatic speech recognition (ASR) processing using confidence measures |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US6088669A (en) * | 1997-01-28 | 2000-07-11 | International Business Machines, Corporation | Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling |
US6243678B1 (en) * | 1998-04-07 | 2001-06-05 | Lucent Technologies Inc. | Method and system for dynamic speech recognition using free-phone scoring |
EP1011094B1 (en) * | 1998-12-17 | 2005-03-02 | Sony International (Europe) GmbH | Semi-supervised speaker adaption |
GB2394590B (en) * | 2001-08-14 | 2005-02-16 | Sony Electronics Inc | System and method for speech verification using a robust confidence measure |
US7222072B2 (en) * | 2003-02-13 | 2007-05-22 | Sbc Properties, L.P. | Bio-phonetic multi-phrase speaker identity verification |
TWI223791B (en) * | 2003-04-14 | 2004-11-11 | Ind Tech Res Inst | Method and system for utterance verification |
TWI305345B (en) * | 2006-04-13 | 2009-01-11 | Delta Electronics Inc | System and method of the user interface for text-to-phone conversion |
TWI342010B (en) * | 2006-12-13 | 2011-05-11 | Delta Electronics Inc | Speech recognition method and system with intelligent classification and adjustment |
TWI349925B (en) * | 2008-01-10 | 2011-10-01 | Delta Electronics Inc | Speech recognition device and method thereof |
-
2012
- 2012-05-18 TW TW101117791A patent/TWI466101B/zh active
- 2012-12-05 US US13/705,168 patent/US20130311184A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI832552B (zh) * | 2022-11-11 | 2024-02-11 | 國立雲林科技大學 | 基於元學習應用於開放集環境下之即時短語句的語者辨識系統 |
Also Published As
Publication number | Publication date |
---|---|
US20130311184A1 (en) | 2013-11-21 |
TWI466101B (zh) | 2014-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI466101B (zh) | 語音識別方法及系統 | |
CN103426428B (zh) | 语音识别方法及系统 | |
US10339920B2 (en) | Predicting pronunciation in speech recognition | |
US8478591B2 (en) | Phonetic variation model building apparatus and method and phonetic recognition system and method thereof | |
US20140156276A1 (en) | Conversation system and a method for recognizing speech | |
US9224387B1 (en) | Targeted detection of regions in speech processing data streams | |
KR100655491B1 (ko) | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 | |
JP6654611B2 (ja) | 成長型対話装置 | |
US8880399B2 (en) | Utterance verification and pronunciation scoring by lattice transduction | |
JP2016206660A (ja) | 話者識別方法及び話者識別装置 | |
JP2011033680A (ja) | 音声処理装置及び方法、並びにプログラム | |
Li et al. | Combining five acoustic level modeling methods for automatic speaker age and gender recognition. | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
US9691389B2 (en) | Spoken word generation method and system for speech recognition and computer readable medium thereof | |
KR20100027865A (ko) | 화자 및 음성 인식 장치 및 그 방법 | |
US9240181B2 (en) | Automatic collection of speaker name pronunciations | |
US8589162B2 (en) | Method, system and computer program for enhanced speech recognition of digits input strings | |
JPWO2008111190A1 (ja) | 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム | |
Ilyas et al. | Speaker verification using vector quantization and hidden Markov model | |
JP2000250593A (ja) | 話者認識装置及び方法 | |
Abdou et al. | Enhancing the confidence measure for an Arabic pronunciation verification system | |
KR100622019B1 (ko) | 음성 인터페이스 시스템 및 방법 | |
KR20140035164A (ko) | 음성인식시스템의 동작방법 | |
KR100586045B1 (ko) | 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법 | |
CN117789706B (zh) | 一种音频信息内容识别方法 |