TWI466101B - 語音識別方法及系統 - Google Patents

語音識別方法及系統 Download PDF

Info

Publication number
TWI466101B
TWI466101B TW101117791A TW101117791A TWI466101B TW I466101 B TWI466101 B TW I466101B TW 101117791 A TW101117791 A TW 101117791A TW 101117791 A TW101117791 A TW 101117791A TW I466101 B TWI466101 B TW I466101B
Authority
TW
Taiwan
Prior art keywords
speaker
speech
acoustic model
data
identity
Prior art date
Application number
TW101117791A
Other languages
English (en)
Other versions
TW201349222A (zh
Inventor
Nilay Chokhoba Badavne
Tai Ming Parng
Po Yuan Yeh
Yadaiah Vinay Kumar Baapanapalli
Original Assignee
Asustek Comp Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asustek Comp Inc filed Critical Asustek Comp Inc
Priority to TW101117791A priority Critical patent/TWI466101B/zh
Priority to US13/705,168 priority patent/US20130311184A1/en
Publication of TW201349222A publication Critical patent/TW201349222A/zh
Application granted granted Critical
Publication of TWI466101B publication Critical patent/TWI466101B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Description

語音識別方法及系統
本發明是有關於一種語音識別系統及方法,且特別是有關於一種可針對不同語者調適的語音識別系統及方法。
自動語音識別系統是利用不特定語者(speaker independent)聲學模型來辨識語者所說的單字。此不特定語者模型是利用由大量語音素材(corpus)中取得的多個語者的語音資料以及已知轉譯(transcription)資料所建立。此種方法雖可產生較為均衡(average)的不特定語者模型,但針對使用特定方式說話的不同語者,仍不一定能夠提供準確的辨識結果,且若使用上述系統的使用者並非本國語者(native speaker)或是為幼童,系統的辨識準確度將大幅下降。
特定語者(speaker dependent)聲學模型則是針對特定語者所建立,其係將每個語者的語音特性模組化為語音模型,因此可提供相當高的辨識準確度。然而,要產生這樣的特定語者聲學模型需要取得大量的語音資料,才得以進行語者調適(speaker adaptation)。
常見的聲學模型訓練方式為離線監督式語者調適(off-line supervised speaker adaptation),其係要求使用者重覆唸出預先定義的語句並錄製為語音資料,而當收集足夠數量語句的語音資料後,系統再根據已知語句及所收集 的語音資料進行語者調適,從而建立該語者的聲學模型。然而,在許多系統、應用或裝置中,使用者多不願意進行上述的訓練過程,因此要從單一語者上收集足夠的語音資料,並用以產生特定語者聲學模型,是相當困難且不實際的。
另一種方式則為線上非監督式語者調適(on-line unsupervised speaker adaptation),其係先辨識語者的語音資料,然後根據辨識結果(transcript)在系統運行(run time)期間進行不特定語者聲學模型的調適。此種方式雖可提供線上即時的語者調適,但卻需要先辨識語音資料才能進行調適,相對於已知語句的離線調適方式而言,辨識結果不太可能完全正確。
有鑑於此,本發明提出一種語音識別方法及系統,藉由辨識語音資料的語者身份,據以進行聲學模型的語者調適(speaker adaptation),可增加語音識別的準確性。
本發明提出一種語音識別方法,其係擷取一語音資料中的至少一個語音特徵,據以辨識此語音資料的語者身份,接著使用第一聲學模型來辨識語音資料中的語句,而根據所辨識的語句及語音資料,計算所辨識語句的信心分數(confidence score),並判斷此信心分數是否超過第一門檻值。其中,當信心分數超過第一門檻值時,即收集所辨識的語句及語音資料,以使用此語音資料進行與語者身 份相對應的第二聲學模型的語者調適。
本發明提出一種語音識別系統,其包括語者識別模組、語音辨識模組、詞語確認模組、資料收集模組及語者調適模組。其中,語者識別模組係用以擷取語音資料中的至少一個語音特徵,據以辨識語音資料的語者身份。語音辨識模組係使用第一聲學模型辨識語音資料中的語句。詞語確認模組係根據語音辨識模組所辨識的語句及語音資料,計算所辨識語句的信心分數,並判斷此信心分數是否超過第一門檻值。資料收集模組係在詞語確認模組判斷信心分數超過第一門檻值時,收集語音辨識模組所辨識的語句及語音資料。語者調適模組係使用資料收集模組所收集的語音資料進行與語者身份相對應的第二聲學模型的語者調適。
基於上述,本發明之語音識別方法及系統係針對不同語者建立專屬的聲學模型,並在接收到語音資料時,計算辨識該語音資料的信心分數及發音分數,據以決定是否以此語音資料來進行相對應語者之聲學模型的語者調適,藉此可增加語音識別的準確性。
為讓本發明之上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明係收集不同語者輸入的語音資料,辨識語音資料中的語句,並確認所辨識語句的正確性,據以決定是否 將此語音資料用來進行語者調適(speaker adaptation)以產生語者的聲學模型。隨著所收集語音資料的遞增,可將聲學模型調適為愈來愈接近語者的語音特性,而針對不同語者自動切換使用專屬的聲學模型來辨識語句,則可增加辨識的準確度。上述語音資料的收集及聲學模型的調適均是在背景中執行,因此可在使用者不知情或不干擾使用者的情況下自動進行,提供使用便利性。
圖1是依照本發明一實施例所繪示之語音識別系統的方塊圖。圖2是依照本發明一實施例所繪示之語音識別方法的流程圖。請同時參照圖1及圖2,本實施例的語音識別系統10包括語者識別模組11、語音辨識模組12、詞語確認模組13、資料收集模組14及語者調適模組15,以下即搭配圖1中語音識別系統10的各項元件說明本實施例語音識別方法的詳細步驟:
首先,由語者識別模組11接收語者輸入的語音資料,而擷取此語音資料中的至少一個語音特徵,據以辨識語音資料的語者身份(步驟S202)。其中,語者識別模組11例如分別利用已建立在語音識別系統10之聲學模型資料庫(未繪示)中的多個語者的聲學模型來辨識上述語音資料中的語音特徵,而根據各個聲學模型取得語音資料的辨識結果,語者識別模組11即可判斷出語音資料的語者身份。
接著,由語音辨識模組12使用第一聲學模型辨識語音資料中的語句(步驟S204)。其中,語音辨識模組12 例如會應用自動語音辨識(automatic speech recognition,ASR)技術,而使用一個不特定語者(speaker independent)聲學模型來辨識語音資料中的語句。此不特定語者聲學模型例如是內建在語音識別系統10中,而可用以辨識不特定語者輸入的語音資料。
需說明的是,本實施例的語音識別系統10還可針對不同的語者建立各自專屬的聲學模型,並給予此語者或其聲學模型一個特定的語者身份。藉此,每當語者識別模組11接收到由已建立有聲學模型之語者輸入的語音資料時,即可立即識別出該語者的身份,從而選用其對應的聲學模型來辨識語音資料。
舉例來說,圖3是依照本發明一實施例所繪示之根據語者身份選擇聲學模型以辨識語音資料的方法流程圖。請參照圖3,在語者識別模組11擷取語音資料中的至少一個語音特徵,並據以辨識語音資料的語者身份(步驟S302)。之後,語音辨識模組12會進一步判斷語者識別模組11是否辨識出語音資料的語者身份(步驟S304)。其中,若語者識別模組11可辨識語者身份,語音辨識模組12即可從語者識別模組11接收語者身份,並使用與此語者身份相對應的聲學模型來辨識語音資料中的語句(步驟S306);反之,若語者識別模組11無法辨識該語者身份,則可額外建立一個新的語者身份,而語音辨識模組12在從語者識別模組11接收到新的語者身份時,則會使用不特定語者(speaker independent)聲學模型來辨識語音資料中的語句 (步驟S308)。藉此,即便是在沒有可與語音資料相對應的語者聲學模型的情況下,語音識別系統10仍然能夠藉由使用不特定語者聲學模型來辨識語音資料,進而建立此語者專屬的聲學模型。
回到圖2的流程,在語音辨識模組12辨識語音資料中的語句之後,詞語確認模組13即根據語音辨識模組12所辨識的語句及語音資料,計算所辨識語句的信心分數(步驟S206)。其中,詞語確認模組13例如是利用詞語確認(utterance verification)技術來量測所辨識語句的信心分數,藉此判斷所辨識語句的正確性(correctness)。
接著,詞語確認模組13會判斷所計算的信心分數是否超過第一門檻值(步驟S208),並在此信心分數超過第一門檻值時,輸出語音辨識模組12所辨識的語句及語音資料,而由資料收集模組14收集,語者調適模組15則使用資料收集模組14收集的語音資料進行與語者身份相對應的第二聲學模型的語者調適(步驟S210)。反之,在詞語確認模組13判斷信心分數不超過第一門檻值時,資料收集模組14則不會收集此語音資料,語者調適模組15也不會使用此語音資料進行語者調適(步驟S212)。
詳言之,資料收集模組14例如會將具有高信心分數的語音資料及其語句儲存在語音識別系統10的語音資料庫(未繪示)中,以準備做為聲學模型的語者調適之用。語者調適模組15則會根據語者識別模組11所辨識的語者身份,判斷語音識別系統10中是否已建立有此語者對應的 聲學模型。而若系統中已有對應的聲學模型,則語者調適模組15即會使用資料收集模組14所收集的語句及語音資料直接對該聲學模型進而語者調適,從而將該聲學模型調適得愈來愈接近該語者的語音特性。其中,上述的聲學模型例如是一個採用隱藏式馬可夫模型(Hidden-Markov Model,HMM)的統計模型,其例如會記錄先前資料的平均值(mean)和變異數(variacne)等統計值,而每當有新的語音資料進入後,這些統計值也將會對應此語音資料做小幅變動,最終獲得一個更強健(robust)的統計模型。
另一方面,若系統中沒有對應的聲學模型,則語者調適模組15還會根據資料收集模組14所收集的語音資料的數目,而決定是否進行語者調適以新增新的聲學模型。
詳言之,圖4是依照本發明一實施例所繪示之新增聲學模型的方法流程圖。請參照圖4,本實施例係由資料收集模組14收集語句及語音資料(步驟S402),而語者調適模組15則會在資料收集模組14每次收集到新的語音資料時,判斷其所收集的語音資料數目是否超過第三門檻值(步驟S404)。其中,當判斷數目超過第三門檻值時,即代表所收集的資料已足以建立聲學模型,此時語者調適模組15即會利用資料收集模組14所收集的語音資料,將一個不特定語者(speaker independent)聲學模型轉換為特定語者(speaker dependent)聲學模型,並用以作為與語者身份相對應的聲學模型(步驟S406)。反之,當判斷數目不超過第三門檻值時,則回到步驟S402,由資料收集模組 14繼續收集語句及語音資料。
藉由上述方法,當使用者將配備本案語音識別系統的裝置買回家時,即可由家中成員分別輸入語音資料,藉以建立各自的聲學模型。而隨著各個成員使用次數的增加,各個聲學模型也將調適得愈來愈接近成員的語音特性。此外,在每次接收到語音資料時,語音識別系統也會自動辨識成員身分,並選用相對應的聲學模型來進行語音辨識,因此可增加語音辨識的正確性。
除了上述辨識語句正確性的評分機制外,本發明還針對語音資料中多個詞語(utterance),設計一個發音的評分機制,並用以篩選語音資料,從而去除語意正確但發音不正確的語音資料。以下則再舉一實施例詳細說明。
圖5是依照本發明一實施例所繪示之語音識別系統的方塊圖。圖6是依照本發明一實施例所繪示之語音識別方法的流程圖。請同時參照圖5及圖6,本實施例的語音識別系統50包括語者識別模組51、語音辨識模組52、詞語確認模組53、資料收集模組54、語音評分模組55及語者調適模組56,以下即搭配圖5中語音識別系統50的各項元件說明本實施例語音識別方法的詳細步驟:
首先,由語者識別模組51接收語者輸入的語音資料,而擷取此語音資料中的至少一個語音特徵,據以辨識語音資料的語者身份(步驟S602)。接著,由語音辨識模組52使用第一聲學模型辨識語音資料中的語句(步驟S604)。之後,由詞語確認模組53根據語音辨識模組52 所辨識的語句及語音資料,計算所辨識語句的信心分數(步驟S606),並判斷此信心分數是否超過第一門檻值(步驟S608)。其中,當信心分數不超過第一門檻值時,詞語確認模組53即不會輸出所辨識的語句及語音資料,而此語音資料也不會用來進行語者調適(步驟S610)。
反之,在判斷信心分數超過第一門檻值時,詞語確認模組53即會輸出所辨識的語句及語音資料,而由語音評分模組55進一步利用語音評分(speech evaluation)技術評價此語音資料中多個詞語(utterance)的發音分數(pronunciation score)(步驟S612)。其中,語音評分模組55例如會評價語音資料中的音素(phoneme)、單字(word)、片語(phrase)、語句(sentence)等詞語,藉此提供每一個詞語的詳細資訊。
接著,語者調適模組56會判斷語音評分模組55所計算的發音分數是否超過第二門檻值,從而使用發音分數超過第二門檻值的全部或部分語音資料來進行與語者身份相對應的第二聲學模型的語者調適(步驟S614)。
藉由上述方法,即可進一步篩選出發音不正確的語音資料,因此可避免將此語音資料用在聲學模型的調適,而造成聲學模型的偏差。
綜上所述,本發明的語音識別方法及系統藉由辨識語音資料的語者身份,選用對應的聲學模型來進行語音識別,因此可大幅增加語音識別的準確性。本發明更進一步計算語音識別結果的信心分數及發音分數,從而去除語意 不正確及發音不正確的語音資料,並僅使用分數較高、具有參考價值的語音資料來對聲學模型進行語者調適,因此可使得聲學模型接近語者的語音特性,從而增加語音辨識的正確性。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,故本發明之保護範圍當視後附之申請專利範圍所界定者為準。
10、50‧‧‧語音識別系統
11、51‧‧‧語者識別模組
12、52‧‧‧語音辨識模組
13、53‧‧‧詞語確認模組
14、54‧‧‧資料收集模組
15、56‧‧‧語者調適模組
55‧‧‧語音評分模組
S202~S212‧‧‧本發明一實施例之語音識別方法的步驟
S302~S308‧‧‧本發明一實施例之根據語者身份選擇聲學模型以辨識語音資料的方法步驟
S402~S406‧‧‧本發明一實施例之新增聲學模型的方法步驟
S602~S614‧‧‧本發明一實施例之語音識別方法的步驟
圖1是依照本發明一實施例所繪示之語音識別系統的方塊圖。
圖2是依照本發明一實施例所繪示之語音識別方法的流程圖。
圖3是依照本發明一實施例所繪示之根據語者身份選擇聲學模型以辨識語音資料的方法流程圖。
圖4是依照本發明一實施例所繪示之新增聲學模型的方法流程圖。
圖5是依照本發明一實施例所繪示之語音識別系統的方塊圖。
圖6是依照本發明一實施例所繪示之語音識別方法的流程圖。
S202~S212‧‧‧本發明一實施例之語音識別方法的步驟

Claims (17)

  1. 一種語音識別方法,包括:擷取一語音資料中的至少一語音特徵,據以辨識該語音資料的一語者身份,其更包括:分別利用已建立的多個語者的一第二聲學模型辨識該至少一語音特徵,以根據各該些第二聲學模型的一辨識結果,判斷該語音資料的該語者身份;使用一第一聲學模型辨識該語音資料中的一語句;根據所辨識的該語句及該語音資料,計算所辨識該語句的一信心分數(confidence score),並判斷該信心分數是否超過一第一門檻值;以及當該信心分數超過該第一門檻值時,收集所辨識的該語句及該語音資料,以使用該語音資料進行與該語者身份相對應的該第二聲學模型的一語者調適。
  2. 如申請專利範圍第1項所述之語音識別方法,其中使用該第一聲學模型辨識該語音資料中的該語句的步驟包括:判斷是否可辨識該語音資料的該語者身份;若無法辨識該語者身份,建立一新語者身份,並使用一不特定語者(speaker independent)聲學模型辨識該語音資料中的該語句;以及若可辨識該語者身份,使用與該語者身份相對應的該第二聲學模型辨識該語音資料中的該語句。
  3. 如申請專利範圍第1項所述之語音識別方法,其中 根據所辨識的該語句及該語音資料,計算所辨識該語句的該信心分數的步驟包括:利用一詞語確認(utterance verification)技術,量測所辨識該語句的該信心分數。
  4. 如申請專利範圍第1項所述之語音識別方法,其中收集所辨識的該語句及該語音資料,以使用該語音資料進行與該語者身份相對應的該第二聲學模型的該語者調適的步驟包括:利用一語音評分(speech evaluation)技術評價該語音資料中多個詞語(utterance)的一發音分數(pronunciation score),並判斷該發音分數是否超過一第二門檻值;以及使用該發音分數超過該第二門檻值的全部或部分該語音資料進行與該語者身份相對應的該第二聲學模型的該語者調適。
  5. 如申請專利範圍第4項所述之語音識別方法,其中該些詞語包括音素(phoneme)、單字(word)、片語(phrase)及語句(sentence)其中之一或其組合。
  6. 如申請專利範圍第1項所述之語音識別方法,其中使用該第一聲學模型辨識該語音資料中的該語句的步驟包括:使用一自動語音辨識(automatic speech recognition,ASR)技術辨識該語音資料中的該語句。
  7. 如申請專利範圍第1項所述之語音識別方法,其中收集所辨識的該語句及該語音資料,使用該語音資料進行 與該語者身份相對應的該第二聲學模型的該語者調適的步驟包括:判斷所收集的語音資料的一數目是否超過一第三門檻值;以及當該數目超過該第三門檻值時,利用所收集的語音資料,轉換一不特定語者(speaker independent)聲學模型為一特定語者(speaker dependent)聲學模型,以作為與該語者身份相對應的該第二聲學模型。
  8. 如申請專利範圍第1項所述之語音識別方法,其中該第一聲學模型及該第二聲學模型為隱藏式馬可夫模型(Hidden-Markov Model,HMM)。
  9. 一種語音識別系統,包括:一語者識別模組,擷取一語音資料中的至少一語音特徵,據以辨識該語音資料的一語者身份;一語音辨識模組,使用一第一聲學模型辨識該語音資料中的一語句;一詞語確認模組,根據該語音辨識模組所辨識的該語句及該語音資料,計算所辨識該語句的一信心分數,並判斷該信心分數是否超過一第一門檻值;一資料收集模組,當該詞語確認模組判斷該信心分數超過該第一門檻值時,收集該語音辨識模組所辨識的該語句及該語音資料;一語者調適模組,使用該資料收集模組所收集的該語音資料進行與該語者身份相對應的一第二聲學模型的一語 者調適;以及一聲學模型資料庫,記錄已建立的多個語者的第二聲學模型;其中該語者識別模組包括分別利用該聲學模型資料庫中該些語者的第二聲學模型辨識該至少一語音特徵,以根據各該些第二聲學模型的一辨識結果,判斷該語音資料的該語者身份。
  10. 如申請專利範圍第9項所述之語音識別系統,其中該語者識別模組包括判斷是否可辨識該語音資料的該語者身份,其中若無法辨識該語者身份,建立一新語者身份,並由該語音辨識模組使用一不特定語者聲學模型辨識該語音資料中的該語句;以及若可辨識該語者身份,由該語音辨識模組使用與該語者身份相對應的該第二聲學模型辨識該語音資料中的該語句。
  11. 如申請專利範圍第9項所述之語音識別系統,其中該詞語確認模組是利用一詞語確認技術,量測所辨識該語句的該信心分數。
  12. 如申請專利範圍第9項所述之語音識別系統,更包括:一語音評分模組,利用一語音評分技術評價該語音資料中多個詞語的一發音分數。
  13. 如申請專利範圍第12項所述之語音識別系統,其 中該語者調適模組更包括判斷該語音評分模組所評價的該發音分數是否超過一第二門檻值,而使用該發音分數超過該第二門檻值的全部或部分該語音資料進行與該語者身份相對應的該第二聲學模型的該語者調適。
  14. 如申請專利範圍第13項所述之語音識別系統,其中該些詞語包括音素、單字、片語及語句其中之一或其組合。
  15. 如申請專利範圍第9項所述之語音識別系統,其中該語音辨識模組是使用一自動語音辨識技術辨識該語音資料中的該語句。
  16. 如申請專利範圍第9項所述之語音識別系統,其中該語者調適模組更包括判斷該資料收集模組所收集的語音資料的一數目是否超過一第三門檻值,而當該數目超過該第三門檻值時,利用該資料收集模組所收集的語音資料,轉換一不特定語者聲學模型為一特定語者聲學模型,以作為與該語者身份相對應的該第二聲學模型。
  17. 如申請專利範圍第9項所述之語音識別系統,其中該第一聲學模型及該第二聲學模型為隱藏式馬可夫模型。
TW101117791A 2012-05-18 2012-05-18 語音識別方法及系統 TWI466101B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW101117791A TWI466101B (zh) 2012-05-18 2012-05-18 語音識別方法及系統
US13/705,168 US20130311184A1 (en) 2012-05-18 2012-12-05 Method and system for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101117791A TWI466101B (zh) 2012-05-18 2012-05-18 語音識別方法及系統

Publications (2)

Publication Number Publication Date
TW201349222A TW201349222A (zh) 2013-12-01
TWI466101B true TWI466101B (zh) 2014-12-21

Family

ID=49582031

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101117791A TWI466101B (zh) 2012-05-18 2012-05-18 語音識別方法及系統

Country Status (2)

Country Link
US (1) US20130311184A1 (zh)
TW (1) TWI466101B (zh)

Families Citing this family (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9466286B1 (en) * 2013-01-16 2016-10-11 Amazong Technologies, Inc. Transitioning an electronic device between device states
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9558749B1 (en) * 2013-08-01 2017-01-31 Amazon Technologies, Inc. Automatic speaker identification using speech recognition features
KR20150031984A (ko) * 2013-09-17 2015-03-25 한국전자통신연구원 디바이스 구분 음향모델 누적 적응을 이용한 음성인식 시스템 및 방법
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9953634B1 (en) * 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR102545764B1 (ko) 2016-04-01 2023-06-20 삼성전자주식회사 음성 번역을 위한 장치 및 방법
US10152974B2 (en) * 2016-04-15 2018-12-11 Sensory, Incorporated Unobtrusive training for speaker verification
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
WO2018208859A1 (en) * 2017-05-12 2018-11-15 Apple Inc. User-specific acoustic models
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN109559759B (zh) * 2017-09-27 2021-10-08 华硕电脑股份有限公司 具备增量注册单元的电子设备及其方法
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11257493B2 (en) 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
US11152005B2 (en) * 2019-09-11 2021-10-19 VIQ Solutions Inc. Parallel processing framework for voice to text digital media
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112992187B (zh) * 2021-02-26 2023-04-18 平安科技(深圳)有限公司 基于上下文的语音情感检测方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US6243678B1 (en) * 1998-04-07 2001-06-05 Lucent Technologies Inc. Method and system for dynamic speech recognition using free-phone scoring
WO2003017253A1 (en) * 2001-08-14 2003-02-27 Sony Electronics Inc. System and method for speech verification using a robust confidence measure
TW200421261A (en) * 2003-04-14 2004-10-16 Ind Tech Res Inst Method and system for utterance verification
TW200739516A (en) * 2006-04-13 2007-10-16 Delta Electronics Inc System and method of the user interface for text-to-phone conversion
US7567901B2 (en) * 2003-02-13 2009-07-28 At&T Intellectual Property 1, L.P. Bio-phonetic multi-phrase speaker identity verification
TWI342010B (en) * 2006-12-13 2011-05-11 Delta Electronics Inc Speech recognition method and system with intelligent classification and adjustment
TWI349925B (en) * 2008-01-10 2011-10-01 Delta Electronics Inc Speech recognition device and method thereof

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
DE69833987T2 (de) * 1998-12-17 2006-11-16 Sony Corp. Halbüberwachte Sprecheradaptation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US6243678B1 (en) * 1998-04-07 2001-06-05 Lucent Technologies Inc. Method and system for dynamic speech recognition using free-phone scoring
WO2003017253A1 (en) * 2001-08-14 2003-02-27 Sony Electronics Inc. System and method for speech verification using a robust confidence measure
US7567901B2 (en) * 2003-02-13 2009-07-28 At&T Intellectual Property 1, L.P. Bio-phonetic multi-phrase speaker identity verification
TW200421261A (en) * 2003-04-14 2004-10-16 Ind Tech Res Inst Method and system for utterance verification
TW200739516A (en) * 2006-04-13 2007-10-16 Delta Electronics Inc System and method of the user interface for text-to-phone conversion
TWI342010B (en) * 2006-12-13 2011-05-11 Delta Electronics Inc Speech recognition method and system with intelligent classification and adjustment
TWI349925B (en) * 2008-01-10 2011-10-01 Delta Electronics Inc Speech recognition device and method thereof

Also Published As

Publication number Publication date
US20130311184A1 (en) 2013-11-21
TW201349222A (zh) 2013-12-01

Similar Documents

Publication Publication Date Title
TWI466101B (zh) 語音識別方法及系統
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
US10339920B2 (en) Predicting pronunciation in speech recognition
US9916826B1 (en) Targeted detection of regions in speech processing data streams
CN103426428B (zh) 语音识别方法及系统
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US20140156276A1 (en) Conversation system and a method for recognizing speech
JP6654611B2 (ja) 成長型対話装置
US8880399B2 (en) Utterance verification and pronunciation scoring by lattice transduction
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
US9691389B2 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
KR102018331B1 (ko) 음성 인식 시스템에서의 발화 검증 장치 및 그 방법
KR20100027865A (ko) 화자 및 음성 인식 장치 및 그 방법
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
JP2000250593A (ja) 話者認識装置及び方法
KR101283271B1 (ko) 어학 학습 장치 및 어학 학습 방법
Abdou et al. Enhancing the confidence measure for an Arabic pronunciation verification system
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
WO2022244627A1 (ja) エアロゾル量推定システム、エアロゾル量推定方法、及び、プログラム
JP4297349B2 (ja) 音声認識システム
KR100506662B1 (ko) 온라인 음성검증 기반의 음성 데이터베이스 구축방법
KR20060070606A (ko) 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법