TWI815658B - 語音辨識裝置、語音辨識方法及雲端辨識系統 - Google Patents
語音辨識裝置、語音辨識方法及雲端辨識系統 Download PDFInfo
- Publication number
- TWI815658B TWI815658B TW111134669A TW111134669A TWI815658B TW I815658 B TWI815658 B TW I815658B TW 111134669 A TW111134669 A TW 111134669A TW 111134669 A TW111134669 A TW 111134669A TW I815658 B TWI815658 B TW I815658B
- Authority
- TW
- Taiwan
- Prior art keywords
- speech recognition
- text content
- text
- voice
- unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 19
- 238000012937 correction Methods 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 16
- 230000005540 biological transmission Effects 0.000 claims description 14
- 238000012790 confirmation Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 230000014759 maintenance of location Effects 0.000 abstract 1
- 238000003860 storage Methods 0.000 abstract 1
- 238000011161 development Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
Landscapes
- Image Processing (AREA)
- Traffic Control Systems (AREA)
Abstract
本案關於一種語音辨識裝置,收音單元用以接收語音,語音辨識單元包含音訊辨識器及文字轉換器,音訊辨識器根據語音以確認語音的拼音狀態並輸出第一文字內容,文字轉換器根據語音辨識模型辨識第一文字內容所代表的拼音狀態以轉換為第二文字內容並輸出文字訊號,人機介面接收文字訊號,當文字訊號所對應的第二文字內容與使用者的實際原意內容不相符時,使用者輸入修正資訊並對應修正第二文字內容,資料庫接收並儲存修正過的第二文字內容及語音,使符合實際原意內容的語音與修正後的第二文字內容配對而建立配對資料,以重新訓練語音辨識模型。
Description
本案關於一種語音辨識裝置、語音辨識方法及雲端辨識系統,尤指一種具有語音辨識單元及人機介面的語音辨識裝置、語音辨識方法及雲端辨識系統。
近年來,因應疫情的關係使得遠距活動蓬勃發展,遠距活動中除了影像處理的需求外,亦包含聲音處理的需求,而且於線上的遠距活動中,文字的展現是互動過程裡重要的一環,因此利用語音辨識系統將聲音轉換為文字的技術是非常重要的。
傳統電子裝置內的語音辨識系統包含兩種型態,第一種型態為通用型語音辨識系統,適用於市面上所有使用者皆通用的電子裝置中,例如智慧型手機或智慧音箱上的語音辨識系統,然而,通用型語音辨識系統的辨識率較差,造成語音轉換為文字的錯誤率較高。第二種型態為針對型語音辨識系統,其為專為不同專業領域的使用者所開發的語音辨識系統,例如專為法律專業領域人員所開發的語音辨識系統,則語音辨識系統內針對法律領域的專有名詞的辨識率較佳,然而,針對型語音辨識系統需對不同領域進行專門的資料庫建立及維護,而造成開發成本較高,且開發難度亦較高。
因此,實有必要發展一種語音辨識裝置,以解決先前技術所面臨之問題。
本案之一目的為提供一種語音辨識裝置,其中本案之語音辨識裝置於使用者確認文字訊號所對應的第二文字內容與其實際原意內容不相符時,使用者透過人機介面輸入修正資訊,根據修正資訊而對應修正文字訊號所對應的第二文字內容及語音。因此本案的語音辨識裝置可根據使用者輸入的修正資訊而使語音辨識模型利用資料庫持續進行學習與訓練,而提升本案的語音辨識裝置的語音辨識的辨識率,以降低將語音轉換為文字的錯誤率。此外本案的語音辨識裝置不須額外對專業領域的語音辨識系統進行開發,而可根據資料庫不斷持續進行學習,同時達到辨識率佳、開發成本較低且開發難度較低的優勢。更甚者,使用者利用雲端辨識系統將第一語音辨識裝置中已重新訓練的語音辨識模型上傳至雲端平台,而當使用者欲使用其他語音辨識裝置,例如第二語音辨識裝置時,則可將重新訓練後的語音辨識模型由雲端下載至第二語音辨識裝置上使用,而不須對第二語音辨識裝置的語音辨識模型重新進行訓練,使得使用者的使用體驗較佳,且節省訓練時間。
為達上述目的,本案之一實施態樣為提供一種語音辨識裝置,包含收音單元、語音辨識單元、人機介面及資料庫。收音單元用以接收使用者之語音。語音辨識單元連接於收音單元,且包含音訊辨識器及文字轉換器,音訊辨識器根據語音以確認語音的拼音狀態並輸出第一文字內容,文字轉換器根據語音辨識模型辨識第一文字內容所代表的該拼音狀態以轉換為第二文字內容,並輸出文字訊號。人機介面連接於語音辨識單元,用以接收文字訊號,當文字訊號所對應的第二文字內容與該使用者的一實際原意內容不相符時,使用者輸入修正資訊並對應修正第二文字內容。資料庫連接於人機介面及語音辨識單元之間,資料庫接收並儲存修正過的第二文字內容及語音,以使符合實際原意內容的語音與修正後的第二文字內容配對而建立具有對應關係的配對資料,以重新訓練文字轉換器內的語音辨識模型。
為達上述目的,本案之另一實施態樣為提供一種適用於語音辨識裝置的語音辨識方法,語音辨識方法包含下列步驟。首先,接收使用者之語音。接著,根據語音以確認語音的拼音狀態並輸出第一文字內容,根據語音辨識模型辨識第一文字內容所代表的拼音狀態以轉換為第二文字內容,並輸出文字訊號。接著,確認文字訊號所對應的第二文字內容與使用者的實際原意內容是否相符。於確認結果為否時,使用者輸入修正資訊並對應修正第二文字內容。接著,接收並儲存修正過的第二文字內容及語音,以使符合實際原意內容的語音與修正後的第二文字內容配對而建立具有對應關係的配對資料,以重新訓練語音辨識模型。
為達上述目的,本案之另一實施態樣為提供一種雲端辨識系統,包含雲端平台、第一語音辨識裝置及第二語音辨識裝置。第一語音辨識裝置與雲端平台相通訊,且包含收音單元、語音辨識單元、人機介面及資料庫。收音單元用以接收使用者之語音。語音辨識單元連接於收音單元,且包含音訊辨識器及文字轉換器,音訊辨識器根據語音以確認語音的拼音狀態並輸出第一文字內容,文字轉換器根據語音辨識模型辨識第一文字內容所代表的拼音狀態以轉換為第二文字內容,並輸出文字訊號。人機介面連接於語音辨識單元,用以接收文字訊號,當文字訊號所對應的第二文字內容與使用者的實際原意內容不相符時,使用者輸入修正資訊並對應修正第二文字內容。資料庫連接於人機介面及語音辨識單元之間,資料庫接收並儲存修正過的第二文字內容及語音,以使符合實際原意內容的語音與修正的第二文字內容配對而建立具有對應關係的配對資料,以重新訓練文字轉換器內的語音辨識模型,並將重新訓練後的文字轉換器內的語音辨識模型上傳至雲端平台。第二語音辨識裝置與雲端平台相通訊,以經由雲端平台下載重新訓練後的文字轉換器內的語音辨識模型,並利用重新訓練後的語音辨識模型進行語音辨識。
體現本案特徵與優點的一些典型實施例將在後段的說明中詳細敘述。應理解的是本案能夠在不同的態樣上具有各種的變化,其皆不脫離本案的範圍,且其中的說明及圖示在本質上當作說明之用,而非架構於限制本案。
請參閱第1圖,其為本案第一實施例的語音辨識裝置的系統方塊圖。如圖所示,本實施例的語音辨識裝置1可為但不限為電腦、筆記型電腦、平板電腦、智慧型手機及智慧音箱等具有運算能力及語音辨識需求的電子產品,且包含收音單元2、語音辨識單元3、人機介面4及資料庫5。收音單元2用以接收使用者的語音,其中語音可由單一文字或多個文字所組成的詞語所構成。當然語音不僅可包含中文的詞語,亦可包含英文或其他語言的詞語。語音辨識單元3連接於收音單元2,且包含音訊辨識器31及文字轉換器32。音訊辨識器31不限定語言種類,可根據各語音的屬性,像是語言類型、特殊音節、發聲單位等條件,來確認語音中每個文字的拼音狀態。舉中文輸入為範例,使用者提供的語音所對應的拼音狀態為「ㄈㄚˇㄌㄩˋ」,而音訊辨識器31將收音單元2所提供的語音轉換為拼音狀態「ㄈㄚˇㄌㄩˋ」,以根據轉換後的拼音狀態而輸出第一文字內容,故第一文字內容代表的是語音的拼音狀態。文字轉換器32包含內建且可進行訓練的語音辨識模型,且文字轉換器32根據語音辨識模型辨識第一文字內容內所代表的拼音狀態,以轉換為書寫體的第二文字內容,故第二文字內容代表的是拼音狀態所對應的書寫體,而文字轉換器32更根據第二文字內容輸出文字訊號。進一步來說,文字轉換器32根據語音辨識模型將第一文字內容的拼音狀態「ㄈㄚˇㄌㄩˋ」進行辨識,進而轉換拼音狀態「ㄈㄚˇㄌㄩˋ」為書寫體的第二文字內容「法律」,並根據選取的第二文字內容「法律」而輸出文字訊號。
人機介面4連接於語音辨識單元3,使文字訊號所對應的第二文字內容得以呈現於語音辨識裝置1,以供使用者確認文字訊號所對應的第二文字內容是否正確。當使用者確認文字訊號所對應的第二文字內容與使用者的語音的實際原意內容不相符時,使用者得透過人機介面4輸入修正資訊。如此一來,語音辨識裝置1在獲得使用者的修正資訊後,根據修正資訊而對應修正文字訊號所對應的第二文字內容。
資料庫5連接於人機介面4及語音辨識單元3,資料庫5接收並儲存使用者透過人機介面4輸入的修正資訊,即接收並儲存修正後的第二文字內容,且資料庫5亦同步儲存語音辨識單元3從收音單元2所接收的使用者的語音,以使符合實際原意內容的語音與修正後的第二文字內容配對而建立具有對應關係的配對資料,進而後續利用配對資料來重新訓練文字轉換器32內的語音辨識模型。於一些實施例中,更可以讓配對資料累積至一定特定筆數後,再對文字轉換器32內的語音辨識模型重新訓練。經由多次的重新訓練後,語音辨識單元3可以得到更具個人化,且更精準的辨識結果。
於一些實施例中,當使用者確認文字訊號所對應的第二文字內容與其實際原意內容相符時,使用者不會輸入修正資訊而是輸入確認資訊至人機介面4,而語音辨識裝置1不進行任何修正動作。
由上可知,本案之語音辨識裝置1於使用者確認文字訊號所對應的第二文字內容與其實際原意內容不相符時,使用者透過人機介面4輸入修正資訊,根據修正資訊而對應修正文字訊號所對應的第二文字內容及語音。因此相較於利用傳統通用型語音辨識系統的電子裝置,本案的語音辨識裝置1可根據使用者所輸入的修正資訊而使語音辨識模型利用資料庫5持續進行學習與訓練,而提升本案的語音辨識裝置1的語音辨識的辨識率,以降低將語音轉換為文字的錯誤率。此外,相較於利用針對型語音辨識系統的電子裝置,本案的語音辨識裝置1不須額外對專業領域的語音辨識系統進行開發,而可根據資料庫5不斷持續進行學習,同時達到辨識率佳、開發成本較低且開發難度較低的優勢。
請繼續參閱第1圖,本實施例的語音辨識裝置1更包含輸出單元61,連接於人機介面4,輸出單元61得以顯示第一文字內容的拼音狀態、修正資訊或第二文字內容,或與語音辨識裝置1內的其他電子元件進行溝通。於一些實施例中,語音辨識裝置1可利用無線方式或有線方式與外部通訊平台7進行通訊,其中外部通訊平台7可為但不限為雲端平台。如第1圖所示,語音辨識裝置1更包含傳送單元62,連接於語音辨識單元3及外部通訊平台7之間,傳送單元62接收語音辨識單元3所提供的第一文字內容及第二文字內容,並將語音所對應的第一文字內容及第二文字內容利用無線方式或有線方式傳送至外部通訊平台7。
為了達到消除噪音的效果,於一些實施例中,語音辨識裝置更可包含除噪單元,請參閱第2圖,其為本案第二實施例的語音辨識裝置的系統方塊圖。本實施例的語音辨識裝置1a更包含除噪單元63,與收音單元2、語音辨識單元3及傳送單元62電連接,除噪單元63消除收音單元2所接收的語音中的雜訊,且接收語音辨識單元3所確認的第一文字內容所代表的拼音狀態。如此一來,除噪單元63可依據語音辨識單元3所提供的第一文字內容作為基準,進一步消除收音單元2所提供的帶有雜訊的語音以形成處理音訊,並將處理音訊輸出至傳送單元62,傳送單元62再將其傳送至外部通訊平台7。根據除噪單元63的設置,可提升語音的品質,例如提升客觀語音質量評估(Perceptual evaluation of speech quality, PESQ)或訊號雜訊比(Signal-to-noise ratio, SNR),使得語音辨識單元3傳送至外部通訊平台7的訊號的辨識度上升。
請參閱第3圖並配合第1圖,其中第3圖為適用於第1圖所示的語音辨識裝置的語音辨識方法的方法流程圖。首先,執行步驟S1,收音單元2接收使用者之語音。接著,執行步驟S2,音訊辨識器31根據語音以確認語音的拼音狀態並輸出第一文字內容,且文字轉換器32根據語音辨識模型辨識第一文字內容所代表的拼音狀態以轉換為第二文字內容,並輸出文字訊號。接著,執行步驟S3,藉由人機介面4確認文字訊號所對應的第二文字內容與使用者的實際原意內容是否相符。於本實施例中,在步驟S3中,人機介面4由是否收到修正資訊進而確認文字訊號所對應的第二文字內容與其實際原意內容是否相符。當步驟S3的確認結果為否時,即文字訊號所對應的第二文字內容與其實際原意內容不相符時,執行步驟S4,使用者透過人機介面4輸入修正資訊並對應修正第二文字內容。接著,執行步驟S5,資料庫5接收並儲存修正後的第二文字內容及使用者的語音,以使符合實際原意內容的語音與修正後的第二文字內容配對而建立具有對應關係的配對資料,以重新訓練語音辨識模型。於一些實施例中,執行完步驟S5後即結束辨識。而於另一些實施例中,執行完步驟S5後可重新執行步驟S1。而於一些實施例中,當步驟S3的確認結果為是時執行步驟S6,透過人機介面4接收確認資訊。於一些實施例中,執行完步驟S6後即結束辨識。而於另一些實施例中,執行完步驟S6後可重新執行步驟S1。而於另一些實施例中,步驟S5中更可以包含,配對資料累積至一定特定筆數後,再對語音辨識模型重新訓練。
請參閱第4圖,其為本案的雲端辨識系統的系統方塊圖。本實施例的雲端辨識系統8包含第一語音辨識裝置、雲端平台81及至少一第二語音辨識裝置82。於本實施例中,第一語音辨識裝置可為第1圖的語音辨識裝置1或第2圖中的語音辨識裝置1a,為了便於解釋,第4圖中的以語音辨識裝置1進行說明,以下稱為第一語音辨識裝置1。雲端平台81以無線或有線的方式與第一語音辨識裝置1相通訊。第一語音辨識裝置1經由無線或有線的方式將重新訓練後的文字轉換器32內的語音辨識模型上傳至雲端平台81,以使雲端平台81接收第一語音辨識裝置1的文字轉換器32所提供的重新訓練後的語音辨識模型,並對所儲存的語音辨識模型進行標示,例如語音辨識模型為與法律領域具有相關性,則對該語音辨識模型標示為「法律領域」。第二語音辨識裝置82為相異於第一語音辨識裝置1的其他具有運算能力及語音辨識需求的其他語音辨識裝置,於第4圖中以三個第二語音辨識裝置82為說明,每一第二語音辨識裝置82以無線或有線的方式與雲端平台81相通訊,並經由雲端平台81將所需的已經過訓練的語音辨識模型,自雲端平台81上下載,例如第二語音辨識裝置82所需的語音辨識模型為關於「法律領域」的語音辨識模型,則將雲端平台81上標示為「法律領域」的重新訓練後的語音辨識模型下載至第二語音辨識裝置82內,使第二語音辨識裝置82可根據語音辨識模型進行語音辨識,而其語音辨識方式相似於第一語音辨識裝置1,故於此不再贅述。使用者利用上述雲端辨識系統8將第一語音辨識裝置1中已重新訓練的語音辨識模型上傳至雲端平台81,而當使用者欲使用其他語音辨識裝置,例如第二語音辨識裝置82時,則可將重新訓練後的語音辨識模型下載至第二語音辨識裝置82上使用,而不須重新於第二語音辨識裝置82上進行語音辨識模型的訓練,使得使用者的使用體驗較佳,且節省訓練時間。
綜上所述,本案之語音辨識裝置於使用者確認文字訊號所對應的第二文字內容與其實際原意內容不相符時,使用者透過人機介面輸入修正資訊,根據修正資訊而對應修正文字訊號所對應的第二文字內容及語音。因此本案的語音辨識裝置可根據使用者輸入的修正資訊而使語音辨識模型利用資料庫持續進行學習與訓練,而提升本案的語音辨識裝置的語音辨識的辨識率,以降低將語音轉換為文字的錯誤率。此外本案的語音辨識裝置不須額外對專業領域的語音辨識系統進行開發,而可根據資料庫不斷持續進行學習,同時達到辨識率佳、開發成本較低且開發難度較低的優勢。更甚者,使用者利用雲端辨識系統將第一語音辨識裝置中已重新訓練的語音辨識模型上傳至雲端平台,而當使用者欲使用其他語音辨識裝置,例如第二語音辨識裝置時,則可將重新訓練後的語音辨識模型由雲端下載至第二語音辨識裝置上使用,而不須對第二語音辨識裝置的語音辨識模型重新進行訓練,使得使用者的使用體驗較佳,且節省訓練時間。
1、1a:語音辨識裝置
2:收音單元
3:語音辨識單元
31:音訊辨識器
32:文字轉換器
4:人機介面
5:資料庫
61:輸出單元
62:傳送單元
63:除噪單元
7:外部通訊平台
S1-S6:步驟
8:雲端辨識系統
81:雲端平台
82:第二語音辨識裝置
第1圖為本案第一實施例的語音辨識裝置的系統方塊圖。
第2圖為本案第二實施例的語音辨識裝置的系統方塊圖。
第3圖為適用於第1圖所示的語音辨識裝置的語音辨識方法的方法流程圖。
第4圖為本案的雲端辨識系統的系統方塊圖。
1:語音辨識裝置
2:收音單元
3:語音辨識單元
31:音訊辨識器
32:文字轉換器
4:人機介面
5:資料庫
61:輸出單元
62:傳送單元
7:外部通訊平台
Claims (8)
- 一種語音辨識裝置,包含:一收音單元,用以接收一使用者之一語音;一語音辨識單元,連接於該收音單元,且包含一音訊辨識器及一文字轉換器,該音訊辨識器根據該語音以確認該語音的一拼音狀態並輸出一第一文字內容,該文字轉換器根據一語音辨識模型辨識該第一文字內容所代表的該拼音狀態以轉換為一第二文字內容,並輸出一文字訊號;一人機介面,連接於該語音辨識單元,用以接收該文字訊號,當該文字訊號所對應的該第二文字內容與該使用者的一實際原意內容不相符時,該使用者輸入一修正資訊並對應修正該第二文字內容;一資料庫,連接於該人機介面及該語音辨識單元之間,該資料庫接收並儲存修正過的該第二文字內容及該語音,以使符合該實際原意內容的該語音與修正後的該第二文字內容配對而建立具有對應關係的一配對資料,以重新訓練該文字轉換器內的該語音辨識模型;一傳送單元,連接於該語音辨識單元及一外部通訊平台,該傳送單元接收該語音辨識單元所提供的該第一文字內容及該第二文字內容,並將該第一文字內容及該第二文字內容傳送至該外部通訊平台;以及一除噪單元,與該收音單元、該語音辨識單元及該傳送單元電連接,該除噪單元依據該第一文字內容作為基準,消除該收音單元所接收的該語音中的雜訊以形成一處理音訊,並將該處理音訊藉由該傳送單元再將其傳送至該外部通訊平台。
- 如請求項1所述的語音辨識裝置,其中當該文字訊號所代表的該第二文字內容不符合該預設文字內容時,該人機介面接收到一確認資訊。
- 如請求項1所述的語音辨識裝置,其中該語音辨識裝置更包含一輸出單元,連接於該人機介面,得以顯示該文字訊號的該拼音狀態、該修正資訊或該第二文字內容。
- 如請求項1所述的語音辨識裝置,其中該配對資料累積至特定筆數後,再對該文字轉換器的該語音辨識模型重新訓練。
- 一種適用於語音辨識裝置的語音辨識方法,其中該語音辨識方法包含:(a)接收一使用者之一語音;(b)根據該語音以確認該語音的一拼音狀態並輸出一第一文字內容,根據一語音辨識模型辨識該第一文字內容所代表的該拼音狀態以轉換為一第二文字內容,並輸出一文字訊號;(c)確認該文字訊號所對應的該第二文字內容與該使用者的一實際原意內容是否相符;(d)於步驟(c)的確認結果為否時,該使用者輸入一修正資訊並對應修正該第二文字內容;(e)接收並儲存修正過的該第二文字內容及該語音,以使符合該實際原意內容的該語音與修正後的該第二文字內容配對而建立具有對應關係的一配對資料,以重新訓練該語音辨識模型;(f)接收該第一文字內容及該第二文字內容,並將該第一文字內容及該第二文字內容傳送至一外部通訊平台;以及 (g)依據該第一文字內容作為基準,消除該語音中的雜訊以形成一處理音訊,並將該處理音訊傳送至該外部通訊平台。
- 如請求項7所述的語音辨識方法,其中該語音辨識方法更包含:(h)於步驟(c)的確認結果為是時,接收一確認資訊。
- 如請求項7所述的語音辨識方法,其中該配對資料累積至特定筆數後,再對該語音辨識模型重新訓練。
- 一種雲端辨識系統,包含:一雲端平台;一第一語音辨識裝置,與該雲端平台相通訊,且包含:一收音單元,用以接收一使用者之一語音;一語音辨識單元,連接於該收音單元,且包含一音訊辨識器及一文字轉換器,該音訊辨識器根據該語音以確認該語音的一拼音狀態並輸出一第一文字內容,該文字轉換器根據一語音辨識模型辨識該第一文字內容所代表的該拼音狀態以轉換為一第二文字內容,並輸出一文字訊號;一人機介面,連接於該語音辨識單元,用以接收該文字訊號,當該文字訊號所對應的該第二文字內容與該使用者的一實際原意內容不相符時,該使用者輸入一修正資訊並對應修正該第二文字內容;一資料庫,連接於該人機介面及該語音辨識單元之間,該資料庫接收並儲存修正過的該第二文字內容及該語音,以使符合該實際原意內容的該語音與修正後的該第二文字內容配對而建立具有對應關係的一配對資料,以重新訓練該文 字轉換器內的該語音辨識模型,並將重新訓練後的該文字轉換器內的該語音辨識模型上傳至該雲端平台;一傳送單元,連接於該語音辨識單元及一外部通訊平台,該傳送單元接收該語音辨識單元所提供的該第一文字內容及該第二文字內容,並將該第一文字內容及該第二文字內容傳送至該外部通訊平台;以及一除噪單元,與該收音單元、該語音辨識單元及該傳送單元電連接,該除噪單元依據該第一文字內容作為基準,消除該收音單元所接收的該語音中的雜訊以形成一處理音訊,並將該處理音訊藉由該傳送單元再將其傳送至該外部通訊平台;以及一第二語音辨識裝置,與該雲端平台相通訊,以經由該雲端平台下載重新訓練後的該文字轉換器內的該語音辨識模型,並利用重新訓練後的該語音辨識模型進行語音辨識。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111134669A TWI815658B (zh) | 2022-09-14 | 2022-09-14 | 語音辨識裝置、語音辨識方法及雲端辨識系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111134669A TWI815658B (zh) | 2022-09-14 | 2022-09-14 | 語音辨識裝置、語音辨識方法及雲端辨識系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI815658B true TWI815658B (zh) | 2023-09-11 |
TW202411982A TW202411982A (zh) | 2024-03-16 |
Family
ID=88966109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111134669A TWI815658B (zh) | 2022-09-14 | 2022-09-14 | 語音辨識裝置、語音辨識方法及雲端辨識系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI815658B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI266280B (en) * | 2004-06-02 | 2006-11-11 | America Online Inc | Multimodal disambiguation of speech recognition |
CN1965349A (zh) * | 2004-06-02 | 2007-05-16 | 美国联机股份有限公司 | 多形式的非歧意性语音识别 |
TW201921336A (zh) * | 2017-06-15 | 2019-06-01 | 大陸商北京嘀嘀無限科技發展有限公司 | 用於語音辨識的系統和方法 |
US20190278841A1 (en) * | 2018-03-12 | 2019-09-12 | Apple Inc. | Inverse text normalization for automatic speech recognition |
CN114822519A (zh) * | 2021-01-16 | 2022-07-29 | 华为技术有限公司 | 中文语音识别纠错方法、装置及电子设备 |
-
2022
- 2022-09-14 TW TW111134669A patent/TWI815658B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI266280B (en) * | 2004-06-02 | 2006-11-11 | America Online Inc | Multimodal disambiguation of speech recognition |
CN1965349A (zh) * | 2004-06-02 | 2007-05-16 | 美国联机股份有限公司 | 多形式的非歧意性语音识别 |
TW201921336A (zh) * | 2017-06-15 | 2019-06-01 | 大陸商北京嘀嘀無限科技發展有限公司 | 用於語音辨識的系統和方法 |
US20190278841A1 (en) * | 2018-03-12 | 2019-09-12 | Apple Inc. | Inverse text normalization for automatic speech recognition |
CN114822519A (zh) * | 2021-01-16 | 2022-07-29 | 华为技术有限公司 | 中文语音识别纠错方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
TW202411982A (zh) | 2024-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210264916A1 (en) | Electronic device for generating personalized asr model and method for operating same | |
US20180144749A1 (en) | Speech recognition apparatus and method | |
EP3824462B1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
JP2017058674A (ja) | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 | |
CN109817201B (zh) | 一种语言学习方法、装置、电子设备及可读存储介质 | |
US20120290300A1 (en) | Apparatus and method for foreign language study | |
CN111226224A (zh) | 用于翻译语音信号的方法及电子设备 | |
US11587547B2 (en) | Electronic apparatus and method for controlling thereof | |
CN102254555A (zh) | 改进依赖上下文的语音识别器对环境变化的鲁棒性 | |
JP6625772B2 (ja) | 検索方法及びそれを用いた電子機器 | |
KR20200080400A (ko) | 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치 | |
US20240161372A1 (en) | Method and system for providing service for conversing with virtual person simulating deceased person | |
WO2022134025A1 (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
TWI815658B (zh) | 語音辨識裝置、語音辨識方法及雲端辨識系統 | |
CN111415662A (zh) | 用于生成视频的方法、装置、设备和介质 | |
WO2023040658A1 (zh) | 语音交互方法及电子设备 | |
KR102684930B1 (ko) | 인공지능을 통해 학습자 식별이 가능한 화상 학습 시스템 및 그 방법 | |
CN116110370A (zh) | 基于人机语音交互的语音合成系统及相关设备 | |
CN115171695A (zh) | 语音识别方法、装置、电子设备和计算机可读介质 | |
CN114297409A (zh) | 模型训练方法、信息抽取方法及装置、电子设备、介质 | |
TWI768412B (zh) | 發音教學方法 | |
JP7495220B2 (ja) | 音声認識装置、音声認識方法、および、音声認識プログラム | |
US11922127B2 (en) | Method for outputting text in artificial intelligence virtual assistant service and electronic device for supporting the same | |
US10916250B2 (en) | Duplicate speech to text display for the deaf | |
CN112912954B (zh) | 电子装置及其控制方法 |