TWI815658B

TWI815658B - 語音辨識裝置、語音辨識方法及雲端辨識系統

Info

Publication number: TWI815658B
Application number: TW111134669A
Authority: TW
Inventors: 湯道文
Original assignee: 仁寶電腦工業股份有限公司
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2023-09-11
Also published as: TW202411982A

Abstract

本案關於一種語音辨識裝置，收音單元用以接收語音，語音辨識單元包含音訊辨識器及文字轉換器，音訊辨識器根據語音以確認語音的拼音狀態並輸出第一文字內容，文字轉換器根據語音辨識模型辨識第一文字內容所代表的拼音狀態以轉換為第二文字內容並輸出文字訊號，人機介面接收文字訊號，當文字訊號所對應的第二文字內容與使用者的實際原意內容不相符時，使用者輸入修正資訊並對應修正第二文字內容，資料庫接收並儲存修正過的第二文字內容及語音，使符合實際原意內容的語音與修正後的第二文字內容配對而建立配對資料，以重新訓練語音辨識模型。

Description

語音辨識裝置、語音辨識方法及雲端辨識系統

本案關於一種語音辨識裝置、語音辨識方法及雲端辨識系統，尤指一種具有語音辨識單元及人機介面的語音辨識裝置、語音辨識方法及雲端辨識系統。

近年來，因應疫情的關係使得遠距活動蓬勃發展，遠距活動中除了影像處理的需求外，亦包含聲音處理的需求，而且於線上的遠距活動中，文字的展現是互動過程裡重要的一環，因此利用語音辨識系統將聲音轉換為文字的技術是非常重要的。

傳統電子裝置內的語音辨識系統包含兩種型態，第一種型態為通用型語音辨識系統，適用於市面上所有使用者皆通用的電子裝置中，例如智慧型手機或智慧音箱上的語音辨識系統，然而，通用型語音辨識系統的辨識率較差，造成語音轉換為文字的錯誤率較高。第二種型態為針對型語音辨識系統，其為專為不同專業領域的使用者所開發的語音辨識系統，例如專為法律專業領域人員所開發的語音辨識系統，則語音辨識系統內針對法律領域的專有名詞的辨識率較佳，然而，針對型語音辨識系統需對不同領域進行專門的資料庫建立及維護，而造成開發成本較高，且開發難度亦較高。

因此，實有必要發展一種語音辨識裝置，以解決先前技術所面臨之問題。

本案之一目的為提供一種語音辨識裝置，其中本案之語音辨識裝置於使用者確認文字訊號所對應的第二文字內容與其實際原意內容不相符時，使用者透過人機介面輸入修正資訊，根據修正資訊而對應修正文字訊號所對應的第二文字內容及語音。因此本案的語音辨識裝置可根據使用者輸入的修正資訊而使語音辨識模型利用資料庫持續進行學習與訓練，而提升本案的語音辨識裝置的語音辨識的辨識率，以降低將語音轉換為文字的錯誤率。此外本案的語音辨識裝置不須額外對專業領域的語音辨識系統進行開發，而可根據資料庫不斷持續進行學習，同時達到辨識率佳、開發成本較低且開發難度較低的優勢。更甚者，使用者利用雲端辨識系統將第一語音辨識裝置中已重新訓練的語音辨識模型上傳至雲端平台，而當使用者欲使用其他語音辨識裝置，例如第二語音辨識裝置時，則可將重新訓練後的語音辨識模型由雲端下載至第二語音辨識裝置上使用，而不須對第二語音辨識裝置的語音辨識模型重新進行訓練，使得使用者的使用體驗較佳，且節省訓練時間。

為達上述目的，本案之一實施態樣為提供一種語音辨識裝置，包含收音單元、語音辨識單元、人機介面及資料庫。收音單元用以接收使用者之語音。語音辨識單元連接於收音單元，且包含音訊辨識器及文字轉換器，音訊辨識器根據語音以確認語音的拼音狀態並輸出第一文字內容，文字轉換器根據語音辨識模型辨識第一文字內容所代表的該拼音狀態以轉換為第二文字內容，並輸出文字訊號。人機介面連接於語音辨識單元，用以接收文字訊號，當文字訊號所對應的第二文字內容與該使用者的一實際原意內容不相符時，使用者輸入修正資訊並對應修正第二文字內容。資料庫連接於人機介面及語音辨識單元之間，資料庫接收並儲存修正過的第二文字內容及語音，以使符合實際原意內容的語音與修正後的第二文字內容配對而建立具有對應關係的配對資料，以重新訓練文字轉換器內的語音辨識模型。

為達上述目的，本案之另一實施態樣為提供一種適用於語音辨識裝置的語音辨識方法，語音辨識方法包含下列步驟。首先，接收使用者之語音。接著，根據語音以確認語音的拼音狀態並輸出第一文字內容，根據語音辨識模型辨識第一文字內容所代表的拼音狀態以轉換為第二文字內容，並輸出文字訊號。接著，確認文字訊號所對應的第二文字內容與使用者的實際原意內容是否相符。於確認結果為否時，使用者輸入修正資訊並對應修正第二文字內容。接著，接收並儲存修正過的第二文字內容及語音，以使符合實際原意內容的語音與修正後的第二文字內容配對而建立具有對應關係的配對資料，以重新訓練語音辨識模型。

為達上述目的，本案之另一實施態樣為提供一種雲端辨識系統，包含雲端平台、第一語音辨識裝置及第二語音辨識裝置。第一語音辨識裝置與雲端平台相通訊，且包含收音單元、語音辨識單元、人機介面及資料庫。收音單元用以接收使用者之語音。語音辨識單元連接於收音單元，且包含音訊辨識器及文字轉換器，音訊辨識器根據語音以確認語音的拼音狀態並輸出第一文字內容，文字轉換器根據語音辨識模型辨識第一文字內容所代表的拼音狀態以轉換為第二文字內容，並輸出文字訊號。人機介面連接於語音辨識單元，用以接收文字訊號，當文字訊號所對應的第二文字內容與使用者的實際原意內容不相符時，使用者輸入修正資訊並對應修正第二文字內容。資料庫連接於人機介面及語音辨識單元之間，資料庫接收並儲存修正過的第二文字內容及語音，以使符合實際原意內容的語音與修正的第二文字內容配對而建立具有對應關係的配對資料，以重新訓練文字轉換器內的語音辨識模型，並將重新訓練後的文字轉換器內的語音辨識模型上傳至雲端平台。第二語音辨識裝置與雲端平台相通訊，以經由雲端平台下載重新訓練後的文字轉換器內的語音辨識模型，並利用重新訓練後的語音辨識模型進行語音辨識。

體現本案特徵與優點的一些典型實施例將在後段的說明中詳細敘述。應理解的是本案能夠在不同的態樣上具有各種的變化，其皆不脫離本案的範圍，且其中的說明及圖示在本質上當作說明之用，而非架構於限制本案。

請參閱第1圖，其為本案第一實施例的語音辨識裝置的系統方塊圖。如圖所示，本實施例的語音辨識裝置1可為但不限為電腦、筆記型電腦、平板電腦、智慧型手機及智慧音箱等具有運算能力及語音辨識需求的電子產品，且包含收音單元2、語音辨識單元3、人機介面4及資料庫5。收音單元2用以接收使用者的語音，其中語音可由單一文字或多個文字所組成的詞語所構成。當然語音不僅可包含中文的詞語，亦可包含英文或其他語言的詞語。語音辨識單元3連接於收音單元2，且包含音訊辨識器31及文字轉換器32。音訊辨識器31不限定語言種類，可根據各語音的屬性，像是語言類型、特殊音節、發聲單位等條件，來確認語音中每個文字的拼音狀態。舉中文輸入為範例，使用者提供的語音所對應的拼音狀態為「ㄈㄚˇㄌㄩˋ」，而音訊辨識器31將收音單元2所提供的語音轉換為拼音狀態「ㄈㄚˇㄌㄩˋ」，以根據轉換後的拼音狀態而輸出第一文字內容，故第一文字內容代表的是語音的拼音狀態。文字轉換器32包含內建且可進行訓練的語音辨識模型，且文字轉換器32根據語音辨識模型辨識第一文字內容內所代表的拼音狀態，以轉換為書寫體的第二文字內容，故第二文字內容代表的是拼音狀態所對應的書寫體，而文字轉換器32更根據第二文字內容輸出文字訊號。進一步來說，文字轉換器32根據語音辨識模型將第一文字內容的拼音狀態「ㄈㄚˇㄌㄩˋ」進行辨識，進而轉換拼音狀態「ㄈㄚˇㄌㄩˋ」為書寫體的第二文字內容「法律」，並根據選取的第二文字內容「法律」而輸出文字訊號。

人機介面4連接於語音辨識單元3，使文字訊號所對應的第二文字內容得以呈現於語音辨識裝置1，以供使用者確認文字訊號所對應的第二文字內容是否正確。當使用者確認文字訊號所對應的第二文字內容與使用者的語音的實際原意內容不相符時，使用者得透過人機介面4輸入修正資訊。如此一來，語音辨識裝置1在獲得使用者的修正資訊後，根據修正資訊而對應修正文字訊號所對應的第二文字內容。

資料庫5連接於人機介面4及語音辨識單元3，資料庫5接收並儲存使用者透過人機介面4輸入的修正資訊，即接收並儲存修正後的第二文字內容，且資料庫5亦同步儲存語音辨識單元3從收音單元2所接收的使用者的語音，以使符合實際原意內容的語音與修正後的第二文字內容配對而建立具有對應關係的配對資料，進而後續利用配對資料來重新訓練文字轉換器32內的語音辨識模型。於一些實施例中，更可以讓配對資料累積至一定特定筆數後，再對文字轉換器32內的語音辨識模型重新訓練。經由多次的重新訓練後，語音辨識單元3可以得到更具個人化，且更精準的辨識結果。

於一些實施例中，當使用者確認文字訊號所對應的第二文字內容與其實際原意內容相符時，使用者不會輸入修正資訊而是輸入確認資訊至人機介面4，而語音辨識裝置1不進行任何修正動作。

由上可知，本案之語音辨識裝置1於使用者確認文字訊號所對應的第二文字內容與其實際原意內容不相符時，使用者透過人機介面4輸入修正資訊，根據修正資訊而對應修正文字訊號所對應的第二文字內容及語音。因此相較於利用傳統通用型語音辨識系統的電子裝置，本案的語音辨識裝置1可根據使用者所輸入的修正資訊而使語音辨識模型利用資料庫5持續進行學習與訓練，而提升本案的語音辨識裝置1的語音辨識的辨識率，以降低將語音轉換為文字的錯誤率。此外，相較於利用針對型語音辨識系統的電子裝置，本案的語音辨識裝置1不須額外對專業領域的語音辨識系統進行開發，而可根據資料庫5不斷持續進行學習，同時達到辨識率佳、開發成本較低且開發難度較低的優勢。

請繼續參閱第1圖，本實施例的語音辨識裝置1更包含輸出單元61，連接於人機介面4，輸出單元61得以顯示第一文字內容的拼音狀態、修正資訊或第二文字內容，或與語音辨識裝置1內的其他電子元件進行溝通。於一些實施例中，語音辨識裝置1可利用無線方式或有線方式與外部通訊平台7進行通訊，其中外部通訊平台7可為但不限為雲端平台。如第1圖所示，語音辨識裝置1更包含傳送單元62，連接於語音辨識單元3及外部通訊平台7之間，傳送單元62接收語音辨識單元3所提供的第一文字內容及第二文字內容，並將語音所對應的第一文字內容及第二文字內容利用無線方式或有線方式傳送至外部通訊平台7。

為了達到消除噪音的效果，於一些實施例中，語音辨識裝置更可包含除噪單元，請參閱第2圖，其為本案第二實施例的語音辨識裝置的系統方塊圖。本實施例的語音辨識裝置1a更包含除噪單元63，與收音單元2、語音辨識單元3及傳送單元62電連接，除噪單元63消除收音單元2所接收的語音中的雜訊，且接收語音辨識單元3所確認的第一文字內容所代表的拼音狀態。如此一來，除噪單元63可依據語音辨識單元3所提供的第一文字內容作為基準，進一步消除收音單元2所提供的帶有雜訊的語音以形成處理音訊，並將處理音訊輸出至傳送單元62，傳送單元62再將其傳送至外部通訊平台7。根據除噪單元63的設置，可提升語音的品質，例如提升客觀語音質量評估(Perceptual evaluation of speech quality, PESQ)或訊號雜訊比(Signal-to-noise ratio, SNR)，使得語音辨識單元3傳送至外部通訊平台7的訊號的辨識度上升。

請參閱第3圖並配合第1圖，其中第3圖為適用於第1圖所示的語音辨識裝置的語音辨識方法的方法流程圖。首先，執行步驟S1，收音單元2接收使用者之語音。接著，執行步驟S2，音訊辨識器31根據語音以確認語音的拼音狀態並輸出第一文字內容，且文字轉換器32根據語音辨識模型辨識第一文字內容所代表的拼音狀態以轉換為第二文字內容，並輸出文字訊號。接著，執行步驟S3，藉由人機介面4確認文字訊號所對應的第二文字內容與使用者的實際原意內容是否相符。於本實施例中，在步驟S3中，人機介面4由是否收到修正資訊進而確認文字訊號所對應的第二文字內容與其實際原意內容是否相符。當步驟S3的確認結果為否時，即文字訊號所對應的第二文字內容與其實際原意內容不相符時，執行步驟S4，使用者透過人機介面4輸入修正資訊並對應修正第二文字內容。接著，執行步驟S5，資料庫5接收並儲存修正後的第二文字內容及使用者的語音，以使符合實際原意內容的語音與修正後的第二文字內容配對而建立具有對應關係的配對資料，以重新訓練語音辨識模型。於一些實施例中，執行完步驟S5後即結束辨識。而於另一些實施例中，執行完步驟S5後可重新執行步驟S1。而於一些實施例中，當步驟S3的確認結果為是時執行步驟S6，透過人機介面4接收確認資訊。於一些實施例中，執行完步驟S6後即結束辨識。而於另一些實施例中，執行完步驟S6後可重新執行步驟S1。而於另一些實施例中，步驟S5中更可以包含，配對資料累積至一定特定筆數後，再對語音辨識模型重新訓練。

請參閱第4圖，其為本案的雲端辨識系統的系統方塊圖。本實施例的雲端辨識系統8包含第一語音辨識裝置、雲端平台81及至少一第二語音辨識裝置82。於本實施例中，第一語音辨識裝置可為第1圖的語音辨識裝置1或第2圖中的語音辨識裝置1a，為了便於解釋，第4圖中的以語音辨識裝置1進行說明，以下稱為第一語音辨識裝置1。雲端平台81以無線或有線的方式與第一語音辨識裝置1相通訊。第一語音辨識裝置1經由無線或有線的方式將重新訓練後的文字轉換器32內的語音辨識模型上傳至雲端平台81，以使雲端平台81接收第一語音辨識裝置1的文字轉換器32所提供的重新訓練後的語音辨識模型，並對所儲存的語音辨識模型進行標示，例如語音辨識模型為與法律領域具有相關性，則對該語音辨識模型標示為「法律領域」。第二語音辨識裝置82為相異於第一語音辨識裝置1的其他具有運算能力及語音辨識需求的其他語音辨識裝置，於第4圖中以三個第二語音辨識裝置82為說明，每一第二語音辨識裝置82以無線或有線的方式與雲端平台81相通訊，並經由雲端平台81將所需的已經過訓練的語音辨識模型，自雲端平台81上下載，例如第二語音辨識裝置82所需的語音辨識模型為關於「法律領域」的語音辨識模型，則將雲端平台81上標示為「法律領域」的重新訓練後的語音辨識模型下載至第二語音辨識裝置82內，使第二語音辨識裝置82可根據語音辨識模型進行語音辨識，而其語音辨識方式相似於第一語音辨識裝置1，故於此不再贅述。使用者利用上述雲端辨識系統8將第一語音辨識裝置1中已重新訓練的語音辨識模型上傳至雲端平台81，而當使用者欲使用其他語音辨識裝置，例如第二語音辨識裝置82時，則可將重新訓練後的語音辨識模型下載至第二語音辨識裝置82上使用，而不須重新於第二語音辨識裝置82上進行語音辨識模型的訓練，使得使用者的使用體驗較佳，且節省訓練時間。

綜上所述，本案之語音辨識裝置於使用者確認文字訊號所對應的第二文字內容與其實際原意內容不相符時，使用者透過人機介面輸入修正資訊，根據修正資訊而對應修正文字訊號所對應的第二文字內容及語音。因此本案的語音辨識裝置可根據使用者輸入的修正資訊而使語音辨識模型利用資料庫持續進行學習與訓練，而提升本案的語音辨識裝置的語音辨識的辨識率，以降低將語音轉換為文字的錯誤率。此外本案的語音辨識裝置不須額外對專業領域的語音辨識系統進行開發，而可根據資料庫不斷持續進行學習，同時達到辨識率佳、開發成本較低且開發難度較低的優勢。更甚者，使用者利用雲端辨識系統將第一語音辨識裝置中已重新訓練的語音辨識模型上傳至雲端平台，而當使用者欲使用其他語音辨識裝置，例如第二語音辨識裝置時，則可將重新訓練後的語音辨識模型由雲端下載至第二語音辨識裝置上使用，而不須對第二語音辨識裝置的語音辨識模型重新進行訓練，使得使用者的使用體驗較佳，且節省訓練時間。

1、1a:語音辨識裝置

2:收音單元

3:語音辨識單元

31:音訊辨識器

32:文字轉換器

4:人機介面

5:資料庫

61:輸出單元

62:傳送單元

63:除噪單元

7:外部通訊平台

S1-S6:步驟

8:雲端辨識系統

81:雲端平台

82:第二語音辨識裝置

第1圖為本案第一實施例的語音辨識裝置的系統方塊圖。第2圖為本案第二實施例的語音辨識裝置的系統方塊圖。第3圖為適用於第1圖所示的語音辨識裝置的語音辨識方法的方法流程圖。第4圖為本案的雲端辨識系統的系統方塊圖。

1:語音辨識裝置