TWI768412B

TWI768412B - 發音教學方法

Info

Publication number: TWI768412B
Application number: TW109125051A
Authority: TW
Inventors: 林其禹
Original assignee: 國立臺灣科技大學
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2022-06-21
Also published as: TW202205256A; CN113973095A; US20220028298A1

Abstract

本發明提供一種發音教學方法。在社群通訊程式提供服務帳戶，以提供發音教學程序。在程序中，服務帳戶對用戶帳戶提供導引訊息。用戶帳戶以語音輸入方式輸入導引訊息，並將導引訊息透過語音輸入引擎轉換的待評估文字直接傳送到服務帳戶。服務帳戶依據待評估文字提供評估結果給對應的用戶帳戶。社群通訊程式提供文字訊息之接收及傳送，導引訊息是供使用者念出的文字，且評估結果相關於導引訊息與待評估文字之間的差異。藉此，用戶的發音缺陷可以被有效發現，並可被針對性地安排治癒性的發音練習，以改善使用者發音準確性並提升語音輸入效率。

Description

發音教學方法

本發明是有關於一種語音輸入技術，且特別是有關於一種發音教學方法。

社群通訊軟體(例如，Line、WhatsApp、WeChat、Facebook Messenger、或Skype等)已經逐漸取代電話交談並呈現現代人廣泛使用的交談工具。在一些情況中，若使用者無法直接與對方通話，多數社群通訊軟體還能提供訊息傳送功能。然而，對於年長者或雙手不便活動者而言，在鍵盤上打字是相當困難甚至是無法達成的任務。而隨著語音辨識技術的成熟，多數人常用的個人通訊設備(例如，電腦和手機等)的作業系統(例如，Windows、MacOS、iOS、或Android等)都已內建語音輸入工具，並讓使用者可透過說話來代替實體或虛擬鍵盤打字，以提升文字輸入的效率。

值得注意的是，雖然語音輸入法已經是相當成熟的技術，但教育、生長環境等諸多因素可能會影響使用者的發音，並使得語音輸入工具所辨識出的文字不同於使用者意圖念出的文字內容。無論是使用者的本國或外國語言，過多的錯誤可能需要使用者花費額外時間修正，相當浪費時間。此外，因為使用者通常不清楚發音錯誤之處，也缺少自行學習和修正的方法，而讓發音的準確度無法有效進步，非常可惜。在越來越多人靠語音輸入工具來進行各式溝通的時代，如果有一種方便且不須真人介入的發音教學方法，就可以讓有意改善各種語言發音準確度的使用者隨時進行改善發音的學習動作。發音更正確後，不但使用個人通訊設備時使用語音輸入工具更為快速有效，即使跟真人對談，也將因發音更準確能讓面對面語言溝通更為有效。

有鑑於此，本發明實施例提供一種發音教學方法，協助分析錯誤內容，並據以提供學習或修正輔助。

本發明實施例的發音教學方法包括下列步驟：在社群通訊程式提供服務帳戶，並透過此服務帳戶提供發音教學程序。此發音教學程序包括：透過服務帳戶對用戶帳戶提供導引訊息。透過用戶帳戶以語音輸入方式輸入導引訊息，並將導引訊息透過語音輸入引擎轉的待評估文字直接傳送到服務帳戶。透過服務帳戶依據待評估文字提供評估結果給對應的用戶帳戶。社群通訊程式提供文字訊息之接收及傳送，導引訊息是供使用者念出的文字，且評估結果相關於導引訊息與待評估文字之間的差異。

基於上述，本發明實施例的發音教學方法在社群通訊程式提供語音學習機器人(即，服務帳戶)，分析語音輸入引擎所轉換的內容，並據以提供諸如錯誤分析、發音訓練、或內容修正等服務。藉此，使用者可了解正確發音且方便學習，從而提升語音輸入效率，並同時提高發音的準確度。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

1:系統

10:伺服器

11、51:儲存器

12:評估模組

15、55:通訊收發器

17、57:處理器

52:社群通訊程式

53:語音輸入引擎

59:顯示器

S210~S270:步驟

301、306、307:訊息

303:文字輸入欄位

304:語音輸入按鍵

305:語音輸入提示

圖1是依據本發明一實施例的系統示意圖。

圖2是依據本發明一實施例的發音教學方法的流程圖。

圖3A及圖3B是一範例說明社群通訊程式的使用者介面。

圖1是依據本發明一實施例的系統1示意圖。請參照圖1，此系統1包括但不僅限於伺服器10及一台或更多台用戶裝置50。

伺服器10可以是各類型伺服器、工作站、後台主機或個人電腦等電子裝置。伺服器10包括但不僅限於儲存器11、通訊收發器15及處理器17。

儲存器11可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory，RAM)、唯讀記憶體(Read Only Memory，ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive，HDD)、固態硬碟(Solid-State Drive，SSD)或類似元件，並用以儲存軟體模組(例如，評估模組12)及其程式碼、以及其他暫存或永久資料或檔案，其詳細內容待後續實施例詳述。

通訊收發器15可以是支援諸如Wi-Fi、行動網路、光纖網路、乙太網路等通訊技術的傳送及接收電路，並用以與外部裝置相互傳送或接收訊號。

處理器17可以是中央處理單元(Central Processing Unit，CPU)、圖形處理單元(Graphic Processing Unit，GPU)、微控制單元(Micro Control Unit，MCU)、或特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)等運算單元，並用以執行伺服器10的所有運作，並可載入且執行評估模組12，其詳細運作待後續實施例詳述。

用戶裝置50可以是智慧型手機、平板、桌上型電腦、筆記型電腦、智慧電視、或智慧手錶等電子裝置。用戶裝置50包括但不僅限於儲存器51、通訊收發器55、處理器57及顯示器59。

儲存器51、通訊收發器55及處理器57的實施態樣可分別參酌儲存器11、通訊收發器15及處理器17的說明，於此不再贅述。

此外，儲存器51用以儲存軟體模組(例如，社群通訊程式52(例如，Line、WhatsApp、WeChat、Facebook Messenger、或Skype等)、語音輸入引擎53(例如，用戶裝置50的作業系統(例如，Windows、MacOS、iOS、或Android等)內建的語音輸入法或第三方語音轉文字工具等))及其程式碼。而處理器57用以執行用戶裝置50的所有運作，並可載入且執行社群通訊程式52及語音輸入引擎53，其詳細運作待後續實施例詳述。

顯示器59可以是LCD、LED顯示器或OLED顯示器。顯示器59用以呈現影像畫面或使用者介面。

下文中，將搭配系統1中的各項裝置、元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整，且並不僅限於此。

圖2是依據本發明一實施例的發音教學方法的流程圖。請參照圖2，在社群通訊程式52提供服務帳戶(步驟S210)。具體而言，社群通訊程式52可提供文字輸入，並基於使用者的輸入產生文字形式的訊息，且進一步經由通訊收發器55提供文字訊息之接收及傳送。

舉例而言，圖3A及圖3B是一範例說明社群通訊程式52的使用者介面。請參照圖3A，使用者介面提供文字輸入欄位303。使用者點選文字輸入欄位303之後，可透過虛擬或實體鍵盤輸入文字。使用者按下「Enter」或其他實體或虛擬的發送按鍵之後，文字輸入欄位303中文字內容將作為文字訊息並經由通訊收發器15發送而出。另一方面，社群通訊程式52的其他帳戶所發送的文字訊息也可經由顯示器59呈現在社群通訊程式52的使用者介面上。以圖3A為例，訊息301為另一個帳戶傳送的文字訊息。

值得注意的是，本發明實施例的伺服器10可提供語音輸入學習機器人(由評估模組12運行)。此機器人是社群通訊程式52所屬服務的其中一個帳戶(下文統稱為服務帳戶)，且任一台客戶裝置50可在社群通訊程式52上使用自己的用戶帳戶加入此服務帳戶或直接對此服務帳戶傳送或接收訊息。此外，服務帳戶提供發音教學程序。此發音教學程序是關於對用戶帳戶念出的內容提供教育學習的修正服務，且下文將詳細說明。

在發音教學程序中，服務帳戶透過評估模組12產生並對社群通訊程式的數個用戶帳戶提供導引訊息(步驟S230)。具體而言，此導引訊息是供用戶帳戶的使用者念出的文字。導引訊息可能是經設計方便後續發音正確性分析的文字資料(例如，包括部分或所有韻母、母音的字句)，也可能是廣告台詞、詩句、或文章等內容。此外，導引訊息的語言可能是使用者選擇或伺服器10預設的。

在一實施例中，服務帳戶可直接透過社群通訊程式傳送導引訊息給一個或更多個用戶帳戶。即，以文字訊息的內容即是導引訊息的實際內容。例如，圖3A的訊息301是「請念出XXX」。

在另一實施例中，數筆導引訊息將依據其國別、情境、類型及/或長度設有對應的唯一識別碼。例如，識別碼E1是英語詩句，識別碼C2是國語廣告台詞。而服務帳戶可透過社群通訊程式傳送導引訊息對應的識別碼給用戶帳戶。用戶帳戶的使用者可透過用戶裝置50依據接收的識別碼在特定網頁、應用程式或資料庫取得對應的導引訊息。

取得導引訊息，用戶裝置50的處理器57可在顯示器59呈現伺服器10所產生的導引訊息，以供用戶帳戶的使用者閱讀。以圖3A為例，訊息301為伺服器10所傳送的導引訊息。導引訊息是要求用戶帳戶的使用者念出特定文字。

用戶帳戶的使用者以語音輸入方式輸入導引訊息，且客戶裝置50可錄製使用者依據導引訊息所念出的語音內容，並將念出的導引訊息透過語音輸入引擎53轉換的待評估文字直接傳送到服務帳戶(步驟S250)。具體而言，客戶裝置50內建有語音輸入引擎53。使用者可選擇或系統預設有語音輸入引擎53，以將打字輸入模式轉換成語音輸入模式。語音輸入引擎53主要是基於語音辨識技術(例如，訊號處理、特徵擷取、聲學模型、發音詞典、解碼等技術)而將語音轉換成文字。以圖3A為例，使用者點選語音輸入按鍵304(以麥克風圖案為例)之後，使用者介面額外呈現語音輸入提示305，讓使用者了解社群通訊程式52已進入語音輸入模式。語音輸入引擎53可將用戶帳戶的使用者所念出的語音內容轉換成文字並經由顯示器59呈現在文字輸入欄位303上。即，基於前述說明關於語音輸入引擎53將語音轉換成文字的內容產生文字形式的待評估文字。值得注意的是，此待評估文字是語音輸入引擎53直接辨識出的文字內容且尚未經過使用者的額外修正。若語音輸入引擎53直接辨識出的文字內容如果跟使用者原擬說出的文字內容不同，則表示根據原擬發音的文字而發出的語音，因不夠準確，而無法被語音輸入引擎53正確了解。此外，使用者也無須自行比對待評估文字及導引訊息，處理器57並可直接透過社群通訊程式52且經由通訊收發器55傳送此待評估文字給服務帳戶。

另一方面，(服務帳戶的)處理器17經由通訊收發器11接收此待評估文字，服務帳戶即可依據待評估文字提供評估結果給對應的用戶帳戶(步驟S270)。具體而言，處理器17可依據導引訊息與待評估文字之間的差異產生評估結果。即，評估結果相關於導引訊息與待評估文字之間的差異(例如，發音或文字差異等)。在一實施例中，評估模組12可比較導引訊息與待評估文字，以取得待評估文字中的錯誤內容。即，錯誤內容是導引訊息與待評估文字之間在文字上的差異。例如，導引訊息是「今天天氣是晴時多雲偶陣雨」，待評估文字是「今天天氣次清詩多雲偶陣雨」，則錯誤內容是「次清詩」。

在一實施例中，(服務帳戶的)評估模組12可依據錯誤內容的文字及發音中至少一者產生評估結果。此評估結果例如是錯誤內容中的文字或發音的統計結果。例如，錯誤內容中各文字及/或各發音及其統計數量。評估結果可以是前述統計結果的錯誤報表，也可列有發音錯誤的文字及/或韻母、母音、或子音。在另一實施例中，評估模組12可對錯誤內容評分。例如，錯誤內容所占所有內容的百分比，或者是正常人理解內容的程度。在一些實施例中，評估模組12可進一步基於錯誤內容中的文字取得對應正確及錯誤發音，以增添評估結果的內容。

(服務帳戶的)評估模組12可經由通訊收發器11發送此評估結果(作為文字訊息、或其他類型的檔案(例如，圖片、或文字檔案等))，且(用戶帳戶的)處理器57可透過社群通訊程式52且經由通訊收發器51接收此評估結果。處理器57可進一步在顯示器59上顯示評估結果，讓用戶帳戶使用者可即時了解自己錯誤發音之處。以圖3B為例，訊息306是語音輸入引擎53對使用者念出的語音內容轉換所得的待評估文字，且訊息307是伺服器10所產生的評估結果。訊息307可列出使用者念錯的文字(即，不同於導引訊息的錯誤內容)。

在一實施例中，(服務帳戶的)評估模組12可依據錯誤內容的文字及發音中至少一者產生第二導引訊息。此第二導引訊息亦是供使用者念出的文字。初始的導引訊息可能是預先定義的內容且未經個人化調整，而第二導引訊息則是實際分析使用者發音所產生的(即，有個人化調整)。例如，錯誤內容是相關於「ㄓ」、「ㄔ」等捲舌音(英文的範例為「books」、「words」中s的不同發音)，則第二導引訊息可以是包含很多「ㄓ」、「ㄔ」發聲的的繞口令(英文的對稱例為「sleeps,books,hats」、「crabs,words,bags」的練習)，以強化對該些語音的發聲練習效果。(用戶帳戶的)處理器57可透過社群通訊程式52並經由通訊收發器55接收並經由顯示器59呈現此第二導引訊息。在一些實施例中，第二導引訊息還能伴隨著對應其文字內容的錄音(可包括相關說明)以供使用者聆聽並參考。此第二導引訊息的錄音可由真人預先錄製或由伺服器10或客戶裝置50的文字轉語音(Text-to-Speech，TTS)技術產生。

相似地，(用戶帳戶的)處理器57可錄製使用者依據第二導引訊息所念出的語音內容，透過語音輸入引擎53將使用者念出的語音內容轉換成第二待評估文字，並經由通訊收發器55傳送基於第二導引訊息第二待評估文字到伺服器10。此外，評估模組12也可比較第二導引訊息及第二待評估文字，以產生對應的評估結果或其他的導引訊息。須說明的是，前述評估結果及導引訊息的產生可不依特定順序地重複進行，且導引訊息可能是基於前幾次中任一筆或更多筆錯誤內容所產生。而透過反覆練習錯誤內容，將可降低使用者發音錯誤的頻率，並進而增進使用者發音的準確度和溝通效率。

在一實施例中，(用戶帳戶的)處理器57還可透過語音輸入方式輸入初步訊息。此初步內容是某一用戶帳戶的使用者所欲傳送給社群通訊程式52的其他用戶帳戶(例如，親朋好友或同事等)的文字內容，且使用者無須依據前述導引訊息念出。用戶帳戶可將念出的初步訊息透過語音輸入引擎轉換的第三待評估文字直接傳送到服務帳戶。而(服務帳戶的)處理器57可依據前述評估結果修改第三待評估文字中的錯誤內容以形成最終訊息。例如，評估結果是「ㄉ」音被辨識成「ㄊ」音(英文中「d」音被辨識成「t」)，則處理器57可對第三待評估文字中有「ㄊ」音的字(英文中「d」音)進一步確認是否需要修正為「ㄉ」音(英文中「t」音)。此外，處理器57會基於被修正的字及其前後文字或詞句來選擇適當的文字。例如，「區」是接續在待修正的字的下個字，則處理器51會選擇「地」作為修正後的字而不是「第」。而此最終訊息即是初步訊息中的錯誤內容經修正後的訊息，最終訊息並可供此用戶帳戶在社群通訊程式52且經由通訊收發器55傳送。也就是說，服務帳戶可自行依據用戶帳戶的使用者過去講話的內容修正錯誤內容，且無須使用者手動調整。

此外，本發明實施例是導入到社群通訊程式52上，伺服器10所提供的機器人可以是任一個或更多個使用者可選擇的朋友或帳戶(即，服務帳戶)。而社群通訊程式52是廣泛使用的軟體(即，大多數使用者都會自行下載或客戶裝置50預先安裝)，讓任何使用者都可輕易地使用本發明實施例的語音輸入分析及修正功能。

綜上所述，本發明實施例的發音教學方法，可在社群通訊程式所提供的平台上分析使用者的語音輸入錯誤內容，並據以提供評估結果甚至供後續修正其他語音內容。藉此，本發明實施例具有以下特點：本發明實施例可協助發展正確發音，讓人正確說話能被了解，從而增加溝通能力。本發明實施例可協助發展正確發音，讓客戶裝置的系統正確了解語音輸入內容，從而增加語音輸入效率，並減少更正時間。本發明實施例不須真人聽使用者說話，並能以相同標準判斷語音錯誤內容，以供產生後續教導內容(不同真人聽力不同)。本發明實施例可適用於多種語言學習。此外，只要客戶裝置能連網，使用者在任何時間和任何地點都能進行學習。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S210~S270:步驟

Claims

一種發音教學方法，包括：在一社群通訊程式提供一服務帳戶，其中該社群通訊程式提供文字訊息之接收及傳送，在該社群通訊程式的一使用者介面上接收該文字訊息之輸入或顯示該文字訊息，且該服務帳戶提供一發音教學程序，其中該發音教學程序包括：透過該服務帳戶對該社群通訊程式的多個用戶帳戶提供一導引訊息，其中該導引訊息是供該些用戶帳戶的使用者念出的文字；透過該些用戶帳戶以語音輸入方式輸入該導引訊息，並將念出該導引訊息的語音內容透過一語音輸入引擎進行語音至文字轉換所轉換的一待評估文字以該文字訊息直接傳送到該服務帳戶；以及透過該服務帳戶依據該待評估文字提供一評估結果給對應該用戶帳戶，其中該評估結果相關於該導引訊息與該待評估文字之間的差異。
如請求項1所述的發音教學方法，其中傳送該待評估文字的步驟之後，更包括：透過該服務帳戶比較該導引訊息與該待評估文字，以取得該待評估文字中的錯誤內容，其中該錯誤內容是該導引訊息與該待評估文字之間的差異。
如請求項2所述的發音教學方法，其中取得該待評估文字中的錯誤內容的步驟之後，更包括：透過該服務帳戶依據該錯誤內容的文字及發音中至少一者產生該評估結果，其中該評估結果包括該錯誤內容中的文字或發音的統計結果。
如請求項2所述的發音教學方法，其中取得該待評估文字中的錯誤內容的步驟之後，更包括：透過該服務帳戶依據該錯誤內容的文字及發音中至少一者產生一第二導引訊息，並傳送該第二導引訊息到對應該用戶帳戶，其中該第二導引訊息是供該些用戶帳戶的使用者念出的文字。
如請求項1所述的發音教學方法，其中提供該評估結果的步驟之後，更包括：透過一該用戶帳戶以語音輸入方式輸入一初步訊息，並將念出的該初步訊息透過該語音輸入引擎轉換的一第二待評估文字直接傳送到該服務帳戶，其中該初步訊息是該用戶帳戶欲傳送該另一該用戶帳戶的文字內容；以及透過該服務帳戶依據該評估結果修改該第二待評估文字中的錯誤內容以形成一最終訊息，並提供該最終訊息給對應該用戶帳戶，其中該最終訊息是該初步訊息中的該錯誤內容經修正後的訊息並供對應該用戶帳戶使用。
如請求項1所述的發音教學方法，其中提供該導引訊息的步驟包括：該服務帳戶透過該社群通訊程式傳送該導引訊息。
如請求項1所述的發音教學方法，其中提供該導引訊息的步驟包括：該服務帳戶透過該社群通訊程式傳送該導引訊息對應的識別碼；以及該些用戶帳戶依據該識別碼取得該導引訊息。