TWI806703B

TWI806703B - 語音矯正輔助方法和系統

Info

Publication number: TWI806703B
Application number: TW111126129A
Authority: TW
Inventors: 塗雅雯; 阮聖彰; 蕭丞軒; 陳俞瑾
Original assignee: 國泰醫療財團法人國泰綜合醫院
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2023-06-21
Also published as: TW202403695A

Abstract

一種語音矯正輔助方法包括由一訓練裝置所執行的一訓練程序和由一執行裝置所執行的一執行程序；該執行程序包括當判斷一第一發音按鈕被觸發時，撥放一語音樣本資料中對應一第一單字的一第一聲音資料；當判斷一第一錄音按鈕被觸發時，錄製對應該第一單字的一第一錄音資料，並根據該第一錄音資料產生一待分析資料；當判斷該開始分析按鈕被觸發時，比對該待分析資料和該第一聲音資料的相似度以產生一分析結果；本發明為一種提供居家練習咬字發音的工具，可根據錄製使用者發音的該待分析資料分析使用者的咬字狀況，以供語音治療師參考。

Description

語音矯正輔助方法和系統

一種語音矯正輔助方法和系統，尤指可以協助分析和協助矯正發音的一種語音矯正輔助方法和系統。

部分的兒童在成長過程中會遇到咬字發音上的困難，而這種發音過程中所遇到的困難與錯誤可稱為語言障礙。語言障礙是一種可以經治療而受到改善的障礙。

語言障礙的治療需要由專業的語音治療師所主持，並且進一步需要孩童的家長配合監督孩童居家練習發音才能有效改善孩童的語言障礙。然而，當家長配合監督孩童居家練習發音時，家長無法如專業的語音治療師般仔細洞悉孩童練習時所犯下的發音錯誤。因此，家長可能在孩童發音錯誤的當下，未能即時反饋給孩童，導致孩童重複的進行錯誤的發音練習，造成整體語言障礙治療上的阻力。

進一步來說，就算家長洞悉了孩童發音上出現了錯誤，大多家長無法有方針地教導孩童如何改變發音的技巧。換句話說，即便家長能察覺孩童發音錯誤，卻不了解孩童是如何發音錯誤的，也因此無法提供針對性的改善方法。如此，將造成孩童跟家長雙方的負擔。

有鑑於上述的問題，本發明提供一語音矯正方法和系統。

本發明之該語音矯正輔助系統，包括一訓練裝置和一執行裝置。該訓練裝置進一步包括一顯示模組、一音訊模組、一記憶模組、一通訊模組和一處理模組。該處理模組分別電連接該顯示模組、該音訊模組、該記憶模組和該通訊模組。

該記憶模組存有一第一圖像資訊和對應該第一圖像資訊的一第一語詞資訊、以及一語音樣本資料。該第一語詞資訊包括一第一單字，且該語音樣本資料包括對應該第一單字的一第一聲音資料。該通訊模組連接一網路以通訊連接該訓練裝置。

本發明之該語音矯正輔助方法，包括一訓練程序和一執行程序。該訓練程序係由該訓練裝置所執行，而該執行程序係由該執行裝置的該處理模組所執行，且該執行程序包括以下步驟：a.透過該執行裝置的該顯示模組顯示一開始分析按鈕、一第一圖像資訊以及對應該第一圖像資訊的一第一語詞資訊，並且顯示該第一語詞資訊所包括的一第一單字，以及對應該第一單字的一第一發音按鈕和一第一錄音按鈕；b.當判斷該第一發音按鈕被觸發時，透過該執行裝置的該音訊模組撥放一語音樣本資料中對應該第一單字的一第一聲音資料；c.當判斷該第一錄音按鈕被觸發時，透過該音訊模組錄製對應該第一單字的一第一錄音資料，並根據該第一錄音資料產生一待分析資料；d.當判斷該開始分析按鈕被觸發時，比對該待分析資料和該第一聲音資料的相似度以產生一分析結果。

本發明提供一家長協助患有語言障礙的一孩童矯正發音的一輔助工具。當本發明透過該執行程序撥放該第一單字的該第一聲音資料和呈現該第一圖像資訊時，孩童將可以聊解如何正確發音。當本發明錄製對應該第一單字的該第一錄音資料，並且產生該分析結果後，該家長能夠透過機器的協助了解孩童的發音是否正確。進一步來說，當多次使用本發明錄製該第一錄音資料和產生該分析結果後，該家長能夠透過機器的協助了解孩童的發音是否出現進步，即了解該第一聲音資料和該第一錄音資料的相似度是否越來越趨近相似。

本發明能提供居家練習時輔助該家長解析和矯正該孩童咬字發音的工具，亦可以提供參考性的分析結果給語音治療師做該孩童語言障礙的輔助判斷。

1:進度百分比

2:下載選項

3:開始測驗選項

4:第一圖像資訊

5:第一語詞資訊

5A:第一單字

5Amic:第一錄音按鈕

5AS:第一發音按鈕

5B:第二單字

5Bmic:第二錄音按鈕

5BS:第二發音按鈕

6:第二圖像資訊

7:開始分析選項

8:正常音相似度

8N:第一項目

8A:塞音化相似度

8AN:第一異常發音資訊

8B:舌根音化相似度

8BN:第二異常發音資訊

8C:聲隨韻母相似度

8CN:第三異常發音資訊

8D:塞擦音化相似度

8DN:第四異常發音資訊

9:儲存和上傳選項

10:顯示模組

10A:開始畫面

10B:測驗畫面

10C:分析結果畫面

10D:輔導資訊畫面

11:下一頁選項

12:健康常識資訊

13:結束選項

20:音訊模組

30:記憶模組

40:處理模組

50:通訊模組

60:人機互動模組

100:訓練裝置

200:執行裝置

S100:訓練程序

S110、S120、S130、S140、S150、S160、S170:步驟

S100A、S100B、S100C:步驟

S200:執行程序

S201~S203、S210、S220、S230~S232、S240~S244:步驟

S240A、S240B:步驟

S250、S260:步驟

圖1為本發明一語音矯正輔助系統的方塊圖。

圖2為本發明一語音矯正輔助方法的流程圖。

圖3為本發明該語音矯正輔助方法一執行程序的流程圖。

圖4為本發明該語音矯正輔助方法該執行程序的另一流程圖。

圖5為本發明該語音矯正輔助方法一訓練程序的流程圖。

圖6為本發明該語音矯正輔助方法該訓練程序的另一流程圖。

圖7為本發明該語音矯正輔助方法該執行程序的又一流程圖。

圖8為本發明該語音矯正輔助方法該執行程序的還一流程圖。

圖9為本發明該語音矯正輔助方法該執行程序的再一流程圖。

圖10為本發明該語音矯正輔助系統之一執行裝置顯示一開始畫面的示意圖。

圖11為本發明該語音矯正輔助系統之該執行裝置顯示一測驗畫面的示意圖。

圖12為本發明該語音矯正輔助系統之該執行裝置顯示一分析結果畫面的示意圖。

圖13為本發明該語音矯正輔助系統之該執行裝置顯示一輔導資訊畫面的示意圖。

請參閱圖1所示，本發明提供一種語音矯正輔助方法和系統。本發明之該語音矯正輔助系統包括一訓練裝置100和一執行裝置200。該執行裝置200包括一顯示模組10、一音訊模組20、一記憶模組30、一處理模組40和一通訊模組50。該處理模組40分別電連接該顯示模組10、該音訊模組20和該記憶模組30。

該記憶模組30存有一第一圖像資訊和對應該第一圖像資訊的一第一語詞資訊、以及一語音樣本資料。該第一語詞資訊包括一第一單字，且該語音樣本資料包括對應該第一單字的一第一聲音資料。該執行裝置200的該通訊模組50連接一網路以通訊連接該訓練裝置100。

請參閱圖2所示，該語音矯正輔助方法包括一訓練程序S100和一執行程序S200。其中該訓練程序S100係由該訓練裝置100所執行，而該執行程序S200係由該執行裝置200的該處理模組40所執行。該執行程序S200包括以下步驟：

步驟S210：透過該執行裝置200的該顯示模組10顯示一開始分析按鈕、該第一圖像資訊以及對應該第一圖像資訊的該第一語詞資訊，並且顯示該第一語詞資訊所包括的該第一單字，以及對應該第一單字的該第一發音按鈕和該第一錄音按鈕；步驟S220：當判斷該第一發音按鈕被觸發時，透過該執行裝置200的該音訊模組20撥放該語音樣本資料中對應該第一單字的該第一聲音資料；步驟S230：當判斷該第一錄音按鈕被觸發時，透過該音訊模組20錄製對應該第一單字的一第一錄音資料，並根據該第一錄音資料產生一待分析資料；步驟S240：當判斷該開始分析按鈕被觸發時，比對該待分析資料和該第一聲音資料的相似度以產生一分析結果。

在本發明的一實施例中，該執行裝置200進一步包括一人機互動模組60，且該人機互動模組60電連接該處理模組40。該人機互動模組60產生一選取訊號。使用該執行裝置200的一使用者可透過該人機互動模組60根本發明互動，即通過選取該第一發音按鈕聆聽本發明撥放的該第一聲音資料，和通過選取該第一錄音按鈕錄製對應該第一單字的該第一錄音資料。

當該處理模組40接收該人機互動模組60產生的該選取訊號，且該選取訊號對應選取該第一發音按鈕時，該處理模組40即判斷該第一發音按鈕被觸發，而進一步透過該音訊模組20撥放該第一聲音資料。當該處理模組40接收該人機互動模組60產生的該選取訊號，且該選取訊號對應選取該第一錄音按鈕時，該處理模組40即判斷該第一錄音按鈕被觸發，而進一步透過該音訊模組20錄製對應該第一單字的該第一錄音資料。

在本實施例中，該第一語詞資訊為一語詞，而該第一圖像資訊為對應該語詞的一靜態圖式或是一動態圖式。該動態圖式例如一圖像互換格式(Graphics Interchange Format；GIF)。該第一單字為該語詞中的其中一個單字，而該第一聲音資料為正確朗讀該第一單字的聲音檔。該第一錄音資料為該使用者朗讀該第一單字的聲音檔。

在本實施例中，該通訊模組50連接的該網路為一加密網路，即該使用者必須先登入該網路以經過身分確認後才能下載一軟體更新資料。本發明之該處理模組40透過該通訊模組50從該網路下載該軟體更新資料，且該處理模組40根據下載的該軟體更新資料更新該記憶模組30內存有的該語音樣本資料，以達到擴充資料的目的。當該通訊模組50停止連接該網路後，本發明還是能夠正常的離線運作，因該執行裝置200的該處理模組40所做的處理無須倚賴雲端運算的功能。

舉例來說，在本實施例中，該執行裝置200為一智慧型手機，即該處理模組40為一處理器，該通訊模組50為一網路模組，該顯示模組10和該人機互動模組60為一觸控螢幕，該音訊模組20為一喇叭和一麥克風，一記憶模組30為一記憶體。在另一實施例中，該執行裝置200為一平板電腦。在另一實施例中，該執行裝置200為一電腦，且該顯示模組10為一螢幕，該人機互動模組60為一鍵盤和一滑鼠。另外，在本實施例中，該訓練裝置100為可連接該網路的一電腦或是一雲端伺服器，且該執行裝置200透過該網路通訊連接該訓練裝置100的該通訊模組50。

請參閱圖3所示，該語音矯正輔助方法之該執行程序S200進一步包括以下步驟：

步驟S201：透過該通訊模組50下載一軟體更新資料，且根據該軟體更新資料更新該記憶模組30內存有的該語音樣本資料。

步驟S202：透過該通訊模組50下載一問卷資料，且透過該顯示模組10顯示該問卷資料。

步驟S203：當該問卷資料受到選取完畢時，產生一使用者資料，且將該使用者資料儲存於該記憶模組30中。

顯示該問卷資料即本發明透過該顯示模組10詢問該使用者關於個人資訊和健康資訊的問題。同樣的，該使用者可透過該人機互動模組60選取選擇題的答案，而該人機互動模組60將對應產生該選取訊號於該問卷資料中做出選擇。在執行步驟S202和步驟S203之間，該處理模組40判斷是否該問卷資料中的所有問題都已受到該選取訊號的選擇而選取完畢。當判斷未選取完畢時，即未產生該使用者資料。本發明所產生的該使用者資料只會存於該記憶模組30中，而未通過該通訊模組50送出，因此該使用者資料僅供該使用者自身所持有，以保護該使用者的隱私。該使用者資料為協助該使用者整理和呈現自身的資訊和生心理狀況。

在本實施例中，該問卷資料包括複數題目資訊，而該些題目資訊可為填寫題、單選題或是複選題。該些題目資訊為單選題或是複選題之題目進一步包括對應的複數供選擇答案。其中，填寫題例如填寫兒童姓名，單選題例如選擇進食狀況為良好、挑食、胃口不佳、咀嚼困難或是流口水等其一選項。單選題又可例如選擇呼吸狀況為正常、有雜音或是由口呼吸等其一選項，而複選題例如可複選口齒不清楚、說話性語音障礙(大舌頭)、嗓音障礙(沙啞)、口吃或是語言發展遲緩等選項。當該些題目資訊的各對應答案受到選取完畢時，本發明即產生包括了複數受選擇答案的該使用者資料，並將該使用者資料儲存於該記憶模組30中。

請參閱圖4所示，在本實施例中，該記憶模組30存有的該第一語詞資訊進一步包括一第二單字，且該語音樣本資料進一步包括對應該第二單字的一第二聲音資料。

當該處理模組40執行步驟S210時，該處理模組40進一步顯示該第一語詞資訊所包括的該第二單字，以及對應該第二單字的一第二發音按鈕和一第二錄音按鈕。並且該執行程序S200進一步於步驟S240之前包括以下步驟：

步驟S231：當判斷該第二發音按鈕被觸發時，透過該音訊模組20撥放該語音樣本資料中對應該第二單字的該第二聲音資料。

步驟S232：當判斷該第二錄音按鈕被觸發時，透過該音訊模組20錄製對應該第二單字的一第二錄音資料，並根據該第二錄音資料更新該待分析資料。該待分析資料受更新後即包括該第一錄音資料和該第二錄音資料。

另外在本實施例中，該訓練裝置100存有一人工智慧模型(Artificial Intelligence model；AI model)和用以訓練該人工智慧模型的一訓練資料。在該訓練裝置100中，該人工智慧模型為一卷積神經網路模型(Convolutional Neural Network model；CNN model)，且該訓練裝置100根據該訓練資料對該卷積神經網路模型進行訓練，以建立一聲音比對模型，並且當該聲音比對模型訓練完成後，該訓練裝置100再將該聲音比對模型以通訊方式，例如該網路，存入該執行裝置200的該記憶模組30中，供該執行裝置200的該處理模組40使用。該訓練裝置100通訊連接該執行裝置200之該通訊模組50，故可將訓練後之該聲音比對模型通過傳輸該通訊模組50傳輸給該處理模組40存入該記憶模組30中。該執行裝置200的該處理模組40即使用該聲音比對模型比對該待分析資料和該第一聲音資料的相似度以產生該分析結果。

請參閱圖5所示，該訓練裝置100另存有一調整半音數、一平移時間、一調速百分比、一擴音百分比和一環境噪音等數值。該訓練資料包括用以訓練該人工智慧模型的複數小孩聲音檔。並且，該訓練程序S100進一步包括以下步驟：

步驟S110：透過一音調位移步驟訓練該人工智慧模型，即將各該些小孩聲音檔之音訊音調分別上下調整該調整半音數以訓練該人工智慧模型。

例如，該調整半音數為二，步驟S110即將各該些小孩聲音檔之音訊音調分別上下調整兩半音以訓練該人工智慧模型，如此以模擬不同人聲之間音調(pitch)的差別，藉以訓練該人工智慧模型認識不同人聲之間音調(pitch)的差別。

步驟S120：透過一時間位移步驟訓練該人工智慧模型，即將各該些小孩聲音檔之音訊時間軸隨機平移該平移時間以訓練該人工智慧模型。

例如，該平移時間為一秒鐘之時間，步驟S120即將各該些小孩聲音檔之音訊時間軸隨機前後平移一秒鐘之時間，如此以訓練該人工智慧模型認識音訊受到平移後之變化態樣，增強該人工智慧模型對該些小孩聲音檔的音訊解讀能力。

步驟S130：透過一速度縮放步驟訓練該人工智慧模型，即將各該些小孩聲音檔之音訊速度隨機縮放該調速百分比以訓練該人工智慧模型。

例如，該調速百分比為25%，步驟S130即將各該些小孩聲音檔之音訊速度隨機縮放25%之原始音訊速度，如此以模擬不同說話速度快慢之變化態樣，藉以訓練該人工智慧模型認識不同說話速度快慢之變化態樣。

步驟S140：透過一增加音量步驟訓練該人工智慧模型，即將各該些小孩聲音檔之音訊聲量加大該擴音百分比以訓練該人工智慧模型。

例如，該擴音百分比為15%，步驟S140即將各該些小孩聲音檔之音訊聲量加大15%之原始音量大小，如此以模擬不同說話大小聲之變化態樣，藉以訓練該人工智慧模型認識不同說話大小聲之變化態樣。

步驟S150：透過一增加白噪音步驟訓練該人工智慧模型，即將各該些小孩聲音檔之音訊添加該環境噪音以訓練該人工智慧模型。

例如，因為該環境噪音為全頻率的雜訊，所以可以增添各該些小孩聲音檔中所有頻率受到雜訊影響後之變化態樣，以訓練該人工智慧模型認識各該些小孩聲音檔受到雜訊影響後變化之多樣性。

步驟S160：結束訓練該人工智慧模型，並且建立訓練完成的該聲音比對模型。

步驟S170：將訓練完成的該聲音比對模型傳送至該執行裝置200。

步驟S170中，該訓練裝置100將訓練完成的該聲音比對模型透過該網路傳輸至該執行裝置200的該通訊模組50。該執行裝置200的該處理模組40通過該通訊模組50接收訓練完成的該聲音比對模型，以建立或是更新訓練完成的該聲音比對模型於該記憶模組30中。當該執行裝置200的該處理模組40執行步驟S240時，該處理模組40係透過該聲音比對模型比對該待分析資料和該第一錄音資料的相似度以產生該分析結果。上述步驟S110至步驟S170之先後順序和使用之訓練組合不以此實施例為限。

請參閱圖6所示，在另一實施例中，該訓練資料包括用以訓練該人工智慧模型的該些小孩聲音檔和複數大人聲音檔。並且，該訓練程序S100進一步包括以下步驟：

步驟S100A：透過一梅爾頻譜步驟訓練該人工智慧模型，即將各該些大人聲音檔和各該些小孩聲音檔時頻轉換後，擷取複數訊號窗口內的頻段音訊，並且將該些訊號窗口內的頻段音訊過濾後，再次時頻轉換，並用以訓練該人工智慧模型。

步驟S100B：結束訓練該人工智慧模型，並且建立訓練完成的該聲音比對模型。

步驟S100C：將訓練完成的該聲音比對模型傳送至該執行裝置200。

在本實施例中，步驟S100A係由該訓練裝置100通過矩陣實驗室(Matrix Laboratory；Matlab)的MelSpectrogram指令所執行。該些訊號窗口，詳細來說，包括了三個不同窗口大小的訊號窗口，每一個訊號窗口即擷取各該些大人聲音檔和各該些小孩聲音檔時頻轉換後的一時頻譜(spectrogram)的不同頻段。這一些擷取的頻段受到過濾時即可針對雜訊之頻率去除雜訊，以優化這一些擷取頻段的訊號品質，並藉以訓練該人工智慧模型提升比對音訊的準確率。換言之，當該執行裝置200的該處理模組40執行步驟S240時，該處理模組40即可透過該聲音比對模型更準確的比對該待分析資料和該第一錄音資料的相似度以產生該分析結果。進一步來說，當執行步驟S100A以透過該梅爾頻譜步驟訓練該人工智慧模型時，該訓練裝置100先將取得梅爾頻率倒譜係數(Mel-scale Frequency Cepstral Coefficients；MFCC)，再透過取得的MFCC來建立梅爾倒頻譜(Mel-Frequency Cepstrum,MFC)的係數，以在非線性的梅爾刻度(Mel scale)上得到頻譜，即得到一梅爾頻譜。其中，梅爾刻度和線性的頻率刻度赫茲(Hz)之間已具有數學上對數尺度(logarithmic scale；log scale)的換算公式。

進一步，當將該些訊號窗口內的頻段音訊過濾時，該訓練裝置100係透過一濾波器組(Filter bank；FBank)來過濾該些大人聲音檔和各該些小孩聲音檔時頻轉換後的頻率分佈，以過濾掉該些訊號窗口外的雜訊，保留該些訊號窗口內的頻段音訊。該些訊號窗口外的雜訊，例如高於人類發聲頻率之高頻雜音，或是低於於人類發聲頻率之低頻雜訊。在本實施例中，該濾波器組為一數位濾波器組，且該濾波器組所濾波的頻率可受到該訓練裝置100的設定。

在另一實施例中，該分析結果中根據該聲音比對模型所產生的相似度為所謂的一子音正確率(Percentage of Consonants Correct；PCC)。該子音正確率的取得為訓練該人工智慧模型時輸入複數錯誤音和複數正確音後所產生之結果。該人工智慧模型可從聲學上了解不同程度的語音障礙，並且進行後續的分析與錯誤類型分類。當產生該聲音比對模型後，該聲音比對模型可呈現出現的錯誤音類別。舉例來說，就訓練該人工智慧模型熟悉根據華語注音符號表(International Phonetic Alphabet；IPA)而言，不同種類的錯誤發音之間具有邏輯關係，例如：塞擦音ㄐ=塞音ㄉ+擦音ㄒ。

塞擦音ㄓ=塞音ㄉ+擦音ㄕ。

塞擦音ㄗ=塞音ㄉ+擦音ㄙ，等等。

進一步就聲學上而言，當塞音、塞擦音、擦音或是舌根音等錯誤發音時頻轉換後，可於頻譜圖上觀察出各錯誤發音之頻譜特徵，例如舌根音所對應之頻譜於較低頻率具有較多之能量。頻譜中低頻率具有較多之能量，例如可以以低頻強度(intensity)較高或是樣本密度(sample density)於低頻較高表示。就塞音(stops)的時域聲譜特徵而言，在聲譜上可觀察到的特性有所謂的送氣(aspiration)、發聲起始時間(voice onset time,VOT)和共振峰轉變(formant transition)等時域聲譜特徵。塞音的時域聲譜特徵主要會出現幾個較為相近的共振峰，並且也可以在發音的一開始觀察到明顯的VOT。

本發明之該人工智慧模型受訓後即可綜合此些上述之聲學知識和邏輯，以產生該聲音比對模型。上述之聲學知識和邏輯僅為本實施例之簡單舉例，因此並不以此為限。當該聲音比對模型受到該執行裝置200使用時，該執行裝置200無需做出錄製聲音之時頻轉換即可獲得該人工智慧模型根據其學習聲學知識和邏輯所歸納之該分析結果。

請參閱圖7所示，在本實施例中，當該執行裝置200的該處理模組40執行步驟S240時，該處理模組40係執行以下步驟：

步驟S241：判斷該開始分析按鈕是否被觸發。當判斷該開始分析按鈕未被觸發時，執行步驟S241。

步驟S242：當判斷該開始分析按鈕被觸發時，透過該聲音比對模型比對該待分析資料中該第一錄音資料和該第一聲音資料的相似度以產生該第一結果。

步驟S243：透過該聲音比對模型比對該待分析資料中該第二錄音資料和該第二聲音資料的相似度以產生一第二結果。

步驟S244：根據該第一結果和該第二結果產生該分析結果。

進一步，在本實施例中，步驟S244係平均該第一結果和該第二結果以產生該分析結果。換句話說，本實施例分別使用步驟S242和步驟S243利用該聲音比對模型做出兩次的比對分析，並且再平均兩次分析分別產出的結果以得到該分析結果。這裡所指的平均兩次分析分別產出的結果，即該分析結果=(該第一結果+該第二結果)/2。

在本發明另一實施例中，該第一語詞資訊所包括的一第三單字，以及對應該第三單字的一第三發音按鈕和一第三錄音按鈕。依照本案前述之邏輯，當該第三發音按鈕被觸發時，透過該音訊模組20撥放該語音樣本資料中對應該第三單字的一第三聲音資料。當該第三錄音按鈕被觸發時，透過該音訊模組20錄製對應該第三單字的一第三錄音資料，並根據該第三錄音資料更新該待分析資料。以此邏輯類推，在該處理模組40執行步驟S243後，係會進一步透過該聲音比對模型比對該待分析資料中該第三錄音資料和該第三聲音資料的相似度以產生一第三結果。接著，再根據所有產生之結果，也就是該第一結果、該第二結果和該第三結果，產生該分析結果。換言之，該分析結果=(所有產生結果的總和)/(所有產生結果的數量)=(該第一結果+該第二結果+該第三結果)/3。

請參閱圖8所示，在本發明另一實施例中，當該執行裝置200的該處理模組40執行步驟S240時，該處理模組40係執行以下步驟：

步驟S240A：判斷該開始分析按鈕是否被觸發。當判斷該開始分析按鈕未被觸發時，執行步驟S240A。

步驟S240B：當判斷該開始分析按鈕被觸發時，透過該聲音比對模型一起比對該待分析資料中該第一錄音資料和該第一聲音資料的相似度、該待分析資料中該第二錄音資料和該第二聲音資料的相似度以產生該分析結果。

換句話說，本實施例利用該聲音比對模型一次一起比對分析該第一錄音資料和該第一聲音資料的相似度以及該第二錄音資料和該第二聲音資料的相似度，以僅使用該聲音比對模型產出一綜合結果為該分析結果。

在本發明之該第一語詞資訊所包括的該第三單字，以及對應該第三單字的該第三發音按鈕和該第三錄音按鈕的又另一實施例中，當該第三錄音按鈕被觸發時，透過該音訊模組20錄製對應該第三單字的該第三錄音資料，並根據該第三錄音資料更新該待分析資料。並且，當判斷該開始分析按鈕被觸發時，同前述實施例之邏輯，即透過該聲音比對模型一起比對該待分析資料中該第一錄音資料和該第一聲音資料的相似度、該待分析資料中該第二錄音資料和該第二聲音資料的相似度、以及該待分析資料中該第三錄音資料和該第三聲音資料的相似度以綜合產生該分析結果。

該分析結果包括一正常音相似度和複數異常音相似度，且該正常音相似度和該些異常音相似度各為透過該聲音比對模型產生的一百分比。該百分比可數值化的表示該使用者的發音是否正常，也就是綜合該第一錄音資料是否近似於該第一聲音資料、該第二錄音資料是否近似於該第二聲音資料和該第三錄音資料是否近似於該第三聲音資料的分析結果。當該正常音相似度為0%時即代表完全不相似，而該正常音相似度為100%時即代表完全相似一致。

詳細來說，本發明具進一步根據該記憶模組30存有的一正常音相似度閾值資料以產生對該正常音相似度不同的解讀。當根據該正常音相似度閾值資料判斷該正常音相似度大於85%時，即判斷該使用者具有輕度之語言障礙。當判斷該正常音相似度大於或是等於65%且小於或是等於85%時，即判斷該使用者具有輕中度之語言障礙。當判斷該正常音相似度大於或是等於50%且小於或是等於64%時，即判斷該使用者具有中重度之語言障礙。當判斷該正常音相似度為小於85%時，即判斷該使用者具有重度之語言障礙。根據對該正常音相似度不同的解讀，本發明產生一語言障礙解讀資料存入該記憶模組30中。

請參閱圖9所示，在執行完步驟S240後，本發明之該處理模組40進一步執行該執行程序S200之以下步驟：

步驟S250：透過該顯示模組10顯示該分析結果的該正常音相似度和該些異常音相似度。

步驟S260：根據該正常音相似度閾值資料解讀該正常音相似度，以產生該語言障礙解讀資料。

該些異常音相似度，詳細來說，可細分為一塞音化相似度、一母音化相似度、一母音省略相似度、一舌前音化相似度、一舌根音化相似度、一不送氣音化相似度、一聲隨韻母相似度、一邊音化相似度、一齒間音相似度、一子音省略相似度、一擦音化相似度、一介音省略相似度、一塞擦音化相似度和一複韻母省略相似度等數值。當該執行裝置200的該處理模組40執行步驟S240時，本發明即可透過該聲音比對模型，也就是使用經訓練後之該人工智慧模型，分析該些異常音相似度的數值分布組成為何。當該些異常音相似度百分比越高時，即代表根據該聲音比對模型的分析，越有較高的機率面臨發音上的對應困境。例如，當該塞音化相似度為99%且該擦音化相似度為1%時，該使用者發音異常有極高的機率為面臨塞音化的發聲問題，而只有極小的機率為面臨擦音化的發聲問題。

在本實施例中，當該些異常音相似度中的部分組成相似度為零時，則省略顯示其0%之組成於該顯示模組10。舉例來說，假設經一次的分析，該使用者的該塞音化相似度為0.56%、該舌根音化相似度為1.95%、該聲隨韻母相似度為0.31%、該塞擦音化相似度為91.17%，而其餘之該母音化相似度、該母音省略相似度、該舌前音化相似度、該不送氣音化相似度、該邊音化相似度、該齒間音相似度、該子音省略相似度、該擦音化相似度、該介音省略相似度和該複韻母省略相似度都為0%，則該顯示模組10僅顯示百分比大於0%的具代表性的該塞音化相似度、該舌根音化相似度、該聲隨韻母相似度和該塞擦音化相似度。

在本發明另一實施例中，本發明之該執行裝置200執行步驟S260後，進一步將該待分析資料和該分析結果通過該通訊模組50回傳至該訓練裝置100，以回饋一次分析之相關資料。該訓練裝置100可根據回饋之該待分析資料和該分析結果而檢視和調整該人工智慧模型，藉以有更多之數據做為未來訓練該人工智慧模型的教材。

請參閱圖10所示，圖10示意了該執行裝置200之該顯示模組10顯示的畫面，且本發明之該語音矯正輔助方法以一應用程式(Application；APP)實現。

圖10中，該顯示模組10顯示了一開始畫面10A。該開始畫面10A中包括一下載選項2和一開始測驗選項3。當該下載選項2受到選擇時，即執行步驟S201，並且下載的進度由一進度百分比1所顯示。

請參閱圖11所示，當該開始測驗選項3受到選取後，本發明跳出了該開始畫面10A而進入一測驗畫面10B。該測驗畫面10B中，該顯示模組10顯示了該第一圖像資訊4和對應該第一圖像資訊4的該第一語詞資訊5，即為布丁。其中，該第一語詞資訊5的該第一單字5A為布丁的布字，而該第一語詞資訊5的該第二單字5B為布丁的丁字。該顯示模組10也顯示該第一單字5A所對應的該第一發音按鈕5AS和該第一錄音按鈕5AMic，以及該第二單字5B所對應的該第二發音按鈕5BS和該第二錄音按鈕5BMic。該第一圖像資訊4的下方為一第二圖像資訊6，而該第二圖像資訊6為一青菜。該第一圖像資訊4的布丁和該第二圖像資訊6的青菜為同樣的道理，即協助該使用者分析和矯正咬字發音的不同物件。另外，該顯示模組10顯示了一開始分析選項7。當該開始分析選項7受到選取後，即停止取樣，而根據目前所有的錄製聲音樣本作分析。

在本發明另一實施例中，當該開始測驗選項3受到選取後，本發明係跳出了該開始畫面10A後先進入一仿說畫面，而後才跳至該測驗畫面10B。該仿說畫面中顯示複數仿說字眼，以協助該使用者進行仿說。該些仿說字眼例如「阿」和「1、2、3、4、5、6、7、8、9、10」等。此目的為希望能誘導該使用者習慣閱讀該顯示模組10顯示之字眼，以利而後進入該測驗畫面10B後錄音該使用者說話的品質能後更好，也就是以利透過該音訊模組20錄製對應該第一單字的該第一錄音資料和對應該第二單字的該第二錄音資料能夠因該使用者習慣閱讀後而品質更好、以錄製該使用者更趨正常放鬆情況下所做出的發音。

請參閱圖12所示，當該開始分析選項7受到選取後，本發明跳出了該測驗畫面10B而進入一分析結果畫面10C。該分析結果畫面10C中，該顯示模組10顯示了該分析結果，即顯示一第一項目8N以及其對應的該正常音相似度8，以代表該使用者所錄製的該待分析資料和正常發音約99.11%相似。

該顯示模組10進一步顯示了複數異常發音資訊和對應的該些異常音相似度。該顯示模組10顯示了一第一異常發音資訊8AN和對應的該塞音化相似度8A、一第二異常發音資訊8BN和對應的該舌根音化相似度8B、一第三異常發音資訊8CN和對應的該聲隨韻母相似度8C、一第四異常發音資訊8DN和對應的該塞擦音化相似度8D。

該顯示模組10進一步顯示一儲存和上傳選項9和一下一頁選項11。當該儲存和上傳選項9受到選取時，該處理模組40即通過該通訊模組50連接的該加密網路上傳該待分析資料以及該分析結果至一雲端資料庫做紀錄。另外，當該顯示模組10顯示的該些異常發音資訊不夠顯始於一頁面時，該下一頁選項11即可受到選擇而更新顯示頁面為下一頁，以繼續顯示其餘之該些異常發音資訊。

請參閱圖13所示，當該儲存和上傳選項9受到選取後，本發明跳出了該分析結果畫面10C而進入一輔導資訊畫面10D。該處理模組40通過該通訊模組50下載了複數健康常識資訊12，而在該輔導資訊畫面10D中，該處理模組40通過該顯示模組10顯示該些健康常識資訊12和一結束選項13。該顯示模組10顯示的該些健康常識資訊12能協助該使用者增加常識，以使該使用者了解該些異常發音資訊8AN、8BN、8CN、8DN所代表的意義。例如，塞擦音化的異常發音即可能源自於某發音部位的發聲過程出現了某一種的錯誤。當該使用者了解該些異常發音資訊8AN、8BN、8CN、8DN所代表的意義後，該使用者更能了解如何糾正發音錯誤的問題。例如，因為該使用者的該塞擦音化相似度8D為91.17%非常高之百分比，所以代表該使用者面臨了發音上塞擦音化的較大困難，因此比起其他的發音問題，塞擦音化的問題需要優先受到改善。如此，本發明除了可以使該使用者受到矯正發音的輔助，更能提供該使用者參考性的分析數據做矯正發音的紀錄。

當該結束選項13受到選取後，本發明即跳出該輔導資訊畫面10D而回到該開始畫面10A，即結束一次錄製和分析聲音相似度的所有流程而回到該開始畫面10A待命下一次流程的開始。當該開始畫面10A中的該開始測驗選項3受到選取後，即開始新一次錄製和分析聲音相似度的流程。

本發明提供一家長協助患有語言障礙的一孩童矯正發音的一輔助工具。本發明的該使用者可為該家長和該孩童，並由該家長負責操作本發明之該人機互動模組60，而由可能有語言障礙問題的兒童觀看該第一圖像資訊4和對應該第一圖像資訊4的該第一語詞資訊5、聆聽對應該第一單字5A的該第一聲音資料、和錄製對應該第一單字5A的該第一錄音資料。當本發明撥放該第一單字5A的該第一聲音資料和呈現該第一圖像資訊4時，孩童將可以聊解如何正確發音。當本發明錄製對應該第一單字5A的該第一錄音資料，並且產生該分析結果後，該家長能夠透過機器的協助了解孩童的發音是否正確。進一步來說，當多次使用本發明錄製該第一錄音資料和產生該正常音相似度8後，該家長能夠透過本發明的分析和長時間紀錄成果，協助了解孩童的發音是否出現進步，即了解該第一聲音資料和該第一錄音資料的相似度是否越來越趨近相似，或是該第一聲音資料和該第一錄音資料的相似度以及該第二聲音資料和該第二錄音資料的相似度的綜合相似度是否越來越趨正常。當該正常音相似度8的百分比越來越高時，即代表孩童的發音越來越正確。

當該顯示模組10顯示該分析結果後，由該家長一併綜合該顯示模組10顯示的該些健康常識資訊12協助該孩童正確練習咬字發音，並且由該家長提供本發明之紀錄給一語音治療師做該孩童發音的參考性的輔助資料。

S100:訓練程序

S200:執行程序

S210、S220、S230、S240:步驟

Claims

一種語音矯正輔助方法，包括：一執行程序，係由一執行裝置的一處理模組所執行，且包括以下步驟：a.透過該執行裝置的一顯示模組顯示一開始分析按鈕、一第一圖像資訊以及對應該第一圖像資訊的一第一語詞資訊，並且顯示該第一語詞資訊所包括的一第一單字，以及對應該第一單字的一第一發音按鈕和一第一錄音按鈕；b.當判斷該第一發音按鈕被觸發時，透過該執行裝置的一音訊模組撥放一語音樣本資料中對應該第一單字的一第一聲音資料；c.當判斷該第一錄音按鈕被觸發時，透過該音訊模組錄製對應該第一單字的一第一錄音資料，並根據該第一錄音資料產生一待分析資料；d.當判斷該開始分析按鈕被觸發時，比對該待分析資料和該第一聲音資料的相似度以產生一分析結果；和一訓練程序，係由一訓練裝置所執行，且該訓練程序包括以下步驟：A.使用一訓練資料訓練一人工智慧模型以建立一聲音比對模型；B.將該聲音比對模型傳送至該執行裝置；其中，該第一語詞資訊包括一第二單字；其中，當執行步驟a時，進一步顯示該第一語詞資訊所包括的該第二單字，以及對應該第二單字的一第二發音按鈕和一第二錄音按鈕；其中，該執行程序於步驟d之前，進一步包括以下步驟：c1.當判斷該第二發音按鈕被觸發時，透過該音訊模組撥放該語音樣本資料中對應該第二單字的一第二聲音資料；c2.當判斷該第二錄音按鈕被觸發時，透過該音訊模組錄製對應該第二單字的一第二錄音資料，並根據該第二錄音資料更新該待分析資料；其中，該待分析資料包括該第一錄音資料和該第二錄音資料；其中，當執行步驟d時，係在判斷該開始分析按鈕被觸發時，執行以下步驟：d1.透過該聲音比對模型比對該待分析資料中該第一錄音資料和該第一聲音資料的相似度以產生一第一結果；d2.透過該聲音比對模型比對該待分析資料中該第二錄音資料和該第二聲音資料的相似度以產生一第二結果；d3.根據該第一結果和該第二結果產生該分析結果；其中，該分析結果包括塞音化、母音化、母音省略、舌前音化、舌根音化、不送氣音化、聲隨韻母、邊音化、齒間音、子音省略、擦音化、介音省略、塞擦音化或是複韻母省略之相似度判斷結果。
如請求項1所述之語音矯正輔助方法，其中：步驟d3係平均該第一結果和該第二結果以產生該分析結果。
如請求項1所述之語音矯正輔助方法，其中：當執行步驟d時，係在判斷該開始分析按鈕被觸發時，透過該聲音比對模型一起比對該待分析資料中該第一錄音資料和該第一聲音資料的相似度、該待分析資料中該第二錄音資料和該第二聲音資料的相似度以產生該分析結果。
如請求項1所述之語音矯正輔助方法，其中：該分析結果包括一正常音相似度和複數異常音相似度，且該正常音相似度和該些異常音相似度各為透過該聲音比對模型產生的一百分比；該些異常音相似度包括一塞音化相似度、一母音化相似度、一母音省略相似度、一舌前音化相似度、一舌根音化相似度、一不送氣音化相似度、一聲隨韻母相似度、一邊音化相似度、一齒間音相似度、一子音省略相似度、一擦音化相似度、一介音省略相似度、一塞擦音化相似度或是一複韻母省略相似度。
如請求項1所述之語音矯正輔助方法，其中：該訓練資料包括複數小孩聲音檔；當執行程序A時，係透過一音調位移步驟、一時間位移步驟、一速度縮放步驟、一增加音量步驟和一增加白噪音步驟訓練該人工智慧模型；該音調位移步驟係將各該些小孩聲音檔之音訊音調分別上下調整一調整半音數以訓練該人工智慧模型；該時間位移步驟係將各該些小孩聲音檔之音訊時間軸隨機平移一平移時間以訓練該人工智慧模型；該速度縮放步驟係將各該些小孩聲音檔之音訊速度隨機縮放一調速百分比以訓練該人工智慧模型；該增加音量步驟係將各該些小孩聲音檔之音訊聲量加大以訓練該人工智慧模型；該增加白噪音步驟係將各該些小孩聲音檔之音訊添加一環境噪音以訓練該人工智慧模型。
如請求項1所述之語音矯正輔助方法，其中：該訓練資料包括複數大人聲音檔和複數小孩聲音檔；當執行程序A時，係透過一梅爾頻譜步驟訓練該人工智慧模型；該梅爾頻譜步驟係將各該些大人聲音檔和各該些小孩聲音檔時頻轉換後，擷取複數訊號窗口內的頻段音訊，並且將該些訊號窗口內的頻段音訊過濾後，再次時頻轉換，並用以訓練該人工智慧模型。
如請求項6所述之語音矯正輔助方法，其中：當將該些訊號窗口內的頻段音訊過濾時，係透過一濾波器組(FBank)來過濾該些訊號窗口外的雜訊；該濾波器組為一數位濾波器組，且該濾波器組所濾波的頻率可受到該訓練裝置的設定。
一種語音矯正輔助系統，包括：一訓練裝置，執行如請求項1至7中任一項所述之語音矯正輔助方法的訓練程序；一執行裝置，包括：一顯示模組；一音訊模組；一記憶模組，存有一第一圖像資訊和對應該第一圖像資訊的一第一語詞資訊、以及一語音樣本資料；其中，該第一語詞資訊包括一第一單字，且該語音樣本資料包括對應該第一單字的一第一聲音資料；一處理模組，分別電連接該顯示模組、該音訊模組和該記憶模組；一通訊模組，電連接該處理模組，連接一網路以通訊連接該訓練裝置；其中該處理模組執行如請求項1至7任一項所述之語音矯正輔助方法的執行程序。