TWI719699B

TWI719699B - 人工智慧輔助說好話的方法

Info

Publication number: TWI719699B
Application number: TW108139879A
Authority: TW
Inventors: 徐佳銘; 劉柄麟; 陳昭浤; 陳建銘
Original assignee: 建國科技大學
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2021-02-21
Also published as: TW202119390A

Abstract

一種人工智慧輔助說好話的方法，主要透過於一處理裝置中建置有一專家系統，處理裝置可供接收一發話者的溝通訊息，而專家系統包括有基於規則模式的陳條方式建立之專家知識資料庫、語音資料庫、影像資料庫、文字資料庫、分析辨識軟體及語音合成軟體，並以分析辨識軟體讀取專家知識資料庫及相對應的語音資料庫、影像資料庫或文字資料庫，且透過條列式比對規則方式來分析、辨識溝通訊息之原意，再以語音合成軟體進行不失原意的刪除虛詞修飾、維持腔調特徵的調變、更換為較易懂的優雅詞句、語音清晰之修飾程序後輸出，而能自動處理好人際間交談的口語、手語、唇語、文字、表情等意思及思想，使聽者能愉悅地聽懂、看懂不善表達的發話者的原意。

Description

人工智慧輔助說好話的方法

本發明係有關一種可透過AI APP對發語者語音作不失原意的刪除虛詞修飾、維持腔調特徵的調變、更換較易懂的優雅詞句、語音清晰修飾之人工智慧輔助說好話的方法。

聽障、視障、語障、弱智等殘障人士目前與人溝通的方法大多用手語、唇語或口語，由於生理或心理因素必須使用輔具時，可選擇利用的器具很少，僅助聽器/耳機、麥克風、螢幕等，而這些輔具因為沒有智慧化而助益不大。

再者，非肢體傷殘的殘障人士，例如視障、聽障、語障、弱智者，由於自己無法充分表達腦中所想，外人難以聽懂或看懂他的真正意思，以致溝通不良，經常引起不必要的誤會，累積日久心理產生不平衡，因而憤世嫉俗與大眾隔閡，進而產生社會問題。此種現象目前並無可行方法或科技加以改善。

雖然特殊教育學校有教手語，可使有語言障礙及聽覺障礙的人士有表達其個人思考及了解他人思考的管道方法，但是一般文明道德、法律等抽象概念很難用手語表達，故殘障人士較一般人學習領悟緩慢，易因不了解或誤會而犯法或得罪人，造成社會問題。況且，一般人通常不會去學手語，因此語障、聲障人士與正常人的溝通相當不容易，要幫助殘障人士改善人際關係，目前並無有效方法與工具。

此外，學校雖有語文課及說話課教學生使用優雅文明的詞句及練習與他人交談，但是許多人的講話還是低水準，有人講話口齒不清，有人講話帶有濃厚鄉音土語，語音含糊口吃者有之，語詞粗鄙者有之，詞不達意者有之，語音聒噪難聽者有之，言語重複粗鄙含口頭禪者有之，故交談時經常話不投機，乃至發生糾紛而禍從口出者所在多有。目前並無讓人講話變得簡潔易懂、文辭優雅，聲音變得悅耳的技術與方法，來使說話內容與語音水準即時提升。

不同音源聲音的調和(和諧音)技術，已經很早就廣泛應用於音樂方面，現代電腦作曲更非用不可。而人與人之間的交談目前都是隨機隨緣，交談者因語音不調和而話不投機者所在多有，因此不論談什麼，都不會有好結果，因而失和者更不計其數，故語音調和對人際關係與工作業務順利非常重要。但是至今尚未見利用調變匹配和諧語音的合成技術應用於人與人的交談方面，來使人際關係良好，業務推廣順利，相當可惜。

盲、聾、啞、弱智等殘障弱勢人士，不論先天或後天的原因，大都缺乏廣泛的世面閱歷，人際關係也都不太好，他們的聽、說、讀、寫的知識學習較一般人困難，故可運用的優雅詞句及迎合他人的說話術不足，目前除了要求在特殊教育學校學習的學生努力學習外，社會上其他殘障人士並無可幫他們談吐優雅，令人樂於與它們交談的良方。

目前各地雖設有公私立特殊教育學校，甚至一般學校有些也設有殘障特殊教育班，但是因為沒有良好的「說好話」相關工具，殘障人士如要改善人際關係融入社會正常活動，發揮其聰明才智，尚須借助AI整合科技「說好話」工具來達成。

現今大家所使用的電話已逐漸從有線(固網)電話轉為無線手機，甚至使用網路視訊電話，但是一般電話使用者並沒有隨硬體軟體進步而進步，電話語音聽不清楚就大聲回話，語音模糊者仍然說話不清不楚，說話沒禮貌言語粗俗者說出的話照舊容易引起誤會，有口吃者還是講話結結巴巴，講話聲音難聽者照樣讓人聽了不舒服，…。既然電話使用者的習慣難改善，只好運用科技來解決。

本發明的主要目的，在於解決上述的問題而提供一種人工智慧輔助說好話的方法，利用整合人工智慧應用軟體(AI APP)及智慧型手機(包含電腦)及其附屬周邊硬體，將數位攝錄影機擷取之影像及麥克風擷取的語音，分別以內含專家知識的影音分析與辨識應用軟體，在手機中進行對發話者及對談者的語音或手勢肢體動作分析與辨識，以確認其語音特徵及語意。且所有回話內容則先經過專家系統修辭，回話語音先做修飾後，依對談者的語音特徵調配出可使聽者愉悅但不失原意的調和聲調(Harmonic Voice)，自智慧型手機的擴音器播出，或由藍牙無線傳播，亦可用視訊方式自螢幕播出。除面對面相談外，此種方法亦可用於有線或無線電話及視訊電話，使人際溝通智慧化零缺點。

本發明之方法主要為解決視障（眼盲）、聽障（耳聾）、語障（啞巴）及弱智等殘障人士與人溝通之困難問題而設想，但亦可通用於一般人講話含糊不清，有口吃，帶口頭禪，言語粗俗無文之改善；甚至可避免未經仔細思考即說出口(貧嘴、說溜嘴)，以致傷己傷人，而禍從口出。使社會大眾能針對聽者講出好內容、好詞句、好聲音、進行清楚易懂且令人愉悅的溝通。

為達前述之目的，本發明提供一種人工智慧輔助說好話的方法，其步驟包含有：ａ．利用一處理裝置之輸入單元接收由一發話者輸出的溝通訊息，該處理裝置內建有一專家系統，該專家系統包括有基於規則模式(Rule-Based)的陳條(Statements)方式建立之專家知識資料庫、語音資料庫、影像資料庫、文字資料庫、分析辨識軟體及語音合成軟體；ｂ．以該分析辨識軟體讀取該專家知識資料庫及相對應的語音資料庫、影像資料庫或文字資料庫，並以條列式比對規則方式來分析、辨識該溝通訊息之原意，再以該語音合成軟體進行不失原意的刪除虛詞修飾、維持腔調特徵的調變、更換為較易懂的優雅詞句、語音清晰之修飾程序；ｃ．將經該語音合成軟體修飾後之溝通訊息透過一輸出單元輸出予一受話者。

較佳地，該專家系統更整合有一通訊單元，該通訊單元由可供傳輸資訊之有線、無線網路或藍芽通訊之界面設備構成，並可用以將經該專家系統修飾後的溝通訊息傳遞至一位在遠端的受話者的擴音器/喇叭、耳機、顯示螢幕，且亦可將該受話者的回話訊息傳遞至該專家系統中進行相同的音調合成修飾程序。

而本發明之上述目的與優點，不難從下述所選用實施例之詳細說明與附圖中獲得深入了解。

首先，有關本發明所指「說好話」的定義是人際間交談的話語符合下列條件者: 1.講話內容無虛字、無虛詞、無口頭禪，言之有物。 2.說話無模糊語音或難懂方言鄉音，聲音清楚易懂。 3.說話中所用詞句及文法與發話及收聽者身分適當，言語優雅，無惡言，沒失言。 4.聲音音量及音色能與對談者之語音匹配成調和聲調播出，使聽者愉悅。講話隨時隨地都能符合上述條件的人絕少，因此只能透過類如利用整合AI APP 於智慧型手機或電腦等處理裝置的科技方法來達成。

而如第1圖所示，本發明所提供之人工智慧輔助說好話的方法，主要係利用整合儲存於一處理裝置10的人工智慧應用軟體(AI APP)所構成之專家系統(Expert System)21以執行其說好話的音調合成修飾程序，其中：

該處理裝置10，可由智慧型手機或電腦所構成，該處理裝置10並分別與一輸入單元11及一輸出單元12電性連結。該輸入單元11可由數位攝影機、麥克風/微音器、觸控筆/觸控板/觸控螢幕等周邊硬體設備構成，而可用以接收由一發話者輸出的溝通訊息（包含語音、手勢動作、唇語動作及臉部表情、文字等溝通訊息），以供該專家系統21可進行後續的音調合成修飾程序。該輸出單元12則可由擴音器/喇叭、耳機、顯示螢幕等周邊硬體設備構成，以可直接輸出經該專家系統21修飾過後的溝通訊息。

該專家系統21，包括有基於規則模式(Rule-Based)的陳條(Statements)方式建立之專家知識資料庫22、語音資料庫23、影像資料庫24、文字資料庫25、分析辨識軟體26及語音合成軟體27之自動控制操作軟體，且該專家系統21更整合有一通訊單元28，且該通訊單元28由可供傳輸資訊（同樣可包含語音、手勢動作、唇語動作及臉部表情、文字等溝通訊息）之有線、無線網路或藍芽通訊之界面設備構成，並可用以將經該專家系統21修飾後的溝通訊息傳遞至一位在遠端的受話者的擴音器/喇叭、耳機、顯示螢幕，且亦可將該受話者的回話訊息傳遞至該專家系統21中進行相同的音調合成修飾程序。該專家系統21為一建置於智慧型手機或電腦中的人工智慧執行軟體，能以智慧型手機或電腦看的懂得形式將所需的專家知識儲存起來，並加入控制策略（Control strategy），使電腦能像專家一樣，利用這些知識和經驗法則來解決問題。也就是說，專家系統21是一個知識庫（Knowledge-based）程式，可用來解決特定領域（Specific domain）問題，並且能提供像人類專家一樣「專業水準」的解答。且該專家系統21基於規則模式(Rule-Based)的陳條(Statements)方式，以建立其條列式比對規則，該專家系統21可透過智慧型手機或電腦之處理核心執行特定的軟體編程，以達成特定的功能，而當然包括本發明所指的分析辨識及音調合成修飾的操作。

而該專家知識資料庫22用以儲存有語音、影像、手勢、文字等之比對規則與對應意義，以及不同等級之同義字同義詞列表語與同義字更換規則等；該語音資料庫23用以儲存語音聲調、語意及特徵資料；該影像資料庫24用以儲存特定人及非特定人手勢及相對應之文字與語意；該文字資料庫25用以儲存特定人及非特定人文字、語意及特徵資料；該分析辨識軟體26可對輸入的溝通訊息進行語音分析、影像分析、動作分析、表情分析、語音／聲調特徵辨識、語意辨識、手勢及文字辨識，而針對語音類的溝通訊息更可進一步進行音紋音色（聲調）、頻率、振福、音量變化、速度變化分析；該語音合成軟體27則具有可依據該分析辨識軟體26之分析資訊，並結合相對應資料庫以產生清晰悅耳優雅之合成調和語音(Harmonic voice)，但仍保有原發話者的語音特徵，使收聽者或對談人可以辨識發話者是誰的功能。

透過該分析辨識軟體26讀取該專家知識資料庫22及相對應的語音資料庫23、影像資料庫24或文字資料庫25，並以條列式比對規則方式來分析、辨識該溝通訊息之原意，再以該語音合成軟體27進行不失原意的刪除虛詞修飾、維持腔調特徵的調變、更換為較易懂的優雅詞句、語音清晰之音調合成修飾程序。其中，該語音合成軟體27可透過建立聲道模型來予以編碼，且為了保持腔調特徵（即音色timbre）不變，因此調變前後聲音參數各別對應的頻譜包絡曲線需保持相同。

接著請搭配第2、3圖所示，本發明所提供人工智慧輔助說好話的方法，其作用與步驟流程如下：

Ａ．首先，發話者以口語、手語、唇語、文字書寫等表達其思想信息的方式發出一溝通訊息，並以該輸入單元11接收該溝通訊息，其中當溝通訊息為語音時，由一麥克風所構成的輸入單元11接收發話者的口語語音；而當該溝通訊息為一文字或動作（例如手語、唇語）時，則由一攝影機所構成的輸入單元11拍攝手語手勢動作、唇語臉部及肢體動作及文字影像。

Ｂ．接著該處理裝置10之分析辨識軟體26讀取該專家知識資料庫22及相對應的語音資料庫23、影像資料庫24或文字資料庫25，並以條列式比對規則方式來分析、辨識該溝通訊息之原意，以可就所接收的溝通訊息進行分析(頻率及其變化、振幅及其變化、音量大小及變化快慢等)，辨識發話者之語意、音色、腔調特徵、重復的無意義話語等，並將所獲原始發話者之語音資訊存入語音資料庫23，再以該語音合成軟體27對原始語者語音進行不失原意的刪除虛詞修飾、維持腔調特徵的調變、更換較易懂且與收聽者知識水平相當的優雅詞句、語音清晰修飾等之音調合成修飾程序。

Ｃ．最後將這些變更經該處理裝置10之輸出單元12或通訊單元28播出給受話者或收聽者，同時將這些變更與原始未變更資訊存入語音資料庫23。

且更進一步地，在上述溝通訊息是透過該通訊單元28傳遞給一遠端的受話者時，該受話者(即回話者、對談者)的語音回話亦可經由該通訊單元28傳回該專家系統21，使其回話一可進行相同的辨識與音調合成修飾程序處理後，再自該語音資料庫23取得原始語者的語音特徵，以專家知識資料庫22中取得的對應調和聲調播出，同時將此對應調和聲調存入專家知識庫22。

如此一來，對談雙方都可以用自己習用的語詞、腔調、談話速度等習慣正常交談，不必顧慮對方是否聽懂。好像是一種高級智慧型口語語言翻譯機，除具有語言對譯功能外，更具有口語/手語對譯功能，特殊的是所譯出的詞句能依對談雙方不同知識水平更換，而給予不同程度的優雅語言(好話)；更在保留原來說話者的語音特徵下，以語音合成軟體27產生與聽話者的語音調和的聲調播出，使聽者收聽愉悅。

而在實際應用上，該處理裝置10可由一智慧型手機所構成，並透過其附屬麥克風(即輸入單元11)擷取發話者的語音，先行靜音，再對發話者模糊的語音、重複(口吃)的語音、口頭禪、虛字虛詞及不雅語句等，以內建的專家知識作刪除更正處理，並將說話內容所用字詞以適合語者及聽者身分的較優雅的字詞更換，然後以雙方的語音聲調用專家知識產生清晰悅耳優雅之合成調和語音(Harmonic voice)輸出，但仍保有原發話者的語音特徵，使收聽者或對談人可以辨識發話者是誰，並藉此即可構成一種幫助聽障者聽到好話及幫助語障者話說好話的智慧型「語言輔助器」。

再者，亦可將自現場以攝錄影機(即智慧型手機之攝錄影鏡頭)擷取，或自網路傳來的手語(唇語)視訊影像自動轉換為語音，並以聽者個人或大眾能愉悅收聽的適當詞句、腔調、說出快慢適中、音量大小恰當等現有智慧型手機無法完全表達的調和語音播出者。即一種智慧型手語/語音轉換系統，具有以專家知識調整適合發話者身分與收聽者知識水平之詞句，更能針對聽者播出調和(和諧)語音，超越完整表達手語(唇語)者原意之功能者。

且較佳地，該專家系統21之專家知識資料庫22、語音資料庫23、影像資料庫24、文字資料庫25中所儲存有關手語、唇語、口語相關的專家知識，以及其分析辨識軟體26及語音合成軟體27係以一專用晶片內建於處理裝置10（例如手機或電腦）中，以便快速平行處理交談語音，並藉此不會感覺到交談者反應遲緩，而得實時(Real time)之效果者。而上述專用晶片可以製成隨身碟或SIM卡之型式，插入該處理裝置10的一擴充埠後，即可使該處理裝置10具有說好話之功能者。

此外，該處理裝置10亦可由一般電話或視訊電話所構成，並利用專家系統21對經有線或無線網絡傳來的語音或手語視訊，執行分析與辨識其語意與語音特徵，將其轉換為可視可聽之資訊，其內容更由專家系統21作修辭與刪除虛字虛詞等容易聽懂看懂的修飾，並作適合受話者身分及知識水平的同義字與同義詞更換，然後再以合成方法依發話者與收聽者的語音特徵造出調和語音，據以將通話內容播出。回話時，亦依此方法送出經過處理的「好話」。且在接聽電話時，亦可以自動將打來的電話語音中的虛字虛詞、口頭禪、不雅不良用語等先行過濾刪除，然後對語音模糊、語意不清、帶濃厚鄉音土語者進行清晰化處理，接著依接聽者的用語知識水平更換來話用語語詞，即更換為接聽者易懂又優雅的通順語詞，再依來電者的聲調與接聽者的聲調匹配合成調和語音，從耳機播出。

又，該處理裝置10亦可直接由一內建有該專家系統21之麥克風構成，當演講者對麥克風講話時，即啟動先暫時靜音，同時對講話內容過濾刪除及清晰化處理，然後進行更換語詞及匹配調和聲調處理，再依環境狀況及聽講人數從一擴音器播出適當音量。其中環境狀況及聽講人數可用人工輸入，或在麥克風上裝微型攝影機，或由另一智慧型手機的攝影機取得資訊。

並經由上述說明可知，本發明利用以攝影機或麥克風擷取發話者的說話語音(口語)，手勢及肢體動作(手語)，或口唇動作與臉部表情(唇語)或文字圖形的語意資訊，並透過該專家系統21之分析辨識軟體26加以分析、辨識而得知發話者的原意與語音特徵，接著在專家系統21及該語音合成軟體27的輔助下，先將對談者透過麥克風的講話消音，再透過該語音合成軟體27改為經過修辭與聲調修飾，且針對原發話者的語音特徵作調和聲調(Harmonic voice)處理，即可在不失原意內容的悅耳語音下，實時(Real Time)自智慧型手機或電腦的擴音器(Speaker)播出，或經該通訊單元透過網路傳送至特定受話者，或不經語音輸出器具而直接以圖文顯示於顯示螢幕。

本發明利用AI整合科技工具，直接改正人類說出口的話語，把話語的內容及聲音改好，又使聽者聽起來愉悅的方法。此種方法主要用來幫助失明(盲人)、聽障(耳聾)、語障(啞巴)及弱智等殘障人士，使他們能以高水準的語詞與聲調來與人無誤地溝通，用以改善弱勢者的人際關係。此系統亦能幫助一般人正常人避免說出的無意義的口頭禪及不良語詞讓對話者聽到；而模糊不清的語音會被清晰化；粗俗不文明的語詞會被更換為較優雅高尚的話語；甚至說出來會傷人而禍從口出的語句，也都能變更說法而得以遮醜，從而使大眾因「說好話」「聽好話」而增進人際關係，促進社會祥和。

惟，以上各實施例之揭示僅用以說明本發明，並非用以限制本發明，故舉凡數值之變更或等效元件之置換仍應隸屬本發明之範疇。

綜上所述，當可使熟知本項技藝者明瞭本發明確可達成前述目的，實已符合專利法之規定，故依法提出申請。

10:處理裝置11:輸入單元 12:輸出單元21:專家系統 22:專家知識資料庫23:語音資料庫 24:影像資料庫25:文字資料庫 26:分析辨識軟體27:語音合成軟體 28:通訊單元

第1圖為本發明之系統架構方塊圖。第2圖為本發明之方法步驟流程圖。第3圖為本發明之作用示意圖。

10:處理裝置

11:輸入單元

12:輸出單元

21:專家系統

22:專家知識資料庫

23:語音資料庫

24:影像資料庫

25:文字資料庫

26:分析辨識軟體

27:語音合成軟體

28:通訊單元

Claims

一種人工智慧輔助說好話的方法，其步驟包含有：a．利用一處理裝置之輸入單元接收由一發話者輸出的語音訊息，該處理裝置內建有一專家系統，該專家系統包括有基於規則模式(Rule-Based)的陳條(Statements)方式建立之專家知識資料庫、語音資料庫、分析辨識軟體及語音合成軟體；b．該專家知識資料庫用以儲存有語音之比對規則與對應意義，以及不同等級之同義字同義詞列表與同義字更換規則，該語音資料庫用以儲存語音聲調、語意及特徵資料，該分析辨識軟體可對輸入的語音訊息進行語音分析、語音/聲調特徵辨識、語意辨識，以該分析辨識軟體讀取該專家知識資料庫及相對應的語音資料庫，並以條列式比對規則方式來分析、辨識該語音訊息之原意，以可就所接收的語音訊息進行分析，辨識發話者之語意、音色、腔調特徵、重復的無意義話語，並將所獲發話者之語音資訊存入語音資料庫，再以該語音合成軟體進行不失原意的刪除虛詞修飾、維持腔調特徵的調變、更換為較易懂的優雅詞句、語音清晰之音調合成修飾程序，其中，該語音合成軟體針對該語音訊息透過建立聲道模型來予以編碼，並透過調變前後聲音參數各別對應的頻譜包絡曲線保持相同，以維持腔調特徵不變；c．將經該語音合成軟體修飾後之語音訊息透過一輸出單元輸出予一受話者。
如請求項1所述之人工智慧輔助說好話的方法，其中，該專家系統更整合有一通訊單元，該通訊單元由可供傳輸資訊之有線、無線網路或藍芽通訊之界面設備構成，並可用以將經該專家系統修飾後的語音訊息傳遞至一位在遠端的受話者的擴音器/喇叭、耳機，且亦可將該受話者的回話訊息傳遞至該專家系統中進行相同的音調合成修飾程序。
如請求項2所述之人工智慧輔助說好話的方法，其中，該處理裝置可由一智慧型手機或電腦所構成，而該輸入單元由其附屬麥克風構成，利用其麥克風擷取發話者的語音，先行靜音，再以該語音合成軟體進行音調合成修飾程序後，以雙方的語音聲調用專家知識產生清晰悅耳優雅之合成調和語音(Harmonic voice)輸出。
如請求項1所述之人工智慧輔助說好話的方法，其中，該專家系統之專家知識資料庫、語音資料庫、分析辨識軟體及語音合成軟體以一專用晶片內建於該處理裝置中，而能快速平行處理該語音訊息，而得實時(Real time)之效果者。
如請求項4所述之人工智慧輔助說好話的方法，其中，該專用晶片可為一隨身碟或一SIM卡型式。
如請求項2所述之人工智慧輔助說好話的方法，其中，該處理裝置由電話或視訊電話所構成，並利用該專家系統對經有線或無線網絡傳來的語音視訊，執行分析與辨識其語意與語音特徵，將其轉換為語音資訊，其內容更由專家系統進行音調合成修飾程序後，依發話者與收聽者的語音特徵造出調和語音，並據以將通話內容播出。
如請求項2所述之人工智慧輔助說好話的方法，其中，該處理裝置由一內建有該專家系統之麥克風構成，當發話者對麥克風講話時，即啟動先暫時靜音，同時對講話內容過濾刪除及清晰化處理，然後進行更換語詞及匹配調和聲調處理，再依環境狀況及聽講人數從由一擴音器構成之輸出單元播出適當音量，所述環境狀況及聽講人數可用人工輸入，或在麥克風上裝微型攝影機，或由另一智慧型手機的攝影機取得資訊。