TWI722709B

TWI722709B - 智慧型聲音故事生成之方法及系統

Info

Publication number: TWI722709B
Application number: TW108145204A
Authority: TW
Inventors: 張譽騰
Original assignee: 東海大學
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2021-03-21
Also published as: TW202123188A

Abstract

本發明揭露一種智慧型聲音故事生成之方法及系統，係利用人工智慧判斷演算之方式辨識一故事文本，而推薦相應故事文本各屬性之聲音元素，進行聲音動態表現調整，並以數位音頻合成方式將各聲音元素進行合成，得搭配一使用者自訂角色之功能，產出一個人化/客製化聲音故事之功效，以提供使用者一方便友善且高品質聲音故事生成與使用需求，同時達到大幅降低製作成本之成效；並且，本發明所揭智慧型聲音故事生成之方法及系統能組構出數位內容媒體的創新商務模式，創造聲音故事的生成產出、使用、與推廣及銷售的產業價值，以達到有效推廣暨銷售聲音故事並建構相關數位聲音內容產業發展之功效。

Description

智慧型聲音故事生成之方法及系統

本發明係屬於文本辨識與聲音處理技術相關，特別是關於一種智慧型聲音故事生成系統及其方法。

按，一般有聲書的定義為用聲音(Audio)來表達文字內容的有聲媒體書籍，並透過合適之載具播放該有聲書，達到透過聆聽而知悉該文字內容的目的。常見有聲書所包含的範疇寬廣，例如：語言學習、兒童故事、電影、廣播劇及經典文學等，然其因為使用情境、使用者對象、內容聚焦與需求之不同，而有不同的架構、功能流程與變項，本發明係聚焦於智慧型聲音故事生成之方法及系統，涉及透過聲音來表現故事之有聲書(稱聲音故事(Audio Story))。傳統上，有聲書的錄製通常是在專業的錄音室或是個人工作室中完成，事先準備好腳本及內容，搭配選定合適之錄音人員(主配角與旁白)與音樂、特效，經過一錄製的過程，而完成該聲音故事媒體。但是，傳統有聲書的製作過程往往會衍生出以下幾個問題，亟需解決：第一、通常需要專業的錄音設備(專業收音麥克風與軟硬體配置)與錄音環境，一般使用者難以自行建置。

第二、通常需要尋求專業的錄音從業人員，且還要根據劇本內容聘請數個人力(包含主角、配角、旁白)，或是以一人分飾多角方式來錄製，一般使用者難以完成。例如：白雪公主的故事內有國王、新皇后、魔鏡、白雪公主、獵人、七個矮人、王子等主角，一般使用者難以獨自完成。

第三、通常需依各場景(典型如：開場、過場、結束)與情節需求，準備完善之媒體素材，包含各場景與情節所需之配樂、特效等等，勢必增加一般使用者的錄製困難度與成本。

根據研究，透過聆聽來獲取內容與學習，將有助於訓練聽力及組構有別於視覺型學習之認知體系學習系統，同時減少孩童過早及過長的螢幕接觸使用量。家長極期望能夠於市場上獲取優質聲音故事內容。然而實務上，一般使用者(如：家長們)欲自行生成優質的聲音故事，遇到了如上所述很大的困難；而傳統有聲書的廠商，也背負著高錄製成本(人力、素材、配樂、特效)的重大挑戰，是一亟需解決的重大問題。

是故，如何能提供一創新、使用友善且便於讓一般使用者(如：家長、老師、學生、或孩童等)就能自行完成聲音故事之方法及系統，並改善傳統有聲書錄製成本高昂、所費不貲的問題，將會是相關產業(如：數位內容媒體、數位教育產業)及其研發人員亟需思索解決之處。

有鑑於此，本發明之主要目的即係在提供一種智慧型聲音故事生成系統，係能夠演算分析所接收故事文本內容標的(Story Text Content)，並演算推薦相應於該故事文本各屬性之聲音元素(包含如各場景與情節所需之角色、音樂、特效等聲音元素)，而後以數位音頻合成方式將該些聲音元素合成為一聲音故事(Audio Story)檔案(例如：MP3、AAC、WAV等格式)，以提供使用者播放聆聽或下載使用，藉以提供使用者(如：一般家長、老師、學生、或孩童等)在僅提供故事文本內容的情況下，就能自行完成該聲音故事之創新服務，也能改善傳統有聲書錄製成本高昂之問題。

本發明之另一目的係提供一種智慧型聲音故事生成系統，係在提供使用者(如：一般家長、老師、學生、或孩童等)能在該聲音故事(Audio Story)中，擔任該故事文本各屬性聲音元素(包含如各場景與情節所需之角色、台詞、音樂、特效等聲音元素)之任一聲音元素，或上述各屬性聲音元素至少任二之組合(例如：可擔綱白雪公主故事內的國王角色、白雪公主角色、旁白、風聲、打鬥劍擊聲等聲音元素)，將個人獨特聲音特質融入該生成的聲音故事中，提供一個人化/客製化的聲音故事，彰顯該聲音故事的獨特性，使得每位使用者皆能透過本智慧型聲音故事生成系統製作出高品質且具獨特價值的聲音故事(例如：父親可以在白雪公主故事內擔綱國王角色，母親可擔綱打鬥劍擊聲，小朋友可以擔綱旁白等等)，將自身的聲音融入該生成的聲音故事內，得以提升認同感與透過故事來學習的教育成效。

本發明之次一目的即係在提供一種智慧型聲音故事生成系統，係能夠調整語音的輕重音、語速、語調及音色，以避免製作的聲音故事有不自然且生硬冰冷的語音之問題。

本發明之另一目的即係在提供一種智慧型聲音故事生成系統，其係能夠產生一可供播放、分享或/及下載之聲音故事檔案，並得收集一使用者或/及一接收者之使用互動資訊(例如：聲音故事之使用時間(Time)、使用頻率(Frequency)、播放(Play)、下載(Download)、關注(Follow)、訂閱(Subscribe)、分享(Share)、喜好(Like/Dislike)、意見(Comment)、評估(Evaluate)、評價(Ranking)等指標、或操作歷程(Use Log))，以作為數據分析與預測使用習慣之演算參數，而后依據該使用互動資訊進行演算而推薦一合適之聲音故事檔案予使用者或/及接收者，並得提供至少一種消費模式予該使用者或/及該接收者選擇(例如：試用方案、租用方案、買斷方案、單次付費、訂閱方案、長期使用方案、推薦回饋方案等)，且得接收該使用者或/及該接收者之指示而收取費用，藉以組構出數位內容媒體的創新商務模式，創造聲音故事的生成產出、使用、與推廣及銷售的產業價值，完善其價值鏈上的重要環節，同時也提供以聲音故事為基礎的數位教育通路，使得該創新商務模式之推廣、經營、與發展獲得整合優勢，有效率的建構出一種新型態的數位聲音內容媒體生成使用暨商務系統。

緣是，為達成上述之主要目的，本發明所提供智慧型聲音故事生成系統，包括一伺服暨儲存模組，用以控制、指揮、命令、管理本智慧型聲音故事生成系統及其下各模組，使其具備伺服器(Server)之伺服功能及資訊儲存功能以對使用者提供聲音故事生成服務，該伺服暨儲存模組具有一文本辨識資料庫，用以儲存文本內容資訊及其對應之聲音需求資訊，一聲音元素資料庫，用以儲存複數聲音元素資訊，其係分別對應一聲音需求資訊，一聲音錄音儲存資料庫，用以儲存外來聲音音訊及其對應之各該屬性聲音元素資訊；一文本內容輸入模組，自外部接收一故事文本內容標的；一智慧型文本分析模組，係搭配文本辨識資料庫將接收自文本內容輸入模組之故事文本內容標的進行演算分析比對，辨識出至少一聲音需求資訊及一時間軸資訊；一智慧型聲音推薦模組，具有一內建聲音元素提供單元，接收該聲音需求資訊，並經演算而自該聲音元素資料庫中篩選比對出符合該聲音需求資訊之一聲音元素資訊，一外來聲音音訊提供單元，得接收一選擇指令而依據該聲音需求資訊自該聲音錄音儲存資料庫獲得一外來聲音音訊，一智慧型聲音推薦單元，接收該聲音元素資訊及/或該外來聲音音訊，並結合該時間軸資訊，產出至少一推薦聲音結果；一聲音動態表現調整模組，係依據該推薦聲音結果搭配聲音需求資訊及該時間軸資訊提供一聲音調整資訊；一數位聲音合成模組，係將該推薦聲音結果及該聲音調整資訊進行數位音頻合成，從而產生一可供使用者播放或/及下載之聲音故事檔案。

其中，該聲音需求資訊係來自角色屬性訊息、台詞訊息、場景訊息、情節訊息、音樂訊息或/及特效訊息。

其中，該角色屬性訊息係包含有性別、年齡、職業、教育水準、地理區域、文化暨人格特質、價值觀、宗教信仰或其他與角色特質有關之訊息；台詞訊息係包含相對應於各該角色屬性於該文本內容中所與之對應之台詞；場景訊息係包含如森林、公園、城堡、宴會廳、體育場、賽車場、開場、過場、結束或其他相對應文本內容所辨識出的場景特徵資訊；情節訊息係包含如戰鬥、吵架、教訓或其他相對應文本內容所辨識出的情節特徵資訊；音樂訊息係基於文本內容及其角色屬性訊息、場景訊息、情節訊息而以之對應如歡樂、輕鬆、愉悅、欣喜、激動、熱情、樂觀、期待、充滿希望、高興、有信心、愛好、憂慮、擔心、害怕、不安、噁心、絕望、尷尬、憂鬱、悲傷、嘲笑、生氣、憤怒、敵對、厭惡、緊張、懸疑、震驚等音樂特徵資訊；特效訊息係基於文本內容及其角色屬性訊息、場景訊息、情節訊息而以之對應如打鬥聲、吵鬧聲、使用器物聲、發射器物聲、物體碰撞聲、尖叫聲、笑聲、哭聲、大自然聲音、環境背景聲等特效特徵資訊。

再者，該聲音元素資訊係包含有音樂訊息、語音訊息及特效音訊息等。

該文本內容輸入模組進一步得包含有一輸入裝置，例如觸控式螢幕、掃描器、鍵盤、滑鼠、照相機或其他可以將故事文本內容標的轉化為可被讀取之資訊的裝置。

該智慧型文本分析模組搭配文本辨識資料庫對該故事文本內容標的進行演算分析比對之方式係包含文字探勘、關鍵字擷取、場景辨識及情節辨識等方式，並自該故事文本內容標的辨識出至少一聲音需求資訊及一時間軸資訊。

該聲音調整資訊係用以調整該推薦結果中之該聲音元素資訊及/或該外來聲音音訊的輕重音、語速、語調及音色之間的權重比例。

其中，該聲音調整資訊係得由連結一輕重音權重資料庫(Stressed and Unstressed Weighting Database)、一語速權重資料庫(Speech Speed Weighting Database)、一語調權重資料庫(Tone Weighting Database)、一音色權重資料庫(Timbre Weighting Database)或其他與聲音調整參數相關資料庫進行演算而得者，或由一調整程式直接設定該聲音需求而得者。

再者，本系統係允許使用者任意選擇所欲扮演的角色，使用者可透過該外來聲音音訊提供單元自行錄製該外來聲音音訊，並得將該外來聲音音訊及其對應之文字資訊儲存於一聲音錄音儲存資料庫內。

該外來聲音音訊提供單元更包含有一自訂角色設定程式(Self-as-a-role Setting Program)，接收來自一使用者之一選擇指令，允許使用者擔任該故事文本中各屬性聲音元素(包含如各場景或情節所需之角色、台詞、音樂、特效等聲音元素)之任一聲音元素，或上述各屬性聲音元素至少任二之組合(例如：可擔綱白雪公主故事內的國王角色、白雪公主角色、旁白、風聲、打鬥劍擊聲等任一聲音元素或任二聲音元素之組合)；一錄音程式，係用以供使用者錄製該外來聲音音訊，儲存於聲音錄音儲存資料庫中，並得用以與該聲音元素資訊整合而生成含有使用者自選聲音之該推薦聲音結果。

為能使所生成之聲音故事能夠簡易地被使用或被播送，本發明所揭智慧型聲音故事生成系統係包含有一使用模組，自該數位聲音合成模組接收該可供播放或/及下載之聲音故事檔案，並將之傳送或/及播送至外部；其中，該使用模組係更可包含一互動單元，提供一使用者或/及一接收者所需互動介面與功能(例如：老師將所生成之聲音故事檔案分享給指定的學生播放或/及下載)，並得收集一使用者或/及一接收者之使用互動資訊(例如：聲音故事之使用時間(Time)、使用頻率(Frequency)、播放(Play)、下載(Download)、關注(Follow)、訂閱(Subscribe)、分享(Share)、喜好(Like/Dislike)、意見(Comment)、評估(Evaluate)、評價(Ranking)等指標、或操作歷程(Use Log))，以作為數據分析與預測使用習慣之演算參數；一推廣銷售單元，係依據該使用互動資訊進行演算而推薦一合適之聲音故事檔案予使用者或/及接收者，並得同時提供至少一種消費模式予該使用者或/及該接收者選擇(例如：試用方案、租用方案、買斷方案、單次付費、訂閱方案、長期使用方案、推薦回饋方案等)，並得接收該使用者或/及該接收者之指示而收取費用。

為進一步促進優質的聲音故事的生成，本發明還包括有一回饋模組，將該互動單元所收集之使用者或/及接收者之使用互動資訊及該推薦聲音結果與聲音調整資訊作為回饋資訊回傳至該伺服暨儲存模組、該智慧型文本分析模組、該智慧型聲音推薦模組、該聲音動態表現調整模組、及該使用模組內，以作為演算分析比對之參數，藉此能依使用需求改善演算參數與效能並推薦適合的聲音故事給使用者選擇之用。

本發明係進一步提供一種智慧型聲音故事生成方法，其包含有下列步驟：步驟A：接收一故事文本內容標的；步驟B：辨識該故事文本內容標的，係指經演算分析而辨識出該故事文本標的之至少一聲音需求資訊及一時間軸資訊；步驟C：取得該聲音需求資訊，以提供一推薦聲音結果；步驟D：接收該推薦聲音結果搭配聲音需求資訊及該時間軸資訊演算出一聲音調整資訊；步驟E：將該推薦聲音結果及該聲音調整資訊進行數位音頻合成，產出該聲音故事檔案。

其中，於步驟B中，係對該故事文本內容標的搭配一文本辨識資料庫進行文字探勘、關鍵字擷取、場景辨識及情節辨識等演算分析比對程序，自該故事文本內容標的辨識出至少一聲音需求資訊及一時間軸資訊。

其中，在步驟B中，該聲音需求資訊係來自角色屬性訊息、台詞訊息、場景訊息、情節訊息、音樂訊息或/及特效訊息。

而為了能讓使用者任意選擇所欲扮演的角色，本方法於步驟C中更包括允許使用者自行選定所欲取代之角色，並錄製相對應之該外來聲音音訊，並得將該外來聲音音訊資訊及其對應之文字資訊儲存於一聲音錄音儲存資料庫內，而能作為該推薦聲音結果之組成之一部，藉此達到該推薦聲音結果包含使用者自選錄音結果。

具體來說，於步驟C中，當未接收如使用者自訂角色之一選擇指令時，自一聲音元素資料庫篩選比對出符合該聲音需求資訊之一聲音元素資訊，並結合該時間軸資訊，成為該推薦聲音結果；當接收到該選擇指令時，提供對應該聲音需求資訊之至少一部的一外來聲音音訊，而若該選擇指令為該聲音需求資訊之一部需由該外來聲音音訊滿足時，則搭配聲音元素資料庫篩選比對出符合該部以外聲音需求資訊之該聲音元素資訊，並將該外來聲音音訊、該聲音元素資訊與該時間軸結合而成為該推薦聲音結果；若該選擇指令為該聲音需求資訊之全部需由該外來聲音音訊滿足時，則該推薦聲音結果由該外來聲音音訊及該時間軸資訊結合而成。

其中，該聲音元素資訊係包含有音樂訊息、語音訊息及特效音訊息。

其中，於步驟D中，該聲音調整資訊係包含有調整聲音之輕重音、語速、語調及音色之間的權重比例等參數。

為能強化聲音故事檔案之利用便利性及整合關聯之創新商業模式，本發明所揭智慧型聲音故事生成方法係更包含有一步驟F，設於該步驟E之後，而該步驟F係為將該聲音故事檔案以播放或/及下載之方式提供予一使用者或/及一接收者，並得接收一使用者或/及一接收者之使用互動資訊，以作為數據分析與預測使用習慣之演算參數。

其中，該使用互動資訊係包含如聲音故事之使用時間(Time)、使用頻率(Frequency)、播放(Play)、下載(Download)、關注(Follow)、訂閱(Subscribe)、分享(Share)、喜好(Like/Dislike)、意見(Comment)、評估(Evaluate)、評價(Ranking)等指標、或操作歷程(Use Log)。

其中，更包含有一步驟G，設於該步驟F之後，步驟G係推廣及/或銷售聲音故事檔案，利用該使用互動資訊進行演算而推薦一適合之聲音故事檔案予該使用者或/及接收者，並得同時提供至少一種消費模式予該使用者或/及該接收者選擇，並得接收該使用者或/及該接收者之指示而收取費用。

其中，步驟G所提供之消費模式係包含試用方案、租用方案、買斷方案、單次付費、訂閱方案、長期使用方案、推薦回饋方案等。

為能進一步依據使用需求改善演算參數與效能並推薦適合的聲音故事給使用者選擇之用，且達促進更優質聲音故事生成之功效，步驟H係為一回饋機制，將所收集之使用者或/及接收者之該使用互動資訊及該推薦聲音結果與聲音調整資訊回傳，以作為下一次執行步驟B至D、步驟F、步驟G中演算分析比對之參數。

(10):智慧型聲音故事生成系統

(20):伺服暨儲存模組

(21):文本辨識資料庫

(22):聲音元素資料庫

(23):聲音錄音儲存資料庫

(30):文本內容輸入模組

(40):智慧型文本分析模組

(50):智慧型聲音推薦模組

(51):內建聲音元素提供單元

(52):外來聲音音訊提供單元

(53):智慧型聲音推薦單元

(60):聲音動態表現調整模組

(70):數位聲音合成模組

(80):使用模組

(81):互動單元

(82):推廣銷售單元

(90):回饋模組

(101):接收一故事文本內容標的

(102):辨識該故事文本內容標的

(103):提供一推薦聲音結果

(104):演算出一聲音調整資訊

(105):產出一聲音故事檔案

(106):使用聲音故事檔案

(107):推廣及/或銷售聲音故事檔案

(108):回饋機制

圖1係為本發明之一實施例所揭智慧型聲音故事生成系統中各模組元件之示意圖。

圖2係本發明之另一實施例所揭智慧型聲音故事生成方法之流程圖。

首先，須針對本說明書內所提及之名詞加以說明如下：本發明所稱「演算」、「演算法」係指一種能將所輸入之數據進行分析比對與計算之程式，而該程式係指採用各種適用之統計分析暨人工智慧演算法與裝置，如迴歸分析法、層級分析法、集群分析法、因素分析法、判別分析法、相關分析法、決策樹法、類神經網路演算法、基因演算法、機器學習演算法、深度學習演算法等各式統計分析暨人工智慧演算方法。

如圖1所示，在本發明之一較佳實施例中所提供之智慧型聲音故事生成系統(10)係包括有一伺服暨儲存模組(20)、一文本內容輸入模組(30)、一智慧型文本分析模組(40)、一智慧型聲音推薦模組(50)、一聲音動態表現調整模組(60)、一數位聲音合成模組(70)、一使用模組(80)及一回饋模組(90)，而各該模組間得以有線或無線之方式進行連結或資訊傳輸，其中：該伺服暨儲存模組(20)係用以控制、指揮、命令、管理本智慧型聲音故事生成系統及其下各模組，使其具備伺服器(Server)之伺服功能及資訊儲存功能以對使用者提供聲音故事生成服務。

該伺服暨儲存模組(20)係具有一文本辨識資料庫(21)，儲存文本內容資訊及其對應之聲音需求資訊；一聲音元素資料庫(22)，係用以儲存複數聲音元素資訊，其係分別對應一聲音需求資訊；一聲音錄音儲存資料庫(23)，係用以儲存外來聲音音訊及其對應之各該屬性聲音元素資訊。

具體來說，該聲音元素資訊係包含有音樂訊息、語音訊息、特效音訊息等。

該文本內容輸入模組(30)係自外部接收一故事文本內容標的(Story Text Content)，而該文本內容輸入模組(30)進一步得包含有一輸入裝置，例如觸控式螢幕、掃描器、鍵盤、滑鼠、照相機或其他可以將故事文本內容標的轉化為可被讀取之資訊的裝置。

該智慧型文本分析模組(40)係得搭配文本辨識資料庫(21)將接收自文本內容輸入模組(30)之故事文本內容標的以文字探勘、關鍵字擷取、場景辨識及情節辨識等方式進行演算分析比對，自該故事文本內容標的辨識出至少一聲音需求資訊及一時間軸資訊，其中，該聲音需求資訊係來自角色屬性訊息、台詞訊息、場景訊息、情節訊息、音樂訊息或/及特效訊息。

而舉例來說，角色屬性訊息係包含有性別、年齡、職業、教育水準、地理區域、文化暨人格特質、價值觀、宗教信仰或其他與角色特質有關之訊息；台詞訊息係包含相對應於各該角色屬性於該文本內容中所與之對應之台詞；場景訊息係包含如森林、公園、城堡、宴會廳、體育場、賽車場、開場、過場、結束或其他相對應文本內容所辨識出的場景特徵資訊；情節訊息係包含如戰鬥、吵架、教訓或其他相對應文本內容所辨識出的情節特徵資訊；音樂訊息係基於文本內容及其角色屬性訊息、場景訊息、情節訊息而以之對應如歡樂、輕鬆、愉悅、欣喜、激動、熱情、樂觀、期待、充滿希望、高興、有信心、愛好、憂慮、擔心、害怕、不安、噁心、絕望、尷尬、憂鬱、悲傷、嘲笑、生氣、憤怒、敵對、厭惡、緊張、懸疑、震驚等音樂特徵資訊；特效訊息係基於文本內容及其角色屬性訊息、場景訊息、情節訊息而以之對應如打鬥聲、吵鬧聲、使用器物聲、發射器物聲、物體碰撞聲、尖叫聲、笑聲、哭聲、大自然聲音、環境背景聲等特效特徵資訊。

該智慧型聲音推薦模組(50)係具有一內建聲音元素提供單元(51)，接收來自智慧型文本分析模組(40)所提供之聲音需求資訊，並得經演算而自該聲音元素資料庫(22)中篩選比對出符合該聲音需求資訊之一聲音元素資訊；一外來聲音音訊提供單元(52)，係得接收一選擇指令而依據該聲音需求資訊自該聲音錄音儲存資料庫(23)獲得一外來聲音音訊；一智慧型聲音推薦單元(53)，接收該聲音元素資訊及/或該外來聲音音訊，並結合該時間軸資訊，產出至少一推薦聲音結果。

其中，該外來聲音音訊提供單元(52)係更包含有一自訂角色設定程式(Self-as-a-role Setting Program)，接收來自一使用者之一選擇指令，允許使用者擔任該故事文本中各屬性聲音元素(包含如各場景或情節所需之角色、台詞、音樂、特效等聲音元素)之任一聲音元素，或上述各屬性聲音元素至少任二之組合(例如：可擔綱白雪公主故事內的國王角色、白雪公主角色、旁白、風聲、打鬥劍擊聲等任一聲音元素或任二聲音元素之組合)；一錄音程式，接收外部音訊而錄製成為該外來聲音音訊，並儲存於聲音錄音儲存資料庫(23)中，而該外來聲音音訊得由該使用者自行錄製而成。

該聲音動態表現調整模組(60)係依據該推薦聲音結果搭配聲音需求資訊及該時間軸資訊提供一聲音調整資訊，用以調整該推薦結果中之該聲音元素資訊及/或該外來聲音音訊的輕重音、語速、語調及音色之間的權重比例。

該數位聲音合成模組(70)係將該推薦聲音結果及該聲音調整資訊進行數位音頻合成，從而產生一可供播放或/及下載之聲音故事檔案。

其中，該數位聲音合成模組(70)產生之一可供播放或/及下載之聲音故事檔案格式可為習知如MP3、AAC、Ogg Vorbis、Opus、WAV、FLAC、APE、ALAC、WavPack(WV)等各式適用之數位編碼聲音檔案格式。

該使用模組(80)係自該數位聲音合成模組(70)接收該可供播放或/及下載之聲音故事檔案，並將之傳送或/及播送至外部，例如播放、下載、傳輸、分享；此外，該使用模組(80)係更可包含一互動單元(81)，提供一使用者或/及一接收者所需互動介面與功能(例如：老師將所生成之聲音故事檔案分享給指定的學生播放或/及下載)，並得收集一使用者或/及一接收者之使用互動資訊(例如：聲音故事之使用時間(Time)、使用頻率(Frequency)、播放(Play)、下載(Download)、關注(Follow)、訂閱(Subscribe)、分享(Share)、喜好(Like/Dislike)、意見(Comment)、評估(Evaluate)、評價(Ranking)等指標、或操作歷程(Use Log))，以作為數據分析與預測使用習慣之演算參數；一推廣銷售單元(82)，係依據該使用互動資訊進行演算而推薦一合適之聲音故事檔案予使用者或/及接收者，並得同時提供至少一種消費模式予該使用者或/及該接收者選擇(例如：試用方案、租用方案、買斷方案、單次付費、訂閱方案、長期使用方案、推薦回饋方案等)，並得接收該使用者或/及該接收者之指示而收取費用。

該回饋模組(90)係將該互動單元(81)所收集之使用者或/及接收者之使用互動資訊及該推薦聲音結果與聲音調整資訊作為回饋資訊回傳至該伺服暨儲存模組(20)、該智慧型文本分析模組(40)、該智慧型聲音推薦模組(50)、該聲音動態表現調整模組(60)、及該使用模組(80)內，以作為演算分析比對之參數，藉此能依使用需求改善演算參數與效能並推薦適合的聲音故事給使用者選擇之用。

如圖2所述，藉由上述內容，本發明之另一實施例所揭智慧型聲音故事生成方法具體實施步驟如下：

步驟101：接收一故事文本內容標的

接收來自文本內容輸入模組之故事文本內容標的。

步驟102：辨識該故事文本內容標的

對該故事文本內容標的搭配一文本辨識資料庫進行文字探勘、關鍵字擷取、場景辨識及情節辨識等演算分析比對程序，自該故事文本內容標的辨識出至少一聲音需求資訊及一時間軸資訊，其中，該聲音需求資訊係來自角色屬性訊息、台詞訊息、場景訊息、情節訊息、音樂訊息或/及特效訊息。

步驟103：提供一推薦聲音結果

取得該聲音需求資訊為參數，並經演算而自一聲音元素資料庫中篩選比對出符合該聲音需求資訊之一聲音元素資訊，再將該聲音元素資訊與該時間軸資訊整合產出至少一推薦聲音結果。

為了能讓使用者任意選擇所欲扮演的角色，於本步驟中更包含有接收一選擇指令，允許使用者自行選定所欲擔綱之角色，並錄製相對應之一外來聲音音訊，並得將該外來聲音音訊及其對應之文字資訊儲存於一聲音錄音儲存資料庫內，同時根據該選擇指令，使該外來聲音音訊取代該推薦聲音結果中對應屬性的該聲音元素資訊(包含如各場景或情節所需之角色、台詞、音樂、特效等聲音元素)，使得該推薦聲音結果包含該使用者之自選錄音。在本實施例中，並不限制提醒使用者選擇是否扮演角色的先後順序。

步驟104：演算出一聲音調整資訊

依據該推薦聲音結果搭配聲音需求資訊及該時間軸資訊演算出一聲音調整資訊，該聲音調整資訊係包含有調整聲音之輕重音、語速、語調及音色之間的權重比例等參數。

步驟105：產出一聲音故事檔案

將該推薦聲音結果及該聲音調整資訊進行數位音頻合成，產出該聲音故事檔案。

步驟106：使用聲音故事檔案

將該聲音故事檔案以播放或/及下載之方式提供予一使用者或/及一接收者，並得接收一使用者或/及一接收者之使用互動資訊(例如：聲音故事之使用時間(Time)、使用頻率(Frequency)、播放(Play)、下載(Download)、關注(Follow)、訂閱(Subscribe)、分享(Share)、喜好(Like/Dislike)、意見(Comment)、評估(Evaluate)、評價(Ranking)等指標、或操作歷程(Use Log))，以作為數據分析與預測使用習慣之演算參數。

步驟107：推廣及/或銷售聲音故事檔案

利用該使用互動資訊進行演算而推薦一適合之聲音故事檔案予該使用者或/及接收者，並得同時提供至少一種消費模式予該使用者或/及該接收者選擇(例如：試用方案、租用方案、買斷方案、單次付費、訂閱方案、長期使用方案、推薦回饋方案等)，並得接收該使用者或/及該接收者之指示而收取費用。

步驟108：回饋機制

係將所收集之使用者或/及接收者之該使用互動資訊及該推薦聲音結果與聲音調整資訊作為回饋資訊回傳至該伺服暨儲存模組、該智慧型文本分析模組、該智慧型聲音推薦模組、該聲音動態表現調整模組、及該使用模組內，藉以作為辨識故事文本內容標的(步驟102)、提供一推薦聲音結果(步驟103)、演算出一聲音調整資訊(步驟104)、使用聲音故事檔案(步驟106)、及推廣及/或銷售聲音故事檔案(步驟107)各步驟程序之下一次演算分析比對之參數，藉此能依使用需求改善演算參數與效能並推薦適合的聲音故事給使用者選擇之用，並達到促進更優質聲音故事生成之功效。

藉由上述說明可知，本發明所揭智慧型聲音故事生成之方法及系統係能夠達到以下幾點功效：一、透過人工智慧演算判讀分析故事文本內容，可篩選比對而推薦適合的聲音元素(包含相應於該故事文本各屬性之聲音元素，如各場景與情節所需之角色、台詞、音樂、特效等聲音元素)，而后再利用數位合成的方式，將該些聲音元素合成為一聲音故事(Audio Story)檔案(例如：MP3、AAC、WAV等格式)，以提供使用者播放聆聽或下載使用，藉以提供使用者(如：一般家長)在僅提供故事文本內容標的(Story Text Content)情況下，就能自行完成該聲音故事之創新服務，也能改善傳統有聲書錄製成本高昂之問題。二、提供使用者以更加簡便且使用友善的方式來錄製聲音故事(Audio Story)，且該自訂角色設定程式(Self-as-a-role Setting Program)允許使用者任意選擇所欲扮演的角色，達到個人化/客製化之目的，將個人獨特聲音特質融入該生成的聲音故事中，提供一個人化/客製化的聲音故事，彰顯該聲音故事的獨特性，使得每位使用者皆能透過本智慧型聲音故事生成系統製作出高品質且具獨特價值的聲音故事(例如：父親可以在白雪公主故事內擔綱國王角色，母親可擔綱打鬥劍擊聲，小朋友可以擔綱旁白等等)，將自身的聲音融入該生成的聲音故事內，得以提升認同感與透過故事來學習的教育成效。三、利用聲音動態表現調整模組可調整語音的輕重音、語速、語調及音色，以避免製作的聲音故事有不自然且生硬冰冷的語音之問題。四、透過回饋機制回傳回饋資訊以作為下一次演算分析比對之參數，藉此能依使用需求改善演算參數與效能並推薦適合的聲音故事給使用者選擇之用，並達到促進更優質聲音故事生成之功效。五、透過收集使用者或/及接收者於聲音故事檔案之使用互動資訊，進一步推薦提供合適的聲音故事檔案及消費模式予該使用者或/及該接收者選擇(例如：試用方案、租用方案、買斷方案、單次付費、訂閱方案、長期使用方案、推薦回饋方案等)，藉以組構出數位內容媒體的創新商務模式，創造聲音故事的生成產出、使用、與推廣及銷售的產業價值，完善其價值鏈上的重要環節，同時也提供以聲音故事為基礎的數位教育通路，使得該創新商務模式之推廣、經營、與發展獲得整合優勢，有效率的建構出一種新型態的數位聲音內容媒體生成使用暨商務系統。