TW202025135A

TW202025135A - 用於個性化語音合成的方法和裝置

Info

Publication number: TW202025135A
Application number: TW108130025A
Authority: TW
Inventors: 孫堯
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-12-06
Filing date: 2019-08-22
Publication date: 2020-07-01
Also published as: CN111369966A; WO2020114323A1

Abstract

本發明揭示了一種用於個性化語音合成的方法和裝置，方法包括：接收用戶輸入的TTS模型產生請求，所述TTS模型產生請求中包括目標領域標識；向所述用戶發送與所述目標領域標識對應的目標錄音文字，並接收所述用戶返回的與所述目標錄音文字對應的音訊檔，所述音訊檔是所述用戶根據所述目標錄音文字錄製得到的；根據所述音訊檔，為所述用戶產生與所述目標領域標識對應的目標TTS模型，所述目標TTS模型用於提供具有所述用戶發音特點的個性化語音合成服務。

Description

用於個性化語音合成的方法和裝置

本發明有關電腦技術領域，尤其有關一種用於個性化語音合成的方法和裝置。

語音合成技術，也稱為從文字至語音技術(TTS，Text To Speech)，可以實現將文字資訊轉化為語音輸出。具體地，首先，採集大量語音資料；然後，根據採集到的大量語音資料，產生TTS模型；最後，根據TTS模型，實現將文字資訊轉化為語音輸出。由於傳統TTS模型構建過程需要採集大量的語音資料，使得TTS模型的構建過程較為複雜。因此，需要一種更加容易實現的用於個性化語音合成的方法。

本說明書實施例提供一種用於個性化語音合成的方法和裝置，使得可以簡化TTS模型的產生過程。第一態樣，本說明書實施例提供了一種用於個性化語音合成的方法，包括：接收用戶輸入的語音合成TTS模型產生請求，所述TTS模型產生請求中包括目標領域標識；向所述用戶發送與所述目標領域標識對應的目標錄音文字，並接收所述用戶返回的與所述目標錄音文字對應的音訊檔，所述音訊檔是所述用戶根據所述目標錄音文字錄製得到的；根據所述音訊檔，為所述用戶產生與所述目標領域標識對應的目標TTS模型，所述目標TTS模型用於提供具有所述用戶發音特點的個性化語音合成服務。第二態樣，本說明書實施例還提供了一種用於個性化語音合成的裝置，用於執行如第一態樣所述的用於個性化語音合成的方法，所述裝置包括：接收模組，接收用戶輸入的TTS模型產生請求，所述TTS模型產生請求中包括目標領域標識；發送模組，向所述用戶發送與所述目標領域標識對應的目標錄音文字；所述接收模組，接收所述用戶返回的與所述目標錄音文字對應的音訊檔，所述音訊檔是所述用戶根據所述目標錄音文字錄製得到的； TTS模型產生模組，根據所述音訊檔，為所述用戶產生與所述目標領域標識對應的目標TTS模型，所述目標TTS模型用於提供具有所述用戶發音特點的個性化語音合成服務。第三態樣，本說明書實施例還提供了一種電子設備，包括：記憶體，存放程式；處理器，執行所述記憶體儲存的程式，並具體執行如第一態樣所述的用於個性化語音合成的方法。第四態樣，本說明書實施例還提供了一種電腦可讀儲存媒體，所述電腦可讀儲存媒體儲存一個或多個程式，所述一個或多個程式當被包括多個應用程式的電子設備執行時，使得所述電子設備執行如第一態樣所述的用於個性化語音合成的方法。本發明實施例採用的上述至少一個技術方案能夠達到以下有益效果：接收用戶輸入的包括目標領域標識的TTS模型產生請求，向用戶發送與目標領域標識對應的目標錄音文字，並接收用戶返回的與目標錄音文字對應的音訊檔，音訊檔是用戶根據目標錄音文字錄製得到的，進而根據音訊檔，為用戶產生與目標領域標識對應的目標TTS模型，目標TTS模型用於提供具有用戶發音特點的個性化語音合成服務，從而可以簡化TTS模型的產生過程，降低了個性化語音合成服務的成本。

下面結合本說明書具體實施例及對應的圖式對本發明技術方案進行清楚、完整地描述。顯然，所描述的實施例僅是本發明一部分實施例，而不是全部的實施例。基於本說明書中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬於本發明保護的範圍。以下結合圖式，詳細說明本說明書各實施例提供的技術方案。圖1為本說明書實施例提供的一種用於個性化語音合成的方法的流程示意圖。所述方法可以如下所示。步驟102，接收用戶輸入的TTS模型產生請求，TTS模型產生請求中包括目標領域標識。步驟104，向用戶發送與目標領域標識對應的目標錄音文字，並接收用戶返回的與目標錄音文字對應的音訊檔，音訊檔是用戶根據目標錄音文字錄製得到的。步驟106，根據音訊檔，為用戶產生與目標領域標識對應的目標TTS模型，目標TTS模型用於提供具有用戶發音特點的個性化語音合成服務。其中，向用戶發送與目標領域標識對應的目標錄音文字，包括：確定錄音文字資料庫，錄音文字資料庫中包括不同領域標識對應的錄音文字；根據錄音文字資料庫，確定與目標領域標識對應的所述目標錄音文字；向用戶發送目標錄音文字。具體地，透過以下方式確定得到所述錄音文字資料庫：確定不同領域標識，不同領域標識中的任一領域標識對應一個領域；根據預設演算法，產生與任一領域標識對應的錄音文字，在任一領域標識對應的錄音文字中，包括與該領域標識對應的領域中常見的字和/或詞語。領域標識包括下述至少一種：兒童故事領域標識、交通領域標識、社會新聞領域標識和天氣預報領域標識。個性化語音合成系統，根據生活常識，確定日常生活中的不同領域，例如，兒童故事領域、交通領域、社會新聞領域、天氣預報領域等。任一領域對應一個領域標識，例如，兒童故事領域與兒童故事領域標識對應、交通領域與交通領域標識對應、社會新聞領域與社會新聞領域標識對應、天氣預報領域與天氣預報領域標識對應等。根據預設演算法，產生與任一領域對應的最優的錄音文字，即與任一領域標識對應的錄音文字。在任一領域對應的錄音文字中，包括與該領域中常見的字和/或詞語。例如，根據預設演算法，產生兒童故事領域對應的最優的錄音文字，該錄音文字中包括兒童故事領域中常見的字/或詞語。需要說明的是，預設演算法可以根據實際情況確定，這裡不做具體限定。任一領域對應的最優的錄音文字，包含該領域中常見的字/或詞語對應的中文主要音節，且儘量避免重複，以精簡錄音文字的資料量。任一領域對應的最優的錄音文字，按照常規語速來說，儘量將於錄音文字對應的音訊檔控制在預設時長(例如，20~60分鐘)範圍內，以提高音訊檔的獲取速度。此外，由於任一領域對應的最優的錄音文字，需要適配該領域中常見的字/或詞語，因此，該錄音文字可以不具備完整的情節。當用戶需要構建TTS模型時，可以登錄智慧終端機上個性化語音合成系統對應的應用程式(以下簡稱APP)，並在該應用程式中選擇目標領域標識，進而使得個性化語音合成系統接收到包括目標領域標識的TTS模型產生請求。個性化語音合成系統從錄音文字資料庫中，查找到與目標領域標識對應的目標錄音文字，並將該目標錄音文字發送到用戶智慧終端機中的APP。用戶接收到該目標錄音文字之後，可以在安靜的周邊環境中，透過自身的智慧終端機錄製與目標錄音文字對應的音訊檔，進而將錄製得到的音訊檔發送到個性化語音合成系統對應的雲端私有TTS儲存和建模空間中。本說明書實施例中，根據音訊檔，為用戶產生與目標領域標識對應的目標TTS模型，包括：對音訊檔進行預處理，得到處理後音訊檔；根據處理後的音訊檔，確定與用戶發音特點匹配的特徵參數；根據特徵參數，產生目標TTS模型。其中，特徵參數包括下述至少一種：音調、音色、語速、停頓和口音。對音訊檔進行預處理，包括下述至少一個步驟：對音訊檔進行降噪處理；透過自動語言識別技術，判斷音訊檔是否正確。在個性化語音合成系統對應的雲端私有TTS儲存和建模空間中，TTS模型產生模組，首先對於目標錄音文字對應的音訊檔進行降噪處理，進而透過自動語言識別(ASR，Automatic Speech Recognition)技術將降噪之後的音訊檔轉化為文字檔，進而將該文字檔與目標錄音文字進行匹配，判斷該音訊檔是否正確。若該音訊檔正確，則得到處理後的音訊檔。根據處理後的音訊檔進行個性化TTS建模，得到與處理後的音訊檔最接近的特徵參數，即得到與用戶發音特點匹配的特徵參數，其中，特徵參數包括但不限於：音調、音色、語速、停頓、口音等。從而根據與用戶發音特點匹配的特徵參數，產生在目標領域標識對應的領域內，可以提供具有用戶發音特點的個性化語音合成服務的目標TTS模型。透過用戶自身智慧終端機對目標錄音文字進行錄製得到音訊檔，進而透過音訊檔產生目標TTS模型，有效簡化了TTS模型的產生過程，而且相對於現有技術中錄音棚錄製音訊檔來說，可以大大節約錄音成本。對於產生的目標TTS模型，個性化語音合成系統提供雲端服務，即該目標TTS模型可以被經過用戶授權的智慧終端機調用。本說明書實施例中，還包括：接收語音播報請求，語音播報請求中包括與用戶對應的授權資訊；根據語音播報請求，使用目標TTS模型，提供個性化語音合成服務。其中，個性化語音合成服務包括下述至少一種：講故事、播報天氣預報、播報時間和播報新聞。語音播報請求來自於發送TTS模型產生請求的用戶，或經該用戶授權的其他用戶。當個性化語音合成系統接收到包含用戶對應的授權資訊的語音播報請求時，可以調用雲端儲存的該用戶對應的目標TTS模型，進而根據該目標TTS模型，提供個性化語音合成服務。在一實施例中，個性化語音合成系統為用戶A產生了與兒童故事領域標識對應的目標TTS模型。使得當用戶A在上班，無法陪伴子女時，其子女可以透過家中智慧設備，存取個性化語音合成系統的雲端服務，要求“爸爸給我講個小豬佩琪的故事”，個性化語音合成系統對應的私有雲伺服器識別出是經過用戶A授權的用戶A子女的存取，可以稱呼子女的小名，比如“豆豆，爸爸給你講故事”。然後可以根據目標TTS模型產生的用戶A的語音來講述小豬佩琪的故事(其中，兒童故事本身來自智慧設備對應的公有雲伺服器)。在另一實施例中，個性化語音合成系統為用戶B產生了與天氣預報領域標識對應的目標TTS模型。使得生活在農村的用戶B的父母，透過家中經過用戶B授權的智慧設備(例如，登錄了用戶B對應的帳號)，存取個性化語音合成系統的雲端服務查詢天氣時，可以根據目標TTS模型產生的用戶B的語音來播報天氣，提醒用戶B的父母注意天氣變化，使得用戶B的父母可以感受到溫馨的親情。在另一實施例中，個性化語音合成系統為用戶C產生目標TTS模型之後，若用戶C去世，但是用戶C的親人仍然可以透過經過用戶C授權的智慧設備(例如，登錄了用戶C對應的帳號)，存取個性化語音合成系統的雲端服務，進而根據目標TTS模型產生的用戶C的語音來播報天氣、講故事、播新聞、講笑話等，使得親人仍然能夠感受到用戶C的陪伴。本說明書實施例中，當接收到的語音播報請求對應的領域，與目標TTS模型對應的目標領域標識不一致時，若仍然採用目標TTS模型來提供個性化語音合成服務，將導致播報效果較差。此時，可以調用公有雲伺服器中儲存的全領域TTS模型，為用戶提供較好的語音合成服務。其中，公有雲伺服器中儲存的全領域TTS模型可以是根據現有技術中透過採集大量語音資料構建得到的，也可以是透過其它方式構建得到的，這裡不做具體限定。本說明書實施例記載的技術方案，接收用戶輸入的包括目標領域標識的TTS模型產生請求，向用戶發送與目標領域標識對應的目標錄音文字，並接收用戶返回的與目標錄音文字對應的音訊檔，音訊檔是用戶根據目標錄音文字錄製得到的，進而根據音訊檔，為用戶產生與目標領域標識對應的目標TTS模型，目標TTS模型用於提供具有用戶發音特點的個性化語音合成服務，從而可以簡化TTS模型的產生過程，降低了個性化語音合成服務的成本。圖2為本說明書實施例提供的一種電子設備的結構示意圖。如圖2所示，在硬體層面，該電子設備包括處理器，可選地還包括內部匯流排、網路介面、記憶體。其中，記憶體可能包含內部記憶體，例如高速隨機存取記憶體(Random-Access Memory，RAM)，也可能還包括非易失性記憶體(non-volatile memory)，例如至少1個磁碟記憶體等。當然，該電子設備還可能包括其他業務所需要的硬體。處理器、網路介面和記憶體可以透過內部匯流排相互連接，該內部匯流排可以是ISA(Industry Standard Architecture，工業標準架構)匯流排、PCI(Peripheral Component Interconnect，週邊組件互連標準)匯流排或EISA(Extended Industry Standard Architecture，延伸工業標準架構)匯流排等。所述匯流排可以分為位址匯流排、資料匯流排、控制匯流排等。為便於表示，圖2中僅用一個雙向箭頭表示，但並不表示僅有一根匯流排或一種類型的匯流排。記憶體，存放程式。具體地，程式可以包括程式碼，所述程式碼包括電腦操作指令。記憶體可以包括記憶體和非易失性記憶體，並向處理器提供指令和資料。處理器從非易失性記憶體中讀取對應的電腦程式到記憶體中然後運行，在邏輯層面上形成用於個性化語音合成的裝置。處理器，執行記憶體所存放的程式，並具體執行圖1所示的方法實施例的步驟。上述如圖1所述的方法可以應用於處理器中，或者由處理器實現。處理器可能是一種積體電路晶片，具有信號的處理能力。在實現過程中，上述方法的各步驟可以透過處理器中的硬體的積體邏輯電路或者軟體形式的指令完成。上述的處理器可以是通用處理器，包括中央處理器(Central Processing Unit，CPU)、網路處理器(Network Processor，NP)等；還可以是數位訊號處理器(Digital Signal Processor，DSP)、特定應用積體電路(Application Specific Integrated Circuit，ASIC)、現場可程式設計閘陣列(Field-Programmable Gate Array，FPGA)或者其他可程式設計邏輯裝置、分立閘或者電晶體邏輯裝置、分立硬體元件。可以實現或者執行本說明書實施例中的揭示的各方法、步驟及邏輯方塊圖。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。結合本說明書實施例所揭示的方法的步驟可以直接體現為硬體解碼處理器執行完成，或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體，快閃記憶體、唯讀記憶體，可程式設計唯讀記憶體或者電可讀寫可程式設計記憶體、暫存器等本領域成熟的儲存媒體中。該儲存媒體位於記憶體，處理器讀取記憶體中的資訊，結合其硬體完成上述方法的步驟。該電子設備可執行圖1所示方法實施例執行的方法，並實現上述圖1所示方法實施例的功能，本說明書實施例在此不再贅述。本說明書實施例還提出了一種電腦可讀儲存媒體，該電腦可讀儲存媒體儲存一個或多個程式，該一個或多個程式包括指令，該指令當被包括多個應用程式的電子設備執行時，能夠使該電子設備執行圖1所示實施例中的用於個性化語音合成的方法，並具體執行圖1所示方法實施例的步驟。圖3為本說明書實施例提供的一種用於個性化語音合成的裝置300的結構示意圖。圖3所示的裝置300可以用於執行上述圖1所示實施例的方法，裝置300包括：接收模組301，接收用戶輸入的TTS模型產生請求，TTS模型產生請求中包括目標領域標識；發送模組302，向用戶發送與目標領域標識對應的目標錄音文字；接收模組301，接收用戶返回的與目標錄音文字對應的音訊檔，音訊檔是用戶根據目標錄音文字錄製得到的； TTS模型產生模組303，根據音訊檔，為用戶產生與目標領域標識對應的目標TTS模型，目標TTS模型用於提供具有用戶發音特點的個性化語音合成服務。可選地，發送模組302，進一步包括：第一確定單元，確定錄音文字資料庫，錄音文字資料庫中包括不同領域標識對應的錄音文字；第二確定單元，根據錄音文字資料庫，確定與目標領域標識對應的目標錄音文字；發送單元，向用戶發送目標錄音文字。可選地，透過以下方式確定得到錄音文字資料庫：確定不同領域標識，不同領域標識中的任一領域標識對應一個領域；根據預設演算法，產生與任一領域標識對應的錄音文字，在任一領域標識對應的錄音文字中，包括與該領域標識對應的領域中常見的字和/或詞語。可選地，領域標識包括下述至少一種：兒童故事領域標識、交通領域標識、社會新聞領域標識和天氣預報領域標識。可選地，TTS模型產生模組303，進一步包括：預處理單元，對音訊檔進行預處理，得到處理後音訊檔；第三確定單元，根據處理後的音訊檔，確定與用戶發音特點匹配的特徵參數；產生單元，根據特徵參數，產生目標TTS模型。可選地，特徵參數包括下述至少一種：音調、音色、語速、停頓和口音。可選地，預處理單元，具體用於：對音訊檔進行降噪處理；透過自動語言識別技術，判斷音訊檔是否正確。可選地，裝置300還包括：接收模組301，接收語音播報請求，語音播報請求中包括與用戶對應的授權資訊；服務模組，根據語音播報請求，使用目標TTS模型，提供個性化語音合成服務。可選地，個性化語音合成服務包括下述至少一種：講故事、播報天氣預報、播報時間和播報新聞。可選地，語音播報請求來自於用戶，或經用戶授權的其它用戶。根據用於個性化語音合成的裝置，接收模組接收用戶輸入的TTS模型產生請求，TTS模型產生請求中包括目標領域標識；發送模組向用戶發送與目標領域標識對應的目標錄音文字；接收模組接收用戶返回的與目標錄音文字對應的音訊檔，音訊檔是用戶根據目標錄音文字錄製得到的；TTS模型產生模組根據音訊檔，為用戶產生與目標領域標識對應的目標TTS模型，目標TTS模型用於提供具有用戶發音特點的個性化語音合成服務，從而可以簡化TTS模型的產生過程，降低了個性化語音合成服務的成本。在20世紀90年代，對於一個技術的改進可以很明顯地區分是硬體上的改進(例如，對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而，隨著技術的發展，當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都透過將改進的方法流程程式設計到硬體電路中來得到對應的硬體電路結構。因此，不能說一個方法流程的改進就不能用硬體實體模組來實現。例如，可程式設計邏輯裝置(Programmable Logic Device，PLD)(例如現場可程式設計閘陣列(Field Programmable Gate Array，FPGA))就是這樣一種積體電路，其邏輯功能由用戶對裝置程式設計來確定。由設計人員自行程式設計來把一個數位系統“整合”在一片PLD上，而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且，如今，取代手工地製作積體電路晶片，這種程式設計也多半改用“邏輯編譯器(logic compiler)”軟體來實現，它與程式開發撰寫時所用的軟體編譯器相類似，而要編譯之前的原始碼也得用特定的程式設計語言來撰寫，此稱之為硬體描述語言(Hardware Description Language，HDL)，而HDL也並非僅有一種，而是有許多種，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚，只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式設計並程式設計到積體電路中，就可以很容易得到實現該邏輯方法流程的硬體電路。控制器可以按任何適當的方式實現，例如，控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、特定應用積體電路(Application Specific Integrated Circuit，ASIC)、可程式設計邏輯控制器和嵌入微控制器的形式，控制器的例子包括但不限於以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道，除了以純電腦可讀程式碼方式實現控制器以外，完全可以透過將方法步驟進行邏輯程式設計來使得控制器以邏輯閘、開關、特定應用積體電路、可程式設計邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的，電腦例如可以為個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧型電話、個人數位助理、媒體播放器、導航設備、電子郵件設備、遊戲控制台、平板電腦、穿戴式設備或者這些設備中的任何設備的組合。為了描述的方便，描述以上裝置時以功能分為各種單元分別描述。當然，在實施本發明時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。本領域內的技術人員應明白，本發明的實施例可提供為方法、系統或電腦程式產品。因此，本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體態樣的實施例的形式。而且，本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。本發明是參照根據本發明實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器，使得透過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中，使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上，使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。在一個典型的配置中，計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。記憶體可能包括電腦可讀媒體中的非永久性記憶體，隨機存取記憶體(RAM)和/或非易失性記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁片儲存或其他磁性儲存設備或任何其他非傳輸媒體，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒體不包括暫態式電腦可讀媒體(transitory media)，如調變的資料信號和載波。還需要說明的是，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。本發明可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式運算環境中實踐本發明，在這些分散式運算環境中，由透過通訊網路而被連接的遠端處理設備來執行任務。在分散式運算環境中，程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。本說明書中的各個實施例均採用漸進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。以上所述僅為本發明的實施例而已，並不用於限制本發明。對於本領域技術人員來說，本發明可以有各種更改和變化。凡在本發明的精神和原理之內所作的任何修改、等同替換、改進等，均應包含在本發明的申請專利範圍之內。

102:步驟 104:步驟 106:步驟 300:用於個性化語音合成的裝置 301:接收模組 302:發送模組 303:TTS模型產生模組

此處所說明的圖式用來提供對本發明的進一步理解，構成本發明的一部分，本發明的示意性實施例及其說明用於解釋本發明，並不構成對本發明的不當限定。在圖式中：圖1為本說明書實施例提供的一種用於個性化語音合成的方法的流程示意圖；圖2為本說明書實施例提供的一種電子設備的結構示意圖；圖3為本說明書實施例提供的一種用於個性化語音合成的裝置的結構示意圖。

Claims

一種用於個性化語音合成的方法，包括：接收用戶輸入的語音合成TTS模型產生請求，該TTS模型產生請求中包括目標領域標識；向該用戶發送與該目標領域標識對應的目標錄音文字，並接收該用戶返回的與該目標錄音文字對應的音訊檔，該音訊檔是該用戶根據該目標錄音文字錄製得到的；以及根據該音訊檔，為該用戶產生與該目標領域標識對應的目標TTS模型，該目標TTS模型用於提供具有該用戶發音特點的個性化語音合成服務。
如請求項1所述的方法，向該用戶發送與該目標領域標識對應的目標錄音文字，包括：確定錄音文字資料庫，該錄音文字資料庫中包括不同領域標識對應的錄音文字；根據該錄音文字資料庫，確定與該目標領域標識對應的該目標錄音文字；以及向該用戶發送該目標錄音文字。
如請求項2所述的方法，透過以下方式確定得到該錄音文字資料庫：確定不同領域標識，該不同領域標識中的任一領域標識對應一個領域；以及根據預設演算法，產生與該任一領域標識對應的錄音文字，在該任一領域標識對應的錄音文字中，包括與該領域標識對應的領域中常見的字和/或詞語。
如請求項3所述的方法，該領域標識包括下述至少一種：兒童故事領域標識、交通領域標識、社會新聞領域標識和天氣預報領域標識。
如請求項1所述的方法，根據該音訊檔，為該用戶產生與該目標領域標識對應的目標TTS模型，包括：對該音訊檔進行預處理，得到處理後音訊檔；根據該處理後的音訊檔，確定與該用戶發音特點匹配的特徵參數；以及根據該特徵參數，產生該目標TTS模型。
如請求項5所述的方法，該特徵參數包括下述至少一種：音調、音色、語速、停頓和口音。
如請求項5所述的方法，對該音訊檔進行預處理，包括下述至少一個步驟：對該音訊檔進行降噪處理；以及透過自動語言識別技術，判斷該音訊檔是否正確。
如請求項1所述的方法，還包括：接收語音播報請求，該語音播報請求中包括與該用戶對應的授權資訊；以及根據該語音播報請求，使用該目標TTS模型，提供個性化語音合成服務。
如請求項8所述的方法，該個性化語音合成服務包括下述至少一種：講故事、播報天氣預報、播報時間和播報新聞。
如請求項8所述的方法，該語音播報請求來自於該用戶，或經該用戶授權的其他用戶。
一種用於個性化語音合成的裝置，用於執行如請求項1至10中任一項所述的用於個性化語音合成的方法，該裝置包括：接收模組，接收用戶輸入的TTS模型產生請求，該TTS模型產生請求中包括目標領域標識；發送模組，向該用戶發送與該目標領域標識對應的目標錄音文字；該接收模組，接收該用戶返回的與該目標錄音文字對應的音訊檔，該音訊檔是該用戶根據該目標錄音文字錄製得到的；以及 TTS模型產生模組，根據該音訊檔，為該用戶產生與該目標領域標識對應的目標TTS模型，該目標TTS模型用於提供具有該用戶發音特點的個性化語音合成服務。
一種電子設備，包括：記憶體，存放程式；以及處理器，執行該記憶體儲存的程式，並具體執行如請求項1至10中任一項所述的用於個性化語音合成的方法。
一種電腦可讀儲存媒體，該電腦可讀儲存媒體儲存一個或多個程式，該一個或多個程式當被包括多個應用程式的電子設備執行時，使得該電子設備執行如請求項1至10中任一項所述的用於個性化語音合成的方法。