TW202036534A

TW202036534A - 語音合成的方法、裝置及設備

Info

Publication number: TW202036534A
Application number: TW108127727A
Authority: TW
Inventors: 韓喆; 陳力; 吳軍
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-10-29
Filing date: 2019-08-05
Publication date: 2020-10-01
Also published as: CN109599090B; TWI731382B; WO2020088006A1; CN109599090A

Abstract

本說明書提供了一種語音合成的方法、裝置、設備及儲存介質。該方法包括：獲取待合成語音的文本中的各音節的語音文件，該語音文件儲存有該音節的採樣點的音強數據；從相鄰兩音節的語音文件中分別獲取指定採樣點的音強數據；其中，前一音節的指定採樣點為該音節的最後N個採樣點，後一音節的指定採樣點為該音節的前N個採樣點，其中，N為整數；將兩個音節的該指定採樣點的音強進行處理，以獲得合成後的語音。通過對相鄰兩音節首尾部分指定採樣點進行處理，使合成的語音更加自然。另外，由於只是對相鄰音節部分採樣點做簡單處理，因此避免了大量的計算，適用於嵌入式設備等處理能力較低的設備。

Description

語音合成的方法、裝置及設備

本發明涉及語音合成技術領域，尤其涉及一種語音合成的方法、裝置及設備。

語音播報在生活中很多領域都有應用，比如在使用支付寶或微信付款時自動播報到帳金額，超市、車站等公共場所使用的智慧型播報系統等。在語音播報時，需要用到語音合成技術，即將不同音節的字或詞語拼接起來，組成需要播報的一段話。目前製作播報語音的技術中，有的技術雖然可以使播報的語音聽起來自然，但是此技術對設備的處理能力要求高；有的技術雖然對處理能力要求不高，但是聽起來不自然。

為克服相關技術中存在的問題，本發明提供了一種語音拼接的方法、裝置及設備。首先，本說明書提供了一種語音合成的方法，該方法包括：獲取待合成語音的文本中的各音節的語音文件，該語音文件儲存有該音節的採樣點的音強數據；從相鄰兩音節的語音文件中分別獲取指定採樣點的音強數據；其中，前一音節的指定採樣點為該音節的最後N個採樣點，後一音節的指定採樣點為該音節的前N個採樣點，其中，N為整數；將兩個音節的該指定採樣點的音強數據進行數據處理，以獲得合成後的語音。其次，本說明書提供了一種語音合成裝置，該裝置包括：獲取單元，獲取待合成語音的文本中的各音節的語音文件，該語音文件儲存有該音節的採樣點的音強數據；以及從相鄰兩音節的語音文件中分別獲取指定採樣點的音強數據；其中，前一音節的指定採樣點為該音節的最後N個採樣點，後一音節的指定採樣點為該音節的前N個採樣點，其中，N為整數；處理單元，將兩個音節的該指定採樣點的音強數據進行處理，以獲得合成後的語音。另外，本說明書還提供了一種語音合成設備，該語音合成設備包括：處理器和記憶體；該記憶體用於儲存可執行的電腦指令；該處理器用於執行該電腦指令時實現以下步驟：獲取待合成語音的文本中的各音節的語音文件，該語音文件儲存有該音節的採樣點的音強數據；從相鄰兩音節的語音文件中分別獲取指定採樣點的音強數據；其中，前一音節的指定採樣點為該音節的最後N個採樣點，後一音節的指定採樣點為該音節的前N個採樣點，其中，N為整數；將兩個音節的該指定採樣點的音強數據進行處理，以獲得合成後的語音。本說明書的有益效果：在語音合成時，將相鄰兩音節中前一個音節的尾部與後一個音節的首部的指定採樣點的音強進行處理，使合成後的語音更加自然，另外，由於不需要通過學習模型訓練，而是對相鄰音節部分採樣點做簡單處理，因此避免了高強度的計算，使本方案更加具有適用性，適用於嵌入式設備等處理能力較低的設備。應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，並不能限制本發明。

這裡將詳細地對示例性實施例進行說明，其示例表示在圖式中。下面的描述涉及圖式時，除非另有表示，不同圖式中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本發明相一致的所有實施方式。相反，它們僅是與如所附申請專利範圍中所詳述的、本發明的一些方面相一致的裝置和方法的例子。在本發明使用的術語是僅僅出於描述特定實施例的目的，而非旨在限制本發明。在本發明和所附申請專利範圍中所使用的單數形式的“一種”、“該”和“該”也旨在包括多數形式，除非上下文清楚地表示其他含義。還應當理解，本文中使用的術語“和/或”是指並包含一個或多個相關聯的列出項目的任何或所有可能組合。應當理解，儘管在本發明可能採用術語第一、第二、第三等來描述各種資訊，但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如，在不脫離本發明範圍的情況下，第一資訊也可以被稱為第二資訊，類似地，第二資訊也可以被稱為第一資訊。取決於語境，如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“回應於確定”。語音播報廣泛的應用於生活中的各個領域，比如車站中的車次資訊的播報，超市中商品促銷資訊播放、以及目前常用的支付寶支付時的到帳播報等。語音播報時需要用到語音合成技術，即將不同音節的字或詞語拼接起來，組成需要播報的一段話。目前有的語音合成的方法是基於深度學習模型，產生模擬的語音，這種方法合成的語音聽起來比較自然，但是由於需要大量的訓練資源和計算資源，很難在嵌入式系統等處理能力較弱的系統上運行。目前，針對嵌入式系統等處理能力較弱的系統，主要採用的是拼接的方法，即先錄製每一個單詞的讀音，然後把待播放的句子的每個單詞的讀音全部播放一遍，這種方法對語音合成系統的處理能力要求不高，但是這種方法合成的語音效果比較差，聽起來不自然。為了解決採用拼接的方法進行語音合成時，合成效果較差，聽起來不自然的問題，本說明書提供了一種語音合成的方法，該方法可用于實現語音合成的設備，該語音合成方法的流程圖如圖1所示，包括步驟S102-步驟S106： S102、獲取待合成語音的文本中的各音節的語音文件，該語音文件儲存有該音節的採樣點的音強數據； S104、從相鄰兩音節的語音文件中分別獲取指定採樣點的音強數據；其中，前一音節的指定採樣點為該音節的最後N個採樣點，後一音節的指定採樣點為該音節的前N個採樣點，其中，N為整數； S106、將兩個音節的該指定採樣點的音強數據進行處理，以獲得合成後的語音。在收到需要合成語音的文本後，會根據文本的內容獲取文本中每個音節的語音文件。在某些情況下語音文件可以儲存在本地，語音合成設備可以直接從本地獲取語音文件；在某些情況下，語音文件可以保存在雲端，語音合成設備需要使用時從雲端下載。語音文件可以是事先錄製好的不同的音節的錄音，可以是WAV.、Mp3.等格式的文件，在音節錄製的時候，會對聲音的模擬信號進行採樣，轉化成二進制的採樣數據，得到最終的語音文件。音節在錄製並保存成語音文件的時候，可以將各音節單獨錄製，也可以以一個詞語或成語的形式錄製，比如“我喜歡跑步”這句話中的各音節，可以是“我”、“喜”、“歡”、“跑”、“步”五個音節分別錄製保存成五份語音文件，也可以將詞語組合起來錄製成一個語音文件，即“我”、“喜歡”、“跑步”三份語音文件，語音文件可以根據實際需求錄製，本說明書不作限制。在一個實施例中，如果音節在錄製的時候是以詞語組合的形式錄製的，在獲取待合成語音的文本中的各音節的語音文件之前，還可以對待合成文本進行分詞處理，以便根據分詞的結果去獲取音節的語音文件。比如待合成文本是“我們在吃飯”，由於保存的語音文件是以“我們”、“在”、“吃飯”這種詞語的形式錄製儲存的，所以我們在獲取這些音節的語音文件之前可以對待合成文本“我們在吃飯”先進行分詞處理，以便找到對應的詞語或字的語音文件，對文本的分詞可通過分詞演算法來完成，將“我們在吃飯”分詞處理後即分成“我們”、“在”、“吃飯”，然後再獲取“我們”、“在”、“吃飯”這三個詞的語音文件，進行後續的語音合成。對於處理能力較弱的設備，比如嵌入式系統的設備，如果又要運行分詞演算法，又要進行語音合成，可能需要耗費較多的內部記憶體和功耗，會導致處理速度較慢。為了減小語音合成設備的資源消耗，在一個實施例中，對該文本進行分詞處理可以由伺服器端完成。由於設備的語音文件都是從伺服器端下載的，伺服器端保存的語音文件與設備的語音文件是一致的，所以服務可以根據語音文件將待合成文本進行分詞，然後將經過分詞的文本下發給設備。另外，如果待合成語音的文本是中文文本，在錄製音節的語音文件時，由於漢字的數量較多，如果儲存每個漢字的拼音，語音文件會很大，非常佔用內部記憶體資源，所以可以只儲存漢字音節的四個聲調，無需儲存每個漢字的拼音，這樣可以減小儲存的語音文件的大小，節約內部記憶體。在一個實施例中，該語音文件記錄有音節的音頻時長、採樣點的音強數據、採樣頻率、採樣精度和/或採樣點數量。其中，音頻時長為每個音節的發音時長，表徵每個音節發音的長短，音頻時長越短，則音節發音越短促。採樣頻率為每秒中採集採樣點音強數據的數量，比如採樣頻率為48K，表示1秒中採集48K個音強數據。每個音節的採樣點數量則為該音節的音頻時長與採樣頻率的乘積，比如“我”這個音節的音頻時長為1.2s，採樣頻率為48K，則“我”這個音節採樣數量一共有1.2×48K=57.6K個。採樣精度是指採集卡處理聲音的解析度，反映了聲音波形幅度(即音強)的精度。採樣精度越高，錄製和回放的聲音就越真實。採樣精度也叫採樣位數，由於聲音信號在保存的時候都是以二進制的形式保存，保存的位數可以是8位或16位，如果是8位，則採集的採樣點音強數值在0-256之間，如果是16位，則測得的採集的採樣點音強數值在0～65535之間。位數越多，聲音的質量越高，而需要的儲存空間也越多。一般在對音強進行處理的時候，會先對音強數據進行歸一化處理，比如採樣精度為8位時，採樣點音強數值在0-256之間，一般會對影響數據進行歸一化處理，使音強數值在0-1之間，便於後續處理。在獲取文本中的各音節的語音文件後，可以從語音文件中分別獲取相鄰兩音節指定採樣點的音強數據，其中，前一音節的指定採樣點為該音節的最後N個採樣點，後一音節的指定採樣點為該音節的前N個採樣點，其中，N為整數，將相鄰兩音節中前一音節最後N個採樣點與後一音節前N個採樣點的音強數據進行處理後，得到合成後的語音。例如，可以將前一個音節的最後1000個採樣點的音強數據與後一個音節前面1000個採樣點的數據進行處理，以便兩個音節在合成時，尾部過渡自然些。圖2為一文本在進行語音合成的示意圖，在合成“我喜歡跑步”這句話時，可以逐一將前一個音節的指定採樣點的音強和後一個音節的指定採樣點的音強進行處理，以得到合成後的文本，其中圖中4.5%和5%代表處理採樣點數量與前一音節採樣數量的比值。通過將相鄰兩音節的首尾部分的指定採樣點的音強數據進行處理，可得到銜接比較自然的合成語音。在對相鄰兩音節進行處理時，需要保留前後音節的本身的特點，所以處理的部分不能太多，還需考慮前後兩音節在處理時前後留白的問題，如果留白過長，則處理後的語音會出現明顯的停頓，造成合成的語音聽起來特別自然。綜合考慮以上因素，在一個實施例中，在確定指定採樣點時，需要處理的採樣點數量N可以基於相鄰兩音節是否組成詞語或四字成語、相鄰兩音節的採樣點數量、相鄰兩音節的最後M1個採樣點的平均音強和/或相鄰兩音節前M2個採樣點的平均音強計算得到，其中M1、M2為整數。如果兩個音節可以組成一個詞語或成語，在處理的時候需處理採樣點數量可以適當的多一些，所以可以根據相鄰兩音節是否可以組成詞語來確定需處理採樣點數量N。另外，每個音節開頭部分和末尾部分的音強也是處理時候需要重點關注的一個因素，所以，在計算需需處理採樣點數量N時，也可以基於相鄰兩音節相鄰兩音節的最後M1個採樣點的平均音強或相鄰兩音節前M2個採樣點的平均音強來計算。另外，在採樣頻率一定時，採樣點的數量的多少即反映了的每個音節音頻的時長，相鄰兩個音節的音頻時長的差別對合成語音的效果影響也比較大，如果兩個音節的音頻時長過大，說明兩個音節有輕重、快慢的差別，在處理時需處理採樣點的數量需要多一些，如果兩個音節的音頻時長相差不大，則需處理的採樣點的數量可以少一些。所以，在計算需處理採樣點數量N時，也可以考慮音節的採樣點數量。為了考慮相鄰兩音節的留白問題，在計算需處理採樣點數量時還可以考慮相鄰兩音節的開頭的平均音強和末尾的平均音強。末尾的平均音強可以通過計算音節最後M1個採樣點的平均音強獲得，開頭的平均音強可以取音節前M2個採樣點的平均音強獲得，其中M1和M2可以根據音節自身的特點去設定，比如M1為前一個音節採樣點總數的10%，M2為後一個音節採樣點總數的5%，或者M1為1000，M2為2000，本說明書不作限制。在一個實施例中，經過申請人的反復試驗，為了達到較好合成效果，使前後音節在合成後不會有明顯的停頓感， M1可以取前一個音節音頻採樣點總數的20%， M2可以取後一個音節音頻採樣點總數的20%。進一步的，在一個實施例中，需處理的採樣點的數量N可以通過以下公式去計算：

其中，Nw的不同取值表示當前相鄰兩音節是否組成詞語或四字成語，SNpre表示前一個音節的採樣數量，SNnext表示後一個音節的採樣數量；末尾平均音強_pre 表示前一個音節最後M1個採樣點的平均音強；開頭平均音強_next 表示後一個音節前M2個採樣點的平均音強，M1、M2為整數。在計算需處理採樣點數量N時可以考慮相鄰兩音節是否組成詞語或成語，為了方便計算需處理採樣點數量N，可以將相鄰兩音節是否組成詞語或成語時這個影響因素量化，即用Nw的不同數值來表示相鄰兩音節是否組成詞語或成語，便於N的計算，一般如果相鄰兩音節可以組成詞語，Nw數值會比不能組成詞語大。在一個實施例中，為了達到較好的合成效果，如果相鄰兩音節為一個詞語，則Nw取2，如果相鄰兩音節不在一個詞語或四字成語中，則Nw取1，如果相鄰兩音節在一個四字成語中，則Nw取2。當然，該Nw的取值可根據具體的情況去設定，本說明書不作限制。例如，需要合成“我”、“不”兩個音節，其中“我”這個音節的採樣為96K，“不”這個音節的採樣數量為48K，即SNpre=96K，SNnext=48K，這個音節不組成詞語，所以Nw可以取1，即Nw=1，取“我”這個音節的最後2K的採樣點的音強，計算最後2K個採樣點的平均音強為0.3，即末尾平均音強pre=0.3，取“不”這個音節的前面2K個採樣點的音強，計算前面2K個採樣點的平均音強為0.2，開頭平均音強next=0.2，代入公式計算，可得到N的值為3920。即取前一個音節的最後3920個採樣點與後一個音節前3920個採樣點的音強數據，將這些音強數據處理後得到合成的語音。在獲取指定採樣點的音強數據後，將兩個音節的該指定採樣點的音強進行處理具體方式也可以根據音節的特點來選擇，比如，在某些實施例中，可以將前一個音節的最後N個採樣點的音強與後一個音節的前N個採樣點音強直接相加，得到疊加的音強，比如需要處理前一個音節的最後五個採樣點的音強以及後一個音節的前五個採樣點的音強，前一個音節的最後五個採樣點的音強分別為0.15、0.10、0.05、0.03和0.01，後一個音節的前五個採樣點的音強分別為0.005、0.01、0.04、0.06、0.07和0.10，則處理後的疊加部分的語音的音強為0.155、0.11、0.09、0.09、0.08、0.11。當然，為了獲得更加優質和自然的合成效果，在某些實施例中，也可以將前一個音節的最後N個採樣點的音強與後一個音節的前N個採樣點音強分別乘以預設權重後再相加，得到疊加的音強，其中，該預設權重基於音節的前後順序與採樣點的前後順序設定。在進行前後相鄰兩音節的音強的處理的時候，可以將前後兩音節的音強乘以一個權重後再相加，比如，一般在處理部分的前面部分前一個音節要重一些，因此前一個音節的權重可以大一些，在處理部分的後面部分，後一個音節要重一些因而後一個音節的權重可以大一些。舉個例子，需要將前一個音節最後五個採樣點與後一個音節前五個採樣點的音強進行處理，前一個音節的最後五個採樣點音強分別為0.5、0.4、0.3、0.2和0.1，其中，五個採樣點的權重分別為90%、80%、70%、60%、50%，後一個音節前五個採樣點的音強分別為0.1、0.2、0.3、0.4、0.5，其中，五個採樣點的權重分別為10%、20%、30%、40%、50%，則處理後的音強分別為0.5×90%+0.1×10%、0.4×80%+0.2×20%、0.3×70%+0.3× 30%、0.2×70%+0.4×40%、0.1×50%+0.5×50%，即0.46、0.36、0.3、0.3、0.3。為了保證處理後的音節不會出現破音的現象，需要處理的指定採樣點的音強一般不會太大，避免處理後破音，在某個實施例中，指定採樣點的音強與該音節的採樣點的最大音強的比值小於0.5。比如，音節的所有採樣點中的音強最大的採樣點的音強為1，那麼指定的需要處理的採樣點的音強都小於0.5。以下用幾個具體實施例來進一步解釋本說明書提供的語音合成的方法。比如語音設備需要對“我喜歡跑步”這句話進行語音合成。在語音合成前，預先錄製有“我”、“喜”、“歡”、“跑”、“步”這五個漢字的讀音的五份語音文件，這五份語音文件保存在伺服器中。且五份語音文件的開頭記錄有語音文件的配置資訊，採樣頻率為48K，採樣精度為16位，以及每個讀音的音頻時長。其中，“我”、“喜”、“歡”、“跑”、“步”的音頻時長分別為1s、0.5s、1s、1.5s、0.8s。語音合成設備在收到需要合成語音的文本，“我喜歡跑步”後，會從伺服器下載這個5個音節的語音文件。然後按照文本的順序逐一對連續兩個音節做處理，比如先對“我”和“喜”進行處理，需要處理“我”最後一部採樣點和“喜”最前面一部分採樣點的音強，在處理前需要先根據以後公式計算需要處理的採樣點的數量：

其中，Nw的不同取值表示當前相鄰兩音節是否組成詞語或四字成語，如果相鄰兩音節為一個詞語，則該Nw取2，如果相鄰兩音節不在一個詞語或四字成語中，則Nw取1，如果相鄰兩音節在一個四字成語中，則Nw取2。SNpre表示前一個音節的採樣數量，SNnext表示後一個音節的採樣數量；末尾平均音強pre表示前一個音節最後20%的採樣點的平均音強；開頭平均音強next表示後一個音節前20%的採樣點的平均音強，M1、M2為整數。由於“我”和“喜”不能組成一個詞語或成語，所以公式中的Nw取1，“我”這個音節的採樣數量等於採樣頻率乘以音頻時長，即SNpre=0.5×48K=24K,“喜”這個音節的採樣數量SNnext=48K×1，“我”這個音節最後20%的採樣點的平均音強為0.3，“喜”這個音節最前面20% 的採樣點的平均音強為0.1，將這些數據代入以上公式，可以獲得需要處理的採樣點的數量為711，即從“我”這個音節的語音文件中獲取最後711個採樣點的音強數據，和“喜”這個音節的語音文件中獲取最前711個採樣點的音強數據，然後將獲取的音強數據直接相加，得到處理後的音強。同理，“喜”和“歡”，“歡”和“跑”，“跑”和“步”之間也採用同樣的方式進行處理，得到合成以後的文本“我喜歡跑步”。再比如，語音設備需要合成的文本為“我們愛天安門”，在錄製語音文件時，是以詞語的形式錄製的，即語音文件中包括有“我們”、“愛”、“天安門”三個詞的語音文件，語音文件預先從伺服器下載下來並保存在語音設備本地目錄當中。伺服器收到需要合成的文本“我們愛天安門”後，會根據語音文件的形式對文本進行分詞處理，分詞處理可通過分詞演算法完成。將文本分成“我們/愛/天安門”，然後將分詞處理後的文本下發給語音合成設備，語音合成設備在收到文本後，會先獲取“我們”、“愛”、“天安門”三個詞的語音文件，其中採樣頻率為48K，採樣精度為8位，以及三個詞讀音的音頻時長分貝為2s、1s、3s。然後先對“我們”和“愛”進行處理，處理前需要根據以下公式計算得到處理採樣點的數量：

其中，Nw的不同取值表示當前相鄰兩音節是否組成詞語或四字成語，如果相鄰兩音節為一個詞語，則該Nw取2，如果相鄰兩音節不在一個詞語或四字成語中，則Nw取1，如果相鄰兩音節在一個四字成語中，則Nw取2。SNpre表示前一個音節的採樣數量，SNnext表示後一個音節的採樣數量；末尾平均音強pre表示前一個音節最後15%的採樣點的平均音強；開頭平均音強next表示後一個音節前20%的採樣點的平均音強，M1、M2為整數。根據採樣頻率和音頻時長，可計算得到SNpre=96K，SNnext=48K，“我們”最後15%的採樣點的音強平均值為0.2，“愛”前20%的採樣點的平均音強為0.3，前後音節不組成詞語，Nw=1，將這些數據代入公式可計算得到處理採樣點數量為5689，即從語音文件中獲取“我們”最後5689個採樣點的音強數據和“愛”前面5689個採樣點音強的數據。在獲取處理採樣點的音強數據後，將“我們”每個採樣點的音強乘以一定的權重，再將“愛”每個採樣點的音強乘以一定的權重，然後再相加，得到處理部分的音強。同理，“愛”和“天安門”也採用同樣的處理方法，得到合成後的文本“我們”、“愛”、“天安門”。與上述一種語音合成方法相對應，本說明書還提供了一種語音合成裝置，如圖3所示，該語音合成裝置300包括：獲取單元301，獲取待合成語音的文本中的各音節的語音文件，該語音文件儲存有該音節的採樣點的音強數據；以及從相鄰兩音節的語音文件中分別獲取指定採樣點的音強數據；其中，前一音節的指定採樣點為該音節的最後N個採樣點，後一音節的指定採樣點為該音節的前N個採樣點，其中，N為整數；處理單元302，將兩個音節的該指定採樣點的音強數據進行處理，以獲得合成後的語音。在一個實施例中，該語音文件記錄有：音節的音頻時長、採樣點的音強數據、採樣頻率、採樣精度和/或採樣點數量。在一個實施例中，將兩個音節的該指定採樣點的音強數據進行處理具體包括：將前一個音節的最後N個採樣點的音強與後一個音節的前N個採樣點音強數據相加；或將前一個音節的最後N個採樣點的音強數據與後一個音節的前N個採樣點音強數據分別乘以預設權重後再相加，其中，該預設權重基於音節的前後順序與採樣點的前後順序設定。在一個實施例中，該待合成語音的文本為中文，該語音文件為記錄有漢字音節的四個聲調的語音文件。在一個實施例中，該指定採樣點的音強數據與該音節的採樣點的最大音強數據的比值小於0.5 。在一個實施例中，該N基於相鄰兩音節是否組成詞語或四字成語、相鄰兩音節的採樣點數量、相鄰兩音節的最後M1個採樣點的平均音強和/或相鄰兩音節前M2個採樣點的平均音強計算得到，其中M1、M2為整數在一個實施例中，該數M1為前一個音節音頻採樣點總數的20%，該M2為後一個音節音頻採樣點總數的20%。在一個實施例中，如果相鄰兩音節為一個詞語，則該轉化係數為2，如果相鄰兩音節不在一個詞語或四字成語中，則轉化係數1，如果相鄰兩音節在一個四字成語中，則轉化係數為2。在一個實施例中，該N具體計算公式如下：

其中，Nw的不同取值表示當前相鄰兩音節是否組成詞語或四字成語，SNpre表示前一個音節的採樣數量，SNnext表示後一個音節的採樣數量；末尾平均音強pre表示前一個音節最後M1個採樣點的平均音強；開頭平均音強next表示後一個音節前M2個採樣點的平均音強，M1、M2為整數。在一個實施例中，在獲取待合成語音的文本中的各音節的語音文件之前，還包括：對該文本進行分詞處理。在一個實施例中，對該文本進行分詞處理由伺服器端完成。上述裝置中各個單元的功能和作用的實現過程具體詳見上述方法中對應步驟的實現過程，在此不再贅述。對於裝置實施例而言，由於其基本對應於方法實施例，所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的，其中該作為分離零件說明的單元可以是或者也可以不是實體上分開的，作為單元顯示的零件可以是或者也可以不是實體單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本說明書方案的目的。本領域普通技術人員在不付出創造性勞動的情況下，即可以理解並實施。另外，本說明書還提供了一中語音合成設備，如圖4所示，該語音合成設備包括：處理器401和記憶體402；該記憶體用於儲存可執行的電腦指令；該處理器用於執行該電腦指令時實現以下步驟：獲取待合成語音的文本中的各音節的語音文件，該語音文件儲存有該音節的採樣點的音強數據；從相鄰兩音節的語音文件中分別獲取指定採樣點的音強數據；其中，前一音節的指定採樣點為該音節的最後N個採樣點，後一音節的指定採樣點為該音節的前N個採樣點，其中，N為整數；將兩個音節的該指定採樣點的音強進行處理，以獲得合成後的語音。以上所述僅為本說明書的較佳實施例而已，並不用以限制本說明書，凡在本說明書的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本說明書保護的範圍之內。

S102~S106:步驟 300:語音合成裝置 301:獲取單元 302:處理單元 400:語音合成設備 401:處理器 402:記憶體

此處的圖式被併入說明書中並構成本說明書的一部分，示出了符合本發明的實施例，並與說明書一起用於解釋本發明的原理。圖1為本說明書一示例性實施例示出的一種語音合成方法流程圖；圖2為本說明書一示例性實施例示出的一種語音合成方法示意圖；圖3為本說明書一示例性實施例示出的一種語音合成裝置的邏輯方塊圖；圖4為本說明書一示例性實施例示出的一種語音合成設備的邏輯方塊圖。

Claims

一種語音合成的方法，該方法包括：獲取待合成語音的文本中的各音節的語音文件，該語音文件儲存有該音節的採樣點的音強數據；從相鄰兩音節的語音文件中分別獲取指定採樣點的音強數據；其中，前一音節的指定採樣點為該音節的最後N個採樣點，後一音節的指定採樣點為該音節的前N個採樣點，其中，N為整數；將兩個音節的該指定採樣點的音強數據進行處理，以獲得合成後的語音。
如請求項1所述的一種語音合成的方法，該語音文件記錄有：音節的音頻時長、採樣點的音強數據、採樣頻率、採樣精度和/或採樣點數量。
如請求項1所述的一種語音合成的方法，將兩個音節的該指定採樣點的音強進行處理具體包括：將前一個音節的最後N個採樣點的音強數據與後一個音節的前N個採樣點音強數據相加；或將前一個音節的最後N個採樣點的音強數據與後一個音節的前N個採樣點音強數據分別乘以預設權重後再相加，其中，該預設權重基於音節的前後順序與採樣點的前後順序設定。
如請求項1所述的一種語音合成的方法，該待合成語音的文本為中文，該語音文件為記錄有漢字音節的四個聲調的語音文件。
如請求項1所述的一種語音合成的方法，該指定採樣點的音強數據與該音節的各採樣點的最大音強數據的比值小於0.5 。
如請求項1所述的一種語音合成的方法，該N基於相鄰兩音節是否組成詞語或四字成語、相鄰兩音節的採樣點數量、相鄰兩音節的最後M1個採樣點的平均音強和/或相鄰兩音節前M2個採樣點的平均音強確定，其中M1、M2為整數。
如請求項6所述的一種語音合成的方法，該M1為前一個音節採樣點總數的20%，該M2為後一個音節採樣點總數的20%。
如請求項6所述的一種語音合成的方法，該N具體計算公式如下：
其中，Nw的不同取值表示相鄰兩音節是否組成詞語或四字成語，SNpre表示前一個音節的採樣數量，SNnext表示後一個音節的採樣數量；末尾平均音強_pre 表示前一個音節最後M1個採樣點的平均音強；開頭平均音強_next 表示後一個音節前M2個採樣點的平均音強。
如請求項8所述的一種語音合成的方法，如果相鄰兩音節為一個詞語，則該Nw的值為2，如果相鄰兩音節不在一個詞語或四字成語中，則Nw的值為1，如果相鄰兩音節不在一個詞語且在一個四字成語中，則Nw的值為2。
如請求項1所述的一種語音合成的方法，在獲取待合成語音的文本中的各音節的語音文件之前，還包括：對該文本進行分詞處理。
如請求項10所述的一種語音合成的方法，對該文本進行分詞處理由伺服器端完成。
一種語音合成裝置，該裝置包括：獲取單元，獲取待合成語音的文本中的各音節的語音文件，該語音文件儲存有該音節的採樣點的音強數據；以及從相鄰兩音節的語音文件中分別獲取指定採樣點的音強數據；其中，前一音節的指定採樣點為該音節的最後N個採樣點，後一音節的指定採樣點為該音節的前N個採樣點，其中，N為整數；處理單元，將兩個音節的該指定採樣點的音強數據進行處理，以獲得合成後的語音。
一種語音合成設備，該語音合成設備包括：處理器和記憶體；該記憶體用於儲存可執行的電腦指令；該處理器用於執行該電腦指令時實現請求項1至11中任一項所述的方法的步驟。