TWI394142B

TWI394142B - 歌聲合成系統、方法、以及裝置

Info

Publication number: TWI394142B
Application number: TW098128479A
Authority: TW
Inventors: Hsing Ji Li; Hong Ru Lee; Wen Nan Wang; Chih Hao Hsu; Jyh Shing Jang
Original assignee: Inst Information Industry
Priority date: 2009-08-25
Filing date: 2009-08-25
Publication date: 2013-04-21
Also published as: US20110054902A1; TW201108202A; FR2949596A1; JP2011048335A

Description

歌聲合成系統、方法、以及裝置

本發明主要關於一種歌聲合成技術，特別係有關於一種能夠產生擬真歌聲的歌聲合成系統、裝置與方法。

近年來，隨著資訊科技的發展逐漸成熟，電子計算裝置所具備的處理能力也大幅提昇，使得許多複雜的應用得以實現，其中之一便是語音或歌聲合成之相關技術。一般而言，語音合成可泛指為以人工方式產生接近真人語音的技術，目前已有許多相關應用存在，例如：虛擬歌手、電子寵物、練唱軟體、作曲家與歌手的模擬組合等，其相應之需求也逐日漸增。而在傳統架構上，如第1圖所示，普遍的語音、歌聲合成方法必須預先錄製真人的語音資料以建立語料庫(Corpus Database)20，以此作為文字與語音之間轉換的依據，其中語料的輸入又可分為單音節語料(Single-Syllable-based Corpus)21的輸入，以中文為例：ㄅ、ㄆ、ㄇ等中文單音節，還有字詞語料(Coarticulation-based Corpus)22的輸入，如：明天、後天等等，以及歌曲詞句語料(Song-based Corpus)23的輸入。

第1圖係顯示傳統歌聲合成方法之流程圖。首先，輸入選定歌曲之樂器數位介面(Musical Instrument Digital Interface，MIDI)檔與歌詞資料，其中該樂器數位介面檔包含有選定歌曲之樂譜(score)，包括節拍與音符等資訊，於步驟S101，根據所輸入之樂器數位介面檔與歌詞資料進行字詞切割(Word Segmentation)取得語音標籤(Phonetic Label)，然後於步驟S102進行字詞推導，從語料庫20中挑選出最符合之語料，而後於步驟S103調校音長(duration)與音高(pitch)，最後，於步驟S103進行音與音之間的連接與平滑處理、加入回音效果、伴奏音樂，並得到合成之歌聲。然而，上述傳統技術卻存在下列缺點：

(一)建立語料庫需耗費長時間進行語料之錄製，且語料庫需要龐大的儲存空間。

(二)字詞推導程序複雜，需耗費大量系統資源，且容易發生字詞切割錯誤之問題。

(三)以中文語言而言，歌聲合成的效果不佳，聽起來有明顯的機械音。

(四)受限於預錄的語料庫，只能產出固定音色，若要更換音色則必須重新錄製語料庫。

(五)整體程序複雜，產生合成歌聲所需時間較長，無法即時取得合成歌聲。

因此，整體而言，傳統的歌聲合成方法在成本上、效率上、以及合成歌聲的流暢度而言，仍然無法滿足一般使用者之需求。

本發明之目的在於提供一種直覺式的歌聲合成系統、方法、以及裝置，讓使用者不必熟習樂理或擅長歌唱，只要用口語的方式按照節拍輸入聲音訊號，即可得到擁有個人音色的歌聲。

本發明所提供的歌聲合成系統，包括一儲存單元、一節拍單元、一輸入單元、以及一處理單元。儲存單元用以儲存至少一旋律；節拍單元用以依據上述至少一旋律中一特定旋律來提示一節拍；輸入單元用以接收複數聲音訊號，其中上述聲音訊號係對應上述特定旋律；處理單元用以依據上述特定旋律及上述聲音訊號產生一合成歌聲訊號。

本發明所提供的歌聲合成方法，適用於一電子計算裝置，其步驟包括根據一旋律提示一節拍；透過上述電子計算裝置之一收音模組接收複數聲音訊號，其中上述聲音訊號係對應上述特定旋律；依據上述特定旋律及上述聲音訊號產生一合成歌聲訊號，並透過上述電子計算裝置之一播音模組輸出上述合成歌聲訊號。

本發明所提供的歌聲合成裝置，包括一殼體、一儲存器、一節拍機構、一收音器、以及一處理器。儲存器設置於上述殼體內部，連接至上述處理器，儲存有至少一旋律；節拍機構設置於上述殼體外部，連接至上述處理器，依據上述至少一旋律中一特定旋律來提示一節拍；由收音器設置於上述殼體外部，連接至上述處理器，接收複數聲音訊號，其中上述聲音訊號係對應上述特定旋律；以及，處理器設置於上述殼體內部，依據上述特定旋律及上述聲音訊號產生一合成歌聲訊號。

關於本發明其他附加的特徵與優點，此領域之熟習技術人士，在不脫離本發明之精神和範圍內，當可根據本案實施方法中所揭露在行動通訊系統中執行聯繫程序之使用者裝置、系統、以及方法，做些許的更動與潤飾而得到。

為使本發明之上述目的、特徵和優點能更明顯易懂，下文特舉一些較佳實施例，並配合所附圖式，作詳細說明如下：第2圖為根據本發明一實施例所述之歌聲合成系統之架構圖。歌聲合成系統200中包含有儲存單元201、節拍單元202、輸入單元203、以及處理單元204。當一歌曲要進行歌聲合成時，儲存單元201儲存有複數首歌曲之旋律，可提供該歌曲之旋律予節拍單元202，節拍單元202再根據該歌曲之旋律提示對應之節拍(tempo)，該節拍指的是依據該歌曲旋律之固定頻率的拍子，可輔助使用者以口語的方式誦讀或哼唱該歌曲之歌詞，輸入單元203則用以接收上述使用者誦讀或哼唱所產生之複數聲音訊號，上述聲音訊號係對應上述該旋律，且符合該節拍。最後，處理單元204再依據該旋律和上述聲音訊號進行處理，產生一合成歌聲訊號。

在某些實施例中，上述旋律可為一聲波(Waveform Audio，WAV)檔，節拍單元202可藉由拍子追蹤(beat tracking)的技術標記出該歌曲之節拍。而在其它實施例中，上述旋律可為一樂器數位介面(Musical Instrument Digital Interface，MIDI)檔，節拍單元202可直接抓取樂器數位介面檔中的節拍事件(tempo event)數據以得到該歌曲之節拍。而節拍單元202依據旋律來提示的節拍，可以有多種實施方式，如經由一顯示單元所產生之視覺訊號，例如移動、跳躍、閃爍或變色的符號；或為由一輸出單元所產生之聲音訊號，例如模仿節拍器的「答、答~」聲，或是由一機械結構所提供之節拍動作，例如搖擺、旋轉、跳動，或是如節拍器的擺針擺動；亦或是由一發光單元所產生燈光的閃爍、變色等。

在某些實施例中，為了讓使用者所輸入的複數聲音訊號的節奏(rhythm)具有一定程度的正確性，節奏分析單元(未繪示)在接收到使用者所輸入之複數聲音訊號後，根據該歌曲之旋律判斷該聲音訊號所具有的既定節奏是否超過一預設容許誤差值，該節奏指的是歌詞的每個字配合旋律出現的快慢狀態。如果上述既定節奏超過預設容許誤差值，則節奏分析單元(未繪示)提示使用者重複上述輸入聲音訊號之步驟；此關於判斷節奏誤差之運作細節將在稍後於第3圖進一步描述。或者，節奏分析單元(未繪示)也可以設計成在接收到使用者所輸入之複數語音訊號後，再進一步將該聲音訊號輸出由使用者自行決定是否接受此錄製版本，若不接受，則提供一操作介面以供使用者操作選擇重新輸入複數聲音訊號，以取代舊聲音訊號。另外，在其它實施例中，使用者亦可以歌唱的方式產生並輸入該聲音訊號，或者也可輸入事先所錄製或處理過的聲音訊號。

上述處理單元204主要是依據該旋律和上述聲音訊號進行處理，產生一合成歌聲訊號。在一些實施例中，所進行的處理包括將上述聲音訊號執行音高拉平以取得複數相同音高訊號，以及依據該旋律，將上述相同音高訊號調校至對應於該歌曲之旋律所指示之複數標準音高，以取得複數調校後聲音訊號。更進一步時，可再將該調校過之複數調校後聲音訊號執行平滑處理，以產生一平滑處理後聲音訊號。以下再以一些詳細實施例來進行說明。

在一些實施例中，處理單元204可執行一音高分析程序，透過音高追蹤(Pitch Tracking)、音高標記(Pitch Marking)，以將上述聲音訊號執行音高拉平以取得複數相同音高訊號。接著，處理單元204針對複數相同音高訊號執行音高調校程序，例如運用基週同步疊加法(Pitch Synchronous OverLap-Add，PSOLA)、交叉消退法(Cross-Fadding)、或重新取樣法(Resample)，將複數相同音高訊號分別調校至對應於該歌曲之旋律所指示之複數標準音高，以取得複數調校後聲音訊號；此關於基週同步疊加法、交叉消退法、以及重新取樣法之運作細節將在稍後分別於第4、5、6A與6B圖進一步描述。然後，處理單元204再針對複數調校後聲音訊號執行平滑處理程序，例如運用線性內插法(interpolation)、雙線性內插法、或多項式內插法將上述調校後聲音訊號連接起來以取得一平滑處理後聲音訊號；其中關於多項式內插法之運作細節將在稍後於第7A~7C圖進一步描述。

在另一些實施例中，處理單元204進一步將該平滑處理後聲音訊號執行歌聲特效處理程序，其可根據歌聲合成系統200之系統負載狀況決定取樣音框之大小，然後將該平滑處理後聲音訊號以取樣音框大小依序進行音量調整、加入抖音、以及加入回音效果，產生一特效處理後聲音訊號。在另一些實施例中，處理單元204可針對上述之多種聲音訊號，如複數調校後聲音訊號、平滑處理後聲音訊號或特效處理後聲音訊號等，執行伴奏合成程序，將該歌曲之伴奏音樂與上述各種聲音訊號合成以取得一伴奏歌聲訊號。前述之調校後聲音訊號、平滑處理後聲音訊號、特效處理後聲音訊號、伴奏歌聲訊號等，皆為本發明之合成歌聲訊號的實施樣態，一合成歌聲訊號可以是一包含有複數聲音訊號(如上述調校後、平滑處理後、特效處理後、或伴奏處理後之聲音訊號)的檔案，且該合成歌聲即具有該使用者之音色。在某些實施例中，歌聲合成系統200可再包括一輸出單元，用以將合成歌聲訊號輸出，而該輸出單元可更進一步結合節拍單元202或其他顯示單元，於輸出該合成歌聲訊號時，依據該合成歌聲訊號來顯示節拍，如上述之搖擺、旋轉、跳動等動作，或移動、跳躍、閃爍、變色等視覺符號，或模仿節拍器「答、答~」聲的聲音訊號等。

第3圖係根據本發明一實施例所述之判斷節奏誤差之示意圖。如第3圖所示，一段歌詞的聲音訊號輸入包括有歌詞 1~歌詞3。在某些實施例中，儲存單元201中除了儲存上述歌曲之旋律之外，可進一步儲存對應該旋律之歌詞，以及對應於歌詞之節奏。節奏分析單元(未繪示)根據歌曲之旋律取得這段歌詞的標準節拍r(i)，其中r(1)、r(2)代表歌詞1之時間區間端點，r(3)、r(4)代表歌詞2之時間區間端點，r(5)、r(6)代表歌詞3之時間區間端點，位於時間區間端點前的虛線代表提前輸入的誤差容許時間，位於時間區間端點後的虛線代表延遲輸入的誤差容許時間，所以時間區間端點前後的虛線所形成的區間即為誤差容許值μ。而使用者所輸入的複數語音訊號具有一既定節奏，該既定節奏以c(i)表示，那麼在此實施例中，累計誤差值可用函式(1)表示：，其中j代表一整段歌詞中之一部分歌詞的聲音訊號輸入，且當計算出的結果P(j)大於μ則可重新輸入該部分歌詞之聲音訊號。

第4圖係根據本發明一實施例所述使用基週同步疊加法之音高調校示意圖。如第4圖所示，最上方的橫軸代表的是完成音高分析程序的語音訊號，箭號指標代表標記音高，在此實施例中，所要調校的目標音高為原來音高的2倍，所以將標記音高之間的距離縮減為原來的1/2；反之，若所要調校的目標音高為原來音高的1/2，則將標記音高之間的距離放大2倍。然後每兩個音高之間，皆以一個漢明窗(Hamming window)來重新塑型(model)，其中漢明窗的計算可用函式(2)表示：，其中N代表取樣(sample)的時間寬度，m代表在取樣的時間寬度內的時間點。最後再將此經過漢明窗加成的波形以重疊方式累加起來，形成一個新的語音訊號波形。

第5圖係根據本發明一實施例所述使用交叉消退法之音高調校示意圖。交叉消退法是一種類似基週同步疊加法的音高調校方法，所需計算時間較少，但相對地，語音的合成就沒有基週同步疊加法來的平滑。利用交叉消退法能很輕易地改變音高的高低，而且以三角窗(triangular window)的方式取代了基週同步疊加法中漢明窗的做法，其流程與基週同步疊加法相同，在得到正確的音高後，再由這些音高和三角窗做內積相乘出一個語音訊號波形。

第6A、6B圖係根據本發明一實施例所述使用重新取樣法之音高調校示意圖。如第6A圖所示的重新取樣法是根據旋律的指示，以降低取樣(down sampling)的方式將原語音訊號移位(shift)升為原來的2倍音高，反之，如第6B圖所示，若要將原語音訊號移位，使其音高降為原來的1/2倍，則是以提高取樣(up sampling)的方式進行。

由於在真人演唱歌曲的過程中，不同音高之間的轉換並沒有辦法像電腦一樣，每次都直接從一個音高精準地到達目標音高，尤其在音高變化幅度較大的時候，通常會先超過目標音高一些，再平滑地到達目標音高，因此為了要模擬這個真人歌聲的特徵，所以在本發明的一實施例中，採用了貝茲曲線(Bézier curve)來進行平滑處理程序的運作。以三次方貝茲曲線為例，四個控制點P₀ 、P₁ 、P₂ 、P₃ 標示如第7A圖所示，其中控制點之間的關係以函式(3)代表：其中，δ為一參數，隨著音高變化幅度而增加，且其值介於0與1之間，為十二平均律音階半音之比值。另外，函式(3)中的運算符號「±」表示若音高變化是向上，則為「+」，反之，則為「-」。如7A圖所示，設定控制點P₀ 為起始音高、控制點P₃ 為目標音高，取控制點P₀ 往右2毫秒為控制點P₂ ，取控制點P₂ 往左1毫秒為控制點P₁ ，而後，以函式(3)帶入三次方貝茲曲線的公式B (t )=P ₀ (1-t )³ +3P ₁ t (1-t )² +3P ₂ t ² (1-t )+P ₃ t ³ ,t [0,1]，計算出連接P₀ 與P₃ 的曲線。

在本發明之另一實施例中，使用四次方貝茲曲線來進行平滑處理程序的運作。五個控制點P₀ 、P₁ 、P₂ 、P₃ 、P₄ 之間的關係以函式(4)代表：其中，δ為一參數，隨著音高變化幅度而增加，且其值介於0與1之間，為十二平均律音階半音之比值。另外，函式(4)中的運算符號「±」表示若音高變化是向上，則為「+」，反之，則為「-」。如7B圖所示，設定控制點P₀ 為起始音高，取控制點P₀ 往右60毫秒為控制點P₂ ，取控制點P₂ 往左10毫秒為控制點P₁ ，取控制點P₂ 往右40毫秒為控制點P₄ ，取控制點P₄ 往左20毫秒為控制點P₃ ，而後，以函式(4)帶入四次方貝茲曲線的公式：，計算出連接P₀ 與P₄ 的曲線。

在本發明之另一實施例中，使用五次方貝茲曲線來進行平滑處理程序的運作。六個控制點P₀ 、P₁ 、P₂ 、P₃ 、P₄ 、P₅ 之間的關係以函式(5)代表：其中，δ為一參數，隨著音高變化幅度而增加，且其值介於0與1之間，為十二平均律音階半音之比值。另外，函式(5)中的運算符號「±」表示若音高變化是向上，則為「+」，反之，則為「-」。如7C圖所示，設定控制點P₀ 為起始音高、控制點P₅ 為目標音高，取控制點P₀ 往右2毫秒為控制點P₂ ，取控制點P₂ 往左1毫秒為控制點P₁ ，取控制點P₂ 往右2毫秒為控制點P₄ ，取控制點P₄ 往左1毫秒為控制點P₃ ，而後，以函式(5)帶入五次方貝茲曲線的公式：，計算出連接P₀ 與P₅ 的曲線。

第8圖係根據本發明一實施例所述之歌聲合成方法之流程圖。該歌聲合成方法適用於一電子計算裝置，首先，根據一選定歌曲之旋律取得該歌曲之節拍，然後提示該節拍(步驟S801)，提示該節拍之主要功效，係可讓一使用者可根據節拍提示以口語的方式誦讀或哼唱該歌曲之歌詞，然後透過該電子計算裝置之一收音模組接收複數聲音訊號(步驟S802)，上述聲音訊號可以是該使用者根據該歌曲之歌詞資訊產生，且較佳地上述聲音訊號係依據該節拍所產生。該歌聲合成方法再針對該旋律和上述聲音訊號進行處理，並透過上述電子計算裝置之一播音模組輸出一合成歌聲訊號(步驟S803)。

該電子計算裝置可包括一顯示單元，產生視覺訊號作為上述之節拍，例如移動、跳躍、閃爍或變色的符號；或該電子計算裝置可包括一輸出單元，產生聲音訊號作為上述之節拍，例如模仿節拍器的「答、答~」聲；或該電子計算裝置可包括一機械結構，提供節拍動作作為上述之節拍，例如搖擺、旋轉、跳動，或是節拍器的擺針結構；或該電子計算裝置亦可包括一發光單元，產生燈光的閃爍、變色等作為上述之節拍。而為了讓使用者所輸入的複數聲音訊號的節奏具有一定程度的正確性，上述歌聲合成方法可在接收到使用者所輸入之複數語音訊號後，進一步根據該歌曲之旋律判斷該聲音訊號所具有的既定節奏是否超過一預設容許誤差值，若是，則提示使用者重複上述輸入聲音訊號之步驟；此關於判斷節奏誤差之運作可採用如第3圖所示之方式。或者，上述歌聲合成方法也可以設計成在接收到使用者所輸入之複數語音訊號後，進一步將該聲音訊號輸出由使用者自行決定是否接受此錄製版本，若不接受，則重複上述輸入聲音訊號之步驟。另外，在其它實施例中，使用者亦可以歌唱的方式產生並輸入該聲音訊號，或者也可輸入事先所錄製或處理過的聲音訊號。

如第9A圖所示，上述歌聲合成方法針對該聲音訊號所進行的處理可進一步再細分為以下步驟：首先，針對該聲音訊號執行音高分析程序(步驟S803-1)，透過音高追蹤、音高標記，以將上述聲音訊號執行音高拉平以取得複數相同音高訊號。接著，針對複數相同音高執行音高調校程序(步驟S803-2)，例如運用基週同步疊加法、交叉消退法、或重新取樣法，將複數相同音高訊號分別調校至對應於該歌曲之旋律所指示之複數標準音高，以取得複數調校後聲音訊號；此關於基週同步疊加法、交叉消退法、以及重新取樣法之運作可採用如上述關於第4、5、6A與6B圖之方式。

如第9B圖所示，在某些實施例中，上述歌聲合成方法在音高分析程序與音高調校程序之後，可再繼續針對複數調校後聲音訊號執行平滑處理程序(步驟S803-3)，例如運用線性內插法、雙線性內插法、或多項式內插法，將上述調校後聲音訊號連接起來以取得一平滑處理後聲音訊號；其中關於多項式內插法之運作可採用如上述關於第7A~7C圖之方式。

如第9C圖所示，在某些實施例中，上述歌聲合成方法在音高分析程序、音高調校程序、以及平滑處理程序之後，可再進一步針對該平滑處理後聲音訊號執行歌聲特效處理程序(步驟S803-4)，其可根據該電子計算裝置之系統負載狀況決定取樣音框之大小，然後將該平滑處理後聲音訊號以取樣音框大小依序進行音量調整、加入抖音、以及加入回音效果，產生一特效處理後聲音訊號。

如第9D圖所示，在某些實施例中，上述歌聲合成方法可將上述之多種聲音訊號，如複數調校後聲音訊號、平滑處理後聲音訊號或特效處理後聲音訊號等，執行伴奏合成程序(步驟S803-5)，將該歌曲之伴奏音樂與模擬歌聲訊號合成以取得一伴奏歌聲訊號後，再將該伴奏歌聲訊號輸出。前述之複數調校後聲音訊號、平滑處理後聲音訊號、特效處理後聲音訊號、伴奏歌聲訊號等，皆為本發明之合成歌聲訊號的實施樣態，且該合成歌聲即具有該使用者之音色。

實施該歌聲合成方法之電子計算裝置可為桌上型電腦、筆記型電腦、手持通訊裝置、電子公仔、電子寵物等。另外，該電子計算裝置可包括一歌曲資料庫，用以儲存復數首(如使用者喜愛的)歌曲之旋律，讓使用者可從中挑選欲進行歌聲合成的歌曲，且該歌曲資料庫亦可儲存歌曲所對應之歌詞，以及對應於歌詞之節奏。

第10圖為根據本發明一實施例所述之歌聲合成裝置之架構圖。如圖所示，歌聲合成裝置1000可為一電子公仔，在其它實施例中，歌聲合成裝置1000亦可為桌上型電腦、筆記型電腦、手持通訊裝置、掌上型裝置、個人數位助理器、電子寵物裝置、機器人、收錄音機、或是音樂光碟播放機等。歌聲合成裝置1000至少包括一殼體1010、一儲存器1020、一節拍機構1030、一收音器1040、一處理器1050。儲存器1020設置於殼體1010內部，連接至處理器1050，儲存有複數首歌曲之旋律，可提供該歌曲之旋律予節拍機構1030。節拍機構1030設置於殼體1010外部，連接至處理器1050，可依據上述旋律中之一特定旋律提示對應的節拍，輔助使用者按照以口語的方式誦讀或哼唱該歌曲之歌詞。收音器1040設置於殼體1010外部，接收上述使用者誦讀或哼唱所產生之複數聲音訊號。而處理器1050設置於殼體1010內部，依據上述特定旋律和上述聲音訊號進行處理，產生一合成歌聲訊號。

如第10圖之實施例，儲存器1020可設置於電子公仔的軀幹部位，為一記憶體，如Flash、Hard disk、Cache等。上述旋律可為一聲波檔或一樂器數位介面檔，而節拍機構1030可以有多種實施方式，例如為一發光器，如第10圖所示設置於電子公仔的眼部區域，可產生燈光的閃爍、變色等，實作上可運用發光二極體或其它具有發光性質的物件來完成；或另一種節拍機構1030可設置於電子公仔的手部區域，為一可動式機械結構，提供搖擺、旋轉、跳動，或是如節拍器的擺針擺動，實作上可運用類似鋼琴節拍器的擺針物件來完成；或另一種節拍機構1030可為一顯示器，設置於電子公仔的腹部區域，產生例如移動、跳躍、閃爍或變色的符號等等的視覺訊號；亦或又一種節拍機構1030可為一播音器設置於電子公仔的口部區域，輸出例如模仿節拍器的「答、答~」聲。收音器1040可設置於電子公仔的耳部區域，例如為一麥克風、一集音器、一錄音器或其它具有收音功能之物件，其中上述聲音訊號係對應上述特定旋律且符合該節拍。

處理器1050可設置於電子公仔的殼體內部，為一嵌入式微型處理器及其運作時所需之其它物件。處理器1050其連接儲存器1020、節拍機構1030、以及收音器1040，主要是依據上述特定旋律和上述聲音訊號進行處理，產生一合成歌聲訊號。在一些實施例中，所進行的處理包括將上述聲音訊號執行音高拉平以取得複數相同音高訊號，以及依據上述特定旋律，將上述相同音高訊號調校至對應於上述特定旋律所指示之複數標準音高，以取得複數調校後聲音訊號。更進一步時，處理器1050可再將該調校過之複數調校後聲音訊號執行平滑處理，以產生一平滑處理後聲音訊號。

在另一些實施例中，處理器1050可執行一音高分析處理，透過音高追蹤、音高標記，再執行音高拉平以取得複數相同音高。接著，處理器1050針對複數相同音高執行一音高調校處理，運用基週同步疊加法、交叉消退法、或重新取樣法將複數相同音高分別調校至對應於上述特定旋律所指示之複數標準音高，以取得複數調校後聲音訊號；此關於基週同步疊加法、交叉消退法、以及重新取樣法之運作細節可參照上述關於第4、5、6A與6B圖之敘述。然後，處理器1050再針對複數調校後聲音訊號執行一平滑處理，運用線性內插法、雙線性內插法、或多項式內插法將上述調校後聲音訊號連接起來以取得一平滑處理後聲音訊號；其中關於多項式內插法之運作細節可參照上述關於第7A~7C圖之敘述。

在另一些實施例中，處理器1050可進一步針對該平滑處理後聲音訊號，執行一歌聲特效處理，根據歌聲合成裝置1000之系統負載狀況決定取樣音框之大小，然後將模擬歌聲訊號以取樣音框大小依序進行音量調整、加入抖音、以及加入回音效果。在另一些實施例中，處理器1050可針對上述之多種聲音訊號，如複數調校後聲音訊號、平滑處理後聲音訊號或特效處理後聲音訊號等，執行一伴奏合成處理，將該歌曲之伴奏音樂與上述各種聲音訊號合成以取得一伴奏歌聲訊號。前述之複數調校後聲音訊號、平滑處理後聲音訊號、特效處理後聲音訊號、伴奏歌聲訊號等，皆為本發明之合成歌聲訊號的實施樣態，且該合成歌聲即具有該使用者之音色。

在某些實施例中，歌聲合成裝置1000可再包括一播音器(未繪示)，設置於殼體1010外部，連接於處理器1050，將合成歌聲訊號輸出。如第10圖之實施例，播音器可設置於電子公仔的口部區域，為一喇叭、一擴音器、一耳機、一聲音播放器、或其它具有播音功能之器材、物件。更進一步時，節拍機構1030可於播音器輸出該合成歌聲訊號時，配合顯示該合成歌聲訊號之節拍，如上述之搖擺、旋轉、跳動等動作，或移動、跳躍、閃爍、變色等視覺符號，或模仿節拍器「答、答~」聲的聲音訊號。

為了讓使用者所輸入的複數聲音訊號的節奏具有一定程度的正確性，處理器1050可再進行一節奏分析處理，在接收到使用者所輸入之複數語音訊號後，根據該歌曲之旋律判斷該聲音訊號所具有的既定節奏是否超過一預設容許誤差值。如果上述既定節奏超過預設容許誤差值，則提示使用者重新輸入聲音訊號，細節可參照上述關於第3圖之敘述。另一種實施方式，也可由處理器1050和收音器1040，於接收到使用者所輸入之複數語音訊號後，將該聲音訊號經由播音器輸出，讓使用者自行決定是否接受，或是重新輸入複數聲音訊號以取代舊聲音訊號。另外，在其它實施例中，使用者亦可以歌唱的方式產生並輸入上述聲音訊號，或者也可輸入事先所錄製或處理過的聲音訊號。

如上述之實施例，本發明所述之於聲音訊號是使用者依據該旋律、節拍所誦讀或哼唱所產生，因此每個聲音訊號係分別對應至該旋律及其節拍，可直接將該聲音訊號進行處理，節省習知技術中需大量預先錄製的大量使用者語料庫的時間和成本，達到節省系統資源以及加速歌曲合成速度之效果，而最終獲得之合成歌聲係更具有使用者之音色，且效果相當擬真，為一般習知技術所無法達成。

本發明雖以各種實施例揭露如上，然而其僅為範例參考而非用以限定本發明的範圍，任何熟習此項技藝者，在不脫離本發明之精神和範圍內，當可做些許的更動與潤飾。因此上述實施例並非用以限定本發明之範圍，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

20‧‧‧語料庫

21‧‧‧單音節語料

22‧‧‧字詞語料

23‧‧‧歌曲詞句語料

200‧‧‧歌聲合成系統

201‧‧‧儲存單元

202‧‧‧節拍單元

203‧‧‧輸入單元

204‧‧‧處理單元

1000‧‧‧歌聲合成裝置

1010‧‧‧外殼

1020‧‧‧儲存器

1030‧‧‧節拍機構

1040‧‧‧收音器

1050‧‧‧處理器

第1圖係根據傳統語音合成架構所述之歌聲合成方法之流程圖。

第2圖為根據本發明一實施例所述之歌聲合成裝置之架構圖。

第3圖係根據本發明一實施例所述之語音輸入誤差偵測示意圖。

第4圖係根據本發明一實施例所述使用基週同步疊加法之音高調校示意圖。

第5圖係根據本發明一實施例所述使用交叉消退法之音高調校示意圖。

第6A、6B圖係根據本發明一實施例所述使用重新取樣法之音高調校示意圖。

第7A、7B、7C圖係根據本發明一實施例所述使用貝茲曲線之平滑處理示意圖。

第8圖係根據本發明一實施例所述之歌聲合成方法之流程圖。

第9A、9B、9C、9D圖係根據本發明其它實施例所述之歌聲合成方法之流程圖。

第10圖為根據本發明一實施例所述之歌聲合成裝置之架構圖。

200‧‧‧歌聲合成系統

201‧‧‧儲存單元

202‧‧‧節拍單元

203‧‧‧輸入單元

204‧‧‧處理單元

Claims

一種歌聲合成系統，包括：一儲存單元，用以儲存至少一旋律；一節拍單元，用以依據上述至少一旋律中一特定旋律來提示一節拍；一輸入單元，用以直接自一使用者接收複數聲音訊號，其中上述聲音訊號係對應上述特定旋律；以及一處理單元，用以依據上述特定旋律處理上述聲音訊號並產生一合成歌聲訊號。
如申請專利範圍第1項所述之歌聲合成系統，其中上述節拍為視覺訊號、聲音訊號、或由一機械結構所提供之節拍動作。
如申請專利範圍第1項所述之歌聲合成系統，其中上述聲音訊號係由上述使用者根據一歌詞資訊與上述節拍所產生，且上述聲音訊號依序分別對應至上述歌詞資訊中之每一歌詞。
如申請專利範圍第1項所述之歌聲合成系統，更包括一節奏分析單元，用以根據上述使用者之一輸入選擇判斷上述聲音訊號是否被接受，若否，則提示上述使用者重新輸入上述聲音訊號。
如申請專利範圍第1項所述之歌聲合成系統，其中上述處理單元針對上述聲音訊號所進行的處理包括：執行一音高分析程序與一音高調校程序以取得複數調校後聲音訊號，並以上述調校後聲音訊號為上述合成歌聲訊號。
如申請專利範圍第5項所述之歌聲合成系統，其中上述音高分析程序係透過音高追蹤取得分別對應至上述聲音訊號之複數音高，再將上述音高拉平以取得複數相同音高。
如申請專利範圍第6項所述之歌聲合成系統，其中上述音高調校程序係運用基週同步疊加法、交叉消退法、或重新取樣法將上述相同音高分別調校至對應於上述特定旋律所指示之複數標準音高以取得上述調校後聲音訊號。
如申請專利範圍第5項所述之歌聲合成系統，其中上述處理單元針對上述聲音訊號所進行的處理更包括：針對上述調校後聲音訊號執行一平滑處理程序以取得由一初始音高調變至一目標音高之一平滑處理後聲音訊號，並以上述平滑處理後聲音訊號為上述合成歌聲訊號，其中上述平滑處理後聲音訊號之取得係經由使用至少4個控制點之一貝茲曲線，且該等控制點之至少其一係設定高於上述目標音高以模擬人聲歌唱之音高變化。
如申請專利範圍第8項所述之歌聲合成系統，其中上述平滑處理程序係運用線性內插法、雙線性內插法、或多項式內插法將上述調校後聲音訊號連接起來以取得上述平滑處理後聲音訊號。
如申請專利範圍第9項所述之歌聲合成系統，其中上述多項式內插法係採用三次方、四次方、或五次方貝茲曲線所進行，其中上述三次方、四次方、或五次方貝茲曲線之控制點係由以下方程式計算得到：，0δ1，k為上述貝茲曲線之次方數；以及，1yk，為十二平均律音階半音之比值，運算符號「±」表示若音高變化是向上，則為「+」，反之，則為「-」。
如申請專利範圍第8項所述之歌聲合成系統，其中上述處理單元針對上述聲音訊號所進行的處理更包括：針對上述平滑處理後聲音訊號執行一歌聲特效處理程序以取得一特效處理後聲音訊號，並以上述特效處理後聲音訊號為上述合成歌聲訊號。
如申請專利範圍第11項所述之歌聲合成系統，其中上述歌聲特效處理程序係根據一系統負載值決定一取樣音框大小，將上述平滑處理後聲音訊號以該取樣音框大小依序進行音量調整並加入抖音與回音效果。
如申請專利範圍第11項所述之歌聲合成系統，其中上述處理單元針對上述聲音訊號所進行的處理更包括：針對上述調校後聲音訊號、上述平滑處理後聲音訊號、以及上述特效處理後聲音訊號其中之一者，執行一伴奏合成程序以取得一伴奏歌聲訊號，並以上述伴奏歌聲訊號為上述合成歌聲訊號。
如申請專利範圍第13項所述之歌聲合成系統，其中上述伴奏合成程序係將上述調校後聲音訊號、上述平滑處理後聲音訊號、以及上述特效處理後聲音訊號其中之一者，與一伴奏音樂合成以取得上述伴奏歌聲訊號。
一種歌聲合成方法，適用於一電子計算裝置，包括：依據至少一旋律中一特定旋律提示一節拍；透過上述電子計算裝置之一收音模組直接從一使用者接收複數聲音訊號，其中上述聲音訊號係對應上述特定旋律；以及依據上述特定旋律處理處理上述聲音訊號並透過上述電子計算裝置之一播音模組輸出一合成歌聲訊號。
如申請專利範圍第15項所述之歌聲合成方法，其中上述節拍為視覺訊號、聲音訊號、或由一機械結構所提供之節拍動作。
如申請專利範圍第15項所述之歌聲合成方法，其中上述聲音訊號係由上述使用者根據一歌詞資訊與上述節拍所產生，且上述聲音訊號具有一既定節奏並依序分別對應至上述歌詞資訊中之每一歌詞。
如申請專利範圍第17項所述之歌聲合成方法，更包括根據上述使用者之一輸入選擇判斷上述聲音訊號是否被接受，若否，則提示上述使用者重複輸入上述聲音訊號。
如申請專利範圍第15項所述之歌聲合成方法，其中針對上述聲音訊號所進行的處理更包括：執行一音高分析程序與一音高調校程序以取得複數調校後聲音訊號，並以上述調校後聲音訊號為上述合成歌聲訊號。
如申請專利範圍第19項所述之歌聲合成方法，其中上述音高分析程序係透過音高追蹤取得分別對應至上述聲音訊號之複數音高，再將上述音高拉平以取得複數相同音高。
如申請專利範圍第20項所述之歌聲合成方法，其中上述音高調校程序係運用基週同步疊加法、交叉消退法、或重新取樣法將上述相同音高分別調校至對應於上述特定旋律所指示之複數標準音高以取得上述調校後聲音訊號。
如申請專利範圍第19項所述之歌聲合成方法，其中針對上述聲音訊號所進行的處理更包括：針對上述調校後聲音訊號執行一平滑處理程序以取得由一初始音高調變至一目標音高之一平滑處理後聲音訊號，並以上述平滑處理後聲音訊號為上述合成歌聲訊號，其中上述平滑處理後聲音訊號之取得係經由使用至少4個控制點之一貝茲曲線，且該等控制點之至少其一係設定高於上述目標音高以模擬人聲歌唱之音高變化。
如申請專利範圍第22項所述之歌聲合成方法，其中上述平滑處理程序係運用線性內插法、雙線性內插法、或多項式內插法將上述調校後聲音訊號連接起來以取得上述平滑處理後聲音訊號。
如申請專利範圍第23項所述之歌聲合成方法，其中上述多項式內插法係採用三次方、四次方、或五次方貝茲曲線所進行，其中上述三次方、四次方、或五次方貝茲曲線之控制點係由以下方程式計算得到：，0δ1，k為上述貝茲曲線之次方數；以及，1yk，為十二平均律音階半音之比值，運算符號「±」表示若音高變化是向上，則為「+」，反之，則為「-」。
如申請專利範圍第22項所述之歌聲合成方法，其中針對上述聲音訊號所進行的處理更包括：針對上述平滑處理後聲音訊號執行一歌聲特效處理程序以取得一特效處理後聲音訊號，並以上述特效處理後聲音訊號為上述合成歌聲訊號。
如申請專利範圍第25項所述之歌聲合成方法，其中上述歌聲特效處理程序係根據上述電子計算裝置之一系統負載值決定一取樣音框大小，將上述平滑處理後聲音訊號以該取樣音框大小依序進行音量調整並加入抖音與回音效果。
如申請專利範圍第25項所述之歌聲合成方法，其中針對上述聲音訊號所進行的處理更包括：針對上述調校後聲音訊號、上述平滑處理後聲音訊號、以及上述特效處理後聲音訊號其中之一者，執行一伴奏合成程序以取得一伴奏歌聲訊號，並以上述伴奏歌聲訊號為上述合成歌聲訊號。
如申請專利範圍第27項所述之歌聲合成方法，其中上述伴奏合成程序係將上述調校後聲音訊號、上述平滑處理後聲音訊號、以及上述特效處理後聲音訊號其中之一者，與一伴奏音樂合成以取得上述伴奏歌聲訊號。
如申請專利範圍第15項所述之歌聲合成方法，其中上述電子計算裝置為桌上型電腦、筆記型電腦、手持通訊裝置、電子公仔、或電子寵物。
一種歌聲合成裝置，至少包括一殼體、一儲存器、一節拍機構、一收音器、一處理器，其中：上述儲存器設置於上述殼體內部，連接至上述處理器，儲存至少一旋律；上述節拍機構設置於上述殼體外部，連接至上述處理器，依據上述旋律之一特定旋律提示一節拍；上述收音器設置於上述殼體外部，連接至上述處理器，直接自一使用者接收複數聲音訊號，且上述聲音訊號係對應上述特定旋律；以及上述處理器設置於上述殼體內部，依據上述特定旋律將上述聲音訊號進行處理並產生一合成歌聲訊號。
如申請利範圍第30項所述之歌聲合成裝置，其中上述儲存器為一記憶體；上述節拍機構為一發光器、一可動式機械結構、一顯示器、或一播音器；上述收音器為一麥克風、一集音器、或一錄音器；以及，上述處理器為一嵌入式微型處理器。
如申請專利範圍第30項所述之歌聲合成裝置，其中上述聲音訊號係由上述使用者根據一歌詞資訊與上述節拍所產生，且上述聲音訊號具有一既定節奏並依序分別對應至上述歌詞資訊中之每一歌詞。
如申請專利範圍第32項所述之歌聲合成裝置，其中上述處理器更根據上述使用者之一輸入選擇判斷上述聲音訊號是否被接受，若否，則提示上述使用者重新輸入上述聲音訊號。
如申請專利範圍第30項所述之歌聲合成裝置，其中上述處理器針對上述聲音訊號所進行的處理為執行一音高分析處理與一音高調校處理以取得一複數調校後聲音訊號，並以上述調校後聲音訊號為上述合成歌聲訊號。
如申請專利範圍第34項所述之歌聲合成裝置，其中上述音高分析處理係透過音高追蹤取得分別對應至上述聲音訊號之複數音高，再將上述音高拉平以取得複數相同音高。
如申請專利範圍第35項所述之歌聲合成裝置，其中上述音高調校處理係運用基週同步疊加法、交叉消退法、或重新取樣法將上述相同音高分別調校至對應於上述特定旋律所指示之複數標準音高以取得上述調校後聲音訊號。
如申請專利範圍第34項所述之歌聲合成裝置，其中上述處理器對上述聲音訊號所進行的處理，更包括將上述調校後聲音訊號執行一平滑處理以取得由一初始音高調變至一目標音高之一平滑處理後聲音訊號，並以上述平滑處理後聲音訊號為上述合成歌聲訊號，其中上述平滑處理後聲音訊號之取得係經由使用至少4個控制點之一貝茲曲線，且該等控制點之至少其一係設定高於上述目標音高以模擬人聲歌唱之音高變化。
如申請專利範圍第37項所述之歌聲合成裝置，其中上述平滑處理係運用線性內插法、雙線性內插法、或多項式內插法將上述調校後聲音訊號連接起來以取得上述平滑處理後聲音訊號。
如申請專利範圍第37項所述之歌聲合成裝置，其中上述處理器對上述聲音訊號所進行的處理，更包括對上述平滑處理後聲音訊號執行一歌聲特效處理以取得一特效處理後聲音訊號，並以上述特效處理後聲音訊號為上述合成歌聲訊號。
如申請專利範圍第39項所述之歌聲合成裝置，其中上述歌聲特效處理係根據一系統負載值決定一取樣音框大小，將上述平滑處理後聲音訊號以該取樣音框大小依序進行音量調整並加入抖音與回音效果。
如申請專利範圍第39項所述之歌聲合成裝置，其中上述處理器對上述聲音訊號所進行的處理，更包括將上述調校後聲音訊號、上述平滑處理後聲音訊號、以及上述特效處理後聲音訊號其中之一者，執行一伴奏合成處理以取得一伴奏歌聲訊號，並以上述伴奏歌聲訊號為上述合成歌聲訊號。
如申請專利範圍第41項所述之歌聲合成裝置，其中上述伴奏合成處理係將上述調校後聲音訊號、上述平滑處理後聲音訊號、以及上述特效處理後聲音訊號其中之一者，與一伴奏音樂合成以取得上述伴奏歌聲訊號。
如申請專利範圍第30項所述之歌聲合成裝置，更包括：一播音器，輸出上述合成歌聲訊號。
如申請專利範圍第43項所述之歌聲合成裝置，其中上述播音器為一喇叭、一擴音器、一耳機、或一聲音播放器。
如申請專利範圍第30項所述之歌聲合成裝置，其中上述裝置係為桌上型電腦、筆記型電腦、手持通訊裝置、掌上型裝置、個人數位助理器、電子公仔、電子寵物機、機器人、收錄音機、或是音樂光碟播放機。