TW201633289A

TW201633289A - 輸出文字資料之內容至發送者之語音的方法

Info

Publication number: TW201633289A
Application number: TW104125413A
Authority: TW
Inventors: 金東明; 權暎壽
Original assignee: Ｌｇ化學股份有限公司
Priority date: 2014-08-06
Filing date: 2015-08-05
Publication date: 2016-09-16
Also published as: EP3035718A4; KR101703214B1; US9812121B2; JP6459080B2; CN105556999A; WO2016021937A1; JP2017531197A; KR20160017625A; TWI613641B; EP3035718B1; US20160210960A1; EP3035718A1

Abstract

本發明揭露輸出文字資料之文字內容至發送者之語音的方法。

Description

輸出文字資料之內容至發送者之語音的方法

本發明關於文字資料輸出技術，並且更具體地，關於輸出在終端上接收的文字資料的文字內容至發送者的語音之方法。

本申請請求優先權於2014年8月6日申請之韓國專利申請號10-2014-0101232和2015年8月4日申請之韓國專利申請號10-2015-0110072，其揭露內容明確地藉由引用其整體併入本文。

近年來，隨著行動通訊技術的發展，不僅語音電話，而且簡訊也被廣泛使用。語音通話和簡訊的發送和接收藉由行動通訊終端完成，諸如，包含行動電話和智慧手機。

簡訊一般是以視覺可辨認的文字輸出。也就是說，接收到文字訊息的終端僅以文字格式輸出該文字訊息。當簡訊只以文字格式輸出，視障人士無法閱讀簡訊的內容，甚至視力不受損害的人，當他們正在從事活動時，比如，工作、運動和駕駛，往往不能讀取簡訊的內容。此外，由於能力限制，文字格式的訊息有限制地傳達情感和友好。最近，隨著普遍使用和行動通訊終端的應用範圍日益擴大，有刺激使用行動通訊終端的終端使用者的情緒之技術的需求。

本發明的目的是解決現有技術的問題，因此，本發明旨在輸出文字資料的文字內容至發送者的語音。

本發明還旨在在與文字訊息發送者的語音通話期間，使用發送和接收的語音信號，不斷更新文字訊息發送者的語音資訊，以允許隨著通話的增加，更類似於發送者的真實語音的語音被輸出。

本發明的這些和其它的目的和優點可以從下面的詳細描述中來理解，且將從本發明的示範性實施例更加清楚。此外，應當容易理解的，本發明的目的和優點可以藉由在所附的申請專利範圍以及其組合所示的手段來實現。

為了達到上述目的，根據本發明的一個方面之輸出文字至語音的方法由此藉由通訊端語音被輸出，包含藉由發送端，發送文字資料到接收端；以及藉由該接收端，輸出從該發送端發送的該文字資料的文字內容至該文字資料的發送者之語音。

在所述接收該文字資料之前，該方法可以進一步包含構建用於該文字資料的該發送者的語音資料之語音資料庫。

所述構建語音資料庫可包含儲存該文字資料的該發送者的語音資料及對應於以匹配形式的該語音資料的文字資料。

所述構建語音資料庫可包含儲存該文字資料的該發送者的語音資料及對應於針對每個句子、每個單字及每個音節的該語音資料的文字資料。

所述構建語音資料庫可包含構建用於使用在語音通話期間使用該發送端與該接收端發送和接收的語音資料的該文字資料的該發送者的該語音資料的之語音資料庫。

所述構建語音資料庫可包含以在該發送端與該接收端之間的語音通話的該重複構建語音資料庫。

所述構建語音資料庫可包含針對每個句子、每個單字及每個音節，在對應於以與對應於不存在於該語音資料庫中的該文字資料之語音資料匹配的形式構成該發送端和該接收端之間的語音通話的語音資料之文字資料之中，進一步儲存不存在於已構建的語音資料庫中之文字資料。

所述構建語音資料庫包含針對每個句子、每個單字及每個音節，在對應於以與對應於不存在於該語音資料庫中的該文字資料之語音資料匹配的形式構成該發送端和該接收端之間的語音通話的語音資料之文字資料之中，更新與儲存存在於已構建的語音資料庫中之文字資料。

在所述構建語音資料庫之後，輸出文字至語音的方法可進一步包含量化藉由在該發送端和該接收端之間的該語音通話構建的該語音資料庫的構建程度。

在所述量化之後，該方法可以進一步包含藉由基於在所述量化之量化的值之預定等級，將該語音資料庫的該構建程度分級。

在所述分級之後，該方法可以進一步包含藉由該接收端，經由顯示器輸出在所述分級中分級的該等級。

所述輸出該分級的等級可包含基於該預定等級輸出不同的視覺資訊。

該量化可包含藉由加總一些句子、一些單字，和在該語音資料的一些音節以及針對每個句子、每個單字，和每個音節儲存在該語音資料庫中的該文字資料，對於每個文字資料發送者量化該語音資料庫的構建程度。

該量化可包含藉由提供各個權重至在該語音資料庫中的一些句子、一些單字，和在該語音資料的一些音節，和針對每個句子、每個單字，和每個音節儲存在該語音資料庫中的該文字資料，以及加總句子的該加權數、單字的該加權數，和音節的該加權數，對於每個文字資料發送者量化該語音資料庫的構建程度。

提供至該些句子的該權重係高於或等於提供至該些單字的該權重，以及提供至該些單字的該權重係高於或等於提供至該些音節的該權重。

在所述輸出至語音之前，該方法可進一步包含進行搜索，以判定匹配於與該文字資料的該發送者有關的資訊之資訊是否存在於該語音資料庫中，基於在所述進行搜索中的搜索結果，從該語音資料庫提取對應於從該發送端發送的該文字資料的語音資料，以及發送在所述提取中的提取的該語音資料至該接收端。

當匹配於與該文字資料的該發送者有關的資訊之資訊存在於作為在所述進行搜索中的搜索結果之該語音資料庫中，提取儲存在該語音資料庫中的該文字資料的該發送者的語音資料。

當匹配於與該文字資料的該發送者有關的資訊之資訊不存在於作為在所述進行搜索中的搜索結果之該語音資料庫中，提取儲存在該語音資料庫中的機器人語音。

在所述輸出到語音之前，該方法可進一步包含進行搜索，以判定匹配於與該文字資料的該發送者有關的資訊之資訊是否存在於該語音資料庫中，基於在所述進行搜索中的搜索結果，從該語音資料庫提取對應於從該發送端發送的該文字資料的語音資料，以及發送在所述提取中的提取的該語音資料至該接收端，其中所述提取語音資料包含從該語音資料庫提取匹配對應於包含在從該發送端發送的該文字資料中的句子之句子的語音資料，從該語音資料庫提取匹配對應於包含在從該發送端發送的該文字資料中的單字之單字的語音資料，以及從該語音資料庫提取匹配對應於包含在從該發送端發送的該文字資料中的音節之音節的語音資料。

所述提取單字可在所述提取句子之後執行，且當提取預定的句子的語音資料為連續執行在所述提取句子中，提取該預定的句子的單字可不被執行，以及所述提取音節可在所述提取單字之後執行，且當提取預定的單字的語音資料為連續執行在所述提取單字中，提取該預定的單字的音節可不被執行。

所述提取句子、所述提取單字，和所述提取音節迭代地在包含於從該發送端發送的該文字資料的至少兩個句子上執行。

為了實現上述目的，根據本發明的另一個方面之輸出文字至語音的系統包含通訊網路，發送端，其用以藉由該通訊網路將文字資料發送到接收端，以及接收端，其用以輸出發送該文字資料的該文字資料的發送者的語音資料，該語音資料對應於藉由該通訊網路從該發送端發送的該文字資料。

該通訊網路可設置有構建用於該文字資料的該發送者的語音資料之語音資料庫之語音伺服器。

該語音伺服器可匹配該文字資料的該發送者的語音資料至對應於該語音資料的文字資料，並儲存相同的於該語音資料庫中。

該語音伺服器可儲存該文字資料的該發送者的語音資料以及對應於每個句子、每個單字，和每個音節的該語音資料之文字資料。

該語音伺服器可在使用該發送端和該接收端的語音通話期間，使用發送和接收的語音資料構建用於該文字資料的該發送者的語音資料之語音資料庫。

該語音伺服器可在該發送端和該接收端之間以該重複的語音通話，構建該語音資料庫。

該語音伺服器可針對每個句子、每個單字及每個音節，在對應於以與對應於不存在於該語音資料庫中的該文字資料之語音資料匹配的形式構成該發送端和該接收端之間的語音通話的語音資料之文字資料之中，進一步儲存不存在於已構建的語音資料庫中之文字資料。

該語音伺服器可針對每個句子、每個單字及每個音節，在對應於以與對應於不存在於該語音資料庫中的該文字資料之語音資料匹配的形式構成該發送端和該接收端之間的語音通話的語音資料之文字資料之中，更新與儲存存在於已構建的語音資料庫中之文字資料。

該語音伺服器可量化藉由在該發送端和該接收端之間的該語音通話構建的該語音資料庫的構建程度。

該語音伺服器可基於該量化的值，將該語音資料庫的該構建程度分級成預定等級。

該接收端可藉由顯示器輸出分級成該預定等級的該等級。

該接收端可基於該預定等級輸出不同的視覺資訊。

該語音伺服器可藉由加總一些句子、一些單字，和該語音資料的一些音節以及儲存在每個句子、每個單字，和每個音節的該語音資料庫中的該文字資料，針對每個文字資料發送者量化該語音資料庫的構建程度。

該語音伺服器可藉由提供各個權重至在該語音資料庫中的一些句子、一些單字，和在該語音資料的一些音節，和針對每個句子、每個單字，和每個音節儲存在該語音資料庫中的該文字資料，以及加總句子的該加權數、單字的該加權數，和音節的該加權數，對於每個文字資料發送者量化該語音資料庫的構建程度。

提供至該些句子的該權重可高於或等於提供至該些單字的該權重，以及提供至該些單字的該權重可高於或等於提供至該些音節的該權重。

該語音伺服器可接收從該發送端發送的該文字資料、可進行搜索，以判定匹配於與該文字資料的該發送者有關的資訊之資訊是否存在於該語音資料庫中、可基於在所述進行搜索中的搜索結果，從該語音資料庫提取對應於從該發送端發送的該文字資料的語音資料，以及可發送該提取的語音資料至該接收端。

當匹配於與該文字資料的該發送者有關的資訊之資訊存在於作為在所述進行搜索中的搜索結果之該語音資料庫中，該語音伺服器可提取儲存在該語音資料庫中的該文字資料的該發送者的語音資料。

當匹配於與該文字資料的該發送者有關的資訊之資訊不存在於作為在所述進行搜索中的搜索結果之該語音資料庫中，該語音伺服器可提取儲存在該語音資料庫中的機器人語音。

該語音伺服器可接收從該發送端發送的該文字資料、可進行搜索，以判定匹配於與該文字資料的該發送者有關的資訊之資訊是否存在於該語音資料庫中、可基於在所述進行搜索中的搜索結果，從該語音資料庫提取對應於從該發送端發送的該文字資料的語音資料，以及可發送該提取的語音資料至該接收端，以及在所述基於在所述進行搜索中的搜索結果，從該語音資料庫提取對應於從該發送端發送的該文字資料的語音資料中，該語音服務器針對包含於從該語音資料庫中的該發送端發送的該文字資料的文字內容進行搜索，以及提取匹配對應於包含於從該發送端發送的該文字資料的句子之句子的至少一個語音資料、匹配對應於包含於從該發送端發送的文字資料的單字之單字的語音資料，以及匹配對應於包含於從該發送端發送的文字資料的音節之音節的語音資料。

當匹配對應於包含於從該發送端發送的該文字資料中的預定句子之句子的語音資料存在於該語音資料庫時，該語音伺服器可只提取匹配對應於該預定的句子的該句子之語音資料，且當匹配對應於包含於從該發送端發送的該文字資料中的預定單字之單字的語音資料存在於該語音資料庫時，該語音伺服器可只提取匹配對應於該預定的單字的該單字之語音資料。

該語音伺服器可在包含於從該發送端發送的該文字資料的至少兩個句子上執行語音資料提取。

根據本發明，當發送端發送文字資料，接收端可不僅以文字也以語音，輸出來自發送端發送的文字資料的內容。特別是，根據本發明，文字資料的內容可被輸出到發送者的語音。

根據本發明的一個方面，在使用通訊終端語音通話期間，通話者的語音基於發送和接收的語音資料被以組織的形式儲存，所以隨著通話數目的增加，語音更類似於文字訊息發送者輸出之真實的語音。

根據本發明的另一個方面，不僅從發送者發送的文字訊息，可使用終端被輸出的文字信號也被輸出到發送者的語音。

10‧‧‧發送端

20‧‧‧接收端

30‧‧‧行動通訊網路

100‧‧‧語音伺服器

110‧‧‧語音資料庫

200‧‧‧文字伺服器

210‧‧‧文字資料庫

附圖說明本發明的較佳實施例，並連同上述內容，用於提供本發明技術方面的進一步理解，並且因此，本發明並不解釋為限於附圖。

圖1係顯示根據本發明的實施例之一種用於輸出文字到語音的系統的圖。

圖2係示意性顯示根據本發明的實施例之語音資料庫的圖。

圖3係顯示根據本發明的實施例之提取語音資料的程序的流程圖。

圖4係顯示接收端20輸出藉由使用根據本發明的實施例之用於輸出文字到語音之系統，從發送端發送文字訊息中的句子到語音之程序的實例的圖。

圖5係示意性顯示根據本發明的實施例之輸出文字到語音的方法的流程圖。

以下，將參照附圖詳細描述本發明的較佳實施例。在描述之前，應該理解的是，在說明書中使用的術語和所附的申請專利範圍不應當被解釋為限於一般和詞典含義，而是應基於對應於本發明的技術方面的含義和概念，在發明人被允許適當地定義術語的原則基礎上來獲得最佳的解釋。

因此，在此提出的描述僅僅是為說明目的之較佳實例，並非意在限制本發明的範圍，所以應該理解的是，其他等同物和修改可以在不脫離本發明的範圍的情況下完成。

另外，在本發明的描述中，當相關眾所皆知的特徵或功能的某些詳細描述被認為可能模糊本發明的本質，其詳細描述在此省略。

參考圖1，根據本發明的實施例之輸出文字到語音的系統包含發送端10、接收端20和行動通訊網路30。

發送端10和接收端20是能夠發送和接收文字資料並進行語音通話的通訊終端。例如，該通訊終端可以是智慧手機或平板電腦。雖然發送端10和接收端20被顯示為智慧手機，智慧手機僅以說明的方式提供，本發明的發送端10和接收端20不限於智慧手機。

從發送端10發送的文字資料是可藉由接收端20的顯示器以文字顯示的資料。更具體地，從發送端10發送的文字資料是調製在發送端10和發送到接收端20的資料，而後被發送到接收端20，該資料在接收端20中被解調，並在顯示器上以文字顯示。例如，該文字資料可以是位元的集合。

根據實施例，當發送端10的使用者，即，發送者輸入文字到發送端10和發送該文字，該文字被調製成文字資料，並藉由所述行動通訊網路30被發送到接收端20。

接收端20可以解調所接收的文字資料成視覺可識別的文字並顯示該文字。除了所接收到的文字資料，接收端20可藉由顯示器輸出各種視覺資訊。

根據本發明的實施例的接收端20不僅可以文字也以語音輸出從發送端10發送的文字資料之內容。

更具體地，接收端20可輸出該文字資料的文字內容至發送者的語音。即，接收端20可輸出該文字資料的文字內容到發送端10的使用者之語音。

接收端20可具有揚聲器以產生語音輸出。用以輸出從發送端10發送的文字資料的文字內容到語音，接收端20可接收從外部裝置對應於文字資料的語音資料。接收端20可藉由揚聲器輸出從外部裝置接收的語音資料。語音資料是在接收端20中解調並藉由揚聲器輸出，並且可以是位元的集合之資料。

接收端20可以解調來自行動通訊網路30的文字資料，並藉由顯示器輸出文字內容，並且可以解調從行動通訊網路30發送的語音資料，並藉由揚聲器輸出語音信號。

行動通訊網路30可以提供有文字伺服器200和語音伺服器100。行動通訊網路30可發送和接收文字資料，以及使用文字伺服器200和語音伺服器100的語音資料。

文字伺服器200可以從發送端10接收文字資料，並且發送該文字資料到接收端20。文字伺服器200 可以用文字資料庫210被提供，以儲存從發送端10接收文字資料。

語音伺服器100包含語音資料庫110，其中文字資料和對應於該文字資料的語音資料以匹配的形式被儲存。語音資料庫110針對每個說話者以匹配形式儲存文字資料和語音資料。

根據實施例，語音資料庫110可針對每個句子，每個單字，和/或每個音節進一步以匹配的形式儲存文字資料和語音資料。例如，語音資料庫110可以匹配的形式儲存文字資料"I met grandmother.We bought watermelons"，以及其對應的語音資料。在這種情況下，語音資料庫110可針對兩個句子"I met grandmother"和"We bought watermelons"的每一個以匹配的形式儲存文字資料和與其對應的語音資料，可針對每個單字"I","met","grandmother","we","bought"和"watermelons"以匹配的形式儲存文字資料和其對應的語音資料，並且可針對每一個音節"I"、"met"、"grand"、"moth"、"er"、"we"、"bought"、"wa"、"ter"、"mel"和"ons"以匹配的形式儲存文字資料和其對應的語音資料。這樣的資訊可以針對每個說話者儲存在語音資料庫110。

圖2係根據本發明的實施例示意地顯示語音資料庫110的圖。

參考圖2，根據本發明的實施例之語音資料庫110針對每個說話者以匹配的形式儲存文字資料和語音資料。也就是說，根據本發明的實施例之語音資料庫110以匹配的形式儲存文字資料和語音資料，其中，所述文字資料和語音資料依說話者被分類。

也就是說，根據本發明的實施例之語音資料庫110針對每個說話者儲存其對應的文字資料和語音資料，不僅依說話者而且依句子、依單字，並且依音節。

根據實施例，語音資料庫110可以由發送端10和接收端20之間的通話被構建。也就是說，語音資料庫110可使用從發送端10和接收端20之間的通話提取的語音資料來構建。

根據實施例，語音伺服器100可提取發送端10和接收端20之間的通話構建的語音資料。在此實例中，語音伺服器100可以即時或在通話結束之後提取構成通話的語音資料。語音伺服器100可以針對每個說話者依句子、依單字和依音節，儲存構成通話的語音資料。另外，語音伺服器100可從該語音資料提取對應於該語音資料的文字資料。例如，如在上面的實例中，語音伺服器100可以在A和B之間的通話期間，從A表達之"I met grandmother.We bought watermelons"之語音資料中針對每個句子、每個單字，以及每個音節提取文字資料。在這種情況下，從語音資料的文字提取可以藉由眾所皆知的語音識別技術來執行。根據實施例，從語音資料的文字提取可在語音資料的所有音節藉由音節為基礎的語音識別執行。當所有的音節執行文字資料提取，匹配每個音節的語音資料-文字資料，每個單字的語音資料-文字資料，以及匹配每個句子的語音資料-文字資料，接著，並且藉由這一點，語音資料庫110可以針對每個音節、每個單字，以及每個句子以匹配形式儲存文字資料和語音資料被構造。

此外，當每次發送端10和接收端20之間的語音通話重複時，語音伺服器100可以構造語音資料庫110。即，當每次發送端10和接收端20之間的語音通話重複時，語音伺服器100可以更新該語音資料庫110。語音伺服器100進行搜索，以判定構成通話的語音資料是否目前已呈現在已構建的語音資料庫110，並且當構成通話的語音資料不存在於已構建的語音資料庫110時，語音伺服器100可以對應於該語音資料的文字資料匹配該語音資料與並儲存該語音資料。在這種情況下，該語音資料可以針對每個音節、每個單字，以及每個句子以與文字資料匹配的形式儲存。當構成通話的語音資料存在於已構建的語音資料庫110，該語音伺服器100可以維持存在於已構建的語音資料庫110中的語音資料，並且可以藉由使用最新資料來更新存在於已構建的語音資料庫110中的語音資料。較佳地，語音伺服器100可以藉由更新已構建的語音資料庫110來更新該語音資料庫110。

當發送端10和接收端20之間通話的數目增加，語音資料庫110被更新且發送端10的說話者的語音資訊被逐漸補償。也就是說，隨著發送端10和接收端20之間通話的數目增加，語音資料可變得更類似於文字發送者的真正語音。當與音節相關的語音資料的量增加，更多各種文字可以語音表示，並且當與單字或句子相關的語音資料的量增加，更類似於真實的語音之語音可以被輸出。

根據實施例，語音伺服器100可量化藉由發送端10和接收端20之間的語音通話構建的語音資料庫110的構建程度。即，語音資料庫110的構建程度可以根據預定的準則被量化地評估。在此，量化地評估值可被分類成預定的等級。即，語音伺服器100可以基於語音資料庫110的構建程度的量化值，將語音資料庫110的構建程度分級成的預定的等級。

由語音伺服器100和/或量化值的等級量化的值可以被儲存在語音資料庫110或獨立的儲存媒體中，並且可以被發送到接收端20。接收端20可接收量化值和/或來自語音伺服器100的量化值的等級，並藉由預定的等級輸出不同的視覺資訊。例如，假設語音資料庫的構建程度110被分為五個等級，接收端20可針對第一級輸出五顆星(☆)、針對第二級輸出四顆星、針對第三級輸出三顆星、針對第四級輸出二顆星、針對第五級輸出一顆星。在此，標有星(☆)的視覺資訊僅用於說明目的，並且語音資料庫110的構建程度可以藉由各種視覺資訊在顯示器上呈現。

量化地評估語音資料庫110的構建程度的方法可被多樣地設定。根據實施例，語音伺服器100可以藉由加總儲存在語音資料庫110之句子的數目、單字的數目，以及音節的數目，針對每個文字發送者，量化語音資料庫110的構建程度。例如，假設針對每個句子、每個單字，以及每個音節，在語音資料庫110儲存的語音資料和文字資料中有1,000個句子、10,000個單字，以及100,000個音節，語音資料庫的構建程度可以量化為111,000(=1,000+10,000+100,000)。根據另一個實施例，語音伺服器100可藉由為儲存在語音資料庫110中的句子的數目、單字的數目，以及音節的數目提供各自的權重，並加總加權的句子的數目、加權的單字的數目，以及加權的音節的數目，來量化語音資料庫110的構建程度。如在上面的實例中，假設針對每個句子、每個單字，以及每個音節，在語音資料庫110儲存的語音資料和文字資料中有1,000個句子、10,000個單字，以及100,000個音節，權重a被提供給句子的數目、權重b被提供給單字的數目、權重c被提供給音節的數目。因此，語音資料庫110的構建程度被量化為1,000 * a+10,000* b+100,000 *c。較佳地，提供給每個句子的數目、單字的數目，和音節的數目的權重可以如下考慮句子的完成度來提供。即，提供給句子的數目的權重係較佳地設為高於或等於提供給單字的數目的權重，且提供給單字的數目的權重較佳地設為高於或等於提供給音節的數目的權重(即，在此實例中，abc)。

此外，語音伺服器100可針對對應於在語音資料庫110中從外部裝置的接收的文字資料的語音資料來搜索。在這種情況下，語音伺服器100可針對對應於每個說話者從外部裝置接收到的文字資料的語音資料來搜索。另外，語音伺服器100可提取對應於來自語音資料庫110的文字資料的語音資料，並將所提取的語音資料發送到接收端20。例如，當一個人A藉由使用發送端10發送文字資料到接收端20，語音伺服器100可以在語音資料庫110中針對說話者A相關的資訊來搜索，提取該說話者A的語音資料，並傳送A的提取語音資料至接收端20。

此外，語音伺服器100可針對每個句子、每個單字，和每個音節，對應於從外部裝置接收的文字資料的語音資料來搜索。較佳地，語音伺服器100可以句子、單字，和音節的順序來搜索文字資料。

圖3是顯示根據本發明的實施例，提取語音資料的程序的流程圖。

參考圖3，根據本發明的實施例的語音伺服器100藉由以下的程序從語音資料庫110提取語音資料。

首先，語音伺服器100從外部裝置(S301)接收文字資料。例如，如圖1中所示，語音伺服器100可以從文字伺服器200接收文字資料。隨後，語音伺服器100進行搜索，以判定與發送接收到的文字資料的發送者相關的資訊是否存在於語音資料庫110(S303)中。作為在語音伺服器100中進行搜索的結果，當與文字發送者相關的資訊被儲存在語音資料庫110中，提取對應於該文字資料的發送者的語音資料的程序被執行，並且如果不是如此，轉換該文字資料成機器人語音的程序被執行(S315)。

更具體地，作為在語音伺服器100中進行搜索的結果，當與文字發送者相關的資訊被儲存在語音資料庫110中，語音伺服器100進行搜索，以判定對應於文字資料的句子是否存在於語音資料庫110中(S305)。當對應於文字資料的句子之句子存在於語音資料庫110中，語音伺服器100從該語音資料庫110提取與文字資料的句子匹配的語音資料(句子)(S307)。相反地，當對應於文字資料的句子之句子不存在於語音資料庫110中，語音伺服器100進行檢索，以判定對應於文字資料的單字之單字是否存在於語音資料庫110中(S309)。當對應於文字資料的單字之單字存在於語音資料庫110中，語音伺服器100從該語音資料庫110提取與文字資料的單字匹配的語音資料(單字)(S311)。相反地，當對應於文字資料的單字之單字不存在的語音資料庫110中，語音伺服器100提取與文字資料的音節匹配的語音資料(音節)(S313)。

當與發送者相關的資訊存在於語音資料庫110中，語音伺服器100迭代地執行上述步驟(S305~S313)，針對該文字資料的每個句子以提取所有文字資料的語音資料。語音伺服器100發送所提取的語音資料到接收端20，以允許接收端20輸出文字至發件者的語音。

當匹配文字資料的音節的語音資料不存在於語音資料庫110中，語音伺服器100可發送由於語音資訊不足通知語音轉換失敗之訊息至接收端20，或者可以將文字資料轉換為預先儲存的機器人語音和發送該機器人語音至接收端20。在轉換文字資料至機器人語音中，語音伺服器100可以僅轉換缺乏語音資訊的音節至機器人語音並且可以將所有句子轉換到機器人語音，並針對不足的音節，可以不執行語音轉換。如每個發送者的語音資料，在相同的方式中，機器人語音可以被儲存在語音資料庫110中，且與各種已知的音節、單字，句子相關的語音資料可以與文字資料匹配的形式被儲存在語音資料庫110中。

作為判定與發送者相關的資訊是否存在於語音資料庫110中的結果，當與發送者相關的資訊不存在於語音資料庫110中，該文字資料可被轉換成預先儲存的機器人語音。機器人語音可以被預先儲存在語音資料庫110中。

圖4係顯示接收端20輸出藉由使用根據本發明的實施例之用於輸出文字到語音之系統，從發送端10輸出文字訊息中的句子到語音之程序的實例的圖。

參考圖4，根據本發明的實施例之用於輸出文字到語音之系統包含發送端10、接收端20，以及行動通訊網路30。行動通訊網路30包含文字伺服器200和語音伺服器100，且語音伺服器100以語音資料庫110被提供。在圖4的實例中，提供於語音伺服器100中的語音資料庫110被構造以針對每個說話者以及針對每個句子、每個單字，和每個音節，以匹配的形式儲存文字資料和語音資料。此外，在圖4的實例中，相關於說話者A的語音資料庫110以與每個句子、每個單字，和每個音節匹配的形式儲存與句子"I met grandmother"匹配的語音資料，以及與每個單字"we"和"bought"匹配的語音資料，以及與每個音節"I"、"met"、"grand"、"moth"、"er"、"bought"、"wa"、"ter"、"mel"和"ons"匹配的語音資料。

首先，當發送端10發送文字訊息"I met grandmother.We bought watermelons"至接收端20，文字資料被發送到文字伺服器200且文字伺服器200發送所接收的文字資料至接收端20與語音伺服器100。該語音伺服器100進行檢索，以判定與發送所接收的文字資料的發送者A相關的資訊是否存在於資料庫中。如前面提出的，因為與A相關的資訊存在於資料庫中，語音伺服器100執行句子匹配。也就是說，語音伺服器100進行搜索，以判定包含於所接收的文字資料中的句子是否存在於語音資料庫110中。如前面提出的，因為第一句"I met grandmother"係存在於語音資料庫110中，該語音伺服器100提取匹配於"I met grandmother"之語音資料(Avoice_sentence1)。隨後，語音伺服器100進行搜索，以判定第二句"we bought watermelons"是否存在於語音資料庫110中。如前面提出的，因為相應於句子"we bought watermelons"的資訊不存在語音資料庫110中，語音伺服器100進行單字匹配。即，語音伺服器100進行搜索，以判定包含在接收的文字資料的單字是否存在於語音資料庫110中。如前面提出的，第二個句子"we bought watermelons"中的第一個單字"we"和第二個單字"bought"存在於語音資料庫110中，語音伺服器100提取匹配於"we"的語音資料(Avoice_word1)和匹配於"bought"的語音資料(Avoice_word2)。然而，因為匹配"watermelons"的語音資料不存在於語音資料庫110中，語音伺服器100針對第二句中的第三個單字進行音節匹配。也就是說，語音伺服器100提取語音資料Avoice_syllable8、Avoice_syllab1e9、Avoice_syllable10和Avoice_syllable11匹配構成的第三個單字"watermelons"的每一個音節"wa"、"ter"、"mel"和"ons"。

在下文中，說明根據本發明的實施例的輸出文字到語音的方法。根據本發明的實施例的輸出文字到語音的方法可以是使用如上所述輸出文字到語音之系統的方法。即，根據本發明的實施例輸出文字到語音之方法的標的可以是上述系統的組件中的至少一個。

參考圖5，根據本發明的實施例的輸出文字到語音的方法可以根據如圖所示的各步驟來執行。

首先，該方法開始於構建語音資料庫110，其中文字資料和語音資料針對每個說話者以匹配的形式被儲存(S510)。在此，語音資料可針對每個說話者以句子、以單字，和以音節以與文字資料匹配的形式被儲存。語音資料庫110可以藉由各種方法來構造。較佳地，該語音資料庫110可以使用在藉由接收端20和發送端10完成語音通話期間發送的語音資料構成。

接著，發送端10發送文字資料到接收端20(S520)。在這種情況下，從發送端10發送的文字資料可被經由文字伺服器200發送到接收端20，並且可以經由文字伺服器200被發送至語音伺服器100。隨後，語音伺服器100進行搜索，以判定與從發送端10發送的文字資料的發送者或發送端10相關的資訊是否存在於語音資料庫110中。當與文字發送者的相關的資訊存在於語音資料庫110中，語音伺服器100從語音資料庫110提取與文字資料匹配的語音資料(S530)。較佳地，語音伺服器100針對匹配文字資料的語音資料以句子、單字，和音節的順序來搜索，以提取類似於真實說話者語音的語音資料。隨後，語音伺服器100發送匹配該文字資料的語音資料到接收端20。隨後，接收端20藉由揚聲器輸出匹配文字資料的語音資料(S540)。經由這樣，該接收端20可輸出對應於該文字資料的語音作為發送者的語音。可選地，接收端20不僅可以經由顯示器輸出文字，而且可藉由揚聲器輸出語音。在這種情況下，接收端20具有按鈕或圖標來選擇是否輸出語音，且當按下按鈕或選擇圖標後，接收端20可以被配置以輸出語音。此外，接收端20可經由顯示器輸出對應於代表語音資料庫110的構建程度的等級的視覺資訊，以允許接收端20的使用者查看該語音資料庫110的構建程度。接收端20的使用者經由代表語音資料庫110的構建程度的視覺資訊可以直觀地知道語音資料庫110的構建程度。另外，接收端20的使用者經由語音資料庫110的構建程度可間接知道藉由與發送端10的使用者語音通話的通訊程度。因此，接收端20的使用者和發送端10的使用者之間的語音通話可被誘導。

以組織的方式儲存的發送端10的通話者之語音資訊，藉由上述方法可被用於不僅將從發送端10發送的文字資料而且將任何其他文字資料轉換。例如，接收端20可輸出儲存在接收端20中的書籍和文件至以有組織的方式儲存的發送端10的說話者的語音。作為另一實例，該接收端20可用有組織的方式儲存的發送端10的說話者的語音輸出音樂。作為又另一實例，在設計成回答問題的應用程式中，被輸出的語音可以被改變為以有組織的方式儲存的發送端10的說話者的語音。例如，iOS應用程式Siri的回應可被轉換成發送端10的說話者的語音。

藉由這樣，接收端20的使用者感覺如同他/她真的與發送端10的說話者談話，使得通訊終端成為如寵物的同伴。

另一方面，上述方法可被程式化並儲存在藉由計算機可讀的儲存媒體。

在上述實例中，雖然描述用於語音轉換和以有組織的方式儲存資料之操作執行在行動通訊網路30 上，但是本發明不限於此。也就是說，操作可以在發送端10或接收端20來執行，並且一些也可以在行動通訊網路30的伺服器上執行以及其他的可以在發送端10或接收端20來執行。

雖然本發明已經在上文中藉由有限數量的實施例和附圖來描述，但是本發明不限於此。應當理解的是，在本發明和所附的申請專利範圍和它們的等同物的範圍內，各種變化和修改可以由那些本領域中具有通常技術者來完成。