TW201351394A

TW201351394A - 文字顯示方法與處理裝置以及電腦程式產品

Info

Publication number: TW201351394A
Application number: TW101120062A
Authority: TW
Inventors: Yu-Chen Huang; Che-Kuang Lin
Original assignee: Quanta Comp Inc
Priority date: 2012-06-05
Filing date: 2012-06-05
Publication date: 2013-12-16
Also published as: US8935165B2; US20130325464A1; CN103474081A; TWI484475B

Abstract

一種文字顯示方法，包括：接收一語音訊號；擷取該語音訊號之基頻軌跡；擷取該語音訊號之能量軌跡；對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊；根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數；根據每個該等字的該至少一文字顯示參數將該等字整合為一字句；以及輸出該字句以使該字句顯示於一顯示裝置。

Description

文字顯示方法與處理裝置以及電腦程式產品

本發明係有關於語音輸入，且特別有關於基於語音輸入的文字顯示技術。

在以聲音溝通或是面對面溝通時，可以根據對方說話時的音調、音量、速度和隱含的情緒等協助理解對方所要表達的意思。但在傳送簡訊、電子郵件以及利用例如Microsoft Windows Messenger等IM(instant message)通訊程式進行純文字溝通時，由於文字無法呈現講話者的音調、音量與速度等特性，對方僅能理解文字本身而無法同時理解講話者說話時的音調、音量、速度和情緒。

有鑑於此，本發明提供一種文字顯示方法，其根據所輸入的語音的各項特徵以及使用者的表情偵測調整文字顯示方式，以反應使用者說話時的音調、音量、速度和情緒。

本發明一實施例提供一種文字顯示方法，包括：接收一語音訊號；擷取該語音訊號之基頻軌跡；擷取該語音訊號之能量軌跡；對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊；根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數；根據每個該等字的該至少一文字顯示參數，將該等字整合為一字句；以及輸出該字句以使該字句顯示於至少一顯示裝置。

本發明另一實施例提供一種處理裝置，包括：一語音輸入單元，接收一語音訊號；一處理器，包括：一音高擷取模組，擷取該語音訊號之基頻軌跡；一能量計算模組，擷取該語音訊號之能量軌跡；一語音辨識引擎，對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊；以及一文字處理模組，根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數，並根據每個該等字的該至少一文字顯示參數將該等字整合為一字句；以及一文字輸出單元，輸出該字句以使至少一顯示裝置顯示該字句。

本發明再一實施例提供一種電腦程式產品，儲存於一電腦可讀取媒體，用以被一電子裝置載入以執行一文字顯示方法，其中該電腦程式產品包括：一第一程式碼，用以接收一語音訊號；一第二程式碼，用以擷取該語音訊號之基頻軌跡；一第三程式碼，用以擷取該語音訊號之能量軌跡；一第四程式碼，用以對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊；一第五程式碼，用以根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數；以及一第六程式碼，用以根據每個該等字的該至少一文字顯示參數將該等字整合為一字句，並輸出該字句以使該字句顯示於至少一顯示裝置。

以下說明為本發明的實施例。其目的是要舉例說明本發明一般性的原則，不應視為本發明之限制，本發明之範圍當以申請專利範圍所界定者為準。

第1圖所示為依據本發明一實施例之文字顯示方法的流程圖。在步驟S100中，接收一語音訊號，例如透過麥克風接收並錄製使用者輸入的語音訊號。在步驟S102中，對語音訊號進行基本語音處理，例如進行去除噪聲、數位化等，以供後續步驟分析與運算。以第2圖為例，語音訊號200代表所接收的語音訊號經過數位化的聲波波形，其中橫軸為時間，縱軸為振幅。

在步驟S104中，對語音訊號200進行音高追蹤(Pitch Tracking)以擷取該語音訊號的基頻軌跡(Pitch Contour)，如第2圖中的基頻軌跡210。基頻軌跡210的橫軸為時間，縱軸為頻率，頻率的單位為赫茲(Hz)。基頻軌跡210記錄語音訊號200對應時間軸的基本頻率(FundamentalFrequency)，即所謂音高。

在步驟S106中，擷取語音訊號200的梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients，MFCC)。在此例子中，對語音訊號200擷取39維的梅爾倒頻譜係數C0~C38。

接著在步驟S108中，根據梅爾倒頻譜係數C0~C38中的低頻梅爾倒頻譜係數C0計算語音訊號200的能量以得到語音訊號200的能量軌跡，如第2圖中的能量軌跡220。梅爾倒頻譜係數C0係代表語音訊號200的功率的函數。能量軌跡220的橫軸為時間，縱軸為能量。能量軌跡220記錄語音訊號200對應時間軸的能量，即所謂音量。

在步驟S110中，根據梅爾倒頻譜係數C0~C38對語音訊號200進行語音辨識(Speech Recognition)以辨識出語音訊號200對應的字並判斷每個字的時間對齊資訊(Time Alignment Information)。語音辨識包括辨識語音訊號200哪些區段為噪音，例如第2圖中時間點T1之前的語音訊號200。

語音辨識還包括根據語音訊號200的梅爾倒頻譜係數C0~C38等特徵值(Feature)與參考語音模型(例如聲學模型和語言模型)作圖像識別(Pattern Recognition)，以得到語音辨識結果，語音辨識結果可為一單字、複數個單字或/和由複數個單字所構成的句子，如第2圖中的語音辨識結果230。以第2圖為例，經語音辨識後，語音訊號200的語音辨識結果230由「million」、「times」、「it’s」、「from」、「Mary’s」以及「mother」之單字所組成。語音辨識更包括判斷語音辨識結果230的每個字的時間對齊資訊，也就是判斷語音辨識結果230的每個字的起始時間和結束時間以及每個字對應至語音訊號200的區段和時間長短為何。以第2圖為例，時間點T2、T3、T4、T5、T6和T7即時間對齊資訊，分別為「million」、「times」、「it’s」、「from」、「Mary’s」和「mother」的結束時間。在第2圖的例子中，每個字以前一個字的結束時間為自己的起始時間，例如「from」前一個字「it’s」的結束時間為T4，所以「times」的起始時間為T4，因此語音訊號200、基頻軌跡210和能量軌跡220在時間點T4到T5之間的區段係對應至「from」，而時間點T4到T5之間的時間差代表「from」在語音訊號200中的時間長短。須注意的是，「million」是以噪音的結束時間點T1為起始時間。

經過步驟S102至S110，得到語音訊號200的基頻軌跡210、能量軌跡220、語音辨識結果230以及語音辨識結果230的每個字的時間對齊資訊，其中時間對齊資訊包括每個字的起始時間和結束時間。接著在步驟S112中，根據基頻軌跡210、能量軌跡220以及語音辨識結果230的每個字的時間對齊資訊決定語音辨識結果230的每個字的文字顯示參數。文字顯示參數至少包括位置參數、字體大小參數、以及距離參數。位置參數代表每個字在顯示時的垂直位置，字體大小參數代表每個字的字體大小，距離參數代表每個字與前一個字之間的距離。文字顯示參數還可包括文字顏色參數、文字字體參數等與顯示文字相關的參數。

在步驟S114中，根據基頻軌跡210、能量軌跡220以及語音辨識結果230的每個字的時間對齊資訊決定表情符號。於一具體實施例中，表情符號亦屬於文字顯示參數。

在步驟S116中，根據語音辨識結果230、語音辨識結果230的每個字的文字顯示參數以及步驟S114所決定的表情符號，將語音辨識結果230的每個字與表情符號整合為一字句，在步驟S118中，輸出該字句並將該字句顯示於至少一顯示裝置。

舉例而言，當使用者A利用語音輸入模組與其他使用者進行文字溝通時，使用者A對著麥克風輸入一語音訊號，語音輸入模組擷取該語音訊號，如第1圖的步驟S100所示，然後語音輸入模組對語音訊號進行如第1圖步驟S100至S112的處理後，得到語音辨識結果以及語音辨識結果的每個字的文字顯示參數，然後語音輸入模組根據語音辨識結果以及語音辨識結果的每個字的文字顯示參數將語音辨識結果的每個字整合為一字句，並輸出該字句以顯示於使用者A以及其他與使用者A聊天的使用者的顯示螢幕上。於一具體實施例中，語音輸入模組可以程式實現，此程式可被一處理器所讀取並執行第1圖之步驟。於一具體實施例中，語音輸入模組亦可由硬體直接實現，如特定應用積體電路(Application-specific integrated circuit)，以加速執行之速度。

第3a至3d圖為根據第1圖之流程所得到的文字顯示的例子。以下配合第3a至3c圖說明如何根據基頻軌跡、能量軌跡以及語音辨識結果的每個字的時間對齊資訊決定語音辨識結果的每個字的文字顯示參數。

第3a圖所示為根據時間對齊資訊決定距離參數的一個例子。在此例子中，根據語音辨識結果的每個字的結束時間和前一個字的結束時間之間的時間長短決定距離參數。舉例而言，由於「can’t」的結束時間與「I」的結束時間之間的時間差D1比「I」的結束時間與「and」的結束時間之間的時間差D2小，因此「can’t」與「I」之間的距離比「I」與「and」之間的距離小。一個字的距離參數可以設定為正比於該字的結束時間與前一個字的結束時間之間的時間差。除此之外，也可直接根據每個字的起始時間決定每個字的距離參數。藉由根據時間對齊資訊決定距離參數，本發明可以根據每個字出現的時間安排各字之間的間距，並藉由顯示各字之間間距的不同呈現原說話者說話時的節奏。

第3b圖所示為根據能量軌跡決定字體大小參數的一個例子。在此例子中，首先計算每個字的平均能量。一個字的總能量為能量軌跡在該字的起始時間與結束時間之間的圖形下面積，而該字的平均能量則為該總能量除以該字的起始時間與結束時間之間的時間差。以第2圖為例，「million」的平均能量=面積U/(T2-T1)。每個字的字體大小參數可以設定為正比於其平均能量，平均能量越大則字體大小參數越大，也就是字體大小越大。另外，也可設定一平均能量預設值，若一個字的平均能量超過平均能量預設值，則該字的字體大小參數設定為第一值，若一個字的平均能量未超過平均能量預設值，則該字的字體大小參數設定為第二值，其中第一值大於第二值，也就是第一值對應的字體大小大於第二值對應的字體大小。如第3b圖所示，由於「believe」和「it」的平均能量超過平均能量預設值，因此「believe」和「it」的字體較他字大。本發明並不侷限於一次僅計算一個字的平均能量，也可以以複字詞、子句或整個句子為計算單位計算其平均能量以調整複字詞、子句或整個句子的字體大小，例如一個句子的平均能量則為該句子的總能量除以該句子的時間長短，而該句子的總能量為能量軌跡在該句子的起始時間與結束時間之間的圖形下面積。

第3c圖所示為根據基頻軌跡決定位置參數。在此例子中，首先計算基頻軌跡在每個字的起始時間與該結束時間之間複數個時間點上的斜率值，然後再計算這些斜率值的回歸直線(Linear Regression)，並根據此回歸直線的斜率決定每個字的位置參數。位置參數代表每個字的垂直位置，在此例子中，位置參數代表每個字顯示時的斜率。

以第2圖為例，對於「times」這個字，在其起始時間T2和結束時間T3之間的四個時間點t1、t2、t3和t4上取四個基頻軌跡的斜率值s1、s2、s3和s4。接著利用回歸分析(Regression Analysis)和曲線擬合(Curve Fitting)對(t1,s1)、(t2,s2)、(t3,s3)和(t4,s4)進行簡單線性回歸以計算其回歸直線即其斜率，然後根據回歸直線的斜率決定「times」的位置參數(顯示時的斜率)。

於一具體實施例中，每個字顯示時的斜率可設定為該字之回歸曲線的斜率。於一具體實施例中，可以將所有字的回歸曲線的斜率映射至一區間，使每一個斜率對應至一個值，然後將每個字的位置參數設定為回歸曲線的斜率所對應的值，使每個字顯示時的斜率等於該值。

藉由回歸直線的斜率可以得知每個字的基頻變化趨勢，因此根據回歸直線的斜率決定每個字的位置參數可以使顯示的字呈現其基頻變化趨勢，以使觀看者感覺到講話者在講個個字時是音調漸高或漸低，也就是說，每個字的音高趨勢可藉由回歸直線的斜率表現。以上敘述雖是根據每個字的回歸直線的斜率決定每個字的位置參數，但本發明並不限定於一個字一個字地計算其位置參數，也可以兩個字以上一起計算其回歸直線的斜率然後一起決定兩個字以上的位置參數。以第3c圖為例，先計算基頻軌跡在「so amazing」的時間區段內的複數個時間點上的斜率值，然後計算該等斜率值的回歸直線，計算此回歸直線的斜率，假設為s5，然後根據回歸直線的斜率s5設定「so amazing」的位置參數使「so amazing」顯示時的斜率等於s5或等於s5所對應的一個值。從第3c圖中可以得知「so amazing」的基頻變化趨勢為上升。

於一具體實施例中，時間點的數量並不限定於4個，其可視實際需求而決定，若要精準的反應講話者的情緒，則可設定較多的時間的的數量，若強調處理效率以即時顯示字句，則可設定較小的時間點的數量。

以下配合第3d圖說明如何如第1圖之步驟S114所示根據基頻軌跡、能量軌跡以及語音辨識結果的每個字的時間對齊資訊決定表情符號。

第3d圖所示為根據基頻軌跡和能量軌跡以及時間對齊資訊決定表情符號的例子。須注意的是，在本說明書中，表情符號可包括標點符號，例如驚嘆號和問號等，另外也可包括一般的表情符號，例如笑臉等。當講話者講話時情緒劇烈變化時，其語音的基頻軌跡和能量軌跡會有對應的變化，因此本發明根據至少一字的平均能量以及音高趨勢決定是否要插入表情符號，若要插入表情符號，更進一步根據每個字的平均能量以及音高趨勢決定要插入哪種表情符號。舉例而言，假設在一辨識結果中某個子句的平均能量超過一平均能量預設值且該子句的回歸直線的斜率高於一斜率預設值，則決定在鄰近該子句的一個位置上，例如該子句的後面，插入一表情符號。以第3d圖為例，子句「I can’t believe it」的平均能量超過一平均能量預設值且其回歸直線的斜率高於一斜率預設值，因此在「I can’t believe it」後方加上「！！！」的表情符號。在本發明中，可以根據平均能量與音高趨勢的不同組合決定要插入什麼表情符號。舉例而言，當平均能量大於一第一預設值且回歸直線的斜率大於一第二預設值時，其對應的表情符號為「！！！」，而當平均能量小於一第三預設值且回歸直線的斜率小於一第四預設值時，其對應的表情符號為「...」。

第4圖為依據本發明另一實施例之文字顯示方法的流程圖。其中步驟S400至S412與第1圖之步驟S100至S112，因此不再復述。

第4圖的流程圖與第1圖之流程圖最大的差別在於第4圖之流程圖除了在步驟S414中根據基頻軌跡、能量軌跡以及語音辨識結果的每個字的時間對齊資訊決定第一表情符號，還增加了步驟S416來決定第二表情符號。在步驟S416中，根據臉部辨識判斷表情強度，並根據表情強度決定是否插入至少一第二表情符號於字句中。舉例而言，本發明藉由一攝影機拍攝輸入該語音訊號的使用者的影像，並對該影像進行臉部偵測以擷取使用者輸入語音訊號時的臉部影像，然後根據臉部影像擷取人臉特徵，例如眼角特徵點、嘴巴特徵點等，然後根據人臉特徵判斷表情強度，再根據表情強度決定是否插入至少一第二表情符號於字句中。

以計算表情強度中的微笑強度為例，首先利用人臉偵測器，例如Viola-Jones式人臉偵測器(Viola-Jones Type Face Detector)或是基於SVM(Support Vector Machine)的人臉偵測器對影像進行臉部偵測以擷取臉部影像，對臉部影像進行標準化(Normalize)以供後續運算，然後擷取臉部影像的人臉特徵，例如局部強度直方圖(Local Intensity Histogram，LIH)、中心對稱局部二進制圖案(Center-Symmetric Local Binary Pattern，CS-LBP)或與LIH和CS-LBP相關的特徵。接著根據人臉特徵估算微笑強度，例如藉由LIH、CS-LBP或與LIH和CS-LBP相關的特徵訓練SVM以供微笑偵測，然後利用串列SVM(Cascaded SVM)計算微笑強度。當微笑強度高於一預設值時，則在字句中插入一個微笑的表情符號。

接著在步驟S418中，根據語音辨識結果、語音辨識結果的每個字的文字顯示參數以及步驟S414和S416所決定的表情符號，將語音辨識結果與表情符號整合為一字句。在步驟S420中，輸出該字句並將該字句顯示於至少一顯示裝置。

於一具體實施例中，步驟S414亦可同時根據表情強度而決定第一表情符號，亦即根據基頻軌跡、能量軌跡、語音辨識結果的每個字的時間對齊資訊以及表情強度決定第一表情符號而不再顯示第二表情符號。於一具體實施例中，步驟S414僅根據表情強度決定第一表情符號，步驟S416根據基頻軌跡、能量軌跡、語音辨識結果的每個字的時間對齊資訊決定第二表情符號。

第5圖所示為依據本發明一實施例的處理裝置50的示意圖。處理裝置50包括語音輸入單元510、處理器520、影像輸入單元530以及文字輸出單元540。語音輸入單元510用以透過一麥克風等接收一語音訊號。影像輸入單元530透過一攝影機接收一影像訊號。處理器520為具有語音處理以及影像處理的處理器(Processor)，包括音高擷取模組521、梅爾倒頻譜模組522、能量計算模組523、語音辨識引擎524、臉部辨識模組525、人臉特徵擷取模組526、表情參數模組527以及文字處理模組528。音高擷取模組擷取語音訊號的基頻軌跡，例如第2圖的基頻軌跡210。梅爾倒頻譜模組擷取語音訊號的複數個梅爾倒頻譜係數，例如梅爾倒頻譜係數C0~C38。能量計算模組523擷取語音訊號的能量軌跡，例如能量軌跡220。語音辨識引擎524對語音訊號進行語音辨識以辨識出對應語音訊號的複數個字，例如語音辨識結果230，並判斷每個字的時間對齊資訊，例如時間點T1~T7。臉部辨識模組525對影像輸入單元所接收的影像訊號進行臉部辨識以擷取使用者輸入語音訊號時的臉部影像。人臉特徵擷取模組526擷取臉部影像的人臉特徵，例如LIH、CS-LBP或與LIH和CS-LBP相關的特徵。表情參數模組527根據判斷一表情強度，例如微笑強度。文字處理模組528根據能量軌跡、基頻軌跡以及時間對齊資訊決定每個字的複數個文字顯示參數，例如根據每個字的結束時間與前一個字的結束時間之間的時間長短決定每個字的距離參數、根據平均能量決定每個字的字體大小參數以及根據回歸直線的斜率決定每個字的位置參數。文字處理模組528也根據平均能量以及回歸直線的斜率決定是否要插入表情符號以及插入何種表情符號。文字處理模組528更根據表情強度決定是否插入對應該表情強度的表情符號於字句中。最後，文字處理模組528根據語音辨識結果、所有文字顯示參數以及所有表情符號將語音辨識結果與表情符號整合為一字句並傳送至文字輸出單元540。文字輸出單元540輸出該字句以使至少一顯示裝置顯示該字句。

本發明之方法、模組，或特定型態或其部份，可以以程式碼的型態存在。程式碼可以包含於實體媒體，如軟碟、光碟片、硬碟、或是任何其他電子設備或機器可讀取(如電腦可讀取)儲存媒體，亦或不限於外在形式之電腦程式產品，其中，當程式碼被機器，如電腦載入且執行時，此機器變成用以參與本發明之裝置或系統，且可執行本發明之方法步驟。程式碼也可以透過一些傳送媒體，如電線或電纜、光纖、或是任何傳輸型態進行傳送，其中，當程式碼被電子設備或機器，如電腦接收、載入且執行時，此機器變成用以參與本發明之系統或裝置。當在一般用途處理單元實作時，程式碼結合處理單元提供一操作類似於應用特定邏輯電路之獨特裝置。

在一實施例中，本發明提供一種電腦程式產品，儲存於一實體電腦可讀取媒體中，例如軟碟、光碟片、硬碟等，該實體電腦可讀取媒體用以被例如電腦、處理器等的電子裝置載入以執行一文字顯示方法，其中該電腦程式產品包括：一第一程式碼，用以接收一語音訊號；一第二程式碼，用以擷取該語音訊號之基頻軌跡；一第三程式碼，用以擷取該語音訊號之能量軌跡；一第四程式碼，用以對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊；一第五程式碼，用以根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的複數個文字顯示參數；以及一第六程式碼，用以根據每個該等字的該等文字顯示參數將該等字整合為一字句，並輸出該字句以使該字句顯示於至少一顯示裝置。該電腦程式產品還包括：一第七程式碼，用以藉由一網路攝影機對輸入該語音訊號的使用者進行臉部偵測以擷取該使用者輸入該語音訊號時的臉部影像；一第八程式碼，用以根據該臉部影像判斷一表情強度；以及一第九程式碼，根據該表情強度決定是否插入至少一第一表情符號於該字句中。

以上所述為實施例的概述特徵。所屬技術領域中具有通常知識者應可以輕而易舉地利用本發明為基礎設計或調整以實行相同的目的和/或達成此處介紹的實施例的相同優點。所屬技術領域中具有通常知識者也應了解相同的配置不應背離本創作的精神與範圍，在不背離本創作的精神與範圍下他們可做出各種改變、取代和交替。說明性的方法僅表示示範性的步驟，但這些步驟並不一定要以所表示的順序執行。可另外加入、取代、改變順序和/或消除步驟以視情況而作調整，並與所揭露的實施例精神和範圍一致。

200‧‧‧語音訊號

210‧‧‧基頻軌跡

220‧‧‧能量軌跡

230‧‧‧語音辨識結果

50‧‧‧處理裝置

510‧‧‧語音輸入單元

520‧‧‧處理器

521‧‧‧音高擷取模組

522‧‧‧梅爾倒頻譜模組

523‧‧‧能量計算模組

524‧‧‧語音辨識引擎

525‧‧‧臉部辨識模組

526‧‧‧人臉特徵擷取模組

527‧‧‧表情參數模組

528‧‧‧文字處理模組

530‧‧‧影像輸入單元

540‧‧‧文字輸出單元

s1、s2、s3、s4‧‧‧斜率

S100、S102、S104、...、S118、S400、S402、S404、...、S420‧‧‧步驟

t1、t2、t3、t4、T1、T2、T3、T4、T5、T6、T7‧‧‧時間點

U‧‧‧面積

第1圖所示為依據本發明一實施例之文字顯示方法的流程圖；第2圖所示為依據第1圖之實施例的語音訊號處理示意圖：第3a至3d圖所示為依據第1圖之實施例的文字顯示的例子；第4圖所示為依據本發明一實施例之文字顯示方法的流程圖；第5圖所示為依據本發明一實施例的處理裝置的示意圖。

S100、S102、S104、...、S118‧‧‧步驟

Claims

一種文字顯示方法，包括：接收一語音訊號；擷取該語音訊號之基頻軌跡；擷取該語音訊號之能量軌跡；對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊；根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數；根據每個該等字的該至少一文字顯示參數，將該等字整合為一字句；以及輸出該字句以使該字句顯示於至少一顯示裝置。
如申請專利範圍第1項所述之文字顯示方法，其中該至少一文字顯示參數包括位置參數、字體大小參數、以及距離參數。
如申請專利範圍第2項所述之文字顯示方法，更包括：藉由一攝影機擷取一臉部影像；根據該臉部影像判斷一表情強度；以及根據該表情強度決定是否插入至少一第一表情符號於該字句中。
如申請專利範圍第3項所述之文字顯示方法，更包括：計算該語音訊號的複數個梅爾倒頻譜係數；根據該等梅爾倒頻譜係數計算該語音訊號的能量以得到該能量軌跡；以及根據該等梅爾倒頻譜係數對該語音訊號進行語音辨識以辨識出該等字並判斷每個該等字的該時間對齊資訊。
如申請專利範圍第4項所述之文字顯示方法，其中每個該等字的該時間對齊資訊包括每個該等字在該語音訊號中的起始時間以及結束時間。
如申請專利範圍第5項所述之文字顯示方法，更包括：根據每個該等字的該結束時間與前一個字的結束時間之間的時間長短決定每個該等字的該距離參數。
如申請專利範圍第6項所述之文字顯示方法，更包括：計算該能量軌跡在每個該等字的該起始時間與該結束時間之間的平均能量；以及根據該平均能量決定每個該等字的字體大小參數。
如申請專利範圍第7項所述之文字顯示方法，更包括：計算該基頻軌跡在每個該等字的該起始時間與該結束時間之間的回歸直線；以及根據該回歸直線的斜率決定每個該等字的該位置參數。
如申請專利範圍第8項所述之文字顯示方法，更包括：根據該等字中至少一字的平均能量以及該至少一字的回歸直線的斜率，決定是否在該字句中鄰近該至少一字處插入至少一第二表情符號，若是，則根據該至少一字的該平均能量以及該至少一字的該回歸直線的該斜率決定該至少一第二表情符號。
一種處理裝置，包括：一語音輸入單元，接收一語音訊號；一處理器，包括：一音高擷取模組，擷取該語音訊號之基頻軌跡；一能量計算模組，擷取該語音訊號之能量軌跡；一語音辨識引擎，對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊；以及一文字處理模組，根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數，並根據每個該等字的該至少一文字顯示參數將該等字整合為一字句；以及一文字輸出單元，輸出該字句以使至少一顯示裝置顯示該字句。
如申請專利範圍第10項所述之處理裝置，其中該至少一文字顯示參數至少包括位置參數、字體大小參數、以及距離參數。
如申請專利範圍第11項所述之處理裝置，更包括：一影像輸入單元，用以擷取一影像，其中該處理器更包括：一臉部辨識模組，對該影像進行臉部辨識以擷取一臉部影像；一人臉特徵擷取模組，擷取該臉部影像的一人臉特徵；以及一表情參數模組，根據該人臉特徵判斷一表情強度，其中該文字處理模組更根據該表情強度決定是否插入至少一第一表情符號於該字句中。
如申請專利範圍第12項所述之處理裝置，其中該處理器更包括：一梅爾倒頻譜模組，擷取該語音訊號的複數個梅爾倒頻譜係數，其中該能量計算模組根據該等梅爾倒頻譜係數計算該語音訊號的能量以得到該能量軌跡，其中該語音辨識引擎根據該等梅爾倒頻譜係數辨識該等字並判斷每個該等字的該時間對齊資訊。
如申請專利範圍第13項所述之處理裝置，其中每個該等字的該時間對齊資訊包括每個該等字在該語音訊號中的起始時間以及結束時間。
如申請專利範圍第14項所述之處理裝置，其中該文字處理模組根據每個該等字的該結束時間與前一個字的結束時間之間的時間長短決定每個該等字的該距離參數。
如申請專利範圍第15項所述之處理裝置，其中該文字處理模組計算該能量軌跡在每個該等字的該起始時間與該結束時間之間的平均能量，並根據該平均能量決定每個該等字的字體大小參數。
如申請專利範圍第16項所述之處理裝置，其中該文字處理模組計算該基頻軌跡在每個該等字的該起始時間與該結束時間之間的回歸直線，並根據該回歸直線的斜率決定每個該等字的該位置參數。
如申請專利範圍第17項所述之處理裝置，其中該文字處理模組根據該等字中至少一字的平均能量以及該至少一字的回歸直線的斜率，決定是否在該字句中鄰近該至少一字處插入至少一第二表情符號，若是，則該文字處理模組根據該至少一字的的該平均能量以及該至少一字的該回歸直線的該斜率決定該至少一第二表情符號。
一種電腦程式產品，儲存於一電腦可讀取媒體，用以被一電子裝置載入以執行一文字顯示方法，其中該電腦程式產品包括：一第一程式碼，用以接收一語音訊號；一第二程式碼，用以擷取該語音訊號之基頻軌跡；一第三程式碼，用以擷取該語音訊號之能量軌跡；一第四程式碼，用以對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊；一第五程式碼，用以根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數；以及一第六程式碼，用以根據每個該等字的該至少一文字顯示參數將該等字整合為一字句，並輸出該字句以使該字句顯示於至少一顯示裝置。
如申請專利範圍第19項所述之電腦程式產品，更包括：一第七程式碼，用以藉由一攝影機擷取一臉部影像；一第八程式碼，用以根據該臉部影像判斷一表情強度；以及一第九程式碼，根據該表情強度決定是否插入至少一第一表情符號於該字句中。