TW201351394A - 文字顯示方法與處理裝置以及電腦程式產品 - Google Patents

文字顯示方法與處理裝置以及電腦程式產品 Download PDF

Info

Publication number
TW201351394A
TW201351394A TW101120062A TW101120062A TW201351394A TW 201351394 A TW201351394 A TW 201351394A TW 101120062 A TW101120062 A TW 101120062A TW 101120062 A TW101120062 A TW 101120062A TW 201351394 A TW201351394 A TW 201351394A
Authority
TW
Taiwan
Prior art keywords
words
word
energy
parameter
voice signal
Prior art date
Application number
TW101120062A
Other languages
English (en)
Other versions
TWI484475B (zh
Inventor
Yu-Chen Huang
Che-Kuang Lin
Original Assignee
Quanta Comp Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanta Comp Inc filed Critical Quanta Comp Inc
Priority to TW101120062A priority Critical patent/TWI484475B/zh
Priority to CN2012102165014A priority patent/CN103474081A/zh
Priority to US13/617,222 priority patent/US8935165B2/en
Publication of TW201351394A publication Critical patent/TW201351394A/zh
Application granted granted Critical
Publication of TWI484475B publication Critical patent/TWI484475B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. SMS or e-mail
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

一種文字顯示方法,包括:接收一語音訊號;擷取該語音訊號之基頻軌跡;擷取該語音訊號之能量軌跡;對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊;根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數;根據每個該等字的該至少一文字顯示參數將該等字整合為一字句;以及輸出該字句以使該字句顯示於一顯示裝置。

Description

文字顯示方法與處理裝置以及電腦程式產品
本發明係有關於語音輸入,且特別有關於基於語音輸入的文字顯示技術。
在以聲音溝通或是面對面溝通時,可以根據對方說話時的音調、音量、速度和隱含的情緒等協助理解對方所要表達的意思。但在傳送簡訊、電子郵件以及利用例如Microsoft Windows Messenger等IM(instant message)通訊程式進行純文字溝通時,由於文字無法呈現講話者的音調、音量與速度等特性,對方僅能理解文字本身而無法同時理解講話者說話時的音調、音量、速度和情緒。
有鑑於此,本發明提供一種文字顯示方法,其根據所輸入的語音的各項特徵以及使用者的表情偵測調整文字顯示方式,以反應使用者說話時的音調、音量、速度和情緒。
本發明一實施例提供一種文字顯示方法,包括:接收一語音訊號;擷取該語音訊號之基頻軌跡;擷取該語音訊號之能量軌跡;對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊;根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數;根據每個該等字的該至少一文字顯示參數,將該等字整合為一字句;以及 輸出該字句以使該字句顯示於至少一顯示裝置。
本發明另一實施例提供一種處理裝置,包括:一語音輸入單元,接收一語音訊號;一處理器,包括:一音高擷取模組,擷取該語音訊號之基頻軌跡;一能量計算模組,擷取該語音訊號之能量軌跡;一語音辨識引擎,對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊;以及一文字處理模組,根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數,並根據每個該等字的該至少一文字顯示參數將該等字整合為一字句;以及一文字輸出單元,輸出該字句以使至少一顯示裝置顯示該字句。
本發明再一實施例提供一種電腦程式產品,儲存於一電腦可讀取媒體,用以被一電子裝置載入以執行一文字顯示方法,其中該電腦程式產品包括:一第一程式碼,用以接收一語音訊號;一第二程式碼,用以擷取該語音訊號之基頻軌跡;一第三程式碼,用以擷取該語音訊號之能量軌跡;一第四程式碼,用以對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊;一第五程式碼,用以根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數;以及一第六程式碼,用以根據每個該等字的該至少一文字顯示參數將該等字整合為一字句,並輸出該字句以使該字句顯示於至少一顯示裝置。
以下說明為本發明的實施例。其目的是要舉例說明本發明一般性的原則,不應視為本發明之限制,本發明之範圍當以申請專利範圍所界定者為準。
第1圖所示為依據本發明一實施例之文字顯示方法的流程圖。在步驟S100中,接收一語音訊號,例如透過麥克風接收並錄製使用者輸入的語音訊號。在步驟S102中,對語音訊號進行基本語音處理,例如進行去除噪聲、數位化等,以供後續步驟分析與運算。以第2圖為例,語音訊號200代表所接收的語音訊號經過數位化的聲波波形,其中橫軸為時間,縱軸為振幅。
在步驟S104中,對語音訊號200進行音高追蹤(Pitch Tracking)以擷取該語音訊號的基頻軌跡(Pitch Contour),如第2圖中的基頻軌跡210。基頻軌跡210的橫軸為時間,縱軸為頻率,頻率的單位為赫茲(Hz)。基頻軌跡210記錄語音訊號200對應時間軸的基本頻率(FundamentalFrequency),即所謂音高。
在步驟S106中,擷取語音訊號200的梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients,MFCC)。在此例子中,對語音訊號200擷取39維的梅爾倒頻譜係數C0~C38。
接著在步驟S108中,根據梅爾倒頻譜係數C0~C38中的低頻梅爾倒頻譜係數C0計算語音訊號200的能量以得到語音訊號200的能量軌跡,如第2圖中的能量軌跡220。梅爾倒頻譜係數C0係代表語音訊號200的功率的函數。能 量軌跡220的橫軸為時間,縱軸為能量。能量軌跡220記錄語音訊號200對應時間軸的能量,即所謂音量。
在步驟S110中,根據梅爾倒頻譜係數C0~C38對語音訊號200進行語音辨識(Speech Recognition)以辨識出語音訊號200對應的字並判斷每個字的時間對齊資訊(Time Alignment Information)。語音辨識包括辨識語音訊號200哪些區段為噪音,例如第2圖中時間點T1之前的語音訊號200。
語音辨識還包括根據語音訊號200的梅爾倒頻譜係數C0~C38等特徵值(Feature)與參考語音模型(例如聲學模型和語言模型)作圖像識別(Pattern Recognition),以得到語音辨識結果,語音辨識結果可為一單字、複數個單字或/和由複數個單字所構成的句子,如第2圖中的語音辨識結果230。以第2圖為例,經語音辨識後,語音訊號200的語音辨識結果230由「million」、「times」、「it’s」、「from」、「Mary’s」以及「mother」之單字所組成。語音辨識更包括判斷語音辨識結果230的每個字的時間對齊資訊,也就是判斷語音辨識結果230的每個字的起始時間和結束時間以及每個字對應至語音訊號200的區段和時間長短為何。以第2圖為例,時間點T2、T3、T4、T5、T6和T7即時間對齊資訊,分別為「million」、「times」、「it’s」、「from」、「Mary’s」和「mother」的結束時間。在第2圖的例子中,每個字以前一個字的結束時間為自己的起始時間,例如「from」前一個字「it’s」的結束時間為T4,所以「times」的起始時間為T4,因此語音訊號200、基頻軌跡210和能 量軌跡220在時間點T4到T5之間的區段係對應至「from」,而時間點T4到T5之間的時間差代表「from」在語音訊號200中的時間長短。須注意的是,「million」是以噪音的結束時間點T1為起始時間。
經過步驟S102至S110,得到語音訊號200的基頻軌跡210、能量軌跡220、語音辨識結果230以及語音辨識結果230的每個字的時間對齊資訊,其中時間對齊資訊包括每個字的起始時間和結束時間。接著在步驟S112中,根據基頻軌跡210、能量軌跡220以及語音辨識結果230的每個字的時間對齊資訊決定語音辨識結果230的每個字的文字顯示參數。文字顯示參數至少包括位置參數、字體大小參數、以及距離參數。位置參數代表每個字在顯示時的垂直位置,字體大小參數代表每個字的字體大小,距離參數代表每個字與前一個字之間的距離。文字顯示參數還可包括文字顏色參數、文字字體參數等與顯示文字相關的參數。
在步驟S114中,根據基頻軌跡210、能量軌跡220以及語音辨識結果230的每個字的時間對齊資訊決定表情符號。於一具體實施例中,表情符號亦屬於文字顯示參數。
在步驟S116中,根據語音辨識結果230、語音辨識結果230的每個字的文字顯示參數以及步驟S114所決定的表情符號,將語音辨識結果230的每個字與表情符號整合為一字句,在步驟S118中,輸出該字句並將該字句顯示於至少一顯示裝置。
舉例而言,當使用者A利用語音輸入模組與其他使用者進行文字溝通時,使用者A對著麥克風輸入一語音訊 號,語音輸入模組擷取該語音訊號,如第1圖的步驟S100所示,然後語音輸入模組對語音訊號進行如第1圖步驟S100至S112的處理後,得到語音辨識結果以及語音辨識結果的每個字的文字顯示參數,然後語音輸入模組根據語音辨識結果以及語音辨識結果的每個字的文字顯示參數將語音辨識結果的每個字整合為一字句,並輸出該字句以顯示於使用者A以及其他與使用者A聊天的使用者的顯示螢幕上。於一具體實施例中,語音輸入模組可以程式實現,此程式可被一處理器所讀取並執行第1圖之步驟。於一具體實施例中,語音輸入模組亦可由硬體直接實現,如特定應用積體電路(Application-specific integrated circuit),以加速執行之速度。
第3a至3d圖為根據第1圖之流程所得到的文字顯示的例子。以下配合第3a至3c圖說明如何根據基頻軌跡、能量軌跡以及語音辨識結果的每個字的時間對齊資訊決定語音辨識結果的每個字的文字顯示參數。
第3a圖所示為根據時間對齊資訊決定距離參數的一個例子。在此例子中,根據語音辨識結果的每個字的結束時間和前一個字的結束時間之間的時間長短決定距離參數。舉例而言,由於「can’t」的結束時間與「I」的結束時間之間的時間差D1比「I」的結束時間與「and」的結束時間之間的時間差D2小,因此「can’t」與「I」之間的距離比「I」與「and」之間的距離小。一個字的距離參數可以設定為正比於該字的結束時間與前一個字的結束時間之間的時間差。除此之外,也可直接根據每個字的起始時間決定每個 字的距離參數。藉由根據時間對齊資訊決定距離參數,本發明可以根據每個字出現的時間安排各字之間的間距,並藉由顯示各字之間間距的不同呈現原說話者說話時的節奏。
第3b圖所示為根據能量軌跡決定字體大小參數的一個例子。在此例子中,首先計算每個字的平均能量。一個字的總能量為能量軌跡在該字的起始時間與結束時間之間的圖形下面積,而該字的平均能量則為該總能量除以該字的起始時間與結束時間之間的時間差。以第2圖為例,「million」的平均能量=面積U/(T2-T1)。每個字的字體大小參數可以設定為正比於其平均能量,平均能量越大則字體大小參數越大,也就是字體大小越大。另外,也可設定一平均能量預設值,若一個字的平均能量超過平均能量預設值,則該字的字體大小參數設定為第一值,若一個字的平均能量未超過平均能量預設值,則該字的字體大小參數設定為第二值,其中第一值大於第二值,也就是第一值對應的字體大小大於第二值對應的字體大小。如第3b圖所示,由於「believe」和「it」的平均能量超過平均能量預設值,因此「believe」和「it」的字體較他字大。本發明並不侷限於一次僅計算一個字的平均能量,也可以以複字詞、子句或整個句子為計算單位計算其平均能量以調整複字詞、子句或整個句子的字體大小,例如一個句子的平均能量則為該句子的總能量除以該句子的時間長短,而該句子的總能量為能量軌跡在該句子的起始時間與結束時間之間的圖形下面積。
第3c圖所示為根據基頻軌跡決定位置參數。在此例子中,首先計算基頻軌跡在每個字的起始時間與該結束時間之間複數個時間點上的斜率值,然後再計算這些斜率值的回歸直線(Linear Regression),並根據此回歸直線的斜率決定每個字的位置參數。位置參數代表每個字的垂直位置,在此例子中,位置參數代表每個字顯示時的斜率。
以第2圖為例,對於「times」這個字,在其起始時間T2和結束時間T3之間的四個時間點t1、t2、t3和t4上取四個基頻軌跡的斜率值s1、s2、s3和s4。接著利用回歸分析(Regression Analysis)和曲線擬合(Curve Fitting)對(t1,s1)、(t2,s2)、(t3,s3)和(t4,s4)進行簡單線性回歸以計算其回歸直線即其斜率,然後根據回歸直線的斜率決定「times」的位置參數(顯示時的斜率)。
於一具體實施例中,每個字顯示時的斜率可設定為該字之回歸曲線的斜率。於一具體實施例中,可以將所有字的回歸曲線的斜率映射至一區間,使每一個斜率對應至一個值,然後將每個字的位置參數設定為回歸曲線的斜率所對應的值,使每個字顯示時的斜率等於該值。
藉由回歸直線的斜率可以得知每個字的基頻變化趨勢,因此根據回歸直線的斜率決定每個字的位置參數可以使顯示的字呈現其基頻變化趨勢,以使觀看者感覺到講話者在講個個字時是音調漸高或漸低,也就是說,每個字的音高趨勢可藉由回歸直線的斜率表現。以上敘述雖是根據每個字的回歸直線的斜率決定每個字的位置參數,但本發明並不限定於一個字一個字地計算其位置參數,也可以兩 個字以上一起計算其回歸直線的斜率然後一起決定兩個字以上的位置參數。以第3c圖為例,先計算基頻軌跡在「so amazing」的時間區段內的複數個時間點上的斜率值,然後計算該等斜率值的回歸直線,計算此回歸直線的斜率,假設為s5,然後根據回歸直線的斜率s5設定「so amazing」的位置參數使「so amazing」顯示時的斜率等於s5或等於s5所對應的一個值。從第3c圖中可以得知「so amazing」的基頻變化趨勢為上升。
於一具體實施例中,時間點的數量並不限定於4個,其可視實際需求而決定,若要精準的反應講話者的情緒,則可設定較多的時間的的數量,若強調處理效率以即時顯示字句,則可設定較小的時間點的數量。
以下配合第3d圖說明如何如第1圖之步驟S114所示根據基頻軌跡、能量軌跡以及語音辨識結果的每個字的時間對齊資訊決定表情符號。
第3d圖所示為根據基頻軌跡和能量軌跡以及時間對齊資訊決定表情符號的例子。須注意的是,在本說明書中,表情符號可包括標點符號,例如驚嘆號和問號等,另外也可包括一般的表情符號,例如笑臉等。當講話者講話時情緒劇烈變化時,其語音的基頻軌跡和能量軌跡會有對應的變化,因此本發明根據至少一字的平均能量以及音高趨勢決定是否要插入表情符號,若要插入表情符號,更進一步根據每個字的平均能量以及音高趨勢決定要插入哪種表情符號。舉例而言,假設在一辨識結果中某個子句的平均能量超過一平均能量預設值且該子句的回歸直線的斜率高於 一斜率預設值,則決定在鄰近該子句的一個位置上,例如該子句的後面,插入一表情符號。以第3d圖為例,子句「I can’t believe it」的平均能量超過一平均能量預設值且其回歸直線的斜率高於一斜率預設值,因此在「I can’t believe it」後方加上「!!!」的表情符號。在本發明中,可以根據平均能量與音高趨勢的不同組合決定要插入什麼表情符號。舉例而言,當平均能量大於一第一預設值且回歸直線的斜率大於一第二預設值時,其對應的表情符號為「!!!」,而當平均能量小於一第三預設值且回歸直線的斜率小於一第四預設值時,其對應的表情符號為「...」。
第4圖為依據本發明另一實施例之文字顯示方法的流程圖。其中步驟S400至S412與第1圖之步驟S100至S112,因此不再復述。
第4圖的流程圖與第1圖之流程圖最大的差別在於第4圖之流程圖除了在步驟S414中根據基頻軌跡、能量軌跡以及語音辨識結果的每個字的時間對齊資訊決定第一表情符號,還增加了步驟S416來決定第二表情符號。在步驟S416中,根據臉部辨識判斷表情強度,並根據表情強度決定是否插入至少一第二表情符號於字句中。舉例而言,本發明藉由一攝影機拍攝輸入該語音訊號的使用者的影像,並對該影像進行臉部偵測以擷取使用者輸入語音訊號時的臉部影像,然後根據臉部影像擷取人臉特徵,例如眼角特徵點、嘴巴特徵點等,然後根據人臉特徵判斷表情強度,再根據表情強度決定是否插入至少一第二表情符號於字句中。
以計算表情強度中的微笑強度為例,首先利用人臉偵 測器,例如Viola-Jones式人臉偵測器(Viola-Jones Type Face Detector)或是基於SVM(Support Vector Machine)的人臉偵測器對影像進行臉部偵測以擷取臉部影像,對臉部影像進行標準化(Normalize)以供後續運算,然後擷取臉部影像的人臉特徵,例如局部強度直方圖(Local Intensity Histogram,LIH)、中心對稱局部二進制圖案(Center-Symmetric Local Binary Pattern,CS-LBP)或與LIH和CS-LBP相關的特徵。接著根據人臉特徵估算微笑強度,例如藉由LIH、CS-LBP或與LIH和CS-LBP相關的特徵訓練SVM以供微笑偵測,然後利用串列SVM(Cascaded SVM)計算微笑強度。當微笑強度高於一預設值時,則在字句中插入一個微笑的表情符號。
接著在步驟S418中,根據語音辨識結果、語音辨識結果的每個字的文字顯示參數以及步驟S414和S416所決定的表情符號,將語音辨識結果與表情符號整合為一字句。在步驟S420中,輸出該字句並將該字句顯示於至少一顯示裝置。
於一具體實施例中,步驟S414亦可同時根據表情強度而決定第一表情符號,亦即根據基頻軌跡、能量軌跡、語音辨識結果的每個字的時間對齊資訊以及表情強度決定第一表情符號而不再顯示第二表情符號。於一具體實施例中,步驟S414僅根據表情強度決定第一表情符號,步驟S416根據基頻軌跡、能量軌跡、語音辨識結果的每個字的時間對齊資訊決定第二表情符號。
第5圖所示為依據本發明一實施例的處理裝置50的示 意圖。處理裝置50包括語音輸入單元510、處理器520、影像輸入單元530以及文字輸出單元540。語音輸入單元510用以透過一麥克風等接收一語音訊號。影像輸入單元530透過一攝影機接收一影像訊號。處理器520為具有語音處理以及影像處理的處理器(Processor),包括音高擷取模組521、梅爾倒頻譜模組522、能量計算模組523、語音辨識引擎524、臉部辨識模組525、人臉特徵擷取模組526、表情參數模組527以及文字處理模組528。音高擷取模組擷取語音訊號的基頻軌跡,例如第2圖的基頻軌跡210。梅爾倒頻譜模組擷取語音訊號的複數個梅爾倒頻譜係數,例如梅爾倒頻譜係數C0~C38。能量計算模組523擷取語音訊號的能量軌跡,例如能量軌跡220。語音辨識引擎524對語音訊號進行語音辨識以辨識出對應語音訊號的複數個字,例如語音辨識結果230,並判斷每個字的時間對齊資訊,例如時間點T1~T7。臉部辨識模組525對影像輸入單元所接收的影像訊號進行臉部辨識以擷取使用者輸入語音訊號時的臉部影像。人臉特徵擷取模組526擷取臉部影像的人臉特徵,例如LIH、CS-LBP或與LIH和CS-LBP相關的特徵。表情參數模組527根據判斷一表情強度,例如微笑強度。文字處理模組528根據能量軌跡、基頻軌跡以及時間對齊資訊決定每個字的複數個文字顯示參數,例如根據每個字的結束時間與前一個字的結束時間之間的時間長短決定每個字的距離參數、根據平均能量決定每個字的字體大小參數以及根據回歸直線的斜率決定每個字的位置參數。文字處理模組528也根據平均能量以及回歸直線的斜 率決定是否要插入表情符號以及插入何種表情符號。文字處理模組528更根據表情強度決定是否插入對應該表情強度的表情符號於字句中。最後,文字處理模組528根據語音辨識結果、所有文字顯示參數以及所有表情符號將語音辨識結果與表情符號整合為一字句並傳送至文字輸出單元540。文字輸出單元540輸出該字句以使至少一顯示裝置顯示該字句。
本發明之方法、模組,或特定型態或其部份,可以以程式碼的型態存在。程式碼可以包含於實體媒體,如軟碟、光碟片、硬碟、或是任何其他電子設備或機器可讀取(如電腦可讀取)儲存媒體,亦或不限於外在形式之電腦程式產品,其中,當程式碼被機器,如電腦載入且執行時,此機器變成用以參與本發明之裝置或系統,且可執行本發明之方法步驟。程式碼也可以透過一些傳送媒體,如電線或電纜、光纖、或是任何傳輸型態進行傳送,其中,當程式碼被電子設備或機器,如電腦接收、載入且執行時,此機器變成用以參與本發明之系統或裝置。當在一般用途處理單元實作時,程式碼結合處理單元提供一操作類似於應用特定邏輯電路之獨特裝置。
在一實施例中,本發明提供一種電腦程式產品,儲存於一實體電腦可讀取媒體中,例如軟碟、光碟片、硬碟等,該實體電腦可讀取媒體用以被例如電腦、處理器等的電子裝置載入以執行一文字顯示方法,其中該電腦程式產品包括:一第一程式碼,用以接收一語音訊號;一第二程式碼,用以擷取該語音訊號之基頻軌跡;一第三程式碼,用以擷 取該語音訊號之能量軌跡;一第四程式碼,用以對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊;一第五程式碼,用以根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的複數個文字顯示參數;以及一第六程式碼,用以根據每個該等字的該等文字顯示參數將該等字整合為一字句,並輸出該字句以使該字句顯示於至少一顯示裝置。該電腦程式產品還包括:一第七程式碼,用以藉由一網路攝影機對輸入該語音訊號的使用者進行臉部偵測以擷取該使用者輸入該語音訊號時的臉部影像;一第八程式碼,用以根據該臉部影像判斷一表情強度;以及一第九程式碼,根據該表情強度決定是否插入至少一第一表情符號於該字句中。
以上所述為實施例的概述特徵。所屬技術領域中具有通常知識者應可以輕而易舉地利用本發明為基礎設計或調整以實行相同的目的和/或達成此處介紹的實施例的相同優點。所屬技術領域中具有通常知識者也應了解相同的配置不應背離本創作的精神與範圍,在不背離本創作的精神與範圍下他們可做出各種改變、取代和交替。說明性的方法僅表示示範性的步驟,但這些步驟並不一定要以所表示的順序執行。可另外加入、取代、改變順序和/或消除步驟以視情況而作調整,並與所揭露的實施例精神和範圍一致。
200‧‧‧語音訊號
210‧‧‧基頻軌跡
220‧‧‧能量軌跡
230‧‧‧語音辨識結果
50‧‧‧處理裝置
510‧‧‧語音輸入單元
520‧‧‧處理器
521‧‧‧音高擷取模組
522‧‧‧梅爾倒頻譜模組
523‧‧‧能量計算模組
524‧‧‧語音辨識引擎
525‧‧‧臉部辨識模組
526‧‧‧人臉特徵擷取模組
527‧‧‧表情參數模組
528‧‧‧文字處理模組
530‧‧‧影像輸入單元
540‧‧‧文字輸出單元
s1、s2、s3、s4‧‧‧斜率
S100、S102、S104、...、S118、S400、S402、S404、...、S420‧‧‧步驟
t1、t2、t3、t4、T1、T2、T3、T4、T5、T6、T7‧‧‧時間點
U‧‧‧面積
第1圖所示為依據本發明一實施例之文字顯示方法的流程圖;第2圖所示為依據第1圖之實施例的語音訊號處理示意圖:第3a至3d圖所示為依據第1圖之實施例的文字顯示的例子;第4圖所示為依據本發明一實施例之文字顯示方法的流程圖;第5圖所示為依據本發明一實施例的處理裝置的示意圖。
S100、S102、S104、...、S118‧‧‧步驟

Claims (20)

  1. 一種文字顯示方法,包括:接收一語音訊號;擷取該語音訊號之基頻軌跡;擷取該語音訊號之能量軌跡;對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊;根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數;根據每個該等字的該至少一文字顯示參數,將該等字整合為一字句;以及輸出該字句以使該字句顯示於至少一顯示裝置。
  2. 如申請專利範圍第1項所述之文字顯示方法,其中該至少一文字顯示參數包括位置參數、字體大小參數、以及距離參數。
  3. 如申請專利範圍第2項所述之文字顯示方法,更包括:藉由一攝影機擷取一臉部影像;根據該臉部影像判斷一表情強度;以及根據該表情強度決定是否插入至少一第一表情符號於該字句中。
  4. 如申請專利範圍第3項所述之文字顯示方法,更包括:計算該語音訊號的複數個梅爾倒頻譜係數;根據該等梅爾倒頻譜係數計算該語音訊號的能量以得 到該能量軌跡;以及根據該等梅爾倒頻譜係數對該語音訊號進行語音辨識以辨識出該等字並判斷每個該等字的該時間對齊資訊。
  5. 如申請專利範圍第4項所述之文字顯示方法,其中每個該等字的該時間對齊資訊包括每個該等字在該語音訊號中的起始時間以及結束時間。
  6. 如申請專利範圍第5項所述之文字顯示方法,更包括:根據每個該等字的該結束時間與前一個字的結束時間之間的時間長短決定每個該等字的該距離參數。
  7. 如申請專利範圍第6項所述之文字顯示方法,更包括:計算該能量軌跡在每個該等字的該起始時間與該結束時間之間的平均能量;以及根據該平均能量決定每個該等字的字體大小參數。
  8. 如申請專利範圍第7項所述之文字顯示方法,更包括:計算該基頻軌跡在每個該等字的該起始時間與該結束時間之間的回歸直線;以及根據該回歸直線的斜率決定每個該等字的該位置參數。
  9. 如申請專利範圍第8項所述之文字顯示方法,更包括:根據該等字中至少一字的平均能量以及該至少一字的回歸直線的斜率,決定是否在該字句中鄰近該至少一字處 插入至少一第二表情符號,若是,則根據該至少一字的該平均能量以及該至少一字的該回歸直線的該斜率決定該至少一第二表情符號。
  10. 一種處理裝置,包括:一語音輸入單元,接收一語音訊號;一處理器,包括:一音高擷取模組,擷取該語音訊號之基頻軌跡;一能量計算模組,擷取該語音訊號之能量軌跡;一語音辨識引擎,對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊;以及一文字處理模組,根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數,並根據每個該等字的該至少一文字顯示參數將該等字整合為一字句;以及一文字輸出單元,輸出該字句以使至少一顯示裝置顯示該字句。
  11. 如申請專利範圍第10項所述之處理裝置,其中該至少一文字顯示參數至少包括位置參數、字體大小參數、以及距離參數。
  12. 如申請專利範圍第11項所述之處理裝置,更包括:一影像輸入單元,用以擷取一影像,其中該處理器更包括:一臉部辨識模組,對該影像進行臉部辨識以擷取一臉部影像; 一人臉特徵擷取模組,擷取該臉部影像的一人臉特徵;以及一表情參數模組,根據該人臉特徵判斷一表情強度,其中該文字處理模組更根據該表情強度決定是否插入至少一第一表情符號於該字句中。
  13. 如申請專利範圍第12項所述之處理裝置,其中該處理器更包括:一梅爾倒頻譜模組,擷取該語音訊號的複數個梅爾倒頻譜係數,其中該能量計算模組根據該等梅爾倒頻譜係數計算該語音訊號的能量以得到該能量軌跡,其中該語音辨識引擎根據該等梅爾倒頻譜係數辨識該等字並判斷每個該等字的該時間對齊資訊。
  14. 如申請專利範圍第13項所述之處理裝置,其中每個該等字的該時間對齊資訊包括每個該等字在該語音訊號中的起始時間以及結束時間。
  15. 如申請專利範圍第14項所述之處理裝置,其中該文字處理模組根據每個該等字的該結束時間與前一個字的結束時間之間的時間長短決定每個該等字的該距離參數。
  16. 如申請專利範圍第15項所述之處理裝置,其中該文字處理模組計算該能量軌跡在每個該等字的該起始時間與該結束時間之間的平均能量,並根據該平均能量決定每個該等字的字體大小參數。
  17. 如申請專利範圍第16項所述之處理裝置,其中該文字處理模組計算該基頻軌跡在每個該等字的該起始時間 與該結束時間之間的回歸直線,並根據該回歸直線的斜率決定每個該等字的該位置參數。
  18. 如申請專利範圍第17項所述之處理裝置,其中該文字處理模組根據該等字中至少一字的平均能量以及該至少一字的回歸直線的斜率,決定是否在該字句中鄰近該至少一字處插入至少一第二表情符號,若是,則該文字處理模組根據該至少一字的的該平均能量以及該至少一字的該回歸直線的該斜率決定該至少一第二表情符號。
  19. 一種電腦程式產品,儲存於一電腦可讀取媒體,用以被一電子裝置載入以執行一文字顯示方法,其中該電腦程式產品包括:一第一程式碼,用以接收一語音訊號;一第二程式碼,用以擷取該語音訊號之基頻軌跡;一第三程式碼,用以擷取該語音訊號之能量軌跡;一第四程式碼,用以對該語音訊號進行語音辨識以辨識出對應該語音訊號的複數個字並判斷每個該等字的時間對齊資訊;一第五程式碼,用以根據該能量軌跡、該基頻軌跡以及該等時間對齊資訊決定每個該等字的至少一文字顯示參數;以及一第六程式碼,用以根據每個該等字的該至少一文字顯示參數將該等字整合為一字句,並輸出該字句以使該字句顯示於至少一顯示裝置。
  20. 如申請專利範圍第19項所述之電腦程式產品,更包括: 一第七程式碼,用以藉由一攝影機擷取一臉部影像;一第八程式碼,用以根據該臉部影像判斷一表情強度;以及一第九程式碼,根據該表情強度決定是否插入至少一第一表情符號於該字句中。
TW101120062A 2012-06-05 2012-06-05 文字顯示方法與語音轉文字裝置以及電腦程式產品 TWI484475B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW101120062A TWI484475B (zh) 2012-06-05 2012-06-05 文字顯示方法與語音轉文字裝置以及電腦程式產品
CN2012102165014A CN103474081A (zh) 2012-06-05 2012-06-27 文字显示方法与处理装置以及计算机程序产品
US13/617,222 US8935165B2 (en) 2012-06-05 2012-09-14 Method for displaying words and processing device and computer program product thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101120062A TWI484475B (zh) 2012-06-05 2012-06-05 文字顯示方法與語音轉文字裝置以及電腦程式產品

Publications (2)

Publication Number Publication Date
TW201351394A true TW201351394A (zh) 2013-12-16
TWI484475B TWI484475B (zh) 2015-05-11

Family

ID=49671321

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101120062A TWI484475B (zh) 2012-06-05 2012-06-05 文字顯示方法與語音轉文字裝置以及電腦程式產品

Country Status (3)

Country Link
US (1) US8935165B2 (zh)
CN (1) CN103474081A (zh)
TW (1) TWI484475B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470188A (zh) * 2018-02-26 2018-08-31 北京物灵智能科技有限公司 基于图像分析的交互方法及电子设备

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150068609A (ko) * 2013-12-12 2015-06-22 삼성전자주식회사 이미지 정보 표시 방법 및 장치
KR20150123579A (ko) * 2014-04-25 2015-11-04 삼성전자주식회사 사용자 음성으로부터 감정정보를 확인하는 방법 및 장치
CN103986826A (zh) * 2014-05-12 2014-08-13 深圳市威富多媒体有限公司 一种基于语音识别的移动终端加解密的方法及装置
US9576175B2 (en) * 2014-05-16 2017-02-21 Verizon Patent And Licensing Inc. Generating emoticons based on an image of a face
CN104240703B (zh) * 2014-08-21 2018-03-06 广州三星通信技术研究有限公司 语音信息处理方法和装置
CN105353957A (zh) * 2015-10-28 2016-02-24 深圳市金立通信设备有限公司 一种信息显示方法及终端
GB2544070B (en) 2015-11-04 2021-12-29 The Chancellor Masters And Scholars Of The Univ Of Cambridge Speech processing system and method
WO2018079294A1 (ja) * 2016-10-27 2018-05-03 ソニー株式会社 情報処理装置及び情報処理方法
CN110488997A (zh) * 2019-07-03 2019-11-22 深圳市九洲电器有限公司 基于语音的书写板实现方法及相关产品
CN111356010A (zh) * 2020-04-01 2020-06-30 上海依图信息技术有限公司 一种获取音频最适播放速度的方法与系统
CN112258594A (zh) * 2020-10-23 2021-01-22 北京字节跳动网络技术有限公司 文字显示方法、装置、电子设备及计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100641141B1 (ko) * 2004-03-19 2006-11-02 엘지전자 주식회사 음성/텍스트 변환의 텍스트 표현 방법
TWI365416B (en) * 2007-02-16 2012-06-01 Ind Tech Res Inst Method of emotion recognition and learning new identification information
KR101513615B1 (ko) * 2008-06-12 2015-04-20 엘지전자 주식회사 이동 단말기 및 그 음성 인식 방법
TW201030634A (en) * 2009-02-06 2010-08-16 Ren-Liang Wu Genuine recognition system combining image and sound analysis, and its method
TW201035967A (en) * 2009-03-31 2010-10-01 Univ Nat United Online game speech emotion real-time recognition system and method
US8788270B2 (en) * 2009-06-16 2014-07-22 University Of Florida Research Foundation, Inc. Apparatus and method for determining an emotion state of a speaker
CN102193620B (zh) * 2010-03-02 2013-01-23 三星电子(中国)研发中心 一种基于表情识别的输入方法
CN102231278B (zh) * 2011-06-10 2013-08-21 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN102237088B (zh) * 2011-06-17 2013-10-23 盛乐信息技术(上海)有限公司 语音识别多信息文本获取装置及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470188A (zh) * 2018-02-26 2018-08-31 北京物灵智能科技有限公司 基于图像分析的交互方法及电子设备
CN108470188B (zh) * 2018-02-26 2022-04-22 北京物灵智能科技有限公司 基于图像分析的交互方法及电子设备

Also Published As

Publication number Publication date
US8935165B2 (en) 2015-01-13
US20130325464A1 (en) 2013-12-05
CN103474081A (zh) 2013-12-25
TWI484475B (zh) 2015-05-11

Similar Documents

Publication Publication Date Title
TWI484475B (zh) 文字顯示方法與語音轉文字裝置以及電腦程式產品
CN107153496B (zh) 用于输入表情图标的方法和装置
WO2020177190A1 (zh) 一种处理方法、装置及设备
US20180077095A1 (en) Augmentation of Communications with Emotional Data
TW201543467A (zh) 語音輸入方法、裝置和系統
JP6400445B2 (ja) 会話分析装置、会話分析システム、会話分析方法及び会話分析プログラム
US20180013718A1 (en) Account adding method, terminal, server, and computer storage medium
KR101628050B1 (ko) 텍스트 기반 데이터를 애니메이션으로 재생하는 애니메이션 시스템
WO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
CN104598644A (zh) 用户喜好标签挖掘方法和装置
WO2022170848A1 (zh) 人机交互方法、装置、系统、电子设备以及计算机介质
WO2020140840A1 (zh) 用于唤醒可穿戴设备的方法及装置
WO2022242706A1 (zh) 基于多模态的反应式响应生成
JP5083033B2 (ja) 感情推定装置及びプログラム
WO2023030121A1 (zh) 数据处理方法、装置、电子设备及存储介质
CN112652041A (zh) 虚拟形象的生成方法、装置、存储介质及电子设备
CN110990534A (zh) 一种数据处理方法、装置和用于数据处理的装置
WO2017143951A1 (zh) 一种表情反馈方法及智能机器人
JP2023540536A (ja) マルチモーダルゲームビデオの要約
WO2022041192A1 (zh) 语音消息处理方法、设备及即时通信客户端
CN112235183B (zh) 通信消息处理方法、设备及即时通信客户端
KR102291113B1 (ko) 회의록 작성 장치 및 방법
US20190272364A1 (en) User Authentication By Subvocalization Of Melody Singing
TWM611494U (zh) 語音合成配音系統
WO2020154883A1 (zh) 语音信息的处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees