TWI751560B - 語音轉文字裝置以及語音轉文字方法 - Google Patents

語音轉文字裝置以及語音轉文字方法 Download PDF

Info

Publication number
TWI751560B
TWI751560B TW109116544A TW109116544A TWI751560B TW I751560 B TWI751560 B TW I751560B TW 109116544 A TW109116544 A TW 109116544A TW 109116544 A TW109116544 A TW 109116544A TW I751560 B TWI751560 B TW I751560B
Authority
TW
Taiwan
Prior art keywords
text
recognition result
character
group
emotion
Prior art date
Application number
TW109116544A
Other languages
English (en)
Other versions
TW202044230A (zh
Inventor
羅郁中
吳庭瑋
陳凱逸
王怡文
林建宏
翁嘉信
Original Assignee
仁寶電腦工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 仁寶電腦工業股份有限公司 filed Critical 仁寶電腦工業股份有限公司
Publication of TW202044230A publication Critical patent/TW202044230A/zh
Application granted granted Critical
Publication of TWI751560B publication Critical patent/TWI751560B/zh

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

提供一種語音轉文字裝置以及語音轉文字方法。語音轉文字方法包含:取得對應於語音資料的文字辨識結果以及對應於語音資料的情緒辨識結果;根據情緒辨識結果配置文字格式;以及根據文字格式以輸出文字辨識結果。

Description

語音轉文字裝置以及語音轉文字方法
本發明是有關於一種電子裝置以及方法,且特別是有關於一種語音轉文字裝置以及語音轉文字方法。
在人與人進行溝通時,辨識情緒是很重要的。若無法正確地解讀他人的情緒,很容易使雙方發生誤會。舉例來說,亞斯伯格症的患者可因無法正確地解讀他人的情緒而出現社交困難的症狀。電話克服人員可能因無法根據聲音而正確地解讀客戶的情緒,從而導致客訴事件發生。另一方面,針對聽障者,市面上有許多具有語音轉文字(speech-to-text,STT)功能的裝置,可幫助聽障者理解他人的話語。然而,這些具有STT功能的裝置仍無法明確地將他人的情緒傳達使用該些裝置的給聽障者。
本發明提供一種語音轉文字裝置以及語音轉文字方法,可以視覺化的方式呈現語音資料所對應的情緒。
本發明的一種語音轉文字裝置,包括處理器、儲存媒體、輸入裝置以及輸出裝置。儲存媒體儲存多個模組。處理器耦接儲存媒體、輸出裝置以及輸入裝置,並且存取和執行多個模組,其中多個模組包括資料收集模組以及文字顯示模組。資料收集模組通過輸入裝置取得對應於語音資料的文字辨識結果以及對應於語音資料的情緒辨識結果。文字顯示模組,根據情緒辨識結果配置文字格式,並且根據文字格式以通過輸出裝置輸出文字辨識結果。
在本發明的一實施例中,上述的文字格式包括下列的至少其中之一:字型(Typeface)、字型大小、字型樣式、字型色彩、字元間距、文字大小寫以及對話框底色。
在本發明的一實施例中,上述的字型色彩包括字型色調、字型明度以及字型飽和度。
在本發明的一實施例中,上述的對話框底色包括對話框色調、對話框明度以及對話框飽和度。
在本發明的一實施例中,上述的文字辨識結果包括第一時間戳記並且情緒辨識結果包括第二時間戳記,其中文字顯示模組響應於第一時間戳記與第二時間戳記匹配而根據情緒辨識結果配置文字格式。
在本發明的一實施例中,上述的情緒辨識結果包括情緒強度,並且文字顯示模組根據情緒強度配置文字格式的參數值。
在本發明的一實施例中,上述的文字辨識結果包括第一字元、相鄰於第一字元的第二字元、對應於第一字元的第一字元時 間戳記以及對應於第二字元的第二字元時間戳記,其中文字顯示模組根據第一時間戳記以及第二時間戳記配置第一字元以及第二字元之間的字元間距。
在本發明的一實施例中,上述的文字顯示模組根據字元間距判斷第一字元為關鍵字元,並且為第一字元配置與關鍵字元相對應的關鍵文字格式。
在本發明的一實施例中,上述的文字辨識結果包括第一字組以及第二字組,並且情緒辨識結果包括對應於第一字組的第一情緒強度以及對應於第二字組的第二情緒強度,其中文字顯示模組響應於第一情緒強度大於第二情緒強度而判斷第一字組為關鍵字組,並且為第一字組配置與關鍵字組相對應的關鍵文字格式。
在本發明的一實施例中,上述的文字辨識結果包括第一字組,並且情緒辨識結果包括對應於第一字組的第一情緒強度,其中文字顯示模組響應於第一情度強度資訊大於閾值而判斷第一字組為關鍵字組,並且為第一字組配置與關鍵字組相對應的關鍵文字格式。
在本發明的一實施例中,上述的文字辨識結果包括第一字組以及第二字組,並且情緒辨識結果包括對應於第一字組的第一情緒強度以及對應於第二字組的第二情緒強度,其中文字顯示模組響應於第一情緒強度與第二情緒強度之間的差值大於閾值而判斷第一字組為關鍵字組,並且為第一字組配置與關鍵字組相對應的關鍵文字格式。
在本發明的一實施例中,上述的文字辨識結果包括多個字組,並且情緒辨識結果包括分別對應於多個字組的多個情緒強度,其中多個字組包括第一字組,並且多個情緒強度包括對應於第一字組的第一情緒強度,其中文字顯示模組根據多個情緒強度計算平均情緒強度,響應於第一情緒強度與平均情緒強度的差值大於閾值而判斷第一字組為關鍵字組,並且為第一字組配置與關鍵字組相對應的關鍵文字格式。
在本發明的一實施例中,上述的資料收集模組通過輸入裝置接收語音資料,並且多個模組更包括辨識模組。辨識模組根據語音資料產生文字辨識結果,並且根據語音資料產生情緒辨識結果。
本發明的一種語音轉文字方法,包括:取得對應於語音資料的文字辨識結果以及對應於語音資料的情緒辨識結果;根據情緒辨識結果配置文字格式;以及根據文字格式以輸出文字辨識結果。
在本發明的一實施例中,上述的文字格式包括下列的至少其中之一:字型、字型大小、字型樣式、字型色彩、字元間距、文字大小寫以及對話框底色。
在本發明的一實施例中,上述的字型色彩包括字型色調、字型明度以及字型飽和度。
在本發明的一實施例中,上述的對話框底色包括對話框色調、對話框明度以及對話框飽和度。
在本發明的一實施例中,上述的文字辨識結果包括第一時間戳記並且情緒辨識結果包括第二時間戳記,其中根據情緒辨識結果配置文字格式的步驟包括:響應於第一時間戳記與第二時間戳記匹配而根據情緒辨識結果配置文字格式。
在本發明的一實施例中,上述的情緒辨識結果包括情緒強度,其中根據情緒辨識結果配置文字格式的步驟包括:根據情緒強度配置文字格式的參數值。
在本發明的一實施例中,上述的文字辨識結果包括第一字元、相鄰於第一字元的第二字元、對應於第一字元的第一字元時間戳記以及對應於第二字元的第二字元時間戳記,其中根據情緒辨識結果配置文字格式的步驟包括:根據第一字元時間戳記以及第二字元時間戳記配置第一字元以及第二字元之間的字元間距。
在本發明的一實施例中,上述的根據情緒辨識結果配置文字格式的步驟更包括:根據字元間距判斷第一字元為關鍵字元,並且為第一字元配置與關鍵字元相對應的關鍵文字格式。
在本發明的一實施例中,上述的文字辨識結果包括第一字組以及第二字組,並且情緒辨識結果包括對應於第一字組的第一情緒強度以及對應於第二字組的第二情緒強度,其中根據情緒辨識結果配置文字格式的步驟包括:響應於第一情緒強度大於第二情緒強度而判斷第一字組為關鍵字組;以及為第一字組配置與關鍵字組相對應的關鍵文字格式。
在本發明的一實施例中,上述的文字辨識結果包括第一 字組,並且情緒辨識結果包括對應於第一字組的第一情緒強度,其中根據情緒辨識結果配置文字格式的步驟包括:響應於第一情度強度資訊大於閾值而判斷第一字組為關鍵字組;以及為第一字組配置與關鍵字組相對應的關鍵文字格式。
在本發明的一實施例中,上述的文字辨識結果包括第一字組以及第二字組,並且情緒辨識結果包括對應於第一字組的第一情緒強度以及對應於第二字組的第二情緒強度,其中根據情緒辨識結果配置文字格式的步驟包括:響應於第一情緒強度與第二情緒強度之間的差值大於閾值而判斷第一字組為關鍵字組;以及為第一字組配置與關鍵字組相對應的關鍵文字格式。
在本發明的一實施例中,上述的文字辨識結果包括多個字組,並且情緒辨識結果包括分別對應於多個字組的多個情緒強度,其中多個字組包括第一字組,並且多個情緒強度包括對應於第一字組的第一情緒強度,其中根據情緒辨識結果配置文字格式的步驟包括:根據多個情緒強度計算平均情緒強度;響應於第一情緒強度與平均情緒強度的差值大於閾值而判斷第一字組為關鍵字組;以及為第一字組配置與關鍵字組相對應的關鍵文字格式。
基於上述,本發明的語音轉文字裝置可根據語音資料的情緒辨識結果來調整用以呈現語音資料的文字辨識結果的文字格式。使用者可通過文字格式來理解語音資料所對應的情緒。
10:語音轉文字裝置
110:處理器
120:儲存媒體
121:資料收集模組
122:文字顯示模組
123:辨識模組
130:輸入裝置
140:輸出裝置
20:外部裝置
30:雲端語音文字辨識系統
301、302、303、304:對話框
40:雲端語音情感辨識系統
50、60:終端裝置
S401、S402、S403:步驟
圖1根據本發明的實施例繪示一種語音轉文字裝置的示意圖。
圖2根據本發明的實施例繪示自外部裝置取得語音辨識結果以及情緒辨識結果的示意圖。
圖3根據本發明的實施例繪示語音轉文字裝置通過輸出裝置顯示文字辨識結果的示意圖。
圖4根據本發明的實施例繪示一種語音轉文字方法的流程圖。
為了使本發明之內容可以被更容易明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例。另外,凡可能之處,在圖式及實施方式中使用相同標號的元件/構件/步驟,係代表相同或類似部件。
圖1根據本發明的實施例繪示一種語音轉文字裝置10的示意圖。語音轉文字裝置10可包含處理器110、儲存媒體120、輸入裝置130以及輸出裝置140。
處理器110例如是中央處理單元(central processing unit,CPU),或是其他可程式化之一般用途或特殊用途的微控制單元(micro control unit,MCU)、微處理器(microprocessor)、數位信號處理器(digital signal processor,DSP)、可程式化控制器、特殊應用積體電路(application specific integrated circuit,ASIC)、圖形處理器(graphics processing unit,GPU)、影像訊號處理器(image signal processor,ISP)、影像處理單元(image processing unit,IPU)、算數邏輯單元(arithmetic logic unit,ALU)、複雜可程式邏輯裝置(complex programmable logic device,CPLD)、現場可程式化邏輯閘陣列(field programmable gate array,FPGA)或其他類似元件或上述元件的組合。處理器110可耦接至儲存媒體120、輸入裝置130以及輸出裝置140,並且存取和執行儲存於儲存媒體120中的多個模組和各種應用程式。
儲存媒體120例如是任何型態的固定式或可移動式的隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)、硬碟(hard disk drive,HDD)、固態硬碟(solid state drive,SSD)或類似元件或上述元件的組合,而用於儲存可由處理器110執行的多個模組或各種應用程式。在本實施例中,儲存媒體120可儲存包括資料收集模組121以及文字顯示模組122。在一實施例中,儲存媒體120還可儲存辨識模組123。上述的各個模組的功能將於後續說明。
輸入裝置130可用以接收訊號或資料。在一實施例中,輸入裝置130可以是訊號接收器。輸入裝置130可以無線或有線的方式接收訊號。輸入裝置130還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。在另一實施例中,輸入裝置130可以是傳聲器,諸如動圈式麥克風(dynamic microphone)、電容式麥克風(condenser microphone)、駐極體電容麥克風(electret condenser microphone)、微機電系統 (micro-electrical mechanical system,MEMS)麥克風、鋁帶式麥克風(ribbon microphone)或碳粒式麥克風(carbon microphone)等。輸入裝置130可接收聲波,並且把聲波轉換成電訊號。
輸出裝置140可用以輸出訊號或資料。在一實施例中,輸出裝置140可以是訊號傳送器。輸出裝置140可以無線或有線的方式傳送訊號。輸出裝置140還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。在另一實施例中,輸出裝置140可以是顯示器。輸出裝置140可包含顯示單元可為液晶顯示器(liquid-crystal display,LCD)、發光二極體(light-emitting diode,LED)顯示器、真空螢光顯示器(vacuum fluorescent display,VFD)、等離子顯示器(plasma display panel,PDP)、有機發光顯示器(organic light-emitting diode,OLED)或場發射顯示器(field-emission display,FED)等。
資料收集模組121可通過輸入裝置130取得對應於語音資料的文字辨識結果以及對應於文字辨識結果的情緒辨識結果。文字辨識結果可以是根據STT技術以及語音資料所產生的一段句子或逐字稿,例如「我很開心」或「今天天氣不錯」等。情緒辨識結果可代表與文字辨識結果相對應的情緒,例如喜悅、悲傷、冷靜或憤怒等。舉例來說,對應於文字辨識結果「我很開心」的情緒辨識結果可例如是「喜悅」,並且對應於文字辨識結果「今天天氣不錯」的情緒辨識結果可例如是「冷靜」。
在一實施例中,語音轉文字裝置10的資料收集模組121 可通過輸入裝置130以從外部裝置取得對應於語音資料的文字辨識結果以及情緒辨識結果的至少其中之一。圖2根據本發明的實施例繪示自外部裝置20取得語音辨識結果以及情緒辨識結果的示意圖。外部裝置20例如具有通訊功能的計算裝置。外部裝置20可取得語音資料,並且將語音資料傳送至雲端語音文字辨識系統30。雲端語音文字辨識系統30可具備STT功能,並可將語音資料轉換成文字辨識結果。雲端語音文字辨識系統30可通過網路將對應語音資料的文字辨識結果傳送至語音轉文字裝置10的輸入裝置130。另一方面,外部裝置20可將語音資料傳送至雲端語音情感辨識系統40。雲端語音情感辨識系統40可通過例如機器學習演算法等技術辨識出語音資料對應的情緒,從而產生情緒辨識結果。雲端語音情感辨識系統40可通過網路將對應語音資料的情緒辨識結果傳送至語音轉文字裝置10的輸入裝置130。據此,將語音資料轉換成文字辨識結果或情緒辨識結果的流程可以在雲端執行。
在一實施例中,語音轉文字裝置10的資料收集模組121可通過輸入裝置130接收語音資料。舉例來說,若輸入裝置130為訊號接收器,則資料收集模組121可通過輸入裝置130與外部電話裝置進行通話,從而從該通話中取得對應的語音資料。另一方面,若輸入裝置130為傳聲器,則資料收集模組121可通過輸入裝置130接收聲波,並將從該聲波中取得對應的語音資料。在取的語音資料後,辨識模組123可根據語音資料產生文字辨識結果以及情緒辨識結果的至少其中之一。舉例來說,辨識模組123可 根據STT技術將語音資料轉換成文字辨識結果。辨識模組123可基於機器學習演算法以根據語音資料產生對應於文字辨識結果的情緒辨識結果。據此,將語音資料轉換成文字辨識結果或情緒辨識結果的流程可以在語音轉文字裝置10的本地端執行。
在一實施例中,將語音資料轉換成文字辨識結果的流程可執行於雲端以及語音轉文字裝置10的本地端的其中之一,並且將語音資料轉換成情緒辨識結果的流程可執行於雲端以及語音轉文字裝置10的本地端的其中之另一。舉例來說,語音資料可被傳送至雲端語音文字辨識系統30,以由雲端語音文字辨識系統30將語音資料轉換為文字辨識結果,並且將文字辨識結果傳送給語音轉文字裝置10。另一方面,語音轉文字裝置10可通過輸入裝置130接收語音資料,並且通過辨識模組123以將語音資料轉換為情緒辨識結果。
在取得語音資料的文字辨識結果以及情緒辨識結果後,文字顯示模組122可根據情緒辨識結果及/或文字辨識結果來配置文字格式(text format),並且根據文字格式以通過輸出裝置140輸出文字辨識結果。在一實施例中,文字辨識結果可包含第一時間戳記,並且情緒辨識結果可包含第二時間戳記。文字顯示模組122可響應於第一時間戳記與第二時間戳記匹配而判斷文字辨識結果與情緒辨識結果匹配。文字顯示模組122可響應於文字辨識結果與情緒辨識結果匹配而根據情緒辨識結果來配置用來顯示文字辨識結果的文字格式。換句話說,在取得語音資料的文字辨識結果以及 情緒辨識結果後,文字顯示模組122可根據時間戳記來判斷所取得的文字辨識結果以及情緒辨識結果是否對應於相同的語音資料。
若輸出裝置140為顯示器,則輸出裝置140可根據文字格式來顯示文字辨識結果。若輸出裝置140為訊號傳送器,則輸出裝置140可將文字辨識結果以及對應的文字格式傳送給外部裝置(例如:智慧型手機),以由外部裝置根據文字格式來顯示文字辨識結果。圖3根據本發明的實施例繪示語音轉文字裝置10通過輸出裝置140顯示文字辨識結果的示意圖。
文字格式可包含但不限於:字型(Typeface)、字型大小(font size)、字型樣式(font)(包括字型體系(font family)、字型粗細(font weight)或文字樣式(font style)等)、字型色彩(font color)、字元間距(letterspacing)、文字大小寫(font case)以及對話框底色(dialog box color)。字型色彩可包含但不限於字型色調(font hue)、字型明度(font value)以及字型飽和度(font saturation)。對話框底色可包含但不限於對話框色調(dialog box hue)、對話框明度(dialog box value)以及對話框飽和度(dialog box saturation)。
舉例來說,文字顯示模組122可根據情緒辨識結果來配置用以顯示文字辨識結果的字型色彩或對話框底色。以圖3為例,若文字辨識結果「今天天氣不錯」所對應的情緒辨識結果為「冷靜」,則文字顯示模組122可根據情緒辨識結果而將文字辨識結果「今天天氣不錯」的對話框302配置為「白色」。若文字辨識結果 「我好難過」所對應的情緒辨識結果為「悲傷」,則文字顯示模組122可根據情緒辨識結果而將文字辨識結果「我好難過」的對話框304配置為「藍色」。
各種情緒辨識結果所對應的文字格式可預存於儲存媒體120之中或由使用者自定義,本發明並不加以限制。舉例來說,文字顯示模組122可響應於文字辨識結果所對應的情緒辨識結果為「悲傷」而調高對話框明度以更新文字格式,並且根據更新的文字格式來顯示文字辨識結果。舉另一例來說,情緒辨識結果「喜悅」所對應的對話框明度可大於情緒辨識結果「悲傷」所對應的對話框明度,並且情緒辨識結果「喜悅」所對應的對話框色調可小於情緒辨識結果「悲傷」所對應的對話框色調。表一為配置四種情緒所分別對應的文字格式的範例。表二為配置四種情緒所分別對應的對話框底色的範例。
Figure 109116544-A0305-02-0014-1
Figure 109116544-A0305-02-0015-5
Figure 109116544-A0305-02-0015-4
在一實施例中,語音資料的情緒辨識結果可包含情緒強度。情緒強度可由辨識模組123或雲端語音情感辨識系統40根據機器學習演算法來判斷,但本發明不限於此。文字顯示模組122可根據情緒強度來配置文字格式的參數值。舉例來說,若情緒強度指示語音資料對應於「輕微地憤怒」的情緒,則文字顯示模組122可將語音資料的字型明度配置為「100」。若情緒強度指示語音資料對應於「極端地憤怒」的情緒,則文字顯示模組122可將語音資料的字型明度配置為「255」。
在一實施例中,文字辨識結果可包含第一字組(word)以及第二字組,並且情緒辨識結果可包含對應於第一字組的第一情緒強度以及對應於第二字組的第二情緒強度。文字顯示模組122可響應於第一情緒強度大於第二情緒強度而判斷第一字組為關鍵字 組,並且為第一字組配置與關鍵字組相對應的關鍵文字格式。關鍵文字格式可由使用者自定義並可預存於儲存媒體120之中。以圖3的對話框303為例,若字組「生氣」對應的情緒強度大於字組「我很」對應的情緒強度,則文字顯示模組122可判斷字組「生氣」為關鍵字組,從而增加字組「生氣」的字元間距以及字型大小。在一實施例中,若關鍵字組為英文,則文字顯示模組122可以大寫的形式來顯示關鍵字組。
在一實施例中,文字顯示模組122可響應於第一字組的第一情緒強度與第二字組的第二情緒強度之間的差值大於閾值而判斷第一字組為關鍵字組,並且為第一字組配置與關鍵字組相對應的關鍵文字格式。以圖3的對話框303為例,假設字組「生氣」對應的情緒強度為「255」,字組「我很」對應的情緒強度為「155」,並且閾值為「80」。如此,文字顯示模組122可響應於「255」與「155」的差值「100」大於「80」而判斷字組「生氣」為關鍵字組,從而增加字組「生氣」的字元間距以及字型大小。
在一實施例中,文字辨識結果可包含多個字組,並且情緒辨識結果可包含分別對應於所述多個字組的多個情緒強度,其中所述多個字組可包含第一字組,並且所述多個情緒強度可包含對應於第一字組的第一情緒強度。文字顯示模組122可根據多個情緒強度計算平均情緒強度,響應於第一情緒強度與平均情緒強度的差值大於閾值而判斷第一字組為關鍵字組,並且為第一字組配置與關鍵字組相對應的關鍵文字格式。以圖3的對話框303為例, 假設字組「我很」對應的情緒強度為「155」,字組「生氣」對應的情緒強度為「255」,並且閾值為「200」。文字顯示模組122可計算出字組「我很」以及字組「生氣」的平均情緒強度為「205」,並且響應於「255」大於「205」而判斷字組「生氣」為關鍵字組,從而增加字組「生氣」的字元間距以及字型大小。
在一實施例中,文字顯示模組122可響應於字組的情緒強度大於閾值而判斷所述字組為關鍵字組,並且為所述字組配置與關鍵字組相對應的關鍵文字格式。以圖3的對話框303為例,若字組「生氣」對應的情緒強度大於閾值,則文字顯示模組122可判斷字組「生氣」為關鍵字組,從而增加字組「生氣」的字元間距以及字型大小。
在一實施例中,文字辨識結果可包含第一字元(character)、相臨第一字元的第二字元、對應於第一字元的第一字元時間戳記以及對應於第二字元的第二字元時間戳記。文字顯示模組122可根據第一字元時間戳記以及第二字元時間戳記配置第一字元以及第二字元之間的字元間距。以圖3的對話框303為例,文字顯示模組122可根據字元「我」的字元時間戳記以及字元「很」的字元時間戳記判斷語音資料中的字元「我」以及字元「很」之間相距第一時間間隔,並可根據字元「生」的字元時間戳記以及字元「氣」的字元時間戳記判斷語音資料中的字元「生」以及字元「氣」之間相距第二時間間隔。文字顯示模組122可響應於第一時間間隔較小而減少字元「我」以及字元「很」之間的字元間距,或可響應於 第二時間間隔較大而增加字元「生」以及字元「氣」之間的字元間距。
在一實施例中,文字顯示模組122可根據一字元的字元間距(或字元時間戳記)判斷該字元為關鍵字元,並且為該字元配置與關鍵字元相對應的關鍵文字格式。以圖3的對話框303為例,文字顯示模組122可根據字元「生」以及字元「氣」之間的字元間距或時間間隔判斷字元「生」以及字元「氣」分別為關鍵字元。據此,文字顯示模組122可增加字元「生」以及字元「氣」的字型大小。
在一實施例中,上述關聯於字元時間戳記的資訊可以語音速度的形式呈現。例如,文字辨識結果可包含對應第一字元與第二字元的單詞每分鐘(word per minute,wpm)。文字顯示模組122可根據wpm來配置第一字元與第二字元之間的字元間距,或根據wpm來判斷第一字元或第二字元是否為關鍵字元。
在一實施例中,文字顯示模組122可根據語音資料對應的人員來配置文字格式。舉例來說,辨識模組123可辨識語音資料對應於人員A或人員B。若語音資料對應於人員A,則文字顯示模組122可將對話框底色配置為藍色,並且基於所配置的對話框底色來顯示語音資料的文字辨識結果。若語音資料對應於人員B,則文字顯示模組122可將對話框底色配置為綠色,並且基於所配置的對話框底色來顯示語音資料的文字辨識結果。
在一實施例中,文字顯示模組122可根據語音資料對應 的終端裝置來配置。舉例來說,文字辨識結果以及情緒辨識結果可包含終端裝置識別碼的相關資訊。文字顯示模組122可根據終端裝置識別碼來配置用以顯示文字辨識結果的文字格式。以圖3的對話框301以及對話框302為例,假設對話框301對應於終端裝置50並且對話框302對應於終端裝置60,則文字顯示模組122可為對話框301以及對話框302配置不同的對話框底色。
圖4根據本發明的實施例繪示一種語音轉文字方法的流程圖,其中所述語音轉文字方法可由如圖1所示的語音轉文字裝置實施。在步驟S401中,取得對應於語音資料的文字辨識結果以及對應於語音資料的情緒辨識結果。在步驟S402中,根據情緒辨識結果配置文字格式。在步驟S403中,根據文字格式以輸出文字辨識結果。
綜上所述,本發明的語音轉文字裝置可取得與語音資料的文字辨識結果相對應的情緒辨識結果,並且根據情緒辨識結果來調整用以呈現文字辨識結果的文字格式。通過為文字配置不同的字型大小或字型色彩等參數,使用者可以在無法通過聽覺來理解語音資料所對應的情緒的情況下,通過視覺來理解語音資料所對應的情緒。據此,無論是通過電話或是以面對面的方式與其他人員交談,語音轉文字裝置的使用者都可通過文字的輔助來理解該人員的情緒。
S401、S402、S403:步驟

Claims (23)

  1. 一種語音轉文字裝置,包括:輸入裝置;輸出裝置;儲存媒體,儲存多個模組;以及處理器,耦接所述儲存媒體、所述輸出裝置以及所述輸入裝置,並且存取和執行所述多個模組,其中所述多個模組包括:資料收集模組,通過所述輸入裝置取得對應於語音資料的文字辨識結果以及對應於所述語音資料的情緒辨識結果;以及文字顯示模組,根據所述情緒辨識結果配置文字格式,並且根據所述文字格式以通過所述輸出裝置輸出所述文字辨識結果,其中所述文字辨識結果包括第一時間戳記並且所述情緒辨識結果包括第二時間戳記,其中所述文字顯示模組響應於所述第一時間戳記與所述第二時間戳記匹配而根據所述情緒辨識結果配置所述文字格式。
  2. 如請求項1所述的語音轉文字裝置,其中所述文字格式包括下列的至少其中之一:字型、字型大小、字型樣式、字型色彩、字元間距、文字大小寫以及對話框底色。
  3. 如請求項2所述的語音轉文字裝置,其中所述字型色彩包括字型色調、字型明度以及字型飽和度。
  4. 如請求項2所述的語音轉文字裝置,其中所述對話框底色包括對話框色調、對話框明度以及對話框飽和度。
  5. 如請求項1所述的語音轉文字裝置,其中所述情緒辨識結果包括情緒強度,並且所述文字顯示模組根據所述情緒強度配置所述文字格式的參數值。
  6. 如請求項1所述的語音轉文字裝置,其中所述文字辨識結果包括第一字元、相鄰於所述第一字元的第二字元、對應於所述第一字元的第一字元時間戳記以及對應於所述第二字元的第二字元時間戳記,其中所述文字顯示模組根據所述第一字元時間戳記以及所述第二字元時間戳記配置所述第一字元以及所述第二字元之間的字元間距。
  7. 如請求項6所述的語音轉文字裝置,其中所述文字顯示模組根據所述字元間距判斷所述第一字元為關鍵字元,並且為所述第一字元配置與所述關鍵字元相對應的關鍵文字格式。
  8. 如請求項1所述的語音轉文字裝置,其中所述文字辨識結果包括第一字組以及第二字組,並且所述情緒辨識結果包括對應於所述第一字組的第一情緒強度以及對應於所述第二字組的第二情緒強度,其中所述文字顯示模組響應於所述第一情緒強度大於所述第二情緒強度而判斷所述第一字組為關鍵字組,並且為所述第一字組配置與所述關鍵字組相對應的關鍵文字格式。
  9. 如請求項1所述的語音轉文字裝置,其中所述文字辨識結果包括第一字組,並且所述情緒辨識結果包括對應於所述第 一字組的第一情緒強度,其中所述文字顯示模組響應於所述第一情度強度資訊大於閾值而判斷所述第一字組為關鍵字組,並且為所述第一字組配置與所述關鍵字組相對應的關鍵文字格式。
  10. 如請求項1所述的語音轉文字裝置,其中所述文字辨識結果包括第一字組以及第二字組,並且所述情緒辨識結果包括對應於所述第一字組的第一情緒強度以及對應於所述第二字組的第二情緒強度,其中所述文字顯示模組響應於所述第一情緒強度與所述第二情緒強度之間的差值大於閾值而判斷所述第一字組為關鍵字組,並且為所述第一字組配置與所述關鍵字組相對應的關鍵文字格式。
  11. 如請求項1所述的語音轉文字裝置,其中所述文字辨識結果包括多個字組,並且所述情緒辨識結果包括分別對應於所述多個字組的多個情緒強度,其中所述多個字組包括第一字組,並且所述多個情緒強度包括對應於所述第一字組的第一情緒強度,其中所述文字顯示模組根據所述多個情緒強度計算平均情緒強度,響應於所述第一情緒強度與所述平均情緒強度的差值大於閾值而判斷所述第一字組為關鍵字組,並且為所述第一字組配置與所述關鍵字組相對應的關鍵文字格式。
  12. 如請求項1所述的語音轉文字裝置,其中所述資料收集模組通過所述輸入裝置接收所述語音資料,並且所述多個模組更包括:辨識模組,根據所述語音資料產生所述文字辨識結果,並且 根據所述語音資料產生所述情緒辨識結果。
  13. 一種語音轉文字方法,包括:取得對應於語音資料的文字辨識結果以及對應於所述語音資料的情緒辨識結果,其中所述文字辨識結果包括第一時間戳記並且所述情緒辨識結果包括第二時間戳記;根據所述情緒辨識結果配置文字格式,包括:響應於所述第一時間戳記與所述第二時間戳記匹配而根據所述情緒辨識結果配置所述文字格式;以及根據所述文字格式以輸出所述文字辨識結果。
  14. 如請求項13所述的語音轉文字方法,其中所述文字格式包括下列的至少其中之一:字型、字型大小、字型樣式、字型色彩、字元間距、文字大小寫以及對話框底色。
  15. 如請求項14所述的語音轉文字方法,其中所述字型色彩包括字型色調、字型明度以及字型飽和度。
  16. 如請求項14所述的語音轉文字方法,其中所述對話框底色包括對話框色調、對話框明度以及對話框飽和度。
  17. 如請求項13所述的語音轉文字方法,其中所述情緒辨識結果包括情緒強度,其中根據所述情緒辨識結果配置所述文字格式的步驟包括:根據所述情緒強度配置所述文字格式的參數值。
  18. 如請求項13所述的語音轉文字方法,其中所述文字辨識結果包括第一字元、相鄰於所述第一字元的第二字元、對應 於所述第一字元的第一字元時間戳記以及對應於所述第二字元的第二字元時間戳記,其中根據所述情緒辨識結果配置所述文字格式的步驟包括:根據所述第一字元時間戳記以及所述第二字元時間戳記配置所述第一字元以及所述第二字元之間的字元間距。
  19. 如請求項18所述的語音轉文字方法,其中根據所述情緒辨識結果配置所述文字格式的步驟更包括:根據所述字元間距判斷所述第一字元為關鍵字元,並且為所述第一字元配置與所述關鍵字元相對應的關鍵文字格式。
  20. 如請求項13所述的語音轉文字方法,其中所述文字辨識結果包括第一字組以及第二字組,並且所述情緒辨識結果包括對應於所述第一字組的第一情緒強度以及對應於所述第二字組的第二情緒強度,其中根據所述情緒辨識結果配置所述文字格式的步驟包括:響應於所述第一情緒強度大於所述第二情緒強度而判斷所述第一字組為關鍵字組;以及為所述第一字組配置與所述關鍵字組相對應的關鍵文字格式。
  21. 如請求項13所述的語音轉文字方法,其中所述文字辨識結果包括第一字組,並且所述情緒辨識結果包括對應於所述第一字組的第一情緒強度,其中根據所述情緒辨識結果配置所述文字格式的步驟包括:響應於所述第一情度強度資訊大於閾值而判斷所述第一字組 為關鍵字組;以及為所述第一字組配置與所述關鍵字組相對應的關鍵文字格式。
  22. 如請求項13所述的語音轉文字方法,其中所述文字辨識結果包括第一字組以及第二字組,並且所述情緒辨識結果包括對應於所述第一字組的第一情緒強度以及對應於所述第二字組的第二情緒強度,其中根據所述情緒辨識結果配置所述文字格式的步驟包括:響應於所述第一情緒強度與所述第二情緒強度之間的差值大於閾值而判斷所述第一字組為關鍵字組;以及為所述第一字組配置與所述關鍵字組相對應的關鍵文字格式。
  23. 如請求項13所述的語音轉文字方法,其中所述文字辨識結果包括多個字組,並且所述情緒辨識結果包括分別對應於所述多個字組的多個情緒強度,其中所述多個字組包括第一字組,並且所述多個情緒強度包括對應於所述第一字組的第一情緒強度,其中根據所述情緒辨識結果配置所述文字格式的步驟包括:根據所述多個情緒強度計算平均情緒強度;響應於所述第一情緒強度與所述平均情緒強度的差值大於閾值而判斷所述第一字組為關鍵字組;以及為所述第一字組配置與所述關鍵字組相對應的關鍵文字格式。
TW109116544A 2019-05-20 2020-05-19 語音轉文字裝置以及語音轉文字方法 TWI751560B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962850529P 2019-05-20 2019-05-20
US62/850,529 2019-05-20

Publications (2)

Publication Number Publication Date
TW202044230A TW202044230A (zh) 2020-12-01
TWI751560B true TWI751560B (zh) 2022-01-01

Family

ID=74668474

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109116544A TWI751560B (zh) 2019-05-20 2020-05-19 語音轉文字裝置以及語音轉文字方法

Country Status (1)

Country Link
TW (1) TWI751560B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201030634A (en) * 2009-02-06 2010-08-16 Ren-Liang Wu Genuine recognition system combining image and sound analysis, and its method
TWI511124B (zh) * 2012-12-31 2015-12-01 Via Tech Inc 基於語音辨識的選擇方法及其行動終端裝置及資訊系統
US20180005646A1 (en) * 2014-12-04 2018-01-04 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
CN109472207A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 情绪识别方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201030634A (en) * 2009-02-06 2010-08-16 Ren-Liang Wu Genuine recognition system combining image and sound analysis, and its method
TWI511124B (zh) * 2012-12-31 2015-12-01 Via Tech Inc 基於語音辨識的選擇方法及其行動終端裝置及資訊系統
US20180005646A1 (en) * 2014-12-04 2018-01-04 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
CN109472207A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 情绪识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
TW202044230A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
US11257493B2 (en) Vision-assisted speech processing
CN109523986B (zh) 语音合成方法、装置、设备以及存储介质
CN109388367B (zh) 音效调整方法、装置、电子设备以及存储介质
EP2821992B1 (en) Method for updating voiceprint feature model and terminal
US8935165B2 (en) Method for displaying words and processing device and computer program product thereof
US20210168460A1 (en) Electronic device and subtitle expression method thereof
US20170076716A1 (en) Voice recognition server and control method thereof
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
CN108234735A (zh) 一种媒体显示方法及终端
US20170337919A1 (en) Information processing apparatus, information processing method, and program
CN110880324A (zh) 语音数据的处理方法、装置、存储介质及电子设备
CN108055617A (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
US8773696B2 (en) Method and system for generating document using speech data and image forming apparatus including the system
JP2020027132A (ja) 情報処理装置およびプログラム
US20180091234A1 (en) Terminal device, apparatus and method for transmitting an image
TWI751560B (zh) 語音轉文字裝置以及語音轉文字方法
US20200042604A1 (en) Translation device
CN108682423A (zh) 一种语音识别方法和装置
US20200243092A1 (en) Information processing device, information processing system, and computer program product
CN108174030B (zh) 定制化语音控制的实现方法、移动终端及可读存储介质
JP2006259641A (ja) 音声認識装置及び音声認識用プログラム
JPWO2016129188A1 (ja) 音声認識処理装置、音声認識処理方法およびプログラム
KR102622350B1 (ko) 전자 장치 및 그 제어 방법
CN113056908B (zh) 视频字幕合成方法、装置、存储介质及电子设备
KR20130069262A (ko) 통신 단말 및 그 통신 단말의 정보처리 방법