TW202318397A

TW202318397A - 語音標示方法及其顯示裝置

Info

Publication number: TW202318397A
Application number: TW110138836A
Authority: TW
Inventors: 雷建明
Original assignee: 香港商冠捷投資有限公司
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2023-05-01
Also published as: TWI830074B

Abstract

一種語音標示方法，包含以下步驟：(A)每當一播音模組播放到多段語音音頻之一時，一收音模組收錄該播音模組所播放之一語音音頻以獲得一對應該語音音頻之語音類比訊號並傳送至一處理模組；(B)當該處理模組收到該語音類比訊號時，將其轉換為一語音數位訊號並編碼為一語音音訊檔；(C)該處理模組將該語音音訊檔進行一語音轉換以獲得一語音特徵向量；(D)該處理模組將該語音特徵向量進行一顏色映射轉換以獲得其映射到一色彩空間的一特徵顏色；及(E)該處理模組將一呈現有該特徵顏色的圖案疊合顯示在該顯示模組所播放的一影片上。

Description

語音標示方法及其顯示裝置

本發明是有關於一種在顯示設備上標示圖像的方法，特別是指一種語音標示方法及其顯示裝置。

現今電視在播放節目時，是透過單一顏色字幕的方式顯示於螢幕上，然而在某些播放場景下，觀眾對於人物聲音的辨識度恐不高，例如：在視頻中的場景較為昏暗卻有人物在說話時，可能會導致觀眾分不清楚是哪一位人物所發出的聲音；再者，對於聽障者而言，無法根據視頻中的字幕相對應識別出不同角色的聲音，便無法知道是哪個角色在說話。

因此，若能提出一種方法來區別出節目所播放的聲音是對應到視頻中的哪一位人物，便能提高觀眾對節目的置入感，以讓觀眾能更融入節目之劇情。

因此，本發明的目的，即在提供一種較容易辨別影片中之聲音與其對應之人物的語音標示方法。

於是，本發明一種語音標示方法，藉由一顯示裝置來實施，該顯示裝置包含一顯示模組、一播音模組、一收音模組，及一電連接該顯示模組、該播音模組與該收音模組的處理模組，該顯示模組與該播音模組用於播放一相關於一人物的一影片，該影片包含該人物所對應的多段語音音頻，該語音標示方法包含一步驟(A)、一步驟(B)、一步驟(C)、一步驟(D)，及一步驟(E)。

該步驟(A)是每當該播音模組播放到該等語音音頻之一時，該收音模組收錄該播音模組所播放之該語音音頻以獲得一對應該語音音頻之語音類比訊號並傳送至該處理模組。

該步驟(B)是當該處理模組收到該語音類比訊號時，該處理模組將該語音類比訊號轉換為一語音數位訊號，並將該語音數位訊號編碼為一語音音訊檔。

該步驟(C)是該處理模組將該語音音訊檔進行一語音轉換以獲得一語音特徵向量。

該步驟(D)是該處理模組將該語音特徵向量進行一顏色映射轉換以獲得該語音特徵向量映射到一色彩空間的一特徵顏色。

該步驟(E)是該處理模組將一呈現有該特徵顏色的圖案疊合顯示在該顯示模組所播放的該影片上，以在該語音音頻被播放時在該影片上標示出該特徵顏色的圖案。

本發明的另一目的，即在提供一種較容易辨別影片中之聲音與其對應之人物的顯示裝置。

於是，本發明顯示裝置包含一顯示模組、一播音模組、一收音模組，及一處理模組。

該顯示模組用於播放一相關於一人物所對應的一影片之視頻部分。

該播音模組用於播放該影片之音頻部分，該影片之音頻部分包含該人物所對應的多段語音音頻。

該收音模組用於收錄該播音模組所播放的音頻部分，以獲得一對應該音頻部分之類比訊號。

該處理模組電連接該顯示模組、該播音模組與該收音模組。

其中，每當該處理模組接收到該收音模組收錄該播音模組所播放之該等語音音頻之一而獲得一對應該語音音頻的語音類比訊號時，該處理模組將該語音類比訊號轉換為一語音數位訊號，並將該語音數位訊號編碼為一語音音訊檔，且將該語音音訊檔進行一語音轉換以獲得該語音特徵向量，並對該語音特徵向量進行一顏色映射轉換以獲得該語音特徵向量映射到一色彩空間的一特徵顏色，且將一呈現有該特徵顏色的圖案疊合顯示在該顯示模組所播放的該影片上，以在該語音音頻被播放時在該影片上標示出該特徵顏色的圖案。

本發明的功效在於：藉由該處理模組轉換位於該顯示模組所撥放的該影片中的該人物所對應之其中一該語音音檔為該語音特徵向量，並將該語音特徵向量進行顏色映射轉換以獲得映射到該彩色空間的該特徵顏色，且將具有該特徵顏色的該圖案顯示在該顯示模組所撥放的該影片上，即可在該語音音頻被播放時，在該影片上標示出該特徵顏色的圖案，因此可讓觀眾在觀看該影片時，更容易分辨於該影片中的人聲所對應的人物，以提高觀眾的置入感。

在本發明被詳細描述之前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖1，本發明語音標示方法之實施例，藉由一顯示裝置來實施，該顯示裝置包含一顯示模組1、一播音模組2、一收音模組3、一儲存模組4，及一電連接該顯示模組1、該播音模組2、該收音模組3與該儲存模組4的處理模組5。

該顯示模組1用於播放一相關於一人物所對應的一影片之視頻部分。值得一提的是，該影片亦可相關於多個人物，由於該影片中每一人物的語音標示過程類似，在以下的說明書中，僅以單一人物進行說明。

該播音模組2用於播放該影片之音頻部分，該影片之音頻部分包含該人物所對應的多段語音音頻。

該收音模組3用於收錄該播音模組所播放的音頻部分，以獲得一對應該音頻部分之類比訊號。

該儲存模組4用於儲存多個對應多個不同之人員的訓練音訊檔，及對應於三種不同語音類別之三個語音特徵群集的三個群心，其中對應該等訓練音訊檔之該等人員包含多個男性、多個女性及多個孩童。

參閱圖1，該顯示裝置1可為一電視、一平板電腦、一筆記型電腦、一智慧型手機或一個人電腦，但不以此為限。

以下將配合本發明語音標示方法之該實施例，來說明該顯示裝置中各元件的運作細節，該語音標示方法之該實施例包含一群心產生程序，及一語音標示程序。

該群心產生程序包括一步驟61，及一步驟62。

該語音標示程序包括一步驟71、一步驟72、一步驟73、一步驟74、一步驟75、一步驟76，及一步驟77。

參閱圖1與圖2，該群心產生程序包含以下步驟。

在步驟61中，對於每一訓練音訊檔，該處理模組5將該訓練音訊檔進行一語音轉換（Voice Conversion）以獲得一訓練特徵向量。

在步驟62中，該處理模組5利用一分群演算法將該等訓練特徵向量分為三個語音特徵群集，並將每一語音特徵群集之群心儲存於該儲存模組4。其中，該等語音特徵群集分別為男性語音特徵群集、女性語音特徵群集，及孩童語音特徵群集。其中該分群演算法可為k-平均演算法或k-近鄰演算法，但不以此為限。

參閱圖1與圖3，該語音標示程序包含以下步驟。

在步驟71中，每當該播音模組2播放到該等語音音頻之一時，該收音模組3收錄該播音模組2所播放之該語音音頻以獲得一對應該語音音頻之語音類比訊號並傳送至該處理模組5。

在步驟72中，當該處理模組5收到該語音類比訊號時，該處理模組5將該語音類比訊號轉換為一語音數位訊號。

在步驟73中，該處理模組5將該語音數位訊號編碼為一語音音訊檔。

在步驟74中，該處理模組5將該語音音訊檔進行一語音轉換以獲得一語音特徵向量。

在步驟75中，該處理模組5將該語音特徵向量進行一顏色映射轉換以獲得該語音特徵向量映射到一色彩空間的一特徵顏色。由於不同人物的語音係存在區別性，因此不同人物之語音音頻轉換出來的特徵顏色亦皆不相同，而可視覺化地區別不同人物的聲音。

參閱圖1與圖4，值得特別說明的是，步驟75包含以下子步驟。

在步驟751中，該處理模組5計算該語音特徵向量與該儲存模組4的每一群集的群心之距離，以獲得三個群心距離。

在步驟752中，該處理模組5將該等三個群心距離分別進行正規化以映射至該色彩空間的三個參數值，進而獲得該語音特徵向量映射到該色彩空間的該特徵顏色。其中該色彩空間可為RGB，但不以此為限。

在步驟76中，該處理模組5將一呈現有該特徵顏色的圖案疊合顯示在該顯示模組1所播放的該影片上，以在該語音音頻被播放時在該影片上標示出該特徵顏色的圖案。值得特別說明的是，由於本發明語音標示方法之語音標示程序的運算量不高，因此，在該收音模組3收錄到該播音模組2所播放之該語音音頻的前面一小部分（亦即，該人物所唸出之語音的前幾個字）後即可即時獲得對應的特徵顏色，並在該影片上標示出該特徵顏色的圖案。

參閱圖1與圖5，值得特別說明的是，在其他實施方式中，該儲存模組4不用儲存該等訓練音訊檔，及該等群心，且無須執行該群心產生程序，而在步驟75中是採用步驟751’及步驟752’來獲得該語音特徵向量映射到該色彩空間的該特徵顏色。

在步驟751’中，該處理模組5將該語音特徵向量拆分為三個部分。

在步驟752’中，該處理模組5將該等三個部分分別進行正規化以映射至該色彩空間的三個參數值，進而獲得該語音特徵向量映射到該色彩空間的該特徵顏色。

綜上所述，本發明語音標示方法，藉由該處理模組5轉換位於該顯示模組1所撥放的該影片中的該人物所對應之其中一該語音音檔為該語音特徵向量，並將該語音特徵向量進行該顏色映射轉換以獲得映射到該彩色空間的該特徵顏色，且將具有該特徵顏色的該圖案顯示在該顯示模組1所播放的該影片上，即可在該語音音頻被播放時，在該影片上標示出該特徵顏色的圖案，因此可讓觀眾在觀看該影片時，更容易分辨於該影片中的人聲所對應的人物，以提高觀眾的置入感，故確實能達成本發明的目的。

惟以上所述者，僅為本發明的實施例而已，當不能以此限定本發明實施的範圍，凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾，皆仍屬本發明專利涵蓋的範圍內。

1:顯示模組 2:播音模組 3:收音模組 4:儲存模組 5:處理模組 61~62:步驟 71~76:步驟 751~752:步驟 751’~752’:步驟

本發明的其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1說明一用於執行本發語音標示方法之一實施例的顯示裝置；圖2是一流程圖，說明本發明語音標示方法之該實施例的一群心產生程序；圖3是一流程圖，說明該實施例的一語音標示程序；圖4是一流程圖，說明一處理模組如何將一語音特徵向量轉換為一特徵顏色的第一實施方式；及圖5是一流程圖，說明該處理模組如何將該語音特徵向量轉換為該特徵顏色的第二實施方式。

71~76:步驟

Claims

一種語音標示方法，藉由一顯示裝置來實施，該顯示裝置包含一顯示模組、一播音模組、一收音模組，及一電連接該顯示模組，該播音模組與該收音模組的處理模組，該顯示模組與該播音模組用於播放一相關於一人物的一影片，該影片包含該人物所對應的多段語音音頻，該語音標示方法包含以下步驟： (A)每當該播音模組播放到該等語音音頻之一時，該收音模組收錄該播音模組所播放之該語音音頻以獲得一對應該語音音頻之語音類比訊號並傳送至該處理模組； (B)當該處理模組收到該語音類比訊號時，該處理模組將該語音類比訊號轉換為一語音數位訊號，並將該語音數位訊號編碼為一語音音訊檔； (C)該處理模組將該語音音訊檔進行一語音轉換以獲得一語音特徵向量； (D)該處理模組將該語音特徵向量進行一顏色映射轉換以獲得該語音特徵向量映射到一色彩空間的一特徵顏色；及 (E)該處理模組將一呈現有該特徵顏色的圖案疊合顯示在該顯示模組所播放的該影片上，以在該語音音頻被播放時在該影片上標示出該特徵顏色的圖案。
如請求項1所述的語音標示方法，該顯示裝置還包含一電連接該處理模組的儲存模組，該儲存模組儲存有對應於三種不同語音類別之三個語音特徵群集的三個群心，其中，步驟(D)包含以下子步驟： (D-1)該處理模組計算該語音特徵向量與該儲存模組的每一群集的群心之距離，以獲得三個群心距離；及 (D-2)該處理模組將該等三個群心距離分別進行正規化以映射至該色彩空間的三個參數值，進而獲得該語音特徵向量映射到該色彩空間的該特徵顏色。
如請求項2所述的語音標示方法，該儲存模組還儲存有多個對應多個不同之人員的訓練音訊檔，在步驟(A)之前，還包含以下步驟： (F) 對於每一訓練音訊檔，該處理模組將該訓練音訊檔進行該語音轉換以獲得一訓練特徵向量；及 (G)該處理模組利用一分群演算法將該等訓練特徵向量分為三個語音特徵群集，並將每一語音特徵群集之群心儲存於該儲存模組。
如請求項3所述的語音標示方法，該等人員包含多個男性、多個女性及多個孩童，其中，在步驟(G)中，藉由該分群演算法所獲得的該等語音特徵群集分別為男性語音特徵群集、女性語音特徵群集，及孩童語音特徵群集。
如請求項1所述的語音標示方法，其中，該步驟(D)包含以下子步驟： (D-1)該處理模組將該語音特徵向量拆分為三個部分；及 (D-2)該處理模組將該等三個部分分別進行正規化以映射至該色彩空間的三個參數值，進而獲得該語音特徵向量映射到該色彩空間的該特徵顏色。
一種用於標示語音的顯示裝置，包含：一顯示模組，用於播放一相關於一人物所對應的一影片之視頻部分；一播音模組，用於播放該影片之音頻部分，該影片之音頻部分包含該人物所對應的多段語音音頻；一收音模組，用於收錄該播音模組所播放的音頻部分，以獲得一對應該音頻部分之類比訊號；一處理模組，電連接該顯示模組、該播音模組與該收音模組；其中，每當該處理模組接收到該收音模組收錄該播音模組所播放之該等語音音頻之一而獲得一對應該語音音頻的語音類比訊號時，該處理模組將該語音類比訊號轉換為一語音數位訊號，並將該語音數位訊號編碼為一語音音訊檔，且將該語音音訊檔進行一語音轉換以獲得該語音特徵向量，並對該語音特徵向量進行一顏色映射轉換以獲得該語音特徵向量映射到一色彩空間的一特徵顏色，且將一呈現有該特徵顏色的圖案疊合顯示在該顯示模組所播放的該影片上，以在該語音音頻被播放時在該影片上標示出該特徵顏色的圖案。
如請求項6所述的顯示裝置，還包含：一電連接該處理模組的儲存模組，用於儲存有對應於三種不同語音類別之三個語音特徵群集的三個群心；其中，該處理模組計算該語音特徵向量與該儲存模組的每一群集的群心之距離，以獲得三個群心距離，並將該等三個群心距離分別進行正規化以映射至該色彩空間的三個參數值，進而獲得該語音特徵向量映射到該色彩空間的該特徵顏色。
如請求項7所述的顯示裝置，該儲存模組還儲存有多個對應多個不同之人員的訓練音訊檔，其中，對於每一訓練音訊檔，該處理模組將該訓練音訊檔進行該語音轉換以獲得一訓練特徵向量，並利用一分群演算法將該等訓練特徵向量分為三個語音特徵群集，且將每一語音特徵群集之群心儲存於該儲存模組。
如請求項8所述的顯示裝置，該儲存模組存有的對應該等訓練音訊檔之該等人員包含多個男性、多個女性及多個孩童，其中，該處理模組藉由該分群演算法所獲得的該等語音特徵群集分別為男性語音特徵群集、女性語音特徵群集，及孩童語音特徵群集。
如請求項6所述的顯示裝置，其中，該處理模組將該語音特徵向量拆分為三個部分，並將該等三個部分分別進行正規化以映射至該色彩空間的三個參數值，進而獲得該語音特徵向量映射到該色彩空間的該特徵顏色。