TWI747417B

TWI747417B - 經由影音平台的網址而產生音訊字幕檔的方法

Info

Publication number: TWI747417B
Application number: TW109126418A
Authority: TW
Inventors: 陳信宏; 廖元甫; 王逸如; 黃紹華; 姚秉志; 葉政育; 陳又碩; 鍾耀興; 黃彥鈞; 黃啟榮; 沈立得; 古甯允
Original assignee: 國立陽明交通大學
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2021-11-21
Also published as: TW202207212A

Abstract

本發明提供一種經由影音平台的網址而產生音訊字幕檔的方法。利用各種網路服務網站(例如YouTube、Instagram、Facebook、Twitter)輸入所需的影音網站網址，下載所需的影音檔案，送入本發明自動語音識別(ASR,Automatic Speech Recognition)服務端，ASR中的語音辨識系統即可將該影音檔案的音訊檔抽出，經過系統操作後獲得所需的字幕檔。本發明語音辨識系統中使用類神經網路。

Description

經由影音平台的網址而產生音訊字幕檔的方法

本發明有關於產生音訊字幕檔的方法，尤其是指經由影音平台的網址而產生其音訊字幕檔的方法。

現行的影音平台音訊字幕檔的產生方法是以人為的方式直接聽取其音訊，然後逐字記錄下來，形成字幕檔，隨片播放。

這種人為的方式效率不高，不能即時形成字幕檔，對於影音平台的使用者而言，不能達到即時輔助的效果。

當今AI(Artificial Intelligence)普遍使用，將AI方法(例如類神經網路)應用到現行的影音平台以產生音訊字幕檔，對影音平台的使用者而言十分方便。

本發明的目的在提出一種經由影音平台的網址而產生音訊字幕檔的方法，以有效對影音檔案即時形成字幕檔。本發明的方法，其內容敘述如下。

本發明一自動語音識別服務端先解析使用者給予的網址描述，並找到相關的影音平台後，針對該影音平台之網頁伺服器提供的網路應用程式介面送出一HTTP請求，得到該網頁伺服器的一HTTP答覆。

解析該HTTP答覆中的內容，取得所需的一影音檔的網址，下載該影音檔。

抽出該影音檔中的一聲音軌道，取得一聲音樣本，送入一語音辨識系統中處理，於是生成一字幕檔。

其中該語音辨識系統包含一音訊前處理步驟、一抽取語音特徵參數步驟，一音素辨識步驟，一語句解碼步驟。音素辨識步驟與語句解碼步驟中都使用類神經網路。

1:使用者

2:自動語音識別服務端

3:語音辨識系統

4:字幕檔

5:影音平台

6:網頁伺服器

7:HTTP請求

8:HTTP答覆

9:媒體伺服器

10:影音串流

51:音源

52:音量標準化

53:降噪

54:短時距傅立葉轉換

55:時頻譜

56:聲學模型

57:語言模型

58:音素辨識模組

59:語句解碼模組

60:語言詞庫

圖1為本發明整體系統說明圖。

圖2為本發明ASR服務端請求並下載一影音串流的步驟示意圖。

圖3為本發明ASR服務端的流程說明圖。

圖4為本發明語音辨識系統的斷句機制說明圖。

圖5為本發明語音辨識系統分析語句而生成字幕檔的方法流程圖。

圖1為本發明整體系統說明圖。一使用者1利用各種網路服務網站(例如YouTube、Instagram、Facebook、Twitter)輸入所需的影音網站網址，下載所需的影音檔案、送入本發明自動語音識別(ASR,Automatic Speech Recognition)服務端2，ASR服務端2中的語音辨識系統3即可將該影音檔案的音訊檔抽出，經過系統操作後獲得所需的字幕檔4。

圖2說明本發明ASR服務端2請求並下載一影音串流的步驟。ASR服務端2先對一影音平台5的網頁伺服器6送出HTTP請求7，然後得到網頁伺服器6的HTTP答覆8。接著ASR服務端2對影音平台5的媒體伺服器9請求並下載一影音串流10。

圖3進一步說明本發明ASR服務端2的流程。由上而下說明，先解析使用者給予的URL連結描述，可能為Twitter、YouTube、Facebook等等其中之一的平台。在確定平台後，即如圖2中ASR服務端2先對一影音平台5的網頁伺服器6的網路應用程式介面(Web API)送出HTTP請求7，然後得到網頁伺服器6的HTTP答覆8。然後解析答覆中的內容(通常為JSON格式)，進一步取得所需影音檔的URL位置，下載該影音檔，然後分離該影音檔中的聲音軌道，取得聲音樣本，送入語音辨識系統3中處理，於是生成字幕檔4。

圖3中語音辨識系統3的斷句機制如圖4所示，由上而下說明，首先判斷聲音播放是否結束，若否、則偵測到語句的開頭，然後偵測到語句的停頓，接著翻譯該語句並記錄該區間的時間，回頭判斷聲音播放是否結束，若否、重覆進行，若是，則結束記錄，生成字幕檔4。

圖5為本發明語音辨識系統3分析該語句生成字幕檔4的方法流程圖。音源51即該語句，先經過音量標準化52，使音量適中；然後降噪53，即消除噪音，這兩段屬於音訊的前處理步驟。可以使用遞迴式最小平方(RLS)演算法或使用最小均方(LMS)演算法。

接著進行短時距傅立葉轉換54而得到時頻譜55，此階段是為抽取語音特徵參數。用於表徵物質或現象特性的參數信息叫做特徵參數。以中文發音為例，可以將一個字的發音切割成兩個部分，分別是聲母(initials)與韻母(finals)，然後透過短時距傅立葉轉換54得到「時頻譜」55，並取得特徵值[V1,V2,V3,、、、Vn]。

語音辨識系統3的主要模型通常由「聲學模型」56和「語言模型」57兩個部份組成如圖5所示。圖5中音素辨識模組58將[V1,V2,V3,、、Vn]輸入聲學模型56而獲得拼音序列[C1,C2,C3,、、Cn]，送入語句解碼模組59。

音素辨識模組58中對於中文採取聲母與韻母(即英語中的子音與母音)的識別，於是將[V1,V2,V3,、、Vn]輸入聲學模型56而獲得拼音序列[C1,C2,C3,、、Cn]。聲學模型56是一種類神經網路。

語句解碼模組59包含語言詞庫60與語言模型57。每一個拼音可能代表不同的字，因此利用語言詞庫60將[C1,C2,C3,、、Cn]展開成為一個二維序列如下：

|C11 C21 C31...Cm1|

|C12 C22 C32...Cm2|

|C13 C23 C33...Cm3|

|..........................|

|C1n C2n C3n...Cmn|

舉例而言，[ma、hua、teng]可以得到3×n的二維序列：

|馬化騰|

|麻花疼|

|麻花藤|

|...............|

然後將上述3×n的二維序列送入語言模型57，判讀出是|馬化騰|，而不是|麻花疼|或|麻花藤|，於是形成最終的輸出結果[A1, A2,A3,.....,An]，即為字幕檔4。語言模型57是一種類神經網路。

本發明的精神與範圍決定於下面的申請專利範圍，不受限於上述實施例。

1:使用者

2:自動語音識別服務端

3:語音辨識系統

4:字幕檔

Claims

一種經由影音平台的網址而產生音訊字幕檔的方法，包含步驟如下：(1)一自動語音識別服務端先對一使用者給予的一網址進行解析，並找到相關的一影音平台；(2)向該影音平台的一網頁伺服器之一網路應用程式介面送出一HTTP請求，得到該網頁伺服器的一HTTP答覆；(3)解析該HTTP答覆的內容，並取得所需的一影音檔的網址，下載該影音檔；(4)分離該影音檔中的一聲音軌道，取得一聲音樣本，送入一語音辨識系統中處理，於是生成一字幕檔；(5)其中該語音辨識系統具有一斷句機制，首先判斷一聲音樣本的播放是否結束，若否、則偵測到一語句的開頭，然後偵測到該語句的停頓，接著翻譯該語句並記錄該區間的時間，回頭判斷該聲音樣本的播放是否結束，若否、重覆進行，若是，則結束記錄，生成該字幕檔；(6)其中該語音辨識系統包含一音訊前處理步驟、一抽取語音特徵參數步驟，一音素辨識步驟，一語句解碼步驟；(7)其中該音訊前處理步驟包含一音量標準化步驟與一降噪步驟；(8)其中該抽取語音特徵參數步驟為利用一短時距傅立葉轉換而得到一時頻譜；(9)其中該音素辨識步驟中具有一聲學模型，該聲學模型是一種類神經網路，將該時頻譜輸入該聲學模型而獲得一拼音序列；(10)其中該語句解碼步驟中包含一語言詞庫與一語言模型，該語言模型是一種類神經網路；(11)其中該語言詞庫將該拼音序列展開成為一個二維序列；(12)其中該語言模型將該二維序列判讀出最終的該字幕檔。