TWI747417B - 經由影音平台的網址而產生音訊字幕檔的方法 - Google Patents

經由影音平台的網址而產生音訊字幕檔的方法 Download PDF

Info

Publication number
TWI747417B
TWI747417B TW109126418A TW109126418A TWI747417B TW I747417 B TWI747417 B TW I747417B TW 109126418 A TW109126418 A TW 109126418A TW 109126418 A TW109126418 A TW 109126418A TW I747417 B TWI747417 B TW I747417B
Authority
TW
Taiwan
Prior art keywords
audio
file
sentence
url
platform
Prior art date
Application number
TW109126418A
Other languages
English (en)
Other versions
TW202207212A (zh
Inventor
陳信宏
廖元甫
王逸如
黃紹華
姚秉志
葉政育
陳又碩
鍾耀興
黃彥鈞
黃啟榮
沈立得
古甯允
Original Assignee
國立陽明交通大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立陽明交通大學 filed Critical 國立陽明交通大學
Priority to TW109126418A priority Critical patent/TWI747417B/zh
Application granted granted Critical
Publication of TWI747417B publication Critical patent/TWI747417B/zh
Publication of TW202207212A publication Critical patent/TW202207212A/zh

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本發明提供一種經由影音平台的網址而產生音訊字幕檔的方法。 利用各種網路服務網站(例如YouTube、Instagram、Facebook、Twitter)輸入所需的影音網站網址,下載所需的影音檔案,送入本發明自動語音識別(ASR,Automatic Speech Recognition)服務端,ASR中的語音辨識系統即可將該影音檔案的音訊檔抽出,經過系統操作後獲得所需的字幕檔。本發明語音辨識系統中使用類神經網路。

Description

經由影音平台的網址而產生音訊字幕檔的方法
本發明有關於產生音訊字幕檔的方法,尤其是指經由影音平台的網址而產生其音訊字幕檔的方法。
現行的影音平台音訊字幕檔的產生方法是以人為的方式直接聽取其音訊,然後逐字記錄下來,形成字幕檔,隨片播放。
這種人為的方式效率不高,不能即時形成字幕檔,對於影音平台的使用者而言,不能達到即時輔助的效果。
當今AI(Artificial Intelligence)普遍使用,將AI方法(例如類神經網路)應用到現行的影音平台以產生音訊字幕檔,對影音平台的使用者而言十分方便。
本發明的目的在提出一種經由影音平台的網址而產生音訊字幕檔的方法,以有效對影音檔案即時形成字幕檔。本發明的方法,其內容敘述如下。
本發明一自動語音識別服務端先解析使用者給予的網址描述,並找到相關的影音平台後,針對該影音平台之網頁伺服器提供的網路應用程式介面送出一HTTP請求,得到該網頁伺服器的一HTTP答覆。
解析該HTTP答覆中的內容,取得所需的一影音檔的網址,下載該影音檔。
抽出該影音檔中的一聲音軌道,取得一聲音樣本,送入一語音辨識系統中處理,於是生成一字幕檔。
其中該語音辨識系統包含一音訊前處理步驟、一抽取語音特徵參數步驟,一音素辨識步驟,一語句解碼步驟。音素辨識步驟與語句解碼步驟中都使用類神經網路。
1:使用者
2:自動語音識別服務端
3:語音辨識系統
4:字幕檔
5:影音平台
6:網頁伺服器
7:HTTP請求
8:HTTP答覆
9:媒體伺服器
10:影音串流
51:音源
52:音量標準化
53:降噪
54:短時距傅立葉轉換
55:時頻譜
56:聲學模型
57:語言模型
58:音素辨識模組
59:語句解碼模組
60:語言詞庫
圖1為本發明整體系統說明圖。
圖2為本發明ASR服務端請求並下載一影音串流的步驟示意圖。
圖3為本發明ASR服務端的流程說明圖。
圖4為本發明語音辨識系統的斷句機制說明圖。
圖5為本發明語音辨識系統分析語句而生成字幕檔的方法流程圖。
圖1為本發明整體系統說明圖。一使用者1利用各種網路服務網站(例如YouTube、Instagram、Facebook、Twitter)輸入所需的影音網站網址,下載所需的影音檔案、送入本發明自動語音識別(ASR,Automatic Speech Recognition)服務端2,ASR服務端2中的語音辨識系統3即可將該影音檔案的音訊檔抽出,經過系統操作後獲得所需的字幕檔4。
圖2說明本發明ASR服務端2請求並下載一影音串流的步驟。ASR服務端2先對一影音平台5的網頁伺服器6送出HTTP請求7,然後得 到網頁伺服器6的HTTP答覆8。接著ASR服務端2對影音平台5的媒體伺服器9請求並下載一影音串流10。
圖3進一步說明本發明ASR服務端2的流程。由上而下說明,先解析使用者給予的URL連結描述,可能為Twitter、YouTube、Facebook等等其中之一的平台。在確定平台後,即如圖2中ASR服務端2先對一影音平台5的網頁伺服器6的網路應用程式介面(Web API)送出HTTP請求7,然後得到網頁伺服器6的HTTP答覆8。然後解析答覆中的內容(通常為JSON格式),進一步取得所需影音檔的URL位置,下載該影音檔,然後分離該影音檔中的聲音軌道,取得聲音樣本,送入語音辨識系統3中處理,於是生成字幕檔4。
圖3中語音辨識系統3的斷句機制如圖4所示,由上而下說明,首先判斷聲音播放是否結束,若否、則偵測到語句的開頭,然後偵測到語句的停頓,接著翻譯該語句並記錄該區間的時間,回頭判斷聲音播放是否結束,若否、重覆進行,若是,則結束記錄,生成字幕檔4。
圖5為本發明語音辨識系統3分析該語句生成字幕檔4的方法流程圖。音源51即該語句,先經過音量標準化52,使音量適中;然後降噪53,即消除噪音,這兩段屬於音訊的前處理步驟。可以使用遞迴式最小平方(RLS)演算法或使用最小均方(LMS)演算法。
接著進行短時距傅立葉轉換54而得到時頻譜55,此階段是為抽取語音特徵參數。用於表徵物質或現象特性的參數信息叫做特徵參數。以中文發音為例,可以將一個字的發音切割成兩個部分,分別是聲母(initials)與韻母(finals),然後透過短時距傅立葉轉換54得到「時頻譜」55,並取得特 徵值[V1,V2,V3,、、、Vn]。
語音辨識系統3的主要模型通常由「聲學模型」56和「語言模型」57兩個部份組成如圖5所示。圖5中音素辨識模組58將[V1,V2,V3,、、Vn]輸入聲學模型56而獲得拼音序列[C1,C2,C3,、、Cn],送入語句解碼模組59。
音素辨識模組58中對於中文採取聲母與韻母(即英語中的子音與母音)的識別,於是將[V1,V2,V3,、、Vn]輸入聲學模型56而獲得拼音序列[C1,C2,C3,、、Cn]。聲學模型56是一種類神經網路。
語句解碼模組59包含語言詞庫60與語言模型57。每一個拼音可能代表不同的字,因此利用語言詞庫60將[C1,C2,C3,、、Cn]展開成為一個二維序列如下:
|C11 C21 C31...Cm1|
|C12 C22 C32...Cm2|
|C13 C23 C33...Cm3|
|..........................|
|C1n C2n C3n...Cmn|
舉例而言,[ma、hua、teng]可以得到3×n的二維序列:
|馬化騰|
|麻花疼|
|麻花藤|
|...............|
然後將上述3×n的二維序列送入語言模型57,判讀出是|馬化騰|,而不是|麻花疼|或|麻花藤|,於是形成最終的輸出結果[A1, A2,A3,.....,An],即為字幕檔4。語言模型57是一種類神經網路。
本發明的精神與範圍決定於下面的申請專利範圍,不受限於上述實施例。
1:使用者
2:自動語音識別服務端
3:語音辨識系統
4:字幕檔

Claims (1)

  1. 一種經由影音平台的網址而產生音訊字幕檔的方法,包含步驟如下:(1)一自動語音識別服務端先對一使用者給予的一網址進行解析,並找到相關的一影音平台;(2)向該影音平台的一網頁伺服器之一網路應用程式介面送出一HTTP請求,得到該網頁伺服器的一HTTP答覆;(3)解析該HTTP答覆的內容,並取得所需的一影音檔的網址,下載該影音檔;(4)分離該影音檔中的一聲音軌道,取得一聲音樣本,送入一語音辨識系統中處理,於是生成一字幕檔;(5)其中該語音辨識系統具有一斷句機制,首先判斷一聲音樣本的播放是否結束,若否、則偵測到一語句的開頭,然後偵測到該語句的停頓,接著翻譯該語句並記錄該區間的時間,回頭判斷該聲音樣本的播放是否結束,若否、重覆進行,若是,則結束記錄,生成該字幕檔;(6)其中該語音辨識系統包含一音訊前處理步驟、一抽取語音特徵參數步驟,一音素辨識步驟,一語句解碼步驟;(7)其中該音訊前處理步驟包含一音量標準化步驟與一降噪步驟;(8)其中該抽取語音特徵參數步驟為利用一短時距傅立葉轉換而得到一時頻譜;(9)其中該音素辨識步驟中具有一聲學模型,該聲學模型是一種類神經網路,將該時頻譜輸入該聲學模型而獲得一拼音序列;(10)其中該語句解碼步驟中包含一語言詞庫與一語言模型,該語言模型 是一種類神經網路;(11)其中該語言詞庫將該拼音序列展開成為一個二維序列;(12)其中該語言模型將該二維序列判讀出最終的該字幕檔。
TW109126418A 2020-08-05 2020-08-05 經由影音平台的網址而產生音訊字幕檔的方法 TWI747417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109126418A TWI747417B (zh) 2020-08-05 2020-08-05 經由影音平台的網址而產生音訊字幕檔的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109126418A TWI747417B (zh) 2020-08-05 2020-08-05 經由影音平台的網址而產生音訊字幕檔的方法

Publications (2)

Publication Number Publication Date
TWI747417B true TWI747417B (zh) 2021-11-21
TW202207212A TW202207212A (zh) 2022-02-16

Family

ID=79907786

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109126418A TWI747417B (zh) 2020-08-05 2020-08-05 經由影音平台的網址而產生音訊字幕檔的方法

Country Status (1)

Country Link
TW (1) TWI747417B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
TW200943962A (en) * 2008-04-15 2009-10-16 Novafora Inc Systems and methods for remote control of interactive video
US20140142941A1 (en) * 2009-11-18 2014-05-22 Google Inc. Generation of timed text using speech-to-text technology, and applications thereof
US20150296250A1 (en) * 2014-04-10 2015-10-15 Google Inc. Methods, systems, and media for presenting commerce information relating to video content
CN105122767A (zh) * 2013-04-12 2015-12-02 高通股份有限公司 用于在具有广播/多播能力的网络上传递对象流的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200943962A (en) * 2008-04-15 2009-10-16 Novafora Inc Systems and methods for remote control of interactive video
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
US20140142941A1 (en) * 2009-11-18 2014-05-22 Google Inc. Generation of timed text using speech-to-text technology, and applications thereof
CN105122767A (zh) * 2013-04-12 2015-12-02 高通股份有限公司 用于在具有广播/多播能力的网络上传递对象流的方法
US20150296250A1 (en) * 2014-04-10 2015-10-15 Google Inc. Methods, systems, and media for presenting commerce information relating to video content

Also Published As

Publication number Publication date
TW202207212A (zh) 2022-02-16

Similar Documents

Publication Publication Date Title
Huang et al. Speech emotion recognition using deep neural network considering verbal and nonverbal speech sounds
CN109119063B (zh) 视频配音生成方法、装置、设备及存储介质
US7644000B1 (en) Adding audio effects to spoken utterance
EP3855340B1 (en) Cross-lingual voice conversion system and method
CN110853615B (zh) 一种数据处理方法、装置及存储介质
CN102568478A (zh) 一种基于语音识别的视频播放控制方法和系统
US20220076674A1 (en) Cross-device voiceprint recognition
CN106488300A (zh) 一种视频内容查看方法及装置
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
US11328721B2 (en) Wake suppression for audio playing and listening devices
KR20180046780A (ko) 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치
CN106548785A (zh) 一种语音处理方法及装置、终端设备
US11069349B2 (en) Privacy-preserving voice control of devices
CN106550268B (zh) 视频处理方法和视频处理装置
CN114944149A (zh) 语音识别方法、语音识别设备及计算机可读存储介质
CN113707183A (zh) 一种视频中的音频处理方法及装置
CN114125506B (zh) 语音审核方法及装置
TWI747417B (zh) 經由影音平台的網址而產生音訊字幕檔的方法
US20220044675A1 (en) Method for generating caption file through url of an av platform
CN111462736B (zh) 基于语音的图像生成方法、装置和电子设备
CN114203180A (zh) 会议纪要的生成方法、装置、电子设备及存储介质
CN112423106A (zh) 一种自动翻译伴音的方法及系统
JP2004347732A (ja) 言語自動識別方法及び装置
Pleva et al. Building of children speech corpus for improving automatic subtitling services
US20230345082A1 (en) Interactive pronunciation learning system