TWI749045B - 自動生成配音文字的方法、裝置以及電子設備 - Google Patents

自動生成配音文字的方法、裝置以及電子設備 Download PDF

Info

Publication number
TWI749045B
TWI749045B TW106126945A TW106126945A TWI749045B TW I749045 B TWI749045 B TW I749045B TW 106126945 A TW106126945 A TW 106126945A TW 106126945 A TW106126945 A TW 106126945A TW I749045 B TWI749045 B TW I749045B
Authority
TW
Taiwan
Prior art keywords
text
semantic unit
basic semantic
information
basic
Prior art date
Application number
TW106126945A
Other languages
English (en)
Other versions
TW201832222A (zh
Inventor
陽鶴翔
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201832222A publication Critical patent/TW201832222A/zh
Application granted granted Critical
Publication of TWI749045B publication Critical patent/TWI749045B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申請案公開了一種自動生成配音文字的方法、裝置以及電子設備。其中,所述生成配音文字的方法,包括:對音頻資訊進行識別,獲取識別出的各個音頻基本語意單位的起止時間資訊;獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊,從而獲取文本基本語意單位;將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中;對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字。採用上述方法,能夠使動態歌詞檔不再採用人工的方式進行製作,提高了製作的效率降低了製作成本,簡化了製作的流程。

Description

自動生成配音文字的方法、裝置以及電子設備
本申請案涉及電腦技術領域,具體涉及一種自動生成配音文字的方法;本申請案同時涉及一種自動生成配音文字的裝置以及一種電子設備。
隨著音頻處理技術的發展,用戶對試聽體驗有了更高的要求,不僅要求音頻播放應用能夠播放音頻檔,還希望音頻播放應用能夠同步顯示與音頻檔相應的歌詞檔。音頻播放同步顯示歌詞功能使得人們在聽到優美旋律的同時能夠看到該音頻檔的歌詞,該功能已經成為了音頻播放應用以及播放機的必備功能之一。
為了滿足用戶的需求,目前用於音頻播放同步顯示的歌詞主要採用人工方式來進行的,人工邊聽音頻邊給歌詞標註時間,為音頻檔資料庫中的每個音頻檔生成相應的歌詞檔,並將所生成的歌詞檔導入到音頻播放應用中,從而在播放音頻檔時,同步顯示相應地歌詞檔。
由此可見,在現有的用於音頻播放同步顯示的歌詞的製作方案下,採用人工方式生成歌詞檔製作過程比較繁瑣,不僅效率低且成本高。隨著音頻曲庫規模的不斷擴 大,人工方式所存在的弊端顯得日益嚴重。
本申請案提供一種自動生成配音文字的方法,以解決現有技術中的上述問題。本申請案同時涉及一種自動生成配音文字的裝置以及一種電子設備。
本申請案實施例提供了一種自動生成配音文字的方法,所述自動生成配音文字的方法,包括:對音頻資訊進行識別,獲取識別出的各個音頻基本語意單位的起止時間資訊;獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊,從而獲取文本基本語意單位;將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中;對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字。
可選的,所述對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字,包括:針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位;根據已獲取的所述文本基本語意單位中記錄的起止時間資訊,確定所述單句的起止時間資訊;將確定了起止時間資訊的所述單句進行整合,形成對 應所述音頻資訊,且具有每一單句的起止時間資訊的配音文字。
可選的,所述針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位時,若所述文本基本語意單位中記錄了至少兩組起止時間資訊,則按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組。
可選的,在所述按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組的步驟之後,包括:根據預定的計算方法,對每一所述文本基本語意單位組中,各個文本基本語意單位的所有起止時間資訊進行篩選,確定組成所述單句的文本基本語意單位組。
可選的,所述預定的計算方法,包括:計算各個所述文本基本語意單位組內,每一文本基本語意單位中的起始時間與所述文本基本語意單位的上一個文本基本語意單位的終止時間之間的時間間距,獲取各個所述文本基本語意單位組中所述起始時間與所述終止時間的時間間距的和,將所述時間間距的和作為所述文本基本語意單位組的誤差值。
可選的,所述對每一所述文本基本語意單位組中,各個文本基本語意單位的所有起止時間資訊進行篩選,確定組成所述單句的文本基本語意單位組,包括:對各個所述文本基本語意單位組進行過濾,保留誤差值低於預設的閾值的文本基本語意單位組。
可選的,在所述保留誤差值低於預設的閾值的文本基本語意單位組的步驟之後,包括:計算保留的所述文本基本語意單位組內,每一文本基本語意單位中的起始時間大於所述文本基本語意單位的上一個文本基本語意單位的終止時間的次數,獲取該次數最大的文本基本語意單位組。
可選的,所述識別所述文本資訊獲取文本基本語意單位,包括:從所述文本資訊中,按照每句內的每個字的順序進行識別獲取所述文本資訊中的文本基本語意單位。
可選的,在將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中時,若所述音頻基本語意單位的起止時間資訊為空值,則使與所述音頻基本語意單位相應的所述文本基本語意單位的取值為空值。
可選的,在所述確定組成所述單句的文本基本語意單位組的步驟之後,包括:按照預定的推算方式,對取值為空值的所述文本基本語意單位推算起止時間資訊。
可選的,所述預定的推算方式,包括:計算所述文本基本語意單位組中的文本基本語意單位的平均時間資訊;將取值為空值的所述文本基本語意單位,上一個文本基本語意單位中的終止時間,放入取值為空值的所述文本 基本語意單位的起始時間中;將所述終止時間加上所述平均時間資訊後,放入取值為空值的所述文本基本語意單位的終止時間中。
相應的,本申請案實施例還提供了一種自動生成配音文字的裝置,所述自動生成配音文字的裝置,包括:音頻識別單元,用於對音頻資訊進行識別,獲取識別出的各個音頻基本語意單位的起止時間資訊;文本識別單元,用於獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊,從而獲取文本基本語意單位;時間寫入單元,用於將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中;配音文字生成單元,用於對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字。
可選的,所述配音文字生成單元,包括:文本語意獲取子單元,用於針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位;時間資訊確定子單元,用於根據已獲取的所述文本基本語意單位中記錄的起止時間資訊確定所述單句的起止時間資訊;配音文字生成子單元,用於將確定了起止時間資訊的所述單句進行整合,形成對應所述音頻資訊,且具有每一單句的起止時間資訊的配音文字。
可選的,所述時文本語意獲取子單元,具體用於針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位時,若所述文本基本語意單位中記錄了至少兩組起止時間資訊,則按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組。
可選的,所述的自動生成配音文字的裝置,還包括:文本語意篩選子單元,用於在所述按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組之後,根據預定的計算方法,對每一所述文本基本語意單位組中,各個文本基本語意單位的所有起止時間資訊進行篩選,確定組成所述單句的文本基本語意單位組。
可選的,所述文本語意篩選子單元,包括:誤差計算子單元,用於計算各個所述文本基本語意單位組內,每一文本基本語意單位中的起始時間與所述文本基本語意單位的上一個文本基本語意單位的終止時間之間的時間間距,獲取各個所述文本基本語意單位組中所述起始時間與所述終止時間的時間間距的和,將所述時間間距的和作為所述文本基本語意單位組的誤差值。
可選的,所述文本語意篩選子單元,還包括:過濾子單元,用於對各個所述文本基本語意單位組進行過濾,保留誤差值低於預設的閾值的文本基本語意單位組。
可選的,所述文本語意篩選子單元,還包括:時間次數計算子單元,用於在所述保留誤差值低於預 設的閾值的文本基本語意單位組的之後,計算保留的所述文本基本語意單位組內,每一文本基本語意單位中的起始時間大於所述文本基本語意單位的上一個文本基本語意單位的終止時間的次數,獲取該次數最大的文本基本語意單位組。
可選的,所述文本識別單元,具體用於從所述文本資訊中,按照每句內的每個字的順序進行識別獲取所述文本資訊中的文本基本語意單位。
可選的,所述時間寫入單元,具體用於在將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中時,若所述音頻基本語意單位的起止時間資訊為空值,則使與所述音頻基本語意單位相應的所述文本基本語意單位的取值為空值。
可選的,所述的自動生成配音文字的裝置,還包括:時間推算單元,用於在所述確定組成所述單句的文本基本語意單位組之後,按照預定的推算方式,對取值為空值的所述文本基本語意單位推算起止時間資訊。
可選的,所述時間推算單元,包括:平均時間計算子單元,用於計算所述文本基本語意單位組中的文本基本語意單位的平均時間資訊;起始時間寫入子單元,用於將取值為空值的所述文本基本語意單位,上一個文本基本語意單位中的終止時間,放入取值為空值的所述文本基本語意單位的起始時間中;終止時間寫入子單元,用於將所述終止時間加上所述 平均時間資訊後,放入取值為空值的所述文本基本語意單位的終止時間中。
此外,本申請案實施例還提供了一種電子設備,包括:顯示器;處理器;記憶體,用於儲存配音文字生成程式,所述程式在被所述處理器讀取執行時,執行如下操作:對音頻資訊進行識別,獲取識別出的各個音頻基本語意單位的起止時間資訊;獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊,從而獲取文本基本語意單位;將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中;對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字。
與現有技術相比,本申請案具有以下優點:本申請案提供的一種自動生成配音文字的方法、裝置以及電子設備,通過對音頻資訊進行識別,獲取識別出的各個音頻基本語意單位的起止時間資訊;獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊,從而獲取文本基本語意單位;將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中;對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字。所述技術方案通過對音頻資訊進行語音辨識,獲取音頻資訊中每個音頻基本語 意單位起止時間資訊,通過識別所述音頻資訊對應的文本資訊,確定文本資訊內每個單句內文本基本語意單位的數量與字形,使所述音頻資訊中識別出的音頻基本語意單位與所述文本資訊中識別出的文本基本語意單位相對應,在確立對應關係後,根據所述音頻資訊中每個音頻基本語意單位起止時間資訊確定文本資訊中對應單句的時間資訊,使文本內的每條單句帶有時間資訊,使動態歌詞檔不再採用人工的方式進行製作,提高了製作的效率降低了製作成本,簡化了製作的流程。
301‧‧‧音頻識別單元
303‧‧‧文本識別單元
305‧‧‧時間寫入單元
307‧‧‧配音文字生成單元
401‧‧‧顯示器
403‧‧‧處理器
405‧‧‧記憶體
為了更清楚地說明本申請案實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請案中記載的一些實施例,對於本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
圖1示出了根據本申請案的實施例提供的自動生成配音文字的方法的流程圖;圖2示出了根據本申請案的實施例提供的對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字的流程圖;圖3示出了根據本申請案的實施例提供的自動生成配音文字的裝置的示意圖;圖4示出了根據本申請案的實施例提供的電子設備的 示意圖。
在下面的描述中闡述了很多具體細節以便於充分理解本申請案。但是本申請案能夠以很多不同於在此描述的其它方式來實施,本領域技術人員可以在不違背本申請案內涵的情況下做類似推廣,因此本申請案不受下面公開的具體實施的限制。
為了能夠更清楚地理解本申請案的上述目的、特徵和優點,下面結合附圖和具體實施方式對本申請案進行進一步的詳細描述。需要說明的是,在不衝突的情況下,本申請案的實施例及實施例中的特徵可以相互組合。
本申請案的實施例提供了一種自動生成配音文字的方法,本申請案的實施例同時提供了一種自動生成配音文字的裝置以及一種電子設備。在下面的實施例中逐一進行詳細說明。
目前用於音頻播放同步顯示的歌詞主要採用人工方式來進行的,人工邊聽音頻邊給歌詞標註時間,為音頻檔資料庫中的每個音頻檔生成相應的歌詞檔,並將所生成的歌詞檔導入到音頻播放應用中,從而在播放音頻檔時,同步顯示相應地歌詞檔。由此可見,在現有的用於音頻播放同步顯示的歌詞的製作方案下,採用人工方式生成歌詞檔製作過程比較繁瑣,不僅效率低且成本高。隨著音頻曲庫規模的不斷擴大,人工方式所存在的弊端顯得日益嚴重。針 對這一問題,本申請案的技術方案通過對音頻資訊進行語音辨識,獲取音頻資訊中每個音頻基本語意單位起止時間資訊,通過識別所述音頻資訊對應的文本資訊,確定文本資訊內每個單句內文本基本語意單位的數量與字形,使所述音頻資訊中識別出的音頻基本語意單位與所述文本資訊中識別出的文本基本語意單位相對應,在確立對應關係後,根據所述音頻資訊中每個音頻基本語意單位起止時間資訊確定文本資訊中對應單句的時間資訊,使文本內的歌詞帶有時間資訊,從而實現了自動製作動態歌詞檔的功能。
在詳細描述本實施例的具體步驟之前,先對本技術方案涉及的動態歌詞作簡要說明。
動態歌詞是通過編輯器把歌詞按歌曲歌詞出現的時間編輯到一起,然後在播放歌曲時同步依次將歌詞顯示出來。常用的動態歌詞檔包括:lrc、qrc等。
lrc是英文lyric(歌詞)的縮寫,被用做動態歌詞檔的副檔名。以lrc為副檔名的歌詞檔可以在各類數碼播放機中同步顯示。lrc歌詞是一種包含著“*:*:*”(其中,“*”是指萬用字元,用來代替一個或多個真正的字元。在實際的歌詞檔中“*”是指歌詞的時間(即時間內容),例如:“01:01:00”是指1分1秒;“:”用來分割分、秒、毫秒的時間資訊)形式的“標籤(tag)”的、基於純文字的歌詞專用格式。這種歌詞檔能以文書處理軟體查看、編輯(用記事本按照上述格式寫好後,將副檔名改為lrc即可做出 “檔案名.LRC”的歌詞文件)。Lrc動態歌詞檔的標準格式為[分鐘:秒:毫秒]歌詞。
lrc歌詞文本中含有兩類標籤:一是標識標籤,其格式為“[標識名:值]”主要包含以下預定義的標籤:[ar:歌手名]、[ti:歌曲名]、[al:專輯名]、[by:編輯者(指lrc歌詞的製作人)]。
二是時間標籤,形式為“[mm:ss]”或“[mm:ss.ff]”,時間標籤需位於某行歌詞中的句首部分,一行歌詞可以包含多個時間標籤(比如歌詞中的疊句部分)。當歌曲播放到達某一時間點時,就會尋找對應的時間標籤並顯示標籤後面的歌詞文本,這樣就完成了“歌詞同步”的功能。
lrc動態歌詞檔在使用時要求歌曲和lrc動態歌詞檔的檔案名相同(即除了副檔名.mp3、.wma、.lrc等不同之外,點前面的文字、文字格式要一模一樣)並且放在同一目錄下(即同一資料夾中),用帶顯示歌詞功能的播放機播放歌曲時歌詞就可以同步顯示。
本申請案的實施例提供了一種生成配音文字的方法,所述生成配音文字的方法實施例如下:請參考圖1,其示出了根據本申請案的實施例提供的自動生成配音文字的方法的流程圖。
所述自動生成配音文字的方法包括: 步驟S101,對音頻資訊進行識別,獲取識別出的各個 音頻基本語意單位的起止時間資訊。
在本實施例中,所述對音頻資訊進行識別,主要是將所述音頻資訊的語音信號轉換為可識別的文本資訊,例如:以文本資訊的形式獲取將所述音頻資訊的語音信號轉換為可以識別的音頻基本語意單位。所述音頻基本語意單位包括:中文文字、中文詞語、拼音、數位、英文文字和/或英文詞語等。具體的,語音辨識過程可採用統計模式識別技術等語音辨識方法。
在具體實施時,可以通過CMU-Sphinx語音辨識系統對所述音頻資訊進行語音辨識。CMU-Sphinx是大詞彙量語音辨識系統,採用連續隱含瑪律可夫模型CHMM建模。支援多種模式操作,高精度模式扁平解碼器以及快速搜索模式樹解碼器。
需要說明的是,所述文本資訊中,包含從所述音頻資訊中識別出的音頻基本語意單位以及所述音頻基本語意單位在所述音頻資訊中起止時間資訊。可以理解的,所述音頻資訊可以是mp3或其他音樂格式的歌曲檔,mp3檔是具有一定時長直接記錄了真實聲音的音頻檔,所以在對mp3檔進行識別,將識別出的音頻基本語意單位採用文本資訊的形式進行輸出時會記錄識別出的該音頻基本語意單位在所述音頻資訊中播放時起止時間資訊。
在本實施例中,在對所述音頻資訊進行識別後輸出的所述文本資訊中採用如下格式記錄識別出的音頻基本語意單位以及所述音頻基本語意單位的時間資訊:<word, TIMECLASS>。其中,word是指識別出的音頻基本語意單位,TIMECLASS是指時間標註,該時間標註採用起始時間以及終止時間{startTime,endTime}的形式記錄該音頻基本語意單位在在所述音頻資訊中播放時出現時的時間資訊,即:是相對於所述音頻資訊在開始播放0時刻時的偏移量,單位為毫秒。
下面通過一個具體的例子說明所述生成配音文字的方法,例如:所述音頻資訊為mp3檔,該mp3檔在播放時的時常為10秒,在該mp3檔播放到1秒時出現歌詞:“我想了又想”,則通過識別所述音頻資訊獲取的文本資訊中記錄的識別出的音頻基本語意單位以及所述音頻基本語意單位的時間資訊為:<word:“我”,{startTime:1000,endTime:1100}>;<word:“想”,{startTime:1200,endTime:1300}>;<word:“了”,{startTime:1400,endTime:1500}>;<word:“又”,{startTime:1600,endTime:1700}>;<word:“想”,{startTime:1800,endTime:1900}>。
需要說明的是,若所述音頻資訊為中文的音頻資訊,則在對所述音頻資訊進行識別後輸出的所述文本資訊中記錄的識別出的音頻基本語意單位為單個中文漢字;同樣的道理,若所述音頻資訊為英文的音頻資訊,則在對所述音頻資訊進行識別後輸出的所述文本資訊中記錄的識別出的音頻基本語意單位為單個英文單詞。
可以理解的,所述音頻基本語意單位的起止時間資訊 是以毫秒為單位進行記錄的,而歌詞:“我想了又想”是在該mp3檔播放到1秒時出現,則音頻基本語意單位“我”在該mp3檔播放到1秒至1.1秒時出現,所以記錄的音頻基本語意單位“我”的時間資訊為{startTime:1000,endTime:1100}。
步驟S103,獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊,從而獲取文本基本語意單位。
在本實施例中,所述獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊,從而獲取文本基本語意單位,可以採用如下方式實現:通過網際網路搜索所述音頻資訊對應的文本資訊,在獲取所述文本資訊後對所述文本資訊中的每個基本語意單位進行識別,對識別出的每個基本語意單位形成時間資訊為空值的文本基本語意單位,獲取所述文本基本語意單位。
需要說明的是,所述基本語意單位是所述文本資訊內的單字資訊,包括:中文文字、中文詞語、拼音、數位、英文文字和/或英文詞語等。
沿用上述具體的例子進行說明:所述音頻資訊為mp3檔,通過網際網路路搜索該mp3檔對應的歌詞文本,所述歌詞文本的具體內容為:“我想了又想”,在獲取該mp3檔對應的歌詞文本後,對所述文本資訊中的每個基本語意單位進行識別,對識別出的每個基本語意單位形成時間資訊為空值的文本基本語意單位:<word:“我”,timeList{ }>; <word:“想”,timeList{ }>;<word:“了”,timeList{ }>;<word:“又”,timeList{ }>;<word:“想”,timeList{ }>。
步驟S105,將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中。
在本實施例中,所述將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中,可以採用如下方式實現:將在對所述音頻資訊進行識別後識別出的各個所述音頻基本語意單位與從所述音頻資訊對應的文本資訊中對每個基本語意單位進行識別形成的文本基本語意單位進行匹配,將所述音頻基本語意單位的起止時間資訊放入到與該音頻基本語意單位相應的文本基本語意單位內。
例如:通過識別所述音頻資訊獲取的文本資訊中記錄的識別出的音頻基本語意單位以及所述音頻基本語意單位的時間資訊為:<word:“我”,{startTime:1000,endTime:1100}>;<word:“想”,{startTime:1200,endTime:1300}>;對所述文本資訊中的每個基本語意單位進行識別,對識別出的每個基本語意單位形成時間資訊為空值的文本基本語意單位為:<word:“我”,timeList{ }>;<word:“想”,timeList{ }>; 進行識別形成的文本基本語意單位進行匹配
由於所述音頻資訊進行識別後識別出的音頻基本語意單位“我”和“想”與對所述歌詞文本中歌詞的文本基本語意單位進行識別後形成的文本基本語意單位“我”和“想”的字形相同,則將音頻基本語意單位“我”和“想”的起止時間資訊放入到文本基本語意單位“我”和“想”中:<word:“我”,timeList{startTime:1000,endTime:1100}>;<word:“想”,timeList{startTime:1200,endTime:1300}>。
需要說明的是,由於音頻資訊中相同的音頻基本語意單位出現的次數可能不唯一,例如:在一首歌曲中,某個相同的字可以多次出現,所以在執行步驟S105將各個所述音頻基本語意單位的起止時間資訊記錄到相應的所述文本基本語意單位中時,當具有相同的音頻基本語意單位時,可以採用如下方式實現:將從所述音頻資訊中獲取的音頻基本語意單位的起止時間資訊放入每一個與所述音頻基本語意單位相同的文本基本語意單位內。
沿用上述具體的例子進行說明:通過識別所述音頻資訊獲取的文本資訊中記錄的識別出的音頻基本語意單位以及所述音頻基本語意單位的時間資訊為:<word:“我”,{startTime:1000,endTime:1100}>;<word:“想”,{startTime:1200,endTime:1300}>;<word:“了”,{startTime:1400,endTime:1500}>;<word:“又”,{startTime:1600,endTime:1700}>; <word:“想”,{startTime:1800,endTime:1900}>。
在獲取所述文本資訊後對所述文本資訊中的每個基本語意單位進行識別,對識別出的每個基本語意單位形成時間資訊為空值的文本基本語意單位為:<word:“我”,timeList{ }>;<word:“想”,timeList{ }>;<word:“了”,timeList{ }>;<word:“又”,timeList{ }>;<word:“想”,timeList{ }>。
由於所述音頻資訊進行識別後識別出的音頻基本語意單位“我”、“想”、“了”、“又”和“想”與對所述歌詞文本中歌詞的文本基本語意單位進行提取後形成的文本基本語意單位“我”、“想”、“了”、“又”和“想”的時間集中字形相同,則將上述音頻基本語意單位的起止時間資訊放入到相應的文本基本語意單位中:<word:“我”,timeList{startTime:1000,endTime:1100}>;<word:“想”,timeList{startTime:1200,endTime:1300},{startTime:1800,endTime:1900}>;<word:“了”,timeList{startTime:1400,endTime:1500}>;<word:“又”,timeList{startTime:1600,endTime:1700}>;<word:“想”,timeList{startTime:1200,endTime:1300},{startTime:1800,endTime:1900}>。
可以理解的,在上述例子中,由於在所述音頻資訊以及所述文本中“想”字出現了兩次,所以將從所述音頻資 訊中獲取的“想”的起止時間資訊分別放入與“想”字對應的文本基本語意單位“想”中。
步驟S107,對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字。
在本實施例中,所述對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字,可以採用如下方式實現:根據所述文本資訊中的具體單句確定組成該單句的文本基本語意單位,並根據組成該單句的所述文本基本語意單位中的起止時間資訊確定該單句的起止時間資訊,整理所有的單句的起止時間資訊,生成對應所述音頻資訊並確定了所有單句的起止時間資訊的配音文字。
需要說明的是,在所述文本資訊中確定單句時,可以通過單句與單句之間的分行符號區分所述文本中的每一單句。
所述對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字,具體包括步驟S107-1至S107-3,下面結合附圖2作進一步說明。
請參考圖2,其示出了根據本申請案的實施例提供的對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字的流程圖。
所述對記錄了所述起止時間資訊的所述文本基本語意 單位進行處理,生成對應所述音頻資訊的配音文字,包括: 步驟S107-1,針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位。
在本實施例中,所述針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位,可以採用如下方式實現:根據分行符號進行區分所述文本資訊中的每一單句,並針對具體的某一單句獲取組成所述單句的文本基本語意單位。
例如:所述文本資訊中的具體單句為:“我想”和“你了”,則組成該單句的文本基本語意單位為“我”和“想”以及“你”和“了”,且文本基本語意單位“我”和“想”為:<word:“我”,timeList{startTime:1000,endTime:1100}>;<word:“想”,timeList{startTime:1200,endTime:1300}>;文本基本語意單位“你”和“了”為:<word:“你”,timeList{startTime:1400,endTime:1500}>;<word:“了”,timeList{startTime:1600,endTime:1700}>;。
步驟S107-2,根據已獲取的所述文本基本語意單位中記錄的起止時間資訊,確定所述單句的起止時間資訊。
在本實施例中,所述根據已獲取的所述文本基本語意單位中記錄的起止時間資訊,確定所述單句的起止時間資訊,可以採用如下方式實現:以組成所述單句的文本基本語意單位中起始時間最早的時間資訊作為所述單句的起始 時間,以組成所述單句的文本基本語意單位的時間集中終止時間最晚的時間資訊作為所述單句的終止時間,並將所述單句的起始時間以及終止時間作為所述單句的起止時間資訊。
例如:根據上述兩個文本基本語意單位的時間資訊確定的單句“我想”的時間資訊為:timeList{startTime:1000,endTime:1300},根據上述兩個文本基本語意單位的時間資訊確定的單句“你了”的時間資訊為:timeList{startTime:1400,endTime:1700}。
步驟S107-3,將確定了起止時間資訊的所述單句進行整合,形成對應所述音頻資訊,且具有每一單句的起止時間資訊的配音文字。
例如:在確定所述文本中所有的單句“我想”和“你了”的時間資訊之後,輸出帶有上述兩句的時間資訊的文本(即:動態歌詞lrc):[00:01:00]我想
[00:01:40]你了。
可以理解的,在播放所述音頻資訊時,在達到每一所述單句的顯示時間時,顯示配音文字中相應的單句。
在本實施例中,由於音頻資訊中相同的音頻基本語意單位出現的次數可能不唯一,例如:在一首歌曲中,某個相同的字可以多次出現,所以在執行步驟S107-1針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意 單位時,當具有相同的基本語意單位時,可以採用如下方式實現:若所述文本基本語意單位中記錄了至少兩組起止時間資訊,則按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組。
沿用上述具體的例子進行說明:所述文本中的具體單句為:“我想了又想”,則組成該單句的文本基本語意單位“我”、“想”、“了”、“又”和“想”為:<word:“我”,timeList{startTime:1000,endTime:1100}>;<word:“想”,timeList{startTime:1200,endTime:1300},{startTime:1800,endTime:1900}>;<word:“了”,timeList{startTime:1400,endTime:1500}>;<word:“又”,timeList{startTime:1600,endTime:1700}>;<word:“想”,timeList{startTime:1200,endTime:1300},{startTime:1800,endTime:1900}>;由於組成單句“我想了又想”的兩個文本基本語意單位“想”中各具有兩組時間資訊,則按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組包括如下四組:第一組為:<word:“我”,timeList{startTime:1000,endTime:1100}>;<word:“想”,timeList{startTime:1200,endTime:1300}>;<word:“了”,timeList{startTime:1400,endTime:1500}>;<word:“又”,timeList{startTime:1600,endTime:1700}>;<word:“想”,timeList{startTime:1200,endTime:1300}>;第二組為: <word:“我”,timeList{startTime:1000,endTime:1100}>;<word:“想”,timeList{startTime:1200,endTime:1300}>;<word:“了”,timeList{startTime:1400,endTime:1500}>;<word:“又”,timeList{startTime:1600,endTime:1700}>;<word:“想”,timeList{startTime:1800,endTime:1900}>;第三組為:<word:“我”,timeList{startTime:1000,endTime:1100}>;<word:“想”,timeList{startTime:1800,endTime:1900}>;<word:“了”,timeList{startTime:1400,endTime:1500}>;<word:“又”,timeList{startTime:1600,endTime:1700}>;<word:“想”,timeList{startTime:1200,endTime:1300}>;第四組為:<word:“我”,timeList{startTime:1000,endTime:1100}>;<word:“想”,timeList{startTime:1800,endTime:1900}>;<word:“了”,timeList{startTime:1400,endTime:1500}>;<word:“又”,timeList{startTime:1600,endTime:1700}>;<word:“想”,timeList{startTime:1800,endTime:1900}>。
由於真實的所述單句的文本基本語意單位中應該只具有一種時間資訊,所以需要過濾掉時間資訊不合理的文本基本語意單位組,所以在執行完按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組的步驟之後,還包括如下步驟:根據預定的計算方法,對每一所述文本基本語意單位組中,各個文本基本語意單位的所有起止時間資訊進行篩 選,確定組成所述單句的文本基本語意單位組。
在本實施例中,所述預定的計算方法,採用如下方式進行計算:計算各個所述文本基本語意單位組內,每一文本基本語意單位中的起始時間與所述文本基本語意單位的上一個文本基本語意單位的終止時間之間的時間間距,獲取各個所述文本基本語意單位組中所述起始時間與所述終止時間的時間間距的和,將所述時間間距的和作為所述文本基本語意單位組的誤差值。
需要說明的是,所述時間間距是指:每一文本基本語意單位中的起始時間與所述文本基本語意單位的上一個文本基本語意單位的終止時間之間的時間間距,由於在形成的組成所述單句的文本基本語意單位組時,所述文本基本語意單位的起始時間可能會小於上一個文本基本語意單位的終止時間,為了防止在計算誤差值時出現的負數時間間距影響誤差值的計算,需要獲取所述時間間距的正值。
獲取所述時間間距的正值的方法包括:取絕對值、取平方等,下面以採用取平方的方式獲取所述時間間距的正值來進行說明。可以理解的,由於要獲取每一文本基本語意單位中的起始時間與上一個文本基本語意單位的終止時間之間的時間間距,所以通過差平方的計算方式獲取所述時間間距的正值。
具體的,所述預定的計算方法的數學演算法為:誤差值=(startTime2-endTime1)2+(startTime3-endTime2)2...+(startTime n-endTime n-1)2
下面分別對上述4組時間集進行計算進行詳細說明。(為了方便計算進行舉例說明,在計算時以秒為單位進行計算)
第一組:(1.2-1.1)2+(1.4-1.3)2+(1.6-1.5)2+(1.2-1.7)2=0.28
第二組:(1.2-1.1)2+(1.4-1.3)2+(1.6-1.5)2+(1.8-1.7)2=0.04
第三組:(1.8-1.1)2+(1.4-1.9)2+(1.6-1.5)2+(1.2-1.7)2=1
第四組:(1.8-1.1)2+(1.4-1.9)2+(1.6-1.5)2+(1.8-1.7)2=0.76
在本實施例中,所述預設的閾值可以是通過本領域的技術人員根據經驗進行配置的較為合理的數值,或者所述預設的閾值為數值最小的誤差值,在計算完誤差值之後,對各個所述文本基本語意單位組進行過濾,保留誤差值低於預設的閾值的文本基本語意單位組。
當所述預設的閾值為數值最小的誤差值時,所述對各個所述文本基本語意單位組進行過濾,保留誤差值低於預設的閾值的文本基本語意單位組,可以採用如下方式實現:保留誤差值最小的組成所述單句的文本基本語意單位組,將其他的組成所述單句的文本基本語意單位組過濾掉。
需要說明的是,在對組成所述單句的文本基本語意單位組進行過濾時,可能會出現具有相同誤差值的組成所述單句的文本基本語意單位組,這時在根據誤差值進行過濾後還是無法獲取單一的只具有一種時間資訊的文本基本語意單位組,為了解決上述問題,本申請案的實施例提供了一種較佳的實施方式,在較佳方式下,在執行所述對各個 所述文本基本語意單位組進行過濾,保留誤差值低於預設的閾值的文本基本語意單位組的步驟之後,還需要計算保留的所述文本基本語意單位組內,每一文本基本語意單位中的起始時間大於所述文本基本語意單位的上一個文本基本語意單位的終止時間的次數,獲取該次數最大的文本基本語意單位組。
下面以一個具體的實例進行說明。
若組成組成所述單句的文本基本語意單位組還包括第五組:<word:“我”,timeList{startTime:1000,endTime:1100}>;<word:“想”,timeList{startTime:1200,endTime:1300}>;<word:“了”,timeList{startTime:1400,endTime:1500}>;<word:“又”,timeList{startTime:1600,endTime:1700}>;<word:“想”,timeList{startTime:1600,endTime:1700}>;則第五組的誤差值為:(1.2-1.1)2+(1.4-1.3)2+(1.6-1.5)2+(1.6-1.7)2=0.04
經過對誤差值進行過濾後,保留誤差值最小的組成所述單句的文本基本語意單位組為第二組以及第五組,則還需對第二組和第五組的按照單句中文本基本語意單位的時間順序進行合理性判斷,即:判斷保留的組成所述單句的每一文本基本語意單位中的起始時間大於所述單句中的上一個文本基本語意單位的終止時間的次數。
例如:第二組“想”字的起始時間大於“想”字上一個文本基本語意單位“我”的終止時間;“了”字的起始 時間大於“了”字上一個文本基本語意單位“想”的終止時間;“又”字的起始時間大於“又”字上一個文本基本語意單位“了”的終止時間;“想”字的起始時間大於“想”字上一個文本基本語意單位“又”的終止時間,則第二組的合理次數為4次;同樣的道理,第五組的的合理次數為3次,則獲取合理次數為4次的組成所述單句的文本基本語意單位的時間集組。
作為一個較佳實施方式,本申請案實施例提供的自動生成配音文字的方法中,在執行步驟S103獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊獲取文本基本語意單位時,是從所述文本資訊中,按照每句內的每個字的順序進行識別獲取所述文本資訊中的文本基本語意單位。
作為一個較佳實施方式,本申請案實施例提供的自動生成配音文字的方法中,由於語音辨識存在識別率,即:不一定能使所述音頻資訊精確無誤的被識別出來,所以在步驟S101中對音頻資訊進行識別時,可能會有未被識別出的音頻基本語意單位,而在執行步驟S103,獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊獲取文本基本語意單位時,由於文本資訊內的資訊是電腦可以識別的字串,則能夠將所述文本資訊內的每個基本語意單位進行識別並形成文本基本語意單位,所以在執行步驟S105將各個所述音頻基本語意單位的起止時間資訊記錄到相應的所述文本基本語意單位中時,若所述音頻基本語意單位的起 止時間資訊為空值,則使與所述音頻基本語意單位相應的所述文本基本語意單位的取值為空值。
可以理解的,若所述音頻資訊在識別過程中,具有未識別出的音頻基本語意單位,即:所述音頻基本語意單位為空,且該音頻基本語意單位中的起止時間資訊的取值也為空值,則在執行步驟S105將各個所述音頻基本語意單位的起止時間資訊記錄到相應的所述文本基本語意單位中時,形成的文本基本語意單位的數目會大於語音辨識出的音頻基本語意單位的數目,則使未匹配上的所述文本基本語意單位中的起止時間資訊的取值為空值。
例如:通過識別所述音頻資訊識別出的音頻基本語意單位以及所述音頻基本語意單位的時間資訊為:<word:“我”,{startTime:1000,endTime:1100}>;<word:“想”,{startTime:1200,endTime:1300}>;<word:“又”,{startTime:1600,endTime:1700}>;對所述歌詞文本中歌詞的每個文本基本語意單位形成時間資訊為空值的文本基本語意單位為:<word:“我”,timeList{ }>;<word:“想”,timeList{ }>;<word:“了”,timeList{ }>;<word:“又”,timeList{ }>;由於所述音頻資訊進行識別後只識別出了“我”、“想”和“又”,而對所述歌詞文本中歌詞的文本基本語意單位進行識別後形成的文本基本語意單位為:“我”、 “想”、“了”、“又”,則將上述音頻基本語意單位的時間資訊放入到相應的文本基本語意單位中:<word:“我”,timeList{startTime:1000,endTime:1100}>;<word:“想”,timeList{startTime:1200,endTime:1300}>;<word:“了”,timeList{ }>;<word:“又”,timeList{startTime:1600,endTime:1700}>。
作為一個較佳實施方式,本申請案實施例提供的自動生成配音文字的方法中,在執行步驟S107-1針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位時,若具有取值為空值的文本基本語意單位時,在所述確定組成所述單句的文本基本語意單位組的步驟之後,為了使每一文本基本語意單位都具有起止時間資訊,按照預定的推算方式,對取值為空值的所述文本基本語意單位推算起止時間資訊。
所述預定的推算方式,包括:計算所述文本基本語意單位組中的文本基本語意單位的平均時間資訊;將取值為空值的所述文本基本語意單位的上一個基本語意單位中的終止時間,放入取值為空值的所述文本基本語意單位的起始時間中;將所述終止時間加上所述平均時間資訊後,放入取值為空值的所述文本基本語意單位的終止時間中。
在本實施例中,所述計算所述文本基本語意單位組中的文本基本語意單位的平均時間資訊,可以採用如下方式 實現:將組成所述單句的每一文本基本語意單位中的終止時間減去起始時間,獲得每一文本基本語意單位在音頻資訊中的播放時間,並根據該單句中文本基本語意單位的播放時間的和除以該單句中文本基本語意單位的數量計算組成所述單句的文本基本語意單位的平均時間資訊。
可以理解的,由於所述文本基本語意單位是按照文本資訊的單句中每個基本語意單位的順序形成的,所以能通過取值為空值的文本基本語意單位的上一文本基本語意單位的時間資訊中的終止時間進行時間估算,將取值為空值的文本基本語意單位的上一個文本基本語意單位中的終止時間,放入取值為空值的文本基本語意單位的起始時間中,即:將與取值為空值的文本基本語意鄰近的文本基本語意的終止時間作為取值為空值的文本基本語意的起始時間。
在確定取值為空值的文本基本語意的起始時間後,根據該單句中每個文本基本語意單位在音頻資訊中的平均播放時間確定取值為空值的文本基本語意單位的終止時間,即:將取值為空值的文本基本語意單位已確定的起始時間加上所述平均時間資訊後,放入取值為空值的文本基本語意的終止時間中。
需要說明的是,由於執行步驟S103獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊獲取文本基本語意單位時,是從所述文本資訊中,按照每句內的每個字的順序進行識別獲取所述文本資訊中的文本基本語意單位 的,則對取值為空值的文本基本語意單位推算起止時間資訊還可以採用另一種方式實現:直接以取值為空的文本基本語意單位的上一文本基本語意單位的時間資訊中的終止時間以及以取值為空的文本基本語意單位的下一文本基本語意單位的時間資訊中的開始時間,分別作為該取值為空的文本基本語意單位的時間資訊中的開始時間以及終止時間。
可以理解的,由於所述文本基本語意單位是按照文本單句中每個文本基本語意單位的順序形成的,所以取值為空值的文本基本語意單位的基本語意單位是出現在與其鄰近的前後文本基本語意單位之間的,所以能通過上一文本基本語意單位的時間資訊中的結束時間以及下一文本基本語意單位的時間資訊中的開始時間對取值為空值的文本基本語意單位進行時間估算。
在上述的實施例中,提供了一種自動生成配音文字的方法,與上述自動生成配音文字的方法相對應的,本申請案還提供了一種自動生成配音文字的裝置。由於裝置的實施例基本相似於方法的實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。下述描述的裝置實施例僅僅是示意性的。所述自動生成配音文字的裝置實施例如下:請參考圖3,其示出了根據本申請案的實施例提供的自動生成配音文字的裝置的示意圖。
所述自動生成配音文字的裝置,包括:音頻識別單元 301、文本識別單元303、時間寫入單元305以及配音文字生成單元307;所述音頻識別單元301,用於對音頻信息進行識別,獲取識別出的各個音頻基本語意單位的起止時間資訊;所述文本識別單元303,用於獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊,從而獲取文本基本語意單位;所述時間寫入單元305,用於將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中;所述配音文字生成單元307,用於對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字。
可選的,所述時間記錄單元,包括:文本語意獲取子單元、時間資訊確定子單元以及配音文字生成子單元;所述文本語意獲取子單元,用於針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位;所述時間資訊確定子單元,用於根據已獲取的所述文本基本語意單位中記錄的起止時間資訊確定所述單句的起止時間資訊;所述配音文字生成子單元,用於將確定了起止時間資訊的所述單句進行整合,形成對應所述音頻資訊,且具有每一單句的起止時間資訊的配音文字。
可選的,所述時文本語意獲取子單元,具體用於針對 所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位時,若所述文本基本語意單位中記錄了至少兩組起止時間資訊,則按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組。
可選的,所述的自動生成配音文字的裝置,還包括:文本語意篩選子單元;所述文本語意篩選子單元,用於在所述按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組之後,根據預定的計算方法,對每一所述文本基本語意單位組中,各個文本基本語意單位的所有起止時間資訊進行篩選,確定組成所述單句的文本基本語意單位組。
可選的,所述時間集組篩選子單元,包括:誤差計算子單元;所述誤差計算子單元,用於計算各個所述文本基本語意單位組內,每一文本基本語意單位中的起始時間與所述文本基本語意單位的上一個文本基本語意單位的終止時間之間的時間間距,獲取各個所述文本基本語意單位組中所述起始時間與所述終止時間的時間間距的和,將所述時間間距的和作為所述文本基本語意單位組的誤差值。
可選的,所述時間集組篩選子單元,還包括:過濾子單元;所述過濾子單元,用於對各個所述文本基本語意單位組進行過濾,保留誤差值低於預設的閾值的文本基本語意單位組。
可選的,所述時間集組篩選子單元,還包括:時間次數計算子單元;所述時間次數計算子單元,用於在所述保留誤差值低於預設的閾值的文本基本語意單位組的之後,計算保留的所述文本基本語意單位組內,每一文本基本語意單位中的起始時間大於所述文本基本語意單位的上一個文本基本語意單位的終止時間的次數,獲取該次數最大的文本基本語意單位組。
可選的,所述文本識別單元303,具體用於從所述文本資訊中,按照每句內的每個字的順序進行識別獲取所述文本資訊中的文本基本語意單位。
可選的,所述時間寫入單元305,具體用於在將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中時,若所述音頻基本語意單位的起止時間資訊為空值,則使與所述音頻基本語意單位相應的所述文本基本語意單位的取值為空值。
可選的,所述的自動生成配音文字的裝置,還包括:時間推算單元,用於在所述確定組成所述單句的文本基本語意單位組之後,按照預定的推算方式,對取值為空值的所述文本基本語意單位推算起止時間資訊
可選的,所述時間推算單元,包括:平均時間計算子單元,用於計算所述文本基本語意單位組中的文本基本語意單位的平均時間資訊;起始時間寫入子單元,用於用於將取值為空值的所述 文本基本語意單位,上一個文本基本語意單位中的終止時間,放入取值為空值的所述文本基本語意單位的起始時間中;終止時間寫入子單元,用於將所述終止時間加上所述平均時間資訊後,放入取值為空值的所述文本基本語意單位的終止時間中。
在上述的實施例中,提供了一種自動生成配音文字的方法以及一種自動生成配音文字的裝置,此外,本申請案還提供了一種電子設備;所述電子設備實施例如下:請參考圖4,其示出了根據本申請案的實施例提供的電子設備的示意圖。
所述電子設備,包括:顯示器401;處理器403;記憶體405;所述記憶體405,用於儲存配音文字生成程式,所述程式在被所述處理器讀取執行時,執行如下操作:對音頻資訊進行識別,獲取識別出的各個音頻基本語意單位的起止時間資訊;獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊,從而獲取文本基本語意單位;將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中;對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。
記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。
1、電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,電腦可讀媒體不包括非暫存電腦可讀媒體(transitory media),如調製的資料信號和載波。
2、本領域技術人員應明白,本申請案的實施例可提供為方法、系統或電腦程式產品。因此,本申請案可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本申請案可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電 腦程式產品的形式。
本申請案雖然以較佳實施例公開如上,但其並不是用來限定本申請案,任何本領域技術人員在不脫離本申請案的精神和範圍內,都可以做出可能的變動和修改,因此本申請案的保護範圍應當以本申請案申請專利範圍所界定的範圍為準。

Claims (23)

  1. 一種自動生成配音文字的方法,其特徵在於,包括:對音頻資訊進行識別,獲取識別出的各個音頻基本語意單位的起止時間資訊,其中,所述音頻基本語意單位為單個單字和/或單詞;獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊,從而獲取文本基本語意單位;將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中;對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字。
  2. 根據申請專利範圍第1項所述的自動生成配音文字的方法,其中,所述對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字,包括:針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位;根據已獲取的所述文本基本語意單位中記錄的起止時間資訊,確定所述單句的起止時間資訊;將確定了起止時間資訊的所述單句進行整合,形成對應所述音頻資訊,且具有每一單句的起止時間資訊的配音文字。
  3. 根據申請專利範圍第2項所述的自動生成配音文字的方法,其中,所述針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位時,若所述文本基本語意單位中記錄了至少兩組起止時間資訊,則按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組。
  4. 根據申請專利範圍第3項所述的自動生成配音文字的方法,其中,在所述按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組的步驟之後,包括:根據預定的計算方法,對每一所述文本基本語意單位組中,各個文本基本語意單位的所有起止時間資訊進行篩選,確定組成所述單句的文本基本語意單位組。
  5. 根據申請專利範圍第4項所述的自動生成配音文字的方法,其中,所述預定的計算方法,包括:計算各個所述文本基本語意單位組內,每一文本基本語意單位中的起始時間與所述文本基本語意單位的上一個文本基本語意單位的終止時間之間的時間間距,獲取各個所述文本基本語意單位組中所述起始時間與所述終止時間的時間間距的和,將所述時間間距的和作為所述文本基本語意單位組的誤差值。
  6. 根據申請專利範圍第5項所述的自動生成配音文字的方法,其中,所述對每一所述文本基本語意單位組中,各個文本基本語意單位的所有起止時間資訊進行篩選,確定組成所述單句的文本基本語意單位組,包括:對各個所述文本基本語意單位組進行過濾,保留誤差值低於預設的閾值的文本基本語意單位組。
  7. 根據申請專利範圍第6項所述的自動生成配音文字的方法,其中,在所述保留誤差值低於預設的閾值的文本基本語意單位組的步驟之後,包括:計算保留的所述文本基本語意單位組內,每一文本基本語意單位中的起始時間大於所述文本基本語意單位的上一個文本基本語意單位的終止時間的次數,獲取該次數最大的文本基本語意單位組。
  8. 根據申請專利範圍第1-7項之任意一項所述的自動生成配音文字的方法,其中,所述識別所述文本資訊獲取文本基本語意單位,包括:從所述文本資訊中,按照每句內的每個字的順序進行識別獲取所述文本資訊中的文本基本語意單位。
  9. 根據申請專利範圍第8項所述的自動生成配音文字的方法,其中,在將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中時,若所述 音頻基本語意單位的起止時間資訊為空值,則使與所述音頻基本語意單位相應的所述文本基本語意單位的取值為空值。
  10. 根據申請專利範圍第4-7項之任意一項所述的自動生成配音文字的方法,其中,所述識別所述文本資訊獲取文本基本語意單位,包括:從所述文本資訊中,按照每句內的每個字的順序進行識別獲取所述文本資訊中的文本基本語意單位;在將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中時,若所述音頻基本語意單位的起止時間資訊為空值,則使與所述音頻基本語意單位相應的所述文本基本語意單位的取值為空值;在所述確定組成所述單句的文本基本語意單位組的步驟之後,包括:按照預定的推算方式,對取值為空值的所述文本基本語意單位推算起止時間資訊。
  11. 根據申請專利範圍第10項所述的自動生成配音文字的方法,其中,所述預定的推算方式,包括:計算所述文本基本語意單位組中的文本基本語意單位的平均時間資訊;將取值為空值的所述文本基本語意單位,上一個文本基本語意單位中的終止時間,放入取值為空值的所述文本 基本語意單位的起始時間中;將所述終止時間加上所述平均時間資訊後,放入取值為空值的所述文本基本語意單位的終止時間中。
  12. 一種自動生成配音文字的裝置,其特徵在於,包括:音頻識別單元,用於對音頻資訊進行識別,獲取識別出的各個音頻基本語意單位的起止時間資訊,其中,所述音頻基本語意單位為單個單字和/或單詞;文本識別單元,用於獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊,從而獲取文本基本語意單位;時間寫入單元,用於將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中;配音文字生成單元,用於對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字。
  13. 根據申請專利範圍第12項所述的自動生成配音文字的裝置,其中,所述配音文字生成單元,包括:文本語意獲取子單元,用於針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位;時間資訊確定子單元,用於根據已獲取的所述文本基本語意單位中記錄的起止時間資訊確定所述單句的起止時間資訊; 配音文字生成子單元,用於將確定了起止時間資訊的所述單句進行整合,形成對應所述音頻資訊,且具有每一單句的起止時間資訊的配音文字。
  14. 根據申請專利範圍第13項所述的自動生成配音文字的裝置,其中,所述時文本語意獲取子單元,具體用於針對所述文本資訊中每一單句,獲取組成所述單句的文本基本語意單位時,若所述文本基本語意單位中記錄了至少兩組起止時間資訊,則按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組。
  15. 根據申請專利範圍第14項所述的自動生成配音文字的裝置,其中,還包括:文本語意篩選子單元,用於在所述按照起止時間資訊的組數,分別形成組成所述單句的文本基本語意單位組之後,根據預定的計算方法,對每一所述文本基本語意單位組中,各個文本基本語意單位的所有起止時間資訊進行篩選,確定組成所述單句的文本基本語意單位組。
  16. 根據申請專利範圍第15項所述的自動生成配音文字的裝置,其中,所述文本語意篩選子單元,包括:誤差計算子單元,用於計算各個所述文本基本語意單位組內,每一文本基本語意單位中的起始時間與所述文本基本語意單位的上一個文本基本語意單位的終止時間之間 的時間間距,獲取各個所述文本基本語意單位組中所述起始時間與所述終止時間的時間間距的和,將所述時間間距的和作為所述文本基本語意單位組的誤差值。
  17. 根據申請專利範圍第15項所述的自動生成配音文字的裝置,其中,所述文本語意篩選子單元,還包括:過濾子單元,用於對各個所述文本基本語意單位組進行過濾,保留誤差值低於預設的閾值的文本基本語意單位組。
  18. 根據申請專利範圍第17項所述的自動生成配音文字的裝置,其中,所述文本語意篩選子單元,還包括:時間次數計算子單元,用於在所述保留誤差值低於預設的閾值的文本基本語意單位組的之後,計算保留的所述文本基本語意單位組內,每一文本基本語意單位中的起始時間大於所述文本基本語意單位的上一個文本基本語意單位的終止時間的次數,獲取該次數最大的文本基本語意單位組。
  19. 根據申請專利範圍第12-18項之任意一項所述的自動生成配音文字的裝置,其中,所述文本識別單元,具體用於從所述文本資訊中,按照每句內的每個字的順序進行識別獲取所述文本資訊中的文本基本語意單位。
  20. 根據申請專利範圍第19項所述的自動生成配音文字的裝置,其中,所述時間寫入單元,具體用於在將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中時,若所述音頻基本語意單位的起止時間資訊為空值,則使與所述音頻基本語意單位相應的所述文本基本語意單位的取值為空值。
  21. 根據申請專利範圍第15-18項之任意一項所述的自動生成配音文字的裝置,其中,還包括:所述文本識別單元,具體用於從所述文本資訊中,按照每句內的每個字的順序進行識別獲取所述文本資訊中的文本基本語意單位;所述時間寫入單元,具體用於在將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中時,若所述音頻基本語意單位的起止時間資訊為空值,則使與所述音頻基本語意單位相應的所述文本基本語意單位的取值為空值時間推算單元,用於在所述確定組成所述單句的文本基本語意單位組之後,按照預定的推算方式,對取值為空值的所述文本基本語意單位推算起止時間資訊。
  22. 根據申請專利範圍第21項所述的自動生成配音文字的裝置,其中,所述時間推算單元,包括:平均時間計算子單元,用於計算所述文本基本語意單位組中的文本基本語意單位的平均時間資訊; 起始時間寫入子單元,用於將取值為空值的所述文本基本語意單位,上一個文本基本語意單位中的終止時間,放入取值為空值的所述文本基本語意單位的起始時間中;終止時間寫入子單元,用於將所述終止時間加上所述平均時間資訊後,放入取值為空值的所述文本基本語意單位的終止時間中。
  23. 一種電子設備,其特徵在於,所述電子設備包括:顯示器;處理器;記憶體,用於儲存配音文字生成程式,所述程式在被所述處理器讀取執行時,執行如下操作:對音頻資訊進行識別,獲取識別出的各個音頻基本語意單位的起止時間資訊,其中,所述音頻基本語意單位為單個單字和/或單詞;獲取與所述音頻資訊對應的文本資訊,並識別所述文本資訊,從而獲取文本基本語意單位;將各個所述音頻基本語意單位的起止時間資訊,記錄到相應的所述文本基本語意單位中;對記錄了所述起止時間資訊的所述文本基本語意單位進行處理,生成對應所述音頻資訊的配音文字。
TW106126945A 2016-12-22 2017-08-09 自動生成配音文字的方法、裝置以及電子設備 TWI749045B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201611196447.6A CN108228658B (zh) 2016-12-22 2016-12-22 一种自动生成配音文字的方法、装置以及电子设备
CN201611196447.6 2016-12-22
??201611196447.6 2016-12-22

Publications (2)

Publication Number Publication Date
TW201832222A TW201832222A (zh) 2018-09-01
TWI749045B true TWI749045B (zh) 2021-12-11

Family

ID=62624697

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106126945A TWI749045B (zh) 2016-12-22 2017-08-09 自動生成配音文字的方法、裝置以及電子設備

Country Status (3)

Country Link
CN (1) CN108228658B (zh)
TW (1) TWI749045B (zh)
WO (1) WO2018113535A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110858492A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 音频剪辑方法、装置、设备和系统及数据处理方法
CN110728116B (zh) * 2019-10-23 2023-12-26 深圳点猫科技有限公司 一种视频文案配音稿的生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573730A (zh) * 2003-05-26 2005-02-02 日产自动车株式会社 车用信息提供方法和车用信息提供设备
US20150066505A1 (en) * 2012-03-30 2015-03-05 Jpal Limited Transcription of Speech
CN104599693A (zh) * 2015-01-29 2015-05-06 语联网(武汉)信息技术有限公司 台词同步字幕的制作方法
CN204559707U (zh) * 2015-04-23 2015-08-12 南京信息工程大学 具有语音识别功能的提词装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
CN100501738C (zh) * 2006-10-24 2009-06-17 北京搜狗科技发展有限公司 一种针对可播放媒体文件的搜索方法、系统及装置
CN101616264B (zh) * 2008-06-27 2011-03-30 中国科学院自动化研究所 新闻视频编目方法及系统
CN101615417B (zh) * 2009-07-24 2011-01-26 北京海尔集成电路设计有限公司 一种精确到字的中文同步显示歌词方法
CN105788589B (zh) * 2016-05-04 2021-07-06 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573730A (zh) * 2003-05-26 2005-02-02 日产自动车株式会社 车用信息提供方法和车用信息提供设备
US20150066505A1 (en) * 2012-03-30 2015-03-05 Jpal Limited Transcription of Speech
CN104599693A (zh) * 2015-01-29 2015-05-06 语联网(武汉)信息技术有限公司 台词同步字幕的制作方法
CN204559707U (zh) * 2015-04-23 2015-08-12 南京信息工程大学 具有语音识别功能的提词装置

Also Published As

Publication number Publication date
WO2018113535A1 (zh) 2018-06-28
CN108228658B (zh) 2022-06-03
TW201832222A (zh) 2018-09-01
CN108228658A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
US10776422B2 (en) Dual sound source audio data processing method and apparatus
CN107766482B (zh) 信息推送及发送方法、装置、电子设备、存储介质
US10229669B2 (en) Apparatus, process, and program for combining speech and audio data
TW202008349A (zh) 語音標註方法、裝置及設備
CN101038739B (zh) 用于附加元数据的方法和设备
CN106804005B (zh) 一种视频的制作方法及移动终端
WO2017157142A1 (zh) 歌曲旋律信息处理方法、服务器和存储介质
US20080077869A1 (en) Conference supporting apparatus, method, and computer program product
TW200821862A (en) RSS content administration for rendering RSS content on a digital audio player
WO2017076304A1 (zh) 音频数据处理方法和装置
TW200849030A (en) System and method of automated video editing
TWI749045B (zh) 自動生成配音文字的方法、裝置以及電子設備
CN109213977A (zh) 庭审笔录的生成系统
CN111046226B (zh) 一种音乐的调音方法及装置
Lee et al. Segmentation-Based Lyrics-Audio Alignment using Dynamic Programming.
KR20150088564A (ko) 음성인식에 기반한 애니메이션 재생이 가능한 전자책 단말기 및 그 방법
JP4697432B2 (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
CN110134817A (zh) 一种录音文件的存储方法、搜索方法及相关装置
CN115329125A (zh) 一种歌曲串烧拼接方法和装置
CN109165283A (zh) 资源推荐方法、装置、设备及存储介质
CN114999464A (zh) 语音数据处理方法及装置
EP1826686B1 (en) Voice-controlled multimedia retrieval system
Porwal et al. Video Transcription and Summarization using NLP
JP2007272815A (ja) コンテンツサーバ装置、ジャンル設定方法、およびコンピュータプログラム
WO2009130837A1 (ja) コンテンツ再生装置及びプログラム