TWI721766B

TWI721766B - 影音同步判斷方法、系統與電腦儲存媒體

Info

Publication number: TWI721766B
Application number: TW109102907A
Authority: TW
Inventors: 梁詠斌; 賴佑忠
Original assignee: 端點科技股份有限公司
Priority date: 2020-01-30
Filing date: 2020-01-30
Publication date: 2021-03-11
Also published as: TW202130192A

Abstract

一種影音同步判斷方法、系統與電腦儲存媒體，通過將影音資料分解成包括多個圖像幀的視頻數據以及包括多個音頻幀的音頻數據，並識別時間戳相同的音頻幀和圖像幀中是否分別包含預設語音特徵和預設圖像特徵，據以判斷該時間戳為相同的音頻幀和圖像幀是否同步，藉以達成快速判斷影音是否同步的技術效果。

Description

影音同步判斷方法、系統與電腦儲存媒體

本申請關於數據處理技術領域，更詳而言之，係指一種影音同步判斷方法、系統與電腦儲存媒體。

電視的解碼需要與訊號編碼保持嚴格的鎖定，否則就容易導致解碼器丟幀，若發生丟幀異常後，就會根據緩衝區的情況來進行解碼，然後，由於主芯片針對片源文件中的音頻數據的處理速度快於針對視頻數據的處理速度，且所需要的緩衝區大小也不一樣，因此，容易造成音頻數據和視頻數據的延時不一致的異常，並導致了視頻資料在播放中發生影音不同步的現象，影響了觀看者的觀看體驗。

有鑑於此，如何快速判斷視頻資料中是否存在影音不同步的異常，即為本申請待解決的技術課題。

鑒於上述先前技術之缺點，本發明係提供一種影音同步判斷方法、系統與電腦儲存媒體，可快速判斷影音數據是否同步。

根據本發明的第一方面，提供一種影音同步判斷方法，其包括：獲取並分解一影音資料，以生成一視頻數據與一音頻數據，其中，該視頻數據包括多個圖像幀，該音頻數據包括多個音頻幀，且各該圖像幀與各該音頻幀分別具有一時間戳；基於預設語音識別規則分析該音頻數據中是否包含預設語音特徵，並針對包含該預設語音特徵的各該音頻幀添加聲音識別標記；基於預設圖像識別規則分析各該圖像幀中是否包含預設圖像特徵，並針對包含該預設圖像特徵的各該圖像幀添加圖像識別標記；以及分析該時間戳為相同的該音頻幀與該圖像幀中是否分別具有該聲音識別標記與該圖像識別標記，據以判斷該時間戳為相同的該音頻幀與該圖像幀是否同步。

根據本發明的第二方面，提供一種影音同步判斷系統，其包括：一影音分解模組，係獲取並分解一影音資料，以生成一視頻數據與一音頻數據，其中，該視頻數據包括多個圖像幀，該音頻數據包括多個音頻幀，且各該圖像幀與各該音頻幀分別具有一時間戳；一語音識別模組，係基於預設語音識別規則分析該音頻數據中是否包含預設語音特徵，並針對包含該預設語音特徵的各該音頻幀添加聲音識別標記；一圖像識別模組，係基於預設圖像識別規則分析各該圖像幀中是否包含預設圖像特徵，並針對包含該預設圖像特徵的各該圖像幀添加圖像識別標記；以及一同步判斷模組，係分析該時間戳為相同的該音頻幀與該圖像幀中是否分別具有該聲音識別標記與該圖像識別標記，據以判斷該時間戳為相同的該音頻幀與該圖像幀是否同步。

根據本發明的第三方面，提供一種電腦儲存媒體，其儲存有電腦程式，其中，當該電腦程式被執行時，完成如第一方面所述的影音同步判斷方法的各該步驟。

綜上所述，本發明係透過將影音資料分解為包含多個視頻幀的視頻數據及包含多個音頻幀的音頻數據，並基於預設語音識別規則針對包含有預設語音特徵的各音頻幀添加聲音識別標記，以及基於預設圖像識別規則針對包含有預設圖像特徵的各視頻幀添加圖像識別標記，以透過分析時間戳相同的音頻幀與圖像幀中是否分別具有該聲音識別標記與該圖像識別標記，據以判斷該時間戳為相同的該音頻幀與該圖像幀是否同步。據此，本發明可以達到快速且準確地實現影音同步判斷的技術效果。

以下內容將搭配圖式，藉由特定的具體實施例說明本申請之技術內容，熟悉此技術之人士可由本說明書所揭示之內容輕易地了解本申請之其他優點與功效。本申請亦可藉由其他不同的具體實施例加以施行或應用。本說明書中的各項細節亦可基於不同觀點與應用，在不背離本申請之精神下，進行各種修飾與變更。尤其是，於圖式中各個元件的比例關係及相對位置僅具示範性用途，並非代表本申請實施的實際狀況。

如圖1所示，其為顯示本發明的影音同步判斷方法的一實施例的步驟流程圖。

如圖所示，本發明的影音同步判斷方法主要包括以下步驟：

步驟S1，獲取並分解一影音資料，以生成一視頻數據與一音頻數據，其中，所生成的視頻數據中包括多個圖像幀，所生成的音頻數據包括有多個音頻幀，且各圖像幀與各音頻幀分別具有一時間戳。

於本實施例中，可利用任何現有影音分解技術分解影音資料，本發明對此不作限制。

步驟S2，基於預設語音識別規則分析所生成的音頻數據中是否有包含預設語音特徵，並針對包含有預設語音特徵的各個音頻幀添加聲音識別標記。

於本發明中，該預設語音識別規則可由人工手動設置，亦可由系統基於預設條件而自動觸發生成，此外，也可在系統自動觸發生成後後人工手動進行修改。

於具體實施例中，該步驟S2具體為：基於預設語音識別規則分析音頻數據中是否包含有人物聲音特徵，並針對包含人物聲音特徵的各該音頻幀添加聲音識別標記。

可選的，上述語音識別操作可基於特定的語音識別模型予以完成，所述語音識別模型例如為基於預設語音識別規則所構建並訓練的人工智慧模型（例如卷積神經網路模型結構，以下簡稱CNN模型），所述預設語音識別規則可根據用戶實際需求進行任意設定，本發明對此不作限定。

可選的，該聲音識別標記的添加操作可由系統自動觸發生成，此外，用戶也可針對系統自動觸發生成的聲音識別標記進行各種操作，例如，添加、刪除、修改等。

步驟S3，基於預設圖像識別規則分析各圖像幀中是否包含有預設圖像特徵，並針對包含有預設圖像特徵的各個圖像幀添加圖像識別標記。

於本發明中，該預設圖像識別規則可由人工手動設置，亦可由系統基於預設條件而自動觸發生成，此外，也可在系統自動觸發生成後人工手動進行修改。

於具體實施例中，該步驟S3具體為：基於預設圖像識別規則分析各圖像幀中是否包含有張嘴特徵，並針對包含張嘴特徵的各該圖像幀添加該圖像識別標記。

可選的，該圖像識別標記的添加操作可由系統自動觸發生成，此外，用戶也可針對系統自動觸發生成的聲音識別標記進行各種操作，例如，添加、刪除、修改等。

需說明的是，針對上述步驟S2與步驟S3的處理操作可同時進行，亦可根據實際需求按照任意順序先後執行，本發明對此不作限制。

步驟S4，分析時間戳為相同的音頻幀與圖像幀中是否分別具有聲音識別標記與圖像識別標記，據以判斷時間戳為相同的音頻幀與該圖像幀是否同步。

於具體實施例中，當分析時間戳為相同的音頻幀與圖像幀中，音頻幀係具有聲音識別標記且圖像幀係具有圖像識別標記時，輸出時間戳為相同的該音頻幀與該圖像幀為同步的判斷結果。並當分析時間戳為相同的音頻幀與該圖像幀中，音頻幀具有聲音識別標記且圖像幀不具有該圖像識別標記時，或者音頻幀不具有聲音識別標記且圖像幀具有該圖像識別標記時，則輸出時間戳為相同的音頻幀與圖像幀為不同步的判斷結果。

請繼續參閱圖2，於本發明的另一實施例中，上述步驟S2具體包括以下步驟：

步驟S21，生成（獲取）包含多個音頻幀的音頻數據。

步驟S22，進行前處理操作。

具體而言，可通過該前處理操作將音頻數據分成多個小段，以例如25ms（0.025sec）為單位作為語音識別模型的輸入。

步驟S23，進行去除雜音操作，以去除音頻數據中的雜音。

步驟S24，進行MFCC操作。

具體而言，該MFCC操作可利用librosa套件將聲音波形圖轉換成圖片，以便於後續語音識別模型的訓練及預測操作。

步驟S25，進行特徵標準化操作，其目的是提高語音識別模型的精準度以及模型訓練的成效。

步驟S26，進行predict操作，以透過CNN模型來識別步驟S24所生成的圖片是否為人聲。

步驟S27，根據步驟S26的處理結果，判斷是否包含人物聲音特徵，若判斷結果為是，則進行步驟S28，若判斷結果為否，則進行步驟S29。

步驟S28，針對包含有人物聲音特徵的各音頻幀添加聲音識別標記。

可選的，對於未包含有人物聲音特徵的各音頻幀可不做任何處理，亦可根據用戶設定而添加其他標記信息予以標識。

步驟S29，生成列表清單，以記錄音頻數據中各音頻幀的聲音識別標記的添加處理結果。

於本實施例中，在列表清單中的每項資料的時間例如為index×0.025sec。

請參閱圖3，於本發明的另一實施例中，上述步驟S3具體包括以下步驟：

步驟S31，生成（獲取）包含多個圖像幀的視頻數據。

步驟S32，獲取一個圖像幀。於本實施例中，可根據各圖像幀對應的時間戳，而依序獲得一圖像幀。

步驟S33，識別當前所獲取的圖像幀中是否包含人物的人臉，若識別結果為包含人臉，則進行步驟S34，否則進行步驟S38。

具體而言，可基於預設圖像識別規則識別出當前所獲取的圖像幀中是否包含有人物的人臉特徵，於本實施例中，上述人臉特徵的識別處理可基於人工智慧模型來完成，也可通過其他現有技術手段來完成，本發明對此不作限定。

步驟S34，分析所識別出的人臉於當前圖像幀中的顯示比是否滿足預設顯示比，當分析結果為滿足預設顯示比時，進行步驟S35，否則進行步驟S38。

於本實施例中，所述預設顯示比例如為0.7%，亦即，判斷人臉範圍面積的畫面佔比是否達到0.7%，此步驟係用於減少後續誤判的異常。

可選的，上述分析人臉於當前圖像幀中的顯示比是否滿足預設顯示比的處理可基於dlib套件所框出的人臉範圍進行計算。

步驟S35，基於預設唇動特徵識別規則判斷圖像幀中的人物的嘴巴狀態。

可選的，本步驟可基於人工智慧模型來執行，請容後在圖4中予以詳述。

步驟S36，基於步驟S35的判斷結果，分析當前圖像幀中的人物是否處於張嘴狀態，若處於張嘴狀態則進行步驟S37，否則進行步驟S38。

步驟S37，針對當前的圖像幀添加圖像識別標記。

步驟S38，判斷是否還有其他圖像幀，若為是，則返回進行步驟S32以獲取下一個圖像幀並重複進行上述的圖像識別判斷操作，若為否，則進行圖1的步驟S4。

請繼續參閱圖4，於本發明的另一實施例中，上述步驟S35中基於預設唇動特徵識別規則判斷圖像幀中的人物的嘴巴狀態的處理還包括以下步驟：

步驟S351，基於預設嘴部標記規則，於圖像幀中的人臉的嘴部的多個預設位置生成一個嘴角標記對組以及至少兩個唇部標記對組。

具體而言，所生成的嘴角標記對組包含有位於該嘴部的兩側嘴角的兩個嘴角定位標記，而唇部標記對組包含分設於嘴部的上下唇並形成位置映射關係的兩個唇部定位標記。

於一實施例中，上述嘴角標記對組以及唇部標記對組的標記位置可標記於人臉嘴部的內唇位置，具體而言，請參閱圖5，於一實施例中，嘴角標記對組例如為在13和17的兩個內唇嘴角位置生成的標記M0和標記M7；而兩組唇部標記對組包括在14和20的上下唇位置生成的標記M1和M7（第一唇部標記對組），以及在16和18的上下唇位置生成的標記M3和M5（第二唇部標記對組）。

於另一實施例中，上述嘴角標記對組以及唇部標記對組的標記位置也可標記於人臉嘴部的外唇位置，具體而言，於本實施例中，嘴角標記對組例如為在1和7的兩個外唇嘴角位置生成的標記M0和標記M7；同樣的，兩組唇部標記對組例如為在3和11的上下唇位置生成的標記M1和M7（第一唇部標記對組），以及在5和9的上下唇位置生成的標記M3和M5（第二唇部標記對組）。

於本實施例中，該步驟S351係透過人工智慧模型來執行，其中，該人工智慧模型係基於該預設嘴部標記規則所構建並進行訓練。

步驟S352，基於所生成的一個嘴角標記對組以及至少兩個唇部標記對組，利用預設運算公式進行計算，以判斷當前圖像幀中的人物是否處於張嘴狀態。

於本實施例中，上述預設運算公式為：

其中，

為嘴角標記對組中的兩個嘴角定位標記之間的距離值，例如，上述M0和M4之間的距離值，

為唇部標記對組中的兩個唇部定位標記之間的距離值，例如：上述M1和M7之間的距離值以及M3和M5之間的距離值。

通常情況下，上述MAR公式的計算結果介於0至1之間。

具體而言，於一實施例中，當上述嘴角標記對組以及唇部標記對組的標記位置均位於人臉嘴部的內唇位置時，例如：（13，17）、（14，20）、（16，18）的內唇組合，MAR的門檻值可設為0.15，也就是說，當MAR的計算結果為大於等於0.15時，則可判斷為人物處於張嘴狀態。

於另一實施例中，當上述嘴角標記對組以及唇部標記對組的標記位置均位於人臉嘴部的外唇位置時，例如：（1，7）、（3，11）、（5，9）的外唇組合，MAR的門檻值則設置為0.45，MAR的門檻值則設置為0.45，也就是說，當MAR的計算結果為大於等於0.45時，則可判斷為人物處於張嘴狀態（經測試證明，採用外唇組合的標記方式所得到的判斷結果更為準確）。

可選的，於一實施例中，上述步驟S351還包括生成一中間唇部標記子對組，其中，該中間唇部標記子對組包括分設於該嘴部的上下唇中央位置的兩個中間唇部定位標記，例如，在15和19的兩個中間唇部位置生成的標記M2和標記M6。

此外，基於上述所生成的中間唇部標記子對組，於步驟S352中還包括進一步分析中間唇部標記子對組中的兩個中間唇部定位標記之間的距離值是否大於預設距離值，藉由此步驟可令張嘴狀態的判斷結果更為準確。於本實施例中，係判斷上述M2和M6之間的距離值是否大於10。

請參閱圖6，於本發明的另一實施例中，上述影音同步判斷方法亦可適用於多人的影音同步判斷。

具體而言，於本實施例中，該聲音識別標記復包括第一聲音識別子標記和第二聲音識別子標記，該圖像識別標記復包括第二圖像識別子標記和第二圖像識別子標記，且其中，該方法復包括以下步驟：

步驟S61，基於預設語音識別規則分析音頻數據中的語音特徵，並針對包含有第一人物的聲音特徵的各音頻幀添加第一聲音識別子標記，以及針對包含有第二人物的聲音特徵的各音頻幀添加該第二聲音識別子標記。

步驟S62，基於預設圖像識別規則分析各圖像幀中的張嘴特徵，並針對包含第一人物的張嘴特徵的各圖像幀添加該第一圖像識別子標記，以及針對包含第二人物的張嘴特徵的各圖像幀添加第二圖像識別子標記。

步驟S63，當分析時間戳為相同的音頻幀與該圖像幀中，音頻幀係具有第一聲音識別子標記且圖像幀同時亦具有第一圖像識別子標記時，及/或當分析時間戳為相同的音頻幀與該圖像幀中，音頻幀係具有第二聲音識別子標記且圖像幀係同時具有該第二圖像識別子標記時，輸出時間戳為相同的音頻幀與該圖像幀為同步的判斷結果。

如圖7所示，對應上述影音同步判斷方法，本發明還提供一種影音同步判斷系統70，其主要包括影音分解模組710、語音識別模組720、圖像識別模組730、和同步判斷模組740。

影音分解模組710係獲取並分解一影音資料，以生成一視頻數據與一音頻數據，其中，該視頻數據包括多個圖像幀，該音頻數據包括多個音頻幀，且各該圖像幀與各該音頻幀分別具有一時間戳。

語音識別模組720係基於預設語音識別規則分析該音頻數據中是否包含預設語音特徵，並針對包含該預設語音特徵的各該音頻幀添加聲音識別標記。

可選的，上述語音識別模組720係基於該預設語音識別規則分析該音頻數據中是否包含有人物聲音特徵，並針對包含該人物聲音特徵的各該音頻幀添加該聲音識別標記

圖像識別模組730係基於預設圖像識別規則分析各該圖像幀中是否包含預設圖像特徵，並針對包含該預設圖像特徵的各該圖像幀添加圖像識別標記。

可選的，上述圖像識別模組730係基於該預設圖像識別規則分析各該圖像幀中是否包含有張嘴特徵，並針對包含該張嘴特徵的各該圖像幀添加該圖像識別標記。

請參閱圖8，於本發明的實施例中，圖像識別模組730係包括人臉識別單元731和唇動分析單元732。

人臉識別單元731係用以識別該圖像幀中是否包含有人物的人臉，並判斷該人臉於該圖像幀中的顯示比例是否滿足預設顯示比。

於本實施例中，上述人臉特徵的識別處理可基於人工智慧模型來完成，也可通過其他現有技術手段來完成，本發明對此不作限定。

此外，所述預設顯示比例如為0.7%，亦即，人臉識別單元731用於判斷人臉範圍面積的畫面佔比是否達到0.7%，此步驟係用於減少後續誤判的異常。

唇動分析單元732係用以基於預設唇動特徵識別規則判斷該圖像幀中的該人物是否處於張嘴狀態。

具體而言，唇動分析單元732復包括標記子單元7321和分析子單元7322。

標記子單元7321係基於預設嘴部標記規則，於該圖像幀中的該人物的嘴部的多個預設位置處生成一個嘴角標記對組以及至少兩個唇部標記對組，其中，該嘴角標記對組包含位於該嘴部的兩側嘴角的兩個嘴角定位標記，該唇部標記對組包含分設於該嘴部的上下唇並形成位置映射關係的兩個唇部定位標記。再者，標記子單元7321係透過人工智慧模型予以執行，其中，該人工智慧模型係基於該預設嘴部標記規則所構建並進行訓練。

請參閱圖5，於本實施例中，嘴角標記對組例如為在13和17的兩個嘴角位置生成的標記M0和標記M7；而兩組唇部標記對組包括在14和20的上下唇位置生成的標記M1和M7（第一唇部標記對組），以及在16和18的上下唇位置生成的標記M3和M5（第二唇部標記對組）。

分析子單元7322係基於該一個嘴角標記對組以及該至少兩個唇部標記對組，並利用預設運算公式進行計算，以判斷該圖像幀中的該人物是否處於張嘴狀態。

於本實施例中，上述預設運算公式為：

其中，

通常情況下，上述MAR公式的計算結果介於0至1之間。

具體而言，當上述嘴角標記對組以及唇部標記對組的標記位置均位於人臉嘴部的內唇位置時，例如：（13，17）、（14，20）、（16，18）的內唇組合，MAR的門檻值可設為0.15，也就是說，當MAR的計算結果為大於等於0.15時，則可判斷為人物處於張嘴狀態。

於另一實施例中，當上述嘴角標記對組以及唇部標記對組的標記位置均位於人臉嘴部的外唇位置時，例如：（1，7）、（3，11）、（5，9）的外唇組合，MAR的門檻值則設置為0.45，也就是說，當MAR的計算結果為大於等於0.45時，則可判斷為人物處於張嘴狀態（經測試證明，採用此種方式所得到的判斷結果更為準確）。

可選的，於一實施例中，標記子單元7321還包括生成一中間唇部標記子對組，其中，該中間唇部標記子對組包括分設於該嘴部的上下唇中央位置的兩個中間唇部定位標記，例如，在15和19的兩個中間唇部位置生成的標記M2和標記M6。

對應於上述所生成的中間唇部標記子對組，分析子單元7322還包括進一步分析中間唇部標記子對組中的兩個中間唇部定位標記之間的距離值是否大於預設距離值，藉由此步驟可令張嘴狀態的判斷結果更為準確。於本實施例中，係判斷上述M2和M6之間的距離值是否大於10。

同步判斷模組740係分析該時間戳為相同的該音頻幀與該圖像幀中是否分別具有該聲音識別標記與該圖像識別標記，據以判斷該時間戳為相同的該音頻幀與該圖像幀是否同步。

於本實施例中，同步判斷模組740當分析該時間戳為相同的該音頻幀與該圖像幀中，該音頻幀係具有該聲音識別標記且該圖像幀係具有該圖像識別標記時，輸出該時間戳為相同的該音頻幀與該圖像幀為同步的判斷結果；並當分析該時間戳為相同的該音頻幀與該圖像幀中，該音頻幀具有該聲音識別標記且該圖像幀不具有該圖像識別標記時，或者該音頻幀不具有該聲音識別標記且該圖像幀具有該圖像識別標記時，輸出該時間戳為相同的該音頻幀與該圖像幀為不同步的判斷結果。

於本發明的另一實施例中，影音同步判斷系統70還可適用於多人的影音同步判斷，具體而言，聲音識別標記復包括第一聲音識別子標記和第二聲音識別子標記，而圖像識別標記復包括第二圖像識別子標記和第二圖像識別子標記，其中，

語音識別模組720可基於該預設語音識別規則分析該音頻數據中的語音特徵，並針對包含有第一人物的聲音特徵的各該音頻幀添加該第一聲音識別子標記，以及針對包含有第二人物的聲音特徵的各該音頻幀添加該第二聲音識別子標記。

圖像識別模組730可基於該預設圖像識別規則分析各該圖像幀中的張嘴特徵，並針對包含該第一人物的張嘴特徵的各該圖像幀添加該第一圖像識別子標記，以及針對包含該第二人物的張嘴特徵的各該圖像幀添加該第二圖像識別子標記。

同步判斷模組740可用於當分析該時間戳為相同的該音頻幀與該圖像幀中，該音頻幀係具有該第一聲音識別子標記且該圖像幀係具有該第一圖像識別子標記時；及/或當分析該時間戳為相同的該音頻幀與該圖像幀中，該音頻幀係具有該第二聲音識別子標記且該圖像幀係具有該第二圖像識別子標記時，輸出該時間戳為相同的該音頻幀與該圖像幀為同步的判斷結果。

此外，本實施例的影音同步判斷系統還可用於實現上述影音同步判斷方法中的其他步驟，並具有相應的方法步驟實施例的有益效果，在此不再予以贅述。

再者，本發明還提供一種電腦儲存媒體，該電腦存儲媒體中儲存有電腦程式，其中，當該電腦程式被執行時，可完成上述影音同步判斷方法的各個步驟。

綜上所述，本發明的影音同步判斷技術通過分析影音資料對應的視頻數據以及音頻數據中是否包含特徵的語音特徵和圖像圖像，據以針對視頻數據中的各視頻幀以及音頻數據中的各音頻幀添加相應的標記予以標識，以供後續根據所添加的標識標記來判斷影音資料是否同步。藉此，可以達到快速且準確進行影音數據同步判斷的技術效果。

上述實施例僅例示性說明本申請之原理及功效，而非用於限制本申請。任何熟習此項技術之人士均可在不違背本申請之精神及範疇下，對上述實施例進行修飾與改變。因此，本申請之權利保護範圍，應如本請的申請專利範圍所列。

70:影音同步判斷系統 710:影音分解模組 720:語音識別模組 730:圖像識別模組 731:人臉識別單元 732:唇動分析單元 7321:標記子單元 7322:分析子單元 740:同步判斷模組 S1~S4:步驟 S21~S29:步驟 S31~S38:步驟 S351~S352:步驟 S61~S63:步驟

圖1係顯示本發明的影音同步判斷方法的一實施例的步驟流程圖；

圖2至及圖6為顯示本發明的影音同步判斷方法的其他實施例的步驟流程圖；

圖7為顯示本發明的影音同步判斷系統的一實施例的架構示意圖；以及

圖8為顯示本發明的影音同步判斷系統的另一實施例的架構示意圖。

S1~S4:步驟

Claims

一種影音同步判斷方法，其包括：獲取並分解一影音資料，以生成一視頻數據與一音頻數據，其中，該視頻數據包括多個圖像幀，該音頻數據包括多個音頻幀，且各該圖像幀與各該音頻幀分別具有一時間戳；基於預設語音識別規則分析該音頻數據中是否包含預設語音特徵，並針對包含該預設語音特徵的各該音頻幀添加聲音識別標記；基於預設圖像識別規則分析各該圖像幀中是否包含預設圖像特徵，並針對包含該預設圖像特徵的各該圖像幀添加圖像識別標記；以及分析該時間戳為相同的該音頻幀與該圖像幀中是否分別具有該聲音識別標記與該圖像識別標記，據以判斷該時間戳為相同的該音頻幀與該圖像幀是否同步。
如申請專利範圍第1項所述的影音同步判斷方法，其中，該基於預設語音識別規則分析該音頻數據中是否包含預設語音特徵，並針對包含該預設語音特徵的各該音頻幀添加聲音識別標記的步驟具體為：基於該預設語音識別規則分析該音頻數據中是否包含有人物聲音特徵，並針對包含該人物聲音特徵的各該音頻幀添加該聲音識別標記；該基於預設圖像識別規則分析各該圖像幀中是否包含預設圖像特徵，並針對包含該預設圖像特徵的各該圖像幀添加圖像識別標記的步驟具體為：基於該預設圖像識別規則分析各該圖像幀中是否包含有張嘴特徵，並針對包含該張嘴特徵的各該圖像幀添加該圖像識別標記。
如申請專利範圍第2項所述的影音同步判斷方法，其中，該基於該預設圖像識別規則分析各該圖像幀中是否包含有張嘴特徵的步驟進一步包括：識別該圖像幀中的人物的人臉，並分析該人臉於該圖像幀中的顯示比例是否滿足預設顯示比；以及當分析該人臉於該圖像幀中的顯示比例滿足該預設顯示比時，基於預設唇動特徵識別規則判斷該圖像幀中的該人物是否處於張嘴狀態。
如申請專利範圍第3項所述的影音同步判斷方法，其中，該基於預設唇動特徵識別規則判斷該圖像幀中的該人物是否處於張嘴狀態的步驟進一步包括：基於預設嘴部標記規則，於該圖像幀中的該人臉的嘴部的多個預設位置生成一個嘴角標記對組以及至少兩個唇部標記對組，其中，該嘴角標記對組包含位於該嘴部的兩側嘴角的兩個嘴角定位標記，該唇部標記對組包含分設於該嘴部的上下唇並形成位置映射關係的兩個唇部定位標記；以及基於該一個嘴角標記對組以及該至少兩個唇部標記對組，利用預設運算公式進行計算，以判斷該圖像幀中的該人物是否處於張嘴狀態，該預設運算公式表示為：
其中，
為嘴角標記對組中的兩個嘴角定位標記之間的距離值，
為唇部標記對組中的兩個唇部定位標記之間的距離值。
如申請專利範圍第4項所述的影音同步判斷方法，其中，該唇部標記對組還包括一中間唇部標記子對組，該中間唇部標記子對組包括分設於該嘴部的上下唇中央位置的兩個中間唇部定位標記，且該方法更包括：分析該中間唇部標記子對組中的該兩個中間唇部定位標記之間的距離值是否大於預設距離值。
如申請專利範圍第4項所述的影音同步判斷方法，其中，該基於預設嘴部標記規則，於該圖像幀中的該人物的嘴部的多個預設位置處生成一個嘴角標記對組以及至少兩個唇部標記對組的步驟係透過人工智慧模型執行，該人工智慧模型係基於該預設嘴部標記規則所構建。
如申請專利範圍第2項所述的影音同步判斷方法，其中，該方法更包括：當分析該時間戳為相同的該音頻幀與該圖像幀中，該音頻幀係具有該聲音識別標記且該圖像幀係具有該圖像識別標記時，輸出該時間戳為相同的該音頻幀與該圖像幀為同步的判斷結果；以及當分析該時間戳為相同的該音頻幀與該圖像幀中，該音頻幀具有該聲音識別標記且該圖像幀不具有該圖像識別標記時，或者該音頻幀不具有該聲音識別標記且該圖像幀具有該圖像識別標記時，輸出該時間戳為相同的該音頻幀與該圖像幀為不同步的判斷結果。
如申請專利範圍第2項所述的影音同步判斷方法，其中，該聲音識別標記復包括一第一聲音識別子標記和一第二聲音識別子標記，該圖像識別標記復包括一第一圖像識別子標記和一第二圖像識別子標記，且其中，該方法復包括：基於該預設語音識別規則分析該音頻數據中的語音特徵，並針對包含有第一人物的聲音特徵的各該音頻幀添加該第一聲音識別子標記，以及針對包含有第二人物的聲音特徵的各該音頻幀添加該第二聲音識別子標記；基於該預設圖像識別規則分析各該圖像幀中的張嘴特徵，並針對包含有第一人物的張嘴特徵的各該圖像幀添加該第一圖像識別子標記，以及針對包含有第二人物的張嘴特徵的各該圖像幀添加該第二圖像識別子標記；以及當分析該時間戳為相同的該音頻幀與該圖像幀中，該音頻幀係具有該第一聲音識別子標記且該圖像幀係具有該第一圖像識別子標記時；及/或當分析該時間戳為相同的該音頻幀與該圖像幀中，該音頻幀係具有該第二聲音識別子標記且該圖像幀係具有該第二圖像識別子標記時，輸出該時間戳為相同的該音頻幀與該圖像幀為同步的判斷結果。
一種影音同步判斷系統，其包括：一影音分解模組，係獲取並分解一影音資料，以生成一視頻數據與一音頻數據，其中，該視頻數據包括多個圖像幀，該音頻數據包括多個音頻幀，且各該圖像幀與各該音頻幀分別具有一時間戳；一語音識別模組，係基於預設語音識別規則分析該音頻數據中是否包含預設語音特徵，並針對包含該預設語音特徵的各該音頻幀添加聲音識別標記；圖像識別模組，係基於預設圖像識別規則分析各該圖像幀中是否包含預設圖像特徵，並針對包含該預設圖像特徵的各該圖像幀添加圖像識別標記；以及一同步判斷模組，係分析該時間戳為相同的該音頻幀與該圖像幀中是否分別具有該聲音識別標記與該圖像識別標記，據以判斷該時間戳為相同的該音頻幀與該圖像幀是否同步。
如申請專利範圍第9項所述的影音同步判斷系統，其中，該語音識別模組係基於該預設語音識別規則分析該音頻數據中是否包含有人物聲音特徵，並針對包含該人物聲音特徵的各該音頻幀添加該聲音識別標記；該圖像識別模組係基於該預設圖像識別規則分析各該圖像幀中是否包含有張嘴特徵，並針對包含該張嘴特徵的各該圖像幀添加該圖像識別標記。
如申請專利範圍第10項所述的影音同步判斷系統，其中，該圖像識別模組復包括：一人臉識別單元，係用以識別該圖像幀中是否包含有人物的人臉，並判斷該人臉於該圖像幀中的顯示比例是否滿足預設顯示比；以及一唇動分析單元，係用以基於預設唇動特徵識別規則判斷該圖像幀中的該人物是否處於張嘴狀態。
如申請專利範圍第11項所述的影音同步判斷系統，其中，該唇動分析單元復包括：一標記子單元，係基於預設嘴部標記規則，於該圖像幀中的該人物的嘴部的多個預設位置處生成一個嘴角標記對組以及至少兩個唇部標記對組，其中，該嘴角標記對組包含位於該嘴部的兩側嘴角的兩個嘴角定位標記，該唇部標記對組包含分設於該嘴部的上下唇並形成位置映射關係的兩個唇部定位標記；以及一分析子單元，係基於該一個嘴角標記對組以及該至少兩個唇部標記對組，並利用預設運算公式進行計算，以判斷該圖像幀中的該人物是否處於張嘴狀態，其中，該預設運算公式表示為：
其中，
為嘴角標記對組中的兩個嘴角定位標記之間的距離值，
為唇部標記對組中的兩個唇部定位標記之間的距離值。
如申請專利範圍第12項所述的影音同步判斷系統，其中，該唇部標記對組還包括中間唇部標記子對組，該中間唇部標記子對組包括分設於該嘴部的上下唇中央位置的兩個中間唇部定位標記，且其中，該分析子單元復包括分析該中間唇部標記子對組中的該兩個中間唇部定位標記之間的距離值是否大於預設距離值。
如申請專利範圍第10項所述的影音同步判斷系統，其中，該同步判斷模組還包括：當分析該時間戳為相同的該音頻幀與該圖像幀中，該音頻幀係具有該聲音識別標記且該圖像幀係具有該圖像識別標記時，輸出該時間戳為相同的該音頻幀與該圖像幀為同步的判斷結果；以及當分析該時間戳為相同的該音頻幀與該圖像幀中，該音頻幀具有該聲音識別標記且該圖像幀不具有該圖像識別標記時，或者該音頻幀不具有該聲音識別標記且該圖像幀具有該圖像識別標記時，輸出該時間戳為相同的該音頻幀與該圖像幀為不同步的判斷結果。
如申請專利範圍第10項所述的影音同步判斷系統，其中，該聲音識別標記復包括第一聲音識別子標記和第二聲音識別子標記，該圖像識別標記復包括第二圖像識別子標記和第二圖像識別子標記；且其中，該語音識別模組復包括：基於該預設語音識別規則分析該音頻數據中的語音特徵，並針對包含有第一人物的聲音特徵的各該音頻幀添加該第一聲音識別子標記，以及針對包含有第二人物的聲音特徵的各該音頻幀添加該第二聲音識別子標記；該圖像識別模組復包括：基於該預設圖像識別規則分析各該圖像幀中的張嘴特徵，並針對包含該第一人物的張嘴特徵的各該圖像幀添加該第一圖像識別子標記，以及針對包含該第二人物的張嘴特徵的各該圖像幀添加該第二圖像識別子標記；以及該同步判斷模組復包括：當分析該時間戳為相同的該音頻幀與該圖像幀中，該音頻幀係具有該第一聲音識別子標記且該圖像幀係具有該第一圖像識別子標記時；及/或當分析該時間戳為相同的該音頻幀與該圖像幀中，該音頻幀係具有該第二聲音識別子標記且該圖像幀係具有該第二圖像識別子標記時，輸出該時間戳為相同的該音頻幀與該圖像幀為同步的判斷結果。
一種電腦儲存媒體，其儲存有電腦程式，其中，當該電腦程式被執行時，完成如申請專利範圍1至8中任一項所述的影音同步判斷方法的各該步驟。