TW202002610A

TW202002610A - 字幕顯示方法及裝置

Info

Publication number: TW202002610A
Application number: TW108109578A
Authority: TW
Inventors: 張磊
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-06-20
Filing date: 2019-03-20
Publication date: 2020-01-01
Also published as: WO2019245927A1; US20190394419A1; US10645332B2; CN110620946A; CN110620946B

Abstract

本發明有關一種字幕顯示方法及裝置，所述方法包括：在接收到針對視頻的播放請求時，確定視頻中視頻畫面的字幕資訊；識別所述視頻畫面中的關鍵區域；在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域；在所述視頻的播放過程中，在所述字幕顯示區域顯示所述字幕資訊中的字幕內容。在本發明實施例中，在除所述關鍵區域以外的區域確定字幕顯示區域，可以避免關鍵區域內的顯示內容被字幕遮擋，提高觀看者的觀看體驗。

Description

字幕顯示方法及裝置

本發明係有關顯示技術領域，尤其有關一種字幕顯示方法及裝置。

在傳統的字幕顯示方法中，字幕通常被固定顯示在視頻畫面的固定位置。當字幕內容較多時，或當視頻畫面中關鍵內容所占的顯示區域較大時，字幕容易遮擋觀看者感興趣的內容，給觀看者帶來不好的觀看感受。

有鑑於此，本發明提出了一種字幕顯示方法及裝置，用以解決字幕可能遮擋視頻畫面中的關鍵內容的問題。根據本發明的一態樣，提供了一種字幕顯示方法，所述方法包括：在接收到針對視頻的播放請求時，確定視頻中視頻畫面的字幕資訊；識別所述視頻畫面中的關鍵區域；在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域，在所述視頻的播放過程中，在所述字幕顯示區域顯示所述字幕資訊中的字幕內容。在一種可能的實現方式中，識別所述視頻畫面中的關鍵區域，包括：利用深度學習演算法，識別所述視頻畫面中的關鍵區域。在一種可能的實現方式中，利用深度學習演算法，識別所述視頻畫面中的關鍵區域，包括：利用深度學習演算法在所述視頻畫面中確定目標對象；將所述目標對象所在的顯示區域，確定為關鍵區域。在一種可能的實現方式中，將所述目標對象所在的顯示區域，確定為所述視頻畫面的關鍵區域，包括：利用深度學習演算法來確定所述目標對象的關鍵部位；將所述關鍵部位所在的顯示區域，確定為關鍵區域。在一種可能的實現方式中，所述目標對象包括面部，利用深度學習演算法在所述視頻畫面中確定目標對象，包括：利用面部識別演算法，在所述視頻畫面中檢測得到面部。在一種可能的實現方式中，識別所述視頻畫面中關鍵區域，包括：利用關鍵視窗在所述視頻畫面中遍歷，並將所述關鍵視窗所在的區域確定為候選區域，所述關鍵視窗的面積小於所述視頻畫面的面積；提取所述候選區域內的特徵，並根據提取到的特徵確定所述候選區域內是否包括目標對象；當所述候選區域內包括目標對象時，將所述候選區域確定為關鍵區域。在一種可能的實現方式中，識別所述視頻畫面中的關鍵區域，包括：當所述視頻畫面為所述視頻畫面之前的視頻畫面的近景畫面時，識別所述視頻畫面中的關鍵區域。在一種可能的實現方式中，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域，包括：根據所述字幕資訊，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。在一種可能的實現方式中，所述字幕資訊包括所述視頻畫面的原始字幕顯示區域，根據所述字幕資訊，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域，包括：當所述原始字幕顯示區域和所述關鍵區域有重疊時，將所述原始字幕顯示區域調整至所述視頻畫面中除所述關鍵區域以外的區域。在一種可能的實現方式中，當所述原始字幕顯示區域和所述關鍵區域有重疊時，將所述原始字幕顯示區域調整至所述視頻畫面中除所述關鍵區域以外的區域，包括：當所述原始字幕顯示區域和所述關鍵區域有重疊時，將所述原始字幕顯示區域分為至少兩個顯示子區域，並將至少兩個所述顯示子區域調整至所述視頻畫面中除所述關鍵區域以外的區域。在一種可能的實現方式中，根據所述字幕資訊，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域，包括：根據所述字幕資訊中的字幕內容，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。根據本發明的一態樣，提供了一種字幕顯示裝置，所述裝置包括：字幕資訊確定模組，用以在接收到針對視頻的播放請求時，確定視頻中視頻畫面的字幕資訊；關鍵區域確定模組，用以識別所述視頻畫面中的關鍵區域；顯示區域確定模組，用以在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域；播放模組，用以在所述視頻的播放過程中，在所述字幕顯示區域顯示所述字幕資訊中的字幕內容。在一種可能的實現方式中，所述關鍵區域確定模組包括：第一關鍵區域確定子模組，用以利用深度學習演算法，識別所述視頻畫面中的關鍵區域在一種可能的實現方式中，所述第一關鍵區域確定子模組，包括：目標對象確定子模組，用以利用深度學習演算法在所述視頻畫面中確定目標對象；第二關鍵區域確定子模組，用以將所述目標對象所在的顯示區域，確定為關鍵區域。在一種可能的實現方式中，所述第二關鍵區域確定子模組，包括：關鍵部位確定子模組，用以利用深度學習演算法來確定所述目標對象的關鍵部位；第三關鍵區域確定子模組，用以將所述關鍵部位所在的顯示區域，確定為關鍵區域。在一種可能的實現方式中，所述目標對象包括面部，所述目標對象確定子模組，包括：面部檢測子模組，用以利用面部識別演算法，在所述視頻畫面中檢測得到面部。在一種可能的實現方式中，所述關鍵區域確定模組，包括：遍歷子模組，用以利用關鍵視窗在所述視頻畫面中遍歷，並將所述關鍵視窗所在的區域確定為候選區域，所述關鍵視窗的面積小於所述視頻畫面的面積；特徵提取子模組，用以提取所述候選區域內的特徵，並根據提取到的特徵來確定所述候選區域內是否包括目標對象；第四關鍵區域確定子模組，用以當所述候選區域內包括目標對象時，將所述候選區域確定為關鍵區域。在一種可能的實現方式中，所述關鍵區域確定模組，包括：第五關鍵區域確定子模組，用以當所述視頻畫面為所述視頻畫面之前的視頻畫面的近景畫面時，利用深度學習演算法在所述視頻畫面中確定關鍵區域。在一種可能的實現方式中，所述顯示區域確定模組，包括：第一顯示區域確定子模組，用以根據所述字幕資訊，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。在一種可能的實現方式中，所述字幕資訊包括所述視頻畫面的原始字幕顯示區域，所述第一顯示區域確定子模組，包括：第二顯示區域確定子模組，用以當所述原始字幕顯示區域和所述關鍵區域有重疊時，將所述原始字幕顯示區域調整至所述視頻畫面中除所述關鍵區域以外的區域。在一種可能的實現方式中，所述第二顯示區域確定子模組，包括：第三顯示區域確定子模組，用以當所述原始字幕顯示區域和所述關鍵區域有重疊時，將所述原始字幕顯示區域分為至少兩個顯示子區域，並將至少兩個所述顯示子區域調整至所述視頻畫面中除所述關鍵區域以外的區域。在一種可能的實現方式中，所述第一顯示區域確定子模組，包括：第四顯示區域確定子模組，用以根據所述字幕資訊中的字幕內容，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。根據本發明的一態樣，提供了一種字幕顯示裝置，包括：處理器；用以儲存處理器可執行指令的記憶體；其中，所述處理器被配置成：執行上述字幕顯示方法。根據本發明的一態樣，提供了一種非易失性電腦可讀儲存媒體，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述字幕顯示方法。在本發明實施例中，在接收到針對視頻的播放請求時，在視頻畫面中確定字幕資訊，以及在視頻畫面中確定關鍵區域後，可以在視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。本發明實施例可以對視頻進行線上的即時處理，在視頻的播放過程中對視頻畫面中的關鍵區域進行自動識別，播放出的視頻畫面中，字幕不會遮擋關鍵區域中的顯示內容，提高觀看者的觀看體驗。根據下面參考圖式對示例性實施例的詳細說明，本發明的其它特徵及態樣將變得清楚。

以下將參考圖式來詳細說明本發明的各種示例性實施例、特徵和態樣。圖式中相同的圖式標記表示功能相同或相似的元件。儘管在圖式中示出了實施例的各種態樣，但是除非特別指出，不必按比例來繪製圖式。在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。另外，為了更好的說明本發明，在下文的具體實施方式中給出了許多的具體細節。本發明所屬技術領域中具有通常知識者應當理解，沒有某些具體細節，本發明同樣可以實施。在一些實例中，對於本發明所屬技術領域中具有通常知識者熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本發明的主旨。圖1示出根據本發明一實施例的字幕顯示方法的流程圖，如圖1所示，所述字幕顯示方法包括：步驟S10，在接收到針對視頻的播放請求時，確定視頻中視頻畫面的字幕資訊。在一種可能的實現方式中，視頻可以是邊拍攝邊播出的直播視頻，也可以是已經拍攝完成的錄播視頻；可以是利用拍攝設備拍攝到的視頻，也可以是利用手工繪製或電腦設備製作出的視頻。本發明對視頻的類型和格式不做限定。視頻畫面可以包括視頻中的幀畫面。視頻畫面可以包括二維視頻的視頻畫面，也可以包括多維視頻的視頻畫面。視頻畫面可以包括彩色視頻畫面，也可以包括黑白視頻畫面或單色視頻畫面。字幕資訊可以只包括字幕內容。可以根據需求而確定字幕的顯示位置後，將字幕添加至視頻畫面中，或在播放視頻畫面時在確定出的顯示位置顯示字幕。字幕資訊也可以包括字幕內容、字幕的顯示位置資訊。可以根據字幕的顯示位置資訊將字幕添加至視頻畫面中，或在播放視頻畫面時在顯示位置資訊確定的位置顯示字幕。字幕資訊可以以文件的形式獨立於視頻畫面所在的文件，也可以被包括在視頻畫面的文件中。步驟S20，識別所述視頻畫面中的關鍵區域。在一種可能的實現方式中，關鍵區域可以是視頻畫面中包含關鍵內容的區域。可以根據視頻畫面中的顯示內容來確定關鍵內容，並根據關鍵內容來確定視頻畫面中的關鍵區域。視頻畫面中的顯示內容可以包括主體和背景。可以將視頻畫面中的主體確定為視頻畫面的關鍵內容，將主體對應的顯示區域確定為視頻畫面的關鍵區域。例如，視頻畫面A為賽車場的畫面，視頻畫面A中的主體為賽車，背景包括賽車道和天空。可以將賽車確定為視頻畫面的關鍵內容，並將賽車對應的顯示區域，確定為視頻畫面的關鍵區域。也可以將視頻畫面中觀看者可能感興趣的顯示內容確定為視頻畫面的關鍵內容。可以根據需求來預設觀看者可能感興趣的關鍵內容。例如，在視頻畫面A中，背景的天空中有一架航拍的無人機，或天空中有一朵雲，都是觀看者可能感興趣的內容，可以將無人機或雲確定為視頻畫面A中的關鍵內容，並將無人機或雲對應的顯示區域，確定為視頻畫面A的關鍵區域。在接收到針對視頻的播放請求時，可以利用影像識別或深度學習演算法等技術，識別視頻畫面中的關鍵內容，並根據識別出的關鍵內容來確定視頻畫面中的關鍵區域。步驟S30，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。在一種可能的實現方式中，當視頻畫面中包括關鍵區域時，觀看者的視線會集中在關鍵區域內的關鍵內容上。關鍵區域可以出現在視頻畫面的任意位置，如果關鍵區域被字幕遮擋，觀看者的觀看感受差。在一種可能的實現方式中，可以不考慮字幕資訊，在視頻畫面中除關鍵區域以外的區域確定字幕顯示區域。可以根據預先設定的參數(例如，大小、位置等)來確定字幕顯示區域。其中，預先設定的大小參數，可以使確定出的字幕顯示區域有足夠的字幕顯示空間，無論字幕內容中的字數有多少，都可以在字幕顯示區域中完整地進行顯示。預先設定的位置參數，可以使字幕顯示區域在不遮擋視頻畫面中的關鍵區域的同時，因為顯示位置的固定，給觀看者帶來良好的觀看體驗。例如，可以在視頻畫面下方三分之一的區域內確定字幕顯示區域，也可以在視頻畫面的右側四分之一的區域內字幕顯示區域。不同視頻畫面的字幕顯示區域的位置可以相同也可以不同。在一種可能的實現方式中，可以根據字幕資訊，在視頻畫面中除關鍵區域以外的區域確定字幕顯示區域。例如，當根據字幕資訊中的顯示位置資訊來顯示字幕，會遮擋關鍵區域時，可以將根據顯示位置資訊而確定的字幕顯示位置進行調整，調整至所述視頻畫面中除所述關鍵區域以外的區域，以使在調整後的字幕顯示區域顯示的字幕，不會遮擋視頻畫面中的關鍵內容。步驟S40，在所述視頻的播放過程中，在所述字幕顯示區域顯示所述字幕資訊中的字幕內容。在一種可能的實現方式中，可以根據字幕內容和本實施例確定出的字幕顯示區域，獲取更新後的字幕資訊。更新後的字幕資訊可以以文件的形式獨立於視頻畫面所在文件，也可以被放置於與視頻畫面所在的文件中。在播放視頻畫面時，可以根據更新後的字幕資訊，調取字幕內容並在確定出的字幕顯示區域進行顯示。還可以根據確定出的字幕顯示區域，將字幕內容嵌入視頻畫面中作為內嵌字幕。在播放視頻畫面即同時播出字幕，且字幕不會遮擋關鍵內容。可以由提供視頻畫面的伺服器執行上述字幕顯示方法。也可由用來播放視頻畫面的終端執行上述字幕顯示方法。本發明對上述字幕顯示方法的執行主體不做限定。例如步驟S40在由伺服器執行時，伺服器可控制終端在所述視頻的播放過程中，在所述字幕顯示區域顯示所述字幕資訊中的字幕內容。在本實施例中，在接收到針對視頻的播放請求時，在視頻畫面中確定字幕資訊，在視頻畫面中確定關鍵區域後，可以在視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。在所述視頻的播放過程中，在除所述關鍵區域以外的區域確定字幕顯示區域，可以避免關鍵區域內的顯示內容被字幕遮擋，提高觀看者的觀看體驗。本實施例可實現視頻播放中字幕的即時調整，例如，在新聞等直播節目中，視頻畫面可以是直播畫面。可以對視頻中的直播畫面進行即時處理，在拍攝到的直播畫面中即時的確定字幕顯示區域，播放直播畫面並在確定的字幕顯示區域顯示字幕。使得直播節目中直播畫面的字幕不遮擋關鍵區域，從而提高直播節目的觀看性。圖2示出根據本發明一實施例的字幕顯示方法的流程圖，如圖2所示，所述字幕顯示方法中步驟S20包括：步驟S21，利用深度學習演算法，識別所述視頻畫面中的關鍵區域。在一種可能的實現方式中，一幅影像可以使用多種方式來表示，例如可以將一幅影像表示成每個像素值強度的向量、一系列不同形狀的邊，或多個特定形狀的子區域。可以將影像中上述的底層特徵(每個像素值強度的向量等)，經過組合形成影像的高層的特徵或高層的屬性類別(影像中的對象屬性或特徵，例如影像中的對象為貓)。深度學習可以利用底層的特徵學習和分層特徵提取等高效的演算法，得到高層的特徵。利用深度學習可以使用某些特定的表示方法，依據實例(例如，影像)完成學習任務(例如，進行人臉識別或面部表情識別等)，得到實例的高層特徵(識別出人臉或確定面部表情為微笑)。本發明不限定深度學習演算法的具體實現方式。可以利用深度學習演算法，在視頻畫面中確定關鍵內容。例如可以利用深度學習演算法，在視頻畫面中識別出主體或觀看者可能感興趣的關鍵內容。根據關鍵內容，可以在視頻畫面中確定關鍵區域。一個視頻畫面中可以包括一個或多個關鍵區域。關鍵區域的大小和形狀可以相同，也可以不同。可以根據需求來設定關鍵區域的大小和形狀。在本實施例中，可以利用深度學習演算法在視頻畫面中確定關鍵區域。利用深度學習演算法可以提高確定關鍵區域的處理效率。在除所述關鍵區域以外的區域確定字幕顯示區域，可以避免關鍵區域內的顯示內容被字幕遮擋，提高觀看者的觀看體驗。在一種可能的實現方式中，可以利用深度學習演算法強大的處理能力，對視頻中的視頻畫面進行即時的處理，包括即時確定視頻畫面中的關鍵區域，以及即時播放視頻畫面，且即時播放的視頻畫面中包括不遮擋關鍵區域的字幕。圖3示出根據本發明一實施例的字幕顯示方法的流程圖，如圖3所示，所述字幕顯示方法中步驟S21包括：步驟S211，利用深度學習演算法在所述視頻畫面中確定目標對象。在一種可能的實現方式中，可以根據需求確定視頻畫面中的目標對象。目標對象可以為人、動物、植物、汽車、建築物、自然景觀等不同類型的對象。目標對象也可以為人的面部、人的腿部、動物的面部等不同類型對象上的設定部位。根據視頻畫面的顯示內容，可以將一個或多個類型的對象，確定為目標對象。例如，可以將視頻畫面中的主體確定為目標對象。可以利用深度學習演算法來確定視頻畫面中的目標對象。例如，視頻畫面中包括人、汽車和建築物。可以將人和汽車確定為目標對象。可以利用包括人或汽車的樣本影像，對深度學習神經網路進行訓練，深度學習神經網路可以是利用深度學習演算法進行目標對象識別的神經網路。訓練好的深度學習神經網路可以在影像中識別出人和汽車。將視頻畫面B輸入訓練好的深度學習神經網路，可以根據深度學習神經網路的輸出結果，在視頻畫面B中確定出人和汽車。在一種可能的實現方式中，所述目標對象包括面部，利用深度學習演算法在所述視頻畫面中確定目標對象，包括：利用面部識別演算法，在所述視頻畫面中檢測得到面部。在一種可能的實現方式中，深度學習演算法可以包括面部識別演算法。面部識別演算法可以包括：基於面部特徵的識別演算法、基於整幅面部影像的識別演算法、基於範本的識別演算法和利用神經網路進行識別的演算法。利用面部識別演算法來進行面部檢測，可以檢測出視頻畫面中是否存在面部，可以將面部從視頻畫面中檢測出來，並定位出面部在視頻畫面中的位置。例如，可以利用基於Eigenface(特徵臉)的面部識別演算法，在視頻畫面中檢測得到面部。本發明不限定面部識別演算法的實現方式。面部可以包括人臉。面部識別演算法可以包括人臉識別演算法。步驟S212，將所述目標對象所在的顯示區域，確定為關鍵區域。在一種可能的實現方式中，在視頻畫面中確定出目標對象後，可以將目標對象所在的顯示區域確定為關鍵區域。關鍵區域可以與目標對象所在的顯示區域的大小和形狀保持一致。關鍵區域的形狀也可以是預設的形狀，例如矩形。在本實施例中，利用深度學習演算法在視頻畫面中確定目標對象，將視頻畫面中目標對象所在的顯示區域，確定為關鍵區域。根據目標對象確定的關鍵區域，針對性強、定位結果準確。在一種可能的實現法方式中，所述字幕顯示方法中步驟S212包括：利用深度學習演算法來確定所述目標對象的關鍵部位；將所述關鍵部位所在的顯示區域，確定為關鍵區域。在一種可能的實現方式中，當視頻畫面中確定出較大的目標對象(即目標對象占視頻畫面的比例超過閾值)，或在視頻畫面中確定出多個目標對象時，關鍵區域在視頻畫面中所占的比例也較大，最終導致字幕的顯示位置不合理。例如，視頻畫面C為賽車畫面的近景，賽車所在的顯示區域在視頻畫面C中佔據了80%的面積。如果只根據目標對象確定關鍵區域，只能將字幕顯示在視頻畫面的兩側或頂部，字幕的顯示位置不合理。觀看者的觀看體驗差。可以利用深度學習演算法，在目標對象上確定關鍵部位。例如，當目標對象為人時，人的面部表情和肢體動作通常是視頻畫面中的關鍵內容，可以將人的面部、手等部位確定為關鍵部位。當目標對象為人的面部時，也可以將面部的嘴、眼睛等部位，確定為關鍵部位。當目標對象為賽車時，駕駛員、車標、車身影像或車輪部分，均可以確定為關鍵部位。在一種可能的實現方式中，當根據關鍵部位確定出的關鍵區域，在視頻畫面中仍然佔據較大面積時，可以繼續在關鍵部位中確定子部位，並將子部位所在的顯示區域確定為關鍵區域。例如，目標對象為人，關鍵部位為面部，但面部所在的顯示區域仍然佔據了視頻畫面的50%，可以進一步將面部中的子部位，例如嘴和眼睛所在的區域確定為關鍵區域。目標對象的關鍵部位可以為一個或多個。可以根據需求來確定目標對象的關鍵部位。確定出關鍵部位後，可以將關鍵部位所在的顯示區域，確定為關鍵區域。在本實施例中，利用深度學習演算法在目標對象中確定關鍵部位，可以將目標對象的關鍵部位所在的顯示區域，確定為關鍵區域。根據關鍵部位確定的關鍵區域，針對性更強。關鍵區域在視頻畫面所占的比例合理。最終視頻畫面中字幕的顯示位置也更加合理。圖4示出根據本發明一實施例的字幕顯示方法中步驟S20的流程圖，如圖4所示，所述字幕顯示方法中步驟S20包括：步驟S22，利用關鍵視窗在所述視頻畫面中遍歷，並將所述關鍵視窗所在的區域確定為候選區域，所述關鍵視窗的面積小於所述視頻畫面的面積。在一種可能的實現方式中，關鍵視窗包括設定尺寸和/或設定形狀的視窗。可以根據視頻畫面的尺寸來確定關鍵視窗的尺寸。例如，視頻畫面的尺寸為272mm* 204mm，關鍵視窗的形狀可以為矩形，尺寸可以為27mm* 20mm。可以根據設定的步長，利用關鍵視窗在視頻畫面中遍歷，並將關鍵視窗內的視頻畫面對應的區域，確定為候選區域。例如，將關鍵視窗1按照設定步長1mm視頻畫面D中滑動，遍歷視頻畫面D共得到M個候選區域。關鍵視窗的大小可以基本包括視頻畫面中目標對象的整體。可以根據視頻畫面內容的不同來調整關鍵視窗的大小。可以利用大小不同的多個關鍵視窗，在一個或多個視頻畫面中遍歷後得到候選區域。各候選區域中的內容可以重疊，也可以不重疊。步驟S23，提取所述候選區域內的特徵，並根據提取到的特徵來確定所述候選區域內是否包括目標對象。在一種可能的實現方式中，可以利用深度學習演算法，提取候選區域內的特徵，並將提取到的特徵與目標對象的特徵進行比較。根據比較結果，可以判斷候選區域內是否包括目標對象。例如，在視頻畫面E中，包括天空、草地和奔跑的馬。目標對象為馬。可以利用關鍵視窗遍歷視頻畫面E後，得到N個候選區域。將N個候選區域輸入深度學習神經網路。深度學習神經網路可以提取各候選區域內的特徵，將提取到的特徵與馬的特徵進行比較，並根據比較結果來確定各候選區域內是否包括馬。步驟S24，當所述候選區域內包括目標對象時，將所述候選區域確定為關鍵區域。在一種可能的實現方式中，根據深度學習神經網路的輸出結果，可以判斷第K個候選區域內包括目標對象馬。可以將第K個候選區域確定為關鍵區域。在本實施例中，可以根據關鍵視窗在視頻畫面中確定候選區域，並根據深度學習演算法提取候選區域的特徵後，確定候選區域中是否包括目標對象。將包括目標對象的候選區域確定為關鍵區域。利用遍歷視窗和深度學習演算法中的特徵提取，可以提高在視頻畫面中確定關鍵區域的處理效率。圖5示出根據本發明一實施例的字幕顯示方法的流程圖，如圖5所示，所述字幕顯示方法中步驟S20包括：步驟S25，當所述視頻畫面為所述視頻畫面之前的視頻畫面的近景畫面時，利用深度學習演算法在所述視頻畫面中確定關鍵區域。在一種可能的實現方式中，在視頻畫面所屬的視頻中，針對相同的對象，可以利用遠景和近景進行展示。其中，拍攝遠景時，目標對象距離拍攝設備較遠，在拍攝到的視頻畫面中目標對象佔據的面積較小，遠景的視頻畫面通常包括目標對象的整體。拍攝近景時，目標對象距離拍攝設備較近，在視頻畫面中目標對象佔據的面積較大，近景的視頻畫面通常只包括目標對象的局部。因此，近景的視頻畫面通常比遠景的視頻畫面具有更多的細節內容。可以透過識別視頻畫面中的顯示內容，確定視頻畫面是否為之前視頻畫面的近景畫面。例如，可以根據視頻畫面與之前的視頻畫面是否包括了相同的目標對象，且目標對象在視頻畫面中所占的顯示區域的面積，比目標對象在之前視頻畫面中所占的顯示區域的面積是否更大，來確定視頻畫面是否為之前的視頻畫面的近景畫面。當視頻畫面為之前的視頻畫面的近景畫面時，需要在視頻畫面中確定關鍵區域，以免字幕遮蓋住視頻畫面中的細節內容。在一種可能的實現方式中，當視頻畫面不是所述視頻畫面之前的視頻畫面的近景畫面，且之前的視頻畫面中沒有關鍵區域時，可以不在視頻畫面中確定關鍵區域。在本實施例中，當視頻畫面為所述視頻畫面之前的視頻畫面的近景畫面時，在所述視頻畫面中確定關鍵區域。可以根據視頻畫面與之前視頻畫面的關聯關係，方便快捷地確定是否需要在視頻畫面中確定關鍵區域，以提高本發明實施例的執行效率。圖6示出根據本發明一實施例的字幕顯示方法的流程圖，如圖6所示，所述字幕顯示方法中步驟S30包括：步驟S31，根據所述字幕資訊，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。在一種可能的實現方式中，可以只根據字幕資訊中的字幕內容，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。例如，可以根據字幕內容中字數的多少，在除關鍵區域以外的區域內確定字幕顯示區域。在保證字幕顯示區域有足夠的空間來清晰地顯示字幕的同時，字幕顯示區域的位置也可以更加靈活地進行設定。在一種可能的實現方式中，也可以根據字幕資訊中的字幕內容和顯示位置資訊，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。當根據字幕資訊中的顯示位置資訊顯示的字幕會遮擋關鍵區域時，可以根據字幕內容中的字數，直接在所述視頻畫面中除所述關鍵區域以外的區域確定出大小與字數成正比的字幕顯示區域。也可以將根據字幕資訊中的顯示位置資訊確定的字幕顯示區域調整至所述視頻畫面中除所述關鍵區域以外的區域。當根據字幕資訊中的顯示位置資訊顯示的字幕不會遮擋關鍵區域時，可以不對根據顯示位置資訊確定的字幕顯示區域進行調整，直接根據顯示位置資訊來確定最終的字幕顯示區域。也可以將根據顯示位置資訊確定的字幕顯示區域進行調整，調整至所述視頻畫面中除所述關鍵區域以外的其它區域。在本實施例中，根據字幕資訊，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。可以使得視頻畫面中的字幕不會遮擋關鍵內容，也可以更加靈活地設定字幕顯示區域的位置和大小。在一種可能的實現方式中，所述字幕資訊包括所述視頻畫面的原始字幕顯示區域，所述字幕顯示方法中步驟S31包括：當所述原始字幕顯示區域和所述關鍵區域有重疊時，將所述原始字幕顯示區域調整至所述視頻畫面中除所述關鍵區域以外的區域。在一種可能的實現方式中，當字幕資訊包括字幕的顯示位置資訊時，視頻畫面中字幕的顯示區域已經被確定。字幕的顯示位置資訊可以包括原始字幕顯示區域。在一種可能的實現方式中，當原始字幕顯示區域和關鍵區域有重疊時，字幕會遮擋關鍵區域中的關鍵內容。可以將原始字幕顯示區域移動至所述視頻畫面中除所述關鍵區域以外的區域，得到調整後的字幕顯示區域。可以將原始字幕顯示區域整體調整至所述視頻畫面中除所述關鍵區域以外的任意區域或設定範圍內的區域。可以將原始字幕顯示區域向上、向下或向任意方向調整，以使調整後的字幕顯示區域與關鍵區域不重疊。調整後的字幕顯示區域如果位置調整過大，視頻畫面在觀看時，可能與之前視頻畫面的字幕位置差異過大，導致觀看者有不好的觀看體驗。可以將原始字幕顯示區域按照設定的移動方向進行調整，例如向下調整。可以將原始字幕顯示區域按照設定的移動距離進行調整，例如，可以將原始字幕顯示區域移動1釐米。也可以將原始字幕顯示區域移動至設定的位置或按照設定的顯示方向進行顯示。例如，可以將原始字幕顯示區域移動至螢幕的最右側進行豎向顯示。在一種可能的實現方式中，當原始字幕顯示區域和關鍵區域有重疊時，也可以只根據字幕資訊中的字幕內容，忽略字幕的顯示位置資訊，在視頻畫面中除所述關鍵區域以外的區域重新確定字幕顯示區域。在一種可能的實現方式中，當所述原始字幕顯示區域和所述關鍵區域有重疊時，將所述原始字幕顯示區域調整至所述視頻畫面中除所述關鍵區域以外的區域，包括：當所述原始字幕顯示區域和所述關鍵區域有重疊時，將所述原始字幕顯示區域分為至少兩個顯示子區域，並將至少兩個所述顯示子區域調整至所述視頻畫面中除所述關鍵區域以外的區域。在一種可能的實現方式中，可以將原始字幕顯示區域分為至少兩個顯示子區域，再將與關鍵區域重疊的顯示子區域調整至所述視頻畫面中除所述關鍵區域以外的區域，並將剩餘的顯示子區域的位置進行相應的調整。調整後的顯示子區域能夠按照正常的顯示順序顯示字幕，例如，調整後的顯示子區域在同一條水平線上，不影響字幕的觀看體驗。例如，可以將原始字幕顯示區域分為兩個顯示子區域，並將兩個顯示子區域分別向左和向右移動，調整後的兩個顯示子區域可以分別在關鍵區域的左側相鄰和右側相鄰的位置，且兩個顯示子區域在同一條水平線上。在本實施例中，當原始字幕顯示區域與關鍵區域有重疊時，將所述原始字幕顯示區域調整至所述視頻畫面中除所述關鍵區域以外的區域。透過將與關鍵區域有重疊的原始字幕顯示區域進行調整，可以避免字幕遮擋關鍵區域的顯示內容，為觀看者提供良好的觀看體驗。在一種可能的實現方式中，所述字幕顯示方法中步驟S31，包括：根據所述字幕資訊中的字幕內容，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。在一種可能的實現方式中，當字幕資訊中只包括字幕內容時，可以根據字幕內容，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。當字幕資訊中包括字幕內容和顯示位置資訊時，也可以只考慮字幕內容，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。可以根據字幕內容中字數的多少，在所述視頻畫面中除所述關鍵區域以外的區域，確定大小與字數成正比的字幕顯示區域。可以在視頻畫面的設定位置，確定大小與字數成正比的字幕顯示區域。例如，在視頻畫面的右側四分之一處，確定字幕顯示區域。也可以根據確定出的字幕顯示區域的大小，在視頻畫面的相應位置確定字幕顯示區域。例如，當字幕內容中字數較少時，確定出的字幕顯示區域較小，可以在視頻畫面的底部確定字幕顯示區域。當字幕內容中字數較多時，確定出的字幕顯示區域較大，可以在視頻畫面的上部或兩側確定字幕顯示區域。在本實施例中，根據字幕內容，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。可以使確定出的字幕顯示區域的大小更適應字幕內容中的字數的多少。也可以根據字幕顯示區域的大小不同更合理地設定字幕顯示區域的位置。應用示例圖7示出根據本發明一實施例的字幕顯示方法中字幕調整前的示意圖。將人臉確定為目標對象之一。在如圖7所示的視頻畫面A中，字幕資訊包括原始字幕顯示區域。在播放視頻畫面A時，在原始字幕顯示區域顯示的字幕遮擋了部分人臉，觀看者的觀看體驗差。可以利用深度學習演算法，確定視頻畫面A中包括人臉。並將人臉所在的區域確定為關鍵區域。在圖7中，原始字幕顯示區域和關鍵區域有重疊。可以將原始字幕顯示區域調整至視頻畫面A中除關鍵區域以外的區域。圖8示出根據本發明一實施例的字幕顯示方法中字幕調整後的示意圖。如圖8所示，將原始字幕顯示區域的位置進行了調整，調整後的字幕顯示區域在人臉的右側，字幕不再遮擋人臉。觀看者的觀看體驗良好。圖9示出根據本發明一實施例的字幕顯示方法中字幕調整後的示意圖。如圖9所示，將原始字幕顯示區域分為兩個子區域後，將兩個子區域分別調整至關鍵區域的左右兩側，調整後的字幕顯示區域包括兩個子區域，字幕不再遮擋人臉。觀看者的觀看體驗良好。圖10示出根據本發明一實施例的字幕顯示裝置的方塊圖，如圖10所示，所述字幕顯示裝置包括：字幕資訊確定模組10，用以在接收到針對視頻的播放請求時，確定視頻中視頻畫面的字幕資訊；關鍵區域確定模組20，用以識別所述視頻畫面中的關鍵區域；顯示區域確定模組30，用以在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域；播放模組40，用以在所述視頻的播放過程中，在所述字幕顯示區域顯示所述字幕資訊中的字幕內容。圖11示出根據本發明一實施例的字幕顯示裝置的方塊圖，如圖11所示，在一種可能的實現方式中，所述關鍵區域確定模組20包括：第一關鍵區域確定子模組21，用以利用深度學習演算法，識別所述視頻畫面中的關鍵區域在一種可能的實現方式中，所述第一關鍵區域確定子模組21，包括：目標對象確定子模組，用以利用深度學習演算法在所述視頻畫面中確定目標對象；第二關鍵區域確定子模組，用以將所述目標對象所在的顯示區域，確定為關鍵區域。在一種可能的實現方式中，所述第二關鍵區域確定子模組，包括：關鍵部位確定子模組，用以利用深度學習演算法來確定所述目標對象的關鍵部位；第三關鍵區域確定子模組，用以將所述關鍵部位所在的顯示區域，確定為關鍵區域。在一種可能的實現方式中，所述目標對象包括面部，所述目標對象確定子模組，包括：面部檢測子模組，用以利用面部識別演算法，在所述視頻畫面中檢測得到面部。在一種可能的實現方式中，所述關鍵區域確定模組20，包括：遍歷子模組22，用以利用關鍵視窗在所述視頻畫面中遍歷，並將所述關鍵視窗所在的區域確定為候選區域，所述關鍵視窗的面積小於所述視頻畫面的面積；特徵提取子模組23，用以提取所述候選區域內的特徵，並根據提取到的特徵來確定所述候選區域內是否包括目標對象；第四關鍵區域確定子模組24，用以當所述候選區域內包括目標對象時，將所述候選區域確定為關鍵區域。在一種可能的實現方式中，所述關鍵區域確定子模組20，包括：第五關鍵區域確定子模組25，用以當所述視頻畫面為所述視頻畫面之前的視頻畫面的近景畫面時，利用深度學習演算法在所述視頻畫面中確定關鍵區域。在一種可能的實現方式中，所述顯示區域確定模組30，包括：第一顯示區域確定子模組31，用以根據所述字幕資訊，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。在一種可能的實現方式中，所述字幕資訊包括所述視頻畫面的原始字幕顯示區域，所述第一顯示區域確定子模組31，包括：第二顯示區域確定子模組，用以當所述原始字幕顯示區域和所述關鍵區域有重疊時，將所述原始字幕顯示區域調整至所述視頻畫面中除所述關鍵區域以外的區域。在一種可能的實現方式中，所述第二顯示區域確定子模組，包括：第三顯示區域確定子模組，用以當所述原始字幕顯示區域和所述關鍵區域有重疊時，將所述原始字幕顯示區域分為至少兩個顯示子區域，並將至少兩個所述顯示子區域調整至所述視頻畫面中除所述關鍵區域以外的區域。在一種可能的實現方式中，所述第一顯示區域確定子模組31，包括：第四顯示區域確定子模組，用以根據所述字幕資訊中的字幕內容，在所述視頻畫面中除所述關鍵區域以外的區域確定字幕顯示區域。圖12是根據一示例性實施例示出的一種用於字幕顯示裝置的方塊圖。例如，裝置800可以是行動電話、電腦、數位廣播終端、訊息收發設備、遊戲控制台、平板設備、醫療設備、健身設備、個人數位助理等。參照圖12，裝置800可以包括以下一個或多個組件：處理組件802、記憶體804、電源組件806、多媒體組件808、音訊組件810、輸入/輸出(I/ O)的介面812、感測器組件814、以及通訊組件816。處理組件802通常控制裝置800的整體操作，諸如與顯示、電話呼叫、資料通訊、相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的互動。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的互動。記憶體804被配置成儲存各種類型的資料以支援在裝置800的操作。這些資料的示例包括用以在裝置800上操作的任何應用程式或方法的指令、連絡人資料、電話簿資料、訊息、圖片、視頻等。記憶體804可以由任何類型的易失性或非易失性儲存裝置或者它們的組合實現，如靜態隨機存取記憶體(SRAM)、電可擦除可程式設計唯讀記憶體(EEPROM)、可擦除可程式設計唯讀記憶體(EPROM)、可程式設計唯讀記憶體(PROM)、唯讀記憶體(ROM)、磁記憶體、快閃記憶體、磁碟片或光碟。電源組件806為裝置800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與為裝置800產生、管理和分配電力相關聯的組件。多媒體組件808包括在所述裝置800與用戶之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器(LCD)和觸控面板(TP)。如果螢幕包括觸控面板，螢幕可以被實現為觸控式螢幕，以接收來自用戶的輸入信號。觸控面板包括一個或多個觸控感測器以感測觸控、滑動和觸控面板上的手勢。所述觸控感測器可以不僅感測觸控或滑動動作的邊界，而且還檢測與所述觸控或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝像頭和/或後置攝像頭。當裝置800處於操作模式，如拍攝模式或視訊模式時，前置攝像頭和/或後置攝像頭可以接收外部的多媒體資料。每個前置攝像頭和後置攝像頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。音訊組件810被配置成輸出和/或輸入音訊信號。例如，音訊組件810包括一個麥克風(MIC)，當裝置800處於操作模式，如呼叫模式、記錄模式和語音辨識模式時，麥克風被配置成接收外部音訊信號。所接收到的音訊信號可以被進一步儲存在記憶體804或經由通訊組件816來發送。在一些實施例中，音訊組件810還包括一個揚聲器，用以輸出音訊信號。 I/ O介面812為處理組件802與週邊介面模組之間提供介面，上述週邊介面模組可以是鍵盤、點擊輪、按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。感測器組件814包括一個或多個感測器，用以為裝置800提供各個方面的狀態評估。例如，感測器組件814可以檢測到裝置800的打開/關閉狀態、組件的相對定位，例如所述組件為裝置800的顯示器和小鍵盤，感測器組件814還可以檢測裝置800或裝置800一個組件的位置改變，用戶與裝置800接觸的存在或不存在、裝置800方位或加速/減速和裝置800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD影像感測器，用以在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器、陀螺儀感測器、磁感測器、壓力感測器或溫度感測器。通訊組件816被配置成便於裝置800與其他設備之間有線或無線方式的通訊。裝置800可以存取基於通訊標準的無線網路，如WiFi、2G或3G、或它們的組合。在一個示例性實施例中，通訊組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中，所述通訊組件816還包括近場通訊(NFC)模組，以促進短程通訊。例如，在NFC模組可基於射頻識別(RFID)技術、紅外線資料協會(IrDA)技術、超寬頻(UWB)技術、藍牙(BT)技術和其他技術來實現。在示例性實施例中，裝置800可以被一個或多個特殊應用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式設計邏輯裝置(PLD)、現場可程式設計閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子組件實現，用以執行上述方法。在示例性實施例中，還提供了一種非易失性電腦可讀儲存媒體，例如包括電腦程式指令的記憶體804，上述電腦程式指令可由裝置800的處理器820所執行以完成上述方法。圖13是根據一示例性實施例示出的一種用於字幕顯示裝置的方塊圖。例如，裝置1900可以被提供為一伺服器。參照圖13，裝置1900包括處理組件1922，其進一步包括一個或多個處理器、以及由記憶體1932所代表的記憶體資源，用以儲存可由處理組件1922所執行的指令，例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置成執行指令，以執行上述方法。裝置1900還可以包括一個電源組件1926被配置成執行裝置1900的電源管理、一個有線或無線網路介面1950被配置成將裝置1900連接到網路、和一個輸入輸出(I/O)介面1958。裝置1900可以操作基於儲存在記憶體1932的作業系統，例如Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等等。在示例性實施例中，還提供了一種非易失性電腦可讀儲存媒體，例如包括電腦程式指令的記憶體1932，上述電腦程式指令可由裝置1900的處理組件1922所執行以完成上述方法。本發明可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存媒體，其上載有用以使處理器實現本發明的各個態樣的電腦可讀程式指令。電腦可讀儲存媒體可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存媒體例如可以是――但不限於――電儲存裝置、磁儲存裝置、光儲存裝置、電磁儲存裝置、半導體儲存裝置或者上述的任意合適的組合。電腦可讀儲存媒體的更具體的例子(非窮舉的列表)包括：可攜式電腦光碟、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可攜式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存媒體不被解釋為瞬時信號本身，諸如無線電波或者其他自由傳播的電磁波、透過波導或其他傳輸媒介傳播的電磁波(例如，透過光纖電纜的光脈衝)、或者透過電線傳輸的電信號。這裡所描述的電腦可讀程式指令可以從電腦可讀儲存媒體下載到各個計算/處理設備，或者透過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部儲存裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路轉接卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存媒體中。用以執行本發明操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、韌體指令、狀態設定資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼，所述程式設計語言包括對象導向的程式設計語言—諸如Smalltalk、C++等，以及習知的過程式程式設計語言—諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作為一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以透過任意種類的網路—包括局域網(LAN)或廣域網路(WAN)—連接到用戶電腦，或者，可以連接到外部電腦(例如，利用網際網路服務提供者來透過網際網路連接)。在一些實施例中，透過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路，例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣列(PLA)，該電子電路可以執行電腦可讀程式指令，從而實現本發明的各個態樣。這裡參照根據本發明實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本發明的各個態樣。應當理解，流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合，都可以由電腦可讀程式指令來實現。這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器，從而生產出一種機器，使得這些指令在透過電腦或其它可程式設計資料處理裝置的處理器執行時，產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存媒體中，這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式操作，從而，儲存有指令的電腦可讀媒體則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個態樣的指令。也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上，使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟，以產生電腦實現的過程，從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。圖式中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用來實現規定的邏輯功能的可執行指令。在有些作為替換的實現中，方塊中所標注的功能也可以以不同於圖式中所標注的順序發生。例如，兩個連續的方塊實際上可以基本並行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。以上已經描述了本發明的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所揭露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下，對於本發明所屬技術領域中具有通常知識者來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最佳地解釋各實施例的原理、實際應用或對市場中的技術的技術改進，或者使本發明所屬技術領域中其他具有通常知識者能理解本文揭露的各實施例。

10‧‧‧字幕資訊確定模組 20‧‧‧關鍵區域確定模組 21‧‧‧第一關鍵區域確定子模組 22‧‧‧遍歷子模組 23‧‧‧特徵提取子模組 24‧‧‧第四關鍵區域確定子模組 25‧‧‧第五關鍵區域確定子模組 30‧‧‧顯示區域確定模組 31‧‧‧第一顯示區域確定子模組 40‧‧‧播放模組 800‧‧‧裝置 802‧‧‧處理組件 804‧‧‧記憶體 806‧‧‧電源組件 808‧‧‧多媒體組件 810‧‧‧音訊組件 812‧‧‧輸入/輸出介面 814‧‧‧感測器組件 816‧‧‧通訊組件 820‧‧‧處理器 1900‧‧‧裝置 1922‧‧‧處理組件 1926‧‧‧電源組件 1932‧‧‧記憶體 1950‧‧‧網路介面 1958‧‧‧輸入輸出介面 S10‧‧‧步驟 S20‧‧‧步驟 S30‧‧‧步驟 S40‧‧‧步驟 S21‧‧‧步驟 S211‧‧‧步驟 S212‧‧‧步驟 S22‧‧‧步驟 S23‧‧‧步驟 S24‧‧‧步驟 S25‧‧‧步驟 S31‧‧‧步驟

包含在說明書中並且構成說明書的一部分的圖式與說明書一起示出了本發明的示例性實施例、特徵和態樣，並且用來解釋本發明的原理。圖1示出根據本發明一實施例的字幕顯示方法的流程圖；圖2示出根據本發明一實施例的字幕顯示方法的流程圖；圖3示出根據本發明一實施例的字幕顯示方法的流程圖；圖4示出根據本發明一實施例的字幕顯示方法中步驟S20的流程圖；圖5示出根據本發明一實施例的字幕顯示方法的流程圖；圖6示出根據本發明一實施例的字幕顯示方法的流程圖；圖7示出根據本發明一實施例的字幕顯示方法中字幕調整前的示意圖；圖8示出根據本發明一實施例的字幕顯示方法中字幕調整後的示意圖；圖9示出根據本發明一實施例的字幕顯示方法中字幕調整後的示意圖；圖10示出根據本發明一實施例的字幕顯示裝置的方塊圖；圖11示出根據本發明一實施例的字幕顯示裝置的方塊圖；圖12是根據一示例性實施例示出的一種用於字幕顯示裝置的方塊圖；圖13是根據一示例性實施例示出的一種用於字幕顯示裝置的方塊圖。

Claims

一種字幕顯示方法，其特徵在於，該方法包括：在接收到針對視頻的播放請求時，確定視頻中視頻畫面的字幕資訊；識別該視頻畫面中的關鍵區域；在該視頻畫面中除該關鍵區域以外的區域確定字幕顯示區域；以及在該視頻的播放過程中，在該字幕顯示區域顯示該字幕資訊中的字幕內容。
根據請求項1所述的方法，其中，識別該視頻畫面中的關鍵區域，包括：利用深度學習演算法，識別該視頻畫面中的關鍵區域。
根據請求項2所述的方法，其中，利用深度學習演算法，識別該視頻畫面中的關鍵區域，包括：利用深度學習演算法在該視頻畫面中確定目標對象；以及將該目標對象所在的顯示區域，確定為關鍵區域。
根據請求項3所述的方法，其中，將該目標對象所在的顯示區域，確定為該視頻畫面的關鍵區域，包括：利用深度學習演算法來確定該目標對象的關鍵部位；將該關鍵部位所在的顯示區域，確定為關鍵區域。
根據請求項3所述的方法，其中，該目標對象包括面部，利用深度學習演算法在該視頻畫面中確定目標對象，包括：利用面部識別演算法，在該視頻畫面中檢測得到面部。
根據請求項1所述的方法，其中，識別該視頻畫面中關鍵區域，包括：利用關鍵視窗在該視頻畫面中遍歷，並將該關鍵視窗所在的區域確定為候選區域，該關鍵視窗的面積小於該視頻畫面的面積；提取該候選區域內的特徵，並根據提取到的特徵來確定該候選區域內是否包括目標對象；以及當該候選區域內包括目標對象時，將該候選區域確定為關鍵區域。
根據請求項1所述的方法，其中，識別該視頻畫面中的關鍵區域，包括：當該視頻畫面為該視頻畫面之前的視頻畫面的近景畫面時，識別該視頻畫面中的關鍵區域。
根據請求項1所述的方法，其中，在該視頻畫面中除該關鍵區域以外的區域確定字幕顯示區域，包括：根據該字幕資訊，在該視頻畫面中除該關鍵區域以外的區域確定字幕顯示區域。
根據請求項8所述的方法，其中，該字幕資訊包括該視頻畫面的原始字幕顯示區域，根據該字幕資訊，在該視頻畫面中除該關鍵區域以外的區域確定字幕顯示區域，包括：當該原始字幕顯示區域和該關鍵區域有重疊時，將該原始字幕顯示區域調整至該視頻畫面中除該關鍵區域以外的區域。
根據請求項9所述的方法，其中，當該原始字幕顯示區域和該關鍵區域有重疊時，將該原始字幕顯示區域調整至該視頻畫面中除該關鍵區域以外的區域，包括: 當該原始字幕顯示區域和該關鍵區域有重疊時，將該原始字幕顯示區域分為至少兩個顯示子區域，並將至少兩個該顯示子區域調整至該視頻畫面中除該關鍵區域以外的區域。
根據請求項8所述的方法，其中，根據該字幕資訊，在該視頻畫面中除該關鍵區域以外的區域確定字幕顯示區域，包括：根據該字幕資訊中的字幕內容，在該視頻畫面中除該關鍵區域以外的區域確定字幕顯示區域。
一種字幕顯示裝置，其特徵在於，該裝置包括：字幕資訊確定模組，用以在接收到針對視頻的播放請求時，確定視頻中視頻畫面的字幕資訊；關鍵區域確定模組，用以識別該視頻畫面中的關鍵區域；顯示區域確定模組，用以在該視頻畫面中除該關鍵區域以外的區域確定字幕顯示區域；以及播放模組，用以在該視頻的播放過程中，在該字幕顯示區域顯示該字幕資訊中的字幕內容。
根據請求項12所述的裝置，其中，該關鍵區域確定模組包括：第一關鍵區域確定子模組，用以利用深度學習演算法，識別該視頻畫面中的關鍵區域。
根據請求項13所述的裝置，其中，該第一關鍵區域確定子模組，包括：目標對象確定子模組，用以利用深度學習演算法在該視頻畫面中確定目標對象；第二關鍵區域確定子模組，用以將該目標對象所在的顯示區域，確定為關鍵區域。
根據請求項14所述的裝置，其中，該第二關鍵區域確定子模組，包括：關鍵部位確定子模組，用以利用深度學習演算法來確定該目標對象的關鍵部位；以及第三關鍵區域確定子模組，用以將該關鍵部位所在的顯示區域，確定為關鍵區域。
根據請求項14所述的裝置，其中，該目標對象包括面部，該目標對象確定子模組，包括：面部檢測子模組，用以利用面部識別演算法，在該視頻畫面中檢測得到面部。
根據請求項12所述的裝置，其中，該關鍵區域確定模組，包括：遍歷子模組，用以利用關鍵視窗在該視頻畫面中遍歷，並將該關鍵視窗所在的區域確定為候選區域，該關鍵視窗的面積小於該視頻畫面的面積；特徵提取子模組，用以提取該候選區域內的特徵，並根據提取到的特徵來確定該候選區域內是否包括目標對象；以及第四關鍵區域確定子模組，用以當該候選區域內包括目標對象時，將該候選區域確定為關鍵區域。
根據請求項12所述的裝置，其中，該關鍵區域確定模組，包括：第五關鍵區域確定子模組，用以當該視頻畫面為該視頻畫面之前的視頻畫面的近景畫面時，利用深度學習演算法在該視頻畫面中確定關鍵區域。
根據請求項12所述的裝置，其中，該顯示區域確定模組，包括：第一顯示區域確定子模組，用以根據該字幕資訊，在該視頻畫面中除該關鍵區域以外的區域確定字幕顯示區域。
根據請求項19所述的裝置，其中，該字幕資訊包括該視頻畫面的原始字幕顯示區域，該第一顯示區域確定子模組，包括：第二顯示區域確定子模組，用以當該原始字幕顯示區域和該關鍵區域有重疊時，將該原始字幕顯示區域調整至該視頻畫面中除該關鍵區域以外的區域。
根據請求項20所述的裝置，其中，該第二顯示區域確定子模組，包括: 第三顯示區域確定子模組，用以當該原始字幕顯示區域和該關鍵區域有重疊時，將該原始字幕顯示區域分為至少兩個顯示子區域，並將至少兩個該顯示子區域調整至該視頻畫面中除該關鍵區域以外的區域。
根據請求項19所述的裝置，其中，該第一顯示區域確定子模組，包括：第四顯示區域確定子模組，用以根據該字幕資訊中的字幕內容，在該視頻畫面中除該關鍵區域以外的區域確定字幕顯示區域。
一種字幕顯示裝置，其特徵在於，包括：處理器；用以儲存處理器可執行指令的記憶體；其中，該處理器被配置成：執行根據請求項1至11中任一項所述的方法。
一種非易失性電腦可讀儲存媒體，其上儲存有電腦程式指令，其特徵在於，該電腦程式指令被處理器執行時實現根據請求項1至11中任一項所述的方法。