TWI777771B

TWI777771B - 行動影音裝置及影音播放控制方法

Info

Publication number: TWI777771B
Application number: TW110134475A
Authority: TW
Inventors: 丁國基
Original assignee: 英業達股份有限公司
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2022-09-11
Also published as: TW202314468A

Abstract

一種影音播放控制方法，包含藉由顯示介面播放影片的多個顯示畫面且藉由音訊輸出介面輸出影片的音訊，藉由輸入介面接收指示訊號，藉由處理器依據指示訊號取得顯示介面的當前畫面中的目標角色圖案，藉由處理器依據所述多個角色動作與多個預處理音軌的對應關係，從音訊中提取對應於目標角色圖案的判定音軌，以及藉由處理器控制音訊輸出介面輸出判定音軌。其中，指示訊號指示畫面座標，目標角色圖案對應於畫面座標且對應於多個角色動作中之一者。

Description

行動影音裝置及影音播放控制方法

本發明係關於一種影音播放控制方法。

現今3C產品（例如筆記型電腦、平板、手機等行動裝置）皆具有影音播放的功能，可以供使用者觀看影片。舉例來說，使用者可以透過傳輸埠（例如通用序列匯流排）將影片存入行動裝置的記憶體中並利用行動裝置的應用程式來觀看影片。或者，使用者可以透過行動裝置的連網功能於YouTube、NETFLIX、Apple TV+、myVideo等平台觀看影片，或從該些平台下載影片以離線觀看。然而目前行動裝置在播放影片時，通常聲音都是混著播出。

鑒於上述，本發明提供一種行動影音裝置及影音播放控制方法，可以提供指定角色圖案所對應的聲音。

依據本發明一實施例的行動影音裝置，包含輸入介面、顯示介面、音訊輸出介面、記憶體及處理器，其中處理器連接於輸入介面、顯示介面、音訊輸出介面及記憶體。輸入介面用於接收指示訊號。顯示介面用於播放影片的多個顯示畫面。音訊輸出介面用於輸出影片的音訊。記憶體儲存多個角色動作與多個預處理音軌的對應關係。處理器用於：依據指示訊號，取得顯示介面的當前畫面中的目標角色圖案，其中指示訊號指示畫面座標，目標角色圖案對應於畫面座標且對應於所述多個角色動作中之一者；依據所述多個角色動作與所述多個預處理音軌的對應關係，從音訊中提取對應於目標角色圖案的判定音軌；以及控制音訊輸出介面輸出判定音軌。

依據本發明一實施例的影音播放控制方法，包含：藉由顯示介面播放影片的多個顯示畫面，且藉由音訊輸出介面輸出影片的音訊；藉由輸入介面接收指示訊號；藉由處理器依據指示訊號，取得顯示介面的當前畫面中的目標角色圖案，其中指示訊號指示畫面座標，目標角色圖案對應於畫面座標且對應於多個角色動作中之一者；藉由處理器依據所述多個角色動作與多個預處理音軌的對應關係，從音訊中提取對應於目標角色圖案的判定音軌；以及藉由處理器控制音訊輸出介面輸出判定音軌。

藉由上述架構，本案所揭示的行動影音裝置及影音播放控制方法，基於多個角色動作與多個預處理音軌的對應關係，判定由輸入介面所接收的指示訊號所指定的角色圖案具有的角色動作及對應此角色動作的音軌，可以提供單獨播放指定角色圖案所對應的聲音之功能。

以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理，並且提供本發明之專利申請範圍更進一步之解釋。

以下在實施方式中詳細敘述本發明之詳細特徵以及優點，其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施，且根據本說明書所揭露之內容、申請專利範圍及圖式，任何熟習相關技藝者可輕易地理解本發明相關之目的及優點。以下之實施例係進一步詳細說明本發明之觀點，但非以任何觀點限制本發明之範疇。

請參考圖1，圖1為依據本發明一實施例所繪示的行動影音裝置的功能方塊圖。如圖1所示，行動影音裝置10包含輸入介面11、顯示介面13、音訊輸出介面15、記憶體17及處理器19，其中處理器19透過有線或無線方式連接於輸入介面11、顯示介面13、音訊輸出介面15及記憶體17。特別來說，行動影音裝置10可以但不限於以筆記型電腦、平板、手機或其他具有影音播放功能的行動裝置實現。

輸入介面11用於接收指示訊號。輸入介面11例如為筆記型電腦的滑鼠或觸控板、平板的觸控介面或手機的觸控介面。於一實施態樣中，指示訊號係單點點擊訊號，其觸發位置對應於顯示介面13的畫面上的特定畫面座標。於另一實施態樣中，指示訊號係滑動訊號，其指示一封閉曲線，且封閉曲線的幾何中心位置對應於顯示介面13的畫面上的特定畫面座標。顯示介面13例如為筆記型電腦、平板或手機的螢幕，音訊輸出介面15則例如為喇叭。顯示介面13及音訊輸出介面15用於播放影片。進一步來說，顯示介面13用於播放影片的多個顯示畫面，音訊輸出介面15則用於輸出影片的音訊。

記憶體17例如為快閃（flash）記憶體、硬碟（HDD）、固態硬碟（SSD）、動態隨機存取記憶體（DRAM）、靜態隨機存取記憶體（SRAM）或其他非揮發性記憶體。記憶體17可以為本地儲存媒介或可以為遠端儲存媒介，例如雲端資料庫。記憶體17儲存多個角色動作與多個預處理音軌的對應關係，其中所述對應關係例如係以查找表的形式儲存。處理器19例如為中央處理器、微控制器、可程式化邏輯控制器或其他處理器。處理器19用於依據輸入介面11所接收的指示訊號來對影片進行處理，以播放指定角色所對應的聲音，其中進一步的執行步驟將於後描述。

請一併參考圖1及2，其中圖2係依據本發明一實施例所繪示的影音播放控制方法的流程圖。如圖2所示，影音播放控制方法可以包含步驟S201～S205。圖2所示的影音播放控制方法可以由圖1所示的行動影音裝置10執行，但不限於此。為了方便理解，以下示例性地以行動影音裝置10的運作來說明圖2所示的影音播放控制方法。

於步驟S201中，行動影音裝置10藉由顯示介面13播放影片的多個顯示畫面，且藉由音訊輸出介面15輸出影片的音訊。於步驟S202，行動影音裝置10藉由輸入介面11接收指示訊號。接著，行動影音裝置10藉由處理器19執行步驟S203～S204。於步驟S203中，處理器19依據指示訊號取得顯示介面13的當前畫面中的目標角色圖案，其中指示訊號指示畫面座標，目標角色圖案對應於畫面座標且對應於多個角色動作中之一者。如前所述，指示訊號可以為單點點擊訊號或滑動訊號，指示顯示介面13的畫面上的特定座標。處理器19可以判斷當前畫面中的一或多個特徵區塊中與此特定座標（畫面座標）最近的特徵區塊為目標角色圖案（例如具有與特定座標距離最短的幾何中心座標）。進一步來說，影片可以在播放前經處理器19或外部處理器（例如雲端伺服器）以人工智慧（AI）技術處理而取得每個畫面中的一或多個特徵區塊，並判斷這些特徵區塊所對應的角色動作，將特徵區塊標記對應角色動作的符號，進一步的處理方式將於後描述。

於步驟S204中，處理器19依據記憶體17中所儲存的多個角色動作與多個預處理音軌的對應關係，從音訊中提取對應於目標角色圖案的判定音軌。如前所述，目標角色圖案對應於角色動作中之一者，處理器19便依據上述對應關係判斷對應於目標角色圖案的預處理音軌。進一步來說，影片的音訊可以在播放前經處理器19或外部處理器（例如雲端伺服器）以人工智慧（AI）技術處理而取得多個預處理音軌。於一實施態樣中，預處理音軌係對部分影片的音訊進行處理而得，處理器19可以依據對應於目標角色圖案的預處理音軌的聲紋，從音訊中提取具有相同聲紋的判定音軌。於另一實施態樣中，預處理音軌係對完整影片的音訊進行處理而得，處理器19可以將對應於目標角色圖案的預處理音軌作為判定音軌。

於步驟S205中，處理器19控制音訊輸出介面15輸出判定音軌。於一實施態樣中，處理器19可以控制音訊輸出介面15僅輸出判定音軌而不輸出音訊中的其他音軌。於另一實施態樣中，處理器19可以控制音訊輸出介面15以高於其他音軌的音量輸出判定音軌。

如前所述，影片的畫面及音訊可以在播放前經處理器19或外部處理器（例如雲端伺服器）以人工智慧（AI）技術處理，以取得各畫面上的特徵區塊、音訊所含的多個音軌以及角色動作與音軌之間的對應關係，並儲存至記憶體17。進一步的處理流程請參考圖3，圖3係依據本發明一實施例所繪示的影音播放控制方法的預處理流程圖。如圖3所示，影音播放控制方法的預處理流程可以包含步驟S301～S304。

於步驟S301中，處理器對影片的多個顯示畫面執行多目標追蹤以取得多個角色各自在所述多個顯示畫面中所對應的多個特徵區塊。此處所述的多個顯示畫面特別係影片的所有顯示畫面。進一步來說，處理器所執行之多目標追蹤可以包含：調整顯示畫面大小；將調整後的顯示畫面輸入預先訓練好的物件偵測模型（例如Yolov3或其他可偵測人物的偵測模型），以產生多個偵測框；將所述多個偵測框輸入追蹤器處理，以取得多個角色的追蹤結果，即各角色在各顯示畫面中的特徵區塊。其中，追蹤器可以對輸入資料執行多目標追蹤演算法，例如SORT（Simple Online and Real-time Tracking）。

於步驟S302中，處理器將影片的音訊分離為具有不同聲紋的多個預處理音軌。進一步來說，處理器可以藉由預先訓練好的聲源分離模型將音訊分離為具有不同聲紋的多個預處理音軌。聲源分離模型例如是預先以大量的人聲、鼓聲、吉他聲或/及其他樂器聲的資料以AI智慧音源聲軌分離（Music Source Separation in the Waveform Domain）技術訓練而成的機器學習模型，其中所述AI智慧音源聲軌分離技術例如為DEMUCS。音訊經聲源分離模型處理可以分離為分別包含不同人聲或樂器聲的音軌。於此要特別說明的是，處理器對於影片畫面的預處理以及對於影片音訊的預處理可以分別或同時執行。除了如圖3所示地執行於步驟S301之後，步驟S302可以與步驟S301同時執行，或可以執行於步驟S301之前。

於步驟S303中，處理器對每一角色的特徵區塊執行動作辨識，並依據動作辨識結果標記每一角色的特徵區塊，其中動作辨識結果指示多個角色動作中之一者。進一步來說，處理器可以將每個角色在各顯示畫面中的特徵區塊輸入預先訓練好的動作辨識模型，以辨識各角色的動作（即取得動作辨識結果）。動作辨識模型例如是預先以大量的唱歌、打鼓、彈吉他或/及其他樂器彈奏的動作影像訓練而成的機器學習模型（例如以SORT訓練而成），所述唱歌、打鼓、彈吉他或/及其他樂器彈奏即為所述多個角色動作。處理器可以將具有不同角色動作的角色在顯示畫面中的特徵區塊標記不同的符號，以在後續特徵區塊受指示訊號選取時供處理器判斷特徵區塊所對應的角色動作（即前述步驟S203）。

於步驟S304中，處理器建立所述多個角色動作與所述多個預處理音軌的對應關係。進一步來說，處理器可以於包含人聲的音軌資料標記代表唱歌的符號，使包含鼓聲的音軌資料帶有代表打鼓的符號，使包含吉他聲的音軌資料帶有代表彈吉他的符號，或以查找表的方式記錄上述音軌與動作符號的對應關係。其中，上述標記規則可以預設於處理器，例如由使用者設定。另外要特別說明的是，上述步驟S303須執行於步驟S301之後，步驟S304須執行於步驟S302之後，其他順序關係則不予限制。

舉一個實例來說明前述影音播放控制方法的執行內容，請參考圖4，圖4係依據本發明一實施例所繪示的影片顯示畫面示意圖。如圖4所示，顯示畫面F1具有經預處理所得之多個特徵區塊P1～P3，特徵區塊P1標記有打鼓的符號，特徵區塊P2標記有唱歌的符號，特徵區塊P3則標記有彈吉他的符號。當使用者藉由輸入介面點選特徵區塊P1時，處理器判斷指示訊號指示的畫面座標與特徵區塊P1的幾何中心座標距離最短，並控制音訊輸出介面輸出鼓聲的音軌。同理，當使用者點選特徵區塊P2時，音訊輸出介面輸出吉他聲的音軌；當使用者點選特徵區塊P3時，音訊輸出介面輸出人聲的音軌。特別來說，圖4所示之表示特徵區塊P1～P3的灰色方框僅為示例性地繪示，可以不顯示於畫面上。

雖然本發明以前述之實施例揭露如上，然其並非用以限定本發明。在不脫離本發明之精神和範圍內，所為之更動與潤飾，均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。

10:行動影音裝置

11:輸入介面

13:顯示介面

15:音訊輸出介面

17:記憶體

19:處理器

F1:顯示畫面

P1、P2、P3:特徵區塊

圖1係依據本發明一實施例所繪示的行動影音裝置的功能方塊圖。圖2係依據本發明一實施例所繪示的影音播放控制方法的流程圖。圖3係依據本發明一實施例所繪示的影音播放控制方法的預處理流程圖。圖4係依據本發明一實施例所繪示的影片顯示畫面示意圖。

Claims

一種行動影音裝置，包含：一輸入介面，用於接收一指示訊號；一顯示介面，用於播放一影片的多個顯示畫面；一音訊輸出介面，用於輸出該影片的音訊；一記憶體，儲存多個角色動作與多個預處理音軌的對應關係；以及一處理器，連接於該輸入介面、該顯示介面、該音訊輸出介面及該記憶體，且用於：依據該指示訊號，取得該顯示介面的當前畫面中的一目標角色圖案，其中該指示訊號指示一畫面座標，該目標角色圖案對應於該畫面座標且對應於該些角色動作中之一者；依據該些角色動作與該些預處理音軌的該對應關係，從該音訊中提取對應於該目標角色圖案的一判定音軌；以及控制該音訊輸出介面輸出該判定音軌，其中該處理器所執行之依據該指示訊號，取得該顯示介面的當前畫面中的該目標角色圖案包含判斷當前畫面中的一或多個特徵區塊中與該畫面座標最近的特徵區塊為該目標角色圖案。
如請求項1所述的行動影音裝置，其中該處理器更用於：對該些顯示畫面執行多目標追蹤以取得多個角色各自在該些顯示畫面中所對應的多個特徵區塊；將該音訊分離為具有不同聲紋的多個預處理音軌；對每一該些角色的該些特徵區塊執行動作辨識，並依據動作辨識結果標記每一該些角色的該些特徵區塊，其中該動作辨識結果指示該些角色動作中之一者；以及建立該些角色動作與該些預處理音軌的該對應關係。
如請求項1所述的行動影音裝置，其中該指示訊號係一單點點擊訊號，該單點點擊訊號的觸發位置對應於該畫面座標。
如請求項1所述的行動影音裝置，其中該指示訊號係一滑動訊號，該滑動訊號指示一封閉曲線，且該封閉曲線的幾何中心位置對應於該畫面座標。
一種影音播放控制方法，包含：藉由一顯示介面播放一影片的多個顯示畫面，且藉由一音訊輸出介面輸出該影片的音訊；藉由一輸入介面接收一指示訊號；藉由一處理器依據該指示訊號，取得該顯示介面的當前畫面中的一目標角色圖案，其中該指示訊號指示一畫面座標，該目標角色圖案對應於該畫面座標且對應於多個角色動作中之一者；藉由該處理器依據該些角色動作與多個預處理音軌的對應關係，從該音訊中提取對應於該目標角色圖案的一判定音軌；以及藉由該處理器控制該音訊輸出介面輸出該判定音軌，其中依據該指示訊號，取得該顯示介面的當前畫面中的該目標角色圖案包含：判斷當前畫面中的一或多個特徵區塊中與該畫面座標最近的特徵區塊為該目標角色圖案。
如請求項5所述的影音播放控制方法，更包含藉由該處理器執行：對該些顯示畫面執行多目標追蹤以取得多個角色各自在該些顯示畫面中所對應的多個特徵區塊；將該音訊分離為具有不同聲紋的多個預處理音軌；對每一該些角色的該些特徵區塊執行動作辨識，並依據動作辨識結果標記每一該些角色的該些特徵區塊，其中該動作辨識結果指示該些角色動作中之一者；以及建立該些角色動作與該些預處理音軌的該對應關係。
如請求項5所述的影音播放控制方法，其中該指示訊號係一單點點擊訊號，該單點點擊訊號的觸發位置對應於該畫面座標。
如請求項5所述的影音播放控制方法，其中該指示訊號係一滑動訊號，該滑動訊號指示一封閉曲線，且該封閉曲線的幾何中心位置對應於該畫面座標。