TW202046140A - 動態處理並播放多媒體內容的方法及多媒體播放裝置 - Google Patents

動態處理並播放多媒體內容的方法及多媒體播放裝置 Download PDF

Info

Publication number
TW202046140A
TW202046140A TW108119190A TW108119190A TW202046140A TW 202046140 A TW202046140 A TW 202046140A TW 108119190 A TW108119190 A TW 108119190A TW 108119190 A TW108119190 A TW 108119190A TW 202046140 A TW202046140 A TW 202046140A
Authority
TW
Taiwan
Prior art keywords
node
multimedia content
target group
playing
multimedia
Prior art date
Application number
TW108119190A
Other languages
English (en)
Other versions
TWI780333B (zh
Inventor
陳志明
陳延川
Original Assignee
緯創資通股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 緯創資通股份有限公司 filed Critical 緯創資通股份有限公司
Priority to TW108119190A priority Critical patent/TWI780333B/zh
Priority to CN201910619509.7A priority patent/CN112040329B/zh
Priority to US16/546,321 priority patent/US11163815B2/en
Publication of TW202046140A publication Critical patent/TW202046140A/zh
Application granted granted Critical
Publication of TWI780333B publication Critical patent/TWI780333B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4825End-user interface for program selection using a list of items to be played back in a given order, e.g. playlists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/282Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

一種動態處理並播放多媒體內容的方法及多媒體播放裝置。基於標題產生主題地圖。主題地圖包括多個節點,每一個節點對應至一個多媒體內容。透過這些節點的排列組合而獲得多個節點群組。在這些節點群組中找出符合限制條件的目標群組。依據至少一獎勵表格來決定目標群組中各節點的播放順序。依照播放順序來處理並播放目標群組所包括的一或多個多媒體內容。

Description

動態處理並播放多媒體內容的方法及多媒體播放裝置
本發明是有關於一種播放多媒體內容的方法及裝置,且特別是有關於一種動態處理並播放多媒體內容的方法及多媒體播放裝置。
傳統上,演講者在演講之前將電子簡報的投影片放在檔案中。而電子簡報的播放是靜態的,其遵循預定的順序。傳統的電子簡報不能通過更新投影片來響應情境(例如觀眾的情緒、意圖或是演講時間的限制),也不能在演講期間動態添加、刪除或重新排列投影片。因此,在播放上缺乏彈性的調整。
本發明提供一種動態處理並播放多媒體內容的方法,能夠視情況來動態地處理並排列多媒體內容的播放順序。
本發明的動態處理並播放多媒體內容的方法,包括:基於標題產生主題地圖,其中主題地圖包括多個節點,每一個節點對應至一個多媒體內容,且透過這些節點的排列組合而獲得多個節點群組;在這些節點群組中找出符合限制條件的目標群組;依據至少一獎勵表格來決定目標群組中各節點的播放順序;以及依照播放順序來處理並播放目標群組所包括的一或多個多媒體內容。
在本發明的一實施例中,上述動態處理並播放多媒體內容的方法更包括:建立多個樣本;以及基於強化學習對這些樣本進行批次學習,藉此獲得對應不同場景的獎勵表格。
在本發明的一實施例中,基於標題產生主題地圖的步驟包括:基於標題在一知識庫的多個子標題以及多個文章之間進行選擇;以及以所選擇的一或多個子標題、一或多個文章與其階層關係,建立主題地圖。
在本發明的一實施例中,在這些節點群組中找出符合限制條件的目標群組的步驟包括:利用深度語意匹配模型來計算主題地圖所包括的每一個節點的語意分數;基於限制條件來過濾節點群組;以及使用貝葉斯優化(Bayesian Optimization)演算法而根據過濾後的每一個節點群組所包括的各節點的語意分數來找出目標群組。
在本發明的一實施例中,依照播放順序來處理並播放目標群組所包括的多媒體內容的步驟更包括:在處理並播放多媒體內容的過程中接收到重新調整指令時,選擇另一節點群組來作為目標群組;依據獎勵表格來重新決定目標群組中各節點的另一播放順序;以及依照另一播放順序來處理並播放目標群組所包括的一或多個多媒體內容。
在本發明的一實施例中,上述動態處理並播放多媒體內容的方法更包括:在處理並播放多媒體內容的過程中接收到使用者指令時或每隔一時間間隔便發出重新調整指令。
在本發明的一實施例中,重新調整指令包括另一限制條件。而選擇另一節點群組來作為目標群組的步驟包括:自未播放的多媒體內容所對應的節點的節點群組中,基於另一限制條件來過濾節點群組;以及使用貝葉斯優化演算法而根據過濾後的每一個節點群組所包括的各節點的語意分數來找出另一節點群組來作為目標群組。
在本發明的一實施例中,限制條件包括時間限制以及情緒限制至少其中一個。
在本發明的一實施例中,上述動態處理並播放多媒體內容的方法更包括:收集多個現場觀眾的多個情緒特徵;以及分析這些情緒特徵,以決定情緒限制。
在本發明的一實施例中,上述動態處理並播放多媒體內容的方法更包括:在接收到重新調整指令時,計算剩餘時間,以剩餘時間作為時間限制。
本發明的多媒體播放裝置,包括:處理器以及儲存裝置。儲存裝置耦接至處理器,並儲存有多個程式碼片段,其中這些程式碼片段在被安裝後,由處理器來執行,以實現動態處理並播放多媒體內容的方法。處理器基於標題產生主題地圖,其中主題地圖包括多個節點,各節點對應至其中一個多媒體內容,且透過這些節點的排列組合而獲得多個節點群組。處理器在這些節點群組中找出符合限制條件的目標群組。處理器依據至少一獎勵表格來決定目標群組中各節點的播放順序。處理器依照播放順序來處理並播放目標群組所包括的一或多個多媒體內容。
基於上述,本發明能夠動態地處理並調整播放多媒體內容,並在播放期間重新排列多媒體內容的播放順序。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1是依照本發明一實施例的多媒體內容播放裝置的方塊圖。請參照圖1,多媒體播放裝置100為具有運算能力的電子裝置。例如,多媒體播放裝置100可以是筆記型電腦、平板電腦、智慧型手機、智慧型眼鏡、智慧型攝像頭、桌上型電腦、伺服器等。
在本實施例中,多媒體播放裝置100外接至一顯示裝置140。顯示裝置140例如為投影裝置或巨型顯示器等。透過多媒體播放裝置100來執行動態處理並播放多媒體內容的方法,以決定多媒體內容在顯示裝置140上的播放順序,並且產生新的多媒體內容或多媒體檔案。在此,所述「處理」指的是多媒體播放裝置100將多媒體內容轉換為可以播放的檔案。例如,對多媒體內容進行處理以獲得投影片或其他適合觀看的檔案。多媒體播放裝置100包括處理器110、儲存裝置120以及輸出裝置130。處理器110耦接至儲存裝置120與輸出裝置130。
處理器110例如為中央處理單元(Central Processing Unit,CPU)、圖像處理單元(Graphic Processing Unit,GPU)、物理處理單元(Physics Processing Unit,PPU)、可程式化之微處理器(Microprocessor)、嵌入式控制晶片、數位訊號處理器(Digital Signal Processor,DSP)、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)或其他類似裝置。
儲存裝置120例如是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash memory)、安全數位卡(Secure Digital Memory Card,SD)、硬碟或其他類似裝置或這些裝置的組合。儲存裝置120中儲存有多個程式碼片段,上述程式碼片段在被安裝後,會由處理器110來執行,以實現動態處理並播放多媒體內容的方法各步驟。
輸出裝置130例如為網路卡、WiFi模組等通訊晶片,或者為影片圖型陣列(Video Graphics Array,VGA)、高畫質多媒體介面(High Definition Multimedia Interface,HDMI)或顯示埠(Display Port,DP)等連接介面規範的傳輸介面電路。輸出裝置130用以將多媒體內容顯示至外接的顯示裝置140。
利用多媒體播放裝置100來處理多媒體內容及決定播放順序及多媒體內容,並產生欲播放的多媒體檔案。多媒體檔案例如為電子投影片、視頻、音頻、影像、文字等。例如,在儲存裝置120中設置一應用程式,由應用程式來負責處理、排序多媒體內容並產生欲播放的多媒體檔案。
另外,多媒體播放裝置100還可進一步包括未繪示的內建顯示器。例如,智慧型眼鏡中的成像裝置、筆記型電腦的螢幕、平板電腦的螢幕等。在內建顯示器中呈現出當次播放中所包括的全部多媒體內容,而在外接的顯示裝置140中僅顯示已挑選且排序過的多媒體內容。並且,多媒體播放裝置100更包括未繪示的影像擷取裝置及/或收音裝置,藉此來收集現場觀眾的情緒特徵,以依據觀眾情緒來決定多媒體內容的處理及播放順序。
底下再舉例來說明如何動態處理並播放多媒體內容的方法各步驟。圖2是依照本發明一實施例的動態處理並播放多媒體內容的方法流程圖。請參照圖2,在步驟S205中,基於所接收標題搜尋知識庫,藉此產生主題地圖(topic map)。在此,知識庫儲存在儲存裝置120中。而在其他實施例中,知識庫亦可儲存在遠端伺服器中。於一實施例中,使用者可透過多媒體播放裝置100輸入欲播放的標題,處理器110基於標題來查詢知識庫。而主題地圖包括多個節點,一個節點對應至一個標題、一個子標題、文章或一個多媒體內容,且透過這些節點的排列組合而獲得多個節點群組。
主題地圖是對知識進行表示和交互的一種標準,強調訊息的可查找性,並且結合了傳統索引、搜尋引擎與人工智慧等領域的優點,可以有效的組織知識以利於探索、推理,解決大量無序信息所帶來的問題。主題地圖即如同書本的書後主題索引一般。主題索引的主要目的在於將某一主題範圍(Knowledge Domain)內的各主題及單一主題內之附屬子題列出,並建立見(see)及參見(see also)之參照關係,將具有關聯性之主題加以連接。主題地圖是一種類似於資源描述框架(Resource Description Framework,RDF)的語意網(Semantic Web)技術。
知識庫例如為語意網資料庫(Semantic Web Database)。知識庫中包括多個短字串以及多個長字串。短字串例如為標題、子標題,長字串例如為文章等。基於所接收的標題自知識庫中來選擇多個子標題及/或文章,之後以所選擇的一或多個子標題、一或多個文章與其階層關係,來建立主題地圖。而在一層一層往下搜尋的過程中,在找到文章之後,就不再往下一層進行搜尋。
底下以製作電子投影片為例來說明主題地圖的建立。圖5是依照本發明一實施例的主題地圖的示意圖。在圖5中,以「全球暖化」來作為標題,藉由查詢知識庫可以獲得「全球暖化」底下所包括的多個子標題、文章以及這些子標題、文章之間的階層關係,藉此來產生整個主題地圖。
接著,在步驟S210中,在多個節點群組中找出符合限制條件的目標群組。目標群組為符合限制條件中具有最佳化的目標函數的節點。利用目標函數所獲得的分數來判斷這些節點群組是否為最佳節點群組。具體而言,先利用深度語意匹配模型(Deep Semantic Similarity Model,DSSM)來計算主題地圖所包括的各節點的語意分數。深度語意匹配模型主要用途在於計算語意空間的相似度,因為這一特性,DSSM可以用在各種途徑,用來解決各種實際工作的任務,如機器翻譯、搜尋引擎、圖文描述生成、對話系統、上下文命名實體識別等等。
另外,在計算語義分數之前,更可進一步基於限制條件來過濾節點群組。即,先基於限制條件來過濾節點群組,之後再利用深度語意匹配模型來計算主題地圖中過濾後的各節點的語意分數。另外,在其他實施例中,也可以先利用深度語意匹配模型來計算主題地圖所包括的各節點的語意分數,之後再基於限制條件來過濾節點群組。限制條件例如為本次欲進行播放的最長時間。並且,使用貝葉斯優化(Bayesian Optimization)演算法而根據過濾後的各節點群組所包括的各節點的語意分數來找出目標群組。在另一實施例中,例如使用限制貝葉斯優化(Constrained Bayesian Optimization)演算法來找出目標群組,並基於限制條件過濾節點,例如包括演講時間限制和聽眾情緒限制。
圖3是依照本發明一實施例的貝葉斯優化演算法流程的示意圖。請參照圖3,將由主題地圖中的多個節點進行排列組合所獲得的多個節點群組放入至解答空間510中。接著,執行貝葉斯優化演算法520。
在此,貝葉斯優化演算法520是基於限制條件(constraint)以及目標函數(objective function)來執行。限制條件例如為時間限制以及情緒限制,目標函數使用的是語意分數。即,貝葉斯優化演算法520利用時間限制來限制多媒體檔案的呈現時間,利用情緒限制來以限制欲播放的多媒體內容的類型。並且,利用目標函數所獲得的分數來判斷是否為最佳節點群組。
之後,利用帕雷托最優(Pareto Frontier)530來獲得多n組最佳節點群組,再從n組最佳節點群組中挑出一個最合適的解來作為目標群組。例如,使用者可視情況來進行選擇其中一者,或是自動選出總語意分數最高的一者等,在此並不限制。
在尚未進行播放之前,貝葉斯優化演算法520以節點群組中各節點的語意分數作為目標函數,並且基於剩餘時間限制及/或情緒限制來執行貝葉斯優化演算法520。之後,在播放過程中,貝葉斯優化演算法520再基於當下的剩餘時間限制及/或情緒限制(例如當下的觀眾情緒)來重複執行。
返回圖2,在步驟S215中,依據多個獎勵表格來決定目標群組中各節點的播放順序。進一步地說,基於深度優先搜尋(Depth First Search)依據經由強化學習所獲得的多個獎勵表格來決定目標群組中各節點的播放順序。本實施例是利用生成對抗網路(Generative Adversarial Network,GAN)來建立多個樣本。GAN包括鑑別器(Discriminator)以及生成器(Generator)兩個神經網路。由生成器來生成樣本,由鑑別器來檢查樣本的真偽。接著,基於強化學習進行批次學習,藉此獲得獎勵表格。
在此,強化學習例如為Q學習(Q-learning),獎勵表格例如為Q表格(Q-table)。Q學習所獲得的獎勵值會儲存在Q表格中。強化學習涉及一個智能體(agent)、一組狀態(state)和每個狀態下的一組動作(action)。通過執行一個動作,智能體從一個狀態轉移到另一個狀態。在一個特定的狀態下執行一個動作時,智能體可以得到一個獎勵值。
GAN針對幾個特定場景來產生多個樣本,並且將樣本作為Q學習的輸入來訓練出Q表格。Q表格如下所示。然,下述Q表格僅為舉例說明,實際應用會視情況來決定Q表格的維度及其獎勵值。
Figure 02_image001
在Q表格中記錄了在每一個狀態(State)下,對每一個動作(Action)的獎勵值。而每一個節點會對應至獎勵表格。也就是說,在決定了目前欲播放的節點之後,透過查詢獎勵表格來決定下一個欲播放的節點。於另一實施例中,多媒體播放裝置100依據深度優先搜尋(Depth First Search)並參考經由強化學習所獲得的多個獎勵表格來決定目標群組中各節點的播放順序。Q表格的獎勵值會根據不同的場景由不同的樣本輸入訓練而成。例如,在技術研討會的場景中,Q表格會根據會導致情緒為“喜愛”的場景來訓練,因此技術研討會場景對應的Q表格的獎勵值已累積了大量導致情緒為“喜愛”的經驗。又例如,在補習班講解的場景中,Q表格會根據會導致情緒為“快樂”的場景來訓練;在追悼大會的場景中,Q表格會根據會導致情緒為“哀傷”的場景來訓練;在聲討集會的場景中,Q表格會根據會導致情緒為“憤怒”的場景來訓練。
例如,在Q表格的多個狀態中找到對應於「全球暖化」的節點的狀態,在該狀態中找出獎勵值最高者對應的節點,作為下一個要播放的節點。每一個節點都可以在Q表格中找到對應的狀態。
在利用獎勵表格決定各節點的播放順序之後,在步驟S220中,依照播放順序來處理並播放目標群組所包括的一或多個多媒體內容,並產生欲播放的多媒體檔案。
另外,在處理並播放多媒體內容的過程中接收到重新調整指令時,選擇另一節點群組來作為目標群組。例如,在處理並播放多媒體內容的過程中接收到使用者指令時,發出重新調整指令。或者,在處理並播放多媒體內容的過程中,由應用程式每隔一時間間隔便發出重新調整指令。重新調整指令包括限制條件。在接收到重新調整指令時,自包括未播放的多媒體內容所對應的節點的節點群組中,基於限制條件來過濾節點群組。之後,再使用貝葉斯優化演算法而根據過濾後的每一節點群組所包括的各節點的語意分數來找出另一節點群組作為目標群組。
在此,可計算距離先前設定的欲進行播放的最長時間截止的剩餘時間,以剩餘時間作為時間限制來重新找出符合所述剩餘時間的另一節點群組。並且,也可利用影像擷取裝置及/或收音裝置等感測器來收集現場觀眾的情緒特徵,並分析這些情緒特徵,以決定情緒限制。在此,感測器耦接至處理器110。藉此來重新找出符合所述情緒限制的另一節點群組。並且,以所述另一節點群組來重新作為目標群組。
之後,再依據獎勵表格來重新決定目標群組中各節點的另一播放順序,而依照另一播放順序來處理並播放目標群組所包括的多媒體內容,並產生另一多媒體檔案。
底下以電子簡報為例來說明如何決定播放順序。圖4是依照本發明一實施例的決定播放順序方法的流程圖。在決定好目標群組之後,便可由根節點開始,根據獎勵表格來決定其他節點的播放順序。參照圖4,在步驟S405中,選擇根節點G.rootNode(),並將其設定為Node w。
接著,在步驟S410中,將Node w設定為Node v。並且,在步驟S415中,將Node v標記為已播放。也就是說,將根節點設定為播放順序為1,並且將根節點設定為已播放。
之後,在步驟S420中,根據獎勵表格在Node v的子節點中找出具有最大獎勵值的其中一個子節點G.childNode(v),並且將其設定為Node w。然後,在步驟S425中,判斷是否存在Node w,即,判斷Node v是否存在子節點。倘若存在,則執行步驟S430;倘若不存在,則執行步驟S445。
在步驟S430中,判斷演講者是否指定了其他節點。若演講者指定了其他節點,則將所指定的節點G.specfiedNode(v)設定為Node w。接著,在步驟S440中,判斷Node w是否尚未被標記為已播放。若演講者未指定其他節點,如步驟S440所示,判斷Node w是否尚未被標記為已播放。在步驟S440中,倘若Node w尚未被標記為已播放,則返回步驟S415。在步驟S440中,倘若Node w已被標記為已播放,則返回步驟S430。也就是說,在播放過程中,允許演講者來自行決定所欲播放的內容。而倘若演講者所指定的節點為已播放,則會要求演講者重新指定其他尚未播放的節點。
而在步驟S425中,倘若不存在Node w,即,Node v不存在子節點,則在步驟S445中,判斷目前時間是否花費太長或太短。也就是說,在此實施例中,設定為在檢測到當前播放的節點不具有子節點時,應用程式便會自動判斷目前時間是否花費太長或太短,即,計算剩餘時間。
若沒有花費太長或太短的時間,則如步驟S470所示,將Node v的父節點G.parentNode(v)設定為Node v,並且返回步驟S420。也就是說,回到Node v的父節點來重新找出其底下另一子節點。若花費太長或太短的時間,在步驟S450中,在解答空間中僅保留未播放的節點的節點群組。並且,在步驟S455中,重新執行貝葉斯優化演算法。在步驟S460中,選擇另一節點群組來作為目標群組。之後,在步驟S465中,在新的目標群組中,返回根節點而在尚未被標記為已播放的節點中重新進行選擇。
底下搭配圖6~圖7來進行說明。圖6是依照本發明一實施例的用來說明目標群組的示意圖。圖7是依照本發明一實施例的用來說明另一目標群組的示意圖。在圖6與圖7中分別為對主題地圖中的每一個節點賦予一個編號,以方便後續進行說明。
首先,以圖6所示的目標群組為例來進行說明。在圖6中,目標群組包括節點0-1、節點1-1、節點1-2、節點2-1、節點2-2、節點2-4、節點3-1、節點3-3、節點4-1。
從根節點即節點0-1對應的多媒體內容開始進行處理及播放。並且,將節點0-1標記為已播放。而在圖6所示的目標群組中,節點0-1的下一層子節點包括節點1-1與節點1-2。此時,依據對應的獎勵表格來選擇獎勵值較大的一者。在此,假設節點1-1的獎勵值大於節點1-2,故,選擇節點1-1對應的多媒體內容進行處理及播放,並且將節點1-1標記為已播放。而節點1-1的下一層子節點僅包括節點2-1,便選擇節點2-1對應的多媒體內容來進行處理及播放,並且將節點2-1標記為已播放。
由於節點2-1不具有下一層子節點,因此,返回節點2-1的父節點即節點1-1。而節點1-1僅有的子節點已被標示為已播放,則再返回節點1-1的父節點即節點0-1。此時,由於節點0-1的下一層子節點僅剩節點1-2尚未被標記已播放,故,選擇節點1-2對應的多媒體內容進行處理及播放,並且將節點1-2標記為已播放。
之後,在節點1-2的下一層子節點中,依據對應的獎勵表格來選擇獎勵值較大的一者。在此,假設節點2-2的獎勵值大於節點2-4,故,選擇節點2-2對應的多媒體內容進行處理及播放,並且將節點2-2標記為已播放。而節點2-2的下一層子節點僅包括節點3-1,則便選擇節點3-1對應的多媒體內容來進行處理及播放,並且將節點3-1標記為已播放。
接著,由於節點3-1不具有下一層子節點,因此,返回其父節點即節點2-2。而節點2-2僅有的子節點已被標示為已播放,則返回其父節點即節點1-2。此時,由於節點1-2的下一層子節點僅剩節點2-4尚未被標記為已播放,故,選擇節點2-4對應的多媒體內容進行處理及播放,並且將節點2-4標記為已播放。
而節點2-4的下一層子節點僅包括節點3-3,則便選擇節點3-3對應的多媒體內容來進行播放,並且將節點3-3標記為已播放。接著,繼續選擇節點4-1對應的多媒體內容來進行處理及播放,並將節點4-1標記為已播放。
據此,圖6所示的目標群組的播放順序依序為:節點0-1、節點1-1、節點2-1、節點1-2、節點2-2、節點3-1、節點2-4、節點3-3、節點4-1。
倘若在上述播放過程中,判定目前時間花費太長或太短,則重新選擇另一節點群組來作為目標群組。例如,以圖4而言,在檢測到當前播放的節點不具有子節點時,應用程式便會自動判斷目前時間是否花費太長或太短。故,在圖6中,由於節點2-1不具有下一層子節點,此時便可自動判斷目前時間是否花費太長或太短。於另一實施例中,亦可進一步判斷現場觀眾的情緒。
也就是說,在播放先前多媒體內容所花費的時間,是否有提早或延誤。如果提早或延誤,應用程式會重新調整在剩餘時間內所要處理及播放的多媒體內容及其播放順序。如圖4的步驟S450~步驟S460所示,重新選擇另一節點群組來作為目標群組。
圖7所示的另一目標群組包括節點0-1、節點1-1、節點1-3、節點2-1、節點2-6、節點2-7。在新的目標群組中,返回根節點即節點0-1,而在尚未被標記為已播放的節點中重新進行選擇。即,選擇節點1-3對應的多媒體內容進行處理及播放,並且將節點1-3標記為已播放。接著,根據對應的獎勵表格而選擇了節點2-6對應的多媒體內容進行處理及播放,並且將節點2-6標記為已播放。
接著,由於節點2-6不具有下一層子節點,因此,返回其父節點即節點1-3。由於節點1-3的下一層子節點僅剩節點2-7尚未被標記為已播放,故,選擇節點2-7對應的多媒體內容進行處理及播放,並且將節點2-7標記為已播放。
以圖6、圖7而言,倘若在播放節點2-1對應的多媒體內容之後發現目前時間花費太長或太短而重新調整後續要處理、播放的多媒體內容及其順序。則,多媒體內容的處理、播放順序為節點0-1、節點1-1、節點2-1、節點1-3、節點2-6、節點2-7。
也就是說,當演講者剩餘的時間太少或者剩餘的時間太多時,應用程式會自動把尚未播放的多媒體內容重新依照剩餘時間再安排接下來的處理及播放順序,藉此維持原定的播放時間而不至於超時或提前結束。
另外,也可以視現場觀眾的情緒來重新調整欲處理及播放的多媒體內容及其播放順序。例如,剩餘時間為5分鐘,偵測到的情緒限制為怒,則依據上述方式來重新決定接下來要處理的多媒體內容及其播放順序。例如,選擇較不花腦筋的節點群組。或者,剩餘時間為10分鐘,偵測到的情緒限制為樂,則依據上述方式來重新決定接下來要處理的多媒體內容及其播放順序。例如,選擇需要深思的節點群組。
另外,利用影像擷取裝置及/或收音裝置等感測器所獲得的情緒(E)例如可分為喜(D)、怒(A)、哀(M)、樂(H)、無感(P)。假設映射函數F:E→C,將情緒E轉換為情緒限制C。即,C = F(E) = F(D, A, M, H, P)。實務上,映射函數F可以用結構化分類(structured classification)來實作。訓練結構化分類這個模型當觀眾情緒是E時其情緒限制C為何。
例如,利用結構化支援向量機(Structured Support Vector Machine)可以預測出結構化物件(structured object)。結構化物件可以包括{ConstraintFunction_1, ConstraintFunction_2, …, ConstraintFunction_n},其中ConstraintFunction_1~ConstraintFunction_n為限制條件,用來限制選出留在帕雷托最優530的節點群組。假設ConstraintFunction_1只能針對解決「哀」的節點群組傳回「TRUE」,針對其他節點群組則一律回傳「FALSE」;ConstraintFunction_2只能針對解決「怒」的節點群組傳回「TRUE」,針對其他節點群組則一律回傳「FALSE」。當判斷出哀\怒時,只有經過ConstraintFunction_1以及ConstraintFunction_2過濾過的節點群組才能留在帕雷托最優530裡面。
另外,在觀眾數量多的情況下,每個人的情緒不一定一樣,在此可設定幾個關鍵人物(例如具有採購決定權或部門主管),將關鍵人物的權重調高來進行分析。例如,E = (W1*E1+W2*E2+…+Wn*En)/n,其中n為觀眾數量,W1~Wn代表權重,E1~En為不同觀眾的情緒。
透過上述方式,可以應用在不同場景。例如,在技術研討會上可以針對情緒為喜愛的狀況來自動調整演講內容。在補習班講解會上可以針對情緒為快樂的狀況來自動調整演講內容。在追悼大會上可以針對情緒為悲傷的狀況來自動調整演講內容。在聲討集會上可以針對情緒為憤怒的狀況來自動調整演講內容。
舉例來說,演講者將多媒體播放裝置100固定在講架上,將影像擷取裝置及收音裝置朝向觀眾。接著,演講者直接輸入本次要演講的標題,多媒體播放裝置100內的應用程式會在內建顯示器上顯示所有的投影片以及演講順序,並且在外接的顯示裝置140上顯示實際上要播放的節點群組對應的投影片。而在內建顯示器上例如可以閃爍的方式來提醒演講者下一個要演講的投影片,倘若演講者不同意,則可由演講者自行透過內建顯示器來決定下一個要演講的投影片。例如內建顯示器為觸控螢幕,則可直接在內建顯示器上進行點選。此時,應用程式便會依據演講者的選擇來重新調整後續的演講內容。
另外,演講中每一個投影片都有其預算的時間,倘若提早或延誤,則應用程式亦會根據剩餘時間來重新調整後續的演講內容,藉此掌控演講時間能夠在預定時間內結束。而透過影像擷取裝置及收音裝置來收集現場觀眾的多個情緒特徵,可以在偵測到情緒變化時,由應用程式來重新調整後續的演講內容。
綜上所述,本發明能夠動態地處理多媒體內容,並在播放期間重新排列順序,並動態產生多媒體檔案。演講者能夠動態地更新、添加、移除投影片並在演講期間重新排列投影片的順序,而獲得更彈性化的內容。並且,任何演講者都可以在接下來的幾分鐘內發表演講,而無需花費大量時間準備演講材料。此外,於另一實施立中結合擴增實境(Augmented reality,AR)用於促進引導,並為人工智能(Artificial Intelligence,AI)的最佳知識庫提出下一步行動。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
100:多媒體播放裝置 110:處理器 120:儲存裝置 130:輸出裝置 140:顯示裝置 S205~S220:動態處理並播放多媒體內容的方法各步驟 510:解答空間 520:貝葉斯優化演算法 530:帕雷托最優 S405~S470: 1-1~5-2:節點
圖1是依照本發明一實施例的多媒體內容播放裝置的方塊圖。 圖2是依照本發明一實施例的動態處理並播放多媒體內容的方法流程圖。 圖3是依照本發明一實施例的貝葉斯優化演算法流程的示意圖。 圖4是依照本發明一實施例的決定播放順序方法的流程圖。 圖5是依照本發明一實施例的主題地圖的示意圖。 圖6是依照本發明一實施例的用來說明目標群組的示意圖。 圖7是依照本發明一實施例的用來說明另一目標群組的示意圖。
S205~S220:動態處理並播放多媒體內容的方法各步驟

Claims (20)

  1. 一種動態處理並播放多媒體內容的方法,包括: 基於一標題產生一主題地圖,其中該主題地圖包括多個節點,每一該些節點對應至一多媒體內容,且透過該些節點的排列組合而獲得多個節點群組; 在該些節點群組中找出符合一限制條件的一目標群組; 依據至少一獎勵表格來決定該目標群組中各節點的播放順序;以及 依照該播放順序來處理並播放該目標群組所包括的一或多個所述多媒體內容。
  2. 如申請專利範圍第1項所述的動態處理並播放多媒體內容的方法,更包括: 建立多個樣本;以及 基於一強化學習對該些樣本進行批次學習,藉此獲得對應不同場景的所述獎勵表格。
  3. 如申請專利範圍第1項所述的動態處理並播放多媒體內容的方法,其中基於該標題產生該主題地圖的步驟包括: 基於該標題在一知識庫的多個子標題以及多個文章之間進行選擇;以及 以所選擇的一或多個所述子標題、一或多個所述文章與其階層關係,建立該主題地圖。
  4. 如申請專利範圍第1項所述的動態處理並播放多媒體內容的方法,其中在該些節點群組中找出符合該限制條件的該目標群組的步驟包括: 基於該限制條件來過濾該些節點群組; 利用一深度語意匹配模型來計算該主題地圖所包括的每一該些節點的語意分數;以及 使用一貝葉斯優化演算法而根據過濾後的每一該些節點群組所包括的各節點的語意分數找出該目標群組。
  5. 如申請專利範圍第1項所述的動態處理並播放多媒體內容的方法,其中依照該播放順序來處理並播放該目標群組所包括的所述多媒體內容的步驟更包括: 在處理並播放所述多媒體內容的過程中接收到一重新調整指令時,選擇另一節點群組來作為該目標群組; 依據所述獎勵表格來重新決定該目標群組中各節點的另一播放順序;以及 依照該另一播放順序來處理並播放該目標群組所包括的一或多個所述多媒體內容。
  6. 如申請專利範圍第5項所述的動態處理並播放多媒體內容的方法,更包括: 在處理並播放所述多媒體內容的過程中,接收到一使用者指令時或每隔一時間間隔便發出該重新調整指令。
  7. 如申請專利範圍第5項所述的動態處理並播放多媒體內容的方法,其中該重新調整指令包括另一限制條件, 選擇該另一節點群組來作為該目標群組的步驟包括: 自未播放的所述多媒體內容所對應的一或多個所述節點的一或多個所述節點群組中,基於該另一限制條件來過濾該些所述節點群組;以及 使用一貝葉斯優化演算法而根據過濾後的每一所述節點群組所包括的各節點的語意分數來找出該另一節點群組來作為該目標群組。
  8. 如申請專利範圍第1項所述的動態處理並播放多媒體內容的方法,其中該限制條件包括一時間限制以及一情緒限制至少其中一個。
  9. 如申請專利範圍第8項所述的動態處理並播放多媒體內容的方法,更包括: 收集多個現場觀眾的多個情緒特徵;以及 分析該些情緒特徵,以決定該情緒限制。
  10. 如申請專利範圍第8項所述的動態處理並播放多媒體內容的方法,更包括: 在接收到一重新調整指令時,計算一剩餘時間,以該剩餘時間作為該時間限制。
  11. 一種多媒體播放裝置,包括: 一處理器;以及 一儲存裝置,耦接至該處理器,並儲存有多個程式碼片段,其中該些程式碼片段在被安裝後,由該處理器來執行,以實現動態處理並播放多媒體內容的方法,其中 該處理器基於一標題產生一主題地圖,其中該主題地圖包括多個節點,每一該些節點對應至一多媒體內容,且透過該些節點的排列組合而獲得多個節點群組, 該處理器在該些節點群組中找出符合一限制條件的一目標群組, 該處理器依據至少一獎勵表格來決定該目標群組中各節點的播放順序, 該處理器依照該播放順序來處理並播放該目標群組所包括的一或多個所述多媒體內容。
  12. 如申請專利範圍第11項所述的多媒體播放裝置,其中該處理器建立多個樣本,並基於一強化學習對該些樣本進行批次學習,藉此獲得對應不同場景的所述獎勵表格。
  13. 如申請專利範圍第11項所述的多媒體播放裝置,其中該處理器基於該標題在一知識庫的多個子標題以及多個文章之間進行選擇,並且以所選擇的一或多個所述子標題、一或多個所述文章與其階層關係,建立該主題地圖。
  14. 如申請專利範圍第11項所述的多媒體播放裝置,其中該處理器基於該限制條件來過濾該些節點群組;利用一深度語意匹配模型來計算該主題地圖所包括的每一該些節點的語意分數;以及使用一貝葉斯優化演算法而根據過濾後的每一該些節點群組所包括的各節點的語意分數來找出該目標群組。
  15. 如申請專利範圍第11項所述的多媒體播放裝置,其中該處理器在處理並播放所述多媒體內容的過程中接收到一重新調整指令時,選擇另一節點群組來作為該目標群組,並依據所述獎勵表格來重新決定該目標群組中各節點的另一播放順序,而依照該另一播放順序來處理並播放該目標群組所包括的一或多個所述多媒體內容。
  16. 如申請專利範圍第15項所述的多媒體播放裝置,其中該處理器在處理並播放所述多媒體內容的過程中,接收到一使用者指令時或每隔一時間間隔便發出該重新調整指令。
  17. 如申請專利範圍第15項所述的多媒體播放裝置,其中該重新調整指令包括另一限制條件, 該處理器自未播放的所述多媒體內容所對應的一或多個所述節點的一或多個所述節點群組中,基於該另一限制條件來過濾該些所述節點群組,並且使用一貝葉斯優化演算法而根據過濾後的每一所述節點群組所包括的各節點的語意分數來找出該另一節點群組來作為該目標群組。
  18. 如申請專利範圍第11項所述的多媒體播放裝置,其中該限制條件包括一時間限制以及一情緒限制至少其中一個。
  19. 如申請專利範圍第18項所述的多媒體播放裝置,更包括: 一感測器,耦接至該處理器,收集多個現場觀眾的多個情緒特徵,以供該處理器分析該些情緒特徵,來決定該情緒限制。
  20. 如申請專利範圍第18項所述的多媒體播放裝置,其中該處理器在接收到一重新調整指令時,計算一剩餘時間,以該剩餘時間作為該時間限制。
TW108119190A 2019-06-03 2019-06-03 動態處理並播放多媒體內容的方法及多媒體播放裝置 TWI780333B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW108119190A TWI780333B (zh) 2019-06-03 2019-06-03 動態處理並播放多媒體內容的方法及多媒體播放裝置
CN201910619509.7A CN112040329B (zh) 2019-06-03 2019-07-10 动态处理并播放多媒体内容的方法及多媒体播放装置
US16/546,321 US11163815B2 (en) 2019-06-03 2019-08-21 Method for dynamically processing and playing multimedia contents and multimedia play apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108119190A TWI780333B (zh) 2019-06-03 2019-06-03 動態處理並播放多媒體內容的方法及多媒體播放裝置

Publications (2)

Publication Number Publication Date
TW202046140A true TW202046140A (zh) 2020-12-16
TWI780333B TWI780333B (zh) 2022-10-11

Family

ID=73550843

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108119190A TWI780333B (zh) 2019-06-03 2019-06-03 動態處理並播放多媒體內容的方法及多媒體播放裝置

Country Status (3)

Country Link
US (1) US11163815B2 (zh)
CN (1) CN112040329B (zh)
TW (1) TWI780333B (zh)

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002334721B2 (en) * 2001-09-28 2008-10-23 Oracle International Corporation An index structure to access hierarchical data in a relational database system
US7403904B2 (en) * 2002-07-19 2008-07-22 International Business Machines Corporation System and method for sequential decision making for customer relationship management
CN101382937B (zh) * 2008-07-01 2011-03-30 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
US20100094962A1 (en) * 2008-10-15 2010-04-15 Patentvc Ltd. Internet backbone servers with edge compensation
TW201022968A (en) 2008-12-10 2010-06-16 Univ Nat Taiwan A multimedia searching system, a method of building the system and associate searching method thereof
US9081783B2 (en) * 2009-06-08 2015-07-14 International Business Machines Corporation Automated dynamic reprioritization of presentation materials
WO2011033460A1 (en) * 2009-09-17 2011-03-24 Time To Know Establishment Device, system, and method of educational content generation
EP2491536B1 (en) * 2009-10-20 2019-06-12 Oath Inc. Method and system for assembling animated media based on keyword and string input
US9600919B1 (en) * 2009-10-20 2017-03-21 Yahoo! Inc. Systems and methods for assembling and/or displaying multimedia objects, modules or presentations
AU2012236891A1 (en) * 2011-04-01 2013-11-21 Votini Llc Systems and methods for capturing event feedback
US9146546B2 (en) * 2012-06-04 2015-09-29 Brain Corporation Systems and apparatus for implementing task-specific learning using spiking neurons
US20130252222A1 (en) * 2012-03-26 2013-09-26 Steven Fox Systems and methods for real-time and discrete analytics for web-mediated content and events
CN103905218B (zh) * 2013-06-28 2017-12-08 威盛电子股份有限公司 多节点架构的多媒体传播系统和其多媒体传播控制方法
US20150281250A1 (en) * 2014-03-26 2015-10-01 Zeetings Pty Limited Systems and methods for providing an interactive media presentation
TWI514863B (zh) * 2014-04-09 2015-12-21 Gemtek Technology Co Ltd 多媒體資訊處理方法、多媒體裝置與多媒體網路系統
US9015193B1 (en) * 2014-05-30 2015-04-21 Semmle Limited Recursive aggregates
US10101974B2 (en) * 2014-07-31 2018-10-16 Angel.Com Incorporated Contact center application creating using reusable program modules
CN104287747A (zh) * 2014-10-24 2015-01-21 南京邮电大学 基于情绪感知的运动康复机器人交互控制方法
US10360925B2 (en) * 2014-10-29 2019-07-23 International Business Machines Corporation Computerized tool for creating variable length presentations
US9875288B2 (en) * 2014-12-01 2018-01-23 Sap Se Recursive filter algorithms on hierarchical data models described for the use by the attribute value derivation
WO2016126813A2 (en) * 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Scheduling playback of audio in a virtual acoustic space
WO2016174585A1 (en) * 2015-04-27 2016-11-03 Toonimo Inc. Content adapted multimedia guidance
US11611564B2 (en) * 2016-02-15 2023-03-21 Luigius Caramico Methods and systems of dual-layer computer-system security
FR3055203A1 (fr) * 2016-09-01 2018-03-02 Orange Prediction de l'attention d'un auditoire lors d'une presentation
US20180101776A1 (en) * 2016-10-12 2018-04-12 Microsoft Technology Licensing, Llc Extracting An Emotional State From Device Data
US11960525B2 (en) * 2016-12-28 2024-04-16 Dropbox, Inc Automatically formatting content items for presentation
US20180276543A1 (en) * 2017-03-22 2018-09-27 Swoup, LLC Intelligent visual object management system
CN107392151A (zh) * 2017-07-21 2017-11-24 竹间智能科技(上海)有限公司 基于神经网络的人脸影像多维度情感判别系统及方法
US10698876B2 (en) * 2017-08-11 2020-06-30 Micro Focus Llc Distinguish phrases in displayed content
US10628432B2 (en) * 2018-02-19 2020-04-21 Microsoft Technology Licensing, Llc Personalized deep models for smart suggestions ranking
JP7035734B2 (ja) * 2018-03-30 2022-03-15 富士通株式会社 強化学習プログラム、強化学習方法、および強化学習装置
US20200023157A1 (en) * 2018-07-17 2020-01-23 Limbix Health, Inc. Dynamic digital content delivery in a virtual environment
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images

Also Published As

Publication number Publication date
US20200380025A1 (en) 2020-12-03
CN112040329B (zh) 2023-02-28
CN112040329A (zh) 2020-12-04
US11163815B2 (en) 2021-11-02
TWI780333B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
US10325397B2 (en) Systems and methods for assembling and/or displaying multimedia objects, modules or presentations
WO2018072071A1 (zh) 知识图谱构建系统及方法
US11188586B2 (en) Organization, retrieval, annotation and presentation of media data files using signals captured from a viewing environment
US10096145B2 (en) Method and system for assembling animated media based on keyword and string input
TWI553494B (zh) 基於多模態融合之智能高容錯視頻識別系統及其識別方法
KR101029403B1 (ko) 자동 질의 클러스터링
US9167189B2 (en) Automated content detection, analysis, visual synthesis and repurposing
JP2019507417A (ja) 多変数検索のためのユーザインターフェース
US11157542B2 (en) Systems, methods and computer program products for associating media content having different modalities
US9875245B2 (en) Content item recommendations based on content attribute sequence
KR20100072070A (ko) 콘텐트 아이템들의 수집과 연관하여 메타데이터 생성
US20140164371A1 (en) Extraction of media portions in association with correlated input
CN101606155A (zh) 内容检索装置
Rudinac et al. Learning crowdsourced user preferences for visual summarization of image collections
KR20220145424A (ko) 검색/생성된 디지털 미디어 파일을 기반으로 잠재적 관련성에 대한 주제 예측
CN116034401A (zh) 用于使用自然语言描述检索视频的系统和方法
Khanwalkar et al. Exploration of large image corpuses in virtual reality
EP3144825A1 (en) Enhanced digital media indexing and retrieval
KR101804679B1 (ko) 스토리에 기초하는 멀티미디어 콘텐츠 개발 장치 및 방법
WO2012145561A1 (en) Systems and methods for assembling and/or displaying multimedia objects, modules or presentations
US11410706B2 (en) Content pushing method for display device, pushing device and display device
RU2605001C2 (ru) Способ обработки поискового запроса пользователя и сервер, используемый в нем
US20170075999A1 (en) Enhanced digital media indexing and retrieval
TWI780333B (zh) 動態處理並播放多媒體內容的方法及多媒體播放裝置
JP2004287835A (ja) オブジェクト表作成方法及びオブジェクト推薦方法及びオブジェクト表作成プログラム及びオブジェクト推薦方法

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent