TWI808038B - 媒體檔案選擇方法及服務系統與電腦程式產品 - Google Patents

媒體檔案選擇方法及服務系統與電腦程式產品 Download PDF

Info

Publication number
TWI808038B
TWI808038B TW111143430A TW111143430A TWI808038B TW I808038 B TWI808038 B TW I808038B TW 111143430 A TW111143430 A TW 111143430A TW 111143430 A TW111143430 A TW 111143430A TW I808038 B TWI808038 B TW I808038B
Authority
TW
Taiwan
Prior art keywords
media
data
processing unit
media data
matching
Prior art date
Application number
TW111143430A
Other languages
English (en)
Other versions
TW202420143A (zh
Inventor
橋本高佳
Original Assignee
犀動智能科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 犀動智能科技股份有限公司 filed Critical 犀動智能科技股份有限公司
Priority to TW111143430A priority Critical patent/TWI808038B/zh
Priority to JP2023015931A priority patent/JP2024071324A/ja
Application granted granted Critical
Publication of TWI808038B publication Critical patent/TWI808038B/zh
Publication of TW202420143A publication Critical patent/TW202420143A/zh

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一種由服務系統實施的媒體檔案選擇方法,包含:獲得一表達出一媒體要求意圖的文字資料,並判斷其語意是屬於一精確要求類型還是一模糊要求類型;若為精確要求類型,根據該文字資料所具有的關鍵字彙,從多筆媒體資料中選出其中一筆與該關鍵字彙部分相符的指定媒體資料,並使其所對應的一媒體檔案被輸出;若為模糊要求類型,對該文字資料執行一偏好分析處理以獲得一偏好分析結果,並將該偏好分析結果與該等媒體資料進行匹配,以從該等媒體資料中選出其中一筆匹配程度大於等於一預設門檻值的匹配媒體資料,並使其所對應的一媒體檔案被輸出。

Description

媒體檔案選擇方法及服務系統與電腦程式產品
本發明是有關於一種媒體檔案選擇方法,特別是指一種適合對使用者之口述內容進行處理的媒體檔案選擇方法。本發明還有關於一種適合對使用者之口述內容進行處理的服務系統,以及一種用於使電子裝置能夠實施該媒體檔案選擇方法的電腦程式產品。
隨著語言處理技術的發展,愈來愈多的電子裝置允許使用者以聲控方式對其進行操作,而其中常見的聲控應用之一,便是讓使用者以語音點播想要聆聽的歌曲,如此,使用者便無需手動搜尋想要播放的音樂媒體檔案。
然而,若使用者想要聽音樂,有時只要是符合其偏好的音樂即可,而並不一定是非某一首歌不可。在此情況下,即便使用者想要聽音樂,一時之間可能也難以決定要指定哪一首歌,或是哪一位歌手的歌。再者,若是以聲控方式點歌,使用者通常較無意願再特別檢視歌曲清單來挑選歌曲,否則便失去了聲控點歌的便利性,在此情況下,使用者當下能想得到的歌曲選擇可能有限,而造成使用體驗不佳。
有鑑於使用者想聽音樂時不一定會有明確的指定播放目標,如何進一步改善現有技術的使用彈性,並根據使用者的需求及喜好來選擇要被播放的音樂媒體檔案,便成為一個值得探討的議題。
因此,本發明的其中一目的,便在於提供一種有助於改善現有技術的媒體檔案選擇方法。
本發明媒體檔案選擇方法由一服務系統實施,該服務系統包含一處理單元及一電連接該處理單元的儲存單元,該儲存單元儲存有一利用機器學習技術實現的語言處理模型以及多筆媒體資料,該等媒體資料分別對應於多個媒體檔案,且分別指示出該等媒體檔案的屬性;該媒體檔案選擇方法包含:(A)該處理單元獲得一表達出一媒體要求意圖的文字資料,並利用該語言處理模型判斷該文字資料的語意是屬於一精確要求類型還是一模糊要求類型;(B)該處理單元在判定該文字資料的語意屬於該精確要求類型的情況下,根據該文字資料所具有的至少一個關鍵字彙,從該等媒體資料中選出其中一筆與該關鍵字彙部分相符的指定媒體資料,並使該指定媒體資料所對應的該媒體檔案被輸出;(C)該處理單元在判定該文字資料的語意屬於該模糊要求類型的情況下,利用該語言處理模型對該文字資料執行一偏好分析處理以獲得一偏好分析結果,並將該偏好分析結果與該等媒體資料進行匹配,以從該等媒體資料中選出其中一筆與該偏好分析結果之間之匹配程度大於等於一預設門檻值的匹配媒體資料,並使該匹配媒體資料所對應的該媒體檔案被輸出。
在本發明媒體檔案選擇方法的一些實施態樣中,每一媒體資料包含多個屬性標籤,該等屬性標籤相關於該媒體資料所對應之該媒體檔案的屬性。在步驟(C)中,該處理單元對該文字資料執行該偏好分析處理的方式包含利用該語言處理模型從該文字資料中擷取出一或多個語意與媒體檔案之屬性相關的重點字彙,以及根據該(等)重點字彙產生以多維向量形式呈現的該偏好分析結果。在步驟(C)中,該處理單元將該偏好分析結果與該等媒體資料進行匹配的方式包含根據每一媒體資料的該等屬性標籤計算該媒體資料與該偏好分析結果之間的匹配程度,以及從與該偏好分析結果之間之匹配程度大於等於該預設門檻值的該(等)媒體資料中選出該匹配媒體資料。
在本發明媒體檔案選擇方法的一些實施態樣中,在步驟(C)中,該處理單元是以隨機的方式從與該偏好分析結果之間之匹配程度大於等於該預設門檻值的該(等)媒體資料中選出該匹配媒體資料。
在本發明媒體檔案選擇方法的一些實施態樣中,每一媒體資料包含至少一個以可讀性文字形式呈現的名稱資訊。在步驟(A)中,該處理單元利用該語言處理模型判斷該文字資料的語意是屬於該精確要求類型還是該模糊要求類型的方式包含:判斷該文字資料中是否存在相關於該等名稱資訊之其中任一者的至少一個字彙,若該處理單元判斷出該文字資料中存在相關於該等名稱資訊之其中任一者的至少一個字彙,該處理單元判定該文字資料的語意屬於該精確要求類型,並將該至少一個字彙作為該至少一個關鍵字彙,若該處理單元判斷出該文字資料中不存在任何相關於該等名稱資訊的字彙,該處理單元判定該文字資料的語意屬於該模糊要求類型。
在本發明媒體檔案選擇方法的一些實施態樣中,每一媒體資料包含一檔案識別資料。在步驟(B)中,該處理單元使該指定媒體資料所對應的該媒體檔案被輸出的方式,包含根據該指定媒體資料的檔案識別資料獲得該指定媒體資料所對應的該媒體檔案,以及控制一輸出模組輸出該指定媒體資料所對應的該媒體檔案。在步驟(C)中,該處理單元使該匹配媒體資料所對應的該媒體檔案被輸出的方式,包含根據該匹配媒體資料的檔案識別資料獲得該匹配媒體資料所對應的該媒體檔案,以及控制該輸出模組輸出該匹配媒體資料所對應的該媒體檔案。
本發明的另一目的,在於提供一種有助於改善現有技術的服務系統。
本發明服務系統,包含一處理單元及一電連接該處理單元的儲存單元,該儲存單元儲存有一利用機器學習技術實現的語言處理模型以及多筆媒體資料,其中,該等媒體資料分別對應於多個媒體檔案,且分別指示出該等媒體檔案的屬性。該處理單元用於執行下列步驟:獲得一表達出一媒體要求意圖的文字資料,並利用該語言處理模型判斷該文字資料的語意是屬於一精確要求類型還是一模糊要求類型;在判定該文字資料的語意屬於該精確要求類型的情況下,根據該文字資料所具有的至少一個關鍵字彙,從該等媒體資料中選出其中一筆與該關鍵字彙部分相符的指定媒體資料,並使該指定媒體資料所對應的該媒體檔案被輸出;在判定該文字資料的語意屬於該模糊要求類型的情況下,利用該語言處理模型對該文字資料執行一偏好分析處理以獲得一偏好分析結果,並將該偏好分析結果與該等媒體資料進行匹配,以從該等媒體資料中選出其中一筆與該偏好分析結果之間之匹配程度大於等於一預設門檻值的匹配媒體資料,並使該匹配媒體資料所對應的該媒體檔案被輸出。
在本發明服務系統的一些實施態樣中,每一媒體資料包含多個屬性標籤,該等屬性標籤相關於該媒體資料所對應之該媒體檔案的屬性。該處理單元對該文字資料執行該偏好分析處理的方式包含利用該語言處理模型從該文字資料中擷取出一或多個語意與媒體檔案之屬性相關的重點字彙,以及根據該(等)重點字彙產生以多維向量形式呈現的該偏好分析結果。該處理單元將該偏好分析結果與該等媒體資料進行匹配的方式包含根據每一媒體資料的該等屬性標籤計算該媒體資料與該偏好分析結果之間的匹配程度,以及從與該偏好分析結果之間之匹配程度大於等於該預設門檻值的該(等)媒體資料中選出該匹配媒體資料。
在本發明服務系統的一些實施態樣中,該處理單元是以隨機的方式從與該偏好分析結果之間之匹配程度大於等於該預設門檻值的該(等)媒體資料中選出該匹配媒體資料。
在本發明服務系統的一些實施態樣中,每一媒體資料包含至少一個以可讀性文字形式呈現的名稱資訊,並且,該處理單元利用該語言處理模型判斷該文字資料的語意是屬於該精確要求類型還是該模糊要求類型的方式包含:判斷該文字資料中是否存在相關於該等名稱資訊之其中任一者的至少一個字彙,若該處理單元判斷出該文字資料中存在相關於該等名稱資訊之其中任一者的至少一個字彙,該處理單元判定該文字資料的語意屬於該精確要求類型,並將該至少一個字彙作為該至少一個關鍵字彙,若該處理單元判斷出該文字資料中不存在任何相關於該等名稱資訊的字彙,該處理單元判定該文字資料的語意屬於該模糊要求類型。
在本發明服務系統的一些實施態樣中,每一媒體資料包含一檔案識別資料。該處理單元使該指定媒體資料所對應的該媒體檔案被輸出的方式,包含根據該指定媒體資料的檔案識別資料獲得該指定媒體資料所對應的該媒體檔案,以及控制一輸出模組輸出該指定媒體資料所對應的該媒體檔案。該處理單元使該匹配媒體資料所對應的該媒體檔案被輸出的方式,包含根據該匹配媒體資料的檔案識別資料獲得該匹配媒體資料所對應的該媒體檔案,以及控制該輸出模組輸出該匹配媒體資料所對應的該媒體檔案。
本發明的另一目的,在於提供一種能對現有技術提供改良的電腦程式產品。
本發明電腦程式產品包含一利用機器學習技術實現的語言處理模型,該電腦程式產品用於被一電子裝置載入並運行,以使該電子裝置能實施如前述任一實施態樣中所述的媒體檔案選擇方法。
本發明之功效在於:該服務系統會先判斷該文字資料的語意是屬於該精確要求類型還是該模糊要求類型,若該文字資料的語意屬於該精確要求類型,該服務系統會根據該文字資料中的關鍵字彙來選擇要被輸出的媒體檔案,而若該文字資料的語意屬於該模糊要求類型,該服務系統則會對該文字資料執行該偏好分析處理,並根據該偏好分析結果與該等媒體資料之間的匹配程度來選擇要被輸出的媒體檔案。如此一來,使用者能自由選擇要以明確的識別資訊來指定所欲收聽或收看的特定媒體檔案,還是要以較為概略的形容方式來描述其所偏好的媒體檔案類型,藉此,該服務系統對於聲控選擇媒體檔案的功能提供了更佳的使用彈性,從而改善了現有技術的不足之處。
在本發明被詳細描述之前應當注意:若未特別定義,則本專利說明書中所述的「電連接」泛指多個電子設備/裝置/元件之間透過導電材料彼此相連而實現的「有線電連接」,以及透過無線通訊技術進行單/雙向無線信號傳輸的「無線電連接」。並且,本專利說明書中所述的「電連接」也泛指多個電子設備/裝置/元件之間彼此直接相連而形成的「直接電連接」,以及多個電子設備/裝置/元件之間還透過其他電子設備/裝置/元件彼此間接相連而形成的「間接電連接」。
參閱圖1,本發明服務系統1的一實施例包含一伺服系統11以及一電子裝置12,而且,該伺服系統11是用於供該電子裝置12透過網路電連接,以使該電子裝置12能透過網路與該伺服系統11通訊。
在本實施例中,該伺服系統11被實施為一台伺服設備,且該伺服系統11包括一處理單元111,以及一電連接於該處理單元111的儲存單元112。該處理單元111在本實施例中為一具有資料運算及處理功能的中央處理器,然而,在其他實施例中,該處理單元111亦可被實施為多個中央處理器的組合,而並不以本實施例為限。該儲存單元112在本實施例中為一用於儲存數位資料的資料儲存裝置(例如硬碟),然而,在其他實施例中,該儲存單元112亦可被實施為不同種類的電腦可讀取記錄媒體,或者是多個電腦可讀取記錄媒體的組合,而並不以本實施例為限。補充說明的是,在其他實施例中,該伺服系統11亦可被實施為多台彼此電連接的伺服設備,而並不以本實施例為限。
在本實施例中,該伺服系統11的儲存單元112儲存有一利用機器學習技術實現的語言處理模型M,以及多筆分別對應於多個媒體檔案(圖未示)的媒體資料D。其中,該語言處理模型M在本實施例中包括一語意分析子模型m1以及一偏好分析子模型m2。該等媒體資料D分別指示出該等媒體檔案的屬性,而且,在本實施例的應用中,每一媒體資料D所對應的該媒體檔案是一個能被播放的音樂檔案,但並不以此為限。
對於該語言處理模型M的語意分析子模型m1,在本實施例中,該語意分析子模型m1本身為一個類神經網路,而且,該語意分析子模型m1是至少以多筆語句資料作為訓練資料進行機器學習而被訓練出的。其中,每一語句資料是一個以自然語言形式呈現並且表達出對音樂媒體檔案需求的語句,例如「放一首蔡依林的歌」、「我要聽被遺忘的時光」、「放一首收錄在范特西裡面的歌」、「來一首搖滾樂」以及「播放日文的抒情歌」等,但並不以此為限。
更詳細地說,用來訓練該語意分析子模型m1的訓練資料適合包含兩種語句類型的語句資料,其中,該兩種語句類型分別為一代表有指示出特定之曲名、歌手名或者專輯名的精確語句類型,以及一代表未指示出任何曲名、歌手名及專輯名的模糊語句類型。以前述舉例的該等語句資料來說,「放一首蔡依林的歌」、「我要聽被遺忘的時光」及「放一首收錄在范特西裡面的歌」是屬於精確語句類型,「來一首搖滾樂」及「播放日文的抒情歌」則屬於模糊語句類型。
藉由利用該等語句資料進行機器學習,該語意分析子模型m1在被訓練完成後能用於對文字資料執行語意分析處理,藉此將文字資料拆分成多個字彙,並根據該等字彙判斷所述文字資料對於媒體檔案表達需求的語意是屬於一精確要求類型,還是一模糊要求類型,其中,該語意分析子模型m1判斷語意是屬於精確還是模糊要求類型的方式將於後續另行詳述。補充說明的是,本專利說明書中所述的「字彙」泛指單一個字以及由多個字組成的詞,且其語言種類例如包含中文、英文及日文。
對於該語言處理模型M的偏好分析子模型m2,該偏好分析子模型m2本身也是一個類神經網路,而與該語意分析子模型m1類似,而且,該偏好分析子模型m2是至少以多筆屬於模糊語句類型的語句資料作為訓練資料進行機器學習而被訓練出的。其中,用來訓練該偏好分析子模型m2的訓練資料可例如與用來訓練該語意分析子模型m1的訓練資料部分相同,舉例來說,用來訓練該偏好分析子模型m2的該等語句資料可例如也包含「來一首搖滾樂」以及「播放日文的抒情歌」的兩筆語句資料,但並不以此為限。進一步舉例,用來訓練該偏好分析子模型m2的該等語句資料還可包含「我想聽女生唱的台語老歌」、「放一首爵士樂」及「我想聽最近出的新歌」等另外多筆語句資料,但並不以此為限。
藉由利用該等語句資料進行機器學習,該偏好分析子模型m2在被訓練完成後能用於對文字資料執行偏好分析處理,藉此將文字資料拆分成多個字彙,並根據該等字彙推測所述文字資料對於媒體檔案所表達出的偏好屬性。該偏好分析子模型m2執行偏好分析處理以產生偏好分析結果的方式將於後續另行詳述。
對於該儲存單元112所儲存的每一媒體資料D,該媒體資料D包含一檔案識別資料、至少一個以可讀性文字形式呈現的名稱資訊,以及多個被預先定義好的屬性標籤。
更具體地說,每一媒體資料D的檔案識別資料是一串被用來識別該媒體資料D所對應之媒體檔案的唯一性字元,而且,每一檔案識別資料可以被實施為具有可讀性的文字,也可被實施為不具可讀性的識別碼,本實施例對此不作特別限定。
在本實施例的一種實施態樣中,每一媒體資料D包含三個不同種類的名稱資訊,更明確地說,該三個名稱資訊分別為一以可讀性文字指示出一曲名的歌曲名稱資訊、一以可讀性文字指示出一歌手名的演唱者名稱資訊,以及一以可讀性文字指示出一專輯名的專輯名稱資訊。然而,應當理解的是,每一媒體資料D所包含的名稱資訊的數量以及每一名稱資訊所表示的意義可依據不同的需求而被自由設定及調整,而並不以本實施例為限。
在本實施例中,每一媒體資料D的該等屬性標籤是用於描述該媒體資料D所對應之該媒體檔案的屬性。舉例來說,由於該媒體資料D所對應的媒體檔案在本實施例的應用中為音樂檔案,所以,該媒體資料D的該等屬性標籤是用來描述對應之媒體檔案的音樂屬性,例如但不限於歌詞語言種類、曲風、節奏、樂器、歌手、創作者、所屬專輯、發行時間等方面的屬性。此外,每一媒體資料D的該等屬性標籤可以被實施為具有可讀性的文字,但也可以被實施為用來表示某一種特定屬性的代碼或數值,本實施例對此並不作特別限定。
該電子裝置12包括一處理模組121、一電連接於該處理模組121的輸入模組122,以及一電連接於該處理模組121的輸出模組123。其中,該處理模組121為一中央處理器,該輸入模組122至少具有電連接於該處理模組121而用於接收聲音的一麥克風,該輸出模組123則至少具有電連接於該處理模組121而用於輸出聲音的一揚聲器。補充說明的是,在本實施例中,該電子裝置12是一台適合被設置在住宿設施之客房內以供房客使用的服務電子裝置,而且,在所述的實際實施態樣中,該服務系統1是包含多台能夠各自與該伺服系統11透過網路通訊的電子裝置12。然而,在不同的實施例中,該電子裝置12也可以被實施為一台行動電子裝置(例如手機、平板電腦或者筆記型電腦)、一台網路電視,或者是一台桌上型電腦,所以,該電子裝置12的實際實施態樣並不以本實施例為限。
配合參閱圖2,以下示例性地詳細說明本實施例的該服務系統1如何實施一媒體檔案選擇方法。
首先,在步驟S1中,該伺服系統11的處理單元111獲得一對應於一語音輸入且表達出一媒體要求意圖的文字資料。
更具體地說,在本實施例中,該語音輸入是由該電子裝置12的處理模組121經由該輸入模組122所接收的一串使用者語音信號,而且,該語音輸入例如是使用者為了點播音樂而對該電子裝置12所說出的一句話。進一步地,該電子裝置12的處理模組121在接收到該語音輸入時,會即時地利用語音轉文字技術對該語音輸入進行處理,以產生並傳送與該語音輸入內容相符的該文字資料至該伺服系統11的處理單元111。然而,在不同的實施例中,該電子裝置12的處理模組121也可以是在接收到該語音輸入時即時地將該語音輸入傳送至該處理單元111,並且由該處理單元111對該語音輸入進行語音轉文字的處理來產生該文字資料。所以,該處理單元111獲得該文字資料的方式並不以本實施例為限。
在該處理單元111獲得該文字資料後,流程進行至步驟S2。
在步驟S2中,該處理單元111利用該語言處理模型M的語意分析子模型m1判斷該文字資料的語意是屬於該精確要求類型還是該模糊要求類型。
在本實施例中,該處理單元111利用該語意分析子模型m1判斷該文字資料的語意是屬於該精確要求類型還是該模糊要求類型的方式,是利用該語意分析子模型m1判斷該文字資料中是否有任何一個字彙的語意是與該等媒體資料D之其中一種名稱資訊所表示的語意相匹配(亦即用來表達同一種語意)。
若該處理單元111判斷出該文字資料中存在一或多個字彙是用來表達該等名稱資訊中的其中一種名稱資訊(例如本實施例中的歌曲名稱資訊、演唱者名稱資訊或者專輯名稱資訊),該處理單元111便會判定該(等)字彙的語意是與該等名稱資訊的其中一或多種名稱資訊語意相匹配,進而判定該文字資料的語意屬於該精確要求類型。而且,在此情況下,該處理單元111還會將與該(等)種類之名稱資訊語意相匹配的該(等)字彙分別作為一或多個關鍵字彙。
反之,若該處理單元111判斷出該文字資料中沒有任何字彙是用來表達該等名稱資訊的其中任何一種名稱資訊,該處理單元111則會判定該文字資料的語意屬於該模糊要求類型。
更具體地說,在本實施例中,由於每一媒體資料D所包含的該三個名稱資訊是分別用來表示特定的曲名、歌手名以及專輯名,所以,在步驟S2中,若該處理單元111藉由該語意分析子模型m1判斷出該文字資料中有其中任一字彙的語意也是用來表示特定的曲名、歌手名或者專輯名,該處理單元111便會判定該其中一字彙的語意是與該等名稱資訊的其中一種名稱資訊語意相匹配,進而判定該文字資料的語意屬於該精確要求類型。而且,在此情況下,該處理單元111會將該文字資料中表示出特定之曲名、歌手名或者專輯名的每一字彙作為關鍵字彙。
舉一例來說,若該文字資料是「我要聽稻香」,該處理單元111會判定其中的「稻香」是用來表達特定的曲名,而與該等歌曲名稱資訊的語意相匹配,所以,該處理單元111會判定「我要聽稻香」的語意屬於該精確要求類型,並將「稻香」作為關鍵字彙。舉另一例來說,若該文字資料是「放一首陳奕迅的歌」,該處理單元111會判定其中的「陳奕迅」是用來表達特定的歌手名,而與該等演唱者名稱資訊的語意相匹配,所以,該處理單元111會判定「放一首陳奕迅的歌」的語意屬於該精確要求類型,並將「陳奕迅」作為關鍵字彙。舉再一例來說,若該文字資料是「放一首收錄在第二人生裡面的歌」,該處理單元111會判定其中的「第二人生」是用來表達特定的專輯名,而與該等專輯名稱資訊的語意相匹配,所以,該處理單元111會判定「放一首收錄在第二人生裡面的歌」的語意屬於該精確要求類型,並將「第二人生」作為關鍵字彙。
基於上述,該處理單元111在本實施例中相當於是根據該文字資料是否有指示出特定的曲名、歌手名或者專輯名,來判定該文字資料的語意是屬於該精確要求類型還是該模糊要求類型,但並不以此為限。
若該處理單元111判定該文字資料的語意是屬於該精確要求類型,流程進行至步驟S3。另一方面,若該處理單元111判定該文字資料的語意是屬於該模糊要求類型,流程則進行至步驟S5。
在接續於步驟S2之後的步驟S3中,一旦該處理單元111判定該文字資料的語意是屬於該精確要求類型,該處理單元111根據該文字資料所具有的該(等)關鍵字彙,從該等媒體資料D中選出其中一筆與該(等)關鍵字彙部分相符的指定媒體資料。
舉一例來說,若該文字資料是「我要聽稻香」,該處理單元111會選出其中一筆包含「稻香」之演唱者名稱資訊的媒體資料D來作為指定媒體資料。舉另一例來說,若該文字資料是「放一首陳奕迅的歌」,該處理單元111會選出其中一筆包含「陳奕迅」之演唱者名稱資訊的媒體資料D來作為指定媒體資料。舉再一例來說,若該文字資料是「放一首收錄在第二人生裡面的歌」,該處理單元111會選出其中一筆包含「第二人生」之專輯名稱資訊的媒體資料D來作為指定媒體資料。
在該處理單元111選出該指定媒體資料後,流程進行至步驟S4。
在步驟S4中,該處理單元111使該指定媒體資料所對應的該媒體檔案被輸出。更詳細地說,該處理單元111使該指定媒體資料所對應的該媒體檔案被輸出的方式,例如是根據該指定媒體資料的檔案識別資料從一媒體檔案資料庫(圖未示)中獲得該指定媒體資料所對應的該媒體檔案,接著將該指定媒體資料所對應的該媒體檔案提供至該電子裝置12,並且透過該處理模組121控制該電子裝置12的輸出模組123播放該指定媒體資料所對應的該媒體檔案,但並不以此為限。補充說明的是,該媒體檔案資料庫可以是被儲存在該伺服系統11的儲存單元112,但也可以是被儲存在一能供該處理單元111透過網路電連接的外部伺服器,換句話說,該服務系統1所要選擇的該等媒體檔案並不必然是被儲存於該服務系統1本身。在該處理單元111使該指定媒體資料所對應的該媒體檔案被輸出後,本實施例的媒體檔案選擇方法結束。
在接續於步驟S2之後的步驟S5中,一旦該處理單元111判定該文字資料的語意屬於該模糊要求類型,該處理單元111利用該語言處理模型M的偏好分析子模型m2對該文字資料執行一偏好分析處理,以獲得一對應於該文字資料的偏好分析結果。
在本實施例中,該處理單元111對該文字資料執行該偏好分析處理的方式,是利用該偏好分析子模型m2從該文字資料中擷取出一或多個用來描述媒體檔案之屬性的重點字彙,並利用該偏好分析子模型m2本身所具有的多個內部參數對該(等)重點字彙進行運算,以產生該偏好分析結果。舉例來說,若該文字資料為「播放日文的抒情歌」,則該處理單元111會利用該偏好分析子模型m2擷取出其中的「日文」及「抒情」作為重點字彙來產生該偏好分析結果。進一步地,在本實施例中,該偏好分析結果是被實施為一個多維的偏好屬性向量,也就是說,該偏好分析結果是以多維向量的形式來表示該文字資料在媒體檔案需求方面所表達出的偏好語意。進一步地,該偏好屬性向量所具有的多個分量是相關於該等媒體資料D中的該等屬性標籤,舉例來說,該偏好屬性向量的該等分量可用於表示該文字資料的語意是否有對媒體檔案的歌詞語言種類、曲風、節奏、樂器、歌手、創作者、所屬專輯、發行時間等方面表達出特定偏好。補充說明的是,該偏好分析子模型m2能被用於擷取出該(等)重點字彙及產生該偏好分析結果是基於其本身進行機器學習的學習結果,其細節並非本專利說明書之重點,故不在此過度詳述。
在該處理單元111獲得對應於該文字資料的該偏好分析結果後,流程進行至步驟S6。
在步驟S6中,該處理單元111將該偏好分析結果與該等媒體資料D進行匹配,以從該等媒體資料D中選出其中一筆與該偏好分析結果之間之匹配程度大於等於一預設門檻值的匹配媒體資料。
更詳細地說,該處理單元111將該偏好分析結果與該等媒體資料D進行匹配的方式,是根據每一媒體資料D的該等屬性標籤計算該媒體資料D本身與該偏好分析結果之間的匹配程度,然後將與該偏好分析結果之間之匹配程度大於等於該預設門檻值的每一媒體資料D作為一候選媒體資料,最後以隨機的方式從該(等)候選媒體資料中選出其中一者來作為該匹配媒體資料。
值得一提的是,由於該處理單元111是隨機地從該(等)候選媒體資料中選出一者來作為該匹配媒體資料,所以,若該媒體檔案選擇方法被實施多次,則對於語意屬於模糊要求類型的多筆文字資料,即便該等文字資料彼此相同或相似(例如「放一首日文的抒情歌」及「再來一首日文的抒情歌」),只要候選媒體資料的數量夠多,本實施例能有助於避免該處理單元111選出同一筆媒體資料D作為匹配媒體資料,而導致同一個媒體檔案被重複輸出給使用者。
補充說明的是,若每一媒體資料D的該等屬性標籤是被實施為具有可讀性的文字,則該處理單元111例如是利用該偏好分析子模型m2來將每一媒體資料D的該等屬性標籤轉換為向量形式,再據以計算該媒體資料D與該偏好分析結果之間的匹配程度。而若每一媒體資料D的該等屬性標籤是被實施為代碼或數值,則該處理單元111便不一定要利用該偏好分析子模型m2來計算該媒體資料D與該偏好分析結果之間的匹配程度。
在該處理單元111選出該匹配媒體資料後,流程進行至步驟S4。
在步驟S7中,該處理單元111使該匹配媒體資料所對應的該媒體檔案被輸出。更詳細地說,該處理單元111使該匹配媒體資料所對應的該媒體檔案被輸出的方式,例如是根據該匹配媒體資料的檔案識別資料從該媒體檔案資料庫中獲得該匹配媒體資料所對應的該媒體檔案,接著將該匹配媒體資料所對應的該媒體檔案提供至該電子裝置12,並且透過該處理模組121控制該電子裝置12的輸出模組123播放該匹配媒體資料所對應的該媒體檔案,但並不以此為限。並且,在該處理單元111使該匹配媒體資料所對應的該媒體檔案被輸出後,本實施例的媒體檔案選擇方法結束。
以上即為本實施例之服務系統1如何實施該媒體檔案選擇方法的示例說明。
應當理解的是,本實施例的步驟S1至步驟S7及圖2的流程圖僅是用於示例說明本發明媒體檔案選擇方法的其中一種可實施方式。應當理解的是,即便將步驟S1至步驟S7進行合併、拆分或順序調整,若合併、拆分或順序調整之後的流程與本實施例相比係以實質相同的方式達成實質相同的功效,便仍屬於本發明媒體檔案選擇方法的可實施態樣,因此,本實施例的步驟S1至步驟S7及圖2的流程圖並非用於限制本發明的可實施範圍。
補充說明的是,在本實施例的其他應用中,該等媒體資料D所對應的該等媒體檔案並不限於是音樂檔案。舉例來說,該等媒體檔案也可以是包含聲音的影片檔案(例如電影),或者是圖片檔案(例如照片及繪畫)。並且,若本實施例是被應用在不同類型的媒體檔案,則該等媒體資料D的內容(例如該等名稱資訊與屬性標籤)以及用來訓練該語言處理模型M的該等訓練資料可依媒體檔案的類型而被自由設計與調整,因此,該等媒體資料D及該等訓練資料的實際態樣並不以本實施例為限。
此外,雖然本實施例的該服務系統1是包含圖1所示的該伺服系統11及該電子裝置12,但應當理解,本實施例在硬體方面的實施態樣並不限於此。舉例來說,在不同的實施例中,該服務系統1也可以被實施為該伺服系統11本身,而並不一定要包含該電子裝置12,或者,該服務系統1也可以被實施為一台包含該處理單元111、該儲存單元112、該輸入模組122及該輸出模組123的使用者裝置(例如一台手機、平板電腦、筆記型電腦、桌上型電腦或網路電視)。所以,該服務系統1在硬體方面的實施態樣並不以本實施例為限。
本發明還提供了一種電腦程式產品的一實施例,其中,該電腦程式產品為一能被儲存於電腦可讀取紀錄媒體且能被一電子裝置(例如手機、平板電腦、筆記型電腦、桌上型電腦等)所運行的應用程式,並且,該電腦程式產品包含圖1所示的該語言處理模型M,且可選地還包含該等媒體資料D。並且,當該電子裝置載入並運行該電腦程式產品時,該電腦程式產品能使該電子裝置被作為本發明所提供的服務系統,進而實施本發明所提供的媒體檔案選擇方法。
綜上所述,藉由實施該媒體檔案選擇方法,該服務系統1會先判斷該文字資料的語意是屬於該精確要求類型還是該模糊要求類型,若該文字資料的語意屬於該精確要求類型,該服務系統1會根據該文字資料中的關鍵字彙來選擇要被輸出的媒體檔案,而若該文字資料的語意屬於該模糊要求類型,該服務系統1則會對該文字資料執行該偏好分析處理,並根據該偏好分析結果與該等媒體資料D之間的匹配程度來選擇要被輸出的媒體檔案。如此一來,使用者能自由選擇要以明確的識別資訊(例如曲名、歌手名或專輯名)來指定所欲收聽或收看的特定媒體檔案,還是要以較為概略的形容方式來描述其所偏好的媒體檔案類型,藉此,該服務系統1對於聲控選擇媒體檔案的功能提供了更佳的使用彈性,從而改善了現有技術的不足之處,故確實能達成本發明之目的。
惟以上所述者,僅為本發明之實施例而已,當不能以此限定本發明實施之範圍,凡是依本發明申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾,皆仍屬本發明專利涵蓋之範圍內。
1:服務系統 11:伺服系統 111:處理單元 112:儲存單元 M:語言處理模型 m1:語意分析子模型 m2:偏好分析子模型 D:媒體資料 12:電子裝置 121:處理模組 122:輸入模組 123:輸出模組 S1~S7:步驟
本發明之其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中: 圖1是一方塊示意圖,示例性地表示本發明服務系統的一實施例;及 圖2是一流程圖,用於示例性地說明該實施例如何實施一媒體檔案選擇方法。
S1~S7:步驟

Claims (11)

  1. 一種媒體檔案選擇方法,由一服務系統實施,該服務系統包含一處理單元及一電連接該處理單元的儲存單元,該儲存單元儲存有一利用機器學習技術實現的語言處理模型以及多筆媒體資料,該等媒體資料分別對應於多個媒體檔案,且分別指示出該等媒體檔案的屬性;該媒體檔案選擇方法包含:(A)該處理單元獲得一對應於使用者之一語音輸入且表達出一媒體要求意圖的文字資料,並利用該語言處理模型判斷該文字資料的語意是屬於一精確要求類型還是一模糊要求類型;(B)該處理單元在判定該文字資料的語意屬於該精確要求類型的情況下,根據該文字資料所具有的至少一個關鍵字彙,從該等媒體資料中選出其中一筆與該關鍵字彙部分相符的指定媒體資料,並使該指定媒體資料所對應的該媒體檔案被播放;及(C)該處理單元在判定該文字資料的語意屬於該模糊要求類型的情況下,利用該語言處理模型對該文字資料執行一偏好分析處理以獲得一偏好分析結果,並將該偏好分析結果與該等媒體資料進行匹配,以從該等媒體資料中選出其中一筆與該偏好分析結果之間之匹配程度大於等於一預設門檻值的匹配媒體資料,並使該匹配媒體資料所對應的該媒體檔案被播放。
  2. 如請求項1所述的媒體檔案選擇方法,每一媒體資料包 含多個屬性標籤,該等屬性標籤相關於該媒體資料所對應之該媒體檔案的屬性;其中:在步驟(C)中,該處理單元對該文字資料執行該偏好分析處理的方式包含利用該語言處理模型從該文字資料中擷取出一或多個語意與媒體檔案之屬性相關的重點字彙,以及根據該(等)重點字彙產生以多維向量形式呈現的該偏好分析結果;及在步驟(C)中,該處理單元將該偏好分析結果與該等媒體資料進行匹配的方式包含根據每一媒體資料的該等屬性標籤計算該媒體資料與該偏好分析結果之間的匹配程度,以及從與該偏好分析結果之間之匹配程度大於等於該預設門檻值的該(等)媒體資料中選出該匹配媒體資料。
  3. 如請求項2所述的媒體檔案選擇方法,其中,在步驟(C)中,該處理單元是以隨機的方式從與該偏好分析結果之間之匹配程度大於等於該預設門檻值的該(等)媒體資料中選出該匹配媒體資料。
  4. 如請求項1所述的媒體檔案選擇方法,每一媒體資料包含至少一個以可讀性文字形式呈現的名稱資訊;其中,在步驟(A)中,該處理單元利用該語言處理模型判斷該文字資料的語意是屬於該精確要求類型還是該模糊要求類型的方式包含:判斷該文字資料中是否存在相關於該等名稱資訊之其中任一者的至少一個字彙,若該處理單元判斷出該文字資料中存在相關於該等名稱資訊之其中任一者的至少一個字彙,該處理單元判定該文字資料的語意屬於該 精確要求類型,並將該至少一個字彙作為該至少一個關鍵字彙,若該處理單元判斷出該文字資料中不存在任何相關於該等名稱資訊的字彙,該處理單元判定該文字資料的語意屬於該模糊要求類型。
  5. 如請求項1所述的媒體檔案選擇方法,每一媒體資料包含一檔案識別資料;其中:在步驟(B)中,該處理單元使該指定媒體資料所對應的該媒體檔案被播放的方式,包含根據該指定媒體資料的檔案識別資料獲得該指定媒體資料所對應的該媒體檔案,以及控制一輸出模組播放該指定媒體資料所對應的該媒體檔案;及在步驟(C)中,該處理單元使該匹配媒體資料所對應的該媒體檔案被播放的方式,包含根據該匹配媒體資料的檔案識別資料獲得該匹配媒體資料所對應的該媒體檔案,以及控制該輸出模組播放該匹配媒體資料所對應的該媒體檔案。
  6. 一種服務系統,包含:一處理單元;及一儲存單元,電連接該處理單元,且儲存有一利用機器學習技術實現的語言處理模型以及多筆媒體資料,其中,該等媒體資料分別對應於多個媒體檔案,且分別指示出該等媒體檔案的屬性;該處理單元用於執行下列步驟:獲得一表達出一對應於使用者之一語音輸入且媒體 要求意圖的文字資料,並利用該語言處理模型判斷該文字資料的語意是屬於一精確要求類型還是一模糊要求類型;在判定該文字資料的語意屬於該精確要求類型的情況下,根據該文字資料所具有的至少一個關鍵字彙,從該等媒體資料中選出其中一筆與該關鍵字彙部分相符的指定媒體資料,並使該指定媒體資料所對應的該媒體檔案被播放;及在判定該文字資料的語意屬於該模糊要求類型的情況下,利用該語言處理模型對該文字資料執行一偏好分析處理以獲得一偏好分析結果,並將該偏好分析結果與該等媒體資料進行匹配,以從該等媒體資料中選出其中一筆與該偏好分析結果之間之匹配程度大於等於一預設門檻值的匹配媒體資料,並使該匹配媒體資料所對應的該媒體檔案被播放。
  7. 如請求項6所述的服務系統,其中:每一媒體資料包含多個屬性標籤,該等屬性標籤相關於該媒體資料所對應之該媒體檔案的屬性;該處理單元對該文字資料執行該偏好分析處理的方式包含利用該語言處理模型從該文字資料中擷取出一或多個語意與媒體檔案之屬性相關的重點字彙,以及根據該(等)重點字彙產生以多維向量形式呈現的該偏好分析結果;及該處理單元將該偏好分析結果與該等媒體資料進行匹配的方式包含根據每一媒體資料的該等屬性標籤計算 該媒體資料與該偏好分析結果之間的匹配程度,以及從與該偏好分析結果之間之匹配程度大於等於該預設門檻值的該(等)媒體資料中選出該匹配媒體資料。
  8. 如請求項7所述的服務系統,其中,該處理單元是以隨機的方式從與該偏好分析結果之間之匹配程度大於等於該預設門檻值的該(等)媒體資料中選出該匹配媒體資料。
  9. 如請求項6所述的服務系統,其中,每一媒體資料包含至少一個以可讀性文字形式呈現的名稱資訊,並且,該處理單元利用該語言處理模型判斷該文字資料的語意是屬於該精確要求類型還是該模糊要求類型的方式包含:判斷該文字資料中是否存在相關於該等名稱資訊之其中任一者的至少一個字彙,若該處理單元判斷出該文字資料中存在相關於該等名稱資訊之其中任一者的至少一個字彙,該處理單元判定該文字資料的語意屬於該精確要求類型,並將該至少一個字彙作為該至少一個關鍵字彙,若該處理單元判斷出該文字資料中不存在任何相關於該等名稱資訊的字彙,該處理單元判定該文字資料的語意屬於該模糊要求類型。
  10. 如請求項6所述的服務系統,其中:每一媒體資料包含一檔案識別資料;該處理單元使該指定媒體資料所對應的該媒體檔案被播放的方式,包含根據該指定媒體資料的檔案識別資料獲得該指定媒體資料所對應的該媒體檔案,以及控制一輸出模組播放該指定媒體資料所對應的該媒體檔案;及 該處理單元使該匹配媒體資料所對應的該媒體檔案被播放的方式,包含根據該匹配媒體資料的檔案識別資料獲得該匹配媒體資料所對應的該媒體檔案,以及控制該輸出模組播放該匹配媒體資料所對應的該媒體檔案。
  11. 一種電腦程式產品,包含一利用機器學習技術實現的語言處理模型,該電腦程式產品用於被一電子裝置載入並運行,以使該電子裝置能實施如請求項1至5其中任一項所述的媒體檔案選擇方法。
TW111143430A 2022-11-14 2022-11-14 媒體檔案選擇方法及服務系統與電腦程式產品 TWI808038B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW111143430A TWI808038B (zh) 2022-11-14 2022-11-14 媒體檔案選擇方法及服務系統與電腦程式產品
JP2023015931A JP2024071324A (ja) 2022-11-14 2023-02-06 メディアファイルを選択する方法、サービスシステム、及びコンピュータープログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111143430A TWI808038B (zh) 2022-11-14 2022-11-14 媒體檔案選擇方法及服務系統與電腦程式產品

Publications (2)

Publication Number Publication Date
TWI808038B true TWI808038B (zh) 2023-07-01
TW202420143A TW202420143A (zh) 2024-05-16

Family

ID=88149220

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111143430A TWI808038B (zh) 2022-11-14 2022-11-14 媒體檔案選擇方法及服務系統與電腦程式產品

Country Status (2)

Country Link
JP (1) JP2024071324A (zh)
TW (1) TWI808038B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201426736A (zh) * 2012-12-31 2014-07-01 Via Tech Inc 基於語音辨識的選擇方法及其行動終端裝置及資訊系統
US20140344718A1 (en) * 2011-05-12 2014-11-20 Jeffrey Alan Rapaport Contextually-based Automatic Service Offerings to Users of Machine System
CN108471542A (zh) * 2018-03-27 2018-08-31 南京创维信息技术研究院有限公司 基于智能音箱的影视资源播放方法、智能音箱及存储介质
CN113569088A (zh) * 2021-09-27 2021-10-29 腾讯科技(深圳)有限公司 一种音乐推荐方法、装置以及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140344718A1 (en) * 2011-05-12 2014-11-20 Jeffrey Alan Rapaport Contextually-based Automatic Service Offerings to Users of Machine System
TW201426736A (zh) * 2012-12-31 2014-07-01 Via Tech Inc 基於語音辨識的選擇方法及其行動終端裝置及資訊系統
CN108471542A (zh) * 2018-03-27 2018-08-31 南京创维信息技术研究院有限公司 基于智能音箱的影视资源播放方法、智能音箱及存储介质
CN113569088A (zh) * 2021-09-27 2021-10-29 腾讯科技(深圳)有限公司 一种音乐推荐方法、装置以及可读存储介质

Also Published As

Publication number Publication date
JP2024071324A (ja) 2024-05-24

Similar Documents

Publication Publication Date Title
US9824150B2 (en) Systems and methods for providing information discovery and retrieval
CN107464555B (zh) 增强包含语音的音频数据的方法、计算装置和介质
US10229669B2 (en) Apparatus, process, and program for combining speech and audio data
US7949526B2 (en) Voice aware demographic personalization
JP2019527371A (ja) 声紋識別方法及び装置
US11354510B2 (en) System and method for semantic analysis of song lyrics in a media content environment
CN109165302A (zh) 多媒体文件推荐方法及装置
US11636835B2 (en) Spoken words analyzer
TWI396105B (zh) 用於模擬個體差異之個人化資訊檢索之數位資料處理方法及其電腦裝置可讀式資訊儲存媒體與資訊檢索系統
JP5359534B2 (ja) 情報処理装置および方法、並びにプログラム
US20220083583A1 (en) Systems, Methods and Computer Program Products for Associating Media Content Having Different Modalities
KR101942459B1 (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
CN107145509B (zh) 一种信息搜索方法及其设备
KR20030059503A (ko) 사용자별 선호도에 따른 맞춤형 음악 서비스 시스템 및 방법
US20090132508A1 (en) System and method for associating a category label of one user with a category label defined by another user
TWI808038B (zh) 媒體檔案選擇方法及服務系統與電腦程式產品
TW202420143A (zh) 媒體檔案選擇方法及服務系統與電腦程式產品
JP2008513877A (ja) 追従情報を提供する方法
KR102031282B1 (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
JP4929765B2 (ja) コンテンツ検索装置及びコンテンツ検索プログラム
KR102648990B1 (ko) 또래 학습 추천 방법 및 장치
US20220406280A1 (en) Information processing apparatus, information processing method, and information processing program