TWI725375B - 資料搜尋方法及其資料搜尋系統 - Google Patents

資料搜尋方法及其資料搜尋系統 Download PDF

Info

Publication number
TWI725375B
TWI725375B TW108104107A TW108104107A TWI725375B TW I725375 B TWI725375 B TW I725375B TW 108104107 A TW108104107 A TW 108104107A TW 108104107 A TW108104107 A TW 108104107A TW I725375 B TWI725375 B TW I725375B
Authority
TW
Taiwan
Prior art keywords
data
learning
search
string
keyword
Prior art date
Application number
TW108104107A
Other languages
English (en)
Other versions
TW202011222A (zh
Inventor
詹詩涵
柯兆軒
藍國誠
Original Assignee
台達電子工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 台達電子工業股份有限公司 filed Critical 台達電子工業股份有限公司
Publication of TW202011222A publication Critical patent/TW202011222A/zh
Application granted granted Critical
Publication of TWI725375B publication Critical patent/TWI725375B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/437Administration of user profiles, e.g. generation, initialisation, adaptation, distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本揭示內容係關於一種資料搜尋方法及其資料搜尋系統。資料搜尋方法包含下列步驟:接收第一學習資料。第一學習資料包含複數個第一學習區段。對第一學習資料進行分析,以產生對應於每個第一學習區段的第一關鍵字串。接著,接收搜尋訊息,並對搜尋訊息進行分析,以產生搜尋字串。比對搜尋字串及第一關鍵字串,並根據與搜尋字串相符的第一關鍵字串所對應的第一學習區段,產生搜尋清單。

Description

資料搜尋方法及其資料搜尋系統
本揭示內容關於一種資料搜尋方法及其資料搜尋系統,特別是一種能根據搜尋訊息在資料庫中找到對應之學習資料的技術。
線上學習平台是指一種將眾多學習資料儲存於伺服器中,讓使用者能透過網際網路連線至伺服器而隨時瀏覽學習資料的網路服務。在現行的各類線上學習平台中,提供的學習資料類型包含影片、音訊、簡報、文件或論壇。
由於線上學習平台中儲存的學習資料數量龐大,使用者需要根據自身需求輸入搜尋訊息,方能從線上學習平台中調閱到相關的學習資料。因此,線上學習平台的搜尋機制是否能精準辨識出使用者的搜尋訊息,且快速且正確地提供對應的學習資料給使用者,將是決定線上學習平台之服務效能的一大關鍵指標。
本揭示內容之一態樣為一種資料搜尋方法。資料搜尋方法包含下列步驟:接收第一學習資料,其中第一學習資料包含複數個第一學習區段。對第一學習資料進行分析,以產生對應於每一第一學習區段的複數個第一關鍵字串。接收搜尋訊息。對搜尋訊息進行分析,以產生搜尋字串。比對搜尋字串及第一關鍵字串。根據與搜尋字串相符的該些第一關鍵字串所對應的該些第一學習區段,產生搜尋清單。
本揭示內容之另一態樣為一種資料搜尋系統。資料搜尋系統包含儲存單元、分析單元及運算單元。儲存單元用以儲存第一學習資料,其中第一學習資料包含複數個第一學習區段。分析單元用以根據第一學習資料產生對應於每一第一學習區段的複數個第一關鍵字串。分析單元還用以分析搜尋訊息,以產生搜尋字串。運算單元電性連接於分析單元。運算單元用以比對搜尋字串及該些第一關鍵字串,且根據與搜尋字串相符的該些第一關鍵字串所對應的該些第一學習區段,產生搜尋清單。
據此,由於資料搜尋系統能分別對第一學習資料的各第一學習區段進行分析,以在各第一學習區段上建立供索引的第一關鍵字串,因此,後續接收到搜尋訊息時,資料搜尋系統將能透過比對搜尋訊息與第一關鍵字串,而精確地搜尋出第一學習資料所對應的第一學習區段,讓使用者能快速地開始瀏覽想查找的學習內容,大幅提昇學習效率。
以下將以圖式揭露本案之複數個實施方式,為明確說明起見,許多實務上的細節將在以下敘述中一併說明。然而,應瞭解到,這些實務上的細節不應用以限制本案。也就是說,在本揭示內容部分實施方式中,這些實務上的細節是非必要的。此外,為簡化圖式起見,一些習知慣用的結構與元件在圖式中將以簡單示意的方式繪示之。
於本文中,當一元件被稱為「連接」或「耦接」時,可指「電性連接」或「電性耦接」。「連接」或「耦接」亦可用以表示二或多個元件間相互搭配操作或互動。此外,雖然本文中使用「第一」、「第二」、…等用語描述不同元件,該用語僅是用以區別以相同技術用語描述的元件或操作。除非上下文清楚指明,否則該用語並非特別指稱或暗示次序或順位,亦非用以限定本發明。
現有的線上學習平台中,當使用者輸入搜尋訊息時,伺服器僅會將搜尋訊息與學習資料的檔案名稱進行比對,以篩選出相似的學習資料。然而,若學習資料的內容龐大(例如:片長為兩小時的影片),則使用者仍然需要手動調整學習資料(如:調整播放時間至第45分鐘),方能找出與自身需求最相關的區段。此外,若搜尋訊息過於口語化,則現有的線上學習平台亦可能會因為無法辨識搜尋訊息,而搜尋出毫無關連的學習資料。亦即,現有線上學習平台的搜尋機制並根據需求進行精細檢索。本揭示內容提供之資料搜尋系統及其方法將能改善此一現象。
請參閱第1A及1B圖所示,本揭示內容係關於一種資料搜尋系統100。資料搜尋系統100包含第一伺服器110、第二伺服器120及儲存單元130。第一伺服器110電性連接於第二伺服器120,而在其他實施例中,第一伺服器110及第二伺服器120間能透過網路建立連線,以進行資料傳輸。儲存單元130為一種資料儲存裝置,例如:快閃記憶體、記憶卡、硬碟等。在部分實施例中,儲存單元130儲存於獨立的伺服器中。在其他部分實施例中,儲存單元130可設於第一伺服器110或第二伺服器120中。在其他實施例中,第一伺服器110與第二伺服器120亦可整合為單一個伺服器。
在本實施例中,資料搜尋系統100係用以提供線上學習服務,例如:使用者可透過終端裝置200連線至第一伺服器110,以瀏覽線上學習介面。當使用者欲瀏覽學習內容時,第一伺服器110能由儲存單元130中取得對應的檔案。第二伺服器120則用以執行分類、管理與統計等功能。然而,本揭示內容的應用方式並不以此為限,資料搜尋系統100亦可應用於影音串流平台或網路討論論壇等。
第一伺服器110用以接收數個學習資料。在部分實施例中,第一伺服器110係透過網際網路,由終端裝置200接收學習資料。學習資料可為影片、聲音、簡報或討論串。為便於說明,在本實施例中以將多個學習資料細分為第一學習資料131a、第二學習資料131b及第三學習資料131c進行說明。然而,本揭示內容並不以此為限,學習資料的數量係可任意調整。
在部分實施例中,當第一伺服器110接收第一學習資料131a後,第一伺服器110將第一學習資料131a上傳至儲存單元130的課程資料庫131中,第一學習資料131a中包含複數個第一學習區段。該些第一學習區段係依照時間順序(例如:第一學習資料131a中預設的時間軸)相互銜接(或排列)。例如:若第一學習資料131a為片長30分鐘的影片檔案,則第一學習資料131a可包含兩個第一學習區段,每個學習區段分別對應於15分鐘的片長。
如第1B圖所示,第二伺服器120包含運算單元121、分析單元122及傳輸單元123。運算單元121電性連接於分析單元122及傳輸單元123。第二伺服器120係透過傳輸單元123與第一伺服器110與儲存單元130進行資料傳輸。第二伺服器120能根據第一伺服器110傳來的分析訊息,由儲存單元130取得第一學習資料131a,並進行分析處理,以根據第一學習資料131a產生對應於每一個第一學習區段的複數個第一關鍵字串(keyword string)。
舉例而言,第一學習資料131a為影片檔案,且包含字幕檔案。分析單元122能針對字幕檔案中的文字,以語意分析技術(Natural Language Processing)建立出語意相關字串(或稱推論字串)。以產生對應於每個第一學習區段的第一關鍵字串,例如:「投影器、影像、原理」、「高頻訊號、銳化、增強」及「提升、清晰度」。在部份實施例中,語意相關字串可為字幕檔案內的原文,亦可為推論出的字詞,舉例而言,若字幕檔案中包含「蘋果、記憶體、處理器」,則分析單元122可自動推論出「智慧型手機、iphone」。當第二伺服器120產生第一關鍵字串後,第二伺服器120還能將第一關鍵字串儲存於儲存單元130的分析資料庫132中。在其他部分實施例中,第二伺服器120還會在分析資料庫132中儲存對應於第一學習資料131a的第一辨識代碼,使第一關鍵字串能根據第一辨識代碼,對應到課程資料庫131中的第一學習資料131a。
在部分實施例中,第一學習資料131a還包含時間軸資料,每個第一學習區段係根據時間軸資料相銜接,以組成第一學習資料131a。第一伺服器110可根據時間軸資料,正確地將第一學習資料131a中的第一學習區段傳送至終端裝置200,讓使用者能直接從正確的時間點開始瀏覽第一學習資料131a的內容。
在第一伺服器110由終端裝置200處接收搜尋訊息時,第一伺服器110將搜尋訊息轉傳至第二伺服器120。第二伺服器120透過分析單元122對搜尋訊息進行分析處理,以產生搜尋字串,例如:搜尋訊息為「投影器的原理」,第二伺服器120能先對搜尋訊息進行斷句,以透過分析、擷取或推論,產生搜尋字串「投影器、原理」。
分析單元122用以解析使用者提交的文字內容,並提取文字中的人、事、物、地點等訊息,讓開發者能夠了解使用者真正意圖並推估出欲詢問的問題答案。分析單元122可對搜尋訊息進行斷詞,並建立詞向量(例如:透過word2vec、sentece2vec等分析模型),以推測出相似字。此外,分析單元122可透過網際網路,連線至語義網(ontology),以進行推論。
在部分實施例中,分析單元122內包含自動編碼器122a(Auto-encoder)。第二伺服器120可接收複數個訓練資料,並將該些訓練資料輸入自動編碼器器122a中,以透過資料壓縮處理及維度轉換處理,建立語意分析網路(Semantic network)122b。語意分析網路122b用以對第一學習資料及搜尋訊息進行語意分析。自動編碼器122a可利用深度學習建立語意分析網路122b。舉例而言,訓練資料包含複數個原始的學習資料以及已被確認的多個關鍵字串,自動編碼器122a能將原始的學習資料經語意分析後,轉換為嵌入向量,並根據已被確認的該些關鍵字串,產生對應的加權參數,以建立語意分析網路122b。由於本領域人士可理解語意分析之原理,在此不另贅述。
在語意分析單元122分析取得搜尋字串後,運算單元121用以比對搜尋字串及該些第一關鍵字串,並根據與搜尋字串相符的第一關鍵字串所對應的第一學習區段,產生搜尋清單。舉例而言,搜尋字串「投影器、原理」與第一關鍵字串「投影器、影像、原理」相似,因此,運算單元122會將根據對應的第一學習區段列於搜尋清單上,以供使用者參考。請參閱第1A圖所示,若「第一學習資料131a的其中一個第一學習區段對應的第一關鍵字串」及「第二學習資料131b的其中一個第二學習區段對應的第二關鍵字串」皆與搜尋字串相似,則運算單元121將在搜尋清單上同時列出這兩個學習區段,且使用者可操作終端裝置200,於第一伺服器110提供的線上學習介面上點擊對應的學習區段,第一伺服器110即會提供對應的學習區段給終端裝置200(例如:某部影片從第15分鐘的時間點開始播放)。
據此,由於資料搜尋系統100能分別對第一學習資料131a的各第一學習區段進行語意分析,以在各第一學習區段上建立供索引的第一關鍵字串,因此,後續接收到搜尋訊息時,資料搜尋系統100將能比對搜尋訊息與第一關鍵字串,而精確地搜尋出第一學習資料131a中所對應的第一學習區段,讓使用者能快速地開始瀏覽想查找的學習內容,大幅提昇學習效率。此外,資料搜尋系統100亦能將搜尋訊息與第一關鍵字串的分析結果存於推薦資料庫134中,以在特定時刻(如:使用者瀏覽完一部影片或提出問題時),根據搜尋出的第一學習資料131a產生推薦訊息,並傳遞給終端裝置200。在部分實施例中,運算單元121還用以計算搜尋字串及第一關鍵字串之間的多個第一相似度。第一相似度即為搜尋字串與每個第一關鍵字串之間的匹配度。舉例而言,若搜尋字串為「投影機、原理」,第一關鍵字串中出現了「投影機」,則第一相似度為50%,若「投影機、原理」皆出現,則第一相似度為100%。運算單元121能判斷每個第一相似度是否大於門檻值(如:60%)?並只將第一相似度大於門檻值的第一關鍵字串所對應的第一學習區段列在搜尋清單上。
在部分實施例中,資料搜尋系統100會將使用者的動作記錄下來作為「行為紀錄」。行為紀錄包含但不限於:影片觀看紀錄、影片標記紀錄、 製作筆記紀錄、 評分紀錄、 分享紀錄、 討論區紀錄、上傳/編輯(影片)紀錄、切換頁紀錄。第二伺服器120可參照使用者的行為記錄,來排序搜尋清單中的學習資料。
如第1A圖所示,在部分實施例中,儲存單元130內儲存有第一學習資料131a、第二學習資料131b及第三學習資料131c。第二學習資料131b包含複數個第二學習區段,且每個第二學習區段中包含各自的第二關鍵字串;同理,第三學習資料131c包含複數個第三學習區段,且每個第三學習區段中包含各自的第三關鍵字串。當使用者透過終端裝置200,針對第二學習資料中的其中一個第二學習區段,傳送操作訊息至資料搜尋系統100時,第一伺服器110能接收操作訊息,且將對應的第二關鍵字串儲存到儲存單元130內的行為資料庫133中,以將對應的第二關鍵字串設定為一筆行為資料。在其他部分實施例中,運算單元121能在接收到操作訊息後,將第二關鍵字串記錄為行為資料。如第1B圖所示,當使用者在多次發出不同的操作訊息後,行為資料庫133即會記錄多筆對應的行為資料133a~133c。
在運算單元121篩選出大於門檻值的第一相似度後,運算單元121還能根據行為資料庫133中的行為資料133a~133c,與篩選出的第一關鍵字串(即,與搜尋字串相符)進行分析計算,計算行為資料133a~133c以及第一關鍵字串間的複數個第二相似度(如:比對文句的相似程度)。第二相似度係對應於行為資料及每一個第一關鍵字串。舉例而言,運算單元121先比對搜尋訊息「投影器」與多個第一關鍵字串,篩選出兩個第一關鍵字串「投影器、原理」及「投影器、清晰度」後,運算單元121判斷行為資料庫133中儲存有行為資料「清晰度」,代表使用者過去曾瀏覽過關於「清晰度」主題的學習資料,此時,運算單元121判斷行為資料「清晰度」與第一關鍵字串「投影器、清晰度」的第二相似度較高,因此,運算單元121在產生搜尋清單時,會把第一關鍵字串「投影器、清晰度」所對應的第一學習區段排列在第一關鍵字串「投影器、原理」所對應的第一學習區段之前。
在其他部分實施例中,當第一伺服器110或第二伺服器120將第二關鍵字串記錄為行為資料133a~133c時,第一伺服器110或第二伺服器120還會根據第二關鍵字串被記錄至行為資料庫133中的次數,分別針對行為資料133a~133c記錄各自的權重值133d~133f。舉例而言,使用者曾瀏覽過第二學習資料131b的其中一個第二學習區段三次,因此,該第二學習區段對應的第二關鍵字串將被記錄三次,而其對應的行為資料的權重值將較大(如:+3)。運算單元121可根據權重值,來調整第二相似度。舉例而言,若運算單元121將兩個第一關鍵字串與行為資料庫133中不同的行為資料133a~133c比對後,得到的兩個第二相似度皆為「40%」,但其中一個第一關鍵字串對應的行為資料133a~133c的加權值133d~133f較高,則運算單元會將調整對應的第二相似度(例如:+10%),以將該第一關鍵字串對應的第一學習區段放在搜尋清單中另一個第一學習區段之前。據此,搜尋清單即可根據使用者過去瀏覽過的內容題材,進行更個人化的排序與推薦。
前述之操作指令可為學習資料的觀看記錄、影片標記記錄(如:使用者標記影片「重要」)、筆記、評分、分享動作、留言等。在部分實施例中,操作訊息係使運作單元121將第二學習資料131b傳送至終端裝置200,以便瀏覽。在其他部分實施例中,操作訊息係使運作單元121在課程資料庫131中寫入註解資料。註解資料對應於第二學習資料131b,可為使用者的學習筆記、評論、評分、分享、發問、討論區或者註解。
在部分實施例中,分析單元122係根據第一學習資料131a中的元數據(metadata),辨識出第一學習區段。元數據是用於描述資料屬性(property)的資訊,可視為第一學習資料131a中的欄位資料,例如:一部影片檔案中的標題(caption)、關鍵字(keywords)、摘要(summary)、標籤(tags)、討論(discussion)、回應(reply)等。分析單元122可根據元數據辨識出第一學習區段,再加以分別進行語意分析。
在部分實施例中,運算單元121還能利用詞嵌入技術(word-embedding),先將第一學習資料131a中的元數據進行二位化編碼,再將第一學習資料131a儲存至儲存單元130中。
前述利用元數據辨識學習區段的方式,係根據第一學習資料131a中事先設定好的欄位,確認學習區段。在其他部分實施例中,亦可由運算單元121分析後,在第一學習資料131a上劃分出第一學習區段。例如:運算單元121可在第一學習資料131a中加入第一分段標記,以劃分出多個第一學習區段。
請參閱第2圖,為本揭示內容之部份實施例中,資料搜尋系統100的運作方式示意圖。資料搜尋系統100分別用以接收第一學習資料131a及搜尋訊息210。資料搜尋系統100會對第一學習資料131a依序進行分段處理P01、二位化編碼P02後,將其儲存至課程資料庫131中,以建立索引。接著,當資料搜尋系統100接收到搜尋訊息210後,先對搜尋訊息進行分析處理P03(如:語意分析或元數據分析),再將已建立索引的第一學習資料131a(包含分析出的第一關鍵字串)與分析後的搜尋訊息210進行比對處理P04,並根據行為資料庫133內的行為資料,產生搜尋清單300。
接下來說明分段標記的產生方式,請同時參閱第1A圖及第3A圖,第3A圖係根據本揭示內容之部分實施例所繪示的第一學習資料131a之文字檔案示意圖。在部分實施例中,第一學習資料131a包含文字檔案A1(例如:字幕)。第二伺服器120接收到該第一學習資料131a後,將對文字檔案A1進行分析處理,例如:以語意分析方法以產生複數個特徵句。該些特徵句之間具有先後關係。接著,判斷相鄰之特徵句之間的相似度,以產生第一分段標記。
舉例而言,文字檔案A1經分析後,產生的特徵句包含「投影機根據影像訊號調整發光單元」、「發光單元投射出的光線會被反射為影像畫面」、「在另一種類型的投影機中」。前述第一句特徵句及第二句特徵句皆具有相同的字詞「影像、發光」,相似度較高,而第二句特徵句與第三句特徵句的相似度則較低。因此,當第二伺服器120判斷相鄰之特徵句相似度低於預定值時(如:完全沒有相同字詞,或者其中一句為轉折語句,例如「在其他實施例中…」),第二伺服器120即會產生第一分段標記。以將文字檔案A1區分為多個第一學習區段A11~A14。
在前述實施例中,文字檔案A1可經由語意分析技術產生特徵句,且分析特徵句之間的相似度,但本揭示內容並不以此為限。在部份實施例中,第二伺服器120中的處理器亦可先將文字檔案A1進行二位化處理,再透過數據比對,判斷相似性,以建立特徵句或判斷特徵句之間的相似度。
前述實施例中之文字檔案係指影片的字幕或簡報的文字內容,而若是文字檔案為「網路論壇的討論內容」,則仍能以相同原理進行分段。相似地,若第一學習資料131a包含聲音檔案,則第二伺服器120可先透過語音辨識,產生文字檔案A1後,再進行分析處理,以取得多個特徵句。
在其他部分實施例中,請參閱第3B圖所示,第一學習資料131b包含影像檔案B1。影像檔案B1又包含複數個影像畫面B01~B04。影像畫面B01~B04可為影片檔案中依照時序銜接的多個幀畫面。第二伺服器120用以判斷相鄰該些影像畫面B01~B04的相似度,以產生第一分段標記。舉例而言,影像畫面B01~B02係用以顯示投影機的結構圖,而影像畫面B03~B04用以顯示光線投影的路徑圖。影像畫面B02、B03間的相似度較低,所以第二伺服器120能在影像畫面B02、B03間加入第一分段標記,以形成多個第一學習區段B11、B12。
請再次參閱第3A圖所示,在此說明分析單元122分析出第一關鍵字串的方法如後。分析單元122對第一學習資料131a中的文字檔案A1進行分析處理(如:語意分析),以取得多個特徵字。接著,在第一學習資料131a被劃分為多個第一學習區段A11~A14或B11~B12後,第二伺服器120將會判斷特徵字在每一個第一學習區段A11~A14或B11~B12中的數量,當數量大於預設值時,即將其設定為第一關鍵字串。舉例而言,在文字檔案A1的一個第一學習區段A11中包含下列內容:「投影機根據影像訊號調整發光單元,發光單元投射出的光線會被反射為影像畫面」。分析單元122會先對前述文字檔案進行斷句,以篩選出多個字詞(如:投影機、根據、影像訊號、調整…等)。其中,「影像」出現2次、「發光單元」出現2次、「投影機、光線」皆分別出現1次。分析單元122可將出現2次的特徵字「影像、發光單元」設定為第一關鍵字串。
同理,分析單元122在接收到搜尋訊息後,亦能先對搜尋訊息內的文字進行斷句,以取得搜尋字串。或者分析單元122能根據斷句後產生的多個字詞,將出現次數大於預設值的字詞設定為搜尋字串。
請參閱第4圖所示,係根據本揭示內容之部分實施例繪示的資料搜尋方法示意圖。資料搜尋方法包含下列步驟S401~S409。在步驟S401中,第一伺服器110接收第一學習資料131a,並將第一學習資料131a儲存至課程資料庫131中。第一學習資料131a包含複數個第一學習區段。在步驟S402中,第二伺服器120連線至儲存單元130,且透過分析單元122,對第一學習資料131a進行分析處理,以產生對應於每一個第一學習區段的第一關鍵字串。在部份實施例中,分析單元122係透過語意分析技術,搜尋出第一關鍵字串。在其他部份實施例中,分析單元亦可對第一學習資料131a進行二位化處理,以根據元數據比對及篩選出第一關鍵字串。
在步驟S403中,第一伺服器110接收搜尋訊息,並交由第二伺服器120進行後端運算分析。在步驟S404中,分析單元122對搜尋訊息進行語意分析,以搜尋出搜尋字串。在步驟S405中,運算單元121比對搜尋字串及該些第一關鍵字串,以產生第一相似度。
在步驟S406中,當運算單元121判斷第一相似度大於門檻值時,根據該些第一關鍵字串所對應的該些第一學習區段,產生搜尋清單。在步驟S407中,比對行為資料庫133中行為資料及在步驟S406中篩選出的該些第一關鍵字串,以產生複數個第二相似度。在步驟S408中,根據第二相似度,排序搜尋清單內的第一學習區段。
前述步驟係以第一資料庫131a進行說明,但在其他實施例中,資料搜尋系統100係儲存有多筆學習資料131a~131c。分析單元122可對每個學習資料131a~131c進行語意分析,以搜尋出對應的關鍵字串。運算單元121則可將搜尋字串與每個學習資料131a~131c中的每個關鍵字串相比對,以找出對應於搜尋字串的學習區段。例如:第一學習資料131a的其中一個第一學習區段與搜尋字串最相近、第二學習資料131b的其中一個第二學習區段亦與搜尋字串有相關,且運算單元121能將這兩個學習區段皆顯示於搜尋清單中。
雖然本揭示內容已以實施方式揭露如上,然其並非用以限定本發明內容,任何熟習此技藝者,在不脫離本發明內容之精神和範圍內,當可作各種更動與潤飾,因此本發明內容之保護範圍當視後附之申請專利範圍所界定者為準。
100:資料搜尋系統110:第一伺服器120:第二伺服器121:運算單元122:分析單元122a:自動編碼器122b:語意分析網路123:傳輸單元130:儲存單元131:課程資料庫131a:第一學習資料131b:第二學習資料131c:第三學習資料132:分析資料庫133:行為資料庫133a:行為資料133b:行為資料133c:行為資料133d:權重值133e:權重值133f:權重值200:終端裝置A1:文字檔案A11:學習區段A12:學習區段A13:學習區段A14:學習區段A21:學習區段A22:學習區段B1:影像檔案B01:影像畫面B02:影像畫面B03:影像畫面B04:影像畫面B11:學習區段B12:學習區段S401~S408:步驟
第1A圖為根據本揭示內容之部分實施例所繪示的資料搜尋系統的示意圖。 第1B圖為根據本揭示內容之部分實施例所繪示的第一伺服器及行為資料庫示意圖。 第2圖為根據本揭示內容之部分實施例所繪示的資料搜尋系統的運作方式示意圖。 第3A圖為根據本揭示內容之部分實施例所繪示的第一學習資料之文字檔案示意圖。 第3B圖為根據本揭示內容之部分實施例所繪示的第一學習資料之影像畫面示意圖。 第4圖為根據本揭示內容之部分實施例所繪示的資料搜尋方法的示意圖。
120:第二伺服器
121:運算單元
122:分析單元
122a:自動編碼器
122b:語意分析網路
123:傳輸單元
133:行為資料庫
133a:行為資料
133b:行為資料
133c:行為資料
133d:權重值
133e:權重值
133f:權重值

Claims (16)

  1. 一種資料搜尋方法,包含:接收一第一學習資料,其中該第一學習資料包含複數個第一學習區段;對該第一學習資料進行分析,以產生對應於每一第一學習區段的複數個第一關鍵字串;接收一搜尋訊息;對該搜尋訊息進行分析,以產生一搜尋字串;比對該搜尋字串及該些第一關鍵字串;以及根據與該搜尋字串相符的該些第一關鍵字串所對應的該些第一學習區段,產生一搜尋清單;該資料搜尋方法還包含:接收一操作訊息,其中該操作訊息對應於一第二學習資料中的一第二學習區段,且該第二學習區段包含一第二關鍵字串;將該操作訊息所對應的該第二關鍵字串儲存至一行為資料庫中,以記錄為一行為資料;計算該行為資料以及與該搜尋字串相符的該些第一關鍵字串間的複數個第二相似度;以及根據該些第二相似度,排序該搜尋清單中的該些第一學習區段。
  2. 如請求項1所述之資料搜尋方法,還包含:計算該搜尋字串及該些第一關鍵字串間的複數個第一相似度,其中該些第一相似度分別對應於該搜尋字串及該些第 一關鍵字串;以及根據該些第一相似度大於一門檻值的該些第一關鍵字串所對應的該些第一學習區段,產生該搜尋清單。
  3. 如請求項1所述之資料搜尋方法,還包含:根據該第二關鍵字串被儲存至該行為資料庫中的次數,設定該行為資料的一權重值;以及根據該權重值,調整該些第二相似度。
  4. 如請求項1所述之資料搜尋方法,其中該操作訊息係用以將該第二學習資料傳送至一終端裝置。
  5. 如請求項1所述之資料搜尋方法,其中該操作訊息係用以在一課程資料庫中,寫入一註解資料,該註解資料對應於該第二學習資料。
  6. 如請求項1所述之資料搜尋方法,還包含:接收複數個訓練資料;將該些訓練資料輸入一自動編碼器,並透過資料壓縮處理及維度轉換處理,建立一語意分析網路;以及利用該語意分析網路,對該第一學習資料及該搜尋訊息進行語意分析。
  7. 如請求項1所述之資料搜尋方法,其中在接收 該第一學習資料後,根據該第一學習資料中的元數據,辨識出該些第一學習區段。
  8. 如請求項7所述之資料搜尋方法,還包含:利用詞嵌入技術,將該第一學習資料中的元數據進行二位化編碼。
  9. 一種資料搜尋系統,包含:一儲存單元,用以儲存一第一學習資料及一第二學習資料,其中該第一學習資料包含複數個第一學習區段,該第二學習資料包含一第二學習區段;一分析單元,用以根據該第一學習資料產生對應於每一第一學習區段的複數個第一關鍵字串;該分析單元還用以根據一搜尋訊息產生一搜尋字串;以及一運算單元,電性連接於該分析單元,其中該運算單元用以比對該搜尋字串及該些第一關鍵字串,且根據與該搜尋字串相符的該些第一關鍵字串所對應的該些第一學習區段,產生一搜尋清單;其中在該運算單元接收到一操作訊息後,該運算單元根據該操作訊息對應的該第二學習區段,將該第二學習區段中對應的一第二關鍵字串儲存至該儲存單元的一行為資料庫中,以記錄為一行為資料;該運算單元用以計算該行為資料以及與該搜尋字串相符的該些第一關鍵字串間的複數個第二相似度,該些第二相似度分別對應於該行為資料以及與該 搜尋字串相符的該些第一關鍵字串;該運算單元還用以根據該些第二相似度,排序該搜尋清單中的該些第一學習區段。
  10. 如請求項9所述之資料搜尋系統,其中該運算單元用以計算該搜尋字串及該些第一關鍵字串間的複數個第一相似度,該些第一相似度分別對應於該搜尋字串及該些第一關鍵字串;該運算單元用以根據該些第一相似度大於一門檻值的該些第一關鍵字串所對應的該些第一學習區段,產生該搜尋清單。
  11. 如請求項9所述之資料搜尋系統,其中該行為資料庫內還儲存有一權重值,該權重值係該第二關鍵字串被儲存至該行為資料庫中的次數;該運算單元係用以根據該權重值,調整該些第二相似度。
  12. 如請求項9所述之資料搜尋系統,其中該操作訊息係用以將該第二學習資料傳送至一終端裝置。
  13. 如請求項9所述之資料搜尋系統,其中,該操作訊息係用以在該儲存單元的一課程資料庫中,寫入一註解資料,該註解資料對應於該第二學習資料。
  14. 如請求項9所述之資料搜尋系統,其中該分析單元還包含一自動編碼器,該語意單元用以將複數個訓練資 料輸入至該自動編碼器,以透過資料壓縮處理及維度轉換處理,建立一語意分析網路。
  15. 如請求項9所述之資料搜尋系統,其中該分析單元係根據該第一學習資料中的元數據,辨識出該些第一學習區段。
  16. 如請求項15所述之資料搜尋系統,其中該運算單元係利用詞嵌入技術,將該第一學習資料的元數據進行二位化編碼,再將該第一學習資料儲存至該儲存單元中。
TW108104107A 2018-09-07 2019-02-01 資料搜尋方法及其資料搜尋系統 TWI725375B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862728082P 2018-09-07 2018-09-07
US62/728,082 2018-09-07

Publications (2)

Publication Number Publication Date
TW202011222A TW202011222A (zh) 2020-03-16
TWI725375B true TWI725375B (zh) 2021-04-21

Family

ID=69745778

Family Applications (5)

Application Number Title Priority Date Filing Date
TW108104065A TWI709905B (zh) 2018-09-07 2019-02-01 資料分析方法及資料分析系統
TW108104097A TWI699663B (zh) 2018-09-07 2019-02-01 分段方法、分段系統及非暫態電腦可讀取媒體
TW108104107A TWI725375B (zh) 2018-09-07 2019-02-01 資料搜尋方法及其資料搜尋系統
TW108104105A TWI700597B (zh) 2018-09-07 2019-02-01 分段方法、分段系統及非暫態電腦可讀取媒體
TW108111842A TWI696386B (zh) 2018-09-07 2019-04-03 多媒體資料推薦系統及多媒體資料推薦方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
TW108104065A TWI709905B (zh) 2018-09-07 2019-02-01 資料分析方法及資料分析系統
TW108104097A TWI699663B (zh) 2018-09-07 2019-02-01 分段方法、分段系統及非暫態電腦可讀取媒體

Family Applications After (2)

Application Number Title Priority Date Filing Date
TW108104105A TWI700597B (zh) 2018-09-07 2019-02-01 分段方法、分段系統及非暫態電腦可讀取媒體
TW108111842A TWI696386B (zh) 2018-09-07 2019-04-03 多媒體資料推薦系統及多媒體資料推薦方法

Country Status (4)

Country Link
JP (3) JP6829740B2 (zh)
CN (5) CN110889034A (zh)
SG (5) SG10201905236WA (zh)
TW (5) TWI709905B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI756703B (zh) * 2020-06-03 2022-03-01 南開科技大學 數位學習系統及其方法
US12099537B2 (en) 2020-09-21 2024-09-24 Samsung Electronics Co., Ltd. Electronic device, contents searching system and searching method thereof
CN114595854A (zh) * 2020-11-19 2022-06-07 英业达科技有限公司 基于社交信息追踪及预测产品品质的方法
CN117351794B (zh) * 2023-10-13 2024-06-04 浙江上国教育科技有限公司 基于云平台的在线课程管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200411462A (en) * 2002-12-20 2004-07-01 Hsiao-Lien Wang A method for matching information exchange on network
US20100057644A1 (en) * 2008-09-03 2010-03-04 International Business Machines Corporation Interactive digital video library
US20150286718A1 (en) * 2014-04-04 2015-10-08 Fujitsu Limited Topic identification in lecture videos

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07311539A (ja) * 1994-05-17 1995-11-28 Hitachi Ltd 教材編集支援システム
KR100250540B1 (ko) * 1996-08-13 2000-04-01 김광수 캡션 비디오 cd 재생장치를 이용한 외국어 받아쓰기 학습방법
JP2002041823A (ja) * 2000-07-27 2002-02-08 Nippon Telegr & Teleph Corp <Ntt> 情報配信装置、情報受信装置及び情報配信システム
JP3685733B2 (ja) * 2001-04-11 2005-08-24 株式会社ジェイ・フィット マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム
JP2002341735A (ja) * 2001-05-16 2002-11-29 Alice Factory:Kk ブロードバンド・ディジタル・ラーニング・システム
CN1432932A (zh) * 2002-01-16 2003-07-30 陈雯瑄 英文测验及成绩评估方法及系统
KR101109023B1 (ko) * 2003-04-14 2012-01-31 코닌클리케 필립스 일렉트로닉스 엔.브이. 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치
JP4471737B2 (ja) * 2003-10-06 2010-06-02 日本電信電話株式会社 グループ化条件決定装置と方法およびそれを用いたキーワード拡張装置と方法ならびにコンテンツ検索システムおよびコンテンツ情報提供システムと方法ならびにプログラム
JP4426894B2 (ja) * 2004-04-15 2010-03-03 株式会社日立製作所 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2005321662A (ja) * 2004-05-10 2005-11-17 Fuji Xerox Co Ltd 学習支援装置および方法
JP2006003670A (ja) * 2004-06-18 2006-01-05 Hitachi Ltd 教育コンテンツ提供システム
WO2006123261A2 (en) * 2005-03-31 2006-11-23 Koninklijke Philips Electronics, N.V. Augmenting lectures based on prior exams
US9058406B2 (en) * 2005-09-14 2015-06-16 Millennial Media, Inc. Management of multiple advertising inventories using a monetization platform
JP5167546B2 (ja) * 2006-08-21 2013-03-21 国立大学法人京都大学 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
TW200825900A (en) * 2006-12-13 2008-06-16 Inst Information Industry System and method for generating wiki by sectional time of handout and recording medium thereof
JP5010292B2 (ja) * 2007-01-18 2012-08-29 株式会社東芝 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
JP5158766B2 (ja) * 2007-10-23 2013-03-06 シャープ株式会社 コンテンツ選択装置、テレビジョン、コンテンツ選択プログラム及び記憶媒体
TW200923860A (en) * 2007-11-19 2009-06-01 Univ Nat Taiwan Science Tech Interactive learning system
CN101382937B (zh) * 2008-07-01 2011-03-30 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
CN101453649B (zh) * 2008-12-30 2011-01-05 浙江大学 压缩域视频流的关键帧提取方法
JP5366632B2 (ja) * 2009-04-21 2013-12-11 エヌ・ティ・ティ・コミュニケーションズ株式会社 検索サポートキーワード提示装置、方法及びプログラム
JP5493515B2 (ja) * 2009-07-03 2014-05-14 富士通株式会社 携帯端末装置、情報検索方法および情報検索プログラム
BR112012017226A8 (pt) * 2010-01-15 2018-06-26 Apollo Group Inc métodos de recomendações dinâmicas de aprendizado e meio de armazenamento não transitório legível em computador
JP2012038239A (ja) * 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US8839110B2 (en) * 2011-02-16 2014-09-16 Apple Inc. Rate conform operation for a media-editing application
CN102222227B (zh) * 2011-04-25 2013-07-31 中国华录集团有限公司 基于视频识别与提取影片图像的系统
CN102348049B (zh) * 2011-09-16 2013-09-18 央视国际网络有限公司 检测视频片断切点位置的方法及装置
CN102509007A (zh) * 2011-11-01 2012-06-20 北京瑞信在线系统技术有限公司 多媒体教学评估方法及系统、装置以及多媒体教学系统
JP5216922B1 (ja) * 2012-01-06 2013-06-19 Flens株式会社 学習支援サーバ、学習支援システム、及び学習支援プログラム
US9846696B2 (en) * 2012-02-29 2017-12-19 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and methods for indexing multimedia content
US20130263166A1 (en) * 2012-03-27 2013-10-03 Bluefin Labs, Inc. Social Networking System Targeted Message Synchronization
US9058385B2 (en) * 2012-06-26 2015-06-16 Aol Inc. Systems and methods for identifying electronic content using video graphs
TWI513286B (zh) * 2012-08-28 2015-12-11 Ind Tech Res Inst 影片續播方法及系統
CN102937972B (zh) * 2012-10-15 2016-06-22 上海外教社信息技术有限公司 一种视听字幕制作系统及方法
WO2014100893A1 (en) * 2012-12-28 2014-07-03 Jérémie Salvatore De Villiers System and method for the automated customization of audio and video media
JP6205767B2 (ja) * 2013-03-13 2017-10-04 カシオ計算機株式会社 学習支援装置、学習支援方法、学習支援プログラム、学習支援システム、およびサーバ装置
TWI549498B (zh) * 2013-06-24 2016-09-11 wu-xiong Chen Variable audio and video playback method
CN104572716A (zh) * 2013-10-18 2015-04-29 英业达科技有限公司 影音文件播放的系统及其方法
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
US20150206441A1 (en) * 2014-01-18 2015-07-23 Invent.ly LLC Personalized online learning management system and method
CN104123332B (zh) * 2014-01-24 2018-11-09 腾讯科技(深圳)有限公司 搜索结果的显示方法及装置
US9253511B2 (en) * 2014-04-14 2016-02-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for performing multi-modal video datastream segmentation
US20160239155A1 (en) * 2015-02-18 2016-08-18 Google Inc. Adaptive media
JP6334431B2 (ja) * 2015-02-18 2018-05-30 株式会社日立製作所 データ分析装置、データ分析方法、およびデータ分析プログラム
CN104978961B (zh) * 2015-05-25 2019-10-15 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端
CN105047203B (zh) * 2015-05-25 2019-09-10 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端
TWI571756B (zh) * 2015-12-11 2017-02-21 財團法人工業技術研究院 用以分析瀏覽記錄及其文件之方法及其系統
CN105978800A (zh) * 2016-07-04 2016-09-28 广东小天才科技有限公司 一种向移动终端推送题目的方法、系统和服务器
CN106202453B (zh) * 2016-07-13 2020-08-04 网易(杭州)网络有限公司 一种多媒体资源推荐方法和装置
CN106231399A (zh) * 2016-08-01 2016-12-14 乐视控股(北京)有限公司 视频分割方法、设备以及系统
CN106331893B (zh) * 2016-08-31 2019-09-03 科大讯飞股份有限公司 实时字幕显示方法及系统
CN108122437A (zh) * 2016-11-28 2018-06-05 北大方正集团有限公司 自适应学习方法及装置
CN107256262B (zh) * 2017-06-13 2020-04-14 西安电子科技大学 一种基于物体检测的图像检索方法
CN107623860A (zh) * 2017-08-09 2018-01-23 北京奇艺世纪科技有限公司 多媒体数据分割方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200411462A (en) * 2002-12-20 2004-07-01 Hsiao-Lien Wang A method for matching information exchange on network
US20100057644A1 (en) * 2008-09-03 2010-03-04 International Business Machines Corporation Interactive digital video library
US20150286718A1 (en) * 2014-04-04 2015-10-08 Fujitsu Limited Topic identification in lecture videos

Also Published As

Publication number Publication date
JP2020042770A (ja) 2020-03-19
CN110895654A (zh) 2020-03-20
JP2020042777A (ja) 2020-03-19
CN110895654B (zh) 2024-07-02
TW202011222A (zh) 2020-03-16
CN110888994A (zh) 2020-03-17
SG10201907250TA (en) 2020-04-29
SG10201906347QA (en) 2020-04-29
TW202011749A (zh) 2020-03-16
CN110888896A (zh) 2020-03-17
TWI709905B (zh) 2020-11-11
JP6829740B2 (ja) 2021-02-10
SG10201905532QA (en) 2020-04-29
TW202011221A (zh) 2020-03-16
TW202011231A (zh) 2020-03-16
SG10201905236WA (en) 2020-04-29
CN110891202A (zh) 2020-03-17
TWI699663B (zh) 2020-07-21
TWI696386B (zh) 2020-06-11
CN110891202B (zh) 2022-03-25
TWI700597B (zh) 2020-08-01
JP2020042771A (ja) 2020-03-19
CN110889034A (zh) 2020-03-17
SG10201905523TA (en) 2020-04-29
TW202011232A (zh) 2020-03-16
CN110888896B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
US10911840B2 (en) Methods and systems for generating contextual data elements for effective consumption of multimedia
TWI725375B (zh) 資料搜尋方法及其資料搜尋系統
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
WO2017005054A1 (zh) 视频推荐方法、服务器和存储介质
US11734289B2 (en) Methods, systems, and media for providing a media search engine
WO2017096877A1 (zh) 一种推荐方法和装置
WO2018177139A1 (zh) 一种视频摘要生成方法、装置、服务器及存储介质
US11361759B2 (en) Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media
CN111314732A (zh) 确定视频标签的方法、服务器及存储介质
CN108241856B (zh) 资讯信息生成方法及设备
CN107924398B (zh) 用于提供以评论为中心的新闻阅读器的系统和方法
CN114845149B (zh) 视频片段的剪辑方法、视频推荐方法、装置、设备及介质
US11386163B2 (en) Data search method and data search system thereof for generating and comparing strings
CN109063127A (zh) 一种搜索方法、装置、服务器及存储介质
US11409804B2 (en) Data analysis method and data analysis system thereof for searching learning sections
CN115618873A (zh) 数据处理方法、装置、计算机设备及存储介质
CN114417890B (zh) 一种评论内容回复方法、装置、电子设备及存储介质
CN116483946B (zh) 数据处理方法、装置、设备及计算机程序产品
US20240048821A1 (en) System and method for generating a synopsis video of a requested duration
CN116662607A (zh) 信息显示方法、信息生成方法、装置、设备及存储介质
CN115767207A (zh) 视频摘要生成的方法、装置、电子设备及存储介质
CN118760743A (zh) 一种显示设备、问答方法及介质
CN115114459A (zh) 一种标签修正方法、装置、设备及计算机可读存储介质
CN116012871A (zh) 对象识别方法、装置、计算机设备、存储介质和产品