TWI719415B - 用於評估影片等級的自然語言處理系統及方法 - Google Patents
用於評估影片等級的自然語言處理系統及方法 Download PDFInfo
- Publication number
- TWI719415B TWI719415B TW108107242A TW108107242A TWI719415B TW I719415 B TWI719415 B TW I719415B TW 108107242 A TW108107242 A TW 108107242A TW 108107242 A TW108107242 A TW 108107242A TW I719415 B TWI719415 B TW I719415B
- Authority
- TW
- Taiwan
- Prior art keywords
- difficulty
- video
- level
- natural language
- language processing
- Prior art date
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本發明公開一種用於評估影片等級的自然語言處理系統,系統包括線上影片伺服器、自然語言處理模組及使用者裝置。線上影片伺服器包括含字幕影片資料庫。自然語言處理模組,經配置以從含字幕影片資料庫取得待處理影片及字幕資料。自然語言處理模組包括用於產生處理後字幕資料的標記化模組、停止詞篩選模組、詞幹提取模組,以及多等級標籤字典。其中,自然語言處理模組經配置以執行分級演算法,用於計算第一難度比例、第二難度比例及第三難度比例,並根據第一閾值及第二閾值判斷字幕資料的難度,以在使用者介面上播放該待處理影片。
Description
本發明涉及一種自然語言處理系統及方法,特別是涉及一種用於評估影片等級的自然語言處理系統及方法。
近年來隨著交通工具與科技的進步,世界各國邁向國際化的第一步就是語言教育,為了更有效的學習語言,坊間也出現各式各樣的語言學習工具,然而語言學習成果需透由具有公信力之語言檢定單位認可,因此發展適合一般人學習更有效率的語言學習工具以協助其通過語言檢定甚是重要。
目前普遍採用觀看具有字幕的影片進行語言學習,以期能同時提昇語言閱讀能力及語言聽力。然而,由於影片的內容五花八門,未必為語言學習者感興趣的內容。此外,一般人難以仔細確認大量影片中字彙的難易度,進而降低了學習意願,更難以持之以恆。
故,如何建構一套能精確分析影片字彙難度的系統,來提昇語言學習者的學習意願,已成為該項事業所欲解決的重要課題之一。
本發明所要解決的技術問題在於,針對現有技術的不足提供一種用於評估影片等級的自然語言處理系統及方法。
為了解決上述的技術問題,本發明所採用的其中一技術方案是,提供一種用於評估影片等級的自然語言處理系統,其包括線上影片伺服器、自然語言處理模組及使用者裝置。線上影片伺服器包括含字幕影片資料庫。自然語言處理模組經配置以從含字幕影片資料庫取得待處理影片及對應待處理影片的字幕資料,自然語言處理模組包括標記化模組、停止詞篩選模組及詞幹提取模組。標記化模組用於去除字幕資料中的標記,停止詞篩選模組用於去除字幕資料中的多個停止詞,詞幹提取模組用於提取字幕資料中各字彙的詞幹,以產生處理後字幕資料。多等級標籤字典包括對應第一難度等級、第二難度等級及第三難度等級的多個字彙,其中自然語言處理模組經配置以執行分級演算法,包括下列步驟:將處理後字幕資料中的多個單字與多等級標籤字典中的多個字彙進行比對,以分別取得第一難度等級、第二難度等級及第三難度等級的不重複字數;計算處理後字幕資料的不重複單字總字數;分別計算第一難度等級、第二難度等級及第三難度等級的不重複字數於不重複單字總字數中所佔的比例,以獲得第一難度比例、第二難度比例及第三難度比例;判斷第三難度比例是否高於第一閾值,若是,則判斷字幕資料屬於一第三難度;若判斷第三難度比例並未高於第一閾值,則進一步判斷第二難度比例是否高於第二閾值,若是,則判斷字幕資料屬於第二難度,若否,則判斷字幕資料屬於第一難度;將對應字幕資料的難度資訊儲存於分級評估影片資料庫。使用者裝置連接分級評估影片資料庫,經配置以執行影片分級應用程式,以供使用者依據難度資訊在使用者介面上播放待處理影片。
為了解決上述的技術問題,本發明所採用的另外一技術方案是,提供一種用於評估影片等級的自然語言處理方法,其包括:配置自然語言處理模組從一線上影片伺服器的含字幕影片資料庫取得待處理影片及對應該待處理影片的字幕資料;配置該自然語言處理模組的標記化模組去除該字幕資料中的標記;配置該自然語言處理模組的停止詞篩選模組去除該字幕資料中的多個停止詞;配置該自然語言處理模組的詞幹提取模組提取該字幕資料中各字彙的詞幹,以產生處理後字幕資料;將該處理後字幕資料中的多個單字與該自然語言處理模組的多等級標籤字典中對應第一難度等級、第二難度等級及第三難度等級的多個字彙進行比對,以分別取得第一難度等級、第二難度等級及第三難度等級的不重複字數;配置該自然語言處理模組執行分級演算法,包括:計算該處理後字幕資料的不重複單字總字數;分別計算該第一難度等級、該第二難度等級及該第三難度等級的不重複字數於該不重複單字總字數中所佔的比例,以獲得第一難度比例、第二難度比例及第三難度比例;判斷該第三難度比例是否高於第一閾值,若是,則判斷該字幕資料屬於第三難度;若判斷該第三難度比例並未高於該第一閾值,則進一步判斷該第二難度比例是否高於第二閾值,若是,則判斷該字幕資料屬於第二難度,若否,則判斷該字幕資料屬於第一難度;將對應該字幕資料的難度資訊儲存於一分級評估影片資料庫;以及配置使用者裝置以執行影片分級應用程式,以供使用者依據該難度資訊在使用者介面上播放該待處理影片。
為使能更進一步瞭解本發明的特徵及技術內容,請參閱以下有關本發明的詳細說明與圖式,然而所提供的圖式僅用於提供參考與說明,並非用來對本發明加以限制。
以下是通過特定的具體實施例來說明本發明所公開有關“用於評估影片等級的自然語言處理系統及方法”的實施方式,本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用,本說明書中的各項細節也可基於不同觀點與應用,在不悖離本發明的構思下進行各種修改與變更。另外,本發明的附圖僅為簡單示意說明,並非依實際尺寸的描繪,事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容,但所公開的內容並非用以限制本發明的保護範圍。
應當可以理解的是,雖然本文中可能會使用到 “第一”、“第二”、“第三”等術語來描述各種元件或者信號,但這些元件或者信號不應受這些術語的限制。這些術語主要是用以區分一元件與另一元件,或者一信號與另一信號。另外,本文中所使用的術語“或”,應視實際情況可能包括相關聯的列出項目中的任一個或者多個的組合。
參閱圖1所示,其為本發明實施例的自然語言處理系統的方塊圖。本發明第一實施例提供一種用於評估影片等級的自然語言處理系統1,其包括線上影片伺服器10、自然語言處理模組12及使用者裝置16。
線上影片伺服器10包括含字幕影片資料庫100。含字幕影片資料庫100可儲存有多個影片及對應該些影片的字幕資料。自然語言處理模組10可例如是,可向網路上的用戶或其他節點提供資訊資源、服務和應用的伺服器,其經配置以從含字幕影片資料庫100的多個影片中取得其中之一作為待處理影片,並同時取得對應此待處理影片的字幕資料。可選的,自然語言處理模組10亦可從各種免費線上影片串流服務取得待處理影片及字幕資料,例如YouTube網站上提供的TED演講、音樂、新聞及熱門影片製作者的影片及字幕。
另一方面,線上影片伺服器10可進一步包括自動語音辨識影片資料庫102,其具體而言是針對多個不含字幕影片進行語音辨識,而產生對應該些不含字幕影片的語音辨識字幕資料。自然語言處理模組12更經配置以從自動語音辨識影片資料庫102中取得多個不含字幕影片的其中之一作為待處理影片,同時取得對應此待處理影片的語音辨識字幕資料。
自然語言處理模組12進一步包括標記化模組120、停止詞篩選模組122、詞幹提取模組124、分級演算法126及多等級標籤字典128。自然語言處理模組12主要用提取字幕資料中具有重要性的部份,以用於後續的難度分析。其中,標記化模組120用於去除字幕資料中的標記,停止詞篩選模組122用於去除字幕資料中的多個停止詞,詞幹提取模組124用於提取字幕資料中各字彙的詞幹,以產生處理後字幕資料。
舉例而言,以下提供一示範句子A:
“The Beech Hill Hotel is Lake Windermere's most distinctive 4 Star hotel, with stunning views, superb food and where every consideration has been taken for your comfort.” ;
首先,標記化模組120將示範句子A中的標記去除,得到以下示範句子A’:
“The Beech Hill Hotel is Lake Windermere s most distinctive 4 Star hotel with stunning views superb food and where every consideration has been taken for your comfort”;
接著,停止詞篩選模組122將示範句子A中的多個停止詞去除,得到以下示範句子A”:
“The Beech Hill Hotel Lake Windermere distinctive 4 Star hotel stunning views superb food every consideration taken comfort”;
再者,詞幹提取模組124用於提取字幕資料中各字彙的詞幹,以產生處理後字幕資料:
“the beech hill hotel lake windermer distinct 4 star hotel stun view superb food everi consider taken comfort” ;
本實施例另外提供一示範句子B:
“No matter what time of year it is, the view from the Beech Hill's lounge and sun terrace will never fail to impress. Take lunch on our terrace and soak up the breathtaking views of Lake Windermere.” ;
首先,標記化模組120將示範句子A中的標記去除,得到以下示範句子B’:
“No matter what time of year it is the view from the Beech Hill s lounge and sun terrace will never fail to impress Take lunch on our terrace and soak up the breathtaking views of Lake Windermere”;
接著,停止詞篩選模組122將示範句子A中的多個停止詞去除,得到以下示範句子B”:
“No matter time year view Beech Hill lounge sun terrace never fail impress Take lunch terrace soak breathtaking views Lake Windermere”;
再者,詞幹提取模組124用於提取字幕資料中各字彙的詞幹,以產生處理後字幕資料:
“no matter time year view beech hill loung sun terrac never fail impress take lunch terrac soak breathtak view lake windermer” 。
此處,標記化模組120從字幕資料中去除的標記可包括逗號、句號、分號、單引號、雙引號等,停止詞篩選模組122從字幕資料中去除的多個停止詞可包括be動詞或其變形、疑問詞、冠詞、“have”或其變形'、介系詞(例如of、for等)。詞幹提取模組124從字幕資料中提取各字彙的詞幹可包括詞綴所附着的部分。
此外,多等級標籤字典128包括對應第一難度等級、第二難度等級及第三難度等級的多個字彙,但不限於此。多等級標籤字典128可為一具有20難度等級的字典,再依據系統設計者的需求,規劃為三大難度等級的字典,並且,第一難度等級、第二難度等級及第三難度等級可分別為初級難度、中級難度及高級難度。
進一步,請參考圖2,其為本發明實施例的分級演算法的流程圖。詳細而言,如上所述,自然語言處理模組12可為伺服器,其具有處理器,經配置以執行儲存於自然語言處理模組12內建的記憶體中儲存的分級演算法126,可包括下列步驟:
步驟S100:將處理後字幕資料中的多個單字與多等級標籤字典128中的多個字彙進行比對,以分別取得第一難度等級、第二難度等級及第三難度等級的不重複字數。
步驟S101:計算處理後字幕資料的不重複單字總字數。
步驟S102:分別計算第一難度等級、第二難度等級及第三難度等級的不重複字數於不重複單字總字數中所佔的比例,以獲得第一難度比例、第二難度比例及第三難度比例。需要說明的是,計算不重複字數的原因在於,若將重複的字數納入計算,字幕整體難度並未改變,卻使各難度的比例下降,因此較不易取得具有參考價值的資料。
步驟S103:判斷第三難度比例是否高於第一閾值,若是,則進入步驟S104,將字幕資料判斷為屬於第三難度。
若在步驟S103中判斷第三難度比例並未高於第一閾值,則進一步執行步驟S105,判斷第二難度比例是否高於第二閾值。若是,則進入步驟S106,將字幕資料判斷為屬於第二難度,若否,則執行步驟S107,將字幕資料判斷為屬於第一難度。
步驟S108,將對應字幕資料的難度資訊142儲存於分級評估影片資料庫14。
此處,判斷第三難度比例的優先順序必大於第二難度,其原因在於以單一語句而言,若出現高級難度的字彙,將導致整體語句的難度大幅提昇,並且隨著語句字彙越少難度越高。也因此,高級難度字彙的數量較容易影響分級的判斷。舉例而言,第一閾值可在20%至40%的範圍內,並包括其範圍內所有數值的節點,而較佳者可為30%,而第二閾值可在40%至60%的範圍內,並包括其範圍內所有數值的節點,而較佳者可為50%。
請復參照圖1,自然語言處理系統1還包括分級評估影片資料庫14及連接其之使用者裝置16。以本發明實施例為非受限實施例之前提下,各種例子可以進一步實施在廣泛種類的操作環境,這在某些情況下可以包括可以用來運行任何數目應用程式之一個或多個伺服器電腦、使用者電腦或計算裝置。使用者裝置16可以包含任何數目之運行標準作業系統的通用目的個人電腦,如桌上型電腦或筆記型電腦,以及運行行動軟體且能夠支援大量的網路和傳訊通訊協定之行動電話、無線及手持裝置。這種系統還可以包括若干工作站,運行用於開發和資料庫管理等目的之任何各種商業上可用的作業系統以及其他已知的應用程式。這些裝置還可以包括能夠通過網路進行通訊之其他電子裝置,如虛擬終端、用戶端、遊戲系統和其他裝置。
使用者裝置16可包括處理器,其功能可藉由使用一或多個處理單元而實施。處理器可為可程式化單元,諸如微處理器、微控制器、數位信號處理器(digital signal processor, DSP)晶片、場可程式化閘陣列(field-programmable gate array, FPGA)等。處理器的功能亦可藉由一個或若干個電子裝置或IC實施。換言之,藉由處理器執行的功能可實施於硬體域或軟體域或硬體域與軟體域的組合內。
使用者裝置16經配置以通過處理器執行儲存於使用者裝置16內建的記憶體中的影片分級應用程式160,以供使用者依據難度資訊142在使用者介面161上播放待處理影片。
此外,使用者裝置16更包括使用者資料庫162,儲存有使用者個人資料163、使用者等級164及使用者觀影紀錄165。具體而言,使用者個人資料163可包括使用者通過影片分級應用程式160存取分級評估影片資料庫14的帳號、密碼及個人資訊,使用者等級164可包括多個難度分級,例如,對應於分級評估影片資料庫14中儲存的難度資訊142的第一難度等級、第二難度等級及第三難度等級,可通過影片分級應用程式160提供問卷供使用者於使用者介面161上作答,以針對使用者的英語能力進行等級評估,或由使用者自行選擇難度等級。
因此,影片分級應用程式160可依據難度資訊142,分配對應使用者等級164的待處理影片供使用者於使用者介面161上選擇。
此外,如圖1所示,分級評估影片資料庫142更包括標籤資料庫140,其儲存有從線上影片伺服器10的影片資料庫,例如含字幕影片資料庫100或自動語音辨識影片資料庫102取得對應待處理影片的多個標籤。多個標籤可依據待處理影片的內容來提供,例如以一網球比賽影片來舉例,多個標籤可包括運動、網球、網球選手姓名、慣用攻擊方式或訓練方式等。這讓使用者更有效率的選擇感興趣的內容,進一步提昇學習意願。
另一方面,使用者觀影紀錄165可紀錄有使用者曾經觀看過的多個歷史影片及對應多個該歷史影片的多個標籤,影片分級應用程式160更依據標籤資料庫140及對應多個歷史影片的多個標籤,分配待處理影片供使用者於使用者介面161上選擇。
除此之外,使用者觀影紀錄165更可紀錄對應多個歷史影片的多個難度資訊,藉此,影片分級應用程式160可依據使用者等級164及對應多個歷史影片的難度資訊,分配多個待處理影片供使用者於使用者介面161上選擇。
針對需要更多分級數量的部份使用者,本發明的另一實施例更提供一種自然語言處理系統,其不同之處在於,所採用的分級演算法針對影響影片難度的多個因子進行更細部的分析計算。請進一步參考圖3,其為本發明另一實施例的分級演算法的流程圖。
如圖所示,本實施例中的分級演算法包括:
步驟S200:取得字幕資料的總字數。
步驟S201:將第一難度等級、第二難度等級及第三難度等級的不重複字數分別乘上第一難度權重、第二難度權重及第三難度權重並相加,再除以字幕資料的總字數以獲得單字難度加權值。
步驟S202:將字幕資料的總字數對應待處理影片的字幕時間軸進行解析以計算語速。語速可例如為每秒音節數量,可通過擷取多等級標籤字典128中提供的音節數量來計算。
步驟S203:將第一難度等級、第二難度等級及第三難度等級的不重複字數除以總字數,以獲得總單字不重複率。此流程的順序並不限於上述的實施例。
詳細而言,第一難度等級、第二難度等級及第三難度等級均有各自對應的第一難度權重、第二難度權重及第三難度權重,如先前提到的,以單一語句而言,若出現高級難度的字彙,將導致整體語句的難度大幅提昇,並且隨著語句字彙越少難度越高。也因此,高級難度字彙的數量較容易影響分級的判斷。換言之,第三難度權重將會大於第二難度權重,而第二難度權重會大於第一難度權重。
另一方面,對於語言學習者而言,影片的難度不僅僅取決於字彙的難度,更取決於其語速。因此,對於不同地區的腔調而言,各自具有不同的發音方式及速度,而這同樣會影響影片的難度。
此外,計算總單字不重複率的原因在於,單一字彙於影片中出現的頻率越高,語言學習者越容易聽懂並擷取其語意,因此,需要將總字數納入考量,進而計算不同難度下字彙的不重複率,來分析對影片難度造成的影像。
以下提供一字幕文本作為範例如下所示:
“The Beech Hill Hotel is Lake Windermere's most distinctive 4 Star hotel, with stunning views, superb food and where every consideration has been taken for your comfort. Here, on the shores of one of the Lake District’s most beautiful locations, you’re free to indulge yourself in the warmth of our homely and comfortable hotel, served by our friendly and welcoming staff. Our well appointed rooms will ensure a comfortable stay, with many having breathtaking views of Lake Windermere and the Old Man of Coniston. No matter what time of year it is, the view from the Beech Hill's lounge and sun terrace will never fail to impress. Take lunch on our terrace and soak up the breathtaking views of Lake Windermere. You can take afternoon tea on our garden terrace or even sit on our private jetty and watch the world go by. For an excellent dining experience, you won't fail to be impressed by Burlington's, our award winning Restaurant, where flavour and our chef's attention to detail are the order of the day. You can join our Diner's Club or attend one of our special nights from our annual events programme. With the exception of January, the hotel runs a packed diary of special events such as our Strawberry and Champagne Evening, Summer Ball and our Gourmet and Wine Tasting night. The hotel pool and garden terrace provide perfect relaxation, though for the more adventurous, the Beech Hill is an excellent base to explore the rest of the stunning Lake District safe in the knowledge you will be returning to a cosy, warm fireside retreat after all the exploring. The nearby Bowness on Windermere offers a wealth of attractions, shopping and nightlife and is the location of our Luxury Holiday Home, High Biggin. The house has 4 double bedrooms, 5 bathrooms, a beautiful open plan sun room and facilities such as a hot tub, terrace and views of Windermere. It's perfect for a family break or as the centre of your Lakes wedding plans. The Lake District is an all year round destination, with something to see or do come rain or shine, and the Beech Hill Hotel is excellent value for money whatever your budget. Our friendly & welcoming staff will help you relax and make sure that your stay in the Lake District is everything you want it to be.”
首先,取得字幕資料的總字數為394。
接著,將整個文本經過標記化模組120用於去除字幕資料中的標記,停止詞篩選模組122用於去除字幕資料中的多個停止詞,詞幹提取模組124用於提取字幕資料中各字彙的詞幹,以產生處理後字幕資料。
接著,將處理後字幕資料中的多個單字與多等級標籤字典128中的多個字彙進行比對,以分別取得第一難度等級、第二難度等級及第三難度等級的不重複字數,分別為89、27及12,且同時計算處理後字幕資料的不重複單字總字數,為141。
再來將第一難度等級、第二難度等級及第三難度等級的不重複字數除以總字數,以獲得總單字不重複率,為141/394=0.357。
此外,更將字幕資料的總字數394對應待處理影片的字幕時間軸進行解析以計算語速,例如計算每秒音節數獲得2.72438。
最後,將第一難度等級、第二難度等級及第三難度等級的不重複字數分別乘上第一難度權重、第二難度權重及第三難度權重並相加,再除以字幕資料的總字數以獲得單字難度加權值。以本實施例而言,分別設定第一難度權重、第二難度權重及第三難度權重為1、2、3,因此,單字難度加權值為:(89*1+27*2+12*3)/394 = 0.454。
在取得上述影響影片難度的多個因子後,可進一步通過一決策樹來判斷字幕資料的子難度,並可以該字幕資料所屬的子難度作為難度資訊142。請參考圖4,其為本發明另一實施例的決策樹的多階層示意圖。其中,決策樹T可包括第一階層St1、第二階層St2及第三階層St3,第一階層St1包括第一決策節點N1,第二階層St2包括第二決策節點N2及第三決策節點N3,第三階層St3包括第四決策節點N4及第五決策節點N5。各決策節點的內涵詳述如下:
第一決策節點N1,係用於判斷總單字不重複率為位於小於第一單字不重複率的第一不重複率區間U1,位於第一單字不重複率及第二單字不重複率之間的第二不重複率區間U2,或位於大於第二單字不重複率的第三不重複率區間U3。
第二決策節點N2,係用於判斷語速是位於小於第一語速的第一語速區間S1或大於該第一語速的第二語速區間S2。
第三決策節點N3,係用於判斷語速是位於小於第二語速的第三語速區間S3,位於第二語速及第三語速之間的第四語速區間S4,或是位於大於第三語速的第五語速區間S5。
第四決策節點N4,係用於判斷單字難度加權值是位於小於第一難度加權值的第一難度加權區間I1或是大於第一難度加權值的第二難度加權區間I2。
第五決策節點N5,係用於判斷單字難度加權值是位於小於第二難度加權值的第三難度加權區間I3,位於第二難度加權值及第三難度加權值之間的第四難度加權區間I4,或位於大於第三難度加權值的第五難度加權區間I5。
其中,決策樹T以第一決策節點N1作為出發點,並以多個子難度作為多個終結點,並且,依據上述第一階層St1、第二階層St2及第三階層St3所示,第一決策節點N1僅允許連接於第二決策節點N2及第三決策節點N3之前,第二決策節點N2及第三決策節點N3僅允許連接於第四決策節點N4及第五決策節點N5之前。
需要說明的是,由於總單字不重複率對影片難度的影響程度大於語速,而語速對影片難度的影響程度又大於單字難度加權值,故此設計係基於上述來對字幕資料的子難度進行判斷。
決策樹的其中一示例可參照圖5所示,其為本發明另一實施例的決策樹範例圖。此處,給定第一單字不重複率為0.3,第二單字不重複率為0.5,因此,第一不重複率區間U1為總單字不重複率小於或等於0.3的區間,第二不重複率區間U2為總單字不重複率大於0.3且小於或等於0.5的區間,第三不重複率區間U3為總單字不重複率大於0.5的區間。
另外,給定第一語速為2,第二語速為2.6,第三語速為3.1,因此,第一語速區間S1為語速小於或等於2的區間,第二語速區間S2為語速大於2的區間,第三語速區間S3為語速小於或等於2.6的區間,第四語速區間S4為語速大於2.6且小於或等於3.1的區間,第五語速區間S5為語速大於2.6的區間。
再者,給定第一難度加權值為1.9,第二難度加權值為1.8,第三難度加權值為2,因此,第一難度加權值區間S1為單字難度加權值小於或等於1.9的區間,第二難度加權值區間S2為單字難度加權值大於1.9的區間,第三難度加權值區間S3為單字難度加權值小於或等於1.8的區間,第四難度加權值區間S4為單字難度加權值大於1.8且小於或等於2的區間,第五難度加權值區間S5為單字難度加權值大於2的區間。
如圖所示,決策樹T’可依據上述設定,設計如下:
當總單字不重複率<=0.3,且語速<=2時,回傳子難度SLV1;
當總單字不重複率<=0.3,語速>2,且單字難度加權<=1.9時,回傳子難度SLV1;
當總單字不重複率<=0.3,語速>2,且單字難度加權>1.9時,回傳子難度SLV2;
當0.3<總單字不重複率<=0.5,語速<2.6,且單字難度加權<=1.8時,回傳子難度SLV2;
當0.3<總單字不重複率<=0.5,語速<2.6,且1.8<單字難度加權<=2時,回傳子難度SLV3;
當0.3<總單字不重複率<=0.5,語速<2.6,且單字難度加權>2時,回傳子難度SLV4;
當0.3<總單字不重複率<=0.5,2.6<=語速<3.1,且單字難度加權<=1.8時,回傳子難度SLV3;
當0.3<總單字不重複率<=0.5,2.6<=語速<3.1,且1.8<單字難度加權<=2時,回傳子難度SLV4;
當0.3<總單字不重複率<=0.5,2.6<=語速<3.1,且單字難度加權>2時,回傳子難度SLV5;
當0.3<總單字不重複率<=0.5,語速>=3.1,且單字難度加權<=1.8時,回傳子難度SLV4;
當0.3<總單字不重複率<=0.5,語速>=3.1,且1.8<單字難度加權<=2時,回傳子難度SLV5;
當0.3<總單字不重複率<=0.5,語速>=3.1,且單字難度加權>2時,回傳子難度SLV6;
當總單字不重複率>0.5,語速<2.6,且單字難度加權<=1.8時,回傳子難度SLV5;
當總單字不重複率>0.5,語速<2.6,且1.8<單字難度加權<=2時,回傳子難度SLV6;
當總單字不重複率>0.5,語速<2.6,且單字難度加權>2時,回傳子難度SLV7;
當總單字不重複率>0.5,2.6<=語速<3.1,且單字難度加權<=1.8時,回傳子難度SLV6
當總單字不重複率>0.5,2.6<=語速<3.1,且1.8<單字難度加權<=2時,回傳子難度SLV7;
當總單字不重複率>0.5,2.6<=語速<3.1,且單字難度加權>2時,回傳子難度SLV8;
當總單字不重複率>0.5,語速>=3.1,且單字難度加權<=1.9時,回傳子難度SLV8;
當總單字不重複率>0.5,語速>=3.1,且單字難度加權>1.9時,回傳子難度SLV9。
如此,便可獲得如圖所示具有九個子難度SLV1至SLV9的決策樹T’,系統提供者可通過設定上述參數,來增減所提供的難度分級數量,且語言學習者亦可依據需求決定是否開啟此決策樹來取得更詳細的難度分級。例如,當使用者選擇加值服務,將會由使用者裝置的使用者個人資料163所紀錄,而分級演算法126將會依據使用者個人資料163決定是否執行此決策樹。因此,通過更詳細的難度分級,語言學習者能夠更容易評估自身語言能力的進展,將可進一步提高學習意願。
請參閱圖6所示,其為本發明又一實施例的自然語言處理方法的流程圖。如圖所示,本發明又一實施例提供一種用於評估影片等級的自然語言處理方法,其適用於前述實施例所述的自然語言處理系統。其中,上文已經詳細描述了分級演算法的細節,故將省略重複敘述。用於評估影片等級的自然語言處理方法至少包括下列幾個步驟:
步驟S300:配置自然語言處理模組從線上影片伺服器的含字幕影片資料庫取得待處理影片及對應待處理影片的字幕資料。
步驟S301:配置自然語言處理模組的標記化模組去除字幕資料中的標記。
步驟S302:配置自然語言處理模組的停止詞篩選模組去除字幕資料中的多個停止詞。
步驟S303:配置自然語言處理模組的詞幹提取模組提取字幕資料中各字彙的詞幹,以產生處理後字幕資料。
步驟S304:將處理後字幕資料中的多個單字與自然語言處理模組的多等級標籤字典中對應第一難度等級、第二難度等級及第三難度等級的多個字彙進行比對,以分別取得第一難度等級、第二難度等級及第三難度等級的不重複字數。
步驟S305:配置自然語言處理模組執行分級演算法。
步驟S306:將對應字幕資料的難度資訊儲存於分級評估影片資料庫。
步驟S307:配置使用者裝置以執行影片分級應用程式,以供使用者依據難度資訊在使用者介面上播放待處理影片。
本發明的其中一有益效果在於,本發明所提供的用於評估影片等級的自然語言處理系統及方法,其能通過自然語言處理模組提取字幕資料中具有重要性的部份,進行精確的難度分析,而使得語言學習者能觀看最符合其語言能力的影片,來提高使用者的學習意願。
此外,通過取得對應待處理影片的多個標籤,影片分級應用程式可通過分析使用者觀影紀錄所紀錄的多個歷史影片及對應多個該歷史影片的多個標籤,來分配對應的影片,這讓使用者更有效率的選擇感興趣的內容,進一步提昇學習意願。
更進一步而言,本發明的自然語言處理系統及方法採用的分級演算法,其針對影響影片難度的多個因子進行更細部的分析計算,並通過決策樹來判斷字幕資料的子難度,而提供更為詳細的難度分級,使得語言學習者能夠更容易評估自身語言能力的進展,將可進一步提高學習意願。
以上所公開的內容僅為本發明的優選可行實施例,並非因此侷限本發明的申請專利範圍,所以凡是運用本發明說明書及圖式內容所做的等效技術變化,均包含於本發明的申請專利範圍內。
1:自然語言處理系統
10:線上影片伺服器
100:含字幕影片資料庫
102:自動語音辨識影片資料庫
12:自然語言處理模組
120:標記化模組
122:停止詞篩選模組
124:詞幹提取模組
126:分級演算法
128:多等級標籤字典
14:分級評估影片資料庫
140:標籤資料庫
142:難度資訊
16:使用者裝置
160:影片分級應用程式
161:使用者介面
162:使用者資料庫
163:使用者個人資料
164:使用者等級
165:使用者觀影紀錄
T、T’:決策樹
St1:第一階層
St2:第二階層
St3:第三階層
N1:第一決策節點
N2:第二決策節點
N3:第三決策節點
N4:第四決策節點
N5:第五決策節點
U1:第一不重複率區間
U2:第二不重複率區間
U3:第三不重複率區間
S1:第一語速區間
S2:第二語速區間
S3:第三語速區間
S4:第四語速區間
S5:第五語速區間
I1:第一難度加權區間
I2:第二難度加權區間
I3:第三難度加權區間
I4:第四難度加權區間
I5:第五難度加權區間
SLV1、SLV2、…、SLV9:子難度
圖1為本發明實施例的自然語言處理系統的方塊圖。
圖2為本發明實施例的分級演算法的流程圖。
圖3為本發明另一實施例的分級演算法的流程圖。
圖4為本發明另一實施例的決策樹的多階層示意圖。
圖5為本發明另一實施例的決策樹範例圖。
圖6為本發明又一實施例的自然語言處理方法的流程圖。
1:自然語言處理系統
10:線上影片伺服器
100:含字幕影片資料庫
102:自動語音辨識影片資料庫
12:自然語言處理模組
120:標記化模組
122:停止詞篩選模組
124:詞幹提取模組
126:分級演算法
128:多等級標籤字典
14:分級評估影片資料庫
140:標籤資料庫
142:難度資訊
16:使用者裝置
160:影片分級應用程式
161:使用者介面
162:使用者資料庫
163:使用者個人資料
164:使用者等級
165:使用者觀影紀錄
Claims (20)
- 一種用於評估影片等級的自然語言處理系統,其包括: 一線上影片伺服器,包括一含字幕影片資料庫; 一自然語言處理模組,經配置以從該含字幕影片資料庫取得一待處理影片及對應該待處理影片的一字幕資料,該自然語言處理模組包括: 一標記化模組,用於去除該字幕資料中的標記; 一停止詞篩選模組,用於去除該字幕資料中的多個停止詞; 一詞幹提取模組,用於提取該字幕資料中各字彙的詞幹,以產生一處理後字幕資料;及 一多等級標籤字典,包括對應一第一難度等級、一第二難度等級及一第三難度等級的多個字彙,其中該自然語言處理模組經配置以執行一分級演算法,包括下列步驟: 將該處理後字幕資料中的多個單字與該多等級標籤字典中的多個字彙進行比對,以分別取得一第一難度等級、一第二難度等級及一第三難度等級的不重複字數; 計算該處理後字幕資料的一不重複單字總字數; 分別計算該第一難度等級、該第二難度等級及該第三難度等級的不重複字數於該不重複單字總字數中所佔的比例,以獲得一第一難度比例、一第二難度比例及一第三難度比例; 判斷該第三難度比例是否高於一第一閾值,若是,則判斷該字幕資料屬於一第三難度; 若判斷該第三難度比例並未高於該第一閾值,則進一步判斷該第二難度比例是否高於一第二閾值,若是,則判斷該字幕資料屬於一第二難度,若否,則判斷該字幕資料屬於一第一難度; 將對應該字幕資料的難度資訊儲存於一分級評估影片資料庫;以及 一使用者裝置,連接該分級評估影片資料庫,經配置以執行一影片分級應用程式,以供使用者依據該難度資訊在一使用者介面上播放該待處理影片。
- 如申請專利範圍第1項所述的用於評估影片等級的自然語言處理系統,其中該自然語言處理模組更經配置以從該線上影片伺服器的一自動語音辨識影片資料庫取得該待處理影片及對應該待處理影片的該字幕資料。
- 如申請專利範圍第1項所述的用於評估影片等級的自然語言處理系統,其中該使用者裝置更包括一使用者資料庫,儲存有使用者等級, 其中該影片分級應用程式依據該難度資訊,分配對應該使用者等級的該待處理影片供使用者於該使用者介面上選擇。
- 如申請專利範圍第1項所述的用於評估影片等級的自然語言處理系統,其中該分級評估影片資料庫更包括一標籤資料庫,其儲存有從該線上影片伺服器取得對應該待處理影片的多個標籤。
- 如申請專利範圍第4項所述的用於評估影片等級的自然語言處理系統,其中該使用者資料庫更包括一使用者觀影紀錄,其紀錄有該使用者曾經觀看過的多個歷史影片及對應多個該歷史影片的多個標籤, 其中該影片分級應用程式更依據該標籤資料庫及對應多個該歷史影片的多個該標籤分配該待處理影片供使用者於使用者介面上選擇。
- 如申請專利範圍第5項所述的用於評估影片等級的自然語言處理系統,其中該使用者觀影紀錄更紀錄對應多個該歷史影片的多個難度資訊,且該影片分級應用程式更依據該使用者等級及對應多個該歷史影片的該難度資訊分配多個該待處理影片供使用者於使用者介面上選擇。
- 如申請專利範圍第1項所述的用於評估影片等級的自然語言處理系統,其中該分級演算法更包括: 取得該字幕資料的一總字數; 將該第一難度等級、該第二難度等級及該第三難度等級的該些不重複字數分別乘上一第一難度權重、一第二難度權重及一第三難度權重並相加,再除以該字幕資料的總字數以獲得一單字難度加權值; 將該字幕資料的該總字數對應該待處理影片的一字幕時間軸進行解析以計算一語速;以及 將該第一難度等級、該第二難度等級及該第三難度等級的該些不重複字數除以該總字數,以獲得一總單字不重複率。
- 如申請專利範圍第7項所述的用於評估影片等級的自然語言處理系統,其中該語速為每秒音節數量。
- 如申請專利範圍第7項所述的用於評估影片等級的自然語言處理系統,其中該分級演算法更包括: 以一決策樹判斷該字幕資料的子難度; 以該字幕資料所屬的該子難度作為該難度資訊,其中該決策樹包括: 一第一決策節點,係用於判斷該總單字不重複率為位於小於一第一單字不重複率的一第一不重複率區間,位於該第一單字不重複率及一第二單字不重複率之間的一第二不重複率區間,或位於大於該第二單字不重複率的一第三不重複率區間; 一第二決策節點,係用於判斷該語速是位於小於一第一語速的一第一語速區間或大於該第一語速的一第二語速區間; 一第三決策節點,係用於判斷該語速是位於小於一第二語速的一第三語速區間,位於該第二語速及一第三語速之間的一第四語速區間,或是位於大於該第三語速的一第五語速區間; 一第四決策節點,係用於判斷該單字難度加權值是位於小於一第一難度加權值的一第一難度區間或是大於該第一難度加權值的一第二難度加權區間; 一第五決策節點,係用於判斷該單字難度加權值是位於小於一第二難度加權值的一第三難度加權區間,位於該第二難度加權值及一第三難度加權值之間的一第四難度加權區間,或位於大於該第三難度加權值的一第五難度加權區間, 其中該決策樹以該第一決策節點作為出發點,並以多個子難度作為多個終結點, 其中該第一決策節點僅允許連接於該第二決策節點及該第三決策節點之前,該第二決策節點及該第三決策節點僅允許連接於該第四決策節點及該第五決策節點之前。
- 如申請專利範圍第9項所述的用於評估影片等級的自然語言處理系統,其中該分級演算法更包括根據該使用者裝置的一使用者個人資料,決定是否執行該決策樹。
- 一種用於評估影片等級的自然語言處理方法,其包括: 配置一自然語言處理模組從一線上影片伺服器的一含字幕影片資料庫取得一待處理影片及對應該待處理影片的一字幕資料: 配置該自然語言處理模組的一標記化模組去除該字幕資料中的標記; 配置該自然語言處理模組的一停止詞篩選模組去除該字幕資料中的多個停止詞; 配置該自然語言處理模組的一詞幹提取模組提取該字幕資料中各字彙的詞幹,以產生一處理後字幕資料; 將該處理後字幕資料中的多個單字與該自然語言處理模組的一多等級標籤字典中對應一第一難度等級、一第二難度等級及一第三難度等級的多個字彙進行比對,以分別取得一第一難度等級、一第二難度等級及一第三難度等級的不重複字數; 配置該自然語言處理模組執行一分級演算法,包括: 計算該處理後字幕資料的一不重複單字總字數; 分別計算該第一難度等級、該第二難度等級及該第三難度等級的不重複字數於該不重複單字總字數中所佔的比例,以獲得一第一難度比例、一第二難度比例及一第三難度比例; 判斷該第三難度比例是否高於一第一閾值,若是,則判斷該字幕資料屬於一第三難度; 若判斷該第三難度比例並未高於該第一閾值,則進一步判斷該第二難度比例是否高於一第二閾值,若是,則判斷該字幕資料屬於一第二難度,若否,則判斷該字幕資料屬於一第一難度;及 將對應該字幕資料的難度資訊儲存於一分級評估影片資料庫;以及 配置一使用者裝置以執行一影片分級應用程式,以供使用者依據該難度資訊在一使用者介面上播放該待處理影片。
- 如申請專利範圍第11項所述的用於評估影片等級的自然語言處理方法,更包括配置該自然語言處理模組以從該線上影片伺服器的一自動語音辨識影片資料庫取得該待處理影片及對應該待處理影片的該字幕資料。
- 如申請專利範圍第11項所述的用於評估影片等級的自然語言處理方法,更包括以該影片分級應用程式依據該難度資訊,分配對應一使用者資料庫儲存的一使用者等級的該待處理影片供使用者於該使用者介面上選擇。
- 如申請專利範圍第11項所述的用於評估影片等級的自然語言處理方法,更包括: 從該線上影片伺服器取得對應該待處理影片的多個標籤; 以該分級評估影片資料庫的一標籤資料庫儲存對應該待處理影片的多個該標籤。
- 如申請專利範圍第14項所述的用於評估影片等級的自然語言處理方法,更包括: 以該使用者資料庫的一使用者觀影紀錄紀錄該使用者曾經觀看過的多個歷史影片及對應多個該歷史影片的難度資訊;以及 配置該影片分級應用程式依據該難度資訊及對應多個該歷史影片的該難度資訊分配該待處理影片供使用者於使用者介面上選擇。
- 如申請專利範圍第15項所述的用於評估影片等級的自然語言處理方法,其中該使用者資料庫更包括一使用者觀影紀錄,其紀錄有該使用者曾經觀看過的多個歷史影片及對應多個該歷史影片的多個標籤, 其中該影片分級應用程式更依據該標籤資料庫及對應多個該歷史影片的多個該標籤分配該待處理影片供使用者於使用者介面上選擇。
- 如申請專利範圍第11項所述的用於評估影片等級的自然語言處理方法,其中該分級演算法更包括: 取得該字幕資料的一總字數; 將該第一難度等級、該第二難度等級及該第三難度等級的該些不重複字數分別乘上一第一難度權重、一第二難度權重及一第三難度權重並相加,再除以該字幕資料的總字數以獲得一單字難度加權值; 將該字幕資料的該總字數對應該待處理影片的一字幕時間軸進行解析以計算一語速;以及 將該第一難度等級、該第二難度等級及該第三難度等級的該些不重複字數除以該總字數,以獲得一總單字不重複率。
- 如申請專利範圍第17項所述的用於評估影片等級的自然語言處理方法,其中該語速為每秒音節數量。
- 如申請專利範圍第17項所述的用於評估影片等級的自然語言處理方法,其中該分級演算法更包括: 以一決策樹判斷該字幕資料的子難度; 以該字幕資料所屬的該子難度作為該難度資訊,其中該決策樹包括: 一第一決策節點,係用於判斷該總單字不重複率為位於小於一第一單字不重複率的一第一不重複率區間,位於該第一單字不重複率及一第二單字不重複率之間的一第二不重複率區間,或位於大於該第二單字不重複率的一第三不重複率區間; 一第二決策節點,係用於判斷該語速是位於小於一第一語速的一第一語速區間或大於該第一語速的一第二語速區間; 一第三決策節點,係用於判斷該語速是位於小於一第二語速的一第三語速區間,位於該第二語速及一第三語速之間的一第四語速區間,或是位於大於該第三語速的一第五語速區間; 一第四決策節點,係用於判斷該單字難度加權值是位於小於一第一難度加權值的一第一難度區間或是大於該第一難度加權值的一第二難度加權區間; 一第五決策節點,係用於判斷該單字難度加權值是位於小於一第二難度加權值的一第三難度加權區間,位於該第二難度加權值及一第三難度加權值之間的一第四難度加權區間,或位於大於該第三難度加權值的一第五難度加權區間, 其中該決策樹以該第一決策節點作為出發點,並以多個子難度作為多個終結點, 其中該第一決策節點僅允許連接於該第二決策節點及該第三決策節點之前,該第二決策節點及該第三決策節點僅允許連接於該第四決策節點及該第五決策節點之前。
- 如申請專利範圍第19項所述的用於評估影片等級的自然語言處理方法,其中該分級演算法更包括根據該使用者裝置的一使用者個人資料,決定是否執行該決策樹。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108107242A TWI719415B (zh) | 2019-03-05 | 2019-03-05 | 用於評估影片等級的自然語言處理系統及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108107242A TWI719415B (zh) | 2019-03-05 | 2019-03-05 | 用於評估影片等級的自然語言處理系統及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202034208A TW202034208A (zh) | 2020-09-16 |
TWI719415B true TWI719415B (zh) | 2021-02-21 |
Family
ID=73643824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108107242A TWI719415B (zh) | 2019-03-05 | 2019-03-05 | 用於評估影片等級的自然語言處理系統及方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI719415B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7907152B2 (en) * | 2003-09-19 | 2011-03-15 | Microsoft Corporation | Full scale video with overlaid graphical user interface and scaled image |
US8078034B2 (en) * | 2004-07-05 | 2011-12-13 | Thomson Licensing | Method and apparatus for navigating through subtitles of an audio video data stream |
CN102522012A (zh) * | 2011-12-17 | 2012-06-27 | 无敌科技(西安)有限公司 | 辨识语言分级的电子装置及其方法 |
CN108133632A (zh) * | 2017-12-20 | 2018-06-08 | 刘昳旻 | 英语听力的训练方法及系统 |
-
2019
- 2019-03-05 TW TW108107242A patent/TWI719415B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7907152B2 (en) * | 2003-09-19 | 2011-03-15 | Microsoft Corporation | Full scale video with overlaid graphical user interface and scaled image |
US8078034B2 (en) * | 2004-07-05 | 2011-12-13 | Thomson Licensing | Method and apparatus for navigating through subtitles of an audio video data stream |
CN102522012A (zh) * | 2011-12-17 | 2012-06-27 | 无敌科技(西安)有限公司 | 辨识语言分级的电子装置及其方法 |
CN108133632A (zh) * | 2017-12-20 | 2018-06-08 | 刘昳旻 | 英语听力的训练方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
TW202034208A (zh) | 2020-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10083690B2 (en) | Better resolution when referencing to concepts | |
Dovchin et al. | Unequal translingual Englishes in the Asian peripheries | |
Li et al. | The where in the tweet | |
Kim | Interpreting transnational cultural practices: Social discourses on a Korean drama in Japan, Hong Kong, and China | |
Creemers | Never the twain shall meet? Rethinking China's public diplomacy policy | |
Arenas | Migrations and the rise of African Lisbon: Time-space of Portuguese (post) coloniality | |
Juffermans | The old man and the letter: Repertoires of literacy and languaging in a modern multiethnic Gambian village | |
Vigouroux | Genre, heteroglossic performances, and new identity: Stand-up comedy in modern French society | |
Blackburn et al. | A potential metric of the attractiveness of bird song to humans | |
dos Santos Silva | Cultural Journalism in a Digital Environment New Models, Practices and Possibilities | |
Georgiev et al. | Methodology for creating new scenes through the use of thematic relations for innovative designs | |
Ho et al. | An anatomy of satirical cartoons in contemporary vietnam: Political communication and representations of systemic corruption in a one-party State | |
DeHanas | Broadcasting green: grassroots environmentalism on Muslim women's radio | |
Şeker et al. | The experience economy analysis of distinct destinations | |
Putri et al. | The impact of ‘Korean Wave’on young Indonesian females and Indonesian culture in Jabodetabek area | |
TWI719415B (zh) | 用於評估影片等級的自然語言處理系統及方法 | |
Torres-Simon | Hidden struggles: Presentations of Korea in translated Korean literature | |
Brzozowska et al. | Culture's software: communication styles | |
Huang | ‘We are Indigenous people, not primitive people.’: the role of popular music in Indigenous language revitalization in Taiwan | |
O’Sullivan | Modernist Intermediality: The False Dichotomy between High Modernism and Mass Culture | |
Sansom | Voice Training through “The Mirror and the Lamp” | |
Sordo et al. | Extracting semantic information from an online carnatic music forum | |
Menon | The blazon call of hip hop: Lyrical storms in Kerala’s musical cultures | |
Adams et al. | Impact of Perceived Usefulness on Attitude of Members for Having Christian Church’s Website in Thailand–A Moderated Mediation Model | |
Mayne | Assessing cultural impact: Film4, canon formation and forgotten films |