TWI819247B

TWI819247B - 基於非結構化資料的預測方法

Info

Publication number: TWI819247B
Application number: TW109137101A
Authority: TW
Inventors: 林昕學; 林風
Original assignee: 國立臺灣大學
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2023-10-21
Also published as: US20220129490A1; TW202217639A

Abstract

本發明揭露之基於非結構化資料的預測方法係應用於包括一分析模組及一建模模組之一預測系統，用以預測一對象的未來行為，包括下列步驟：以分析模組，使用自然語言處理演算法分析一紀錄檔而產生至少一特徵向量，紀錄檔與一預定觀察期內進行一目標行為關聯，其中儲存非結構化資料格式的至少一筆紀錄，且紀錄包括一時間戳記及一紀錄內容；及以建模模組，使用來自特徵向量之對應資訊作為輸入，並使用監督式機器學習演算法建立一預測模型，用以預測對象的未來行為；其中，紀錄為網域名稱系統查詢紀錄、ATM交易紀錄、結構化查詢語言交易紀錄及文字紀錄之任一者。

Description

基於非結構化資料的預測方法

本發明係與預測方法相關，尤其是與基於非結構化資料以建立預測模型之預測方法相關。

根據統計，約有九成的資訊與知識都埋藏在非結構化資料中。然而，雖然非結構化資料裡蘊藏著大量有價值的資訊，但由於其本質上並不具有固定格式，甚至尚未經數位化處理，故而受限於此而無法有效利用而提取出知識。有鑑於此，如何研發出在不損失過多原始資料的情況下，可妥善處理非結構化資料的技術，並進一步有效利用之提取出知識，一直是資訊產業持續精進的目標。

本發明之一目的在於提供基於非結構化資料的預測方法，其可使用非結構化資料之紀錄檔作為建模的原始資料，其本質可藉自然語言處理演算法分析紀錄檔產生之至少一特徵向量加以使用監督式機器學習演算法而建立預測模型來預測一對象的未來行為，而在不損失過多原始資料的情況下，無須人工選擇特徵，可有效地降低開發成本。

依據本發明之一面向，本發明揭露之基於非結構化資料的預測方法係應用於包括一分析模組及一建模模組之一預測系統，用以預測一對象的未來行為，包括下列步驟：以分析模組，使用自然語言處理演算法分析一紀錄檔而產生至少一特徵向量，紀錄檔與一預定觀察期內進行一目標行為關聯，其中儲存非結構化資料格式的至少一筆紀錄，且紀錄包括一時間戳記及一紀錄內容；及以建模模組，使用來自特徵向量之對應資訊作為輸入，並使用監督式機器學習演算法建立一預測模型，用以預測對象的未來行為；其中，紀錄為網域名稱系統（Domain Name System，簡稱DNS）查詢紀錄、ATM交易紀錄、結構化查詢語言（Structured Query Language，簡稱SQL）交易紀錄及文字紀錄之任一者。

為進一步說明各實施例及其優點，本發明乃配合圖式提供下列說明。此些圖式乃為本發明揭露內容之一部分，其主要係用以說明實施例，並可配合說明書之相關描述來解釋實施例的運作原理。配合參考這些內容，本領域具有通常知識者應能理解其他可能的實施方式以及本發明之優點。圖中的元件並未按比例繪製，而類似的元件符號通常用來表示類似的元件。如在此揭露，「實施例」、「示例」及「本實施例」並非專指單一實施例，而可及於依據本發明不同結合方式實施之例子，不悖于本發明之精神與範圍。此處使用之詞彙僅用以闡明本發明原則之具體實施例，應不拘限本發明。故而，如「之中」可包括「之內」及「之上」，「一」及「該」可包括單數或複數；「藉」可指「從」，「若」可指「當」或「一旦」，端示於前後文字內容。此外，「及／或」可包括有關元件的任何可能的組合。

本說明書揭露基於非結構化資料的預測方法之多個示例。請參考圖1及圖2，其中圖1顯示依據本發明之一示例之一預測系統，適於應用如圖2顯示之基於非結構化資料的預測方法，圖2顯示依據本發明之一實施例之一基於非結構化資料的預測方法。請注意本實施例之預測系統僅為應用基於非結構化資料的預測方法之眾多系統中之一示範例，基於非結構化資料的預測方法並不限於此。預測系統100包括一分析模組101、一建模模組102及一預測模組103。分析模組101與建模模組102及預測模組103耦接，建模模組102與預測模組103耦接。

首先，在步驟S1中，分析模組101經由至少一個資料流接收至少一紀錄檔，此紀錄檔較佳是與至少一對象在一預定觀察期內進行一目標行為關聯，比如說是因對象進行目標行為而產生並藉由特定系統記錄對象進行目標行為之活動歷史的日誌（Log）檔案，其中可儲存非結構化資料格式的至少一筆紀錄。紀錄的格式並無限定且未統一，然每筆紀錄至少包括一時間戳記及一紀錄內容，時間戳記係與紀錄內容對應。在此無須限制紀錄的類型，端視於基於非結構化資料的預測方法之應用領域。舉例來說，紀錄可為網域名稱系統（Domain Name System，簡稱DNS）查詢紀錄、ATM交易紀錄、結構化查詢語言（Structured Query Language，簡稱SQL）交易紀錄及文字紀錄之任一者。一般來說，對象過去的行為可能與其未來的行為相關，因此在本實施例中，紀錄檔是與對象在過去一定時間內之預定觀察期內進行上網之目標行為關聯，且係由諸如電信業者之系統等收集對象的上網行為產生DNS查詢紀錄以實施紀錄，其可包括DNS查詢紀錄之A、AAAA、AFSDB、APL、CAA、CDNSKEY、CDS、CERT、CNAME、DHCID、DLV、DNAME、DNSKEY、DS、HIP、IPSECKEY、KEY、LOC紀錄、MX紀錄、NAPTR紀錄、NS、NSEC、NSEC3、NSEC3PARAM、PTR、RRSIG、RP、SIG、SOA、SPF、SRV紀錄、SSHFP、TA、TKEY紀錄、TSIG、TXT、URI、*、AXFR、IXFR、OPT等至少一者，因此從中可以得知對象過去瀏覽網頁的域名和時間。

接著，在步驟S2中，分析模組101使用自然語言處理演算法分析前述紀錄檔而產生至少一特徵向量。詳細地說，分析模組101將紀錄檔中的每筆非結構化資料格式的紀錄的紀錄內容視為詞（word），將同一個對象在一預定期間內的紀錄檔中的每筆非結構化資料格式的紀錄的紀錄內容的整體視為文章（document）經由自然語言處理演算法計算，而將各該詞轉換為該至少一特徵向量之一特徵向量。自然語言處理演算法在此示例包括詞頻跟逆向文件頻率（Term Frequency–Inverse Document Frequency，簡稱TF-IDF）演算法。如此，每一預定期間中都可以得到代表紀錄內容在紀錄檔中的重要度的特徵向量。

接著，在步驟S3中，分析模組101判斷是否已分析與預定觀察期內進行目標行為關聯之所有紀錄檔。若判斷尚未分析與預定觀察期內進行目標行為關聯之所有紀錄檔時，則重複執行步驟S1及/或步驟S2，經由資料流接收其他紀錄檔及使用自然語言處理演算法分析紀錄檔而產生特徵向量。然而，請注意全部紀錄檔的收集、接收或分析並不限於在特定或不特定時間點執行、或以單次或多次方式執行以完成，且在其他實施例中，亦可單一次執行步驟S1、S2即完成收集、接收或分析所有的紀錄檔而無須進行步驟S3。

請參考圖3，其顯示於前述以DNS查詢紀錄實施紀錄之示例中進行步驟S2、S3之示意圖。於此例中，預定觀察期舉例為七天，預定期間為一天，即，分析模組101將紀錄內容(t _n, domain _n)視為詞，將同一個對象在一天之內的紀錄檔中的每筆紀錄內容(t _n, domain _n)，n=1-N，之整體視為文章，並經由自然語言處理演算法計算而產生對應該文章的特徵向量。由於每筆紀錄的紀錄內容包括對象上網瀏覽的網頁域名，經自然語言處理之後得到的一組特徵向量，即分別代表各個域名的重要度，並且一連七天每天進行同樣的分析。

接著，在以前述特徵向量建立預測模型之前，本實施例可選擇性地先進行步驟S4，分析模組101使用一降維演算法及一特徵選擇演算法之任一者處理前述特徵向量，藉此產生一對應資訊，用以輸入至一監督式機器學習演算法。降維演算法可在減少資料數的同時儘量保存資料識別性，減少冗餘資訊所造成的誤差，提高識別的精度，或尋找資料內部的本質結構特徵，在此示例性地包括主成分分析（Principal Component Analysis，簡稱PCA）演算法、潛在語義分析（Latent Semantic Analysis，簡稱LSA）演算法及基音檢測演算法（Pitch Detection Algorithm，簡稱PDA）之任一者。特徵選擇演算法可剔除不相關（irrelevant）或亢餘（redundant）的特徵，從而達到減少特徵個數，提高模型精確度，或減少執行時間，在此示例性地包括卡方檢定（Chi-Square Tests）演算法及基尼重要性（Gini Importance）演算法之任一者。

接著，在步驟S5中，建模模組102使用來自特徵向量的對應資訊，如：步驟S2產出之特徵向量本身、其經步驟S3或經其他處理之結果作為輸入，並使用監督式機器學習演算法建立一預測模型，用以預測對象的未來行為。在本例中可以一狀態序列或一包括字母組成的一序列的詞（word）來完成預測模型建立於預測模組103，監督式機器學習演算法可括邏輯迴歸（Logistic Regression）演算法及隨機森林（Random Forest）演算法之任一。

接著，步驟S6中，預測模組103可使用建立之預測模型，將另一紀錄檔輸入預測模型以預測對象的未來行為，在此是以未來行為的一出現機率為其預測結果之實施態樣，另一紀錄檔可類似地是經由至少一個資料流接收的。舉例來說，可透過來自特徵向量的對應資訊建立預測模型分析旅遊資訊、飯店資訊和交通資訊的上網行為與對象未來一段時間內是否會旅行的關聯性。藉此，電商業者可精準地提供旅行相關的廣告行銷資訊給對象。因此，由上述中可以得知，依照本實施例的基於非結構化資料的預測方法，可使用非結構化資料之紀錄檔作為建模的原始資料，而可藉自然語言處理演算法分析紀錄檔產生之特徵向量加以使用監督式機器學習演算法而建立預測模型來預測一對象的未來行為，可在不損失過多原始資料的情況下，無須人工選擇特徵，而有效地降低預測對象未來行為的基於非結構化資料的預測方法之開發成本。

以上敍述依據本發明多個不同實施例，其中各項特徵可以單一或不同結合方式實施。因此，本發明實施方式之揭露為闡明本發明原則之具體實施例，應不拘限本發明於所揭示的實施例。進一步言之，先前敍述及其附圖僅為本發明示範之用，並不受其限囿。其他元件之變化或組合皆可能，且不悖于本發明之精神與範圍。

100:預測系統 101:分析模組 102:建模模組 103:預測模組 S1,S2,S3,S4,S5,S6:步驟

圖1顯示依據本發明之一示例之一預測系統，適於應用如圖2顯示之基於非結構化資料的預測方法。

圖2顯示依據本發明之一實施例之一基於非結構化資料的預測方法。

圖3顯示於以DNS查詢紀錄實施紀錄之示例中進行步驟S2、S3之示意圖。

S1,S2,S3,S4,S5,S6:步驟

Claims

一種基於非結構化資料的預測方法，應用於包括一分析模組及一建模模組之一預測系統，用以預測至少一對象的未來行為，包括：以該分析模組，使用自然語言處理演算法分析一紀錄檔中的每筆紀錄內容之整體作為該自然語言處理演算法之文章(Document)而產生對應該文章的至少一特徵向量，每筆紀錄的紀錄內容包括對象上網瀏覽的網頁域名，該至少一特徵向量分別代表各個域名的重要度，並且於一預定觀察期內的每次預定期間連續進行同樣的分析以各別產生特徵向量，該紀錄檔與該預定觀察期內進行一目標行為關聯，其中儲存非結構化資料格式的至少一筆紀錄，且該至少一筆紀錄包括一時間戳記及一紀錄內容；及以該建模模組，使用來自該特徵向量之對應資訊作為輸入，並使用監督式機器學習演算法建立一預測模型，用以預測該至少一對象的未來行為；其中，該至少一筆紀錄為網域名稱系統(Domain Name System，簡稱DNS)查詢紀錄、ATM交易紀錄、結構化查詢語言(Structured Query Language，簡稱SQL)交易紀錄及文字紀錄之任一者。
如申請專利範圍第1項所述的基於非結構化資料的預測方法，其中該自然語言處理演算法包括詞頻跟逆向文件頻率(Term Frequency-Inverse Document Frequency，簡稱TF-IDF)演算法。
如申請專利範圍第1項所述的基於非結構化資料的預測方法，其中以該分析模組，使用自然語言處理演算法分析一紀錄檔而產生至少一特徵向量之該步驟更包括：以各該至少一筆紀錄作為該自然語言處理演算法之詞(Word)進行分析，而將各該詞轉換為該至少一特徵向量之一特徵向量。
如申請專利範圍第1項所述的基於非結構化資料的預測方法，其更包括：使用一降維演算法及一特徵選擇演算法之任一者處理該至少一特徵向量，以產生該對應資訊輸入該監督式機器學習演算法。
如申請專利範圍第4項所述的基於非結構化資料的預測方法，其中該降維演算法包括主成分分析(Principal Component Analysis，簡稱PCA)演算法、潛在語義分析(Latent Semantic Analysis，簡稱LSA)演算法及基音檢測演算法(Pitch Detection Algorithm，簡稱PDA)之任一者。
如申請專利範圍第4項所述的基於非結構化資料的預測方法，其中該特徵選擇演算法包括卡方檢定(Chi-Square Tests)演算法及基尼重要性(Gini Importance)演算法之任一者。
如申請專利範圍第1項所述的基於非結構化資料的預測方法，其中該監督式機器學習演算法包括邏輯廻歸(Logistic Regression)演算法及隨機森林(Random Forest)演算法之任一者。
如申請專利範圍第1項所述的基於非結構化資料的預測方法，其更包括：以該分析模組，判斷尚未分析與該預定觀察期內進行該目標行為關聯之所有該紀錄檔時，重複執行使用自然語言處理演算法分析一紀錄檔而產生至少一特徵向量之該步驟。
如申請專利範圍第1項所述的基於非結構化資料的預測方法，其更包括：以該預測系統之一預測模組，使用建立之該預測模型預測該對象的未來行為的一出現機率。