TWI819247B - 基於非結構化資料的預測方法 - Google Patents

基於非結構化資料的預測方法 Download PDF

Info

Publication number
TWI819247B
TWI819247B TW109137101A TW109137101A TWI819247B TW I819247 B TWI819247 B TW I819247B TW 109137101 A TW109137101 A TW 109137101A TW 109137101 A TW109137101 A TW 109137101A TW I819247 B TWI819247 B TW I819247B
Authority
TW
Taiwan
Prior art keywords
record
algorithm
unstructured data
method based
feature vector
Prior art date
Application number
TW109137101A
Other languages
English (en)
Other versions
TW202217639A (zh
Inventor
林昕學
林風
Original Assignee
國立臺灣大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立臺灣大學 filed Critical 國立臺灣大學
Priority to TW109137101A priority Critical patent/TWI819247B/zh
Priority to US17/509,087 priority patent/US20220129490A1/en
Publication of TW202217639A publication Critical patent/TW202217639A/zh
Application granted granted Critical
Publication of TWI819247B publication Critical patent/TWI819247B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本發明揭露之基於非結構化資料的預測方法係應用於包括一分析模組及一建模模組之一預測系統,用以預測一對象的未來行為,包括下列步驟:以分析模組,使用自然語言處理演算法分析一紀錄檔而產生至少一特徵向量,紀錄檔與一預定觀察期內進行一目標行為關聯,其中儲存非結構化資料格式的至少一筆紀錄,且紀錄包括一時間戳記及一紀錄內容;及以建模模組,使用來自特徵向量之對應資訊作為輸入,並使用監督式機器學習演算法建立一預測模型,用以預測對象的未來行為;其中,紀錄為網域名稱系統查詢紀錄、ATM交易紀錄、結構化查詢語言交易紀錄及文字紀錄之任一者。

Description

基於非結構化資料的預測方法
本發明係與預測方法相關,尤其是與基於非結構化資料以建立預測模型之預測方法相關。
根據統計,約有九成的資訊與知識都埋藏在非結構化資料中。然而,雖然非結構化資料裡蘊藏著大量有價值的資訊,但由於其本質上並不具有固定格式,甚至尚未經數位化處理,故而受限於此而無法有效利用而提取出知識。有鑑於此,如何研發出在不損失過多原始資料的情況下,可妥善處理非結構化資料的技術,並進一步有效利用之提取出知識,一直是資訊產業持續精進的目標。
本發明之一目的在於提供基於非結構化資料的預測方法,其可使用非結構化資料之紀錄檔作為建模的原始資料,其本質可藉自然語言處理演算法分析紀錄檔產生之至少一特徵向量加以使用監督式機器學習演算法而建立預測模型來預測一對象的未來行為,而在不損失過多原始資料的情況下,無須人工選擇特徵,可有效地降低開發成本。
依據本發明之一面向,本發明揭露之基於非結構化資料的預測方法係應用於包括一分析模組及一建模模組之一預測系統,用以預測一對象的未來行為,包括下列步驟:以分析模組,使用自然語言處理演算法分析一紀錄檔而產生至少一特徵向量,紀錄檔與一預定觀察期內進行一目標行為關聯,其中儲存非結構化資料格式的至少一筆紀錄,且紀錄包括一時間戳記及一紀錄內容;及以建模模組,使用來自特徵向量之對應資訊作為輸入,並使用監督式機器學習演算法建立一預測模型,用以預測對象的未來行為;其中,紀錄為網域名稱系統(Domain Name System,簡稱DNS)查詢紀錄、ATM交易紀錄、結構化查詢語言(Structured Query Language,簡稱SQL)交易紀錄及文字紀錄之任一者。
為進一步說明各實施例及其優點,本發明乃配合圖式提供下列說明。此些圖式乃為本發明揭露內容之一部分,其主要係用以說明實施例,並可配合說明書之相關描述來解釋實施例的運作原理。配合參考這些內容,本領域具有通常知識者應能理解其他可能的實施方式以及本發明之優點。圖中的元件並未按比例繪製,而類似的元件符號通常用來表示類似的元件。如在此揭露,「實施例」、「示例」及「本實施例」並非專指單一實施例,而可及於依據本發明不同結合方式實施之例子,不悖于本發明之精神與範圍。此處使用之詞彙僅用以闡明本發明原則之具體實施例,應不拘限本發明。故而,如「之中」可包括「之內」及「之上」,「一」及「該」可包括單數或複數;「藉」可指「從」,「若」可指「當」或「一旦」,端示於前後文字內容。此外,「及/或」可包括有關元件的任何可能的組合。
本說明書揭露基於非結構化資料的預測方法之多個示例。請參考圖1及圖2,其中圖1顯示依據本發明之一示例之一預測系統,適於應用如圖2顯示之基於非結構化資料的預測方法,圖2顯示依據本發明之一實施例之一基於非結構化資料的預測方法。請注意本實施例之預測系統僅為應用基於非結構化資料的預測方法之眾多系統中之一示範例,基於非結構化資料的預測方法並不限於此。預測系統100包括一分析模組101、一建模模組102及一預測模組103。分析模組101與建模模組102及預測模組103耦接,建模模組102與預測模組103耦接。
首先,在步驟S1中,分析模組101經由至少一個資料流接收至少一紀錄檔,此紀錄檔較佳是與至少一對象在一預定觀察期內進行一目標行為關聯,比如說是因對象進行目標行為而產生並藉由特定系統記錄對象進行目標行為之活動歷史的日誌(Log)檔案,其中可儲存非結構化資料格式的至少一筆紀錄。紀錄的格式並無限定且未統一,然每筆紀錄至少包括一時間戳記及一紀錄內容,時間戳記係與紀錄內容對應。在此無須限制紀錄的類型,端視於基於非結構化資料的預測方法之應用領域。舉例來說,紀錄可為網域名稱系統(Domain Name System,簡稱DNS)查詢紀錄、ATM交易紀錄、結構化查詢語言(Structured Query Language,簡稱SQL)交易紀錄及文字紀錄之任一者。一般來說,對象過去的行為可能與其未來的行為相關,因此在本實施例中,紀錄檔是與對象在過去一定時間內之預定觀察期內進行上網之目標行為關聯,且係由諸如電信業者之系統等收集對象的上網行為產生DNS查詢紀錄以實施紀錄,其可包括DNS查詢紀錄之A、AAAA、AFSDB、APL、CAA、CDNSKEY、CDS、CERT、CNAME、DHCID、DLV、DNAME、DNSKEY、DS、HIP、IPSECKEY、KEY、LOC紀錄、MX紀錄、NAPTR紀錄、NS、NSEC、NSEC3、NSEC3PARAM、PTR、RRSIG、RP、SIG、SOA、SPF、SRV紀錄、SSHFP、TA、TKEY紀錄、TSIG、TXT、URI、*、AXFR、IXFR、OPT等至少一者,因此從中可以得知對象過去瀏覽網頁的域名和時間。
接著,在步驟S2中,分析模組101使用自然語言處理演算法分析前述紀錄檔而產生至少一特徵向量。詳細地說,分析模組101將紀錄檔中的每筆非結構化資料格式的紀錄的紀錄內容視為詞(word),將同一個對象在一預定期間內的紀錄檔中的每筆非結構化資料格式的紀錄的紀錄內容的整體視為文章(document)經由自然語言處理演算法計算,而將各該詞轉換為該至少一特徵向量之一特徵向量。自然語言處理演算法在此示例包括詞頻跟逆向文件頻率(Term Frequency–Inverse Document Frequency,簡稱TF-IDF)演算法。如此,每一預定期間中都可以得到代表紀錄內容在紀錄檔中的重要度的特徵向量。
接著,在步驟S3中,分析模組101判斷是否已分析與預定觀察期內進行目標行為關聯之所有紀錄檔。若判斷尚未分析與預定觀察期內進行目標行為關聯之所有紀錄檔時,則重複執行步驟S1及/或步驟S2,經由資料流接收其他紀錄檔及使用自然語言處理演算法分析紀錄檔而產生特徵向量。然而,請注意全部紀錄檔的收集、接收或分析並不限於在特定或不特定時間點執行、或以單次或多次方式執行以完成,且在其他實施例中,亦可單一次執行步驟S1、S2即完成收集、接收或分析所有的紀錄檔而無須進行步驟S3。
請參考圖3,其顯示於前述以DNS查詢紀錄實施紀錄之示例中進行步驟S2、S3之示意圖。於此例中,預定觀察期舉例為七天,預定期間為一天,即,分析模組101將紀錄內容(t n, domain n)視為詞,將同一個對象在一天之內的紀錄檔中的每筆紀錄內容(t n, domain n),n=1-N,之整體視為文章,並經由自然語言處理演算法計算而產生對應該文章的特徵向量。由於每筆紀錄的紀錄內容包括對象上網瀏覽的網頁域名,經自然語言處理之後得到的一組特徵向量,即分別代表各個域名的重要度,並且一連七天每天進行同樣的分析。
接著,在以前述特徵向量建立預測模型之前,本實施例可選擇性地先進行步驟S4,分析模組101使用一降維演算法及一特徵選擇演算法之任一者處理前述特徵向量,藉此產生一對應資訊,用以輸入至一監督式機器學習演算法。降維演算法可在減少資料數的同時儘量保存資料識別性,減少冗餘資訊所造成的誤差,提高識別的精度,或尋找資料內部的本質結構特徵,在此示例性地包括主成分分析(Principal Component Analysis,簡稱PCA)演算法、潛在語義分析(Latent Semantic Analysis,簡稱LSA)演算法及基音檢測演算法(Pitch Detection Algorithm,簡稱PDA)之任一者。特徵選擇演算法可剔除不相關(irrelevant)或亢餘(redundant)的特徵,從而達到減少特徵個數,提高模型精確度,或減少執行時間,在此示例性地包括卡方檢定(Chi-Square Tests)演算法及基尼重要性(Gini Importance)演算法之任一者。
接著,在步驟S5中,建模模組102使用來自特徵向量的對應資訊,如:步驟S2產出之特徵向量本身、其經步驟S3或經其他處理之結果作為輸入,並使用監督式機器學習演算法建立一預測模型,用以預測對象的未來行為。在本例中可以一狀態序列或一包括字母組成的一序列的詞(word)來完成預測模型建立於預測模組103,監督式機器學習演算法可括邏輯迴歸(Logistic Regression)演算法及隨機森林(Random Forest)演算法之任一。
接著,步驟S6中,預測模組103可使用建立之預測模型,將另一紀錄檔輸入預測模型以預測對象的未來行為,在此是以未來行為的一出現機率為其預測結果之實施態樣,另一紀錄檔可類似地是經由至少一個資料流接收的。舉例來說,可透過來自特徵向量的對應資訊建立預測模型分析旅遊資訊、飯店資訊和交通資訊的上網行為與對象未來一段時間內是否會旅行的關聯性。藉此,電商業者可精準地提供旅行相關的廣告行銷資訊給對象。因此,由上述中可以得知,依照本實施例的基於非結構化資料的預測方法,可使用非結構化資料之紀錄檔作為建模的原始資料,而可藉自然語言處理演算法分析紀錄檔產生之特徵向量加以使用監督式機器學習演算法而建立預測模型來預測一對象的未來行為,可在不損失過多原始資料的情況下,無須人工選擇特徵,而有效地降低預測對象未來行為的基於非結構化資料的預測方法之開發成本。
以上敍述依據本發明多個不同實施例,其中各項特徵可以單一或不同結合方式實施。因此,本發明實施方式之揭露為闡明本發明原則之具體實施例,應不拘限本發明於所揭示的實施例。進一步言之,先前敍述及其附圖僅為本發明示範之用,並不受其限囿。其他元件之變化或組合皆可能,且不悖于本發明之精神與範圍。
100:預測系統 101:分析模組 102:建模模組 103:預測模組 S1,S2,S3,S4,S5,S6:步驟
圖1顯示依據本發明之一示例之一預測系統,適於應用如圖2顯示之基於非結構化資料的預測方法。
圖2顯示依據本發明之一實施例之一基於非結構化資料的預測方法。
圖3顯示於以DNS查詢紀錄實施紀錄之示例中進行步驟S2、S3之示意圖。
S1,S2,S3,S4,S5,S6:步驟

Claims (9)

  1. 一種基於非結構化資料的預測方法,應用於包括一分析模組及一建模模組之一預測系統,用以預測至少一對象的未來行為,包括:以該分析模組,使用自然語言處理演算法分析一紀錄檔中的每筆紀錄內容之整體作為該自然語言處理演算法之文章(Document)而產生對應該文章的至少一特徵向量,每筆紀錄的紀錄內容包括對象上網瀏覽的網頁域名,該至少一特徵向量分別代表各個域名的重要度,並且於一預定觀察期內的每次預定期間連續進行同樣的分析以各別產生特徵向量,該紀錄檔與該預定觀察期內進行一目標行為關聯,其中儲存非結構化資料格式的至少一筆紀錄,且該至少一筆紀錄包括一時間戳記及一紀錄內容;及以該建模模組,使用來自該特徵向量之對應資訊作為輸入,並使用監督式機器學習演算法建立一預測模型,用以預測該至少一對象的未來行為;其中,該至少一筆紀錄為網域名稱系統(Domain Name System,簡稱DNS)查詢紀錄、ATM交易紀錄、結構化查詢語言(Structured Query Language,簡稱SQL)交易紀錄及文字紀錄之任一者。
  2. 如申請專利範圍第1項所述的基於非結構化資料的預測方法,其中該自然語言處理演算法包括詞頻跟逆向文件頻率(Term Frequency-Inverse Document Frequency,簡稱TF-IDF)演算法。
  3. 如申請專利範圍第1項所述的基於非結構化資料的預測方法,其中以該分析模組,使用自然語言處理演算法分析一紀錄檔而產生至少一特徵向量之該步驟更包括: 以各該至少一筆紀錄作為該自然語言處理演算法之詞(Word)進行分析,而將各該詞轉換為該至少一特徵向量之一特徵向量。
  4. 如申請專利範圍第1項所述的基於非結構化資料的預測方法,其更包括:使用一降維演算法及一特徵選擇演算法之任一者處理該至少一特徵向量,以產生該對應資訊輸入該監督式機器學習演算法。
  5. 如申請專利範圍第4項所述的基於非結構化資料的預測方法,其中該降維演算法包括主成分分析(Principal Component Analysis,簡稱PCA)演算法、潛在語義分析(Latent Semantic Analysis,簡稱LSA)演算法及基音檢測演算法(Pitch Detection Algorithm,簡稱PDA)之任一者。
  6. 如申請專利範圍第4項所述的基於非結構化資料的預測方法,其中該特徵選擇演算法包括卡方檢定(Chi-Square Tests)演算法及基尼重要性(Gini Importance)演算法之任一者。
  7. 如申請專利範圍第1項所述的基於非結構化資料的預測方法,其中該監督式機器學習演算法包括邏輯廻歸(Logistic Regression)演算法及隨機森林(Random Forest)演算法之任一者。
  8. 如申請專利範圍第1項所述的基於非結構化資料的預測方法,其更包括:以該分析模組,判斷尚未分析與該預定觀察期內進行該目標行為關聯之所有該紀錄檔時,重複執行使用自然語言處理演算法分析一紀錄檔而產生至少一特徵向量之該步驟。
  9. 如申請專利範圍第1項所述的基於非結構化資料的預測方法,其更包括:以該預測系統之一預測模組,使用建立之該預測模型預測該對象的未來行為的一出現機率。
TW109137101A 2020-10-26 2020-10-26 基於非結構化資料的預測方法 TWI819247B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW109137101A TWI819247B (zh) 2020-10-26 2020-10-26 基於非結構化資料的預測方法
US17/509,087 US20220129490A1 (en) 2020-10-26 2021-10-25 Prediction method based on unstructured data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109137101A TWI819247B (zh) 2020-10-26 2020-10-26 基於非結構化資料的預測方法

Publications (2)

Publication Number Publication Date
TW202217639A TW202217639A (zh) 2022-05-01
TWI819247B true TWI819247B (zh) 2023-10-21

Family

ID=81258447

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109137101A TWI819247B (zh) 2020-10-26 2020-10-26 基於非結構化資料的預測方法

Country Status (2)

Country Link
US (1) US20220129490A1 (zh)
TW (1) TWI819247B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914478A (zh) * 2013-01-06 2014-07-09 阿里巴巴集团控股有限公司 网页训练方法及系统、网页预测方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760124B (zh) * 2011-04-25 2014-11-12 阿里巴巴集团控股有限公司 一种推荐数据的推送方法及系统
US9053436B2 (en) * 2013-03-13 2015-06-09 Dstillery, Inc. Methods and system for providing simultaneous multi-task ensemble learning
GB201515394D0 (en) * 2015-08-28 2015-10-14 Status Today Ltd Predictive activity detection on a computer network
US10719854B2 (en) * 2016-02-03 2020-07-21 Conduent Business Services, LLC. Method and system for predicting future activities of user on social media platforms
US10296586B2 (en) * 2016-12-23 2019-05-21 Soundhound, Inc. Predicting human behavior by machine learning of natural language interpretations
US10558852B2 (en) * 2017-11-16 2020-02-11 Adobe Inc. Predictive analysis of target behaviors utilizing RNN-based user embeddings
US10909606B2 (en) * 2018-06-18 2021-02-02 International Business Machines Corporation Real-time in-venue cognitive recommendations to user based on user behavior
US20200265323A1 (en) * 2019-02-20 2020-08-20 Kevin Erich Heinrich System and Process of Prediction Through The Use of Latent Semantic Indexing
US11741358B2 (en) * 2020-02-14 2023-08-29 Intuit, Inc. Application recommendation machine learning system
US11235248B1 (en) * 2020-07-28 2022-02-01 International Business Machines Corporation Online behavior using predictive analytics
US11624624B2 (en) * 2020-07-28 2023-04-11 Bayerische Motoren Werke Aktiengesellschaft Methods and apparatuses for predicting user destinations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914478A (zh) * 2013-01-06 2014-07-09 阿里巴巴集团控股有限公司 网页训练方法及系统、网页预测方法及系统

Also Published As

Publication number Publication date
US20220129490A1 (en) 2022-04-28
TW202217639A (zh) 2022-05-01

Similar Documents

Publication Publication Date Title
WO2019043379A1 (en) CONTROL OF FACTS
Prasetyo et al. Automatic classification of software related microblogs
JP5543020B2 (ja) リサーチミッション識別
CN111552855A (zh) 一种基于深度学习的网络威胁情报自动抽取方法
JP6689955B2 (ja) 破損ネットワーク接続の機械学習に基づく識別
US20100185623A1 (en) Topical ranking in information retrieval
US11934785B2 (en) Multi-task learning of query intent and named entities
US20190205470A1 (en) Hypotheses generation using searchable unstructured data corpus
JP2013003663A (ja) 情報処理装置、情報処理方法、およびプログラム
Villanueva et al. Application of Natural Language Processing for Phishing Detection Using Machine and Deep Learning Models
Kumar Tripathi et al. Fake review detection in big data using parallel bbo
TWI819247B (zh) 基於非結構化資料的預測方法
JP6733366B2 (ja) 課題推定装置、課題推定方法および課題推定プログラム
JP2019003270A (ja) 学習装置、映像検索装置、方法、及びプログラム
Charjan et al. Pattern Discovery For Text Mining Using Pattern Taxonomy
Vollset et al. Making use of external company data to improve the classification of bank transactions
Kumar et al. Automated Text Summarization Using Transformers
Ghattas et al. Performance evaluation of websites using machine learning
JP5768009B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP7375096B2 (ja) 分散表現生成システム、分散表現生成方法及び分散表現生成プログラム
US20240070753A1 (en) Information processing device, method for generating learning model, and computer-readable storage medium that stores program for generating learning model
Srivastava et al. The impact on society of false news spreading on social media with the help of predictive modelling
JP5123057B2 (ja) スパム判定方法及び装置及びプログラム
Puertas et al. RealCheck: A Web Application for Fake News Detection Using Natural Language Processing
Saura et al. Does SEO matter for early-stage startups? Insights from visual data mining and topic-modeling techniques