TWI819247B - 基於非結構化資料的預測方法 - Google Patents
基於非結構化資料的預測方法 Download PDFInfo
- Publication number
- TWI819247B TWI819247B TW109137101A TW109137101A TWI819247B TW I819247 B TWI819247 B TW I819247B TW 109137101 A TW109137101 A TW 109137101A TW 109137101 A TW109137101 A TW 109137101A TW I819247 B TWI819247 B TW I819247B
- Authority
- TW
- Taiwan
- Prior art keywords
- record
- algorithm
- unstructured data
- method based
- feature vector
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 51
- 230000006399 behavior Effects 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 27
- 238000003058 natural language processing Methods 0.000 claims abstract description 16
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims description 22
- 238000000513 principal component analysis Methods 0.000 claims description 5
- 238000000546 chi-square test Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 238000007637 random forest analysis Methods 0.000 claims description 2
- 230000003542 behavioural effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000013277 forecasting method Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本發明揭露之基於非結構化資料的預測方法係應用於包括一分析模組及一建模模組之一預測系統,用以預測一對象的未來行為,包括下列步驟:以分析模組,使用自然語言處理演算法分析一紀錄檔而產生至少一特徵向量,紀錄檔與一預定觀察期內進行一目標行為關聯,其中儲存非結構化資料格式的至少一筆紀錄,且紀錄包括一時間戳記及一紀錄內容;及以建模模組,使用來自特徵向量之對應資訊作為輸入,並使用監督式機器學習演算法建立一預測模型,用以預測對象的未來行為;其中,紀錄為網域名稱系統查詢紀錄、ATM交易紀錄、結構化查詢語言交易紀錄及文字紀錄之任一者。
Description
本發明係與預測方法相關,尤其是與基於非結構化資料以建立預測模型之預測方法相關。
根據統計,約有九成的資訊與知識都埋藏在非結構化資料中。然而,雖然非結構化資料裡蘊藏著大量有價值的資訊,但由於其本質上並不具有固定格式,甚至尚未經數位化處理,故而受限於此而無法有效利用而提取出知識。有鑑於此,如何研發出在不損失過多原始資料的情況下,可妥善處理非結構化資料的技術,並進一步有效利用之提取出知識,一直是資訊產業持續精進的目標。
本發明之一目的在於提供基於非結構化資料的預測方法,其可使用非結構化資料之紀錄檔作為建模的原始資料,其本質可藉自然語言處理演算法分析紀錄檔產生之至少一特徵向量加以使用監督式機器學習演算法而建立預測模型來預測一對象的未來行為,而在不損失過多原始資料的情況下,無須人工選擇特徵,可有效地降低開發成本。
依據本發明之一面向,本發明揭露之基於非結構化資料的預測方法係應用於包括一分析模組及一建模模組之一預測系統,用以預測一對象的未來行為,包括下列步驟:以分析模組,使用自然語言處理演算法分析一紀錄檔而產生至少一特徵向量,紀錄檔與一預定觀察期內進行一目標行為關聯,其中儲存非結構化資料格式的至少一筆紀錄,且紀錄包括一時間戳記及一紀錄內容;及以建模模組,使用來自特徵向量之對應資訊作為輸入,並使用監督式機器學習演算法建立一預測模型,用以預測對象的未來行為;其中,紀錄為網域名稱系統(Domain Name System,簡稱DNS)查詢紀錄、ATM交易紀錄、結構化查詢語言(Structured Query Language,簡稱SQL)交易紀錄及文字紀錄之任一者。
為進一步說明各實施例及其優點,本發明乃配合圖式提供下列說明。此些圖式乃為本發明揭露內容之一部分,其主要係用以說明實施例,並可配合說明書之相關描述來解釋實施例的運作原理。配合參考這些內容,本領域具有通常知識者應能理解其他可能的實施方式以及本發明之優點。圖中的元件並未按比例繪製,而類似的元件符號通常用來表示類似的元件。如在此揭露,「實施例」、「示例」及「本實施例」並非專指單一實施例,而可及於依據本發明不同結合方式實施之例子,不悖于本發明之精神與範圍。此處使用之詞彙僅用以闡明本發明原則之具體實施例,應不拘限本發明。故而,如「之中」可包括「之內」及「之上」,「一」及「該」可包括單數或複數;「藉」可指「從」,「若」可指「當」或「一旦」,端示於前後文字內容。此外,「及/或」可包括有關元件的任何可能的組合。
本說明書揭露基於非結構化資料的預測方法之多個示例。請參考圖1及圖2,其中圖1顯示依據本發明之一示例之一預測系統,適於應用如圖2顯示之基於非結構化資料的預測方法,圖2顯示依據本發明之一實施例之一基於非結構化資料的預測方法。請注意本實施例之預測系統僅為應用基於非結構化資料的預測方法之眾多系統中之一示範例,基於非結構化資料的預測方法並不限於此。預測系統100包括一分析模組101、一建模模組102及一預測模組103。分析模組101與建模模組102及預測模組103耦接,建模模組102與預測模組103耦接。
首先,在步驟S1中,分析模組101經由至少一個資料流接收至少一紀錄檔,此紀錄檔較佳是與至少一對象在一預定觀察期內進行一目標行為關聯,比如說是因對象進行目標行為而產生並藉由特定系統記錄對象進行目標行為之活動歷史的日誌(Log)檔案,其中可儲存非結構化資料格式的至少一筆紀錄。紀錄的格式並無限定且未統一,然每筆紀錄至少包括一時間戳記及一紀錄內容,時間戳記係與紀錄內容對應。在此無須限制紀錄的類型,端視於基於非結構化資料的預測方法之應用領域。舉例來說,紀錄可為網域名稱系統(Domain Name System,簡稱DNS)查詢紀錄、ATM交易紀錄、結構化查詢語言(Structured Query Language,簡稱SQL)交易紀錄及文字紀錄之任一者。一般來說,對象過去的行為可能與其未來的行為相關,因此在本實施例中,紀錄檔是與對象在過去一定時間內之預定觀察期內進行上網之目標行為關聯,且係由諸如電信業者之系統等收集對象的上網行為產生DNS查詢紀錄以實施紀錄,其可包括DNS查詢紀錄之A、AAAA、AFSDB、APL、CAA、CDNSKEY、CDS、CERT、CNAME、DHCID、DLV、DNAME、DNSKEY、DS、HIP、IPSECKEY、KEY、LOC紀錄、MX紀錄、NAPTR紀錄、NS、NSEC、NSEC3、NSEC3PARAM、PTR、RRSIG、RP、SIG、SOA、SPF、SRV紀錄、SSHFP、TA、TKEY紀錄、TSIG、TXT、URI、*、AXFR、IXFR、OPT等至少一者,因此從中可以得知對象過去瀏覽網頁的域名和時間。
接著,在步驟S2中,分析模組101使用自然語言處理演算法分析前述紀錄檔而產生至少一特徵向量。詳細地說,分析模組101將紀錄檔中的每筆非結構化資料格式的紀錄的紀錄內容視為詞(word),將同一個對象在一預定期間內的紀錄檔中的每筆非結構化資料格式的紀錄的紀錄內容的整體視為文章(document)經由自然語言處理演算法計算,而將各該詞轉換為該至少一特徵向量之一特徵向量。自然語言處理演算法在此示例包括詞頻跟逆向文件頻率(Term Frequency–Inverse Document Frequency,簡稱TF-IDF)演算法。如此,每一預定期間中都可以得到代表紀錄內容在紀錄檔中的重要度的特徵向量。
接著,在步驟S3中,分析模組101判斷是否已分析與預定觀察期內進行目標行為關聯之所有紀錄檔。若判斷尚未分析與預定觀察期內進行目標行為關聯之所有紀錄檔時,則重複執行步驟S1及/或步驟S2,經由資料流接收其他紀錄檔及使用自然語言處理演算法分析紀錄檔而產生特徵向量。然而,請注意全部紀錄檔的收集、接收或分析並不限於在特定或不特定時間點執行、或以單次或多次方式執行以完成,且在其他實施例中,亦可單一次執行步驟S1、S2即完成收集、接收或分析所有的紀錄檔而無須進行步驟S3。
請參考圖3,其顯示於前述以DNS查詢紀錄實施紀錄之示例中進行步驟S2、S3之示意圖。於此例中,預定觀察期舉例為七天,預定期間為一天,即,分析模組101將紀錄內容(t
n, domain
n)視為詞,將同一個對象在一天之內的紀錄檔中的每筆紀錄內容(t
n, domain
n),n=1-N,之整體視為文章,並經由自然語言處理演算法計算而產生對應該文章的特徵向量。由於每筆紀錄的紀錄內容包括對象上網瀏覽的網頁域名,經自然語言處理之後得到的一組特徵向量,即分別代表各個域名的重要度,並且一連七天每天進行同樣的分析。
接著,在以前述特徵向量建立預測模型之前,本實施例可選擇性地先進行步驟S4,分析模組101使用一降維演算法及一特徵選擇演算法之任一者處理前述特徵向量,藉此產生一對應資訊,用以輸入至一監督式機器學習演算法。降維演算法可在減少資料數的同時儘量保存資料識別性,減少冗餘資訊所造成的誤差,提高識別的精度,或尋找資料內部的本質結構特徵,在此示例性地包括主成分分析(Principal Component Analysis,簡稱PCA)演算法、潛在語義分析(Latent Semantic Analysis,簡稱LSA)演算法及基音檢測演算法(Pitch Detection Algorithm,簡稱PDA)之任一者。特徵選擇演算法可剔除不相關(irrelevant)或亢餘(redundant)的特徵,從而達到減少特徵個數,提高模型精確度,或減少執行時間,在此示例性地包括卡方檢定(Chi-Square Tests)演算法及基尼重要性(Gini Importance)演算法之任一者。
接著,在步驟S5中,建模模組102使用來自特徵向量的對應資訊,如:步驟S2產出之特徵向量本身、其經步驟S3或經其他處理之結果作為輸入,並使用監督式機器學習演算法建立一預測模型,用以預測對象的未來行為。在本例中可以一狀態序列或一包括字母組成的一序列的詞(word)來完成預測模型建立於預測模組103,監督式機器學習演算法可括邏輯迴歸(Logistic Regression)演算法及隨機森林(Random Forest)演算法之任一。
接著,步驟S6中,預測模組103可使用建立之預測模型,將另一紀錄檔輸入預測模型以預測對象的未來行為,在此是以未來行為的一出現機率為其預測結果之實施態樣,另一紀錄檔可類似地是經由至少一個資料流接收的。舉例來說,可透過來自特徵向量的對應資訊建立預測模型分析旅遊資訊、飯店資訊和交通資訊的上網行為與對象未來一段時間內是否會旅行的關聯性。藉此,電商業者可精準地提供旅行相關的廣告行銷資訊給對象。因此,由上述中可以得知,依照本實施例的基於非結構化資料的預測方法,可使用非結構化資料之紀錄檔作為建模的原始資料,而可藉自然語言處理演算法分析紀錄檔產生之特徵向量加以使用監督式機器學習演算法而建立預測模型來預測一對象的未來行為,可在不損失過多原始資料的情況下,無須人工選擇特徵,而有效地降低預測對象未來行為的基於非結構化資料的預測方法之開發成本。
以上敍述依據本發明多個不同實施例,其中各項特徵可以單一或不同結合方式實施。因此,本發明實施方式之揭露為闡明本發明原則之具體實施例,應不拘限本發明於所揭示的實施例。進一步言之,先前敍述及其附圖僅為本發明示範之用,並不受其限囿。其他元件之變化或組合皆可能,且不悖于本發明之精神與範圍。
100:預測系統
101:分析模組
102:建模模組
103:預測模組
S1,S2,S3,S4,S5,S6:步驟
圖1顯示依據本發明之一示例之一預測系統,適於應用如圖2顯示之基於非結構化資料的預測方法。
圖2顯示依據本發明之一實施例之一基於非結構化資料的預測方法。
圖3顯示於以DNS查詢紀錄實施紀錄之示例中進行步驟S2、S3之示意圖。
S1,S2,S3,S4,S5,S6:步驟
Claims (9)
- 一種基於非結構化資料的預測方法,應用於包括一分析模組及一建模模組之一預測系統,用以預測至少一對象的未來行為,包括:以該分析模組,使用自然語言處理演算法分析一紀錄檔中的每筆紀錄內容之整體作為該自然語言處理演算法之文章(Document)而產生對應該文章的至少一特徵向量,每筆紀錄的紀錄內容包括對象上網瀏覽的網頁域名,該至少一特徵向量分別代表各個域名的重要度,並且於一預定觀察期內的每次預定期間連續進行同樣的分析以各別產生特徵向量,該紀錄檔與該預定觀察期內進行一目標行為關聯,其中儲存非結構化資料格式的至少一筆紀錄,且該至少一筆紀錄包括一時間戳記及一紀錄內容;及以該建模模組,使用來自該特徵向量之對應資訊作為輸入,並使用監督式機器學習演算法建立一預測模型,用以預測該至少一對象的未來行為;其中,該至少一筆紀錄為網域名稱系統(Domain Name System,簡稱DNS)查詢紀錄、ATM交易紀錄、結構化查詢語言(Structured Query Language,簡稱SQL)交易紀錄及文字紀錄之任一者。
- 如申請專利範圍第1項所述的基於非結構化資料的預測方法,其中該自然語言處理演算法包括詞頻跟逆向文件頻率(Term Frequency-Inverse Document Frequency,簡稱TF-IDF)演算法。
- 如申請專利範圍第1項所述的基於非結構化資料的預測方法,其中以該分析模組,使用自然語言處理演算法分析一紀錄檔而產生至少一特徵向量之該步驟更包括: 以各該至少一筆紀錄作為該自然語言處理演算法之詞(Word)進行分析,而將各該詞轉換為該至少一特徵向量之一特徵向量。
- 如申請專利範圍第1項所述的基於非結構化資料的預測方法,其更包括:使用一降維演算法及一特徵選擇演算法之任一者處理該至少一特徵向量,以產生該對應資訊輸入該監督式機器學習演算法。
- 如申請專利範圍第4項所述的基於非結構化資料的預測方法,其中該降維演算法包括主成分分析(Principal Component Analysis,簡稱PCA)演算法、潛在語義分析(Latent Semantic Analysis,簡稱LSA)演算法及基音檢測演算法(Pitch Detection Algorithm,簡稱PDA)之任一者。
- 如申請專利範圍第4項所述的基於非結構化資料的預測方法,其中該特徵選擇演算法包括卡方檢定(Chi-Square Tests)演算法及基尼重要性(Gini Importance)演算法之任一者。
- 如申請專利範圍第1項所述的基於非結構化資料的預測方法,其中該監督式機器學習演算法包括邏輯廻歸(Logistic Regression)演算法及隨機森林(Random Forest)演算法之任一者。
- 如申請專利範圍第1項所述的基於非結構化資料的預測方法,其更包括:以該分析模組,判斷尚未分析與該預定觀察期內進行該目標行為關聯之所有該紀錄檔時,重複執行使用自然語言處理演算法分析一紀錄檔而產生至少一特徵向量之該步驟。
- 如申請專利範圍第1項所述的基於非結構化資料的預測方法,其更包括:以該預測系統之一預測模組,使用建立之該預測模型預測該對象的未來行為的一出現機率。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109137101A TWI819247B (zh) | 2020-10-26 | 2020-10-26 | 基於非結構化資料的預測方法 |
US17/509,087 US20220129490A1 (en) | 2020-10-26 | 2021-10-25 | Prediction method based on unstructured data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109137101A TWI819247B (zh) | 2020-10-26 | 2020-10-26 | 基於非結構化資料的預測方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202217639A TW202217639A (zh) | 2022-05-01 |
TWI819247B true TWI819247B (zh) | 2023-10-21 |
Family
ID=81258447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109137101A TWI819247B (zh) | 2020-10-26 | 2020-10-26 | 基於非結構化資料的預測方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220129490A1 (zh) |
TW (1) | TWI819247B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914478A (zh) * | 2013-01-06 | 2014-07-09 | 阿里巴巴集团控股有限公司 | 网页训练方法及系统、网页预测方法及系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760124B (zh) * | 2011-04-25 | 2014-11-12 | 阿里巴巴集团控股有限公司 | 一种推荐数据的推送方法及系统 |
US9053436B2 (en) * | 2013-03-13 | 2015-06-09 | Dstillery, Inc. | Methods and system for providing simultaneous multi-task ensemble learning |
GB201515394D0 (en) * | 2015-08-28 | 2015-10-14 | Status Today Ltd | Predictive activity detection on a computer network |
US10719854B2 (en) * | 2016-02-03 | 2020-07-21 | Conduent Business Services, LLC. | Method and system for predicting future activities of user on social media platforms |
US10296586B2 (en) * | 2016-12-23 | 2019-05-21 | Soundhound, Inc. | Predicting human behavior by machine learning of natural language interpretations |
US10558852B2 (en) * | 2017-11-16 | 2020-02-11 | Adobe Inc. | Predictive analysis of target behaviors utilizing RNN-based user embeddings |
US10909606B2 (en) * | 2018-06-18 | 2021-02-02 | International Business Machines Corporation | Real-time in-venue cognitive recommendations to user based on user behavior |
US20200265323A1 (en) * | 2019-02-20 | 2020-08-20 | Kevin Erich Heinrich | System and Process of Prediction Through The Use of Latent Semantic Indexing |
US11741358B2 (en) * | 2020-02-14 | 2023-08-29 | Intuit, Inc. | Application recommendation machine learning system |
US11235248B1 (en) * | 2020-07-28 | 2022-02-01 | International Business Machines Corporation | Online behavior using predictive analytics |
US11624624B2 (en) * | 2020-07-28 | 2023-04-11 | Bayerische Motoren Werke Aktiengesellschaft | Methods and apparatuses for predicting user destinations |
-
2020
- 2020-10-26 TW TW109137101A patent/TWI819247B/zh active
-
2021
- 2021-10-25 US US17/509,087 patent/US20220129490A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914478A (zh) * | 2013-01-06 | 2014-07-09 | 阿里巴巴集团控股有限公司 | 网页训练方法及系统、网页预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20220129490A1 (en) | 2022-04-28 |
TW202217639A (zh) | 2022-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019043379A1 (en) | CONTROL OF FACTS | |
Prasetyo et al. | Automatic classification of software related microblogs | |
JP5543020B2 (ja) | リサーチミッション識別 | |
CN111552855A (zh) | 一种基于深度学习的网络威胁情报自动抽取方法 | |
JP6689955B2 (ja) | 破損ネットワーク接続の機械学習に基づく識別 | |
US20100185623A1 (en) | Topical ranking in information retrieval | |
US11934785B2 (en) | Multi-task learning of query intent and named entities | |
US20190205470A1 (en) | Hypotheses generation using searchable unstructured data corpus | |
JP2013003663A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Villanueva et al. | Application of Natural Language Processing for Phishing Detection Using Machine and Deep Learning Models | |
Kumar Tripathi et al. | Fake review detection in big data using parallel bbo | |
TWI819247B (zh) | 基於非結構化資料的預測方法 | |
JP6733366B2 (ja) | 課題推定装置、課題推定方法および課題推定プログラム | |
JP2019003270A (ja) | 学習装置、映像検索装置、方法、及びプログラム | |
Charjan et al. | Pattern Discovery For Text Mining Using Pattern Taxonomy | |
Vollset et al. | Making use of external company data to improve the classification of bank transactions | |
Kumar et al. | Automated Text Summarization Using Transformers | |
Ghattas et al. | Performance evaluation of websites using machine learning | |
JP5768009B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP7375096B2 (ja) | 分散表現生成システム、分散表現生成方法及び分散表現生成プログラム | |
US20240070753A1 (en) | Information processing device, method for generating learning model, and computer-readable storage medium that stores program for generating learning model | |
Srivastava et al. | The impact on society of false news spreading on social media with the help of predictive modelling | |
JP5123057B2 (ja) | スパム判定方法及び装置及びプログラム | |
Puertas et al. | RealCheck: A Web Application for Fake News Detection Using Natural Language Processing | |
Saura et al. | Does SEO matter for early-stage startups? Insights from visual data mining and topic-modeling techniques |