TWI749901B - 形成關鍵資訊的方法與電腦系統 - Google Patents

形成關鍵資訊的方法與電腦系統 Download PDF

Info

Publication number
TWI749901B
TWI749901B TW109141254A TW109141254A TWI749901B TW I749901 B TWI749901 B TW I749901B TW 109141254 A TW109141254 A TW 109141254A TW 109141254 A TW109141254 A TW 109141254A TW I749901 B TWI749901 B TW I749901B
Authority
TW
Taiwan
Prior art keywords
articles
key
article
words
computer system
Prior art date
Application number
TW109141254A
Other languages
English (en)
Other versions
TW202221530A (zh
Inventor
郭博鈞
歐曜瑋
Original Assignee
重量科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 重量科技股份有限公司 filed Critical 重量科技股份有限公司
Priority to TW109141254A priority Critical patent/TWI749901B/zh
Application granted granted Critical
Publication of TWI749901B publication Critical patent/TWI749901B/zh
Publication of TW202221530A publication Critical patent/TW202221530A/zh

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種形成關鍵資訊的方法與電腦系統,在方法中,可自網路上取得多篇文章,經比對詞庫可提取一篇文章中的字詞,並得出一組關鍵字詞,接著計算各篇文章中出現每個關鍵字詞的次數,能夠根據各篇文章每個關鍵字詞的次數計算出多篇文章之間的相似度,之後根據多篇文章之間的相似度進行分群,並取得關鍵文章群,以能根據關鍵字詞從中得出至少一篇關鍵文章。

Description

形成關鍵資訊的方法與電腦系統
說明書提出一種提供資訊的方法,特別是指一種通過關鍵字詞得出關鍵文章的形成關鍵資訊的方法以及實現此方法的電腦系統。
網路科技與資訊的蓬勃發展,使得網路成為人們得到資訊(如新聞、人物資料、特定主題)的主要來源之一,然而網路的資訊愈龐大,資訊就顯得愈多樣化,也使得查詢得出的資料過於龐雜而不容易得到其中真正重要的資訊。
若進一步想從搜尋得到的文章取得有用的資料,又需要花費一些時間去查閱其中內容,習知技術中顯然沒有有效而快速得到關鍵內容的方法。
為了提出一種可根據收集的文章取得關鍵文章,以及可有效查詢到關鍵資訊的技術,揭露書提出一種形成關鍵資訊的方法與實現此方法的電腦系統。
根據實施例,所提出的用於產生關鍵資訊的電腦系統包括一或多個處理器與一記憶體,其中記憶體中儲存運行形成關鍵資訊的方法的程式集,並以軟體手段實現執行資料擷取、文字處理與用戶管理等功能。在其中運行的方法中,取得文章後,可以比對詞庫而得出其中字詞,再得出一組關鍵字詞,據此可計算多篇文章中每個關鍵字詞的次數,並得出多篇文章之間的相似度,相似度即用以對這些文章進行分群,從各群文章中得出至少一篇關鍵文章。
優選地,在判斷多篇文章的相似度的步驟中,先根據各篇文章中每個關鍵字詞的次數形成各篇文章的一字頻向量,再以一餘弦相似度(cosine similarity)計算方法計算多篇文章中彼此的向量內積,內積結果即是多篇文章之間的相似度。
進一步地,於形成關鍵資訊的方法中,可根據多篇文章之間的相似度得出一關鍵文章群,再根據關鍵字詞從關鍵文章群得出至少一篇關鍵文章。
進一步地,上述關鍵文章群中包括有多篇文章,在一實施例中,可以一逆向文件頻率(inverse document frequency)方法依據各關鍵字詞的次數取得關鍵文章群中多篇文章中的至少一篇關鍵文章。
進一步地,所述電腦系統可運行一雲端平台,提供使用者通過使用者介面輸入所要查詢的字詞,形成組關鍵字詞。接著,查詢的字詞可用於查詢新聞、人物或主題。
進一步地,在一實施例中,通過電腦系統中運行一人工智能方法,以機器學習演算法學習由大量文章中取得具有關鍵字詞的關鍵文章的過程,以建立形成關鍵資訊並服務關鍵資訊查詢的一智能模型。
為使能更進一步瞭解本發明的特徵及技術內容,請參閱以下有關本發明的詳細說明與圖式,然而所提供的圖式僅用於提供參考與說明,並非用來對本發明加以限制。
以下是通過特定的具體實施例來說明本發明的實施方式,本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用,本說明書中的各項細節也可基於不同觀點與應用,在不悖離本發明的構思下進行各種修改與變更。另外,本發明的附圖僅為簡單示意說明,並非依實際尺寸的描繪,事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容,但所公開的內容並非用以限制本發明的保護範圍。
應當可以理解的是,雖然本文中可能會使用到“第一”、“第二”、“第三”等術語來描述各種元件或者信號,但這些元件或者信號不應受這些術語的限制。這些術語主要是用以區分一元件與另一元件,或者一信號與另一信號。另外,本文中所使用的術語“或”,應視實際情況可能包括相關聯的列出項目中的任一個或者多個的組合。
揭露書揭示一種形成關鍵資訊的方法,以及執行此方法的電腦系統,方法之主要目的是通過文件處理技術在大量文章中取得其中關鍵文章,特別是針對使用者有興趣的關鍵字詞所得出的關鍵文章,文章則可以是一般文件經文字化形成的文字檔案,或是由網路上蒐集得到,如社群媒體中公開的文章、新聞媒體與搜尋引擎得出的內容。電腦系統可以泛稱一般電腦主機(可涵蓋個人電腦與行動裝置)以及實現網路平台的伺服器。
圖1顯示實現形成關鍵資訊的方法的電腦系統功能模組實施例圖,圖中顯示有一電腦系統100,包括有一或多個處理器與一記憶體,其中記憶體中儲存運行所述形成關鍵資訊的方法的程式集,並可包括執行此方法中的各軟體功能的程式集,例如,可包括儲存了執行資料擷取、文字處理與用戶管理的程式集。例如,相關軟體功能可包括用以管理終端用戶與資料的用戶管理模組107、執行資料擷取的資料擷取模組109以及進行語意分析、斷詞、斷句、提取字詞、判斷關鍵字詞與相似度計算等軟體方法的文字處理模組111。
電腦系統100除了一般電腦主機的單機操作外,還可運行一雲端平台,其中提供使用者在其終端裝置上通過使用者介面102輸入所要查詢的字詞,使用者介面102如網頁介面,字詞經網路10傳送到電腦系統100後,由其中文字處理模組111處理,即形成一組關鍵字詞。電腦系統100包括一詞庫101,其中記載各種有意義的字詞,用以比對使用者輸入的內容,以及通過資料擷取模組109取得的各種文章,提取其中字詞,並排除不需要的內容。在一實施範例中,電腦系統100設有儲存資料、程式碼與作業環境需要的檔案的儲存器103以及作為伺服器所需的資料庫105。
電腦系統100可通過一種網路爬蟲程式(web crawler)自動化地在網路10收集在各網路平台或使用者提供的資料,如文章,若為非文字檔的內容,還可在必要時將相關資料進行文字化得出文字內容,經電腦系統100中一或多個處理器執行相關程式集後,即根據所取的文章通過資料擷取與文字處理後,形成關鍵資訊。
以上範例的描述並非用於限制揭露書所提出的電腦系統100,如相關程式集並非一定儲存在電腦主機內的記憶體中,或是電腦系統100不一定需要建立資料庫105,而是即時通過運算可即時提供關鍵資訊。
進一步地,揭露書提出的電腦系統通過其中形成關鍵資訊的方法可以實現一個服務平台,以提供使用者輸入有興趣的查詢資料,如圖2所示提供用戶查詢關鍵資訊的使用者介面實施例圖。
此例顯示使用者可以操作個人電腦中的網頁瀏覽器或一應用程式開始一關鍵資訊查詢網頁20,讓使用者可以查詢新聞、人物或主題,如圖所示,通過其中提供的搜尋欄位201查詢有興趣的內容,此範例顯示可以進行新聞搜尋(211)、人物特徵查詢(212)以及主題查詢(213)等,根據查詢的需求,從使用者輸入的內容可取得關鍵字詞,系統也可根據使用者輸入內容補充關鍵字詞,再自網路上各平台載入多篇文章,從中取得至少一篇關鍵文章。
在一實際應用中,銀行業者可以通過執行形成關鍵資訊的方法的電腦系統對一貸款申請者進行人物特徵查詢,可以將從網路上蒐集得到的文章進行如圖3顯示的方法流程,得出關於此貸款申請者的關鍵資訊。例如,若要查詢一人是否有不良金融背景,如背信、洗錢等犯罪記錄,可以通過關鍵資訊查詢網頁20輸入欲查詢的關鍵字詞,可針對某個有興趣的領域(domain)輸入一或多個關鍵字詞,如「洗錢」相關關鍵字詞有:洗錢、資金、流向、犯罪、銀行、詐欺等,若使用者提供關鍵字不足,還可以由電腦系統自動提供,如此,可以讓銀行業者通過所述方法對特定人進行徵信。
其中核心的形成關鍵資訊的方法可參考圖3所示的主要流程實施例圖,執行於電腦系統中的軟體程式(如網路爬蟲程式)自網路上各平台與網站中取得多篇文章(步驟S301),可再以各篇文章比對一詞庫,以提取其中字詞,這些字詞為文章中各種可能的字或詞(步驟S303),但其中可以涵蓋了可以被去除的停用詞(stopwords),經語意分析後可得出一組關鍵字詞(步驟S305)。
得出其中一篇的關鍵字詞後,可以接著計算其他各篇文章中出現此組關鍵字詞中每個關鍵字詞的次數(字頻)(步驟S307),可以根據各篇文章每個關鍵字詞的次數得出這些文章之間的相似度(步驟S309),之後,利用幾個相似度的門檻根據多篇文章之間的相似度進行分群,再從各群文章中得出至少一篇關鍵文章(步驟S311)。根據一實施例,其中相似度最高的群中可以最關鍵的文章。
相關細節流程還可繼續參考圖4所示為形成關鍵資訊的方法的實施例流程圖。
在此流程實施例中,同樣地,電腦系統利用軟體程式自網路上取得多篇文章(步驟S401),舉例來說,從網路上可取得的文章可以是某個網頁(URL)得出的HTML網頁內容、經過編碼的文章(如PDF或DOC檔案)、或是一般文字檔(TXT)等,必要時,可以對文章進行文字化(步驟S403),並可先暫存於電腦系統中的記憶體中。接著,對照一詞庫41,可以提取各篇文章中字詞(步驟S405),形成一字詞集(步驟S407)。根據一實施例,詞庫41可為內建於電腦系統中或是設於外部主機中,其中可記載了各種字詞,可以為長期學習各種資訊得出的字與詞。
其中字詞從文章比對詞庫41而得出,可以通過一語意分析41的技術,針對字詞集中的字詞刪除非重要用語(步驟S409),如刪除字詞集中修飾用的字詞,可以參考各字詞上下文、語意判斷是否為刪除的修飾用語,如介係詞、連接詞、不重要的形容詞、副詞等停用詞,以能提取關鍵字詞(步驟S411)。在一應用中,關鍵字詞可以是使用者通過所述系統所要查詢的字詞,可以由使用者選擇,或是由系統產生的關鍵字詞。
當得出一組關鍵字詞時,即計算多篇文章中每個關鍵字詞的次數(字頻,term frequency,TF)(步驟S413),因此可以根據每篇文章出現各關鍵字詞的次數判斷相似度,出現關鍵字詞的數量與次數愈高者,可以表示文章之間的相似度愈高(步驟S415)。之後,所述方法即根據多篇文章之間的相似度進行分群(步驟S417),每群中的文章即為相似度相近的文章(在一個相似度門檻中),再從各群文章中判斷出至少一篇關鍵文章(步驟S419)。
更者,在形成關鍵資訊的方法中,在上述步驟S419之後,還根據多篇文章之間的相似度得出關鍵文章群(步驟S421),再次通過關鍵字詞45從關鍵文章群得出至少一篇關鍵文章(步驟S423)。
可接著參考圖5所示應用形成關鍵資訊的方法得出的關鍵文章後形成關鍵資訊的實施例流程圖。
在此實施例中,延續前述實施例流程,在取得各篇文章字頻之後(步驟S501),判斷多篇文章的相似度的步驟的方式之一可以是,根據各篇文章中每個關鍵字詞的次數形成各篇文章的一字頻向量(term frequency vector)(步驟S503),接著可以一餘弦相似度(cosine similarity)計算方法計算這些多篇文章中彼此的向量內積(步驟S505),依照內積結果可得出多篇文章之間的相似度(步驟S507)。其中,根據一範例,通過字頻向量內積可得相似度,經內積後,若接近1者,即為相似度大的文章,此外,系統可設有相似度門檻以判斷出同群文章。
根據系統設定的相似度門檻分別出多群文章,並可進一步依照有興趣的關鍵字詞得出關鍵文章群(步驟S509),關鍵文章群包括多篇文章,欲判斷出其中關鍵文章,可以採用一逆向文件頻率(inverse document frequency,IDF)方法,依據各關鍵字詞的次數取得關鍵文章群中多篇文章中的至少一篇關鍵文章(步驟S511),從關鍵文章中取得其中關鍵資訊(步驟S513)。在此一提的是,字頻高的字詞不一定是使用者所需要的關鍵字詞,所述逆向文件頻率方法是一種可以從出現次數多的關鍵字詞中得出更關鍵的字詞的方法,特別是可以有效排除當中次數多但不重要的字詞。
在應用智能技術的實施例中,電腦系統中可運行一人工智能方法,以一機器學習演算法學習由大量文章中取得具有關鍵字詞的關鍵文章的過程,其中從關鍵字詞得出關鍵文章,可經使用者確認後,調整關鍵字詞的選擇,經反覆學習,藉此建立形成關鍵資訊並服務關鍵資訊查詢的一智能模型。此後,可將所蒐集的文章輸入此智能模型,可以快速得出文章中的關鍵資訊。
根據以上描述形成關鍵資訊的方法的實施例,在此列舉一範例,電腦系統接收一段文字:「台灣座落於西太平洋」,通過電腦系統中文字處理模組中的文字解析功能,對照詞庫,提取其中字詞,此例顯示有:「’台灣’、’座落’、’於’、’太平’、’太平洋’、’西太平洋’」等,如此即形成一字詞集,經前處理刪除停用詞(stop words,如修飾用語,但此例沒有明顯修飾用語),接著進行語音分析,可以根據這些字詞的前後關係得出符合語意的關鍵字詞(key words),此例顯示為「’台灣’、’座落’、’於’、’西太平洋’」。接著引入其他文章,計算各文章中這些關鍵字詞「’台灣’、’座落’、’於’、’西太平洋’」的出現次數(即字頻),藉此得出文章之間的相似度,相似度高即關聯度就高,可以通過這些關鍵字詞得出多篇關聯文章。
之後,當得出多篇關鍵文章之後,再利用文字處理模組中的文字解析功能從這些關聯文章中搜尋關鍵字詞,例如出現次數(字頻)高的字詞,經去除停用詞(如修飾用語)後,可判斷為這些關聯文章中共同的關鍵字詞。舉例來說,從上一階段得出的關鍵字詞「’台灣’、’座落’、’於’、’西太平洋’」得出多篇關鍵文章後,再從其中得出、關鍵字詞如:「’太平洋’、’颱風’、’生成’、’民眾’、’關注’、’天氣’、’嚴防’、’大雨’、’預報’、’氣流’、’影響’、’不穩’、’留意’、’台灣’、’座落’」。最終,綜合以上得出各種字詞、文章,經語意分析後得出的新組合文章如:「太平洋/颱風/生成/民眾/關注/天氣/嚴防/大雨」、「天氣/預報/氣流/影響/天氣/不穩/留意/大雨」以及「台灣/座落/太平洋」。
在此一提的是,在揭露書提出的形成關鍵資訊的方法中,電腦系統中的詞庫可用於過濾字詞中相對不重要的修飾用語,例如介係詞、連接詞、不重要的形容詞、副詞等,目的是可以節省存儲空間和提高查詢效率,這些字或詞可稱為停用詞(stop words),這部份可以通過建立詞庫得出,或是通過人工智能方法從大量文章學習得出。在一實施例中,文字處理的技術中,把停用詞(如請、於、仍舊、瞬間等)刪除後,在處理程序中可以用一字頻向量表示留下的關鍵字詞,表示如:[太平洋、颱風、生成、民眾、關注、天氣、嚴防、大雨、預報、氣流、影響、不穩、留意、台灣、座落]。
當文章中出現多次得出的關鍵字詞後,這些字詞和該篇文章具有高關聯度,因此可知,一篇文章的字頻向量可以當作此篇文章的特徵值,多篇文章之間的關聯度即可以字頻矩陣(term frequency matrix)表示,延續前例範例如下,矩陣中橫向(列)表示為根據關鍵字詞形成的字頻向量,此例縱向表示有3篇文章進行相似度比對。
字頻矩陣範例如: [太平洋, 颱風, 生成, 民眾, 關注, 天氣, 嚴防, 大雨, 預報, 氣流, 影響, 不穩, 留意, 台灣, 座落] vecA = [1/8, 1/8, 1/8, 1/8, 1/8, 1/8, 1/8, 1/8, 0, 0, 0, 0, 0, 0, 0] vecB = [0, 0, 0, 0, 0, 2/8, 0, 1/8, 1/8, 1/8, 1/8, 1/8, 1/8, 0, 0] vecC = [1/3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1/3, 1/3]
此例字頻矩陣由三篇文章的字頻向量(vecA, vecB, vecC)組成,其中的每個元素(element)表示三篇文章中出現第一列所舉字詞的字頻,各篇文章的字頻向量的內積即得出彼此的相似度。
根據實施例,所述文章之間的相似度可以餘弦相似度表示,如方程式一,其中’t’與’e’表示兩個字頻向量,餘弦相似度計算主要是計算各篇文章的字頻向量內積,可以得出兩篇文章分別具有各自字頻向量之間的相似度。
Figure 02_image001
(方程式一)
方程式一可表示為「cosine_similarity ([vecA, vecB, vecC], [vecA, vecB, vecC])」,餘弦相似度的結果如以下範例,顯示為三個字頻向量內積後得到的矩陣(a, b, c)。 #a                 b                    c [[1.               0.03368042         0.01800272]   #a [0.03368042 1.                   0.             ]    #b [0.01800272 0.                   1.             ]]   #c
如此,在文章之間的相似度計算方法中,先根據各篇文章的字頻形成各篇文章的字頻向量,兩篇文章之間的字頻向量內積可得相似度,如接近1者,為相似度大的文章,並此以衡量相似度。可設有「相似度門檻」判斷出同群文章。
進一步地,根據一實施例,根據最初取得的關鍵字詞得出多篇文章彼此的相似度並取得關鍵文章後,此時,若有一個字詞僅出現在少數幾篇文章中(如「洗錢」),而另一個詞就出現在多數文章中(如「記者」),根據上述逆向文件頻率的概念,可以從這些關鍵文章中得出前者(例如有「洗錢」關鍵字詞者)的重要性和獨特性應該比後者(有「記者」關鍵字詞者)還高,此重要性可以「log(所有關鍵文章數目/出現該詞的文章數目)」表示。如此,所述逆向文件頻率(IDF)可以表達出一個字詞的特徵值,若繼續與字頻(TF)相乘,可以得到更有意義的特徵值。
延續以上關鍵字詞 [太平洋、颱風、生成、民眾、關注、天氣、嚴防、大雨、預報、氣流、影響、不穩、留意、台灣、座落]的案例,將逆向文件頻率(IDF)乘以字頻(TF),可得出特徵矩陣如: [太平洋, 颱風, 生成, 民眾, 關注, 天氣, 嚴防, 大雨, 預報, 氣流, 影響, 不穩, 留意, 台灣, 座落] [0.05, 0.21, 0.21, 0.21, 0.21, 0.05, 0.21, 0.05, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0] [0.0, 0.0, 0.0, 0.0, 0.0, 0.1, 0.0, 0.05, 0.21, 0.21, 0.21, 0.21, 0.21, 0.0, 0.0] [0.13, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.55, 0.55]
接著,還可繼續以方程式一計算餘弦相似度,根據這幾篇文章特徵值計算出彼此之間的相似度。
以上實施例提到的文章可以是網路文章與新聞,因此揭露書所提出的形成關鍵資訊的方法可以針對特定人物、議題得出關鍵資訊,甚至可以用在金融服務業在對特定人徵信的應用上,其他應用還有新聞資料、人物特徵識別等。
綜上所述,根據上述實施例所提出的形成關鍵資訊的方法以及電腦系統,所述方法提供了一種在大量文章中取得其中關鍵文章的解決方案,其他應用還可以根據使用者有興趣的議題從大量文章中得出特定人物、主題、新聞中的關鍵資訊。
以上所公開的內容僅為本發明的優選可行實施例,並非因此侷限本發明的申請專利範圍,所以凡是運用本發明說明書及圖式內容所做的等效技術變化,均包含於本發明的申請專利範圍內。
10:網路
100:電腦系統
102:使用者介面
101:詞庫
103:儲存器
105:資料庫
107:用戶管理模組
109:資料擷取模組
111:文字處理模組
20:關鍵資訊查詢網頁
201:搜尋欄位
211:新聞搜尋
212:人物特徵
213:主題查詢
41:詞庫
43:語意分析
45:關鍵字詞
步驟S301~S311:形成關鍵資訊的方法流程
步驟S401~S423:形成關鍵資訊的方法流程
步驟S501~S513:形成關鍵資訊的方法流程
圖1顯示實現形成關鍵資訊的方法的電腦系統功能模組實施例圖;
圖2顯示提供用戶查詢關鍵資訊的使用者介面實施例圖
圖3顯示為形成關鍵資訊的方法的主要流程實施例圖;
圖4顯示為形成關鍵資訊的方法的實施例流程圖;以及
圖5顯示應用形成關鍵資訊的方法得出的關鍵文章後形成關鍵資訊的實施例流程圖。
S301:取得文章
S303:比對詞庫、提取字詞
S305:得出關鍵詞
S307:計算字頻
S309:得出文章間相似度
S311:分群後得出關鍵文章

Claims (10)

  1. 一種形成關鍵資訊的方法,包括:取得多篇文章;比對一詞庫,提取其中一篇文章中的字詞,並經語意分析後,根據語意分析去除該篇文章中停用詞,得出該篇文章中一組關鍵字詞;計算各篇文章中出現該組關鍵字詞中每個關鍵字詞的次數;根據各篇文章每個關鍵字詞的次數得出該多篇文章之間的相似度;以及根據該多篇文章之間的相似度進行分群,以得出一關鍵文章群,根據該組關鍵字詞從該關鍵文章群得出至少一篇關鍵文章。
  2. 如請求項1所述的形成關鍵資訊的方法,其中,判斷該多篇文章的相似度的步驟包括:根據各篇文章中每個關鍵字詞的次數形成各篇文章的一字頻向量;以及以一餘弦相似度計算方法計算該多篇文章中彼此的向量內積,依照內積結果得出該多篇文章之間的相似度。
  3. 如請求項2所述的形成關鍵資訊的方法,其中該關鍵文章群包括多篇文章,接著以一逆向文件頻率方法依據各關鍵字詞的次數取得該關鍵文章群中該多篇文章中的至少一篇關鍵文章。
  4. 一種用於產生關鍵資訊的電腦系統,包括:一或多個處理器與一記憶體,其中該記憶體中儲存運行一形成關鍵資訊的方法的程式集,經該一或多個處理器執行該程式集後,執行以下步驟: 比對一詞庫,提取其中一篇文章中的字詞,並經語意分析後,根據語意分析去除該篇文章中停用詞,得出該篇文章中一組關鍵字詞;根據該組關鍵字詞,計算多篇文章中每個關鍵字詞的次數;根據各篇文章每個關鍵字詞的次數得出該多篇文章之間的相似度;以及根據該多篇文章之間的相似度進行分群,以得出一關鍵文章群,根據該組關鍵字詞從該關鍵文章群得出至少一篇關鍵文章。
  5. 如請求項4所述的電腦系統,其中,判斷該多篇文章的相似度的步驟包括:根據各篇文章中每個關鍵字詞的次數形成各篇文章的一字頻向量;以及以一餘弦相似度計算方法計算該多篇文章中彼此的向量內積,依照內積結果得出該多篇文章之間的相似度。
  6. 如請求項5所述的電腦系統,其中該關鍵文章群包括多篇文章,接著以一逆向文件頻率方法依據各關鍵字詞的次數取得該關鍵文章群中該多篇文章中的至少一篇關鍵文章。
  7. 如請求項4至6中任一項所述的電腦系統,其中該電腦系統運行一雲端平台,提供使用者通過一使用者介面輸入所要查詢的字詞,形成該組關鍵字詞。
  8. 如請求項7所述的電腦系統,其中該電腦系統的該記憶體中還儲存執行資料擷取、文字處理與用戶管理的程式集。
  9. 如請求項7所述的電腦系統,其中所述所要查詢的字詞用於查詢新聞、人物或主題,該多篇文章為自網路上各平台載入該電腦系統的文章,從中取得該至少一篇關鍵文章。
  10. 如請求項7所述的電腦系統,其中,通過該電腦系統中運行一人工智能方法,以一機器學習演算法學習由大量文章中取得具有關鍵字詞的關鍵文章的過程,以建立形成關鍵資訊並服務關鍵資訊查詢的一智能模型。
TW109141254A 2020-11-25 2020-11-25 形成關鍵資訊的方法與電腦系統 TWI749901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109141254A TWI749901B (zh) 2020-11-25 2020-11-25 形成關鍵資訊的方法與電腦系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109141254A TWI749901B (zh) 2020-11-25 2020-11-25 形成關鍵資訊的方法與電腦系統

Publications (2)

Publication Number Publication Date
TWI749901B true TWI749901B (zh) 2021-12-11
TW202221530A TW202221530A (zh) 2022-06-01

Family

ID=80681272

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109141254A TWI749901B (zh) 2020-11-25 2020-11-25 形成關鍵資訊的方法與電腦系統

Country Status (1)

Country Link
TW (1) TWI749901B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW578097B (en) * 2002-08-06 2004-03-01 Walsin Lihwa Corp Article classification method
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW578097B (en) * 2002-08-06 2004-03-01 Walsin Lihwa Corp Article classification method
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法

Also Published As

Publication number Publication date
TW202221530A (zh) 2022-06-01

Similar Documents

Publication Publication Date Title
US8051080B2 (en) Contextual ranking of keywords using click data
WO2021120627A1 (zh) 数据搜索匹配方法、装置、计算机设备和存储介质
Wan et al. Single document keyphrase extraction using neighborhood knowledge.
WO2021227831A1 (zh) 威胁情报的主题检测方法、装置和计算机存储介质
CN108763196A (zh) 一种基于pmi的关键字提取方法
CN104899322A (zh) 搜索引擎及其实现方法
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
WO2020134684A1 (zh) 信息检索方法、装置、设备和介质
CN113660541B (zh) 新闻视频的摘要生成方法及装置
CN111651675B (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
WO2012067586A1 (en) Database searching
Pang et al. A text similarity measurement based on semantic fingerprint of characteristic phrases
Jafari et al. Unsupervised keyword extraction for hashtag recommendation in social media
TWI749901B (zh) 形成關鍵資訊的方法與電腦系統
Fauzi et al. Image understanding and the web: a state-of-the-art review
TWM618818U (zh) 擷取負面訊息的電腦系統
Wu et al. Clustering results of image searches by annotations and visual features
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
Nuray-Turan et al. Exploiting web querying for web people search in weps2
Zheng et al. An improved focused crawler based on text keyword extraction
Fauceglia et al. CMU System for Entity Discovery and Linking at TAC-KBP 2015.
Singh et al. User specific context construction for personalized multimedia retrieval
JP2529418B2 (ja) 文書検索装置
KR102449572B1 (ko) 비정형 텍스트에서 상품 속성 사전 기반의 대표 키워드 추출 방법