TWM599938U - 新聞篩選裝置 - Google Patents

新聞篩選裝置 Download PDF

Info

Publication number
TWM599938U
TWM599938U TW109200926U TW109200926U TWM599938U TW M599938 U TWM599938 U TW M599938U TW 109200926 U TW109200926 U TW 109200926U TW 109200926 U TW109200926 U TW 109200926U TW M599938 U TWM599938 U TW M599938U
Authority
TW
Taiwan
Prior art keywords
word
article
word segmentation
screening device
word group
Prior art date
Application number
TW109200926U
Other languages
English (en)
Inventor
賴彥廷
Original Assignee
兆豐國際商業銀行股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 兆豐國際商業銀行股份有限公司 filed Critical 兆豐國際商業銀行股份有限公司
Priority to TW109200926U priority Critical patent/TWM599938U/zh
Publication of TWM599938U publication Critical patent/TWM599938U/zh

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提出一種新聞篩選裝置。新聞篩選裝置包含處理器、儲存 媒體以及收發器。處理器經配置以執行:取得多個文章,其中多個文章包含第一文章;產生對應於第一文章的標籤;取得關鍵字;計算關鍵字以及標籤的相似度;根據相似度以從多個文章選出第一文章;以及根據第一文章產生摘要。

Description

新聞篩選裝置
本新型是有關於一種新聞篩選裝置。
為了提升投資的績效以及降低投資的風險,投資人(或投資顧問等)經常需要閱讀大量的新聞以正確地掌握產業動態。然而,產業的種類繁多,因此,人們很難在短時間之內吸收大量的產業相關資訊。此外,人們也很難根據自己所收集的資訊來判斷目前影像產業最顯著的變因。如此,可能會使投資人因資訊落差而作出錯誤的判斷,進而導致投資失利。
因此,如何提出一種能輔助投資人快速地掌握產業相關新聞的方法,是本領域人員致力的目標之一。
本新型提供一種新聞篩選裝置,能快速地找出與使用者所輸入的關鍵字相關聯的新聞,並自動地生成該新聞的摘要。
本新型的一種新聞篩選裝置,包括:處理器、儲存媒體以及收發器。儲存媒體儲存多個模組以及多個文章,其中多個文章包 括第一文章。處理器耦接儲存媒體以及收發器,並且存取和執行多個模組,其中多個模組包括資料收集模組以及運算模組。資料收集模組通過收發器接收關鍵字。運算模組產生對應於第一文章的標籤,計算關鍵字以及標籤的相似度,根據相似度以從多個文章選出第一文章,以及根據第一文章產生摘要。
在本新型的一實施例中,上述的運算模組對第一文章進行斷詞以產生包括多個字組的斷詞結果,根據文字探勘演算法以及斷詞結果來產生多個字組的排名,並且根據排名來產生對應於第一文章的標籤。
在本新型的一實施例中,上述的文字探勘演算法的參數包括窗尺寸,其中運算模組根據窗尺寸以從斷詞結果中選出對應於多個字組中的第一字組的第二字組,根據第二字組來計算第一字組的分數,並且根據分數來產生排名。
在本新型的一實施例中,上述的分數關聯於多個字組中的第一字組的同義字組。
在本新型的一實施例中,上述的運算模組對第一文章進行第一斷詞以產生第一斷詞結果,對第一斷詞結果進行命名實體識別以產生識別結果,並且根據識別結果對第一文章進行斷詞以產生斷詞結果。
在本新型的一實施例中,上述的運算模組對第一文章進行斷詞以產生包括多個字組的斷詞結果,根據文字探勘演算法以及斷詞結果來產生多個字組的排名,並且根據排名來產生對應於 第一文章的摘要。
在本新型的一實施例中,上述的文字探勘演算法的參數包括窗尺寸,其中運算模組根據窗尺寸以從斷詞結果中選出對應於多個字組中的第一字組的語句,根據語句來計算第一字組的分數,根據分數來產生排名,並且根據排名來產生摘要。
在本新型的一實施例中,上述的運算模組根據雙向編碼器表徵演算法將關鍵字以及標籤分別轉換為第一斷詞向量以及第二斷詞向量,並且根據第一斷詞向量以及第二斷詞向量計算相似度。
在本新型的一實施例中,上述的運算模組根據歐氏距離、曼哈頓距離、標準化歐氏距離以及餘弦距離的其中之一計算相似度。
基於上述,綜上所述,本新型的新聞篩選裝置能來自動地從一篇文章中找出最具代表性的字組以作為標籤。使用者可輸入關鍵字至新聞篩選裝置之中。新聞篩選裝置可比對關鍵字與標籤的相似度,從而找出與關鍵字相關的文章。在找出與關鍵字相關的文章後,新聞篩選裝置可從相關的文章中擷取出部分內容以根據該些內容產生摘要。
100:新聞篩選裝置
110:處理器
120:儲存媒體
121:資料收集模組
122:運算模組
130:收發器
S210、S220、S221、S222、S223、S224、S225、S226、S227、S230、S240、S250、S260、S261、S262、S263、S264、S265:步驟
圖1根據本新型的一實施例繪示一種新聞篩選裝置的示意圖。
圖2根據本新型的一實施例繪示一種新聞篩選方法的流程圖。
圖3根據本新型的一實施例繪示新聞篩選方法的步驟的流程圖。
圖4根據本新型的一實施例繪示新聞篩選方法的步驟的流程圖。
為了使本新型之內容可以被更容易明瞭,以下特舉實施例作為本新型確實能夠據以實施的範例。另外,凡可能之處,在圖式及實施方式中使用相同標號的元件/構件/步驟,係代表相同或類似部件。
圖1根據本新型的一實施例繪示一種新聞篩選裝置100的示意圖,其中新聞篩選裝置100用以根據使用者所輸入的關鍵字來找出相關聯的文章以及自動地產生該文章的摘要等資訊。新聞篩選裝置100可包括處理器110、儲存媒體120以及收發器130。
處理器110例如是中央處理單元(central processing unit,CPU),或是其他可程式化之一般用途或特殊用途的微控制單元(micro control unit,MCU)、微處理器(microprocessor)、數位信號處理器(digital signal processor,DSP)、可程式化控制器、特殊應用積體電路(application specific integrated circuit,ASIC)、圖形處理器(graphics processing unit,GPU)、影像訊號處理器(image signal processor,ISP)、影像處理單元(image processing unit,IPU)、 算數邏輯單元(arithmetic logic unit,ALU)、複雜可程式邏輯裝置(complex programmable logic device,CPLD)、現場可程式化邏輯閘陣列(field programmable gate array,FPGA)或其他類似元件或上述元件的組合。處理器110可耦接至儲存媒體120以及收發器130,並且存取和執行儲存於儲存媒體120中的多個模組和各種應用程式。
儲存媒體120例如是任何型態的固定式或可移動式的隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)、硬碟(hard disk drive,HDD)、固態硬碟(solid state drive,SSD)或類似元件或上述元件的組合,而用於儲存可由處理器110執行的多個模組或各種應用程式。在本實施例中,儲存媒體120可儲存包括資料收集模組121以及運算模組122等多個模組,其功能將於後續說明。
收發器130以無線或有線的方式傳送及接收訊號。收發器130還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。在本實施例中,收發器130可用以接收來自輸入裝置(例如:鍵盤、滑鼠或觸控螢幕等)的訊號,或用以傳送訊號至輸出裝置(例如:顯示器或揚聲器等)。
圖2根據本新型的一實施例繪示一種新聞篩選方法的流程圖,其中新聞篩選方法可由如圖1所示的新聞篩選裝置100實施。
在步驟S210中,資料收集模組121可通過收發器130接 收多個文章,並將所述多個文章儲存至儲存媒體120之中,其中所述多個文章包括第一文章,並且所述多個文章例如為與金融有關的新聞或報導,但本新型不限於此。多個文章的來源例如為網際網路的統一資源定位符(uniform resource locator,URL)或由使用者通過終端裝置或電子裝置上傳給資料收集模組121,但本新型不限於此。
在步驟S220中,運算模組122可產生對應於第一文章的標籤。圖3根據本新型的一實施例繪示新聞篩選方法的步驟S220的流程圖。
在步驟S221中,運算模組122可對第一文章進行第一次的斷詞(word segmentation)以產生第一斷詞結果。運算模組122可使用諸如Ckiptagger等工具以對第一文章進行第一次的斷詞。第一斷詞結果可包括多個字組(word)。表1為第一文章以及對應的第一斷詞結果的範例。在表1的範例中,第一文章的第一斷詞結果包括例如「政府」、「持續」、...、「為」以及「目標」等多個字組。
Figure 109200926-A0305-02-0008-1
在步驟S222中,運算模組122可對第一斷詞結果進行命 名實體識別(named entity recognition,NER)以產生識別結果。具體來說,運算模組122可通過命名實體識別將相鄰的多個字組重組為與特定的專有名詞相關聯的字組,其中所述專有名詞例如關聯於與公司名稱或政府單位(ORG)、國家名稱(GPE)、地點名稱(LOC)或設施(FAC)。舉例來說,運算模組122可通過命名實體識別將相鄰的兩個字組「OO」以及「銀行」重組為「OO銀行」。
在步驟S223中,運算模組122可根據命名實體識別的識別結果對第一文章進行第二次的斷詞以產生最終的斷詞結果。運算模組122可使用諸如Ckiptagger等工具以對第一文章進行第二次的斷詞。斷詞結果可包括多個字組。如此,在執行第二次的斷詞時,運算模組122將可參考命名實體識別的識別結果。若一字組為識別結果中所記載的專有名詞時,則該字組中的字元將不會被分割為不同的字組。舉例來說,斷詞結果中所記載的「OO銀行」(如步驟S222所記載)將不會被分割為兩個字組「OO」以及「銀行」。
在步驟S224中,運算模組122可配置文字探勘(textranking)演算法的參數,其中所述參數可包括字組的窗(window)尺寸以及權重因子。具體來說,儲存媒體120可預存多個預設關鍵字。運算模組122可判斷斷詞結果中的字組是否為多個預設關鍵字的其中之一,並且根據判斷結果來配置該字組的窗尺寸以及權重因子。若該字組並非多個預設關鍵字的其中之一, 則運算模組122根據預設組態來配置該字組的窗尺寸以及權重因子。另一方面,若該字組為多個預設關鍵字的其中之一,代表使用者對該關鍵字比較關注,因此,運算模組122可將該字組的窗尺寸以及權重因子放大。
一字組的窗是用以選擇與該字組相鄰的其他字組。一字組的窗尺寸越大,代表在該字組的窗中包含了越多與該字組相鄰的其他字組。舉例來說,假設步驟S223所產生的斷詞結果如表2所示。若字組「政策」的窗尺寸為2,則代表字組「政策」的窗包含了在字組「政策」之前且與字組「政策」最為鄰近的兩個字組「廢棄物」以及「資源化」,並且包含了在字組「政策」之後且與字組「政策」最為鄰近的兩個字組「以」以及「打造」。另一方面,若字組「政策」的窗尺寸為5,則代表字組「政策」的窗涵蓋了在字組「政策」之前且與字組「政策」最為鄰近的五個字組「政府」、「持續」、「推動」、「廢棄物」以及「資源化」,並且涵蓋了在字組「政策」之後且與字組「政策」最為鄰近的五個字組「以」、「打造」、「臺灣」、「成為」以及「零」。
Figure 109200926-A0305-02-0010-2
在步驟S225中,運算模組122可根據窗尺寸以及權重因子計算斷詞結果中的字組的分數。具體來說,運算模組122可根據窗尺寸以從斷詞結果的多個字組中選出對應於第一字組的第二 字組,並且根據第二字組來計算第一字組的分數,如方程式(1)所示,其中v i 為斷詞結果中的索引為i的字組、WS(v i )為字組v i 的分數、d為由使用者定義的介於0到1之間的值、In(v i )為位於字組v i 的窗之中的字組的索引、Out(v i )為其窗之中包含字組v i 的字組的索引、w ji 為對應於字組v j 以及字組v i 的權重並且f j 為對應於字組v j 的權重因子。
Figure 109200926-A0305-02-0011-3
值得注意的是,在步驟S225中所計算出的一字組的分數可以與該字組的同義字組相關聯。舉例來說,若一篇文章出現了字組「零」以及字組「0」,則字組「零」的分數將與字組「0」相關聯。
在步驟S226中,運算模組122可根據字組的分數來產生排名。舉例來說,運算模組122可從斷詞結果所包含的多個字組之中選出具有最高分數的字組,並且將該字組排為多個字組中的首位。
在步驟S227中,運算模組122可根據排名來產生對應於第一文章的標籤。舉例來說,運算模組122可響應於第一文章中的特定字組的排名為最高而判斷第一文章的標籤為該特定字組。通過執行步驟S221至步驟S227,新聞篩選裝置100可自動地為每一篇文章產生對應的標籤。
回到圖2,在步驟S230中,資料收集模組121可通過收 發器130接收關鍵字,其中關鍵字例如是由使用者通過具有輸入介面的終端裝置或電子裝置而輸入至收發器130。
在步驟S240中,運算模組122可計算關鍵字與各個文章的標籤的相似度。
舉例來說,運算模組122可根據雙向編碼器表徵(bidirectional encoder representations from transformers,BERT)演算法、ELMo演算法或GPT-2演算法來將關鍵字與標籤分別轉換第一斷詞向量以及第二斷詞向量,並可根據例如歐氏距離(Euclidean distance)、曼哈頓距離(Manhattan distance)、標準化歐氏距離(standardized Euclidean distance)或餘弦距離(cosine distance)等來計算第一斷詞向量以及第二斷詞向量的距離。若距離越短,代表對應於第一斷詞向量的關鍵字與對應於第二斷詞向量的標籤兩者的相似度越高。
在步驟S250中,運算模組122可根據相似度而從多個文章中選出與關鍵字相關的第一文章。舉例來說,運算模組122可響應於第一文章的標籤與關鍵字的相似度高於一相似度閾值而將第一文章視作為與關鍵字相關。
在步驟S260中,運算模組122可根據第一文章產生對應於關鍵字以及第一文章的摘要。圖4根據本新型的一實施例繪示新聞篩選方法的步驟S260的流程圖。
在步驟S261中,運算模組122可產生對應於第一文章的斷詞結果。斷詞結果的產生方式可參考前述的步驟S221至步驟 S223,因此不再贅述。
在步驟S262中,運算模組122可配置文字探勘演算法的參數,其中所述參數可包括字組的窗尺寸以及權重因子。具體來說,儲存媒體120可預存多個預設關鍵字。運算模組122可判斷斷詞結果中的字組是否為多個預設關鍵字的其中之一,並且根據判斷結果來配置該字組的窗尺寸以及權重因子。若該字組並非多個預設關鍵字的其中之一,則運算模組122根據預設組態來配置該字組的窗尺寸以及權重因子。另一方面,若該字組為多個預設關鍵字的其中之一,代表使用者對該關鍵字比較關注,因此,運算模組122可將該字組的窗尺寸以及權重因子放大。在一實施例中,儲存媒體120所預存的多個預設關鍵字可包括由資料收集模組121所接收的關鍵字。換言之,運算模組122可將使用者所輸入之字組(即:關鍵字)的窗尺寸以及權重因子放大。
一字組的窗是用以選擇與該字組相鄰的語句(sentence)。一字組的窗尺寸越大,代表在該字組的窗中包含了越多與該字組相鄰的語句。以表2為例,假設步驟S261所產生的斷詞結果如表2所示。若字組「政策」的窗尺寸為1,則代表字組「政策」的窗包含了在字組「政策」之前且與字組「政策」最為鄰近的語句「政府持續推動廢棄物資源化」,並且包含了在字組「政策」之後且與字組「政策」最為鄰近的語句「以打造臺灣成為零廢棄、零污染、永續家園為目標」。
在步驟S263中,運算模組122可根據窗尺寸以及權重因 子計算斷詞結果中的字組的分數,如方程式(2)所示,其中V為斷詞結果中的索引為i的字組、WS(V i )為字組V i 的分數、D為由使用者定義的介於0到1之間的值、In(V i )為位於字組V i 的窗之中的語句的索引、Out(V i )為其窗之中包含字組V i 的語句的索引、W ji 為對應於字組V j 以及字組V i 的權重並且F j 為對應於字組V j 的權重因子。
Figure 109200926-A0305-02-0014-5
在步驟S264中,運算模組122可根據字組的分數來產生排名。舉例來說,運算模組122可從斷詞結果所包含的多個字組之中選出具有最高分數的字組,並且將該字組排為多個字組中的首位。
在步驟S265中,運算模組122可根據排名來產生對應於第一文章的摘要。舉例來說,運算模組122可響應於第一文章中的特定字組的排名為最高而從第一文章中擷取出該特定字組及其相鄰的語句以作為第一文章的摘要。
在一實施例中,在產生了與關鍵字相關的第一文章的摘要後,新聞篩選裝置100可通過收發器130將摘要傳送至輸出裝置(例如:顯示器)並輸出,以供使用者參考。舉例來說,新聞篩選裝置100可通過收發器130將與關鍵字相關的第一文章的資訊傳送至顯示器,並且所述資訊例如包括第一文章的文章標題、第一文章的標籤、對應於第一文章以及關鍵字的摘要或第一文章的內文等等,本新型不限於此。
綜上所述,本新型的新聞篩選裝置能自動地為多篇文章產生對應的標籤。新聞篩選裝置可根據文字探勘演算法來自動地從一篇文章中找出最具代表性的字組以作為標籤。如此,每天產生的大量的新聞文章都可以被快速地分類。當使用者欲查詢特定的新聞內容時,使用者可輸入關鍵字至新聞篩選裝置之中。新聞篩選裝置可比對關鍵字與標籤的相似度,從而找出與關鍵字相關的文章。在找出與關鍵字相關的文章後,新聞篩選裝置可從相關的文章中擷取出部分內容以根據該些內容產生摘要。
100:新聞篩選裝置
110:處理器
120:儲存媒體
121:資料收集模組
122:運算模組
130:收發器

Claims (9)

  1. 一種新聞篩選裝置,包括:收發器;儲存媒體,儲存多個模組以及多個文章,其中所述多個文章包括第一文章;以及處理器,耦接所述儲存媒體以及所述收發器,並且存取和執行所述多個模組,其中所述多個模組包括:資料收集模組,通過所述收發器接收關鍵字;以及運算模組,產生對應於所述第一文章的標籤,計算所述關鍵字以及所述標籤的相似度,根據所述相似度以從所述多個文章選出所述第一文章,以及根據所述第一文章產生摘要。
  2. 如請求項1所述的新聞篩選裝置,其中所述運算模組對所述第一文章進行斷詞以產生包括多個字組的斷詞結果,根據文字探勘演算法以及所述斷詞結果來產生所述多個字組的排名,並且根據所述排名來產生對應於所述第一文章的所述標籤。
  3. 如請求項2所述的新聞篩選裝置,其中所述文字探勘演算法的參數包括窗尺寸,其中所述運算模組根據所述窗尺寸以從所述斷詞結果中選出對應於所述多個字組中的第一字組的第二字組,根據所述第二字組來計算所述第一字組的分數,並且根據所述分數來產生所述排名。
  4. 如請求項3所述的新聞篩選裝置,其中所述分數關聯於所述多個字組中的所述第一字組的同義字組。
  5. 如請求項2所述的新聞篩選裝置,其中所述運算模組對所述第一文章進行第一斷詞以產生第一斷詞結果,對所述第一斷詞結果進行命名實體識別以產生識別結果,並且根據所述識別結果對所述第一文章進行所述斷詞以產生所述斷詞結果。
  6. 如請求項1所述的新聞篩選裝置,其中所述運算模組對所述第一文章進行斷詞以產生包括多個字組的斷詞結果,根據文字探勘演算法以及所述斷詞結果來產生所述多個字組的排名,並且根據所述排名來產生對應於所述第一文章的所述摘要。
  7. 如請求項6所述的新聞篩選裝置,其中所述文字探勘演算法的參數包括窗尺寸,其中所述運算模組根據所述窗尺寸以從所述斷詞結果中選出對應於所述多個字組中的第一字組的語句,根據所述語句來計算所述第一字組的分數,根據所述分數來產生所述排名,並且根據所述排名來產生所述摘要。
  8. 如請求項1所述的新聞篩選裝置,其中所述運算模組根據雙向編碼器表徵演算法將所述關鍵字以及所述標籤分別轉換為第一斷詞向量以及第二斷詞向量,並且根據所述第一斷詞向量以及所述第二斷詞向量計算所述相似度。
  9. 如請求項8所述的新聞篩選裝置,其中所述運算模組根據歐氏距離、曼哈頓距離、標準化歐氏距離以及餘弦距離的其中之一計算所述相似度。
TW109200926U 2020-01-21 2020-01-21 新聞篩選裝置 TWM599938U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109200926U TWM599938U (zh) 2020-01-21 2020-01-21 新聞篩選裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109200926U TWM599938U (zh) 2020-01-21 2020-01-21 新聞篩選裝置

Publications (1)

Publication Number Publication Date
TWM599938U true TWM599938U (zh) 2020-08-11

Family

ID=73004519

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109200926U TWM599938U (zh) 2020-01-21 2020-01-21 新聞篩選裝置

Country Status (1)

Country Link
TW (1) TWM599938U (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI727624B (zh) * 2020-01-21 2021-05-11 兆豐國際商業銀行股份有限公司 新聞篩選裝置以及新聞篩選方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI727624B (zh) * 2020-01-21 2021-05-11 兆豐國際商業銀行股份有限公司 新聞篩選裝置以及新聞篩選方法

Similar Documents

Publication Publication Date Title
US10838997B2 (en) Method and device for generating text tag
US11238081B2 (en) Method, apparatus, and computer program product for classification and tagging of textual data
US10042896B2 (en) Providing search recommendation
TWI536181B (zh) 在多語文本中的語言識別
CN111930929B (zh) 一种文章标题生成方法、装置及计算设备
AU2015204283A1 (en) Text mining system and tool
CN111538828B (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN113051368B (zh) 双塔模型训练方法、检索方法、装置及电子设备
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
WO2016191913A1 (en) Systems and methods for providing a comment-centered news reader
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN106663123B (zh) 以评论为中心的新闻阅读器
US10339407B2 (en) Noise mitigation in vector space representations of item collections
CN111507789A (zh) 商品属性词的确定方法、装置及计算设备
TWM599938U (zh) 新聞篩選裝置
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
TWI727624B (zh) 新聞篩選裝置以及新聞篩選方法
CN112395878B (zh) 一种基于电价政策的文本处理方法及系统
Anuradha et al. Fuzzy based summarization of product reviews for better analysis
WO2021128342A1 (zh) 文档处理的方法和装置
CN108595439B (zh) 一种文字传播路径分析方法及系统
CN112529743A (zh) 合同要素抽取方法、装置、电子设备及介质
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质