TWI778442B - 偵測文章目的之裝置及方法 - Google Patents
偵測文章目的之裝置及方法 Download PDFInfo
- Publication number
- TWI778442B TWI778442B TW109138319A TW109138319A TWI778442B TW I778442 B TWI778442 B TW I778442B TW 109138319 A TW109138319 A TW 109138319A TW 109138319 A TW109138319 A TW 109138319A TW I778442 B TWI778442 B TW I778442B
- Authority
- TW
- Taiwan
- Prior art keywords
- article
- sentences
- feature
- articles
- generate
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Geophysics And Detection Of Objects (AREA)
Abstract
一種偵測文章目的之裝置及方法。偵測文章目的之裝置用以將一文章拆解為複數句子,將該等句子輸入至一特徵辨別模型,以產生對應各句子之一特徵向量分布,再將該等特徵向量分布輸入至一特定目的偵測模型,以產生文章之一向量分布相似度。當文章之向量分布相似度大於一臨界值時,判斷文章符合一特定目的。
Description
本發明係關於一種偵測文章目的之裝置及方法。具體而言,偵測文章目的之裝置利用文章中各拆句之特徵向量分布以及對應文章之向量分布相似度判斷文章是否具有特定目的。
隨著傳播媒體發展,使用者在使用通訊軟體或瀏覽社群媒體時,經常接收到各種不同類型(例如:政治、健康、生活及交通災害等)的訊息。然而,在這些訊息中可能存在許多內容不實的訊息。此外,使用者於網路上閱讀的文章中,並不易辨識出包含有特定目的的訊息,容易被誤導,因此出現一些訊息查核的服務系統或單位,來查核這些訊息內容是否正確或是訊息是否具有特定目的,例如誘使使用者轉發訊息或是引起使用者特定情緒等。於現有作法中,若要對包含特定目的之訊息進行檢測或偵查,仍需仰賴大量領域知識、或是具有辨識能力的人力才能判斷,此作法將導致查核速度緩慢。
有鑑於此,如何提供一種文章目的偵測機制,其可自動辨識出具特定目的訊息的文章,係為業界及學術界亟需解決的一技術問題。
本發明之目的在於提供一種文章目的偵測機制,其透過特徵辨別模型產生文章中每個句子的特徵向量分布,再將文章中每個句子的特徵向量分布輸入至特定目的偵測模型,以獲得文章之向量分布相似度,並根據文章之向量分布相似度判斷文章屬於的特定目的。據此,本發明之文章目的偵測機制,不僅可自動辨識出文章是否具有特定目的,更可進一步辨識出文章對應哪一種特定目的。此外,透過本發明文章目的偵測機制,可減輕查核人員的人力負荷。
為達上述目的,本發明揭露一種偵測文章目的之裝置,其包含一收發器、一儲存器以及一處理器。該儲存器用以儲存一特徵辨別模型及一特定目的偵測模型。該處理器電性連接至該儲存器及該收發器,並用以執行下列操作:透過該收發器接收一第一文章;將該第一文章拆解為複數第一句子;將該等第一句子輸入至該特徵辨別模型,以產生對應各該第一句子之一第一特徵向量分布;將該第一文章中該等第一句子之該等第一特徵向量分布輸入至該特定目的偵測模型,以產生該第一文章之一向量分布相似度;以及當該向量分布相似度大於一第一臨界值時,判斷該第一文章符合一第一特定目的。
此外,本發明更揭露一種偵測文章目的之方法,包含下列步驟:接收一第一文章;將該第一文章拆解為複數第一句子;將該等第一句子輸入至該特徵辨別模型,以產生對應各該第一句子之一第一特徵向量分布;將該第一文章中該等第一句子之該等第一特徵向量分布輸入至該特定目的偵測模型,以產生該第一文章之一向量分布相似度;以及當該向量分布相似度大於一第一臨界值時,判斷該第一文章符合一第一特定目的。
在參閱圖式及隨後描述之實施方式後,此技術領域具有通常知識者便可瞭解本發明之其他目的,以及本發明之技術手段及實施態樣。
以下將透過實施例來解釋本發明內容,本發明的實施例並非用以限制本發明須在如實施例所述之任何特定的環境、應用或特殊方式方能實施。因此,關於實施例之說明僅為闡釋本發明之目的,而非用以限制本發明。需說明者,以下實施例及圖式中,與本發明非直接相關之元件已省略而未繪示,且圖式中各元件間之尺寸關係僅為求容易瞭解,並非用以限制實際比例。
本發明第一實施例如圖1至圖3所示。圖1為本發明之偵測文章目的之裝置1之示意圖,以及圖2描繪本發明偵測文章目的之實施例流程示意圖。偵測文章目的之裝置1包含一收發器11、一儲存器13以及一處理器15。處理器15電性連接至儲存器13及收發器11。儲存器13用以儲存一特徵辨別模型132及一特定目的偵測模型134。
處理器15透過收發器11接收一第一文章A1後,將第一文章A1拆解為複數第一句子S11、S12、S13~S1h,並將該等第一句子S11、S12、S13~S1h輸入至特徵辨別模型132,以產生對應各第一句子S11、S12、S13~S1h之一第一特徵向量分布VS11、VS12、VS13~VS1h。在一些實施例中,各第一特徵向量分布VS11、VS12、VS13~VS1h包含有複數個特徵向量,各特徵向量對應至一特徵,特徵可以是在句子中包含武斷性、含情緒性、含推論性、含呼籲性、含親身見證、含鼓吹分享等不同語意特色或引起他人反應特徵其中之一。這些特徵可以經由專業人員在訓練特徵辨別模型132時,進行定義並在訓練句子中進行標記,以訓練出特徵辨別模型132可以辨識出這些特徵。
接著,處理器15將第一文章A1中該等第一句子S11、S12、S13~S1h之該等第一特徵向量分布VS11、VS12、VS13~VS1h輸入至特定目的偵測模型134,以產生第一文章A1之一向量分布相似度。當第一文章A1之向量分布相似度大於一第一臨界值時,處理器15判斷第一文章A1符合一第一特定目的。
舉例而言,文章拆解句子的示意圖請參考圖3,處理器15接收第一文章A1後,將第一文章A1拆解為複數第一句子S11、S12、S13、S14、S15、S16、S17、S18後,將所有的第一句子S11、S12、S13、S14、S15、S16、S17、S18都輸入到特徵辨別模型132。特徵辨別模型132依據特定規則把每一個第一句子映射到多維度向量空間,以獲得每一個第一句子於多維度向量空間中之第一特徵向量分布。
接著,處理器15將特徵辨別模型132輸出之該些第一特徵向量分布合併為第一文章A1之特徵向量分布,並將第一文章A1之特徵向量分布輸入至特定目的偵測模型134,以判斷第一文章A1於多維度向量空間中之特徵向量分布是否與具有第一特定目的之文章於多維度向量空間中之特徵向量分布相似。例如,當特徵向量分布相似度大於一第一臨界值時,處理器15判斷第一文章A1符合一第一特定目的。
舉例而言,假設第一臨界值為0.7,若第一文章A1之特徵向量分布與具有第一特定目的之文章之特徵向量分布之特徵向量分布相似度為0.8,處理器15判斷兩者間之特徵向量分布相似度大於0.7時,判斷第一文章A1符合一第一特定目的。
須說明者,前述第一句子之數量僅用於舉例說明,並非用以限制本發明。第一句子的數量係取決於第一文章及第一文章中各句子的字數長度。此外,須說明者,第一臨界值可依據不同類型之特定目的而決定,亦可將所有類型的特定目的之第一臨界值設為相同。
於其他實施例中,處理器15將第一文章中該等第一句子之該等第一特徵向量分布輸入至特定目的偵測模型134後,除了產生第一文章之向量分布相似度以外,更產生第一文章之一文章分數。當文章分數大於一第二臨界值時,處理器15判斷第一文章符合第一特定目的。換言之,於其他實施例中,處理器15需同時根據第一文章之向量分布相似度及第一文章之文章分數決定第一文章是否符合第一特定目的。
此外,於其他實施例中,偵測文章目的之裝置1更包含一顯示介面,處理器15可透過顯示介面顯示第一文章A1、該等第一句子S11~S18、各第一句子對應之一特徵以及文章分數,其中第一句子對應之特徵係由各第一特徵向量分布之複數個特徵向量之中,其特徵向量值為最大的特徵,作為第一句子所對應的特徵。
本發明第二實施例如圖4所示。於本實施例中,儲存器13更用以儲存一第一分類模型CM1。以下將說明如何將第一分類模型CM1訓練成特徵辨別模型132。
處理器15透過收發器11接收複數第二文章後,基於一分析規則將各第二文章拆解為複數第二句子,再基於分析規則標記各第二文章中之各第二句子對應之一特徵。接著,處理器15將已標記之該等第二句子及其對應之特徵輸入至第一分類模型CM1,對第一分類模型CM1進行監督式學習,以訓練並生成特徵辨別模型132。
詳言之,請參考圖4,處理器15接收n篇第二文章A21、A22、A23~A2n後,基於語意分析把n篇第二文章A21、A22、A23~A2n分別拆解成多個第二句子。例如:將第二文章A21拆解成p個第二句子S211、S212~S21p,將第二文章A22拆解成q個第二句子S221、S222~S22q,直到將第n篇第二文章A2n拆解成r個第二句子S2n1、S2n2~S2nr。
處理器15於拆解文章時,可先把文章中的句號當成一個段落拆解句子,由於第一分類模型CM1對於輸入的句子有字數長度限制,若拆解後的句子字數長度超出第一分類模型CM1的句子字數長度限制,則使用句子內的其他標點符號(例如:逗號)進一步拆解句子,且拆解後的句子必須具有完整的意思。
換言之,處理器15在拆解文章時,是考慮文章中之一個句子具有完整句意是有哪些標點符號的規則去斷句,再加上第一分類模型CM1所需要的字數長度限制,去考慮拆句。若超出字數長度限制,則可取中間值(例如:字數長度除以2)後,再往前找標點符號斷句。
於將文章拆解成多個句子後,處理器15標記每個句子的特徵,例如:含武斷性、含情緒性、含推論性、含呼籲性、含親身見證、含冠名內容、含鼓吹分享等不同語意特色或引起他人情緒或作為(如轉發訊息)的各項特徵其中之一,並把標記特徵後的所有句子輸入到第一分類模型CM1,進行監督式學習。
第一分類模型CM1可為ROBERTA模型。訓練ROBERTA模型是把文章中前後兩個句子交換,去判斷是否仍為上下句,以及在訓練過程中以動態遮蔽(即每次遮蔽不同文字)的方式遮蔽文章中的文字,因此在訓練過程中,ROBERTA模型需要預測不同的文字,再加前後兩個句子對調,以及判斷對調後的句子是否為上下文,以強化ROBERTA模型理解語言(即語意分析)的能力。處理器15把每個句子映射到多維度向量空間後,每個句子之間在向量空間上有彼此遠近,故處理器15可依每個句子在向量空間中彼此的遠近作分類。當處理器15完成對第一分類模型CM1之監督式學習的訓練後,產生特徵辨別模型132。
本發明第三實施例如圖5及圖6所示。第三實施例為第一實施例及第二實施例之延伸。於本實施例中,儲存器13更用以儲存一第二分類模型CM2。以下將說明如何將第二分類模型CM2訓練成特定目的偵測模型134。
處理器15透過收發器11接收複數第三文章後,同樣先基於分析規則,將各第三文章拆解為複數第三句子,再將各第三文章之該等第三句子輸入至訓練好的特徵辨別模型132,以產生對應各第三句子之一第二特徵向量分布。處理器15更標記各第三文章是否符合一第二特定目的,並將各第三文章之各第三句子之第二特徵向量分布,以及已標記之該等第三文章輸入至第二分類模型CM2,對第二分類模型CM2進行監督式學習,以訓練並生成特定目的偵測模型134。
詳言之,請參考圖5,處理器15接收m篇第三文章A31、A32、A33~A3m後,基於語意分析把m篇第三文章A31、A32、A33~A3m分別拆解成多個第三句子。例如:將第三文章A31拆解成i個第二句子S311、S312~S31i,將第三文章A32拆解成j個第三句子S321、S322~S32j,直到將第m篇第三文章A3m拆解成k個第二句子S3m1、S3m2~S3mk。
然後處理器15將各第三文章A31、A32、A33~A3m之該等第三句子S311、S312~S31i、S321、S322~S32j、S3m1、S3m2~S3mk輸入至訓練好的特徵辨別模型132,以產生對應第三句子S311之第二特徵向量分布VS211、對應第三句子S312之第二特徵向量分布VS212、對應第三句子S31i之第二特徵向量分布VS21i、對應第三句子S321之第二特徵向量分布VS221、對應第三句子S322之第二特徵向量分布VS222、對應第三句子S32j之第二特徵向量分布VS22j、對應第三句子S3m1之第二特徵向量分布VS2m1、對應第三句子S3m2之第二特徵向量分布VS2m2、對應第三句子S3mk之第二特徵向量分布VS2mk等。
處理器15將第三句子S311之第二特徵向量分布VS211、第三句子S312之第二特徵向量分布VS212、第三句子S31i之第二特徵向量分布VS21i等第二特徵向量分布合併為對應第三文章A31之特徵向量分布,將第三句子S321之第二特徵向量分布VS221、第三句子S322之第二特徵向量分布VS222、第三句子S32j之第二特徵向量分布VS22j等第二特徵向量分布合併為對應第三文章A32之特徵向量分布,將第三句子S3m1之第二特徵向量分布VS2m1、第三句子S3m2之第二特徵向量分布VS2m2、第三句子S3mk之第二特徵向量分布VS2mk等第二特徵向量分布合併為對應第三文章A3m之特徵向量分布。
此外,處理器15更依據特定目的來進行標記文章。例如當特定目的是辨識文章是否為假新聞時,特定目的偵測模型的訓練過程中,處理器15標記第三文章A31為假新聞,第三文章A32為假新聞,第三文章A33為真新聞,直到標記完最後一篇第三文章A3m為假新聞後,將每一篇第三文章於向量空間中之特徵向量分布,以及已標記之該等第三文章輸入至第二分類模型CM2,對第二分類模型CM2進行監督式學習,讓第二分類模型CM2學習不同特定目的對應的向量空間分布,以訓練並生成特定目的偵測模型134。
特定目的偵測模型134主要用於識別異常的向量。同一種特定目的(例如:辨識假新聞)的文章在向量空間分布上較為相近,若輸入其他特定目的(例如:並非假新聞)的文章,則屬於並非假新聞的文章在向量空間中的分布會與屬於假新聞的文章在向量空間上的分布落差較大。因此,透過本發明之特定目的偵測模型134可判別出文章對應之目的。
於其他實施例中,處理器15將各第三文章A31、A32、A33~A3m之該等第三句子輸入至特徵辨別模型132,以產生對應各第三句子之複數特徵分數,並選擇各第三句子之該等特徵分數中之一最大值作為各第三句子的一代表特徵分數。於訓練第二分類模型CM2時,處理器15同時將各第三文章之各第三句子之第二特徵向量分布、已標記之該等第三文章以及各第三句子之代表特徵分數及代表特徵分數對應之一特徵輸入至第二分類模型CM2,以訓練並生成特定目的偵測模型134。據此,特定目的偵測模型134能夠更準確的判斷文章之目的。
舉例而言,請參考圖6,其描繪本發明訓練特定目的偵測模型之實施情境。由於版面限制,圖6中僅繪示特徵辨別模型132輸出對應第三句子S311之複數特徵分數0.11、0.13、…、0.97、對應第三句子S312之複數特徵分數0.03、0.88、…、0.22、對應第三句子S3mk之複數特徵分數0.93、0.01、…、0.35。
處理器15於訓練第二分類模型CM2時,會選擇0.97作為第三句子S311之代表特徵分數,選擇0.88作為第三句子S312之代表特徵分數,以及選擇0.93作為第三句子S3mk之代表特徵分數,並將代表特徵分數0.97、0.88、0.93及其各自對應之特徵,輸入至第二分類模型CM2,以提升特定目的偵測模型134的精確度。
本發明第四實施例如圖7所示。第四實施例亦為第一實施例及第二實施例之延伸。不同於第三實施例,於本實施例中,處理器15僅以第三句子之特徵分數訓練第二分類模型CM2。詳言之,處理器15將各第三文章之該等第三句子輸入至特徵辨別模型132後,僅產生對應各第三句子S311、S312~S31i、S321、S322~S32j、S3m1、S3m2~S3mk之該等特徵分數。同樣地,處理器15會標記各第三文章是否符合一第二特定目的,並將各第三文章之各第三句子之該等特徵分數及已標記之該等第三文章輸入至第二分類模型CM2,以生成特定目的偵測模型134。
於其他實施例中,處理器15係以線性組合判別的方式訓練第二分類模型CM2。具體而言,處理器15透過收發器11接收一第四文章A4,基於分析規則將第四文章A4拆解為複數第四句子S41、S42、S43、S4t,並將第四文章A4之該等第四句子S41、S42、S43、S4t輸入至特徵辨別模型132,以產生對應各第四句子之複數特徵分數。
接著,處理器15再將各第四句子之該等特徵分數組成第四文章A4之第二特徵向量分布,並將第二特徵向量分布(即各第四句子之該等特徵分數)輸入至特定目的偵測模型134,以產生對應各第四句子之一句子分數。處理器15將各第四句子之句子分數相加後除以第四文章之該等第四句子之一句子數量,以得到對應第四文章A4之一文章分數,並根據文章分數判斷第四文章A4符合第二特定目的,如圖8所示。
此外,於其他實施例中,處理器15更進一步以加權計算方式,判斷第四文章A4之特定目的。具體而言,權重值係與文章拆解後之句子數量相關,處理器15將第四文章A4之文章分數乘上句子數量對應之一權重值,以得到第四文章A4之一加權文章分數,並根據加權文章分數判斷第四文章A4符合第二特定目的。
本發明第五實施例係描述一偵測文章目的之方法,其流程圖如圖9所示。偵測文章目的之方法用於一偵測文章目的之裝置,例如:前述實施例之偵測文章目的之裝置1。偵測文章目的之方法包含之步驟說明如下。
首先,於步驟S902中,接收第一文章。於步驟S904中,將第一文章拆解為複數第一句子。接著,於步驟S906中,將該等第一句子輸入至特徵辨別模型,以產生對應各第一句子之第一特徵向量分布,以及於步驟S908中,將第一文章中該等第一句子之該等第一特徵向量分布輸入至特定目的偵測模型,以產生第一文章之向量分布相似度。當向量分布相似度大於一第一臨界值時,判斷第一文章符合一第一特定目的。第一特徵向量分布包含有複數個特徵向量,其中各該特徵向量對應至一特徵,該特徵係為含武斷性、含情緒性、含推論性、含呼籲性、含親身見證、含鼓吹分享其中之一。
於其他實施例中,偵測文章目的之方法更將第一文章中該等第一句子之該等第一特徵向量分布輸入至特定目的偵測模型,以產生該第一文章之一文章分數。當文章分數大於一第二臨界值時,判斷第一文章符合一第一特定目的。
於其他實施例中,偵測文章目的之方法更透過一顯示介面顯示該等第一句子、各第一句子對應之一特徵以及文章分數。特徵係各第一特徵向量分布的複數個特徵向量中其向量值為最大的特徵。
第六實施例流程如圖10所示。在此實施例中,生成特徵辨別模型之方法包含步驟S1002,接收複數第二文章。於步驟S1004中,基於分析規則,將各第二文章拆解為複數第二句子。於步驟S1006中,基於分析規則,標記各第二文章中之各第二句子對應之一特徵。於步驟S1008中,將已標記之該等第二句子及其對應之特徵輸入至第一分類模型,以訓練並生成特徵辨別模型。
第七實施例流程如圖11所示。在此實施例中,生成特定目的偵測模型之方法包含步驟S1102,接收複數第三文章。於步驟S1104中,基於分析規則,將各第三文章拆解為複數第三句子。於步驟S1106中,將各第三文章之該等第三句子輸入至特徵辨別模型,以產生對應各第三句子之一第二特徵向量分布。於步驟S1108中,標記各第三文章是否符合一第二特定目的。於步驟S1110中,將各第三文章之各第三句子之第二特徵向量分布以及已標記之該等第三文章輸入至一第二分類模型,以訓練並生成特定目的偵測模型,其流程如圖11所示。
於其他實施例中,生成特定目的偵測模型之方法包含將各第三文章之該等第三句子輸入至特徵辨別模型,以產生對應各第三句子之複數特徵分數,選擇各第三句子之該等特徵分數中之一最大值作為各第三句子的一代表特徵分數,以及將各第三句子之該代表特徵分數及代表特徵分數對應之一特徵輸入至第二分類模型,以訓練並生成特定目的偵測模型。
第七實施例的另一流程如圖12所示。在此實施例中,生成特定目的偵測模型之方法包含步驟S1102,接收複數第三文章。於步驟S1104中,基於分析規則,將各第三文章拆解為複數第三句子。於步驟S1202中,將各第三文章之該等第三句子輸入至特徵辨別模型,以產生對應各第三句子之複數特徵分數。於步驟S1108中,標記各第三文章中是否符合一第二特定目的。於步驟S1204中,將各第三文章之各第三句子之該等特徵分數及已標記之該等第三文章輸入至一第二分類模型,以訓練並生成特定目的偵測模型。
第八實施例流程如圖13所示。在此實施例中,生成特徵辨別模型及特定目的偵測模型後,偵測文章目的之方法更包含步驟S1302接收一第四文章。於步驟S1304中,基於分析規則,將第四文章拆解為複數第四句子。於步驟S1306中,將第四文章之該等第四句子輸入至特徵辨別模型,以產生對應各第四句子之複數特徵分數。各第四句子之該等特徵分數組成第四文章之一第二特徵向量分布。於步驟S1308中,將第二特徵向量分布輸入至特定目的偵測模型,以產生對應各第四句子之一句子分數。於步驟S1310中,將各第四句子之該句子分數相加後除以第四文章之該等第四句子之一句子數量,以得到對應第四文章之一文章分數。於步驟S1312中,根據文章分數判斷第四文章符合第二特定目的。
於其他實施例中,偵測文章目的之方法更包含將第四文章之文章分數乘上句子數量對應之一權重值,以得到第四文章之一加權文章分數,以及根據加權文章分數判斷第四文章符合第二特定目的。
除了上述步驟,本發明之偵測文章目的之方法亦能執行在所有前述實施例中所闡述之所有操作並具有所有對應之功能,所屬技術領域具有通常知識者可直接瞭解此實施例如何基於所有前述實施例執行此等操作及具有該等功能,故不贅述。
綜上所述,本發明之文章目的偵測機制透過特徵辨別模型將文章中之句子映射到向量空間,以及透過特定目的偵測模型判斷文章於向量空間中的分布是否與具有特定目的之文章於向量中間中之分布相似,以判斷文章是否具有特定目的或判斷文章對應之特定目的為合。據此,本發明之文章目的偵測機制能快速的判斷文章之目的,不僅可降低人力判斷的需求,更可大幅節省判斷文章目的之時間。
上述之實施例僅用來例舉本發明之實施態樣,以及闡釋本發明之技術特徵,並非用來限制本發明之保護範疇。任何熟悉此技術者可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍,本發明之權利保護範圍應以申請專利範圍為準。
1:偵測文章目的之裝置
11:收發器
13:儲存器
15:處理器
132:特徵辨別模型
134:特定目的偵測模型
CM1:第一分類模型
CM2:第二分類模型
A1:第一文章
A21、A22、A23、A2n:第二文章
A31、A32、A33、A3m:第三文章
A4:第四文章
S11~S18、S1h:第一句子
S211、S212、S21p、S221、S222、S22q、S2n1、S2n2、S2nr:第二句子
S311、S312、31i、S321、S322、S32j、S3m1、S3m2、S3mk:第三句子
S41、S42、S43、S4t:第四句子
VS11、VS12、VS13、VS1h:第一特徵向量分布
VS211、VS212、VS21i、VS221、VS222、VS22j、VS2m1、VS2m2、VS2mk:第二特徵向量分布
S902、S904、S906、S908:步驟
S1002、S1004、S1006、S1008:步驟
S1102、S1104、S1106、S1108、S1110:步驟
S1202、S1204:步驟
S1302、S1304、S1306、S1308、S1310、S1312:步驟
圖1為本發明之偵測文章目的之裝置1之示意圖;
圖2描繪本發明偵測文章目的之第一實施例流程示意圖;
圖3描繪本發明偵測文章目的之文章拆解句子示意圖;
圖4描繪本發明第二實施例訓練特徵辨別模型之實施流程示意圖;
圖5描繪本發明第三實施例訓練特定目的偵測模型之實施流程示意圖;
圖6描繪本發明第三實施例訓練特定目的偵測模型之另一實施流程示意圖;
圖7描繪本發明第四實施例訓練特定目的偵測模型之實施流程示意圖;
圖8描繪本發明第四實施例訓練特定目的偵測模型之另一實施流程示意圖;
圖9係本發明第五實施例之偵測文章目的之方法之流程圖;
圖10係本發明第六實施例生成特徵辨別模型之方法之流程圖;
圖11係本發明第七實施例訓練並生成特定目的偵測模型之方法之流程圖;
圖12係本發明第七實施例訓練並生成特定目的偵測模型之另一方法之流程圖;以及
圖13係本發明第八實施例之偵測文章目的之方法之流程圖。
A1:第一文章
S11~S13、S1h:第一句子
VS11、VS12、VS13、VS1h:第一特徵向量分布
15:處理器
132:特徵辨別模型
134:特定目的偵測模型
Claims (20)
- 一種偵測文章目的之裝置,包含:一收發器;一儲存器,用以儲存一特徵辨別模型及一特定目的偵測模型;以及一處理器,電性連接至該儲存器及該收發器,並用以執行下列操作:透過該收發器接收一第一文章;將該第一文章拆解為複數第一句子;將該等第一句子輸入至該特徵辨別模型,以產生對應各該第一句子之一第一特徵向量分布;將該第一文章中該等第一句子之該等第一特徵向量分布輸入至該特定目的偵測模型,以和一具有第一特定目的之文章的特徵向量分布比較,來產生該第一文章之一向量分布相似度;以及當該向量分布相似度大於一第一臨界值時,判斷該第一文章符合一第一特定目的。
- 如請求項1所述之裝置,其中該處理器更用以執行下列操作:將該第一文章中該等第一句子之該等第一特徵向量分布輸入至該特定目的偵測模型,以產生該第一文章之一文章分數;以及 當該文章分數大於一第二臨界值時,判斷該第一文章符合一第一特定目的。
- 如請求項2所述之裝置,更包含一顯示介面,該處理器更用以執行下列操作:透過該顯示介面顯示該等第一句子、各該第一句子對應之一特徵以及該文章分數,其中該特徵係各該第一特徵向量分布的複數個特徵向量中其向量值為最大的特徵。
- 如請求項1所述之裝置,其中各該第一特徵向量分布包含有複數個特徵向量,其中各該特徵向量對應至一特徵,該特徵係為含武斷性、含情緒性、含推論性、含呼籲性、含親身見證、含鼓吹分享其中之一。
- 如請求項1所述之裝置,其中該儲存器更用以儲存一第一分類模型,該處理器更用以執行下列操作:透過該收發器接收複數第二文章;基於一分析規則,將各該第二文章拆解為複數第二句子;基於該分析規則,標記各該第二文章中之各該第二句子對應之一特徵;以及將已標記之該等第二句子及其對應之該特徵輸入至該第一分類模型,以訓練並生成該特徵辨別模型。
- 如請求項5所述之裝置,其中該儲存器更用以儲存一第二分類模型,該處理器更用以執行下列操作: 透過該收發器接收複數第三文章;基於該分析規則,將各該第三文章拆解為複數第三句子;將各該第三文章之該等第三句子輸入至該特徵辨別模型,以產生對應各該第三句子之一第二特徵向量分布;標記各該第三文章是否符合一第二特定目的;以及將各該第三文章之各該第三句子之該第二特徵向量分布,以及已標記之該等第三文章輸入至該第二分類模型,以訓練並生成該特定目的偵測模型。
- 如請求項6所述之裝置,其中該處理器更用以執行下列操作:將各該第三文章之該等第三句子輸入至該特徵辨別模型,以產生對應各該第三句子之複數特徵分數;選擇各該第三句子之該等特徵分數中之一最大值作為各該第三句子的一代表特徵分數;以及將各該第三句子之該代表特徵分數及該代表特徵分數對應之一特徵輸入至該第二分類模型,以訓練並生成該特定目的偵測模型。
- 如請求項5所述之裝置,其中該儲存器更用以儲存一第二分類模型,該處理器更用以執行下列操作:透過該收發器接收複數第三文章;基於該分析規則,將各該第三文章拆解為複數第三句 子;將各該第三文章之該等第三句子輸入至該特徵辨別模型,以產生對應各該第三句子之複數特徵分數;標記各該第三文章中是否符合一第二特定目的;以及將各該第三文章之各該第三句子之該等特徵分數及已標記之該等第三文章輸入至該第二分類模型,以訓練並生成該特定目的偵測模型。
- 如請求項8所述之裝置,其中該處理器更用以執行下列操作:透過該收發器接收一第四文章;基於該分析規則,將該第四文章拆解為複數第四句子;將該第四文章之該等第四句子輸入至該特徵辨別模型,以產生對應各該第四句子之複數特徵分數,各該第四句子之該等特徵分數組成該第四文章之一第二特徵向量分布;將該第二特徵向量分布輸入至該特定目的偵測模型,以產生對應各該第四句子之一句子分數;將各該第四句子之該句子分數相加後除以該第四文章之該等第四句子之一句子數量,以得到對應該第四文章之一文章分數;以及根據該文章分數判斷該第四文章符合該第二特定目的。
- 如請求項9所述之裝置,其中該處理器更用以執行下列操作:將該第四文章之該文章分數乘上該句子數量對應之一權重值,以得到該第四文章之一加權文章分數;以及根據該加權文章分數判斷該第四文章符合該第二特定目的。
- 一種偵測文章目的之方法,包含下列步驟:接收一第一文章;將該第一文章拆解為複數第一句子;將該等第一句子輸入至該特徵辨別模型,以產生對應各該第一句子之一第一特徵向量分布;將該第一文章中該等第一句子之該等第一特徵向量分布輸入至該特定目的偵測模型,以和一具有第一特定目的之文章的特徵向量分布比較,來產生該第一文章之一向量分布相似度;以及當該向量分布相似度大於一第一臨界值時,判斷該第一文章符合一第一特定目的。
- 如請求項11所述之方法,更包含下列步驟:將該第一文章中該等第一句子之該等第一特徵向量分布輸入至該特定目的偵測模型,以產生該第一文章之一文章分數;以及當該文章分數大於一第二臨界值時,判斷該第一文章 符合一第一特定目的。
- 如請求項12所述之方法,更包含下列步驟:透過一顯示介面顯示該等第一句子、各該第一句子對應之一特徵以及該文章分數,其中該特徵係各該第一特徵向量分布的複數個特徵向量中其向量值為最大的特徵。
- 如請求項11所述之方法,其中各該第一特徵向量分布包含有複數個特徵向量,其中各該特徵向量對應至一特徵,該特徵係為含武斷性、含情緒性、含推論性、含呼籲性、含親身見證、含鼓吹分享其中之一。
- 如請求項11所述之方法,更包含下列步驟:接收複數第二文章;基於一分析規則,將各該第二文章拆解為複數第二句子;基於該分析規則,標記各該第二文章中之各該第二句子對應之一特徵;以及將已標記之該等第二句子及其對應之該特徵輸入至該第一分類模型,以訓練並生成該特徵辨別模型。
- 如請求項15所述之方法,更包含下列步驟:接收複數第三文章;基於該分析規則,將各該第三文章拆解為複數第三句子;將各該第三文章之該等第三句子輸入至該特徵辨別模 型,以產生對應各該第三句子之一第二特徵向量分布;標記各該第三文章是否符合一第二特定目的;以及將各該第三文章之各該第三句子之該第二特徵向量分布,以及已標記之該等第三文章輸入至一第二分類模型,以訓練並生成該特定目的偵測模型。
- 如請求項16所述之方法,更包含下列步驟:將各該第三文章之該等第三句子輸入至該特徵辨別模型,以產生對應各該第三句子之複數特徵分數;選擇各該第三句子之該等特徵分數中之一最大值作為各該第三句子的一代表特徵分數;以及將各該第三句子之該代表特徵分數及該代表特徵分數對應之一特徵輸入至該第二分類模型,以訓練並生成該特定目的偵測模型。
- 如請求項15所述之方法,其更包含下列步驟:接收複數第三文章;基於該分析規則,將各該第三文章拆解為複數第三句子;將各該第三文章之該等第三句子輸入至該特徵辨別模型,以產生對應各該第三句子之複數特徵分數;標記各該第三文章中是否符合一第二特定目的;以及將各該第三文章之各該第三句子之該等特徵分數及已標記之該等第三文章輸入至一第二分類模型,以訓練並生 成該特定目的偵測模型。
- 如請求項18所述之方法,更包含下列步驟:接收一第四文章;基於該分析規則,將該第四文章拆解為複數第四句子;將該第四文章之該等第四句子輸入至該特徵辨別模型,以產生對應各該第四句子之複數特徵分數,各該第四句子之該等特徵分數組成該第四文章之一第二特徵向量分布;將該第二特徵向量分布輸入至該特定目的偵測模型,以產生對應各該第四句子之一句子分數;將各該第四句子之該句子分數相加後除以該第四文章之該等第四句子之一句子數量,以得到對應該第四文章之一文章分數;以及根據該文章分數判斷該第四文章符合該第二特定目的。
- 如請求項19所述之方法,更包含下列步驟:將該第四文章之該文章分數乘上該句子數量對應之一權重值,以得到該第四文章之一加權文章分數;以及根據該加權文章分數判斷該第四文章符合該第二特定目的。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109138319A TWI778442B (zh) | 2020-11-03 | 2020-11-03 | 偵測文章目的之裝置及方法 |
CN202011311580.8A CN114443832A (zh) | 2020-11-03 | 2020-11-20 | 侦测文章目的的装置及方法 |
US17/106,171 US11386305B2 (en) | 2020-11-03 | 2020-11-29 | Device and method for detecting purpose of article |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109138319A TWI778442B (zh) | 2020-11-03 | 2020-11-03 | 偵測文章目的之裝置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202219817A TW202219817A (zh) | 2022-05-16 |
TWI778442B true TWI778442B (zh) | 2022-09-21 |
Family
ID=81361020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109138319A TWI778442B (zh) | 2020-11-03 | 2020-11-03 | 偵測文章目的之裝置及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11386305B2 (zh) |
CN (1) | CN114443832A (zh) |
TW (1) | TWI778442B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753553B (zh) * | 2020-07-06 | 2022-07-05 | 北京世纪好未来教育科技有限公司 | 语句类型识别方法、装置、电子设备和存储介质 |
US20230029058A1 (en) * | 2021-07-26 | 2023-01-26 | Microsoft Technology Licensing, Llc | Computing system for news aggregation |
US12112135B2 (en) * | 2021-09-29 | 2024-10-08 | International Business Machines Corporation | Question answering information completion using machine reading comprehension-based process |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063472A (zh) * | 2014-06-30 | 2014-09-24 | 电子科技大学 | 一种优化训练样本集的knn文本分类方法 |
CN107145516A (zh) * | 2017-04-07 | 2017-09-08 | 北京捷通华声科技股份有限公司 | 一种文本聚类方法及系统 |
CN111368075A (zh) * | 2020-02-27 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文章质量预测方法、装置、电子设备及存储介质 |
TW202034184A (zh) * | 2019-02-28 | 2020-09-16 | 網資科技股份有限公司 | 以文找文搜尋方法及其系統 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10275452B2 (en) * | 2017-05-12 | 2019-04-30 | International Business Machines Corporation | Automatic, unsupervised paraphrase detection |
US11003856B2 (en) * | 2018-02-22 | 2021-05-11 | Google Llc | Processing text using neural networks |
US11784845B2 (en) * | 2018-09-28 | 2023-10-10 | Qualcomm Incorporated | System and method for disambiguation of Internet-of-Things devices |
US20210004690A1 (en) * | 2019-07-01 | 2021-01-07 | Siemens Aktiengesellschaft | Method of and system for multi-view and multi-source transfers in neural topic modelling |
US11163947B2 (en) * | 2019-07-30 | 2021-11-02 | Imrsv Data Labs Inc. | Methods and systems for multi-label classification of text data |
WO2021076606A1 (en) * | 2019-10-14 | 2021-04-22 | Stacks LLC | Conceptual, contextual, and semantic-based research system and method |
US11620515B2 (en) * | 2019-11-07 | 2023-04-04 | Salesforce.Com, Inc. | Multi-task knowledge distillation for language model |
US11494647B2 (en) * | 2019-12-06 | 2022-11-08 | Adobe Inc. | Slot filling with contextual information |
US11126647B2 (en) * | 2019-12-13 | 2021-09-21 | CS Disco, Inc. | System and method for hierarchically organizing documents based on document portions |
US11625540B2 (en) * | 2020-02-28 | 2023-04-11 | Vinal AI Application and Research Joint Stock Co | Encoder, system and method for metaphor detection in natural language processing |
US11526678B2 (en) * | 2020-05-14 | 2022-12-13 | Naver Corporation | Attention over common-sense network for natural language inference |
US20220067051A1 (en) * | 2020-08-28 | 2022-03-03 | International Business Machines Corporation | Word embedding quality assessment through asymmetry |
-
2020
- 2020-11-03 TW TW109138319A patent/TWI778442B/zh active
- 2020-11-20 CN CN202011311580.8A patent/CN114443832A/zh active Pending
- 2020-11-29 US US17/106,171 patent/US11386305B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063472A (zh) * | 2014-06-30 | 2014-09-24 | 电子科技大学 | 一种优化训练样本集的knn文本分类方法 |
CN107145516A (zh) * | 2017-04-07 | 2017-09-08 | 北京捷通华声科技股份有限公司 | 一种文本聚类方法及系统 |
TW202034184A (zh) * | 2019-02-28 | 2020-09-16 | 網資科技股份有限公司 | 以文找文搜尋方法及其系統 |
CN111368075A (zh) * | 2020-02-27 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文章质量预测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114443832A (zh) | 2022-05-06 |
US20220138508A1 (en) | 2022-05-05 |
US11386305B2 (en) | 2022-07-12 |
TW202219817A (zh) | 2022-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI778442B (zh) | 偵測文章目的之裝置及方法 | |
CN109033305A (zh) | 问题回答方法、设备及计算机可读存储介质 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN111708888B (zh) | 基于人工智能的分类方法、装置、终端和存储介质 | |
CN110096575B (zh) | 面向微博用户的心理画像方法 | |
WO2013059487A1 (en) | System and methods for automatically detecting deceptive content | |
CN116975299B (zh) | 文本数据的判别方法、装置、设备及介质 | |
US20060260624A1 (en) | Method, program, and system for automatic profiling of entities | |
US20230082729A1 (en) | Document control item | |
CN109472022A (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
CN111897955A (zh) | 基于编解码的评语生成方法、装置、设备和存储介质 | |
CN114817541A (zh) | 基于双重情感感知的谣言检测方法及装置 | |
CN109660621A (zh) | 一种内容推送方法及服务设备 | |
Pandey et al. | Interview bot with automatic question generation and answer evaluation | |
Gidhe et al. | Sarcasm detection of non# tagged statements using MLP-BP | |
CN116798414A (zh) | 通话语音分类方法、装置、计算机设备和存储介质 | |
CN111078874A (zh) | 基于随机子空间的决策树分类的对外汉语难度评估方法 | |
CN110717029A (zh) | 一种信息处理方法和系统 | |
CN115357711A (zh) | 一种方面级情感分析方法、装置、电子设备及存储介质 | |
CN113505596A (zh) | 话题切换标记方法、装置及计算机设备 | |
Sierra et al. | A case study in authorship attribution: The Mondrigo | |
Prajapati et al. | Detection of AI-Generated Text Using Large Language Model | |
CN113298365B (zh) | 一种基于lstm的文化附加值评估方法 | |
CN114579740B (zh) | 文本分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent |