TWI813028B - 文字資料之篩選關聯方法及系統 - Google Patents
文字資料之篩選關聯方法及系統 Download PDFInfo
- Publication number
- TWI813028B TWI813028B TW110135727A TW110135727A TWI813028B TW I813028 B TWI813028 B TW I813028B TW 110135727 A TW110135727 A TW 110135727A TW 110135727 A TW110135727 A TW 110135727A TW I813028 B TWI813028 B TW I813028B
- Authority
- TW
- Taiwan
- Prior art keywords
- text data
- information
- comparison
- segmentation
- processing
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012216 screening Methods 0.000 title claims abstract description 55
- 230000011218 segmentation Effects 0.000 claims abstract description 153
- 238000012545 processing Methods 0.000 claims abstract description 111
- 230000010354 integration Effects 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims description 47
- 238000004458 analytical method Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 9
- 230000008676 import Effects 0.000 claims description 4
- 230000000052 comparative effect Effects 0.000 claims 3
- 239000000463 material Substances 0.000 description 16
- 238000001514 detection method Methods 0.000 description 10
- 238000011160 research Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100340271 Caenorhabditis elegans ida-1 gene Proteins 0.000 description 1
- 101100297738 Danio rerio plekho1a gene Proteins 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Abstract
一種文字資料之篩選關聯方法及系統,可在對多份對照文字資料(例如論文等)進行斷詞處理、篩選處理、關聯性處理及整合處理後,以前後相鄰的篩選斷詞為基礎而形成關聯性索引檔,藉以快速整理出對照文字資料的簡要資訊,還可依該關聯性索引檔進一步分析一待比對文字資料的原創性。
Description
本發明係關於一種文字資料之篩選關聯方法及系統;特別運用一種以前後相鄰的篩選斷詞為基礎,可快速整理及分析文字資料,並可以對照文字資料分析待比對文字資料的原創性的文字資料之篩選關聯方法及系統。
近年來,論文抄襲事件層出不窮,社會大眾開始對論文的原創性產生疑慮,雖然目前市面上已有許多論文、文章抄襲比對的偵測系統,但這些系統多是在對發表研究論文的著作權人採取懷疑態度的情況下進行抄襲比對偵測,對著作權人是不公平的。此外,部分單位甚至要求著作權人必須先提交抄襲比對結果,並要求相似程度在一定比例下,才能讓論文著作權人逕行發表,因此著作權人需要先用此方法證明自己文件未抄襲他人,此種做法對著作權人是採取不信任之態度,非常不恰當。發明人認為應反向思考、正向針對著作權人的論文發表提供檢測原創性的工具,為其論文發表之參考,發表單位並可以制定原創性比例作為論文品質管理之參考依據。
關於抄襲比對系統,近年來,在學術研究中,論文抄襲的議題已愈發嚴重,由於該議題持續發燒,抄襲
偵測(plagiarism Detection)越來越被重視了,抄襲(plagiarism)議題主要分為以下種類:1.毫無修改的複製貼上或片段抄襲(copy/paste/clone plagiarism)。2.段落改寫(Paraphrasing plagiarism):透過抄襲段落、切換詞彙或是改寫句子結構或語法風格。3.隱喻抄襲(Metaphor plagiarism):透過清晰,更好地表達別人的想法方式。4.想法抄襲(Idea plagiarism):想法或解決方案是從其他來源借來的,當作自己的研究論文。5.自我抄襲(Self/recycled plagiarism):用自己發表過的文章,當作新的研究結果再發表一次。6.引用抄襲:引用適當來源的參考文獻,但是其描述跟原始內容的用詞跟句子,甚至結構語法相似。
在這些種類的抄襲中,以「毫無修改的複製貼上或片段抄襲」、「段落改寫」最受大家關注,此兩種抄襲方式可透過比對該論文與被抄襲文獻資料,即可明顯看出抄襲行為,故該兩者最令人詬病。
在1995年就有學者進行研究,該論文在數位文件上進行複製偵測,而隨著自然語言處理以及硬體設備的演進之後,近年來也有很多不同的方法推陳出新,而在抄襲偵測領域上,主要分為數種方法:1.基於字串的方法(Character-Based Methods):此方法為論文抄襲偵測最大宗的方法,待比對論文跟現有論文資料庫進行比較,透過尋找符合字串,進而判斷出論文抄襲的比例,也因此可以告訴系統使用者,抄襲段落以及語句。Shrestha以及Solorio在2013年發表,透過將停用詞、命名實體以及所有詞彙以
n-grams的方式,透過考慮該偵測論文與文本資料庫文章是否有n-gram符合程度過高的文章,進而偵測抄襲。Nguyen等人在2016年提出,透過抄襲檢測,偵測越南文的文章是否抄襲,該方法透過子字串n-gram的方法。此類的方法有以下三種缺陷:一、若該論文出現論文資料庫沒有的文字時,會導致比對不出相似文句,因而偵測不出抄襲論文;二、使用者可以透過更改詞彙或是交換詞彙順序,進而避開此種方法偵測方式,導致偵測不出相似詞句;三、由於此種方法是比較字串,若輸入字串長度過長,容易導致稀釋輸入論文,進而降低抄襲相似度。2.基於向量的方法(Vector-Based Methods):此方法透過萃取詞彙和語法功能,並將其分類為向量而不是字符串。這個的相似度通常都是用雅卡爾係數(Jaccard coefficient)、權等骰子係數(Dice coefficient)、重疊係數(Overlap coefficient)或餘弦相似度(Cosine Similarity)等方法來衡量論文以及論文之間的相似程度。Mahdavi等人發表,透過向量空間模型偵測波斯文章是否抄襲,透過將文章轉為TF-IDF的方法,比較其中的文章相似度。Jiffriya等人在2013年提出,將文章轉為向量再透過K-means演算法進行分群,分群完後,將文章基於tri-gram進行抄襲偵測。此種方法的缺點,是透過詞頻來衡量文章中的一個詞的重要性,有時候重要的詞出現的次數可能不夠多,會導致比對出的結果差,而此種計算無法體現位置資訊與詞在上下文的重要性。3.基於語法的方法(Syntax-Based Methods):此種方法透過使用句法特
徵像是詞性、句子的相依樹以及字在不同的陳述來偵測抄襲,使用詞性來呈現字詞架構並且計算相似度。此種方法可以找到語句結構類似的段落,但是找不到段落改寫、抽換詞彙以及轉換文句結構的抄襲。基於語法的方法有幾種缺陷,一、中文語法相較英文語法複雜許多,若是將我們中文的抄襲系統透過語法的方式來偵測論文抄襲,會導致比對結果極差;二、此種方法透過句法的特徵來偵測抄襲的內容,會導致找到相似句法特徵,但是沒有抄襲的文字,僅句法相同,導致判別錯誤。4.基於語義的方法(Semantic-Based Methods):此方法透過讓系統了解段落語意,將文章轉為向量,可以用來偵測換順序、換主被動,但是該方法不能找到抄襲的段落以及句子。Torres於2009年提出透過建立字典的方式協助進行偵測抄襲,Resnik在1999透過外部的資源協助使用語意來偵測抄襲。透過語意的方式解決偵測抄襲會找到相似語意的論文,但是無法得知抄襲的段落及詞彙,沒辦法進行驗證抄襲。
發明人有鑑於此,乃苦思細索,積極研究,加以多年從事相關產品研究之經驗,並經不斷試驗及改良,終於發展出本發明。
本發明的目的在於提供一種可快速整理出文字資料的簡要資訊的文字資料之篩選關聯方法。
本發明達成上述目的之方法包括下列步驟:S11.以一斷詞詞彙庫為基礎,對一文字資料進行斷詞處理
以產生一斷詞資訊;S12.對該斷詞資訊進行篩選處理以產生一篩選斷詞資訊;該篩選斷詞資訊具有二個以上的篩選斷詞;S13.對該篩選斷詞資訊進行關聯性處理以產生多個序列資訊;該等序列資訊分別由二個以上的前後相鄰的篩選斷詞所組成。
較佳者,在進行該步驟S11之前,可先進行一步驟S110;該步驟S110為:收集該文字資料中的作者自訂關鍵詞以建立一專業關鍵詞詞彙庫,並將該專業關鍵詞詞彙庫匯入該斷詞詞彙庫,藉以獲得更貼近文字資料之本意的序列資訊。
較佳者,在該步驟S12中,在篩選處理以後,可先進行同義字詞處理,再進行後續步驟;該同義字詞處理為:對該篩選處理後的篩選斷詞進行文字同義檢查,將同義字、同義詞轉換成標準文字。
本發明的又一目的在於提供一種可快速整理出文字資料的簡要資訊的文字資料之篩選關聯系統。
本發明達成上述目的之結構包括:一儲存模組,用於儲存一斷詞詞彙庫;一斷詞處理模組,用於對一文字資料進行斷詞處理以產生一斷詞資訊;一篩選處理模組,用於並對該斷詞資訊進行篩選處理以產生一篩選斷詞資訊;一關聯性處理模組,用於對該篩選斷詞資訊進行關聯性處理以產生多個序列資訊。
本發明的再一目的在於提供一種,可快速整理出多份對照文字資料的簡要資訊,並將各對照文字資料的
簡要資訊整合在一起,進而可方便分析待比對文字資料的原創性的文字資料之篩選關聯方法。
本發明達成上述目的之方法包括下列步驟:S21.以二份以上的對照文字資料建立一對照集合資訊;S22.以一斷詞詞彙庫為基礎,對該等對照文字資料進行斷詞處理以分別產生一對照斷詞資訊;S23.對該等對照斷詞資訊進行篩選處理以分別產生一對照篩選斷詞資訊;該等對照篩選斷詞資訊分別具有二個以上的篩選斷詞;S24.對該等對照篩選斷詞資訊進行關聯性處理以分別產生多個對照序列資訊;該等對照序列資訊分別由二個以上的前後相鄰的篩選斷詞所組成;S25.將全部的對照序列資訊整合一起建立一關聯性索引檔。
較佳者,在進行該步驟S22之前,先進行一步驟S220;該步驟S220為:收集該等對照文字資料及該待比對文字資料中的一部分或全部的作者自訂關鍵詞以建立一專業關鍵詞詞彙庫,並將該專業關鍵詞詞彙庫匯入該斷詞詞彙庫,藉以獲得更貼近文字資料之本意的關聯性索引檔。
較佳者,在該步驟S25以後,進行步驟S26~S29;步驟S26為:對一待比對文字資料進行斷詞處理、篩選處理及關聯性處理以產生多個待比對序列資訊;步驟S27為:以該等待比對序列資訊分別與該關聯性索引檔進行比對,找出具有與該等待比對序列資訊相同的對照序列資訊的各個對照文字資料;步驟S28為:建立交集序列,
將所有與待比對序列資訊相同的對照序列資訊排列順序;步驟S29為:分析每一份與待比對文字資料具有相同序列資訊的對照文字資料,藉以分析待比對文字資料的原創性。
較佳者,在該步驟S23中,在篩選處理以後,可先進行同義字詞處理,再進行後續步驟,可增加關聯性比對效果。
本發明的又一目的在於提供一種,可快速整理出多份對照文字資料的簡要資訊,並將各對照文字資料的簡要資訊整合在一起,進而可方便分析待比對文字資料的原創性的文字資料之篩選關聯系統。
本發明達成上述目的之結構包括:一儲存模組,用於儲存一斷詞詞彙庫及一對照集合資訊;
一斷詞處理模組,用於對該對照集合資訊的各個對照文字資料進行斷詞處理以分別產生一對照斷詞資訊;一篩選處理模組,用於並對該等對照斷詞資訊進行篩選處理以分別產生一對照篩選斷詞資訊;一關聯性處理模組,用於對該等對照篩選斷詞資訊進行關聯性處理以分別產生多個對照序列資訊;一整合模組,用於將全部的對照序列資訊整合一起建立一關聯性索引檔。
較佳者,該斷詞處理模組、篩選處理模組及關聯性處理模組對一待比對文字資料進行斷詞處理、篩選處理及關聯性處理以產生多個待比對序列資訊,且該文字資料之篩選關聯系統更包括:一比對模組,以該等待比對序
列資訊分別與該關聯性索引檔進行比對,找出具有與該等待比對序列資訊相同的對照序列資訊的各個對照文字資料;一交集模組,將所有與待比對序列資訊相同的對照序列資訊排列順序,藉以建立交集序列;一分析模組,分析每一份與待比對文字資料具有相同序列資訊的對照文字資料。
本發明為達到上述及其他目的,其所採取之技術手段、元件及其功效,茲採一較佳實施例配合圖示說明如下。
100、100a:文字資料之篩選關聯系統
1、1a:儲存模組
2、2a:斷詞處理模組
3、3a:篩選處理模組
4、4a:關聯性處理模組
5a:整合模組
6a:比對模組
7a:交集模組
8a:分析模組
9、9a:斷詞系統
[圖1]為本發明的第一實施例的文字資料之篩選關聯方法的流程圖。
[圖2]為本發明的可自動執行第一實施例之方法的具體實施例之一的方塊圖。
[圖3]為本發明的第二實施例的文字資料之篩選關聯方法的流程圖。
[圖4]為本發明的可自動執行第二實施例之方法的具體實施例之一的方塊圖。
圖1~2為本發明的第一實施例。如圖1所示,本發明文字資料之篩選關聯方法包括下列步驟:S11.以一斷詞詞彙庫為基礎,對一文字資料進行斷詞處理以產生一斷詞資訊;S12.對該斷詞資訊進行篩選處理以產生一篩選斷詞資訊;該篩選斷詞資訊具有二個以上的篩選斷詞;S13.對該篩選斷詞資訊進行關聯性處理以產生多個序列資
訊;該等序列資訊分別由二個以上的前後相鄰的篩選斷詞所組成;藉此方法,可快速整理出文字資料的簡要資訊。下文將詳予說明。
步驟S11為以一斷詞詞彙庫為基礎,對一文字資料進行斷詞處理以產生一斷詞資訊。
文字資料可以是各種已經公開的文字資料,例如博碩士論文學術論文、一般文章或句子等。此外,針對例如論文等大篇幅的文字資料而言,可以直接將論文視為一份文字資料,也可以在將論文分段處理以後,形成多份文字資料。分段處理的方式很多,茲舉例說明如下。在進行分段處理時,能以例如換行符號、連續空格、驚嘆號(!)、分號(:)、波浪號(~)、問號(?)、逗號(,)、句號(。)…等符號為基礎,將一份文字資料以其長度不少於適當長度以上為分界點,分成多份文字資料。在進行分段處理時,亦能以文字資料的各個章、節為分段基礎,將一份文字資料分成多份文字資料。在進行分段處理時,還能配合斷詞詞彙庫一起使用,以例如十、二十個…等預定數量的篩選斷詞為一段的方式為基礎,進而將一份文字資料分成多份文字資料。
斷詞處理是依據斷詞詞彙庫中所記載的多個詞將文字資料轉變成斷詞資訊。斷詞詞彙庫的多個詞可依據詞性進行分類,例如以普通名詞(Na)、外文(FW)、動作及物動詞(VC)、動作不及物動詞(VA)、地方詞(Nc)、專有名詞(Nb)、狀態使動動詞(VHC)、冒號
(COLONCATEGORY)…等各種詞性分類。
步驟S12為對該斷詞資訊進行篩選處理以產生一篩選斷詞資訊;該篩選斷詞資訊具有二個以上的篩選斷詞。篩選處理是將斷詞資訊中的部分具有意義的詞性保留,並去掉其他詞性,例如保留普通名詞(Na)、外文(FW)、動作及物動詞(VC)、動作不及物動詞(VA)、地方詞(Nc)、專有名詞(Nb)、狀態使動動詞(VHC)…等。所有在篩選處理後被保留下的詞統稱為篩選斷詞。
步驟S13對該篩選斷詞資訊進行關聯性處理以產生多個序列資訊;該等序列資訊分別由二個以上的前後相鄰的篩選斷詞所組成。透過關聯性處理將二個以上的前後相鄰的篩選斷詞組合在一起,能在一定程度上區分同領域但技術特徵不同的文字資料,特別是可區分關鍵詞大部分相同的文字資料間之差異。
本發明的第一實施例是一種快速整理比關鍵詞更貼近文字資料之本意的篩選斷詞資訊,不論是用於分析他人的文字資料還是自己的文字資料,都可達到快速整理出文字資料的簡要資訊的目的,進而可方便對文字資料的分析及利用。
如圖1所示,在進行步驟S11之前,可先進行步驟S110;步驟S110為:收集該文字資料中的作者自訂關鍵詞以建立一專業關鍵詞詞彙庫,並將該專業關鍵詞詞彙庫匯入該斷詞詞彙庫。一般而言,例如論文等文字資料都有作者自訂的關鍵詞,關鍵詞包含有例如專有名稱、科學技
術名稱…等,將這些作者自訂的關鍵詞匯入斷詞詞彙庫後再進行斷詞處理及後續步驟,能藉以獲得更貼近文字資料之本意的序列資訊。
圖2所示為可自動執行第一實施例的文字資料之篩選關聯方法的文字資料之篩選關聯系統的具體實施例之一。如圖2所示,本發明提供一種文字資料之篩選關聯系統100,其中包括:一儲存模組1,用於儲存一斷詞詞彙庫;一斷詞處理模組2,用於對一文字資料進行斷詞處理以產生一斷詞資訊;一篩選處理模組3,用於並對該斷詞資訊進行篩選處理以產生一篩選斷詞資訊;一關聯性處理模組4,用於對該篩選斷詞資訊進行關聯性處理以產生多個序列資訊。儲存模組1、斷詞處理模組2、篩選處理模組3及關聯性處理模組4等可建立於一或多個電腦及/或雲端伺服器中。當文字資料之篩選關聯系統100建立於一雲端伺服器中時,可設有一對應的網頁,使用者在輸入文字資料以後,即可獲得多個序列資訊(圖中未示)。
圖3~4為本發明的第二實施例。如圖3~4所示,本發明文字資料之篩選關聯方法包括下列步驟:S21.以二份以上的對照文字資料建立一對照集合資訊;S22.以一斷詞詞彙庫為基礎,對該等對照文字資料進行斷詞處理以分別產生一對照斷詞資訊;S23.對該等對照斷詞資訊進行篩選處理以分別產生一對照篩選斷詞資訊;該等對照篩選斷詞資訊分別具有二個以上的篩選斷詞;S24.對該等對照篩選斷詞資訊進行關聯性處理以分別產生多個對照序列資
訊;該等對照序列資訊分別由二個以上的前後相鄰的篩選斷詞所組成;S25.將全部的對照序列資訊整合一起建立一關聯性索引檔;藉此方法,可快速整理出多份對照文字資料的簡要資訊,並將各對照文字資料的簡要資訊整合在一起,進而可方便分析待比對文字資料的原創性。
步驟S21為以二份以上的對照文字資料建立一對照集合資訊。對照集合資訊可以包含各種文字資料,例如包含臺灣博碩士論文知識加值系統中的部分或全部論文。此外,在建立對照集合資訊時,可以例如電子類、機械類、10年內文字資料…等不同範圍分別建立不同的照集合資訊。在第二實施例中所述的對照文字資料與待比對文字資料與第一實施例的文字資料相同,都可以是各種已經公開的文字資料,例如博碩士論文、學術論文、一般文章或句子等,其差異在於在第二實施例中需要將待比對文字資料逐一與各對照文字資料比對分析,故有不同名稱以利區分。
步驟S22~S24是分別對對照集合資訊中的每一份對照文字資料進行斷詞處理、篩選處理及關聯性處理,可分別產生對照斷詞資訊、對照篩選斷詞資訊及多個對照序列資訊。
步驟S25為將全部的對照序列資訊整合一起建立一關聯性索引檔。整合建立的關聯性索引檔可方便與待比對文字資料進行比對,進而方便分析待比對文字資料的原創性。
如圖3所示,在進行步驟S22之前,可先進行步驟S220;步驟S220為:收集該等對照文字資料及待比對文字資料中的一部分或全部的作者自訂關鍵詞以建立一專業關鍵詞詞彙庫,並將該專業關鍵詞詞彙庫匯入該斷詞詞彙庫,能藉以獲得更貼近文字資料之本意的關聯性索引檔。此外,專業關鍵詞詞彙庫的整理工作中可以加入去除重複的工作,藉以增加處理效率。
本發明的第二實施例,可快速整理出對照文字資料的簡要資訊,並可進一步將各對照文字資料的簡要資訊整合在一起,藉以方便使用者以待比對文字資料進行比對分析。例如透過下列的步驟S26~S29以分析待比對文字資料的原創性。
步驟S26為對一待比對文字資料進行斷詞處理、篩選處理及關聯性處理以產生多個待比對序列資訊。步驟S22~S24及步驟S26的各處理方式與步驟S11~S13一樣,故產生的對照序列資訊及待比對序列資訊具有相對應的型態,可方便比對。此外,在S12、S23/或S26中,在篩選處理以後,可先進行同義字詞處理,再進行後續步驟。同義字詞處理為:對篩選處理後的篩選斷詞進行文字同義檢查,將部分或全部同義字、同義詞(有些不適合同義字詞處理的特殊詞除外)轉換成標準文字,可增加關聯性比對效果。例如將”冷氣”、”空調”全改成”冷氣”等。另外,對照序列資訊、待比對序列資訊可由二個以上的前後相鄰的篩選斷詞所組成。在對照序列資訊、待比對序列資訊
中,篩選斷詞的數量越多,則該對照序列資訊、待比對序列資訊越容易反映其對應的文字資料的概念,但也可能形成限制太多而找不到與待比對文字資料類似對照文字資料的情況。因此,基本上採用二個前後相鄰的篩選斷詞組成對照序列資訊、待比對序列資訊,而在例如對照集合資訊中的對照文字資料的數量極多的時候,為了加快分析速度,可採用三個或更多的前後相鄰的篩選斷詞組成對照序列資訊、待比對序列資訊。
步驟S27為以該等待比對序列資訊分別與該關聯性索引檔進行比對,分別找出具有與該等待比對序列資訊相同的對照序列資訊的各個對照文字資料。藉由上述的文字資料之篩選關聯方法,可快速分析待比對文字資料與各對照文字資料間之關聯性,進而方便分析待比對文字資料的原創性。此外,關聯性索引檔格式簡便,可方便加入新的對照序列資訊,可克服習用反向資料庫因資料新增需要頻繁系統重整之缺點。
茲以下列範例概述斷詞…等處理的進行方式。各範例的編號僅為便於說明而設,當不能以此限制本發明之意義。步驟S21建立對照集合資訊,可將各個對照文字資料依序編號,例如將編號1的對照文字資料記為ID1。對照集合資訊為儲存ID1,ID2,…,IDn的集合。
步驟S22進行斷詞處理。
步驟S23進行篩選處理,可將各個篩選斷詞依序編號,例如將ID1的第一個被保留的篩選斷詞記為ID1tp1。
步驟S24進行關聯性處理,可將各個對照序列資訊依序編號,例如將ID1的第一個對照序列資訊記為ID1S1。
步驟S25建立關聯性索引檔,各個對照篩選斷詞資訊可視為該關聯性索引檔的索引(即稱Index或Key),並能以該對照篩選斷詞資訊的編號為該關聯性索引檔的資料(Data)。在建立關聯性索引檔時,任何一個對照篩選斷詞資訊都可能與另一個對照篩選斷詞資訊相同(例如ID1S2、ID2S1)。因此,一個索引可對照多個不同的資料,其資料的數量是眾多的,其所儲存的總資料長度是隨著加入更多對照文字資料而增加的。
步驟S26對待比對文字資料進行斷詞…等處理,可將待比對文字資料記為IDx。
步驟S27:使用待比對序列資訊為索引去搜尋,讀取關聯性索引檔中具有相同索引的所有資料。
步驟S28為建立交集序列,可將所有與待比對序列資訊相同的對照序列資訊排列順序(即分類Sorting)。
步驟S29為分析每一份與待比對文字資料具有相同序列資訊的對照文字資料,藉以產生待比對文字資料相對於每一份對照文字資料的原創性分析結果。比對的方法很多,例如利用統計分析方法分析待比對文字資料在對照集合資訊中每一對照文字資料的相似度參考比例,可用一般習用的如Dice Coefficient法則等理論。此外,亦可以簡單易懂概括性的方法進行簡易分析。
藉由上述的文字資料之篩選關聯方法,可快速分析待比對文字資料與各對照文字資料間之關聯性,並可進一步分析待比對文字資料的原創性。
圖4所示為可自動執行第二實施例的文字資料之篩選關聯方法的文字資料之篩選關聯系統的具體實施例之一。如圖4所示,本發明提供一種文字資料之篩選關聯系統100a,其中包括:一儲存模組1a,用於儲存一斷詞詞彙庫及一對照集合資訊;一斷詞處理模組2a,用於對該對照集合資訊的各個對照文字資料進行斷詞處理以分別產生一對照斷詞資訊;一篩選處理模組3a,用於並對該等對照斷詞資訊進行篩選處理以分別產生一對照篩選斷詞資訊;一關聯性處理模組4a,用於對該等對照篩選斷詞資訊進行關聯性處理以分別產生多個對照序列資訊;一整合模組5a,用於將全部的對照序列資訊整合一起建立一關聯性索引檔。此外,該斷詞處理模組2a、篩選處理模組3a及關聯性處理模組4a可進一步對一待比對文字資料進行斷詞處理、篩選處理及關聯性處理以產生多個待比對序列資訊,且該文字資料之篩選關聯系統100a更包括:一比對模組6a,以該等待比對序列資訊分別與該關聯性索引檔進行比對,找出具有與該等待比對序列資訊相同的對照序列資訊的各個對照文字資料;一交集模組7a,將所有與待比對序列資訊相同的對照序列資訊排列順序,藉以建立交集序
列;一分析模組8a,分析每一份與待比對文字資料具有相同序列資訊的對照文字資料。
儲存模組1a、斷詞處理模組2a、篩選處理模組3a、關聯性處理模組4a、整合模組5a、比對模組6a、交集模組7a及分析模組8a等可建立於一或多個電腦及/或雲端伺服器中。當文字資料之篩選關聯系統100a建立於一雲端伺服器中時,可設有一對應的網頁,使用者在輸入待比對文字資料以後,即可獲得原創性分析結果(圖中未示)。
另外,前述的與斷詞處理相關的部分,例如步驟S11、S22及斷詞詞彙庫等,可以採用例如臺灣中央研究院發展的CKIP或已公開電腦程式碼的結巴等習知的斷詞系統9、9a,藉以節省成本。
如前所述,文字資料可以是各種已經公開的文字資料,且例如論文等大篇幅的文字資料而言,可以直接將論文視為一份文字資料,也可以在將論文分段處理以後,形成多份文字資料。這些經分段處理而形成的多份文字資料之間可另外互相關聯以便做成統合的原創性分析結果。舉例來說,一篇論文的編號是IDa1,而該論文經過分段(例如以章節分段)後的編號分別是IDa2~IDan,即言,不但將該論文視為一份文字資料,該論文的每一分段(每一章節)也都可視為一份文字資料。如此一來,經分析後,不但可獲得待比對文字資料相對於該論文的原創性分析結果,還可獲得待比對文字資料相對於該論文的每一分段(每一章節)的原創性分析結果。
以上為本發明所舉之實施例,僅為便於說明而設,當不能以此限制本發明之意義,即大凡依所列申請專利範圍所為之各種變換設計,均應包含在本發明之專利範圍中。
Claims (10)
- 一種文字資料之篩選關聯方法,其中包括下列步驟:S11.以一斷詞詞彙庫為基礎,對一文字資料進行斷詞處理以產生一斷詞資訊;S12.對該斷詞資訊進行篩選處理以產生一篩選斷詞資訊;該篩選斷詞資訊具有二個以上的篩選斷詞;S13.對該篩選斷詞資訊進行關聯性處理以產生多個序列資訊;該等序列資訊分別由二個以上的前後相鄰的篩選斷詞所組成。
- 如請求項1之文字資料之篩選關聯方法,其中在進行該步驟S11之前,可先進行一步驟S110;該步驟S110為:收集該文字資料中的作者自訂關鍵詞以建立一專業關鍵詞詞彙庫,並將該專業關鍵詞詞彙庫匯入該斷詞詞彙庫。
- 如請求項1之文字資料之篩選關聯方法,其中在該步驟S12中,在篩選處理以後,可先進行同義字詞處理,再進行後續步驟;該同義字詞處理為:對該篩選處理後的篩選斷詞進行文字同義檢查,將同義字、同義詞轉換成標準文字。
- 一種文字資料之篩選關聯系統,其中包括:一儲存模組,用於儲存一斷詞詞彙庫;一斷詞處理模組,用於對一文字資料進行斷詞處理以產 生一斷詞資訊;一篩選處理模組,用於並對該斷詞資訊進行篩選處理以產生一篩選斷詞資訊;一關聯性處理模組,用於對該篩選斷詞資訊進行關聯性處理以產生多個序列資訊。
- 一種文字資料之篩選關聯方法,其中包括下列步驟:S21.以二份以上的對照文字資料建立一對照集合資訊;S22.以一斷詞詞彙庫為基礎,對該等對照文字資料進行斷詞處理以分別產生一對照斷詞資訊;S23.對該等對照斷詞資訊進行篩選處理以分別產生一對照篩選斷詞資訊;該等對照篩選斷詞資訊分別具有二個以上的篩選斷詞;S24.對該等對照篩選斷詞資訊進行關聯性處理以分別產生多個對照序列資訊;該等對照序列資訊分別由二個以上的前後相鄰的篩選斷詞所組成;S25.將全部的對照序列資訊整合一起建立一關聯性索引檔。
- 如請求項5之文字資料之篩選關聯方法,其中在進行該步驟S22之前,先進行一步驟S220;該步驟S220為:收集該等對照文字資料及該待比對文字資料中的一部分或全部的作者自訂關鍵詞以建立一專業關鍵詞詞彙庫,並將該專業關鍵詞詞彙庫匯入該斷詞詞彙庫。
- 如請求項5之文字資料之篩選關聯方法,其中在該步驟S25以後,進行步驟S26~S29;步驟S26為:對一待比對文字資料進行斷詞處理、篩選處理及關聯性處理以產生多個待比對序列資訊;步驟S27為:以該等待比對序列資訊分別與該關聯性索引檔進行比對,找出具有與該等待比對序列資訊相同的對照序列資訊的各個對照文字資料;步驟S28為:建立交集序列,將所有與待比對序列資訊相同的對照序列資訊排列順序;步驟S29為:分析每一份與待比對文字資料具有相同序列資訊的對照文字資料。
- 如請求項5之文字資料之篩選關聯方法,其中在該步驟S23中,在篩選處理以後,可先進行同義字詞處理,再進行後續步驟。
- 一種文字資料之篩選關聯系統,其中包括:一儲存模組,用於儲存一斷詞詞彙庫及一對照集合資訊;一斷詞處理模組,用於對該對照集合資訊的各個對照文字資料進行斷詞處理以分別產生一對照斷詞資訊;一篩選處理模組,用於並對該等對照斷詞資訊進行篩選處理以分別產生一對照篩選斷詞資訊;一關聯性處理模組,用於對該等對照篩選斷詞資訊進行關聯性處理以分別產生多個對照序列資訊;一整合模組,用於將全部的對照序列資訊整合一起建立一關聯性索引檔。
- 如請求項9之文字資料之篩選關聯系統,其中該斷詞處理模組、篩選處理模組及關聯性處理模組對一待比對文字資料進行斷詞處理、篩選處理及關聯性處理以產生多個待比對序列資訊,且該文字資料之篩選關聯系統更包括:一比對模組,以該等待比對序列資訊分別與該關聯性索引檔進行比對,找出具有與該等待比對序列資訊相同的對照序列資訊的各個對照文字資料;一交集模組,將所有與待比對序列資訊相同的對照序列資訊排列順序,藉以建立交集序列;一分析模組,分析每一份與待比對文字資料具有相同序列資訊的對照文字資料。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110135727A TWI813028B (zh) | 2021-09-23 | 2021-09-23 | 文字資料之篩選關聯方法及系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110135727A TWI813028B (zh) | 2021-09-23 | 2021-09-23 | 文字資料之篩選關聯方法及系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202314581A TW202314581A (zh) | 2023-04-01 |
TWI813028B true TWI813028B (zh) | 2023-08-21 |
Family
ID=86943376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110135727A TWI813028B (zh) | 2021-09-23 | 2021-09-23 | 文字資料之篩選關聯方法及系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI813028B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201510886A (zh) * | 2013-09-06 | 2015-03-16 | Inst Information Industry | 地名排序方法及地名排序系統與電腦可讀取記錄媒體 |
TW201616376A (zh) * | 2014-10-22 | 2016-05-01 | 財團法人資訊工業策進會 | 服務需求分析系統、方法與電腦可讀取記錄媒體 |
TW201740293A (zh) * | 2016-05-13 | 2017-11-16 | 國立雲林科技大學 | 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體 |
TWM623980U (zh) * | 2021-09-23 | 2022-03-01 | 飛資得資訊股份有限公司 | 文字資料之篩選關聯系統 |
-
2021
- 2021-09-23 TW TW110135727A patent/TWI813028B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201510886A (zh) * | 2013-09-06 | 2015-03-16 | Inst Information Industry | 地名排序方法及地名排序系統與電腦可讀取記錄媒體 |
TW201616376A (zh) * | 2014-10-22 | 2016-05-01 | 財團法人資訊工業策進會 | 服務需求分析系統、方法與電腦可讀取記錄媒體 |
TW201740293A (zh) * | 2016-05-13 | 2017-11-16 | 國立雲林科技大學 | 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體 |
TWM623980U (zh) * | 2021-09-23 | 2022-03-01 | 飛資得資訊股份有限公司 | 文字資料之篩選關聯系統 |
Also Published As
Publication number | Publication date |
---|---|
TW202314581A (zh) | 2023-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN104933027B (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
Balakrishnan et al. | Applying webtables in practice | |
US8090724B1 (en) | Document analysis and multi-word term detector | |
US20150227505A1 (en) | Word meaning relationship extraction device | |
US20070005344A1 (en) | Concept matching system | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
Zhang et al. | An empirical study of TextRank for keyword extraction | |
KR20100075454A (ko) | 간접 화법 내에서의 시맨틱 관계의 식별 | |
Haque et al. | Literature review of automatic multiple documents text summarization | |
Sleeman et al. | Entity type recognition for heterogeneous semantic graphs | |
Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
JP4333318B2 (ja) | 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
JP2020113129A (ja) | 文書評価装置、文書評価方法及びプログラム | |
Eichler et al. | Unsupervised Relation Extraction From Web Documents. | |
CN115618014A (zh) | 一种应用大数据技术的标准文献分析管理系统及方法 | |
Sun | A natural language interface for querying graph databases | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
TWM623980U (zh) | 文字資料之篩選關聯系統 | |
TWI813028B (zh) | 文字資料之篩選關聯方法及系統 | |
Kurmi et al. | Text summarization using enhanced MMR technique | |
KR20210086402A (ko) | 공항 및 항공 기술의 트렌드 분석 장치 및 방법 | |
Mokhale et al. | A study on different multi-document summarization techniques | |
Li et al. | Automatic answer ranking based on sememe vector in KBQA | |
JP2004206571A (ja) | 文書情報提示方法及び装置並びにプログラム及び記録媒体 |