TW507141B

TW507141B - Automatic classifying system and method with embedded semantic analysis

Info

Publication number: TW507141B
Application number: TW88110439A
Authority: TW
Inventors: Yi-Cheng Wu; Jian-Cheng Dai; Jeng-Shiuan Li
Original assignee: Inst Information Industry
Priority date: 1999-06-22
Filing date: 1999-06-22
Publication date: 2002-10-21

Description

507141

本&月係有關於一種可嵌入語意解析之自動分類系統和方法二特=是針對自動分類系統進行分類時所需要的文件關鍵詞’提出一種新的篩選方式，藉此能夠提昇自動分類系統的分類有效性以及正確性。

由於網際網路的普及，大量的文件出現於網路之中，這些文件的形式大部分均為HTML格式或是較新的XML格式。正口為目别文件數量極為龐大，如果要將這些文件進行分類（例如像一般搜尋引擎所做的分類），幾乎是不可能利用人工加以完成。所以，文件的自動分類系統便應運而生’而文件自動分類系統不僅僅使用於各種網際網路上的文件分，，同時也可以應用於各種資料庫系統中，例如技術文獻=料庫等等，大大提昇文件管理系統的品質。

目前自動分類系統所採用的方式，大都是在文件中找尋出關鍵詞，再與各分類中預設之關鍵詞進行比對，如果兩者關聯性達到一定標準後，便可以判斷此文件屬於此一分類，如果兩者關聯性未達到一定標準，則可以判斷此文件不屬於此分類。第1圖表示習知技術中自動分類方法的流程圖。首先，讀入特定類型的文件（S1)，此文件可能曰 HTML、XML或RTL形式的文件。接著取出此文件為首部分一定字數（例如2 00字），做為關鍵字（S2)。在一般文件分類的假設是，文件的開始部分通常包括全篇文件的精華7 分，因此可以找出此文件所特有的關鍵詞。這些選擇出關鍵詞會利用一定程序加以整理（S3)，其根據系統預I 型來完成。例如，重複性的關鍵詞會加以去除，一般無^

第4頁 JU/141

五、發明說明（2) 別刀類含意的單詞，像是we、you、to、from等等，另外可以去除特定類型的單詞，例如動詞等等。在整理完畢之後，便可以利用篩選後的關鍵詞進行分類（S4)。一般分類方式疋利用向量空間模型（vect〇r space model)進行’亦即’將篩選後的關鍵詞以及某一分類的預定關鍵詞進行向量運算（例如找出其投影量），再將運算結果與一既定臨界值比較，如果超過便表示此文件屬於此一分類，反之則否。藉此，文件便可以完成自動分類的處理。

第2圖表示在習知技術中由HTML文件中選出關鍵詞的示意圖。如圖所示，自動分類系統會將文件開頭的前2 〇 0 字選出，做為初始關鍵詞，即如第1圖步驟S2所進行的一樣。在HTML文件中通常包含一些預設的標籤詞，例如〈HTML〉、<TITLE>、<B0DY>等等，習知技術的自動分類系統是可以預先將這部分剔除，增加真正關鍵詞出現的機率〇

實際上，習知的自動分類系統仍存在許多問題。首先，所有自動分類中所使用的參數或是語意的定義大都預存於系統之中，因此對於新的應用則缺乏彈性的修改方式。雖說先前已陳述自動分類系統可以應用於各種文件管理系統’但是在實務上很難達到。舉例來說，要將某個專為分類網路網頁文件的自動分類系統應用於書籍分類上，實務上是相當困難的。另外，傳統自動分類系統一般只利用文件開始部分來找尋關鍵詞，但是在目前網路網頁文件上由於編排的多樣性，彳艮有可能在文件開始部分並不存在

第5頁五發明說明（3) =關鍵詞，足以代表此文件 ^ 自動分類文件時的正確性和可靠度。這也會影響 f鑑於此，本發明的主要甘入入式語意解析之自動分 f於柃供一種新的可 :找尋足以代表此文： = =法二夠針對整個文的正確度和可靠⑨，同•使用以增加文件文件合目前應用之實際情、x κ ° 工易修改此參數，符需要増加的額；：：能另；以：=用、者自行定義所性。猎以強化自動分類系統的功能根據上述之目的，本發明自動分類系統，用以自動分類一文件，析之 ::用以接收上述文件，並且產生對應；件，核型’上述文件物件模型係以上述文件中 :二=定義組態資料，用以定義在上述文件中之標亡述文件物件模型，用以找出上述文件中二下2收亚且接收上述標戴定義組態資料，根據其定義之上述下内容的比例值，由上述内容中找出關鍵詞，i : 述關鍵詞分類上述文件。忙ί冢上在上述自動分類系統中，文件可以是HTML文件、文件或是其他類型文件。另外’在上述標籤定義組態資料中所定義之選擇關鍵詞的比例值，可以直接利用字數表示，也可以利用佔全部内容之百分比表示。而標藏定義植態貢料中尚可以包括延伸定義項，用以定義在依上述比例

507141 五、發明說明（4) 值選擇出的關鍵詞中之額外者定義程序，用以在上 &條件。另外可以加入使用之額外分類功能。 ^自動分類器中執行使用者所定義本發明另提供一種可々上用以自動分類一文件，盆=入浯意解析之自動分類方法’ 件之文件物件模型’上述上:產生對應於此文標籤做為節點，·讀取-標籤定義組;:以上述文件中之組悲用以定義在上述文件中之標籤下内^上述標籤定之比例值；根據在上述標籤定義組態資二j取關鍵詞j ===比例值，由上述内容中找出關鍵;義〜據上述關鍵詞，分類上述文件。埏闲；以及根圖式之簡單說明： x 為使本發明之上述目的、特徵和優點能下文特舉一較佳實施例，並配合所附圖式，作^顯易懂，下：詳細說明意圖第1圖表示習知技術中自動分類方法的流程第2圖表示習知技術中由HTML文件中選中圖。。、關鍵詞的如示架構圖意圖意圖第3圖表示本發明第一實施例中自動分類圖。、糸統之系第4圖表示本發明第一實施例中待分類文 _ 。 1千範例之第5圖表示本發明第一實施例中標籤定義匕。、、、怒檔之統示示 m 第7頁 507141 五、發明說明（5) 第6圖表不本發明第一實絲為，丨Φ令# ilt 示意圖貝&例中文件物件模型（D0M)之圖第7圖表示本發明第一實施例中自動分類方法之流程第8圖表示本發明第二實施例中自動分類系統之系統架構圖。第9圖表不本發明第二實施例中標籤定義組態檔之示意圖。第1 0圖表示本發明第二實施例中自動分類方法之流程圖。符號說明：卜特定類型之XML文件；3、3a〜標籤定義組態檔； 5〜D0M，7〜自動分類結果；9〜使用者定義程序；語法分析器；20、20a〜VSM自動分類器。實施例：第一實施例第3圖表示第一眚絲也丨rk . 圖。如圖所向^二， ^ ^例中自動分類系統之系統架構 VSM(向量空間模型）自翻八4 σ〇ιυ 产士杏#你丨士勒刀類器2 0以及標籤定義組態檔3。明。然而，本實施例7文件係以XML文件為例來進行說大部分的文件 1以下所述的分類方式，可以適用於絕 ^受此限定；另外:例如HTML文件或是其他類型文件，並文件的内容部分也不受其自然語言類 1此自動分類系統包括XML語法分析器10 型所限，可以英文、中文或其口；：;

五、發明說明（6) 法分析㈣用來接收輪 5 2^型（_5 °XML文件為_文件之延伸，在本；I例的t f ::其可自訂標籤(tag)的特性，來說明的ί籤仿二^工°XML語法分析器10會將XML文件1中 Γ 的對應關係來定義出樹狀結構的_ 點而!:二是利用XML文件1中的各自訂標藏做為節 "n。不籤下的内容部分做為樹狀結構中的葉大此，根據D0M 5就可以決定出各標籤下的相關内谷。 =籤定義組態檔3為一使用者定義檔案資料，用來定土在XML文件i中的各標籤下内容，在選取關鍵詞時之比例值：亦即’依據各標籤所代表的内容相關重要性，讓系統依據不同比例值選摆屮；^ Μ M ^ μ J很k详初始關鍵詞。正如先前所述，整個文件内谷都可能包含部分具有重要分類意義的關鍵詞，利用使用者所疋義的關係’可以輕易地決定出此文件的正分類。 VSM自動分類器20則接收〇〇Μ 5，並且根據標籤定義組㈣3中定義之不同標鐵下内容的不同比例值，由在樹狀 …，的D Ο Μ 5中找出各標籤下内容的關鍵詞。據此，在經過系統預設處理後，便可以利用VSM方式來分類XML文件 1 ° 、，以下以比較清楚的範例說明第3圖中的各資料部分。首先’第4圖表示本實施例中待分類之XML文件1的示意

507141 五、發明說明（7) 圖。如圖所示，在XML文件1中包含了四種不同的自訂標籤’分別為〈ABSTRACT〉、〈CHAPTER〉、〈SECTION〉以及〈PARAGRAPH〉。正如標籤字意所示，<ABSTRACT>代表整個文件的摘要部分，其内容以la表示。<CHAPTER>、〈SECTION〉和〈PARAGRAPH〉則為文件主體部分，其内容重要性依次遞減，各内容部分分別以丨b、丨c和丨d表示。根據先前所述，XML語法分析器1〇會將此XML文件1讀入，並且產生對應的D0M 5。第6圖表示本實施例中D0M 5 之示意圖。如圖所示，將各標籤依據從屬關係建立樹狀結構。其中，各標籤部分則為節點，而其内容則為葉，例如標籤<ABSTRACT>以及其下之内容ia。而節點<CHApter>包含其下内容lb以及次階的節點<SECTI〇N> ;節點<SECTI〇N> 包含其下内容lc以及次階的節;節點〈PARAGRAPH〉則包含其下内容1(1。藉此，可以輕易地分離出每個標籤下所對應的内容部分。第5圖表示本實施例中標籤定義組態檔3之示意圖。如圖所示，各標籤分別利用運算子””指定其下内容在選擇關鍵詞的比例值。例如標籤<ABSTRACT>，由於其重要性，所以全部内容均選出做為初始關鍵詞，在圖中係以丨〇〇%的百分比表示。標籤〈CHAPTER〉、〈SECTION〉和〈PARAGRAPH〉也依其不同的重要性，賦予不同的比例值，分別為丨〇〇 (代表字數）、50(代表字數）、5%(代表百分比）。當VSM自動分類器2 0讀取到此標籤定義組態檔3之後，便可以根據此定義找出關鍵詞。例如，内容1 a全部選取，内容丨b中選擇前

第10頁 507141 五、發明說明（8) 1〇〇個單詞，内容lc中選擇前50個單詞，内容id中則選擇 5%的單詞。藉此，關鍵詞來自於整個文件，並且依據不同的重要性加以選擇’可以更精確地描繪出此文件的真正分類。另外，標籤定義組態檔3是可以由使用者輕易加以修改’讓自動分類系統在應用上更具有彈性。第7圖表示本實施例中自動分類方法之流程圖。如圖所不首先谓入此待分類之文件（S 11 )，文件可以是任何已知具有特定標籤的文件類型。接著建立此文件的DOM，，巧是分離出各標籤下所對應的文件内容本身（S12)。接著，出使用者所預設之標籤定義組態檔（S13)，利用其中所定義各標籤的選擇比例值，便可以找到初始關鍵詞 (S 4 )。利用系統預設之模型，整理出真正用於比對的關鍵词（S1 5 )，便可以利用這些關鍵詞來分類此文件（s丨6 )，完成分類的目的。卓一貫施例 &在第一實施例中雖然只在標籤定義組態檔中定義各標，：内谷在選擇時的比例值，但是也可以增加其他額外的 it 件，另外也可以另外加人使用者定義的新程序，強化關鍵詞選擇的正確性和準確性。由Ϊ 圖表^不本貫施例中自動分類系統之系統架構圖。 2 7貫ί例相同之部分，則附上相同符號並且省略二二：ί ί實施例中，標籤定義組態檔3a内可以加入額額外條：【ί ΐ :件：vS M自動分類器2 0 a則需要根據這些、關鍵詞；另外，使用者定義程序9是使用

507141 五、發明說明（9) 者額外增加在關鍵詞選擇上的附加由VSM自動分類器20a來勃—..L ^ 在目動刀類蚪交第9圖表示本發明第執^’糟此Λ強λ其擴充性。 -^ m φ ^ 一貝施例中才示籤定義組態檔3a之不意圖。其中，除了定羞夂挪遂 — ^ 外，還可以加上附加的内，谷的選擇比例值之的師選功此。例如對於標蕕〈CHAPTER〉而a ，除了原有選擇比例值（1〇〇個還包括了另-筛選條件，即(〜圓），其表示剔二外，名闺的早詞。換言之，實際在標籤〈CHAPTER〉下所選擇的關鍵詞，是在前100個單詞中的所有名詞二的 <PARAGRAPH>中除了原有選擇比例值（5%單詞）之外，Ϊ包括了另-篩選條件，即S+(t。、t〇day、_t)。其表示剔除原糸，預設的排除字表（S)内單詞以及忧、t〇day、㈣討這三個單詞。換言之，實際在標籤〈PARAGRAPH〉下所選擇的關鍵詞，是在前5%中去除上述單詞的部分。因此，可以利用亡述方式，在標籤定義組態檔3 a中加上各種篩選條件，藉以強化其選擇關鍵詞的準確性。另外，其他可加入的額外篩選條件包括··（1)指定新關鍵詞；（2)將文件中超連結（hyper Hnk)的描述文件直接選為被指向文件的關鍵詞；（3 )特定語法關係等等。第10圖表示本實施例中自動分類方法之流程圖。如圖所示’首先讀入此待分類之文件（S21)，文件可以是任何已知具有特定標籤的文件類型。接著建立此文件的D0M，也就是分離出各標籤下所對應的文件内容本身（S2 2 )。接著讀出使用者所預設之標籤定義組態檔（S2 3 )。利用其中

第12頁 507141 五、發明說明（ίο) 所定義各標籤的選擇比例值以及定義的額外篩選條件，便可以找到初始關鍵詞（S24)。利用系統預設之模型，並且同時將使用者定義程序讀入並且加以執行，便可以整理出真正用於比對的關鍵詞（S25 )，接著利用這些關鍵詞來分類此文件（S1 6)，完成分類的目的。本發明雖以較佳實施例揭露如上，然其並非用以限定本發明，任何熟習此項技藝者，在不脫離本發明之精神和範圍内，當可做些許的更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

第13頁

Claims

507141 六、申請專利範圍 1 · 一種可嵌入語意解析之自^ ^ 分類一文件，其包括：自動分類糸統，用以自動語法分析器，用以接收上述、，文件之文件物件模型，上述文二且產生對應於此之標籤做為節點；杈！係以上述文件中標籤定義組態資料，用以定義内容在選取關鍵詞時之比例冑；上述文件中之標籤下自動分類器，其接收上述文侔舲此γ別述文件中之標藏下内容，並且；以找出上料’根據其定義之上述標籤下内容的m組態資中找出關鍵詞，並且根據上述關鍵詞分内- 其中 2 ·如申請專利範圍第1項所述 : 上述文件係為隱文件。 4之自動为類糸統其中 3 ·如申請專利範圍第1項所述上述文件係為皿文件。疋之自動分類糸統 4 .如申請專利範圍第1項所述之上述標籤定義組態資料中所定義刀 '糸統，其中係以字數表示。義之選擇關鍵詞的比例值 5 .如申請專利範圍第1項所述之上述標籤定義組態資料中所定義刀，系統，其中係以佔全部内容之百分比表示。、擇關鍵詞的比例值， 6.如申請專利範圍第1項所述之自上述標籤定義組態資料中尚包括延伸—刀類糸統，其中依上述比例值選擇出的關鍵詞中 ^ 、項’用以定義在 Y之額外篩選條件。

第14頁 507141 六、申請專利範圍 7 ·如申請專利範圍第1項所述之自動分類系統，其中尚包括一使用者定義程序，用以在上述自動分類器中&行使用者所定義之額外分類功能。 τ 8 · —種可嵌入語意解析之自動分類方法，用以自動分類一文件，其包括下列步驟：應於此文件之文件物件模型，上述文件物件模么係以上述文件中之標籤做為節點；、讀取一標籤定義組態資料，上述樟鏟a 義在上述文件中之標籤下内容在選取關=^组態用以定根據在上述標籤定義組態資料中所定二蚪之比例，；内容的比例值，由上述内容中找出關鍵詞；=上述^鐵下根據上述關鍵詞，分類上述文件。乂及 9 ·如申請專利範圍第8項所述之自動直上述文件係為HTML文件。頁方法八中 .如申請專利範圍第8項所述之自動分豆中上述文件係為XML文件。、八 11 .如申請專利範圍第8項所述之自動分類方法，其中上述標籤定義組態資料中所宋義之選摆、值，係以字數表示。中所疋義、擇關鍵詞的比例 12 .如申請專利範圍第8項所述之自動分類方法，直中上述標籤定義組態資料中所定義之選擇關鍵詞的比例、值，係以佔全部内容之百分比表系。 13 ·如申請專利範圍第8項所述之自動分類方法，豆中上述標籤定義組態資料中尚包拉延伸定義項，用以定義 507141

第16頁