TW578097B

TW578097B - Article classification method

Info

Publication number: TW578097B
Application number: TW91117713A
Authority: TW
Inventors: Jian-Shing Li; Jiun-Jie Gung; Jen-Peng Shiu; Yau-Huang Guo
Original assignee: Walsin Lihwa Corp
Priority date: 2002-08-06
Filing date: 2002-08-06
Publication date: 2004-03-01

Description

五、發明說明（1) 發明領域本案為種章分類方法〇發明背景隨著電腦的化世代的來臨 9 知識的來源之由如此大量的資工作 9 因而須白門別類 5 以便讓文文件動分類或多層的知識分動建構出全的的需要 5 隨時修到白動關鍵字擷件的存取與再利分類到個階層立及維護個龐者階層式分類而 g 前所使理 J 是藉由使用訓練 J > 建立分家 J 0 曰後再有普及及也因此 ’然由訊中找動分類搜尋工」技術類架構知識地改分類取、相用，確式的分大的階會遭遇用之「者所提類行為新文件網際網網路資於網頁出使用的機制作能更可依個 ;並依圖及知的架構關文件實是助類架構層式分相似文中文文供的小的模型進入系路的蓬訊儼然文件等者需要將這些有效率別的產每個類識樹；。在進分析等益良多會遭遇種文早分類方法’尤指應用實體論架構之文勃發展，更加速了 e 已成為人們主要獲取線上資訊的激增，要的部分是相當困難的文件依人們的知識分。對企業而言，「中業需求’建立起單層別所隸屬的關係，自同時亦可因應管理者階的應用上，則可做功能，有效地增進文。然而，將文件自動到一些困難，如：建類機制是相當費時的；再件難以分類的問題。件自動分類」技術的基本原量分類樣本資料進行「模型，進而培養「虛擬分類專統時’即可根據已建立的模

578097 五、發明說明（2)

型，自人工智關鍵字件只能性時，類別區圖，因語意相文件中一般文類〃新想到> 類為法顯然的資料仍存在動將每份文件歸屬到一個類別慧、模糊計算等技術，進行文，並依據内文進行自動分類。歸屬到一個類別，因此，當有系統便很難去界定其類別，再刀至小類別，如第一圖所示之此一般只有大類別間會具有連關之文件間並不會有連結，例出現、多次有關『台北市長』及章中出現『台北市長』通常會聞；同理，若文章中出現『跑體育類〃新聞，是以運用一般社會類〃或、、體育類〃新聞之車又為不客觀’相對地，當使用也較有限，因此，一般「中文有如下之困難必須解決： •文件分類困難 •僅能作單一項目之分類。廷些原理意分析，以但其缺點在一份文件具者，由於文新聞分類架結，是以具如：當有一『跑步j的令人聯想到步』則自然 /分類架構僅需應用到自動產生於每份文有多種屬件是以大構樹狀有某部分篇待分類詞語，而 >社會會令人聯能將其歸一種，此種單一分類者以不同層文件自動分面所搜尋類」技術職是之故，申請人鑑於習知技術之缺失，乃經悉心試驗與研究，並一本鍥而不捨之精神，終研發出本案之『文章分類方法』。

578097 五、發明說明（3) 發明概述本發明之主要目的，在於提供一種文章分類，豆 # 步驟：⑷提供一待分類文章；（b)=該待刀類文旱中之所有詞性；（C )於該所有詞性中選出複數 j關鍵詞組’並根據該複數個關鍵詞組間之相關性以建立二：ΐ:ΐ架構；⑷計算出該實體論架構中各層間之概 22出f (e)計算出該實體論架構中最頂層之關係輸 i ()將該概念輸出值及該關係輸出值結合成一特二j s丨g )提仏至；一訓練資料，經由一訓練方式以獲訓：資料中各分類層之鍵結值；以及⑴輸值㈣論，藉以少一訓練資料中各分類層之鍵結出向量值1 = 1 輸出向量組，該輸出向量組中之輸別最同者所對應之分類層為該待分類文章之所屬類根據上述構想，該步驟擴展標記語言格式。根據上述構想，該步驟係指名詞與動詞。根據上述構想，該步稱。根據上述構想，該步驟根據上述構想，該步驟根據上述構想，該步驟係指各種不同類別之文件。 (a)中之該待分類文章為可 (c )中之該複數個關鍵詞組 (c )中之相關性係指概念名 (c )中之相關性係指屬性。 (c )中之相關性係指運算。 (g )中之該至少一訓練資料

578097

經網五、發明說明（4) 根據上述構想，該步驟（g )係藉由一路所完成。網路根據上述構想’該模糊類神經網路係指一模糊甸傳遞根據上述構想’該步驟（g )中之該訓練方式為—第一階段及一第二階段。品分根據上述構想，該第一階段用以計算一網路輪出值。 • 根據上述構想，該第二階段則透過一錯誤更正法進行該鍵結值修正，使該網路輸出值能更趨於期望輸出’。仃根據上述構想，該步驟（h )中係利用一模糊推論法以完成。、娜/ 本案之次一目的為提供一種文章分類方法，其包含下歹J步驟·（ a )於一待分類文章之所有詞性中選出複數個關鍵詞組，並根據該複數個關鍵詞組間之相關性以建立一概念階層；（b )藉由該概念階層可定義出該待分類文章之特徵值；（c )定義至少一訓練資料中各分類層之鍵結值；以及（d )輸入該特徵值，並利用該至少一訓練資料中各分類層之鍵結值作推論，藉以獲得一輪出參數組、，/該輸出參數組中之輸出參數極值所對應之分類層為該待分類文章之所屬類別。《 ' μ 刀、根據上述構想’該步驟（a )之前又包含下列步驟： (al )提供該待分類文章；以及（a2 )分析該待分類文章中之所有詞性。、根據上述構想，該步驟（a )中之該待分類文章為可

2516.ptd 578097 五、發明說明（5) 擴展標記語言格式根據上述構想係指名詞與動詞。根據上述構想根據上述構想根據上述構想根據上述構想該步驟（a )中之該複數個關鍵詞組該步驟（a )中之相關性係指概念名該步驟（a )中之相關性係指屬性。該步驟（a )中之相關性係指運算。中之該概念階層係根據 a 該步驟實體論架構所完成。根據上述構想，該步驟（b )之前又包含一步驟 (Μ )計算該概念階層中各層之相關參數。根據上述構想，該步驟（b 1 )係可藉由下列步驟 Π: (H1i計算出該概念階層中各層間之“輸出 ,(b 1 2 )计算出該概念階層中最頂層之 :;“13)將該概念輸出值及該關係，值結=特根據上述構想，該步驟（bl) 概念輸出值及該關係輪出值。該相關參數係指該根據上述構想，該步驟（c (cl )提供至少一訓練資料，别又包含一步驟 -訓練資料中各分類層之鍵結值由-運算式以獲根據上述構想，該步值。係指各種不同類別之文件。中之該至少一训練資料根據上述構想，該步驟、黃枓 )係藉由-模細 578097

路所完成。

根據上述構想，該模糊類神經網路係指—模糊倒傳網路。 C 根據上述構想，該步驟（d )之前又包含步驟（d i ) 經由一訓練方式以獲得具有較小改變量之鍵結值。、根據上述構想，該步驟（d 1 )中之該訓練方式可區分為一第一階段及一第二階段。刀根據上述構想，該第一階段用以計算一網路輸出值。根據上述構想，該第二階段則透過一錯誤更正法進行該鍵結值修正，使該網路輸出值能更趨於期望輸出。根據上述構想，該步驟（d )中係利用一模糊推論法以完成。根據上述構想，該步驟（d )中之該輸出參數組係指一輸出向量組。曰根據上述構想’該步驟（d)中之該輸出參數及值指一輸出向量值最高者。實施例說明本發明專利提出一個基於實體論（0nt〇l〇gy)架構之文件分類法，糸統架構如第二圖所示。本系統主要分成三個部分I第一個部份先使用中央研究院所開發出來的斷詞及標示^]性機制031'1：-〇卜3066〇11了3忌忌6[((31(1?)斷詞系統將一篇可擴展標記語言（XML )格式的中文文章之所有詞性標示出來’再利用特徵詞選取技術挑選出重要的動詞及

578097 五、發明說明（7) 名詞；第二部分則使用概念式階層圖做模糊推論；第三部分使用模糊類神經網路做智慧型中文分件分類，最後將分類好的文件放入資訊儲存體中。首先’我們需建構出某一特定領域之知識地圖 (Domain Ontology)，如第三圖所示。其中q是第丄個概念名稱（Concept name)、Ai是第i個概念的屬性 (Attribute) ’〇〖是第i個概念的運算（operati〇n)，而i由 1到η。下層的概念為上層註腳後加上新的註腳。第四圖（a)〜（g)為我們所建構出之新聞領域之知識地圖（Domain Ontology )，依序分別為"運動天地”、”影視娛樂”，’’財經產業"、”國際大陸"、"政治新聞"、"社會綜合 ”及’’股市理財”，以作為文章之分類規則。第一部份： 1.斷巧及標示詞性機制（part — 〇f-Speech Tagging) 我們利用中研院所提供的斷詞系統（CK IP)，將文件作斷詞和標注詞性。 2 ·特徵值選取機制並將文章中諸如，’的"、"將，，和"是”等無法提供有用資訊的Stop Word加以過濾去除，取出文章中的名詞和動詞。特徵值選取機制演算法：輸入：

2516.ptd 第10頁 578097 五、發明說明（8) 輸入一篇文章。輸出：產生輸入文章中之動名詞。方法：步驟1 :利用中研院所提供的斷詞系統（CKI P )，將文件作斷詞和標注詞性的動作。步驟2 :利用標注的詞性，將文章中的名詞取出。步驟3 :利用標注的詞性，將文章中的動詞取出。步驟3 :將名詞和動詞儲存。步驟3 :結束。第二部份：概念階層圖推論機制第五圖乃本發明專利之核心技術部份，現說明如下： D i表示類神經網路的輸出層，&和中間黑色概念為類神經網路的輸入層，而i由1到！1。第六圖表示不同斜率a之S型（sigmoid)函數。其函數如式（1 )所示。 φ(η) =--- 1 + exp(-aw) (ι) 概念階層圖推論機制演算法：輸入：

2516.ptd 第11頁 578097

輸入一篇文章的所有動詞和名詞。輸出：產生輸入文章中特徵的特徵值。參數： confidence(C)表示概念c和其父概念的信心值，r表示概念階層推論的推論比例，p則是概念和關係之間決定特殊值的比率，a是sigmoid函數的斜率，而η是一個此概念名稱、屬性或運算出現的次數，Maxi是從低層級來的第 i個最大輸入，而m則是概念C的有效連結數， c ο n f i d e n c e ( R ) 是概念C和關係R的信心值，s則是關係應用次數之間決定特殊值的比率，t是關係R應用次鉍μ 取的總合。方法：步驟1 :將文章中的名詞和動詞取出。步驟2 :取出各類On to logy中每一層的概念名稱、屬性咬運算。 3 步雜3 ··對於Ontology的每層概念C。

步驟3· 1如果沒有子概念，則此層概念名稱、屬性或運算的輸出值為W W = 咖妙咖(c〇 X (卜厂)+ " (1 /(1 + (exp卜㈣》）

578097 五、發明說明（10) 步驟3 · 2如果有子概念，則對於此層概念名稱、屬性或運算。步驟3· 2· 1讀入所有子概念的輸出值，計算l。 Μαχι + (1-Μαχι)χΜαχ2 +...+ (1-Μαχ1)χ(1~Λ/αχ2)χ...χ(1-Μαχι)χΜ^ +...+ (1~Μ^ι)χ(1~^^2)><...χ(1-Μαχ:;π_1)χΜαχ>π 步驟3· 2· 2計算此層原本的輸出值w W = confidence{Cf) x (1 - r) + r x (1 /(1 + (exp(-^¾)))) 步驟3·2·3組合步驟3·2·1和步驟3·2·2產生的結果產生此層的輸出值。 0utput(C)= (1-ρ) χ [ confidence^C) x ¢1 - r) + r x (1 /(1 + (exp {-an)))) ] + Px [ confidence{〇x{{^ r)^rxL ] 步驟4 :對於最頂層的概念，計算關係的輸出值 Output(R)。

Output (R)= confidence^) x (1 - + 5 x (I /〇 + (exp(-^)))) 步驟5 :將概念輸出值和關係輸出值結合成文章中所有特

578097

徵的特徵值。步驟6 :結束。第三部份：智慧型模糊類神經網路分類機制本案之模糊類神經網路是使用模糊倒網路訓練方式分成前饋階段以及倒傳遞階，入向量由輸入層輸入，經由隱藏層傳遞算出網路輸出值；而在倒傳遞的部份，網誤更正法進行鍵值修正，期望能夠使網路望輸出。〇在訓練過程中，學習速率設的越小，量也會越小，鍵結值向量在鍵結值空間中平滑，然而，網路收斂的速度也須要更久地，我們若將學習率設得較大以增快學習產生較大的鍵結值改變量，可能會使得網無法收斂。一個簡單的方法就是將原先修正鍵結入一個慣性項，如式（3)所示。傳遞網路，它的段。在前饋階段至輪出層，並計路鍵結值逶過錯輸出更趨近於期則鍵結值的改變的搜尋軌跡也越的時間；相反速率，則所對應路變得不穩定而值的函數（2)加 (2) 其中q是學習速率，決定鍵結值修正量的幅度， 578097 五、發明說明（12) 是區域梯度函數 (3) Δ\ν .. (n) = aAwJt {η^ΐ)^(\^α)ηξ (η)γ((η) 在實驗中，將慣性項設為〇 9 ,讦涅法。因此我們定義一個估算函無异貝訊为類準確度的方出結果歎，用來計算得鮮(/Λ卜卜"，ί/Κ·-ο, β (4) (5) (6) 其中Θ是懲罰值，a < 〇 ; 、是第i個文件中的第· J個神經元的輪· 〇是第i個文件中的第〗個 ’ Μ是用來訓練的文件總數种經70的期望輸出值； Ν是輸出層的神經元總數· #，>〇是估算函數，利用出值Χ和期望輸出值y

578097

計算結果；烈尽是某一時期第i個文件的精確度；在估：：是某一時期所有文件的精確度。於等於門^方的\中，輸）出值和期望輸出值的差值小於。或是懲罰值。對於每一、為1… 声A直裕女# 、母伤文件來說，該份文件的精確 ΐ後；所：：算值的總合除以輸出層神經元個數的結果。 # 件的精確产213確度總合除以文件總數即可得所有文確類，“率二ΐ們可以說精讀度越高，能夠分類到正別時，二：ί ΐ °又:十期望輸出值時，如果文件不屬於該類到1之Η Α輸士出值為0 ’反之則為1 ’因此門權值必須在〇必項佑V基广上門檻值應該是0和1的中間值’但是仍然 :乂文件訓練的結果而定。在訓練完模糊類神經網路趣i們將利用模糊推論決^輸人的特徵值，錢使用模糊類神經網路做文件分類。下面是各個部分的演算法。

智，型模糊類神經網路分類機制（使用倒演算法：一 ·、訓練部份：輸入：足夠數量的訓練資料（七種類別的文件）。輸出：

578097 五、發明說明（14) 產生類神經網路的鍵結值參數：々⑷代表輸入向量，n代表第η個訓練範例，num代表要記錄鍵結值的訓練次數。方法：步驟1 步驟2 步驟3 設定網參數。以均佈輸入一步驟3· 1對於步驟3. 1. i 步驟3. 1. 2 步驟3. 1. 3 步驟3. 1. 4 步驟3 · 1. 5 步驟3 · 2計算步驟3 · 3計算步驟3· 4透過算新步驟3 · 5如果路參數：設定學習速率7和慣性項π等網路隨機亂數設定鍵結值矩陣。個訓練範例的輸入向量以及目標向量。類神經網路的所有隱藏層。如果是第一層的隱藏層，則X⑻=：^)。否則λ⑻代表前一層的神經元輸出向量。 =算所有的乃⑷乘上其閥值的總合’則可得神經元j的網路輸入（n)。利用活化函數和ν』·（ η )，取得該神經元的輸出。如果還有下一層隱藏層則跳回步騾。出推論輸出向量。誤差函數。錯誤更正法、誤差函數以及舊的鍵結值計的鍵結值。這一個訓練範例是n ura的倍數，將各層的舍

578097 五、發明說明（15) 結值和狀Uy) 值記錄於檔案中。步驟3. 6如果鍵結值尚未收斂，則跳回步驟3。步驟4 :將各層的鍵結值儲存起來。步驟5 :結束。二、分類部份：輸入：待分類文件的特徵值。輸出：文件的類別。參數： η代表第η個訓練範例。方法：步驟1 :設定網路參數：設定學習速率π和慣性項π等網路參數。步驟2 :讀入鍵結值矩陣。步驟3 :輸入文件特徵值向量。步驟3. 1對於類神經網路的所有隱藏層。步驟3. 1 · 1如果是第一層的隱藏層，則。步驟3. 1. 2否則Α⑷代表前一層的神經元輸出值。步驟3· 1· 3計算所有的乃⑷乘上其閥值（η)的總合，則可得神經元j的網路輸入ν j (η )。

2516.ptd 第18頁 578097 五、發明說明（16) 步驟3· 1· 4利用活化函數和乂〗（η)，取得該神經元的輸出。步驊3.1.5如果還有下一層隱藏層則跳回步驟3 1。步驟3.2計算出推論輸出向量。步驟4 :對應向量中值最高的類別，輸出該類別。步驟5 :結束。三、將已分類文件存入資訊儲存庫：籲最後我們將經由基於Ontology的資訊分類技術得出的分類文件儲存於各個類別的資料庫中。為使本案之專利性更為明確’申請人茲提出比較說明’如下所示：本案之實驗資料是採用中時電子報的七類新聞，其新 ★種，類y國際大陸"、"政治新聞"、"財經產業"、"社會萬象、影視娛樂”、”運動天地，，及，，股市理財”七大類。訓練資料和測試資料分佈表 706 ------ 601 1307 樂財經產業國際大陸政治新聞社會萬象運動天地股市理財總和 266 264 280 591 473 181 2761 175 246 325 609 450 175 2581 441 510 605 1200 923 356 5342 表（一）訓練資料測試資料總和

第19頁 578097

表（一）為2 0 〇 1年2月到5月期間每一類新聞的數量。苴中訓練資料有2761篇新聞，測試資料則有2581篇。每一 ^ 測試資料皆有標示類別，因此可以直接用來訓練。由於模糊類神經網路的輸入特徵值必需要在訓練之前選取出來，、因此採用漸進式的特徵選取方式，第七圖為漸進式的特徵選取圖。為了比較分類結果的好壞，本案使用了另一個分類的方法來做對照組，這個方法只使用關聯法則 ^association ruie)來選擇特徵，在此法中產生一個推，特徵（candidate feature)的條件為支持值（supp〇rt value)大於1〇%且信心值（c〇nfidence value)大於8⑽。此外當有特徵的推論特徵大於20%且信心值大於9〇%時，可以把這些特徵組合成同一個概念。這些概念就是倒傳遞類神經網路的輸入值。另一個方法是使用基於〇nt〇1〇gy架構之智慧型中文文件分類器，首先我們將sigm〇 id函數中的參數a设定成1 ’因為平均一個概念會有4.89個詞出現在一份文件裡’取整數5，而5的sigmoid函數值為〇·99，因此設定a = l來滿足我們的需求。

首先從未知數量的特徵中取出31515個名詞和動詞。如果只使用關聯法則（a s s 〇 c i a t i 〇 n r u 1 e )作篩選的話，會選取出4 9 5個名和動詞，在概念化後，可以得到& & 2個概念。若使用本案之基於Onto l〇gy架構之智慧型中文文件分類器，則會選取出490個詞作為概念階層架構圖的節點和關係詞。雖然4 9 0個詞比第一種方法的4 5 2個詞為多，但是在後面將可證實第二種分類精確度比第一種高。

2516.ptd 第20頁 578097

-伽模組被採用•’特徵概念即為輸入向量。在第旦1將會使用模糊推論產生模糊類神經網路的輸入 σ里。這些輸入向量是用來給類神經網路訓練用類神經網路的完整規格如下：類神經網路的各層數量如下·· 方法1 : 452-1 ^154 方法2 : 490-1l15_7

其中輸入，的節點個數一方法1為452，方法2為490 第一層隱藏層的節點個數皆為1 5 第二層隱藏層的節點個數皆為1 5 輪出層的節點個數為7 學習速率為0. (H 隱臧層的活化函數為 /(χ) =——^--- )

(e - 2) l + exp(i) 輪出層的活化函數為 /(^) = X 估算函數：备期望輸出值為0時，估算函數為卿〆tf) = | 1 <〇ί;. <0.4 L U ’otherwise (e - 3)

第21頁 578097

當期望輸出值為1時，估算函數為 SK) = 1 ，ί/Ό.6<^-<2.5 0.1 ’otherwise PRE^\nJ^EV{o^) Μ ZPRSi (e - 4) (e-5 ) (e-6 ) 其中M為2761篇訓練資料或著是2581篇的測試資 e 3和e 4疋出自第（4)式，但是這裡有一點卷遭為L 5時―，將會有一塊大小為0.5的中間區域重疊，\選、擇造成決疋的困難。因此兩個個案必需各別的被處理^裡會巧案1 :當期望輸出值為〇時，如果輸出值範 .〜.4 ’則估算函數傳回1，否則傳回〇。、，爾，望輸出值為〇時，如果輸出值範園為 .〜.，則估算函數傳回1，否則傳回、' 的結t 4二6的4 = Γ辦法使用資訊分類得到明確區域。在這：區乂外，].".5都屬於可以判斷：都高則判斷結果為^類：果某一個類別的信心值比其他的合理是線性函數，因此限制區域是和特徵。。疋輸出的範圍將有助於培養出好的網路

2516.ptd 第22頁 578097 五、發明說明（20) 最後兩種方法的結果我們顯示在表（二）中表（二）文件分類的結果關聯法則實體論架構之分類法 CPREtotal) 誤差總和精確度 (P如total、誤差總和訓練文件 98. 4% 0.00514(至 76,000 時期) 99.1% 0.00030(至25,000 時期）第八圖中’第一種方法的訓練行程要訓練到第76〇〇〇個時期才穩定下來，使用訓練資料所做的内部測試精確度為98· 4%，而使用測試資料所做的外部測試精確度為 78· 6% 。在第九圖中，第二種方法的訓練行程要訓練到第 2 5 0 0 0個時期才穩定下來’使用訓練資料所做的内部測試精確度為99· 1%，而使用測試資料所做的外部測試精確度為87· 9%。由第八圖到第十一圖，可以確定第二種方法明顯的比第一種方法要來的好，不僅訓練花的時間比較少，而且精確度也比第一種高了 9.3%，由此可以說明本案之分類效果確實比一般分類法來得更佳。綜合以上的說明及論述，本發明係藉由所建構的實物論（Ontology )來做模糊推論，而推論結果將作為模糊類神經網路的輸入，藉此訓練出分類器，如此之設計可減少

則花費之人力，是以雖然本發明以一些較限定本發明僅侷限於在不脫離本發明之潤飾，因此本發明之界定為準。界之需求外，更提出是故本發明實具實用 578097 五、發明說明（21) 以人工方式決定網際網路文件分類規本案實具原創性、新穎性及進步性。佳實實施例揭露於上，然其並非用以新聞類資料分類，任何熟習此技術者精神和範圍内，當可作些許之更動及保濩範圍當事後附之申請專利範圍所因而本案之發明除符合目前產掌了創新的技術解決先前技術之缺失:、發展之價值。 578097

本案藉由下第一第第第四第五第六第七第八第九第十第十圖：習用之圖：基於實圖：本案較地圖。圖（a)〜（g) 之知識本案較表示不漸進式第一種圖圖圖圖圖：第種

Energy 圖：第二種一圖：第二

Ene rgy 列圖示及詳細說明，俾得一更深入了解：分類架構樹狀圖體論架構之文件分類法系統架構圖。佳實施例中所預先架構之特定領域之知識 :本地圖佳實同斜的特方法方法 )° 方法種方 )° 案較佳實施例中所建構出之新聞領域〇施例之文件分類架構示意圖。率a之S型（sigmoid)函數示意圖。徵選取圖。的精確度數據圖。在倒傳遞類神經網路的（Er ror 的精確度數據圖。法在倒傳遞類神經網路的（Error

2516.ptd 第25頁

Claims

578097 六、申請專利範圍 1 · 一種文早分類方法，其包含下列步驟： (a )提供一待分類文章· (b )分析該待分類文章中之所有詞性；、（c )於該所有詞性中選出複數個關鍵詞組，複數個關鍵詞組間之相關性以建立一實體认靼並根據該 (d)計算出該實體論架構中各層間之山 ⑷計算出該實體論架構中最頂層之關值： U )將該概念輸出值及該關係輸 ^:值，值； Ό成一特徵 (g )提供至少一訓練資料，經由一訓至少一訓練資料中各分類層之鍵結值；以及式以獲得該 (h )輸入該特徵值，並利用該至少一次類層之鍵結值作推論，藉以獲得一輸出向量組貝；斗中各分量組中之輸出向量值最高者所對應之分類層=輪出向章之所屬類別。 θδ亥待分類文 2·如申請專利範圍第丨項所述之文章分類方法，驟（a)中之該待分類文章為可擴展標記語=中該步 3. 如申請專利範圍第i項所述之文章分類心格L 驟（c )中之該複數個關鍵詞組係指名詞與動了該步 4. 如申請專利範圍第i項所述之文章分類方法，驟（c)/之相關性係指概念名稱。〃中該步其中該步 5. 如申請專利範圍第1項所述之文章分類方法驟（乂中之相關性係指屬性。 6. 如申請專利範圍第1項所述之文章分類方法其中該步

第26頁 578097 六、申請專利範圍驟（：）令之相關性係指運算。 7驟t/Λ專二範至圍第1項所述之文章分類方法，" 件。 …-訓練資料係指各種不同類別步 8 ·如申請專利笳圖# ,= 驟（g)係蕻i圍第項所述之文章分類方法， ^ 一模糊類神經網路所完成。 9.如申請專利範圍第8項所述之文章分類方法，糊類神經網路係指一模糊倒傳遞網路。 1 0.如申請專利範圍第9項所述之文章分類方法驟(g )中之玆tl丨丨絲+ i —β i R比^ _ 段其中該步〜祀固弟y項所述之又旱/刀、頸方法，其， (g )中之該訓練方式可區分為一第一階段及一第于又° 11 ·如申請專利範圍第1 0項所述之文章分類方法，其中該第一階段用以計算一網路輸出值。 12 ·如申請專利範圍第11項所述之文章分類方法，其中該第二階段則透過一錯誤更正法進行該鍵結值修正，使該網略輸出值能更趨於期望輸出。 1 3 ·如申請專利範圍第1項所述之文章分類方法，其中該步騍（h )中係利用一模糊推論法以完成。 1 4 · 一種文章分類方法，其包含下列步驟· (a )於一待分類文章之所有詞性中選出複數個關鍵詞級，並根據該複數個關鍵詞级間之相關性以建立一概念階階層值 y (b )藉由該概念階層可定義出該待分類文章之特徵麵 2516,ptd 第20 578097 六、申請專利範圍 (c )定義至少一訓練資料中各分類層之鍵結值；以及 (d )輸入該特徵值，並利用該至少一訓練資料中各分類層之鍵結值作推論，藉以獲得一輸出參數組，該輸出參數組中之輸出參數極值所對應之分類層為該待分類文章之所屬類別。 1 5.如申請專利範圍第1 4項所述之文章分類方法，其中該步驟（a)之前又包含下列步驟： (a 1 )提供該待分類文章；以及 (a2 )分析該待分類文章中之所有詞性。 1 6.如申請專利範圍第1 4項所述之文章分類方法，其中該步驟（a)中之該待分類文章為可擴展標記語言格式。 1 7.如申請專利範圍第1 4項所述之文章分類方法，其中該步驟（a )中之該複數個關鍵詞組係指名詞與動詞。 1 8 ·如申請專利範圍第1 4項所述之文章分類方法，其中該步驟（a )中之相關性係指概念名稱。 1 9.如申請專利範圍第1 4項所述之文章分類方法，其中該步驟（a )中之相關性係指屬性。 2 (K如申請專利範圍第1 4項所述之文章分類方法，其中該步驟（a )中之相關性係指運算。 2 1.如申請專利範圍第1 4項所述之文章分類方法，其中該步驟（a )中之該概念階層係根據一實體論架構所完成。 2 2.如申請專利範圍第14項所述之文章分類方法，其中該步驟（b )之前又包含一步驟（b 1 )計算該概念階層中各層之相關參數。

2516.ptd 第28頁 578097

六、申請專利範圍 2 3·如申請專利範圍第22項所述之文章分類方法，其中該步驟（b 1 )係可藉由下列步驟來完成： ’、 ^ (bll )計算出該概念階層中各層間之概念輪出值； (bl 2 )計算出該概念階層中最頂層之關係輸出值；以及 (b 1 3 )將該概念輸出值及該關係輪出值結合成該特徵值。 24·如申請專利範圍第22項所述之文章分類方法，其中該步驟（bl )中之該相關參數係指該概念輪出值及該關係輸出值。 2 5·如申請專利範圍第項所述之文章分類方法，其中該步驟（c )之前又包含一步驟（c 1 )提供至少一訓練資料，經由一運算式以獲得該奚少一訓練資料中各分類層之鍵結值 2 6 ·如申請專利範圍第丨4項所述之文章分類方法，其中該步驟（c )中之該至少一訓練資料係指各種不同類別之文件。 2 7 ·如申請專利範圍第丨4項所述之文章分類方法，其中該步驟（c )係藉由一模糊類神經網路所完成。 28·如申請專利範圍第24項所述之文章分類方法，其中該模糊類神經網路係指一模糊倒傳遞網路。 29·如申請專利範圍第14項所述之文章分類方法，其中該步驟（d)之前又包含步驟（dl )經由一訓練方式以獲得具有較小改變量之鍵結值。

25l6*Ptd 第29頁 578097

&'申請專利範圍 3〇·如申請專利範圍第29項所述之文章分類方法，其中該步驟（d 1 )中之該訓練方式可區分為一第一階段及一階段。 _ 31·如申請專利範圍第3〇項所述之文章分類方法，其中該第一階段用以計算一網路輸出值。 32·如申請專利範圍第31項所述之文章分類方法，其中該第二階段則透過一錯誤更正法進行該鍵結值修路輪出值能更趨於期望輸出。使該、周 3^·如申請專利範圍第14項所述之文章分類方法，其中該 v驟（d )中係利用一模糊推論法以完成。八 " 3步4.驟如rt請專利範圍第14項所述之文章分類方法，其中該 3 ，（ d )中之該輸出參數組係指一輪出向量組。步驟如^請專利範圍第34項所述之文章分類方法，其中該卜(d)中之該輸出參數及值指一輪出向量值最高者。

2516.ptd 第30頁