TW578097B - Article classification method - Google Patents

Article classification method Download PDF

Info

Publication number
TW578097B
TW578097B TW91117713A TW91117713A TW578097B TW 578097 B TW578097 B TW 578097B TW 91117713 A TW91117713 A TW 91117713A TW 91117713 A TW91117713 A TW 91117713A TW 578097 B TW578097 B TW 578097B
Authority
TW
Taiwan
Prior art keywords
article
scope
item
patent application
value
Prior art date
Application number
TW91117713A
Other languages
English (en)
Inventor
Jian-Shing Li
Jiun-Jie Gung
Jen-Peng Shiu
Yau-Huang Guo
Original Assignee
Walsin Lihwa Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Walsin Lihwa Corp filed Critical Walsin Lihwa Corp
Priority to TW91117713A priority Critical patent/TW578097B/zh
Application granted granted Critical
Publication of TW578097B publication Critical patent/TW578097B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

五、發明說明(1) 發 明 領 域 本 案 為 種 章 分 類 方 法 〇 發 明 背 景 隨 著 電 腦 的 化 世 代 的 來 臨 9 知 識 的 來 源 之 由 如 此 大 量 的 資 工 作 9 因 而 須 白 門 別 類 5 以 便 讓 文 文 件 動 分 類 或 多 層 的 知 識 分 動 建構 出 全 的 的 需 要 5 隨 時修 到 白 動 關 鍵 字 擷 件 的 存 取 與 再 利 分 類 到 個 階 層 立 及 維 護 個 龐 者 階 層 式 分 類 而 g 前 所 使 理 J 是 藉 由 使 用 訓 練 J > 建 立 分 家 J 0 曰 後 再 有 普及及 也因此 ’然由 訊中找 動分類 搜尋工 」技術 類架構 知識地 改分類 取、相 用,確 式的分 大的階 會遭遇 用之「 者所提 類行為 新文件 網際網 網路資 於網頁 出使用 的機制 作能更 可依個 ;並依 圖及知 的架構 關文件 實是助 類架構 層式分 相似文 中文文 供的小 的模型 進入系 路的蓬 訊儼然 文件等 者需要 將這些 有效率 別的產 每個類 識樹; 。在進 分析等 益良多 會遭遇 種文早分類方法’尤指應用實體論架構之文 勃發展,更加速了 e 已成為人們主要獲取 線上資訊的激增,要 的部分是相當困難的 文件依人們的知識分 。對企業而言,「中 業需求’建立起單層 別所隸屬的關係,自 同時亦可因應管理者 階的應用上,則可做 功能,有效地增進文 。然而,將文件自動 到一些困難,如:建 類機制是相當費時的;再 件難以分類的問題。 件自動分類」技術的基本原 量分類樣本資料進行「模型 ,進而培養「虛擬分類專 統時’即可根據已建立的模
578097 五、發明說明(2)
型,自 人工智 關鍵字 件只能 性時, 類別區 圖,因 語意相 文件中 一般文 類〃新 想到> 類為 法顯然 的資料 仍存在 動將每份文件歸屬到一個類別 慧、模糊計算等技術,進行文 ,並依據内文進行自動分類。 歸屬到一個類別,因此,當有 系統便很難去界定其類別,再 刀至小類別,如第一圖所示之 此一般只有大類別間會具有連 關之文件間並不會有連結,例 出現、多次有關『台北市長』及 章中出現『台北市長』通常會 聞;同理,若文章中出現『跑 體育類〃新聞,是以運用一般 社會類〃或、、體育類〃新聞之 車又為不客觀’相對地,當使用 也較有限,因此,一般「中文 有如下之困難必須解決: •文件分類困難 •僅能作單一項目之分類 。廷些原理 意分析,以 但其缺點在 一份文件具 者,由於文 新聞分類架 結,是以具 如:當有一 『跑步j的 令人聯想到 步』則自然 /分類架構僅 需應用到 自動產生 於每份文 有多種屬 件是以大 構樹狀 有某部分 篇待分類 詞語,而 >社會 會令人聯 能將其歸 一種,此種單一分類 者以不同層 文件自動分 面所搜尋 類」技術 職是之故,申請人鑑於習知技術之缺失,乃經悉心試 驗與研究,並一本鍥而不捨之精神,終研發出本案之『文 章分類方法』。
578097 五、發明說明(3) 發明概述 本發明之主要目的,在於提供一種文章分類 ,豆 # 步驟:⑷提供一待分類文章;(b)=該待 刀類文旱中之所有詞性;(C )於該所有詞性中選出複數 j關鍵詞組’並根據該複數個關鍵詞組間之相關性以建立 二:ΐ:ΐ架構;⑷計算出該實體論架構中各層間之概 22出f (e)計算出該實體論架構中最頂層之關係輸 i ()將該概念輸出值及該關係輸出值結合成一特 二j s丨g )提仏至;一訓練資料,經由一訓練方式以獲 訓:資料中各分類層之鍵結值;以及⑴輸 值㈣論,藉以少一訓練資料中各分類層之鍵結 出向量值1 = 1 輸出向量組,該輸出向量組中之輸 別 最同者所對應之分類層為該待分類文章之所屬類 根據上述構想,該步驟 擴展標記語言格式。 根據上述構想,該步驟 係指名詞與動詞。 根據上述構想,該步 稱。 根據上述構想,該步驟 根據上述構想,該步驟 根據上述構想,該步驟 係指各種不同類別之文件。 (a)中之該待分類文章為可 (c )中之該複數個關鍵詞組 (c )中之相關性係指概念名 (c )中之相關性係指屬性。 (c )中之相關性係指運算。 (g )中之該至少一訓練資料
578097
經網 五、發明說明(4) 根據上述構想,該步驟(g )係藉由一 路所完成。 網路 根據上述構想’該模糊類神經網路係指一模糊甸傳遞 根據上述構想’該步驟(g )中之該訓練方式 為—第一階段及一第二階段。 品分 根據上述構想,該第一階段用以計算一網路輪出值。 • 根據上述構想,該第二階段則透過一錯誤更正法進行 該鍵結值修正,使該網路輸出值能更趨於期望輸出’。仃 根據上述構想,該步驟(h )中係利用一模糊推論法 以完成。 、娜/ 本案之次一目的為提供一種文章分類方法,其包含下 歹J步驟·( a )於一待分類文章之所有詞性中選出複數個 關鍵詞組,並根據該複數個關鍵詞組間之相關性以建立一 概念階層;(b )藉由該概念階層可定義出該待分類文章 之特徵值;(c )定義至少一訓練資料中各分類層之鍵結 值;以及(d )輸入該特徵值,並利用該至少一訓練資料 中各分類層之鍵結值作推論,藉以獲得一輪出參數組、,/該 輸出參數組中之輸出參數極值所對應之分類層為該待分類 文章之所屬類別。 《 ' μ 刀、 根據上述構想’該步驟(a )之前又包含下列步驟: (al )提供該待分類文章;以及(a2 )分析該待分類文章 中之所有詞性。 、 根據上述構想,該步驟(a )中之該待分類文章為可
2516.ptd 578097 五、發明說明(5) 擴展標記語言格式 根據上述構想 係指名詞與動詞。 根據上述構想 根據上述構想 根據上述構想 根據上述構想 該步驟(a )中之該複數個關鍵詞組 該步驟(a )中之相關性係指概念名 該步驟(a )中之相關性係指屬性。 該步驟(a )中之相關性係指運算。 中之該概念階層係根據 a 該步驟 實體論架構所完成。 根據上述構想,該步驟(b )之前又包含一步驟 (Μ )計算該概念階層中各層之相關參數。 根據上述構想,該步驟(b 1 )係可藉由下列步驟 Π: (H1i計算出該概念階層中各層間之“輸出 ,(b 1 2 )计算出該概念階層中最頂層之 :;“13)將該概念輸出值及該關係,值結=特 根據上述構想,該步驟(bl) 概念輸出值及該關係輪出值。 該相關參數係指該 根據上述構想,該步驟(c (cl )提供至少一訓練資料, 别又包含一步驟 -訓練資料中各分類層之鍵結值由-運算式以獲 根據上述構想,該步值。 係指各種不同類別之文件。 中之該至少一训練資料 根據上述構想,該步驟 、黃枓 )係藉由-模細 578097
路所完成。
根據上述構想,該模糊類神經網路係指—模糊倒傳 網路。 C 根據上述構想,該步驟(d )之前又包含步驟(d i ) 經由一訓練方式以獲得具有較小改變量之鍵結值。 、 根據上述構想,該步驟(d 1 )中之該訓練方式可區分 為一第一階段及一第二階段。 刀 根據上述構想,該第一階段用以計算一網路輸出值。 根據上述構想,該第二階段則透過一錯誤更正法進行 該鍵結值修正,使該網路輸出值能更趨於期望輸出。 根據上述構想,該步驟(d )中係利用一模糊推論法 以完成。 根據上述構想,該步驟(d )中之該輸出參數組係指 一輸出向量組。 曰 根據上述構想’該步驟(d)中之該輸出參數及值指 一輸出向量值最高者。 實施例說明 本發明專利提出一個基於實體論(0nt〇l〇gy)架構之 文件分類法,糸統架構如第二圖所示。本系統主要分成三 個部分I第一個部份先使用中央研究院所開發出來的斷詞 及標示^]性機制031'1:-〇卜3066〇11了3忌忌6[((31(1?)斷詞系統 將一篇可擴展標記語言(XML )格式的中文文章之所有詞 性標示出來’再利用特徵詞選取技術挑選出重要的動詞及
578097 五、發明說明(7) 名詞;第二部分則使用概念式階層圖做模糊推論;第三部 分使用模糊類神經網路做智慧型中文分件分類,最後將分 類好的文件放入資訊儲存體中。 首先’我們需建構出某一特定領域之知識地圖 (Domain Ontology),如第三圖所示。其中q是第丄個概念 名稱(Concept name)、Ai是第i個概念的屬性 (Attribute) ’〇〖是第i個概念的運算(operati〇n),而i由 1到η。下層的概念為上層註腳後加上新的註腳。 第四圖(a)〜(g)為我們所建構出之新聞領域之知識地 圖(Domain Ontology ),依序分別為"運動天地”、”影視娛 樂”,’’財經產業"、”國際大陸"、"政治新聞"、"社會綜合 ”及’’股市理財”,以作為文章之分類規則。 第一部份: 1.斷巧及標示詞性機制(part — 〇f-Speech Tagging) 我們利用中研院所提供的斷詞系統(CK IP),將文件作 斷詞和標注詞性。 2 ·特徵值選取機制 並將文章中諸如,’的"、"將,,和"是”等無法提供有用資 訊的Stop Word加以過濾去除,取出文章中的名詞和動 詞。 特徵值選取機制演算法: 輸入:
2516.ptd 第10頁 578097 五、發明說明(8) 輸入一篇文章。 輸出: 產生輸入文章中之動名詞。 方法: 步驟1 :利用中研院所提供的斷詞系統(CKI P ),將文件作 斷詞和標注詞性的動作。 步驟2 :利用標注的詞性,將文章中的名詞取出。 步驟3 :利用標注的詞性,將文章中的動詞取出。 步驟3 :將名詞和動詞儲存。 步驟3 :結束。 第二部份: 概念階層圖推論機制 第五圖乃本發明專利之核心技術部份,現說明如下: D i表示類神經網路的輸出層,&和中間黑色概念為類 神經網路的輸入層,而i由1到!1。 第六圖表示不同斜率a之S型(sigmoid)函數。其函 數如式(1 )所示。 φ(η) =--- 1 + exp(-aw) (ι) 概念階層圖推論機制演算法: 輸入:
2516.ptd 第11頁 578097
輸入一篇文章的所有動詞和名詞。 輸出: 產生輸入文章中特徵的特徵值。 參數: confidence(C)表示概念c和其父概念的信心值,r表 示概念階層推論的推論比例,p則是概念和關係之間決定 特殊值的比率,a是sigmoid函數的斜率,而η是一個此概 念名稱、屬性或運算出現的次數,Maxi是從低層級來的第 i個最大輸入,而m則是概念C的有效連結數, c ο n f i d e n c e ( R ) 是概念C和關係R的信心值,s則是關係 應用次數之間決定特殊值的比率,t是關係R應用次鉍μ 取的總 合。 方法: 步驟1 :將文章中的名詞和動詞取出。 步驟2 :取出各類On to logy中每一層的概念名稱、屬性咬 運算。 3 步雜3 ··對於Ontology的每層概念C。
步驟3· 1如果沒有子概念,則此層概念名稱、屬性或 運算的輸出值為W W = 咖妙咖(c〇 X (卜厂)+ " (1 /(1 + (exp卜㈣》)
578097 五、發明說明(10) 步驟3 · 2如果有子概念,則對於此層概念名稱、屬性或 運算。 步驟3· 2· 1讀入所有子概念的輸出值,計算l。 Μαχι + (1-Μαχι)χΜαχ2 +...+ (1-Μαχ1)χ(1~Λ/αχ2)χ...χ(1-Μαχι)χΜ^ +...+ (1~Μ^ι)χ(1~^^2)><...χ(1-Μαχ:;π_1)χΜαχ>π 步驟3· 2· 2計算此層原本的輸出值w W = confidence{Cf) x (1 - r) + r x (1 /(1 + (exp(-^¾)))) 步驟3·2·3組合步驟3·2·1和步驟3·2·2產生的結果產 生此層的輸出值。 0utput(C)= (1-ρ) χ [ confidence^C) x ¢1 - r) + r x (1 /(1 + (exp {-an)))) ] + Px [ confidence{〇x{{^ r)^rxL ] 步驟4 :對於最頂層的概念,計算關係的輸出值 Output(R)。
Output (R)= confidence^) x (1 - + 5 x (I /〇 + (exp(-^)))) 步驟5 :將概念輸出值和關係輸出值結合成文章中所有特
578097
徵的特徵值。 步驟6 :結束。 第三部份: 智慧型模糊類神經網路分類機制 本案之模糊類神經網路是使用模糊倒 網路訓練方式分成前饋階段以及倒傳遞階 ,入向量由輸入層輸入,經由隱藏層傳遞 算出網路輸出值;而在倒傳遞的部份,網 誤更正法進行鍵值修正,期望能夠使網路 望輸出。 〇在訓練過程中,學習速率設的越小, 量也會越小,鍵結值向量在鍵結值空間中 平滑,然而,網路收斂的速度也須要更久 地,我們若將學習率設得較大以增快學習 產生較大的鍵結值改變量,可能會使得網 無法收斂。 一個簡單的方法就是將原先修正鍵結 入一個慣性項,如式(3)所示。 傳遞網路,它的 段。在前饋階段 至輪出層,並計 路鍵結值逶過錯 輸出更趨近於期 則鍵結值的改變 的搜尋軌跡也越 的時間;相反 速率,則所對應 路變得不穩定而 值的函數(2)加 (2) 其中q是學習速率,決定鍵結值修正量的幅度, 578097 五、發明說明(12) 是區域梯度函數 (3) Δ\ν .. (n) = aAwJt {η^ΐ)^(\^α)ηξ (η)γ((η) 在實驗中,將慣性項設為〇 9 ,讦涅 法。因此我們定義一個估算函無异貝訊为類準確度的方 出結果 歎,用來計算得 鮮(/Λ卜 卜",ί/Κ·-ο, β (4) (5) (6) 其中Θ是懲罰值,a < 〇 ; 、是第i個文件中的第· J個神經元的輪· 〇是第i個文件中的第〗個 ’ Μ是用來訓練的文件總數种經70的期望輸出值; Ν是輸出層的神經元總數· #,>〇是估算函數,利用 出值Χ和期望輸出值y
578097
計算結果; 烈尽是某一時期第i個文件的精確度; 在估::是某一時期所有文件的精確度。 於等於門^方的\中,輸)出值和期望輸出值的差值小 於。或是懲罰值。對於每一、為1… 声A直裕女# 、母伤文件來說,該份文件的精確 ΐ後;所::算值的總合除以輸出層神經元個數的結果。 # 件的精確产213確度總合除以文件總數即可得所有文 確類,“率二ΐ們可以說精讀度越高,能夠分類到正 別時,二:ί ΐ °又:十期望輸出值時,如果文件不屬於該類 到1之Η Α輸士出值為0 ’反之則為1 ’因此門權值必須在〇 必項佑V基广上門檻值應該是0和1的中間值’但是仍然 :乂 文件訓練的結果而定。在訓練完模糊類神經網路 趣i們將利用模糊推論決^輸人的特徵值,錢使用 模糊類神經網路做文件分類。下面是各個部分的演算法。
智,型模糊類神經網路分類機制(使用倒 演算法: 一 ·、訓練部份: 輸入: 足夠數量的訓練資料(七種類別的文件)。 輸出:
578097 五、發明說明(14) 產生類神經網路的鍵結值 參數: 々⑷代表輸入向量,n代表第η個訓練範例,num代表 要記錄鍵結值的訓練次數。 方法: 步驟1 步驟2 步驟3 設定網 參數。 以均佈 輸入一 步驟3· 1對於 步驟3. 1. i 步驟3. 1. 2 步驟3. 1. 3 步驟3. 1. 4 步驟3 · 1. 5 步驟3 · 2計算 步驟3 · 3計算 步驟3· 4透過 算新 步驟3 · 5如果 路參數:設定學習速率7和慣性項π等網路 隨機亂數設定鍵結值矩陣。 個訓練範例的輸入向量以及目標向量。 類神經網路的所有隱藏層。 如果是第一層的隱藏層,則X⑻=:^)。 否則λ⑻代表前一層的神經元輸出向量。 =算所有的乃⑷乘上其閥值的總 合’則可得神經元j的網路輸入(n)。 利用活化函數和ν』·( η ),取得該神經元的 輸出。 如果還有下一層隱藏層則跳回步騾。 出推論輸出向量。 誤差函數。 錯誤更正法、誤差函數以及舊的鍵結值計 的鍵結值。 這一個訓練範例是n ura的倍數,將各層的舍
578097 五、發明說明(15) 結值和狀Uy) 值記錄於檔案中。 步驟3. 6如果鍵結值尚未收斂,則跳回步驟3。 步驟4 :將各層的鍵結值儲存起來。 步驟5 :結束。 二、分類部份: 輸入: 待分類文件的特徵值。 輸出: 文件的類別。 參數: η代表第η個訓練範例。 方法: 步驟1 :設定網路參數:設定學習速率π和慣性項π等網路 參數。 步驟2 :讀入鍵結值矩陣。 步驟3 :輸入文件特徵值向量。 步驟3. 1對於類神經網路的所有隱藏層。 步驟3. 1 · 1如果是第一層的隱藏層,則。 步驟3. 1. 2否則Α⑷代表前一層的神經元輸出值。 步驟3· 1· 3計算所有的乃⑷乘上其閥值(η)的總合, 則可得神經元j的網路輸入ν j (η )。
2516.ptd 第18頁 578097 五、發明說明(16) 步驟3· 1· 4利用活化函數和乂〗(η),取得該神經元的輸 出。 步驊3.1.5如果還有下一層隱藏層則跳回步驟3 1。 步驟3.2計算出推論輸出向量。 步驟4 :對應向量中值最高的類別,輸出該類別。 步驟5 :結束。 三、將已分類文件存入資訊儲存庫: 籲 最後我們將經由基於Ontology的資訊分類技術得出 的分類文件儲存於各個類別的資料庫中。 為使本案之專利性更為明確’申請人茲提出比較說 明’如下所示: 本案之實驗資料是採用中時電子報的七類新聞,其新 ★種,類y國際大陸"、"政治新聞"、"財經產業"、"社會 萬象、影視娛樂”、”運動天地,,及,,股市理財”七大類。 訓練資料和測試資料分佈表 706 ------ 601 1307 樂 財經產業 國際大陸 政治新聞 社會萬象 運動天地 股市理財 總和 266 264 280 591 473 181 2761 175 246 325 609 450 175 2581 441 510 605 1200 923 356 5342 表(一) 訓練資料 測試資料 總和
第19頁 578097
表(一)為2 0 〇 1年2月到5月期間每一類新聞的數量。苴 中訓練資料有2761篇新聞,測試資料則有2581篇。每一 ^ 測試資料皆有標示類別,因此可以直接用來訓練。由於模 糊類神經網路的輸入特徵值必需要在訓練之前選取出來,、 因此採用漸進式的特徵選取方式,第七圖為漸進式的特徵 選取圖。為了比較分類結果的好壞,本案使用了另一個分 類的方法來做對照組,這個方法只使用關聯法則 ^association ruie)來選擇特徵,在此法中產生一個推 ,特徵(candidate feature)的條件為支持值(supp〇rt value)大於1〇%且信心值(c〇nfidence value)大於8⑽。此 外當有特徵的推論特徵大於20%且信心值大於9〇%時,可以 把這些特徵組合成同一個概念。這些概念就是倒傳遞類神 經網路的輸入值。另一個方法是使用基於〇nt〇1〇gy架構之 智慧型中文文件分類器,首先我們將sigm〇 id函數中的參 數a设定成1 ’因為平均一個概念會有4.89個詞出現在一份 文件裡’取整數5,而5的sigmoid函數值為〇·99,因此設 定a = l來滿足我們的需求。
首先從未知數量的特徵中取出31515個名詞和動詞。 如果只使用關聯法則(a s s 〇 c i a t i 〇 n r u 1 e )作篩選的話, 會選取出4 9 5個名和動詞,在概念化後,可以得到& & 2個 概念。若使用本案之基於Onto l〇gy架構之智慧型中文文件 分類器,則會選取出490個詞作為概念階層架構圖的節點 和關係詞。雖然4 9 0個詞比第一種方法的4 5 2個詞為多,但 是在後面將可證實第二種分類精確度比第一種高。
2516.ptd 第20頁 578097
-伽模組被採用•’特徵概念即為輸入向量。在第 旦1將會使用模糊推論產生模糊類神經網路的輸入 σ里。這些輸入向量是用來給類神經網路訓練用類神 經網路的完整規格如下: 類神經網路的各層數量如下·· 方法1 : 452-1 ^154 方法2 : 490-1l15_7
其中輸入,的節點個數一方法1為452,方法2為490 第一層隱藏層的節點個數皆為1 5 第二層隱藏層的節點個數皆為1 5 輪出層的節點個數為7 學習速率為0. (H 隱臧層的活化函數為 /(χ) =——^--- )
(e - 2) l + exp(i) 輪出層的活化函數為 /(^) = X 估算函數: 备期望輸出值為0時,估算函數為 卿〆tf) = | 1 <〇ί;. <0.4 L U ’otherwise (e - 3)
第21頁 578097
當期望輸出值為1時,估算函數為 SK) = 1 ,ί/Ό.6<^-<2.5 0.1 ’otherwise PRE^\nJ^EV{o^) Μ ZPRSi (e - 4) (e-5 ) (e-6 ) 其中M為2761篇訓練資料或著是2581篇的測試資 e 3和e 4疋出自第(4)式,但是這裡有一點 卷遭 為L 5時―,將會有一塊大小為0.5的中間區域重疊,\選、擇 造成決疋的困難。因此兩個個案必需各別的被處理^裡會 巧案1 :當期望輸出值為〇時,如果輸出值範 .〜.4 ’則估算函數傳回1,否則傳回〇。 、,爾,望輸出值為〇時,如果輸出值範園為 .〜.,則估算函數傳回1,否則傳回、' 的結t 4二6的4 = Γ辦法使用資訊分類得到明確 區域。在這:區乂外,].".5都屬於可以判斷: 都高則判斷結果為^類:果某一個類別的信心值比其他的 合理是線性函數,因此限制區域是 和特徵。 。疋輸出的範圍將有助於培養出好的網路
2516.ptd 第22頁 578097 五、發明說明(20) 最後兩種方法的結果我們顯示在表(二)中 表(二)文件分類的結果 關聯法則 實體論架構之分類法 CPREtotal) 誤差總和 精確度 (P如total、 誤差總和 訓練文件 98. 4% 0.00514(至 76,000 時期) 99.1% 0.00030(至25,000 時期) 第八圖中’第一種方法的訓練行程要訓練到第76〇 〇〇 個時期才穩定下來,使用訓練資料所做的内部測試精確度 為98· 4%,而使用測試資料所做的外部測試精確度為 78· 6% 。 在第九圖中,第二種方法的訓練行程要訓練到第 2 5 0 0 0個時期才穩定下來’使用訓練資料所做的内部測試 精確度為99· 1%,而使用測試資料所做的外部測試精確度 為87· 9%。 由第八圖到第十一圖,可以確定第二種方法明顯的比 第一種方法要來的好,不僅訓練花的時間比較少,而且精 確度也比第一種高了 9.3%,由此可以說明本案之分類效果 確實比一般分類法來得更佳。 綜合以上的說明及論述,本發明係藉由所建構的實物 論(Ontology )來做模糊推論,而推論結果將作為模糊類 神經網路的輸入,藉此訓練出分類器,如此之設計可減少
則花費之人力,是以 雖然本發明以一些較 限定本發明僅侷限於 在不脫離本發明之 潤飾,因此本發明之 界定為準。 界之需求外,更提出 是故本發明實具實用 578097 五、發明說明(21) 以人工方式決定網際網路文件分類規 本案實具原創性、新穎性及進步性。 佳實實施例揭露於上,然其並非用以 新聞類資料分類,任何熟習此技術者 精神和範圍内,當可作些許之更動及 保濩範圍當事後附之申請專利範圍所 因而本案之發明除符合目前產掌 了創新的技術解決先前技術之缺失:、 發展之價值。 578097
本案藉由下 第一 第 第 第四 第五 第六 第七 第八 第九 第十 第十 圖:習用之 圖:基於實 圖:本案較 地圖。 圖(a)〜(g) 之知識 本案較 表示不 漸進式 第一種 圖 圖 圖 圖 圖:第 種
Energy 圖:第二種 一圖:第二
Ene rgy 列圖示及詳細說明,俾得一更深入了解: 分類架構樹狀圖 體論架構之文件分類法系統架構圖。 佳實施例中所預先架構之特定領域之知識 :本 地圖 佳實 同斜 的特 方法 方法 )° 方法 種方 )° 案較佳實施例中所建構出之新聞領域 〇 施例之文件分類架構示意圖。 率a之S型(sigmoid)函數示意圖。 徵選取圖。 的精確度數據圖。 在倒傳遞類神經網路的(Er ror 的精確度數據圖。 法在倒傳遞類神經網路的(Error
2516.ptd 第25頁

Claims (1)

  1. 578097 六、申請專利範圍 1 · 一種文早分類方法,其包含下列步驟: (a )提供一待分類文章· (b )分析該待分類文章中之所有詞性; 、(c )於該所有詞性中選出複數個關鍵詞組, 複數個關鍵詞組間之相關性以建立一實體认靼並根據該 (d)計算出該實體論架構中各層間之山 ⑷計算出該實體論架構中最頂層之關值: U )將該概念輸出值及該關係輸 ^:值, 值; Ό成一特徵 (g )提供至少一訓練資料,經由一訓 至少一訓練資料中各分類層之鍵結值;以及式以獲得該 (h )輸入該特徵值,並利用該至少一次 類層之鍵結值作推論,藉以獲得一輸出向量組貝;斗中各分 量組中之輸出向量值最高者所對應之分類層=輪出向 章之所屬類別。 θδ亥待分類文 2·如申請專利範圍第丨項所述之文章分類方法, 驟(a)中之該待分類文章為可擴展標記語=中該步 3. 如申請專利範圍第i項所述之文章分類心格L 驟(c )中之該複數個關鍵詞組係指名詞與動了該步 4. 如申請專利範圍第i項所述之文章分類方法, 驟(c)/之相關性係指概念名稱。 〃中該步 其中該步 5. 如申請專利範圍第1項所述之文章分類方法 驟(乂中之相關性係指屬性。 6. 如申請專利範圍第1項所述之文章分類方法 其中該步
    第26頁 578097 六、申請專利範圍 驟(:)令之相關性係指運算。 7驟t/Λ專二範至圍第1項所述之文章分類方法," 件。 …-訓練資料係指各種不同類別步 8 ·如申請專利笳圖# ,= 驟(g)係蕻i圍第項所述之文章分類方法, ^ 一模糊類神經網路所完成。 9.如申請專利範圍第8項所述之文章分類方法, 糊類神經網路係指一模糊倒傳遞網路。 1 0.如申請專利範圍第9項所述之文章分類方法 驟(g )中之玆tl丨丨絲+ i —β i R比^ _ 段 其中該步 〜祀固弟y項所述之又旱/刀、頸方法,其, (g )中之該訓練方式可區分為一第一階段及一第 于又° 11 ·如申請專利範圍第1 0項所述之文章分類方法,其中該 第一階段用以計算一網路輸出值。 12 ·如申請專利範圍第11項所述之文章分類方法,其中該 第二階段則透過一錯誤更正法進行該鍵結值修正,使該網 略輸出值能更趨於期望輸出。 1 3 ·如申請專利範圍第1項所述之文章分類方法,其中該步 騍(h )中係利用一模糊推論法以完成。 1 4 · 一種文章分類方法,其包含下列步驟· (a )於一待分類文章之所有詞性中選出複數個關鍵詞 級,並根據該複數個關鍵詞级間之相關性以建立一概念階 階 層 值 y (b )藉由該概念階層可定義出該待分類文章之特徵 麵 2516,ptd 第20 578097 六、申請專利範圍 (c )定義至少一訓練資料中各分類層之鍵結值;以及 (d )輸入該特徵值,並利用該至少一訓練資料中各分 類層之鍵結值作推論,藉以獲得一輸出參數組,該輸出參 數組中之輸出參數極值所對應之分類層為該待分類文章之 所屬類別。 1 5.如申請專利範圍第1 4項所述之文章分類方法,其中該 步驟(a)之前又包含下列步驟: (a 1 )提供該待分類文章;以及 (a2 )分析該待分類文章中之所有詞性。 1 6.如申請專利範圍第1 4項所述之文章分類方法,其中該 步驟(a)中之該待分類文章為可擴展標記語言格式。 1 7.如申請專利範圍第1 4項所述之文章分類方法,其中該 步驟(a )中之該複數個關鍵詞組係指名詞與動詞。 1 8 ·如申請專利範圍第1 4項所述之文章分類方法,其中該 步驟(a )中之相關性係指概念名稱。 1 9.如申請專利範圍第1 4項所述之文章分類方法,其中該 步驟(a )中之相關性係指屬性。 2 (K如申請專利範圍第1 4項所述之文章分類方法,其中該 步驟(a )中之相關性係指運算。 2 1.如申請專利範圍第1 4項所述之文章分類方法,其中該 步驟(a )中之該概念階層係根據一實體論架構所完成。 2 2.如申請專利範圍第14項所述之文章分類方法,其中該 步驟(b )之前又包含一步驟(b 1 )計算該概念階層中各 層之相關參數。
    2516.ptd 第28頁 578097
    六、申請專利範圍 2 3·如申請專利範圍第22項所述之文章分類方法,其中該 步驟(b 1 )係可藉由下列步驟來完成: ’、 ^ (bll )計算出該概念階層中各層間之概念輪出值; (bl 2 )計算出該概念階層中最頂層之關係輸出值;以 及 (b 1 3 )將該概念輸出值及該關係輪出值結合成該特徵 值。 24·如申請專利範圍第22項所述之文章分類方法,其中該 步驟(bl )中之該相關參數係指該概念輪出值及該關係輸 出值。 2 5·如申請專利範圍第項所述之文章分類方法,其中該 步驟(c )之前又包含一步驟(c 1 )提供至少一訓練資 料,經由一運算式以獲得該奚少一訓練資料中各分類層之 鍵結值 2 6 ·如申請專利範圍第丨4項所述之文章分類方法,其中該 步驟(c )中之該至少一訓練資料係指各種不同類別之文 件。 2 7 ·如申請專利範圍第丨4項所述之文章分類方法,其中該 步驟(c )係藉由一模糊類神經網路所完成。 28·如申請專利範圍第24項所述之文章分類方法,其中該 模糊類神經網路係指一模糊倒傳遞網路。 29·如申請專利範圍第14項所述之文章分類方法,其中該 步驟(d)之前又包含步驟(dl )經由一訓練方式以獲得 具有較小改變量之鍵結值。
    25l6*Ptd 第29頁 578097
    &'申請專利範圍 3〇·如申請專利範圍第29項所述之文章分類方法,其中該 步驟(d 1 )中之該訓練方式可區分為一第一階段及一 階段。 _ 31·如申請專利範圍第3〇項所述之文章分類方法,其中該 第一階段用以計算一網路輸出值。 32·如申請專利範圍第31項所述之文章分類方法,其中該 第二階段則透過一錯誤更正法進行該鍵結值修 路輪出值能更趨於期望輸出。 使該、周 3^·如申請專利範圍第14項所述之文章分類方法,其中該 v驟(d )中係利用一模糊推論法以完成。 八 " 3步4.驟如rt請專利範圍第14項所述之文章分類方法,其中該 3 , ( d )中之該輸出參數組係指一輪出向量組。 步驟如^請專利範圍第34項所述之文章分類方法,其中該 卜(d)中之該輸出參數及值指一輪出向量值最高者。
    2516.ptd 第30頁
TW91117713A 2002-08-06 2002-08-06 Article classification method TW578097B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW91117713A TW578097B (en) 2002-08-06 2002-08-06 Article classification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW91117713A TW578097B (en) 2002-08-06 2002-08-06 Article classification method

Publications (1)

Publication Number Publication Date
TW578097B true TW578097B (en) 2004-03-01

Family

ID=32847359

Family Applications (1)

Application Number Title Priority Date Filing Date
TW91117713A TW578097B (en) 2002-08-06 2002-08-06 Article classification method

Country Status (1)

Country Link
TW (1) TW578097B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI402712B (zh) * 2007-12-21 2013-07-21 Yahoo Inc 以推論分析法分析使用者評論之方法及電腦可讀取媒體
TWI474139B (zh) * 2012-09-20 2015-02-21 Min Hwei College Of Health Care Man 資料分群方法與其電腦程式軟體
TWI608367B (zh) * 2012-01-11 2017-12-11 國立臺灣師範大學 中文文本可讀性計量系統及其方法
TWI643079B (zh) * 2017-01-04 2018-12-01 國立臺北護理健康大學 文獻分類方法與電腦可讀取媒體
TWI749901B (zh) * 2020-11-25 2021-12-11 重量科技股份有限公司 形成關鍵資訊的方法與電腦系統

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI402712B (zh) * 2007-12-21 2013-07-21 Yahoo Inc 以推論分析法分析使用者評論之方法及電腦可讀取媒體
TWI608367B (zh) * 2012-01-11 2017-12-11 國立臺灣師範大學 中文文本可讀性計量系統及其方法
TWI474139B (zh) * 2012-09-20 2015-02-21 Min Hwei College Of Health Care Man 資料分群方法與其電腦程式軟體
TWI643079B (zh) * 2017-01-04 2018-12-01 國立臺北護理健康大學 文獻分類方法與電腦可讀取媒體
TWI749901B (zh) * 2020-11-25 2021-12-11 重量科技股份有限公司 形成關鍵資訊的方法與電腦系統

Similar Documents

Publication Publication Date Title
Yang et al. A hybrid retrieval-generation neural conversation model
Bao et al. Table-to-text: Describing table region with natural language
Sivakumar et al. Review on word2vec word embedding neural net
CN113961705B (zh) 一种文本分类方法及服务器
Liu et al. LTP: a new active learning strategy for CRF-based named entity recognition
Carrara et al. Picture it in your mind: Generating high level visual representations from textual descriptions
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
Yi et al. Exploring hierarchical graph representation for large-scale zero-shot image classification
Goswami et al. Unsupervised relation extraction from language models using constrained cloze completion
Behmanesh et al. Improved relation span detection in question answering systems over extracted knowledge bases
TW578097B (en) Article classification method
CN117421420A (zh) 一种基于软提示学习的中文点击诱饵检测方法
Hu et al. Reading broadly to open your mind improving open relation extraction with search documents under self-supervisions
Fuxman et al. Improving classification accuracy using automatically extracted training data
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
Bhuiyan et al. An effective approach to generate Wikipedia infobox of movie domain using semi-structured data
Poornima et al. Abstractive multi-document summarization using deep learning approaches
Feng et al. A method of named entity recognition in classical Chinese based on Bert-Ancient-Chinese
Meng et al. Bidirectional Gated Recurrent Unit Networks for Relation Classification with Multiple Attentions and Semantic Information
Li et al. A semi-supervised paraphrase identification model based on multi-granularity interaction reasoning
Sirirattanajakarin et al. Annotation intent identification toward enhancement of marketing campaign performance
Sheth et al. Analyzing Online Purchase Behaviour Through Machine Learning Approach Based Ordering Mechanism
LU505297B1 (en) Method for constructing social media disaster effective information detection model
Roul et al. Categorizing text data using deep learning: a novel approach
Meng et al. Enhancing Cross-Domain Term Extraction with Neural Topic-based Models

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees