TW507141B - Automatic classifying system and method with embedded semantic analysis - Google Patents

Automatic classifying system and method with embedded semantic analysis Download PDF

Info

Publication number
TW507141B
TW507141B TW88110439A TW88110439A TW507141B TW 507141 B TW507141 B TW 507141B TW 88110439 A TW88110439 A TW 88110439A TW 88110439 A TW88110439 A TW 88110439A TW 507141 B TW507141 B TW 507141B
Authority
TW
Taiwan
Prior art keywords
file
keywords
scope
patent application
item
Prior art date
Application number
TW88110439A
Other languages
English (en)
Inventor
Yi-Cheng Wu
Jian-Cheng Dai
Jeng-Shiuan Li
Original Assignee
Inst Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inst Information Industry filed Critical Inst Information Industry
Priority to TW88110439A priority Critical patent/TW507141B/zh
Application granted granted Critical
Publication of TW507141B publication Critical patent/TW507141B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

507141
本&月係有關於一種可嵌入語意解析之自動分類系統 和方法二特=是針對自動分類系統進行分類時所需要的文 件關鍵詞’提出一種新的篩選方式,藉此能夠提昇自動分 類系統的分類有效性以及正確性。
由於網際網路的普及,大量的文件出現於網路之中, 這些文件的形式大部分均為HTML格式或是較新的XML格 式。正口為目别文件數量極為龐大,如果要將這些文件進 行分類(例如像一般搜尋引擎所做的分類),幾乎是不可能 利用人工加以完成。所以,文件的自動分類系統便應運而 生’而文件自動分類系統不僅僅使用於各種網際網路上的 文件分,,同時也可以應用於各種資料庫系統中,例如技 術文獻=料庫等等,大大提昇文件管理系統的品質。
目前自動分類系統所採用的方式,大都是在文件中找 尋出關鍵詞,再與各分類中預設之關鍵詞進行比對,如果 兩者關聯性達到一定標準後,便可以判斷此文件屬於此一 分類,如果兩者關聯性未達到一定標準,則可以判斷此文 件不屬於此分類。第1圖表示習知技術中自動分類方法的 流程圖。首先,讀入特定類型的文件(S1),此文件可能曰 HTML、XML或RTL形式的文件。接著取出此文件為首部分 一定字數(例如2 00字),做為關鍵字(S2)。在一般文件分 類的假設是,文件的開始部分通常包括全篇文件的精華7 分,因此可以找出此文件所特有的關鍵詞。這些選擇出 關鍵詞會利用一定程序加以整理(S3),其根據系統預I 型來完成。例如,重複性的關鍵詞會加以去除,一般無^
第4頁 JU/141
五、發明說明(2) 別刀類含意的單詞,像是we、you、to、from等等,另外 可以去除特定類型的單詞,例如動詞等等。在整理完畢之 後,便可以利用篩選後的關鍵詞進行分類(S4)。一般分類 方式疋利用向量空間模型(vect〇r space model)進行’亦 即’將篩選後的關鍵詞以及某一分類的預定關鍵詞進行向 量運算(例如找出其投影量),再將運算結果與一既定臨界 值比較,如果超過便表示此文件屬於此一分類,反之則 否。藉此,文件便可以完成自動分類的處理。
第2圖表示在習知技術中由HTML文件中選出關鍵詞的 示意圖。如圖所示,自動分類系統會將文件開頭的前2 〇 0 字選出,做為初始關鍵詞,即如第1圖步驟S2所進行的一 樣。在HTML文件中通常包含一些預設的標籤詞,例如 〈HTML〉、<TITLE>、<B0DY>等等,習知技術的自動分類系 統是可以預先將這部分剔除,增加真正關鍵詞出現的機 率 〇
實際上,習知的自動分類系統仍存在許多問題。首 先,所有自動分類中所使用的參數或是語意的定義大都預 存於系統之中,因此對於新的應用則缺乏彈性的修改方 式。雖說先前已陳述自動分類系統可以應用於各種文件管 理系統’但是在實務上很難達到。舉例來說,要將某個專 為分類網路網頁文件的自動分類系統應用於書籍分類上, 實務上是相當困難的。另外,傳統自動分類系統一般只利 用文件開始部分來找尋關鍵詞,但是在目前網路網頁文件 上由於編排的多樣性,彳艮有可能在文件開始部分並不存在
第5頁 五 發明說明(3) =關鍵詞,足以代表此文件 ^ 自動分類文件時的正確性和可靠度。 這也會影響 f鑑於此,本發明的主要 甘入入式語意解析之自動分 f於柃供一種新的可 :找尋足以代表此文: = =法二夠針對整個文 的正確度和可靠⑨,同•使用以增加文件文件 合目前應用之實際情、x κ ° 工易修改此參數,符 需要増加的額;::能另;以:=用、者自行定義所 性。 猎以強化自動分類系統的功能 根據上述之目的,本發明 自動分類系統,用以自動分類一文件,析之 ::用以接收上述文件,並且產生對應;件 ,核型’上述文件物件模型係以上述文件中 :二=定義組態資料,用以定義在上述文件中之標 亡述文件物件模型,用以找出上述文件中二下2收 亚且接收上述標戴定義組態資料,根據其定義之上述 下内容的比例值,由上述内容中找出關鍵詞,i : 述關鍵詞分類上述文件。 忙ί冢上 在上述自動分類系統中,文件可以是HTML文件、 文件或是其他類型文件。另外’在上述標籤定義組態資料 中所定義之選擇關鍵詞的比例值,可以直接利用字數表 示,也可以利用佔全部内容之百分比表示。而標藏定義植 態貢料中尚可以包括延伸定義項,用以定義在依上述比例
507141 五、發明說明(4) 值選擇出的關鍵詞中之額外 者定義程序,用以在上 &條件。另外可以加入使用 之額外分類功能。 ^自動分類器中執行使用者所定義 本發明另提供一種可々 上 用以自動分類一文件,盆=入浯意解析之自動分類方法’ 件之文件物件模型’上述上:產生對應於此文 標籤做為節點,·讀取-標籤定義組;:以上述文件中之 組悲用以定義在上述文件中之標籤下内^上述標籤定 之比例值;根據在上述標籤定義組態資二j取關鍵詞j ===比例值,由上述内容中找出關鍵;義〜 據上述關鍵詞,分類上述文件。 埏闲;以及根 圖式之簡單說明: x 為使本發明之上述目的、特徵和優點能 下文特舉一較佳實施例,並配合所附圖式,作^顯易懂, 下: 詳細說明 意圖 第1圖表示習知技術中自動分類方法的流程 第2圖表示習知技術中由HTML文件中選中圖。 。 、關鍵詞的 如 示 架構圖 意圖 意圖 第3圖表示本發明第一實施例中自動分類 圖。 、糸統之系 第4圖表示本發明第一實施例中待分類文 _ 。 1千範例之 第5圖表示本發明第一實施例中標籤定義匕 。 、、、怒檔之 統 示 示 m 第7頁 507141 五、發明說明(5) 第6圖表不本發明第一實絲為,丨Φ令# ilt 示意圖 貝&例中文件物件模型(D0M)之 圖 第7圖表示本發明第一實施例中自動分類方法 之流程 第8圖表示本發明第二實施例中自動分類系統之系統 架構圖。 第9圖表不本發明第二實施例中標籤定義組態檔之示 意圖。 第1 0圖表示本發明第二實施例中自動分類方法之流程 圖。 符號說明: 卜特定類型之XML文件;3、3a〜標籤定義組態檔; 5〜D0M,7〜自動分類結果;9〜使用者定義程序;語 法分析器;20、20a〜VSM自動分類器。 實施例: 第一實施例 第3圖表示第一眚絲也丨rk . 圖。如圖所 向^二, ^ ^例中自動分類系統之系統架構 VSM(向量空間模型)自翻八4 σ〇ιυ 产士杏#你丨士 勒刀類器2 0以及標籤定義組態檔3。 明。然而,本實施例7文件係以XML文件為例來進行說 大部分的文件 1以下所述的分類方式,可以適用於絕 ^受此限定;另外:例如HTML文件或是其他類型文件,並 文件的内容部分也不受其自然語言類 1此自動分類系統包括XML語法分析器10 型所限, 可以英文、中文或其口;:;
五、發明說明(6) 法分析㈣用來接收輪 5 2^型(_5 °XML文件為_文件之延伸,在 本;I例的t f ::其可自訂標籤(tag)的特性,來說明 的ί籤仿二^工°XML語法分析器10會將XML文件1中 Γ 的對應關係來定義出樹狀結構的_ 點而!:二是利用XML文件1中的各自訂標藏做為節 "n。不籤下的内容部分做為樹狀結構中的葉 大此,根據D0M 5就可以決定出各標籤下的相關 内谷。 =籤定義組態檔3為一使用者定義檔案資料,用來定 土在XML文件i中的各標籤下内容,在選取關鍵詞時之比例 值:亦即’依據各標籤所代表的内容相關重要性,讓系統 依據不同比例值選摆屮;^ Μ M ^ μ J很k详初始關鍵詞。正如先前所述,整個 文件内谷都可能包含部分具有重要分類意義的關鍵詞,利 用使用者所疋義的關係’可以輕易地決定出此文件的正 分類。 VSM自動分類器20則接收〇〇Μ 5,並且根據標籤定義組 ㈣3中定義之不同標鐵下内容的不同比例值,由在樹狀 …,的D Ο Μ 5中找出各標籤下内容的關鍵詞。據此,在經 過系統預設處理後,便可以利用VSM方式來分類XML文件 1 ° 、,以下以比較清楚的範例說明第3圖中的各資料部分。 首先’第4圖表示本實施例中待分類之XML文件1的示意
507141 五、發明說明(7) 圖。如圖所示,在XML文件1中包含了四種不同的自訂標 籤’分別為〈ABSTRACT〉、〈CHAPTER〉、〈SECTION〉以及 〈PARAGRAPH〉。正如標籤字意所示,<ABSTRACT>代表整個 文件的摘要部分,其内容以la表示。<CHAPTER>、 〈SECTION〉和〈PARAGRAPH〉則為文件主體部分,其内容重要 性依次遞減,各内容部分分別以丨b、丨c和丨d表示。 根據先前所述,XML語法分析器1〇會將此XML文件1讀 入,並且產生對應的D0M 5。第6圖表示本實施例中D0M 5 之示意圖。如圖所示,將各標籤依據從屬關係建立樹狀結 構。其中,各標籤部分則為節點,而其内容則為葉,例如 標籤<ABSTRACT>以及其下之内容ia。而節點<CHApter>包 含其下内容lb以及次階的節點<SECTI〇N> ;節點<SECTI〇N> 包含其下内容lc以及次階的節;節點 〈PARAGRAPH〉則包含其下内容1(1。藉此,可以輕易地分離 出每個標籤下所對應的内容部分。 第5圖表示本實施例中標籤定義組態檔3之示意圖。如 圖所示,各標籤分別利用運算子””指定其下内容在選擇 關鍵詞的比例值。例如標籤<ABSTRACT>,由於其重要性, 所以全部内容均選出做為初始關鍵詞,在圖中係以丨〇〇%的 百分比表示。標籤〈CHAPTER〉、〈SECTION〉和〈PARAGRAPH〉 也依其不同的重要性,賦予不同的比例值,分別為丨〇 〇 (代 表字數)、50(代表字數)、5%(代表百分比)。當VSM自動分 類器2 0讀取到此標籤定義組態檔3之後,便可以根據此定 義找出關鍵詞。例如,内容1 a全部選取,内容丨b中選擇前
第10頁 507141 五、發明說明(8) 1〇〇個單詞,内容lc中選擇前50個單詞,内容id中則選擇 5%的單詞。藉此,關鍵詞來自於整個文件,並且依據不同 的重要性加以選擇’可以更精確地描繪出此文件的真正分 類。另外,標籤定義組態檔3是可以由使用者輕易加以修 改’讓自動分類系統在應用上更具有彈性。 第7圖表示本實施例中自動分類方法之流程圖。如圖 所不 首先谓入此待分類之文件(S 11 ),文件可以是任何 已知具有特定標籤的文件類型。接著建立此文件的DOM, ,巧是分離出各標籤下所對應的文件内容本身(S12)。接 著,出使用者所預設之標籤定義組態檔(S13),利用其中 所定義各標籤的選擇比例值,便可以找到初始關鍵詞 (S 4 )。利用系統預設之模型,整理出真正用於比對的關 鍵词(S1 5 ),便可以利用這些關鍵詞來分類此文件(s丨6 ), 完成分類的目的。 卓一貫施例 &在第一實施例中雖然只在標籤定義組態檔中定義各標 ,:内谷在選擇時的比例值,但是也可以增加其他額外的 it 件,另外也可以另外加人使用者定義的新程序,強 化關鍵詞選擇的正確性和準確性。 由Ϊ 圖表^不本貫施例中自動分類系統之系統架構圖。 2 7貫ί例相同之部分,則附上相同符號並且省略 二二:ί ί實施例中,標籤定義組態檔3a内可以加入額 額外條:【ί ΐ :件:vS M自動分類器2 0 a則需要根據這些 、 關鍵詞;另外,使用者定義程序9是使用
507141 五、發明說明(9) 者額外增加在關鍵詞選擇上的附加 由VSM自動分類器20a來勃—..L ^ 在目動刀類蚪交 第9圖表示本發明第執^’糟此Λ強λ其擴充性。 -^ m φ ^ 一貝施例中才示籤定義組態檔3a之 不意圖。其中,除了定羞夂挪遂 — ^ 外,還可以加上附加的内,谷的選擇比例值之 的師選功此。例如對於標蕕 〈CHAPTER〉而a ,除了原有選擇比例值(1〇〇個 還包括了另-筛選條件,即(〜圓),其表示剔二外, 名闺的早詞。換言之,實際在標籤〈CHAPTER〉下所選擇的 關鍵詞,是在前100個單詞中的所有名詞 二的 <PARAGRAPH>中除了原有選擇比例值(5%單詞)之外,Ϊ包 括了另-篩選條件,即S+(t。、t〇day、_t)。其表示剔 除原糸,預設的排除字表(S)内單詞以及忧、t〇day、㈣討 這三個單詞。換言之,實際在標籤〈PARAGRAPH〉下所選擇 的關鍵詞,是在前5%中去除上述單詞的部分。因此,可以 利用亡述方式,在標籤定義組態檔3 a中加上各種篩選條 件,藉以強化其選擇關鍵詞的準確性。另外,其他可加入 的額外篩選條件包括··(1)指定新關鍵詞;(2)將文件中超 連結(hyper Hnk)的描述文件直接選為被指向文件的關鍵 詞;(3 )特定語法關係等等。 第10圖表示本實施例中自動分類方法之流程圖。如圖 所示’首先讀入此待分類之文件(S21),文件可以是任何 已知具有特定標籤的文件類型。接著建立此文件的D0M, 也就是分離出各標籤下所對應的文件内容本身(S2 2 )。接 著讀出使用者所預設之標籤定義組態檔(S2 3 )。利用其中
第12頁 507141 五、發明說明(ίο) 所定義各標籤的選擇比例值以及定義的額外篩選條件,便 可以找到初始關鍵詞(S24)。利用系統預設之模型,並且 同時將使用者定義程序讀入並且加以執行,便可以整理出 真正用於比對的關鍵詞(S25 ),接著利用這些關鍵詞來分 類此文件(S1 6),完成分類的目的。 本發明雖以較佳實施例揭露如上,然其並非用以限定 本發明,任何熟習此項技藝者,在不脫離本發明之精神和 範圍内,當可做些許的更動與潤飾,因此本發明之保護範 圍當視後附之申請專利範圍所界定者為準。
第13頁

Claims (1)

  1. 507141 六、申請專利範圍 1 · 一種可嵌入語意解析之自^ ^ 分類一文件,其包括: 自動分類糸統,用以自動 語法分析器,用以接收上述 、, 文件之文件物件模型,上述文二且產生對應於此 之標籤做為節點; 杈!係以上述文件中 標籤定義組態資料,用以定義 内容在選取關鍵詞時之比例冑;上述文件中之標籤下 自動分類器,其接收上述文侔舲此γ別 述文件中之標藏下内容,並且;以找出上 料’根據其定義之上述標籤下内容的m組態資 中找出關鍵詞,並且根據上述關鍵詞分 内- 其中 2 ·如申請專利範圍第1項所述 : 上述文件係為隱文件。 4之自動为類糸統 其中 3 ·如申請專利範圍第1項所述 上述文件係為皿文件。 疋之自動分類糸統 4 .如申請專利範圍第1項所述之 上述標籤定義組態資料中所定義刀 '糸統,其中 係以字數表示。 義之選擇關鍵詞的比例值 5 .如申請專利範圍第1項所述之 上述標籤定義組態資料中所定義刀,系統,其中 係以佔全部内容之百分比表示。、擇關鍵詞的比例值, 6.如申請專利範圍第1項所述之自 上述標籤定義組態資料中尚包括延伸—刀類糸統,其中 依上述比例值選擇出的關鍵詞中 ^ 、項’用以定義在 Y之額外篩選條件。
    第14頁 507141 六、申請專利範圍 7 ·如申請專利範圍第1項所述之自動分類系統,其中 尚包括一使用者定義程序,用以在上述自動分類器中&行 使用者所定義之額外分類功能。 τ 8 · —種可嵌入語意解析之自動分類方法,用以自動 分類一文件,其包括下列步驟: 應於此文件之文件物件模型,上述文件物件模 么係以上述文件中之標籤做為節點; 、 讀取一標籤定義組態資料,上述樟鏟a 義在上述文件中之標籤下内容在選取關=^组態用以定 根據在上述標籤定義組態資料中所定二蚪之比例,; 内容的比例值,由上述内容中找出關鍵詞;=上述^鐵下 根據上述關鍵詞,分類上述文件。 乂及 9 ·如申請專利範圍第8項所述之自動 直 上述文件係為HTML文件。 頁方法八中 .如申請專利範圍第8項所述之自動分豆 中上述文件係為XML文件。 、 八 11 .如申請專利範圍第8項所述之自動分類方法,其 中上述標籤定義組態資料中所宋義之選摆、 值,係以字數表示。中所疋義、擇關鍵詞的比例 12 .如申請專利範圍第8項所述之自動分類方法,直 中上述標籤定義組態資料中所定義之選擇關鍵詞的比例、 值,係以佔全部内容之百分比表系。 13 ·如申請專利範圍第8項所述之自動分類方法,豆 中上述標籤定義組態資料中尚包拉延伸定義項,用以定義 507141
    第16頁
TW88110439A 1999-06-22 1999-06-22 Automatic classifying system and method with embedded semantic analysis TW507141B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW88110439A TW507141B (en) 1999-06-22 1999-06-22 Automatic classifying system and method with embedded semantic analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW88110439A TW507141B (en) 1999-06-22 1999-06-22 Automatic classifying system and method with embedded semantic analysis

Publications (1)

Publication Number Publication Date
TW507141B true TW507141B (en) 2002-10-21

Family

ID=27621599

Family Applications (1)

Application Number Title Priority Date Filing Date
TW88110439A TW507141B (en) 1999-06-22 1999-06-22 Automatic classifying system and method with embedded semantic analysis

Country Status (1)

Country Link
TW (1) TW507141B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407211A (zh) * 2015-07-30 2017-02-15 富士通株式会社 对实体词的语义关系进行分类的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407211A (zh) * 2015-07-30 2017-02-15 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN106407211B (zh) * 2015-07-30 2019-08-06 富士通株式会社 对实体词的语义关系进行分类的方法和装置

Similar Documents

Publication Publication Date Title
CN102007492B (zh) 用于搜索多幅存储的数字图像的方法和设备
TW201250492A (en) Method and system of extracting web page information
CN109344298A (zh) 一种将非结构化数据转化为结构化数据的方法及装置
CN101299217A (zh) 一种地图信息处理的方法、装置和系统
CN106446115A (zh) 移动上网用户分类方法及装置
CN102236685A (zh) 一种基于音频指纹技术的本地音乐信息重获方法
CN109697231A (zh) 一种案件文书的显示方法、系统、存储介质和处理器
Müller-Budack et al. Multimodal news analytics using measures of cross-modal entity and context consistency
CN106503266A (zh) 文档分类方法及装置
CN106649823A (zh) 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法
CN108804472A (zh) 一种网页内容抽取方法、装置及服务器
CN105117434A (zh) 一种网页分类方法和系统
KR20040017824A (ko) 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에따른 정보검색시스템
CN113407678B (zh) 知识图谱构建方法、装置和设备
KR20080060547A (ko) 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체
CN100456296C (zh) 一种多媒体文件搜索引擎的排序方法
JP2003223454A (ja) テンプレート提供システム、テンプレート提供方法及びプログラム
TW507141B (en) Automatic classifying system and method with embedded semantic analysis
CN109460518B (zh) 一种基于用户网站访问记录的图书推荐方法
CN103678601A (zh) 一种范文检索请求的处理方法和装置
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP2004341942A (ja) コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体
US10606875B2 (en) Search support apparatus and method
CN109388665B (zh) 作者关系在线挖掘方法及系统
JP4423385B2 (ja) 文書分類支援装置およびコンピュータプログラム

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees