TW201122851A - Webpage keyword marking auxiliary system and method thereof. - Google Patents

Webpage keyword marking auxiliary system and method thereof. Download PDF

Info

Publication number
TW201122851A
TW201122851A TW98145452A TW98145452A TW201122851A TW 201122851 A TW201122851 A TW 201122851A TW 98145452 A TW98145452 A TW 98145452A TW 98145452 A TW98145452 A TW 98145452A TW 201122851 A TW201122851 A TW 201122851A
Authority
TW
Taiwan
Prior art keywords
keyword
webpage
word
words
tag
Prior art date
Application number
TW98145452A
Other languages
English (en)
Other versions
TWI416350B (zh
Inventor
guo-ren Zhao
yi-chang Cai
qing-chang Li
Original Assignee
guo-ren Zhao
Sogi Net Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by guo-ren Zhao, Sogi Net Co Ltd filed Critical guo-ren Zhao
Priority to TW98145452A priority Critical patent/TW201122851A/zh
Publication of TW201122851A publication Critical patent/TW201122851A/zh
Application granted granted Critical
Publication of TWI416350B publication Critical patent/TWI416350B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

201122851 六、發明說明: 【發明所屬之技術領域】 本發明關於一種網頁關鍵字詞標示輔助系統及其方 法,可對網站的網頁内容進行合適的關鍵字標示,以使外 部搜尋引擎或是網站本身的搜尋引擎可更容易搜尋到該網 頁。 【先前技術】 隨著網際網路的發展,其所提供的資料與日俱增,為 了方便用戶能迅速找尋到所需資料,不少入口網站業者推 出搜尋引擎,藉著搜尋引擎本身的系統在網路上即時地彙 整網頁訊息,讓用戶可透過搜尋引擎提供的搜尋介面輪人 適當的關鍵字,而找到準確且適用的網頁資料。 一般來說,現有的搜尋引擎皆是根據用戶所輸入的關 鍵字詞找出相關聯的網頁’並依照網頁内容的相關程度決 定這些網頁在搜尋結果的排列順序,其中相關程度越高者 表示其内容較為準確’故可較相關程度低者排列於搜-尋結 果的前面。因此當使用者透過搜尋引擎輸入適當的關鍵字 §司之後’網頁資訊提供者皆希望其所提供符合該關鍵字詞 的網頁資訊可位於搜尋結果排序的前面,而有利於使用者 能輕易找到該網頁資訊。 是故,如何讓所提供的網頁可容易被使用者藉著相關 的關鍵字尋找到,亦即如何讓該網頁可位於搜尋結果排序 的前面,乃申請人所致力研發之方向。 201122851 【發明内容】 有鑒於此’本發明之主要目的在於提供— ^ ^ 裡網頁關鍵 字詞標示輔助方法,其可對網站的網頁内容〜 ^疋仃合適的關 鍵字詞標示,使外部搜尋引擎或是網站本身 十巧叼搜尋引擎可 更容易搜尋到該網頁。 係令該網頁關鍵字 欲達上述目的所使用之技術手段 詞標示輔助方法包含下列步驟:
移除網頁標記語言標籤(HTML TAG),係對—或多個 網頁移除其網頁標記語言標籤(HTML TAG); 生成關鍵字詞,係依照該網頁内容利用一關鍵字詞生 成模組產生數個關鍵字詞; 提供一編輯確認介面以使關鍵字詞經過編輯確認,其 :編輯確認介面係呈現該網頁内$、關鍵字詞以及各關鍵 子d對應的3頻,該編輯確認介面可允許搡作者依目前的 關鍵字詞進行新增、刪除或修改等動作;以及 散入含關鍵字詞的網頁標記語言標籤(HTML TAG), 係將前述經—過♦輯確-認的關鍵字詞放入網-頁標記語言標籤 (HTML TAG)’並將該些網頁標記語言標籤(HTML TAG)嵌 入於該網頁内而完成該網頁的關鍵字詞標示。 藉由執行别述的作業步驟,本發明可適當地為網頁進 行關鍵子d的標不,使關鍵字詞除了出現於文章正文裡 面還出現於網頁的超連結(hyperlink)、關鍵字 (KEYWORD)# ^ m βη 惊紙内’可有效提高該網頁於搜尋結果的 排序,幫助其更交且Α ^ 尺今易為使用者找到。 本發明之另—目 的在於提供一種網頁關鍵字詞標示輔 201122851 助系統*係包含: 一前處理模組,係對該一至多個網頁 只進仃網頁標記語 言標籤(HTML TAG)的移除動作,使該一 1β 至多個網頁轉為 純文字格式; 一 HTML標籙庫,係紀錄被移除的網頁標記語言標藏 (HTML TAG);
-關鍵字詞生成模組’係由-關鍵字生成模組盘一相 關詞生成模組構成,其中該關鍵字生成模組係擷取數個已 存在於網頁内容的字詞作為關鍵字,肖相關詞.生成模組係 生成數個與網頁内容相關的相關詞; 一詞頻參照m透過網路自—詞頻參照庫取出對 應前述關鍵字與相關詞的詞頻; 編輯確認介面,係呈現出網頁内容、關鍵字詞生 板組所生成的關鍵字詞以及各關鍵字詞的詞頻,提供一 輯者進行關鍵字詞的新增、刪除或修改;及 八 -後處理模組’係、將經過編輯確認的關鍵字詞加到 取標藏庫内的網頁標記語言標籤(HTML TAG),再將該 包含前述關鍵字詞的網頁標記語言標籤(HTML TAG)重新 嵌入至前述網頁,使其從純文字為恢復成原有的格式,進 而輪出該經過關鍵字標示的網頁。 【實施方式】 本發明之網頁關鍵字詞標 凋頁或一網站的多個網頁進行 關鍵字的輸入條件下,可容易 示輔助方法,主要係可對一 關鍵字詞的標示,使其在該 出現於網頁所屬網站的内部
LSI 5 201122851 搜尋引擎或是外部搜尋引擎(諸如G〇〇gle、丫ah〇〇等)的檢 索結果内,讓網路用戶更容易取得該網頁資訊。 請配合參考第一圖所示,係用以實施本發明的系統方 塊圖,該系統(100)係可接受輸入一至多個未經過關鍵字詞 標示的網頁,其提供一前處理模組(10)、一 HTML標籤庫 (60)、一關鍵字詞生成模組(2〇)、一詞頻參照模組(3〇)、一 編輯確認介面(40)及一後處理模組(5〇)。 該前處理模組(10)係對該一至多個網頁進行網頁標記 語言標籤(HTML TAG)的移除動作,使該一至多個網頁轉 為純文字格式。 該HTML標藏庫(60)係紀錄被暫時移除的網頁標記語 言標籤(HTML TAG)。 該關鍵子詞生成模組(20)係可由一關鍵字生成模組(21) 與一相關詞生成模組(22)構成’其中該關鍵字生成模組(21) 係榻取數個已存在於網頁内容的字詞作為關鍵字,該相關 φ 詞生成模組(22)係生成數個與網頁内容相關的相關詞,前 述關鍵字與相關詞的生成乃依據網頁内容透過網際網路與 一詞頻參照庫(31)進行比對,或是進行文法剖析與統計分 析等方式來擷取出,例如網頁内容係闡述唐代文學家韓愈 的生平與作品,所擷取的關鍵字可能包含「韓愈」、「唐 代文學家」、「祭十二郎文」、「古文運動」等等;而相 關詞可能包含「柳宗元」、「歐陽修」、「蘇軾」等與韓 愈同列為「唐宋八大家」的文學家,前述的詞頻參照庫(3】) 係取自網路語料庫及網路搜尋引擎所統計的詞頻;所謂詞 頻係指一詞彙出現的頻率,依據不同詞彙的出現頻率可作 201122851 為該詞彙重要性之排序依據。 該詞頻參照模組(30)係透過網路自前述詞頻參照庫(3】) 取出對應前述關鍵字與相關詞的詞頻。 該編輯確認介面(40)係呈現出網頁内容、關鍵字詞生 成模組(20)所生成的關鍵字詞以及各關鍵字詞的詞頻,提 供一編輯者評估各關鍵字詞的適切性,進一步進行關鍵字 詞的新增、刪除或修改等動作,以完成關鍵字詞的編輯確 認。 該後處理模組(50)係將經過編輯確認的關鍵字詞加到 HTML·標籤庫(6〇)内的網頁標記語言標籤(html tag),再 將該包含前述關鍵字詞的網頁標記語言標籤(HTML tag) 重新嵌入至前述網頁,使其從純文字為恢復成原有的格 式’進而輸出經過關鍵字標示的網頁’其中可提供關鍵字 詞放入的網頁標記語言標籤(HTML TAG)可包含有標題標 籤(TITLE TAG)、說明標籤(DESCRIPTION TAG)、關鍵字 標籤(KEYWORD TAG)、超連結文字標籤(HYPERLINK TAG) 等。 請參考第二圖所示,基於前述系統架構,本發明之網 頁關鍵字詞標示輔助方法包含下列步驟: 移除網頁標記語言標藏(HTML TAG)( 101),係對一或 多個網頁移除其網頁標記語言標籤(HTML TAG); 生成關鍵字詞(102),係依照該網頁内容利用一關鍵字 詞生成模組產生數個關鍵字詞; 提供一編輯確認介面以使關鍵字詞經過編輯確認 (1 03) ’其中編輯確認介面係呈現該網頁内容、關鍵字詞以 201122851 及各關鍵字6§]對應的詞冑,該編輯4認介面可允許操作者 依目前的關鍵字詞進行新增、刪除或修改等動作;及 嵌入含關鍵字詞的網頁標記語言標籤(HTML TAG) (1 04) ’係於該網頁褒入含有前述關鍵字詞的網頁標記語言 標籤(HTML TAG)而完成該網f的關鍵字詞標示。 綜上所述’本發明主要先將網頁轉為純文字格式,再 利用關鍵字詞生成模組針對網頁内容生成數個關鍵字詞, 並透過编輯確認介面對該些關鍵字詞進行編輯確攀,最後 再將前述經過確認的關鍵字詞放入網頁標記語言標籤 (HTML TAG),進而將網頁標記語言標籤tag)嵌入 該網頁而完成該網頁的關鍵字詞標示,是以,本發明可適 當地為網頁進行關鍵字詞的標示,使關鍵字詞除了出現於 文章正文裡面,還出現於網頁的超連結(hyperunk)、關 鍵字(KEYWORD)等標籤内,可有效提高該網頁於搜尋結 果的排序,幫助其更容易為使用者找到》 【圖式簡單說明】 第一圖:係實施本發明之系統方塊圖。 第二圖:係本發明網頁關鍵字詞標示輔助方法之流程 圖》 【主要元件符號說明】 (10)前處理模組 (20)關鍵字詞生成模組 (21)關鍵字生成模組 (22)相關詞生成模組 201122851 (30)詞頻參照模組 (31)詞頻參照庫 (40)編輯確認介面 (50)後處理模組 (60)HTML標籤庫

Claims (1)

  1. 201122851 七、申請專利範圍: 係包含下列步驟: 1 · 一種網頁關鍵字詞標示輔助方法 或多個網頁移除其網 移除網頁標記語言標籤,係對一 頁標記語言標籤; 用一關鍵字詞生 生成關鍵字詞,係依照該網頁内容利 成模組產生數個關鍵字詞;
    提供-編輯確認介面以使關鍵字詞經過編輯確認,其 中編輯確認介面係呈現該網頁内容'關鍵字詞以及各關鍵 子》司對應的㈣’該編輯確認介面可允許操作者依目前的 關鍵字詞進行新增、刪除或修改等動作;以及 。嵌入含關鍵字詞的網頁標記語言標籤,係、將前述經過 編輯確認的關鍵字詞放入網頁標記語言標冑,並將該些網 頁標記語言標籤嵌入於該網頁内而完成該網頁的關鍵字詞 標示。 2.如申請專利範圍第彳項所述之網頁關鍵字詞標示辅 助方法,該關鍵字詞生成模組係由一關鍵字生成模組與一 相關岣生成模組構成,其中該關鍵字生成模組係擷取數個 已存在於網頁内容的字詞作為關鍵字,該相關詞生成模組 係生成數個與網頁内容相關的相關詞。 3.如申請專利範圍第1或2項所述之網頁關鍵字詞標 不補助方法,各關鍵字詞所對應的詞頻係利用一詞頻參照 模組自一詞頻參照庫取出。 4 ·如申請專利範圍第3項所述之網頁關鍵字詞標示辅 助方法 丨 ’該詞頻參照庫係取自網路語料庫所統計之詞頻。 5.如申請專利範圍第3項所述之網頁關鍵字詞標示輔 201122851 助方法’該詞頻參照庫係取自網路搜尋引擎所統計之詞 頻。 6.如申請專利範圍第3項所述之網頁關鍵字詞標示辅 助方法,該詞頻參照庫係取自網路§吾料庫及網路搜尋引擎 所統計之詞頻。 7_ —種網頁關鍵字詞標示輔助系統,係包含: 一前處理模組’係對該一至多個網頁進行網頁標記語 吞標織(HTML TAG)的移除動作’使該一至多個網頁轉為 純文字格式; 一 HTML標藏庫,係紀錄被移除的網頁標記語言標籤 (HTML TAG); 一關鍵字詞生成模組,係由一關鍵字生成模組與一相 關詞生成模組構成,其中該關鍵字生成模組係擷取數個已 存在於網頁内容的字詞作為關鍵字,該相關詞生成模組係 生成數個與網頁内容相關的相關詞; 一祠頻參照模組,係透過網路自一詞頻參照庫取出對 應前述關鍵字與相關詞的詞頻; —編輯確認介面,係呈現出網頁内容、關鍵字詞生成 模組所生成的關鍵字詞以及各關鍵字詞的詞頻,提供一編 輯者進行關鍵字詞的新增、刪除或修改;及 -後處理模組,係將經過編輯相的關鍵字詞加到 ML h籤庫内的網頁標記語言標籤⑴了社,再將該 包含前述關鍵字詞的網頁標記語言標籤(Η· tag)重新 嵌·入至前述網頁,传其從绌令+ k 便再屯文予為恢復成原有的格式,進 而輸出該經過關鍵字標示的網頁。 201122851 8. 如申請專利範圍第7項所述之網頁關鍵字詞標示輔 助系統,該詞頻參照庫係取自網路語料庫所統計之詞頻。 9. 如申請專利範圍第7項所述之網頁關鍵字詞標示輔 助系統,該詞頻參照庫係取自網路搜尋引擎所統計之詞 頻。 1 0.如申請專利範圍第7項所述之網頁關鍵字詞標示輔 助系統,該詞頻參照庫係取自網路語料庫及網路搜尋引擎 所統計之詞頻。 • ^ 八、圖式:(如次頁)
    12
TW98145452A 2009-12-29 2009-12-29 Webpage keyword marking auxiliary system and method thereof. TW201122851A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW98145452A TW201122851A (en) 2009-12-29 2009-12-29 Webpage keyword marking auxiliary system and method thereof.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW98145452A TW201122851A (en) 2009-12-29 2009-12-29 Webpage keyword marking auxiliary system and method thereof.

Publications (2)

Publication Number Publication Date
TW201122851A true TW201122851A (en) 2011-07-01
TWI416350B TWI416350B (zh) 2013-11-21

Family

ID=45046382

Family Applications (1)

Application Number Title Priority Date Filing Date
TW98145452A TW201122851A (en) 2009-12-29 2009-12-29 Webpage keyword marking auxiliary system and method thereof.

Country Status (1)

Country Link
TW (1) TW201122851A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388787A (zh) * 2017-08-10 2019-02-26 易易资设有限公司 编辑超文件标示语言文件的方法
CN112507664A (zh) * 2020-12-29 2021-03-16 医渡云(北京)技术有限公司 网页元素标注方法与装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119329A1 (en) * 2007-11-02 2009-05-07 Kwon Thomas C System and method for providing visibility for dynamic webpages
EP2258090A1 (en) * 2008-03-21 2010-12-08 Koninklijke Philips Electronics N.V. Method for displaying information generated by a client
US9841980B2 (en) * 2008-04-25 2017-12-12 Microsoft Technology, LLC Extensible and application-adaptable toolbar for web services

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388787A (zh) * 2017-08-10 2019-02-26 易易资设有限公司 编辑超文件标示语言文件的方法
CN112507664A (zh) * 2020-12-29 2021-03-16 医渡云(北京)技术有限公司 网页元素标注方法与装置

Also Published As

Publication number Publication date
TWI416350B (zh) 2013-11-21

Similar Documents

Publication Publication Date Title
Ekbal et al. A web-based Bengali news corpus for named entity recognition
JP2007122513A (ja) コンテンツ検索方法、及び、コンテンツ検索サーバ
US20120053927A1 (en) Identifying topically-related phrases in a browsing sequence
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
JP2008511075A5 (zh)
Généreux et al. Introducing the reference corpus of contemporary portuguese on-line
US8037403B2 (en) Apparatus, method, and computer program product for extracting structured document
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
JP5020352B2 (ja) 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体
Mika Microsearch: An Interface for Semantic Search.
Pham et al. Information extraction for Vietnamese real estate advertisements
Iurshina et al. NILK: entity linking dataset targeting NIL-linking cases
TW201122851A (en) Webpage keyword marking auxiliary system and method thereof.
US20090182759A1 (en) Extracting entities from a web page
van der Meer et al. A framework for automatic annotation of web pages using the Google rich snippets vocabulary
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
JPH11134341A (ja) ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム
Huynh et al. Self-supervised learning approach for extracting citation information on the web
CN112527954A (zh) 非结构化数据全文搜索方法、系统及计算机设备
Aroonmanakun et al. Thai monitor corpus: Challenges and contribution to thai nlp
Tsapatsoulis Web image indexing using WICE and a learning-free language model
JP2005250693A (ja) 文字情報分類プログラム
Petasis et al. Segmenting HTML pages using visual and semantic information
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
Tomás et al. Mining wikipedia as a parallel and comparable corpus