TW201122851A - Webpage keyword marking auxiliary system and method thereof. - Google Patents

Webpage keyword marking auxiliary system and method thereof. Download PDF

Info

Publication number
TW201122851A
TW201122851A TW98145452A TW98145452A TW201122851A TW 201122851 A TW201122851 A TW 201122851A TW 98145452 A TW98145452 A TW 98145452A TW 98145452 A TW98145452 A TW 98145452A TW 201122851 A TW201122851 A TW 201122851A
Authority
TW
Taiwan
Prior art keywords
keyword
webpage
word
words
tag
Prior art date
Application number
TW98145452A
Other languages
English (en)
Other versions
TWI416350B (zh
Inventor
guo-ren Zhao
yi-chang Cai
qing-chang Li
Original Assignee
guo-ren Zhao
Sogi Net Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by guo-ren Zhao, Sogi Net Co Ltd filed Critical guo-ren Zhao
Priority to TW98145452A priority Critical patent/TW201122851A/zh
Publication of TW201122851A publication Critical patent/TW201122851A/zh
Application granted granted Critical
Publication of TWI416350B publication Critical patent/TWI416350B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

201122851 六、發明說明: 【發明所屬之技術領域】 本發明關於一種網頁關鍵字詞標示輔助系統及其方 法,可對網站的網頁内容進行合適的關鍵字標示,以使外 部搜尋引擎或是網站本身的搜尋引擎可更容易搜尋到該網 頁。 【先前技術】 隨著網際網路的發展,其所提供的資料與日俱增,為 了方便用戶能迅速找尋到所需資料,不少入口網站業者推 出搜尋引擎,藉著搜尋引擎本身的系統在網路上即時地彙 整網頁訊息,讓用戶可透過搜尋引擎提供的搜尋介面輪人 適當的關鍵字,而找到準確且適用的網頁資料。 一般來說,現有的搜尋引擎皆是根據用戶所輸入的關 鍵字詞找出相關聯的網頁’並依照網頁内容的相關程度決 定這些網頁在搜尋結果的排列順序,其中相關程度越高者 表示其内容較為準確’故可較相關程度低者排列於搜-尋結 果的前面。因此當使用者透過搜尋引擎輸入適當的關鍵字 §司之後’網頁資訊提供者皆希望其所提供符合該關鍵字詞 的網頁資訊可位於搜尋結果排序的前面,而有利於使用者 能輕易找到該網頁資訊。 是故,如何讓所提供的網頁可容易被使用者藉著相關 的關鍵字尋找到,亦即如何讓該網頁可位於搜尋結果排序 的前面,乃申請人所致力研發之方向。 201122851 【發明内容】 有鑒於此’本發明之主要目的在於提供— ^ ^ 裡網頁關鍵 字詞標示輔助方法,其可對網站的網頁内容〜 ^疋仃合適的關 鍵字詞標示,使外部搜尋引擎或是網站本身 十巧叼搜尋引擎可 更容易搜尋到該網頁。 係令該網頁關鍵字 欲達上述目的所使用之技術手段 詞標示輔助方法包含下列步驟:
移除網頁標記語言標籤(HTML TAG),係對—或多個 網頁移除其網頁標記語言標籤(HTML TAG); 生成關鍵字詞,係依照該網頁内容利用一關鍵字詞生 成模組產生數個關鍵字詞; 提供一編輯確認介面以使關鍵字詞經過編輯確認,其 :編輯確認介面係呈現該網頁内$、關鍵字詞以及各關鍵 子d對應的3頻,該編輯確認介面可允許搡作者依目前的 關鍵字詞進行新增、刪除或修改等動作;以及 散入含關鍵字詞的網頁標記語言標籤(HTML TAG), 係將前述經—過♦輯確-認的關鍵字詞放入網-頁標記語言標籤 (HTML TAG)’並將該些網頁標記語言標籤(HTML TAG)嵌 入於該網頁内而完成該網頁的關鍵字詞標示。 藉由執行别述的作業步驟,本發明可適當地為網頁進 行關鍵子d的標不,使關鍵字詞除了出現於文章正文裡 面還出現於網頁的超連結(hyperlink)、關鍵字 (KEYWORD)# ^ m βη 惊紙内’可有效提高該網頁於搜尋結果的 排序,幫助其更交且Α ^ 尺今易為使用者找到。 本發明之另—目 的在於提供一種網頁關鍵字詞標示輔 201122851 助系統*係包含: 一前處理模組,係對該一至多個網頁 只進仃網頁標記語 言標籤(HTML TAG)的移除動作,使該一 1β 至多個網頁轉為 純文字格式; 一 HTML標籙庫,係紀錄被移除的網頁標記語言標藏 (HTML TAG);
-關鍵字詞生成模組’係由-關鍵字生成模組盘一相 關詞生成模組構成,其中該關鍵字生成模組係擷取數個已 存在於網頁内容的字詞作為關鍵字,肖相關詞.生成模組係 生成數個與網頁内容相關的相關詞; 一詞頻參照m透過網路自—詞頻參照庫取出對 應前述關鍵字與相關詞的詞頻; 編輯確認介面,係呈現出網頁内容、關鍵字詞生 板組所生成的關鍵字詞以及各關鍵字詞的詞頻,提供一 輯者進行關鍵字詞的新增、刪除或修改;及 八 -後處理模組’係、將經過編輯確認的關鍵字詞加到 取標藏庫内的網頁標記語言標籤(HTML TAG),再將該 包含前述關鍵字詞的網頁標記語言標籤(HTML TAG)重新 嵌入至前述網頁,使其從純文字為恢復成原有的格式,進 而輪出該經過關鍵字標示的網頁。 【實施方式】 本發明之網頁關鍵字詞標 凋頁或一網站的多個網頁進行 關鍵字的輸入條件下,可容易 示輔助方法,主要係可對一 關鍵字詞的標示,使其在該 出現於網頁所屬網站的内部
LSI 5 201122851 搜尋引擎或是外部搜尋引擎(諸如G〇〇gle、丫ah〇〇等)的檢 索結果内,讓網路用戶更容易取得該網頁資訊。 請配合參考第一圖所示,係用以實施本發明的系統方 塊圖,該系統(100)係可接受輸入一至多個未經過關鍵字詞 標示的網頁,其提供一前處理模組(10)、一 HTML標籤庫 (60)、一關鍵字詞生成模組(2〇)、一詞頻參照模組(3〇)、一 編輯確認介面(40)及一後處理模組(5〇)。 該前處理模組(10)係對該一至多個網頁進行網頁標記 語言標籤(HTML TAG)的移除動作,使該一至多個網頁轉 為純文字格式。 該HTML標藏庫(60)係紀錄被暫時移除的網頁標記語 言標籤(HTML TAG)。 該關鍵子詞生成模組(20)係可由一關鍵字生成模組(21) 與一相關詞生成模組(22)構成’其中該關鍵字生成模組(21) 係榻取數個已存在於網頁内容的字詞作為關鍵字,該相關 φ 詞生成模組(22)係生成數個與網頁内容相關的相關詞,前 述關鍵字與相關詞的生成乃依據網頁内容透過網際網路與 一詞頻參照庫(31)進行比對,或是進行文法剖析與統計分 析等方式來擷取出,例如網頁内容係闡述唐代文學家韓愈 的生平與作品,所擷取的關鍵字可能包含「韓愈」、「唐 代文學家」、「祭十二郎文」、「古文運動」等等;而相 關詞可能包含「柳宗元」、「歐陽修」、「蘇軾」等與韓 愈同列為「唐宋八大家」的文學家,前述的詞頻參照庫(3】) 係取自網路語料庫及網路搜尋引擎所統計的詞頻;所謂詞 頻係指一詞彙出現的頻率,依據不同詞彙的出現頻率可作 201122851 為該詞彙重要性之排序依據。 該詞頻參照模組(30)係透過網路自前述詞頻參照庫(3】) 取出對應前述關鍵字與相關詞的詞頻。 該編輯確認介面(40)係呈現出網頁内容、關鍵字詞生 成模組(20)所生成的關鍵字詞以及各關鍵字詞的詞頻,提 供一編輯者評估各關鍵字詞的適切性,進一步進行關鍵字 詞的新增、刪除或修改等動作,以完成關鍵字詞的編輯確 認。 該後處理模組(50)係將經過編輯確認的關鍵字詞加到 HTML·標籤庫(6〇)内的網頁標記語言標籤(html tag),再 將該包含前述關鍵字詞的網頁標記語言標籤(HTML tag) 重新嵌入至前述網頁,使其從純文字為恢復成原有的格 式’進而輸出經過關鍵字標示的網頁’其中可提供關鍵字 詞放入的網頁標記語言標籤(HTML TAG)可包含有標題標 籤(TITLE TAG)、說明標籤(DESCRIPTION TAG)、關鍵字 標籤(KEYWORD TAG)、超連結文字標籤(HYPERLINK TAG) 等。 請參考第二圖所示,基於前述系統架構,本發明之網 頁關鍵字詞標示輔助方法包含下列步驟: 移除網頁標記語言標藏(HTML TAG)( 101),係對一或 多個網頁移除其網頁標記語言標籤(HTML TAG); 生成關鍵字詞(102),係依照該網頁内容利用一關鍵字 詞生成模組產生數個關鍵字詞; 提供一編輯確認介面以使關鍵字詞經過編輯確認 (1 03) ’其中編輯確認介面係呈現該網頁内容、關鍵字詞以 201122851 及各關鍵字6§]對應的詞冑,該編輯4認介面可允許操作者 依目前的關鍵字詞進行新增、刪除或修改等動作;及 嵌入含關鍵字詞的網頁標記語言標籤(HTML TAG) (1 04) ’係於該網頁褒入含有前述關鍵字詞的網頁標記語言 標籤(HTML TAG)而完成該網f的關鍵字詞標示。 綜上所述’本發明主要先將網頁轉為純文字格式,再 利用關鍵字詞生成模組針對網頁内容生成數個關鍵字詞, 並透過编輯確認介面對該些關鍵字詞進行編輯確攀,最後 再將前述經過確認的關鍵字詞放入網頁標記語言標籤 (HTML TAG),進而將網頁標記語言標籤tag)嵌入 該網頁而完成該網頁的關鍵字詞標示,是以,本發明可適 當地為網頁進行關鍵字詞的標示,使關鍵字詞除了出現於 文章正文裡面,還出現於網頁的超連結(hyperunk)、關 鍵字(KEYWORD)等標籤内,可有效提高該網頁於搜尋結 果的排序,幫助其更容易為使用者找到》 【圖式簡單說明】 第一圖:係實施本發明之系統方塊圖。 第二圖:係本發明網頁關鍵字詞標示輔助方法之流程 圖》 【主要元件符號說明】 (10)前處理模組 (20)關鍵字詞生成模組 (21)關鍵字生成模組 (22)相關詞生成模組 201122851 (30)詞頻參照模組 (31)詞頻參照庫 (40)編輯確認介面 (50)後處理模組 (60)HTML標籤庫

Claims (1)

  1. 201122851 七、申請專利範圍: 係包含下列步驟: 1 · 一種網頁關鍵字詞標示輔助方法 或多個網頁移除其網 移除網頁標記語言標籤,係對一 頁標記語言標籤; 用一關鍵字詞生 生成關鍵字詞,係依照該網頁内容利 成模組產生數個關鍵字詞;
    提供-編輯確認介面以使關鍵字詞經過編輯確認,其 中編輯確認介面係呈現該網頁内容'關鍵字詞以及各關鍵 子》司對應的㈣’該編輯確認介面可允許操作者依目前的 關鍵字詞進行新增、刪除或修改等動作;以及 。嵌入含關鍵字詞的網頁標記語言標籤,係、將前述經過 編輯確認的關鍵字詞放入網頁標記語言標冑,並將該些網 頁標記語言標籤嵌入於該網頁内而完成該網頁的關鍵字詞 標示。 2.如申請專利範圍第彳項所述之網頁關鍵字詞標示辅 助方法,該關鍵字詞生成模組係由一關鍵字生成模組與一 相關岣生成模組構成,其中該關鍵字生成模組係擷取數個 已存在於網頁内容的字詞作為關鍵字,該相關詞生成模組 係生成數個與網頁内容相關的相關詞。 3.如申請專利範圍第1或2項所述之網頁關鍵字詞標 不補助方法,各關鍵字詞所對應的詞頻係利用一詞頻參照 模組自一詞頻參照庫取出。 4 ·如申請專利範圍第3項所述之網頁關鍵字詞標示辅 助方法 丨 ’該詞頻參照庫係取自網路語料庫所統計之詞頻。 5.如申請專利範圍第3項所述之網頁關鍵字詞標示輔 201122851 助方法’該詞頻參照庫係取自網路搜尋引擎所統計之詞 頻。 6.如申請專利範圍第3項所述之網頁關鍵字詞標示辅 助方法,該詞頻參照庫係取自網路§吾料庫及網路搜尋引擎 所統計之詞頻。 7_ —種網頁關鍵字詞標示輔助系統,係包含: 一前處理模組’係對該一至多個網頁進行網頁標記語 吞標織(HTML TAG)的移除動作’使該一至多個網頁轉為 純文字格式; 一 HTML標藏庫,係紀錄被移除的網頁標記語言標籤 (HTML TAG); 一關鍵字詞生成模組,係由一關鍵字生成模組與一相 關詞生成模組構成,其中該關鍵字生成模組係擷取數個已 存在於網頁内容的字詞作為關鍵字,該相關詞生成模組係 生成數個與網頁内容相關的相關詞; 一祠頻參照模組,係透過網路自一詞頻參照庫取出對 應前述關鍵字與相關詞的詞頻; —編輯確認介面,係呈現出網頁内容、關鍵字詞生成 模組所生成的關鍵字詞以及各關鍵字詞的詞頻,提供一編 輯者進行關鍵字詞的新增、刪除或修改;及 -後處理模組,係將經過編輯相的關鍵字詞加到 ML h籤庫内的網頁標記語言標籤⑴了社,再將該 包含前述關鍵字詞的網頁標記語言標籤(Η· tag)重新 嵌·入至前述網頁,传其從绌令+ k 便再屯文予為恢復成原有的格式,進 而輸出該經過關鍵字標示的網頁。 201122851 8. 如申請專利範圍第7項所述之網頁關鍵字詞標示輔 助系統,該詞頻參照庫係取自網路語料庫所統計之詞頻。 9. 如申請專利範圍第7項所述之網頁關鍵字詞標示輔 助系統,該詞頻參照庫係取自網路搜尋引擎所統計之詞 頻。 1 0.如申請專利範圍第7項所述之網頁關鍵字詞標示輔 助系統,該詞頻參照庫係取自網路語料庫及網路搜尋引擎 所統計之詞頻。 • ^ 八、圖式:(如次頁)
    12
TW98145452A 2009-12-29 2009-12-29 Webpage keyword marking auxiliary system and method thereof. TW201122851A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW98145452A TW201122851A (en) 2009-12-29 2009-12-29 Webpage keyword marking auxiliary system and method thereof.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW98145452A TW201122851A (en) 2009-12-29 2009-12-29 Webpage keyword marking auxiliary system and method thereof.

Publications (2)

Publication Number Publication Date
TW201122851A true TW201122851A (en) 2011-07-01
TWI416350B TWI416350B (zh) 2013-11-21

Family

ID=45046382

Family Applications (1)

Application Number Title Priority Date Filing Date
TW98145452A TW201122851A (en) 2009-12-29 2009-12-29 Webpage keyword marking auxiliary system and method thereof.

Country Status (1)

Country Link
TW (1) TW201122851A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388787A (zh) * 2017-08-10 2019-02-26 易易资设有限公司 编辑超文件标示语言文件的方法
CN112507664A (zh) * 2020-12-29 2021-03-16 医渡云(北京)技术有限公司 网页元素标注方法与装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119329A1 (en) * 2007-11-02 2009-05-07 Kwon Thomas C System and method for providing visibility for dynamic webpages
EP2258090A1 (en) * 2008-03-21 2010-12-08 Koninklijke Philips Electronics N.V. Method for displaying information generated by a client
US9841980B2 (en) * 2008-04-25 2017-12-12 Microsoft Technology, LLC Extensible and application-adaptable toolbar for web services

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388787A (zh) * 2017-08-10 2019-02-26 易易资设有限公司 编辑超文件标示语言文件的方法
CN112507664A (zh) * 2020-12-29 2021-03-16 医渡云(北京)技术有限公司 网页元素标注方法与装置

Also Published As

Publication number Publication date
TWI416350B (zh) 2013-11-21

Similar Documents

Publication Publication Date Title
US7464078B2 (en) Method for automatically extracting by-line information
JP2007122513A (ja) コンテンツ検索方法、及び、コンテンツ検索サーバ
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
JP2008511075A5 (zh)
Généreux et al. Introducing the reference corpus of contemporary portuguese on-line
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
JP5020352B2 (ja) 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体
Mika Microsearch: An Interface for Semantic Search.
Iurshina et al. NILK: entity linking dataset targeting NIL-linking cases
TW201122851A (en) Webpage keyword marking auxiliary system and method thereof.
CN112527954A (zh) 非结构化数据全文搜索方法、系统及计算机设备
Yafooz et al. Challenges and issues on online news management
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
Fragkou et al. BOEMIE Ontology-Based Text Annotation Tool.
JP4417497B2 (ja) 情報検索装置及びプログラムを記憶した記憶媒体
JPH11134341A (ja) ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
Huynh et al. Self-supervised learning approach for extracting citation information on the web
Aroonmanakun et al. Thai monitor corpus: Challenges and contribution to thai nlp
Tsapatsoulis Web image indexing using WICE and a learning-free language model
Petasis et al. Segmenting HTML pages using visual and semantic information
KR20090045520A (ko) 시맨틱 기술을 이용한 태그어 자동 생성 방법
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JP2007011892A (ja) 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体