TW201122851A

TW201122851A - Webpage keyword marking auxiliary system and method thereof.

Info

Publication number: TW201122851A
Application number: TW98145452A
Authority: TW
Inventors: guo-ren Zhao; yi-chang Cai; qing-chang Li
Original assignee: guo-ren Zhao; Sogi Net Co Ltd
Priority date: 2009-12-29
Filing date: 2009-12-29
Publication date: 2011-07-01
Also published as: TWI416350B

Description

201122851 六、發明說明：【發明所屬之技術領域】本發明關於一種網頁關鍵字詞標示輔助系統及其方法，可對網站的網頁内容進行合適的關鍵字標示，以使外部搜尋引擎或是網站本身的搜尋引擎可更容易搜尋到該網頁。【先前技術】隨著網際網路的發展，其所提供的資料與日俱增，為了方便用戶能迅速找尋到所需資料，不少入口網站業者推出搜尋引擎，藉著搜尋引擎本身的系統在網路上即時地彙整網頁訊息，讓用戶可透過搜尋引擎提供的搜尋介面輪人適當的關鍵字，而找到準確且適用的網頁資料。一般來說，現有的搜尋引擎皆是根據用戶所輸入的關鍵字詞找出相關聯的網頁’並依照網頁内容的相關程度決定這些網頁在搜尋結果的排列順序，其中相關程度越高者表示其内容較為準確’故可較相關程度低者排列於搜-尋結果的前面。因此當使用者透過搜尋引擎輸入適當的關鍵字 §司之後’網頁資訊提供者皆希望其所提供符合該關鍵字詞的網頁資訊可位於搜尋結果排序的前面，而有利於使用者能輕易找到該網頁資訊。是故，如何讓所提供的網頁可容易被使用者藉著相關的關鍵字尋找到，亦即如何讓該網頁可位於搜尋結果排序的前面，乃申請人所致力研發之方向。 201122851 【發明内容】有鑒於此’本發明之主要目的在於提供— ^ ^ 裡網頁關鍵字詞標示輔助方法，其可對網站的網頁内容〜 ^疋仃合適的關鍵字詞標示，使外部搜尋引擎或是網站本身十巧叼搜尋引擎可更容易搜尋到該網頁。係令該網頁關鍵字欲達上述目的所使用之技術手段詞標示輔助方法包含下列步驟：

移除網頁標記語言標籤（HTML TAG)，係對—或多個網頁移除其網頁標記語言標籤（HTML TAG); 生成關鍵字詞，係依照該網頁内容利用一關鍵字詞生成模組產生數個關鍵字詞；提供一編輯確認介面以使關鍵字詞經過編輯確認，其 :編輯確認介面係呈現該網頁内$、關鍵字詞以及各關鍵子d對應的3頻，該編輯確認介面可允許搡作者依目前的關鍵字詞進行新增、刪除或修改等動作；以及散入含關鍵字詞的網頁標記語言標籤（HTML TAG)，係將前述經—過♦輯確-認的關鍵字詞放入網-頁標記語言標籤 (HTML TAG)’並將該些網頁標記語言標籤（HTML TAG)嵌入於該網頁内而完成該網頁的關鍵字詞標示。藉由執行别述的作業步驟，本發明可適當地為網頁進行關鍵子d的標不，使關鍵字詞除了出現於文章正文裡面還出現於網頁的超連結（hyperlink)、關鍵字 (KEYWORD)# ^ m βη 惊紙内’可有效提高該網頁於搜尋結果的排序，幫助其更交且Α ^ 尺今易為使用者找到。本發明之另—目的在於提供一種網頁關鍵字詞標示輔 201122851 助系統*係包含：一前處理模組，係對該一至多個網頁只進仃網頁標記語言標籤（HTML TAG)的移除動作，使該一 1β 至多個網頁轉為純文字格式；一 HTML標籙庫，係紀錄被移除的網頁標記語言標藏 (HTML TAG)；

-關鍵字詞生成模組’係由-關鍵字生成模組盘一相關詞生成模組構成，其中該關鍵字生成模組係擷取數個已存在於網頁内容的字詞作為關鍵字，肖相關詞.生成模組係生成數個與網頁内容相關的相關詞；一詞頻參照m透過網路自—詞頻參照庫取出對應前述關鍵字與相關詞的詞頻；編輯確認介面，係呈現出網頁内容、關鍵字詞生板組所生成的關鍵字詞以及各關鍵字詞的詞頻，提供一輯者進行關鍵字詞的新增、刪除或修改；及八 -後處理模組’係、將經過編輯確認的關鍵字詞加到取標藏庫内的網頁標記語言標籤（HTML TAG)，再將該包含前述關鍵字詞的網頁標記語言標籤（HTML TAG)重新嵌入至前述網頁，使其從純文字為恢復成原有的格式，進而輪出該經過關鍵字標示的網頁。【實施方式】本發明之網頁關鍵字詞標凋頁或一網站的多個網頁進行關鍵字的輸入條件下，可容易示輔助方法，主要係可對一關鍵字詞的標示，使其在該出現於網頁所屬網站的内部

LSI 5 201122851 搜尋引擎或是外部搜尋引擎（諸如G〇〇gle、丫ah〇〇等）的檢索結果内，讓網路用戶更容易取得該網頁資訊。請配合參考第一圖所示，係用以實施本發明的系統方塊圖，該系統（100)係可接受輸入一至多個未經過關鍵字詞標示的網頁，其提供一前處理模組（10)、一 HTML標籤庫 (60)、一關鍵字詞生成模組（2〇)、一詞頻參照模組（3〇)、一編輯確認介面（40)及一後處理模組（5〇)。該前處理模組（10)係對該一至多個網頁進行網頁標記語言標籤（HTML TAG)的移除動作，使該一至多個網頁轉為純文字格式。該HTML標藏庫（60)係紀錄被暫時移除的網頁標記語言標籤（HTML TAG)。該關鍵子詞生成模組（20)係可由一關鍵字生成模組（21) 與一相關詞生成模組（22)構成’其中該關鍵字生成模組（21) 係榻取數個已存在於網頁内容的字詞作為關鍵字，該相關 φ 詞生成模組（22)係生成數個與網頁内容相關的相關詞，前述關鍵字與相關詞的生成乃依據網頁内容透過網際網路與一詞頻參照庫（31)進行比對，或是進行文法剖析與統計分析等方式來擷取出，例如網頁内容係闡述唐代文學家韓愈的生平與作品，所擷取的關鍵字可能包含「韓愈」、「唐代文學家」、「祭十二郎文」、「古文運動」等等；而相關詞可能包含「柳宗元」、「歐陽修」、「蘇軾」等與韓愈同列為「唐宋八大家」的文學家，前述的詞頻參照庫（3】）係取自網路語料庫及網路搜尋引擎所統計的詞頻；所謂詞頻係指一詞彙出現的頻率，依據不同詞彙的出現頻率可作 201122851 為該詞彙重要性之排序依據。該詞頻參照模組（30)係透過網路自前述詞頻參照庫（3】）取出對應前述關鍵字與相關詞的詞頻。該編輯確認介面（40)係呈現出網頁内容、關鍵字詞生成模組（20)所生成的關鍵字詞以及各關鍵字詞的詞頻，提供一編輯者評估各關鍵字詞的適切性，進一步進行關鍵字詞的新增、刪除或修改等動作，以完成關鍵字詞的編輯確認。該後處理模組（50)係將經過編輯確認的關鍵字詞加到 HTML·標籤庫（6〇)内的網頁標記語言標籤（html tag)，再將該包含前述關鍵字詞的網頁標記語言標籤（HTML tag) 重新嵌入至前述網頁，使其從純文字為恢復成原有的格式’進而輸出經過關鍵字標示的網頁’其中可提供關鍵字詞放入的網頁標記語言標籤（HTML TAG)可包含有標題標籤（TITLE TAG)、說明標籤（DESCRIPTION TAG)、關鍵字標籤（KEYWORD TAG)、超連結文字標籤（HYPERLINK TAG) 等。請參考第二圖所示，基於前述系統架構，本發明之網頁關鍵字詞標示輔助方法包含下列步驟：移除網頁標記語言標藏（HTML TAG)( 101)，係對一或多個網頁移除其網頁標記語言標籤（HTML TAG); 生成關鍵字詞（102)，係依照該網頁内容利用一關鍵字詞生成模組產生數個關鍵字詞；提供一編輯確認介面以使關鍵字詞經過編輯確認 (1 03) ’其中編輯確認介面係呈現該網頁内容、關鍵字詞以 201122851 及各關鍵字6§]對應的詞冑，該編輯4認介面可允許操作者依目前的關鍵字詞進行新增、刪除或修改等動作；及嵌入含關鍵字詞的網頁標記語言標籤（HTML TAG) (1 04) ’係於該網頁褒入含有前述關鍵字詞的網頁標記語言標籤（HTML TAG)而完成該網f的關鍵字詞標示。綜上所述’本發明主要先將網頁轉為純文字格式，再利用關鍵字詞生成模組針對網頁内容生成數個關鍵字詞，並透過编輯確認介面對該些關鍵字詞進行編輯確攀，最後再將前述經過確認的關鍵字詞放入網頁標記語言標籤 (HTML TAG)，進而將網頁標記語言標籤tag)嵌入該網頁而完成該網頁的關鍵字詞標示，是以，本發明可適當地為網頁進行關鍵字詞的標示，使關鍵字詞除了出現於文章正文裡面，還出現於網頁的超連結（hyperunk)、關鍵字（KEYWORD)等標籤内，可有效提高該網頁於搜尋結果的排序，幫助其更容易為使用者找到》【圖式簡單說明】第一圖：係實施本發明之系統方塊圖。第二圖：係本發明網頁關鍵字詞標示輔助方法之流程圖》【主要元件符號說明】 (10)前處理模組（20)關鍵字詞生成模組 (21)關鍵字生成模組（22)相關詞生成模組 201122851 (30)詞頻參照模組（31)詞頻參照庫 (40)編輯確認介面（50)後處理模組 (60)HTML標籤庫

Claims

201122851 七、申請專利範圍：係包含下列步驟： 1 · 一種網頁關鍵字詞標示輔助方法或多個網頁移除其網移除網頁標記語言標籤，係對一頁標記語言標籤；用一關鍵字詞生生成關鍵字詞，係依照該網頁内容利成模組產生數個關鍵字詞；

提供-編輯確認介面以使關鍵字詞經過編輯確認，其中編輯確認介面係呈現該網頁内容'關鍵字詞以及各關鍵子》司對應的㈣’該編輯確認介面可允許操作者依目前的關鍵字詞進行新增、刪除或修改等動作；以及。嵌入含關鍵字詞的網頁標記語言標籤，係、將前述經過編輯確認的關鍵字詞放入網頁標記語言標冑，並將該些網頁標記語言標籤嵌入於該網頁内而完成該網頁的關鍵字詞標示。 2.如申請專利範圍第彳項所述之網頁關鍵字詞標示辅助方法，該關鍵字詞生成模組係由一關鍵字生成模組與一相關岣生成模組構成，其中該關鍵字生成模組係擷取數個已存在於網頁内容的字詞作為關鍵字，該相關詞生成模組係生成數個與網頁内容相關的相關詞。 3.如申請專利範圍第1或2項所述之網頁關鍵字詞標不補助方法，各關鍵字詞所對應的詞頻係利用一詞頻參照模組自一詞頻參照庫取出。 4 ·如申請專利範圍第3項所述之網頁關鍵字詞標示辅助方法丨 ’該詞頻參照庫係取自網路語料庫所統計之詞頻。 5.如申請專利範圍第3項所述之網頁關鍵字詞標示輔 201122851 助方法’該詞頻參照庫係取自網路搜尋引擎所統計之詞頻。 6.如申請專利範圍第3項所述之網頁關鍵字詞標示辅助方法，該詞頻參照庫係取自網路§吾料庫及網路搜尋引擎所統計之詞頻。 7_ —種網頁關鍵字詞標示輔助系統，係包含：一前處理模組’係對該一至多個網頁進行網頁標記語吞標織（HTML TAG)的移除動作’使該一至多個網頁轉為純文字格式；一 HTML標藏庫，係紀錄被移除的網頁標記語言標籤 (HTML TAG)；一關鍵字詞生成模組，係由一關鍵字生成模組與一相關詞生成模組構成，其中該關鍵字生成模組係擷取數個已存在於網頁内容的字詞作為關鍵字，該相關詞生成模組係生成數個與網頁内容相關的相關詞；一祠頻參照模組，係透過網路自一詞頻參照庫取出對應前述關鍵字與相關詞的詞頻； —編輯確認介面，係呈現出網頁内容、關鍵字詞生成模組所生成的關鍵字詞以及各關鍵字詞的詞頻，提供一編輯者進行關鍵字詞的新增、刪除或修改；及 -後處理模組，係將經過編輯相的關鍵字詞加到 ML h籤庫内的網頁標記語言標籤⑴了社，再將該包含前述關鍵字詞的網頁標記語言標籤（Η· tag)重新嵌·入至前述網頁，传其從绌令+ k 便再屯文予為恢復成原有的格式，進而輸出該經過關鍵字標示的網頁。 201122851 8. 如申請專利範圍第7項所述之網頁關鍵字詞標示輔助系統，該詞頻參照庫係取自網路語料庫所統計之詞頻。 9. 如申請專利範圍第7項所述之網頁關鍵字詞標示輔助系統，該詞頻參照庫係取自網路搜尋引擎所統計之詞頻。 1 0.如申請專利範圍第7項所述之網頁關鍵字詞標示輔助系統，該詞頻參照庫係取自網路語料庫及網路搜尋引擎所統計之詞頻。 • ^ 八、圖式：（如次頁）

12