TWI280492B - Web search system and method thereof - Google Patents

Web search system and method thereof Download PDF

Info

Publication number
TWI280492B
TWI280492B TW094136682A TW94136682A TWI280492B TW I280492 B TWI280492 B TW I280492B TW 094136682 A TW094136682 A TW 094136682A TW 94136682 A TW94136682 A TW 94136682A TW I280492 B TWI280492 B TW I280492B
Authority
TW
Taiwan
Prior art keywords
word
mentioned
record
user
count
Prior art date
Application number
TW094136682A
Other languages
English (en)
Other versions
TW200630830A (en
Inventor
Yao-Chin Lee
Wen-Cheng Chin
Chih-Yee Chen
Original Assignee
Taiwan Semiconductor Mfg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiwan Semiconductor Mfg filed Critical Taiwan Semiconductor Mfg
Publication of TW200630830A publication Critical patent/TW200630830A/zh
Application granted granted Critical
Publication of TWI280492B publication Critical patent/TWI280492B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

1280492 九、發明說明: 【發明所屬之技術領域】 此發明是一種資訊檢索(information retrieval)技術,特別是一種關於 網路搜尋之方法及系統。 【先前技術】 全球資訊網(World Wide Web,WWW)與網際網路中所存在之資源, 讓使用者可透過使用電腦或其它資料存取裝置從大量的網站中取得廣泛之 大量資訊。一般而言,網站所提供之資訊是以網頁呈現,其格式一般來說 可為超文字標註語言(HyperText mark-up language,HTML)格式,此為一 種以文字為基礎之格式,用以指示電腦如何顯示個別網頁。可提供通常為 ASCII格式之文字内容與壓縮後之圖形資訊,格式諸如“,,或 “jpeg”。除此之外,網頁通常可包含超文件連結(Hypertexti_,用 以連結到同一個網站之其他網頁,或是連結到其他網站所提供之網頁。 網際網路擁有超過數以億計之網頁,並且網頁之數目仍持續增加中。 要找到適宜之資訊,有兩種基本的方法··個—個搜尋引擎或」個搜尋目 錄(如雅虎’ Yahoo、LookSmart或〇pen Direct〇iy)。搜尋目錄適用於找 =通俗主題之資訊,搜· ___在搜料雜訊。⑼之各種搜 尋工具之進階搜尋功能可進一步來改善搜尋結果。 大多數的搜尋引擎擁有大量的網站資料庫,於搜尋時,可輸入一些字、 组或句子至—個網頁之文字攔位^搜尋引擎會搜尋整個超文字^語 建a全文之索引㈤ex)。搜尋引擎使用俗稱「機器人」^ 或稱為轉」(spiders)之電腦程式,這些程式透過依循網站至網站 ,(麵D過-個又—個的網站’並且爲所造訪之每—個網頁建 母-搜尋脾會財财之欺準财歧㈣㈣ 庫
例如,某些搜尋引擎搜尋網站中的每一網頁,而某些搜尋引擎==主 0503-A30308TWF 1280492 ' 最近,最有名之-翻—細過三十億 幾乎所有的搜尋引擎會於網頁資料庫中進行關鍵字搜尋,但有各式各 =因素會影響搜尋結果,例如,搜尋引擎:祕庫的大小、㈣庫更新的 处、辜、搜尋舰設計,以及速度。G(X)gle提供了不單域階之搜尋效 =進階搜尋魏透過輸人包括或騰想要的字或触之資 得以進=定語言之搜尋請求。w圖係為顯示習知之搜尋I s®。該搜哥結果包含數百至千筆搜尋結果項目,每—搜尋 1 Γ〇1Γ,Γ有連結_朗頁之—個全球資源連結之—個標題職。或 /又蚊(例如,一個摘要或搜尋之關鍵字摘要)脑或職、一 以位元表示之檔案大小103a或103b等等。 如此龐大之搜尋結果項目阻礙使用者輕之效率,因此,產 ==Γ_列表之底部。排序演算法中之最主要二 考慮關鍵子出現在—_頁上之位置及出現次數。例如,搜 i第一 鍵Γ否出現於網頁之開頭位置’例如於標題或文字中 舌:各f擎假定若關鍵字出現於網頁的開頭位置附近,則此網 立他字之出現I數有=丨擎會分析於—個师中所包含之_字相較於 八子之出H有!^現次數之爾目較 雖然解決方法是可行的,但仍存在許多問題。例如,^更的排要庠― 法係基於_字之鍾與· Ί賴排序演鼻 而未考慮諸如使用者劉覽行疋搜哥結果項目之次序安排, 及方法,用以改善搜尋結果及增進使用者劉覽效率。 技哥糸統 【發明内容】 用以考慮 有鑑於此’树背獅懷供—_賴权_及方法,
0503-A30308TWF 1280492 使用者先前之_行為’麓智紐之排騎算基礎來安排每—個搜尋社 果,將無關緊要之項目移至列表之底部。 ° 本發明實施例之紐包括-_㈣及—部客戶端電腦。敏器透過 通訊網路環境與多部客戶端電腦連結。每—部客戶端電腦崎有劉覽哭 (browser)以存取伺㈣中之資訊。網站概器為客戶端細程式,或者 於較佳的情況下,為-能與舰器互動之整合公用程式。網賴覽哭透過 網際網路湖㈣減資訊,該資觸常叫文字標記語言(H卿时
Markup Language, HTML) (Extensible Markup Language xml)等編碼而成。 ’ 饲服器包括處理單元、健存裝置、輸入裝置、顯示裝置及通訊裝置。 儲存裝置儲存多個「停时」以及字數統計記錄。剌字(例如,干擾字, noise words)為無關於網路搜尋之字。字數統計記錄儲存相關於已由J·定使 时所檢索之多個短文中之字的出現次數魏4_筆字數統計記錄包括 之前已建立之使用者識別碼(identity,ID)、_個字以及—個計數數值等搁 位。 記憶體於較佳的情況下包括-個計算模__個搜尋模組,搜尋模组 包括用以執行字數計算與網路搜尋功能之常序―)。當使用者端點擊 相應於-舰文之-個超連料,計算顧便開始執行。計算独之功用 為計算短文巾之字之歧魏並且據叹新字數麟爾1使用者於一 個文字,位輸人-或多個關鍵字並且點擊搜尋按鍵時,搜尋模組開始執 行。搜尋模組根據字數統計記錄來產生搜尋結果。 計算模組接收-個使用者識別碼與一個超連結之介面事件,並且取得 相應於超連結之-段短文。計算模組個—個停时職演算法(例如, 干2字過濾、)從敏巾移除特定停財來產生另—段短文。事蚊義之停 ^子儲存於贿裝£巾。計算模域序崎翻胁峡結之短文來取得 ”中之字。針對每一個取得之字,計算模組細帶有使用者識別碼之字是
0503-A30308TWF 7 1280492 數值加-;若不存在,隐* w K子Ht摘中之计數 _ 、 *3有取得之字與使用者識別碼之新字數 、““,'〜且賴新字數騎記錄巾之計絲值設定為一。 搜尋模組接收-個使用者識別碼與—或多個關 個相應於輸人_字之超文字觀語 ^取付夕 T如杈教子數統計記錄中取得相應於使用 Μ欠數。搜尋餘麵对標記財請轉—健配錄(喊㈣ )。搜被組產生-個含有搜尋結果項目之網頁。於較佳的情況下,每 =項目包㈣有連結於狀超文字標記語調頁之—個全球資源連結 (=錢嶋rceLink,亂)之顯示標題、一段短文、以及以位元表示 小專專。於較佳的情況下’根據匹配分數由高而低排列搜尋結果 項目0 【實施方式】 二第2 ®絲示依據本發明實施例之網路搜尋祕架構圖。如第2圖所 不’網路搜尋純於較佳的情況下包括—個伺服器10,以及客戶端電腦 2〇a儀及20c。伺服器1〇透過一個通訊網路副(可為局部區域網路⑽、 廣域鹏WAN、企業内部網路或網際網路)與客戶端電腦施、勘及2〇c 等連結。 、;個、周路環i兄下’其中範例之通訊網路16〇諸如網際網路,伺服器 10為與客戶端2〇通訊之網站舰器,其通訊可透過任何已知的通訊協定, 例如超文件傳輸通訊協定⑺ι,Ητρρ)等。每一部客 戶知電|自2〇配備有’!彳覽^^⑽以存取彳司服II 1G中之資訊。網站劉覽器18〇 為客戶端細程式,或者練佳的航τ,為—能與伺服器1()互動之整合 公用程式。網站瀏覽器18〇從伺服器1〇接收資訊。該資訊通常以超文字標 注”σ p可擴展;|:示§己語言等編碼而成。諸如此類之超文字標註語言文件中
0503-A30308TWF 8 1280492 可包括劇本指令(scripts,例如JavaScript或Visual Basic Scripts)以提供網 路搜尋功能。網站伺服器180通常支援各式各樣元件,諸如java Applets、 ActiveX Controls以及Plug-Ins等,以提供網路搜尋功能。 第3圖係依劇本發明實施例之伺服器架構示意圖。伺服器1〇包括一個 處理單元11、一個記憶體12、一個儲存裝置13、一個輸入裝置14、一個 顯示裝置15以及一個通訊裝置16。根據范紐曼(Bon Neumann)架構,使用 匯流排17將處理單元11、記憶體12、儲存裝置丨3、顯示裝置14、輸入裝 ' 置丨5以及通訊裝置16連接在一起。處理單元11、記憶體12、儲存裝置13、 ^ 顯不衣置14、輸入裝置15以及通訊裝置16可整合為一部大型主機、一個 迷你電腦、一個工作站電腦、一部主機、一個個人電腦或一個行動電腦。 處理單元11從記憶體12或經由一操作人員透過輸入裝置14接收程式 模組’用以執行網路搜尋功能。處理單元η可包含一個或多個處理器,使 得電腦之處理單元可包含一個中央處理單元(CPU)、一個微處理單元(micr〇 processing unit,MPU)或關聯於一個平行運算環境之多處理單元。 儲存裝置13可包括資料庫(database)系統或檔案,以儲存多個「停 用字」(stop words )以及字數統計記錄。停用字(例如,干擾字,n〇ise w〇rds ) 為無關於網路搜尋之字,例如“the”、“is”、“are,,等等。字數統計記 • 錄儲存相關於已由特定使用者所檢索之多個短文中之字的出現次數資訊。 每一筆字數統計記錄包括之前已建立之使用者識別碼(identityJD)、一個 字以及一個計數數值等攔位。使用者識別碼可指向電腦識別碼或使用者帳 號等,以區別出使用者。字數統計記錄之實作不僅限於單一資料表、樓案, 亦可實作於資料庫管理系統或檔案系統中之多個相關連之資料表或檔案。 在不运为本發明之範圍及精神下,熟悉此技藝之人士可加上更多或使用不 盡相同之記錄欄位。 第4圖係依據本發明實施例之字數統計記錄示意圖。依據記錄仙至 41d’已由使用者“A”所檢索之短文中之字包括“quality,,、“yidd” 、 0503-A30308TWF 9 1280492 revenue以及saie ’並且這些字之出現次數依次為40、〗〇、!以及j。 另一方面,依據記錄42a至42d,已由使用者“B”所檢索之短文中包含相 同之字,並且這些字之出現次數依次為i、丨、4〇以及1〇。於此例中,範例 之子數統計記錄可描述出使用者“A”傾向於取得有關數量控制之資訊,而 使用者‘B”則意圖搜尋有關銷售之資訊。 第5圖係為依據本發明實施例之伺服器之軟體架構示意圖。記憶體u 於較佳之情況下為-動態存取記憶體(RAM),但亦可為一唯讀|£憶體⑽m) •或一快閃唯讀記憶體(flashROM)。於較佳之情況下,記憶體^儲存計算模 φ組(CalCUlati〇nmodule) 121以及搜尋模組(s咖chmodulO ID,模組中包 括常序(routines)用以實現字數計算與網路搜尋之功能。儲存裝置13於較佳 的情況下包括字數統計記錄m。例如,根據第j目,當使用者點擊相應於 ,文肠或腿之超連結101a或馳時,計算模組⑵{更開始執行, 异核組121之功用為計算短文驗或職中之字之出現次數,並據以更 新字數統計記錄131。當使用者於-個文字攔位1〇4輸入一或多個關鍵字並 且點擊搜尋機1〇5時,搜尋顧m開始執行。搜尋模組m根據字數 統計記錄131來產生搜尋結果。 第6a與6b圖係為依據本發明實施例之範例短文示意圖。計算模組 可實作於網頁巾之-❹侧本指令’諸如;java^ipt、仰Seript等等。1 算模組121亦可實作成系、统1〇或其他遠端電腦中之一個元件(〇卿_ 或物件(object)。計算模、组121練接收一做用者識別碼盘一個超連; 之-個介面事件。介面事件可為“點擊”(eliek)、“雙擊”(dQubie_eiiei 等。計算模、组m接著取得相應於該般結之一段短文61a。計算模电r 使用-個停用字過濾、演算法(例如,干擾字過渡),從短文61f中移除' 定停用字來產生另-段短文仙。事先定義之停用字儲存於儲存裝置= 而停用字過糕算法為此領域之技藝人士職知,不在此特別介紹。 模組121循序地掃描短文61b來取得其中之字。針對每—個取得:字 0503-A30308TWF 10 1280492 f模組m ^貞測帶有使用者識別碼之字是否存在於字數統計記錄中,若存 ’則將搜尋狀字數統計記錄中之計數數值加—。若轉在,則建立一 tri之字與制者朗碼之新字觀計記錄,並且將該新字數統計 5己錄中之計數數值設定為一。, VBS搜尋實作於網頁中之—或多個劇本指令,諸如-script、 -杜赤搜尋她122亦可實作成系統1()或其他遠端電腦中之一個 =或,。搜尋模組122接收一個使用者識別碼與一或多個關鍵字。搜 =.、且22取射個相應_人_字之超文_ :多個關鍵字之超文字揉記格言文件之搜尋演算法為此領域之牛= ==介紹。針對每-個超文字標記語言文件,搜尋模組』 應於朗者識別碼之字與其純次數。搜尋模組 數之二文件計算—個匹配分數。方程式(1)顯示計算匹配分 ms=!p,c,, 超文字標記語言文件之匹配分數,n代表相應於使用者# H 總合,p㈤)代表在該超文字標註語言文件中第i (Γ) ”在字數統計記錄中第丨個字之出現讀。二 目勺括嫌有、車社固7搜哥結果項目之網頁。於較佳的情況下,每一個項 題、-段短文、以及以位元表示之产個王球貝源連結之顯示標 配分數由高而低排列搜尋結果項目。田〃何。於較佳的情況下,根據匹 第7圖係為依據本發明實施例之短文字數統計方法之 妓 Γ=Γ Γ,接收—個制者識別-個超連結之:面事/ (如第6a圖所干),. 荨如V^S721,取得一段短文61a β ”)。如4S731,使用一個停用字過 如 擾字顧),從短桃中移除停用字來產生另-段敏
0503-A30308TWF 11 l28〇492 接者’使用包括由步驟S741至S745之迴圈以計算短文6lb中之所有之字 之出現次數。如步驟S741,在迴圈的一開始,取得短文仙中之一個字。 2步驟/742 ’決定接收之使用者識別碼與取得之字是否存在於字數統計記 二'中右存在’則流程進行至步驟ΝΑ。若不存在,則流程進行至步驟咖4。 ^驟S743 ’將搜尋到之字數統計記錄中之計數數值加一。如步驟⑽斗, 立筆含有取得之字與使用者識別碼之新字數統計記錄。該新字數外 記斜之計數數值設定為一。如步驟伽,決定短文隱中之所有之字是
否已全部處理完成。若是,則迴圈結束。若否,則迴醜續進行以取得短 文61b中之下一個字。 、、第8圖係為依據本發明另一個實施例之超文字標註語言文件之搜尋方 法之方。雜程始於步驟則,_做用者朗碼與一或多 固關鍵:。如步驟S821,取得多個相應於輸入關鍵字之超文字標記語言文 =二接著’使用包括從步驟S831至細之迴圈以計算取得之超文字標記 ^文件之匹配分數。如步驟則,在迴圈的一開始,搜尋到-個超文字 ^語^文件。如步雜32,根據相應於使用者識別碼之字數統計記錄, 到之超文字標記語言文件之匹配分數。計算方式可使用方程式⑴ =么式°如步驟S833,決定所有搜尋到之敎字標記語言文件是否 =匹若是,職雜行至轉難。絲,顺_行至步驟 ’亦即為_之開始’搜尋下—個超文字標記語言文件。如步驟卿, 根據匹配分數由高而鋪列财搜尋狀敎字標記語言文件。如 衡了示裝置14上顯示含有搜尋結果項目之網頁。於較佳的情二 :搜I結果項目包括帶有連結_定超文字標記語言簡之-個全球 貧源連結之標題、—段短文、以及錄元表示之職大小等。, 本發明實施例另揭露以齡短文字數統計電腦程式92G之儲 本卿實補之敏魏鱗之魏可棘儲存媒 〜 電細私式產品包括一個可使用於電腦系統並含有電腦可讀取
0503-A30308TWF 12 1280492 私式之儲存媒體9〇。電腦可讀取程式包含接收_做用者朗碼與一個超 連結之介面事件邏輯奶,取得相應於超連結之短文邏輯922,從短文中移 除停^字邏輯923,計算短文中之字之出現次數邏輯924,儲存字之出現次 數計算結果至字數統計記錄邏輯925。 本發明實補另揭露_觀謂存網路搜尋電雜式_之儲存媒 ,。第10®係表示依據本發明實補之娜搜尋之t腦可讀取儲存媒體示 思圖。此電難式產品包括—個可使贿電腦系統並含有電腦可讀取程式 =餘存媒體9〇。電腦可讀取程式包含接收_個使用者綱碼與搜尋之關鍵 癱子^輯94卜取得相應於搜尋關鍵字之超文字標記語言文件邏輯料2,計算 搜尋到=超文字標記語言文件之匹配分數邏輯祕,根據匹配分數由高而低 排歹嫩哥到之超文子標記語言文件邏輯944,顯示搜尋結果邏輯州。 雖然本發明之實關揭露如上,然其鱗用赚定本發明,任何熟悉 此項技藝者,在视縣發明之精神和範_,#可難許更動與潤飾, 因此本發明之倾範,視_之帽補顧所界定者為準。、
0503-A30308TWF 13 j28〇492 【圖式簡單說明】 第1圖係為顯示習知之搜尋結果之螢幕晝面; ,2圖係表示依據本發明實施例之網路搜尋系統架構圖; 第3圖係依劇本發明實施例之伺服器架構示意圖; =4圖係依據本發明實施例之字數統計記錄示意圖; 圖係為依據本發明實施例之伺服器之軟體架構示意圖; f 6a與6b圖係為依據本發明實施例之齡彳短文示意圖; ^圖係敏據本_實補之社字數断綠之綠流程圖; 鲁法之依據本發明另一個實施例之超文字標註語言文件之搜尋方 意圖第9圖絲祕縣發明實施狀字數統狀電腦可練贿媒體示 第10圖係表不依據本發明實施例之網路搜尋之電腦可讀取儲存媒體示
【主要元件符號說明】 101a、i〇lb〜帶有超連結之標題; 102a、102b〜短文; 職、職〜以位元表示之檔案大小; 104〜輸入欄位; 105〜按紐; 20a、20b、20C〜客戶端電腦; 10〜伺服器; 160〜通訊網路; 11〜處理單元; 13〜儲存裝置; 15〜輸出裝置; 180〜瀏覽器; 12〜記憶體; 14〜顯示裝置; 16〜通訊裝置; 17〜匯流排; 41a、..:42(1〜字數統計記錄; 122〜搜尋模組; 121〜計算模組; 131〜子數統計記錄;
0503-A30308TWF 1280492 61a、61b〜短文; S711、S721、…、S744、S745〜流程步驟; S811、S821、…、S841、S842〜流程步驟; 90〜儲存媒體; 920〜短文字數統計電腦程式; 921〜接收一個使用者識別碼與一個超連結之介面事件邏輯; 922〜取得相應於超連結之短文邏輯; 923〜從短文中移除停用字邏輯; 924〜計算短文中之字之出現次數邏輯; 925〜儲存字之出現次數計算結果至字數統計記錄邏輯; 90〜儲存媒體; 940〜網路搜尋電腦程式; 941〜接收一個使用者識別碼與搜尋之關鍵字邏輯; 942〜取得相應於搜尋關鍵字之超文字標記語言文件邏輯; 943〜計算搜尋到之超文字標記語言文件之匹配分數邏輯; 944〜根據匹配分數由高而低排列搜尋到之超文字標記語言文件邏輯; 945〜顯示搜尋結果邏輯。 0503-A30308TWF 15

Claims (1)

1280492 十、申請專利範圍·· 種、同路技尋系統,顧於_個電腦網路系統巾,包括·· _ p 裳置用以儲存多筆字數統計記錄,每一字數統計記錄包括相 姻者所檢索之多個短文中之-個字之出現次數之資訊;以 及 接收-個式她㈣無相應於上述使用者之-個使用者識別碼, 個_子’取得相胁上賴游之如超文字標記語言文件,依 語言目之上辭數辑記料算錄每—超文字標記 俨古己狂+々杜#,根據上迷第一數值由高而低排列相應於上述超文字 …ΓΓ*之多個項目,以及顯示一個包括經排序後之上述項目之網頁。 ^ 吏用者識別碼、一個字、以及一個計數數值。 3·如巾轉利第丨項所述之網路搜尋系統,其中上述項目包括 3ΓίΓ瓶概件之—觸綱結之—龜標題、一 段紐文以及以位元表示之檔案大小。 更勺細第1項所述之網路搜尋系統,其中上述電腦網路系統 ^ 彳端,上述客戶端擁有-個網關覽器,上述客戶端姐由上 述網簡覽H與上述網路搜㈣統互動來進行鱗搜尋。戶I由上 植接範圍第1項所述之網路搜尋系統,更包括—個第二程式模 、减收上錢⑽識別碼,雛—個超連結之—個事 上述超連結之-段短文,上述短々勺扭夕他〜 ’讦取仔相應於 叶曾每-個〜γ ,上述第二程式模組更用以 心母個子之一個計數數值,上述第二程式模組更用以儲 述計數數值収上述侧者識觸至上料數、崎鱗。 子上 6. 如申請專利範圍第5項所述之網路搜尋系統,其中上述第 使用一個停用抑濾演算法從上述短文中移除事先定義之停用字/、、, 7. 如申請專利範圍第6項所述之網路搜尋系統,其中上述第二程式模組 0503-A30308TWF 16 1280492 於上述字數統計記錄 用以偵測帶有上述使用者識別碼之上述字是否存在 中,·以及 、…右π有上舰肖者識綱之上述字未存在於上述字數崎記錄护, 述第二程式模組建立一個包括帶有上述使用者識別碼之上述字之新: 計記錄;以及將上述新字數統計記錄之一個計數數值設定為—。子、、先 8·如申讀專利範圍第/項所述之網路搜尋系統,其中上述第 心伽掃有上述制者酬敎上述字是贿在於均字數二: •中;、崎,若帶有上舰时_碼社述字存在社述錄_記錄^ 鲁上述第二程式模組更用以於上述細到之字數統計記錄中之—個計數^值 9·-種網路搜尋方法,該方法包括使用_部電腦執行下列步驟: 接收相應於一個使用者之一個使用者識別碼; 接收一個關鍵字; 取得相應於上述關鍵字之多個超文字標記語言文件; 依據相應於上述侧者顧碼之謂乡筆字數統計記料算代表每一 超文字標記語言文件之第-數值,上述字數統計記錄包括相關於已由^述 使用者所檢索之多個短文中之一個字之出現次數之資訊; _ 根據上述第-數值由高而低排列相應於上述超文字標記語夕夕 個項目;以及 口什又夕 顯示一個包括上述經排序後之多個項目之網頁。 10·如申請專利範圍第9項所述之網路搜尋方法,其中上述字數統計記 錄包括一個使用者識別碼、一個字、以及一個計數數值。 ° ^ 11·如申請專利範圍第9項所述之網路搜尋方法,其中上述項目包括帶 有連結於特定超文字標記語言文件之一個全球資源連結之一個顯示 一段短文、以及以位元表示之檔案大小。 12·如申請專利範圍第9項所述之網路搜尋方法,更包括下列步驟: 0503-A30308TWF 17 1280492
接收上述使用者識別碼; 接收一個超連結之一個介面事件; 取得相應於上述超連結之—段短文,上賴文包括多個字; 計算每-個字之一個計數數值;以及 儲存上述字之上述計數數值以及上述使用者識別碼至上述字數統計吃 13如申請專纖圍第12項所述之瓣搜尋方法,更包括 用-個停用字過濾演算法從上述短文中移除事先定義之停用字。驟為使 14. 如申請專利範圍第13項所述之網路搜尋方法,更包 _帶有地㈣麵输谢樹她她;^記錄 若帶有上述Μ者酬碼之上料林在赴料數崎 -個包括帶有上述使用者酬碼之上述字之新字數統計記錄;以及寺 將上述新子數、纟Κ記錄之_個計數數值設定為一。 15. 如申轉概圍第13顧述之網路搜尋方法,更包括下列· 中;Z帶有上述制者識別碼之上述字是否存在於上述字數統ς記錄 錄 中 立 建 16.種網路搜哥方法,該方法包括使用一部電腦執行下列步驟· 接收一個使用者識別碼; · 接收一個超連結之一個介面事件; 取,相應於上述超連結之—段短文,上述短文包括多個字,· 計算每一個字之一個計數數值;以及儲存上述字之上述計數數值以及上述使用者識別碼至上述字數 錄,上述字舰計記錄儲存相已由—做用麵檢索之多個短文= 0503-A30308TWF 18 '1280492 " 一個字之出現次數之資訊。 17.如申請專利範圍第16項所述之網路搜尋方法,更包括一偭步驟為使 用一個停用字過濾演算法從上述短文中移除事先定義之停用字。
0503-A30308TWF 19
TW094136682A 2005-02-22 2005-10-20 Web search system and method thereof TWI280492B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/063,277 US7475074B2 (en) 2005-02-22 2005-02-22 Web search system and method thereof

Publications (2)

Publication Number Publication Date
TW200630830A TW200630830A (en) 2006-09-01
TWI280492B true TWI280492B (en) 2007-05-01

Family

ID=36914043

Family Applications (1)

Application Number Title Priority Date Filing Date
TW094136682A TWI280492B (en) 2005-02-22 2005-10-20 Web search system and method thereof

Country Status (3)

Country Link
US (1) US7475074B2 (zh)
CN (1) CN100394427C (zh)
TW (1) TWI280492B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI400624B (zh) * 2007-12-06 2013-07-01 Yahoo Inc 用於在網路上管理一社交網路通信之方法、行動裝置及處理器可讀儲存媒體以及在網路上與一社交網站進行通信之網路裝置
US8909651B2 (en) 2011-03-03 2014-12-09 Brightedge Technologies, Inc. Optimization of social media engagement
US8972275B2 (en) 2011-03-03 2015-03-03 Brightedge Technologies, Inc. Optimization of social media engagement

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7478092B2 (en) * 2005-07-21 2009-01-13 International Business Machines Corporation Key term extraction
US8935290B2 (en) * 2006-05-03 2015-01-13 Oracle International Corporation User interface features to manage a large number of files and their application to management of a large number of test scripts
US8131722B2 (en) * 2006-11-20 2012-03-06 Ebay Inc. Search clustering
TWI427492B (zh) * 2007-01-15 2014-02-21 Hon Hai Prec Ind Co Ltd 資訊搜尋系統及方法
CN101350154B (zh) * 2008-09-16 2013-01-30 北京搜狐新媒体信息技术有限公司 一种电子地图数据的排序方法及装置
US20100306203A1 (en) * 2009-06-02 2010-12-02 Index Logic, Llc Systematic presentation of the contents of one or more documents
US9037733B2 (en) * 2009-12-17 2015-05-19 American Express Travel Related Services Company, Inc. System and method for enabling product development
US20110154476A1 (en) * 2009-12-17 2011-06-23 American Expres Travel Related Services Company, Inc. System and method for collecting and validating intellectual property asset data
US8001012B2 (en) * 2009-12-17 2011-08-16 American Express Travel Related Services Company, Inc. System and method for enabling product development
US20110153434A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for merchandising intellectual property assets
US8972271B2 (en) 2009-12-17 2015-03-03 American Express Travel Related Services Company, Inc. System and method for enabling custom portfolio definition in an IP marketplace
US20110153852A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for valuing and rating intellectual property assets
US20110153473A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for managing royalty payments
US20110153552A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for standardizing ip transactions
US20110153444A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for registering users for an ip marketplace
US8977761B2 (en) * 2009-12-17 2015-03-10 American Express Travel Related Services Company, Inc. System and method for enabling product development
US20110153851A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for adjusting intake based on intellectual property asset data
US8656035B2 (en) 2009-12-17 2014-02-18 American Express Travel Related Services Company, Inc. System and method for enabling user requested channels in an IP marketplace
US20110153573A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for valuing an ip asset based upon patent quality
US20110154451A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc System and method for for an industry based template for intellectual property asset data
US8306866B2 (en) * 2009-12-17 2012-11-06 American Express Travel Related Services Company, Inc. System and method for enabling an intellectual property transaction
CN102841904B (zh) * 2011-06-24 2016-05-04 阿里巴巴集团控股有限公司 一种搜索方法及设备
KR102322031B1 (ko) * 2014-07-31 2021-11-08 삼성전자주식회사 메타 데이터를 관리하는 시스템 및 방법
CN109299244A (zh) * 2018-11-15 2019-02-01 天津字节跳动科技有限公司 一种在线文档检索方法、装置、存储介质及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3108015B2 (ja) * 1996-05-22 2000-11-13 松下電器産業株式会社 ハイパーテキスト検索装置
US6336117B1 (en) * 1999-04-30 2002-01-01 International Business Machines Corporation Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine
WO2002052441A1 (en) * 2000-12-22 2002-07-04 Koninklijke Philips Electronics N.V. Meta data category and a method of building an information portal
US7072883B2 (en) * 2001-12-21 2006-07-04 Ut-Battelle Llc System for gathering and summarizing internet information
CN1193309C (zh) * 2001-12-29 2005-03-16 财团法人资讯工业策进会 搜索引擎关键字的关联建立系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI400624B (zh) * 2007-12-06 2013-07-01 Yahoo Inc 用於在網路上管理一社交網路通信之方法、行動裝置及處理器可讀儲存媒體以及在網路上與一社交網站進行通信之網路裝置
US8620896B2 (en) 2007-12-06 2013-12-31 Yahoo! Inc. Reverse matching relationships in networks of existing identifiers
US8909651B2 (en) 2011-03-03 2014-12-09 Brightedge Technologies, Inc. Optimization of social media engagement
US8972275B2 (en) 2011-03-03 2015-03-03 Brightedge Technologies, Inc. Optimization of social media engagement

Also Published As

Publication number Publication date
US20060190446A1 (en) 2006-08-24
TW200630830A (en) 2006-09-01
US7475074B2 (en) 2009-01-06
CN100394427C (zh) 2008-06-11
CN1825308A (zh) 2006-08-30

Similar Documents

Publication Publication Date Title
TWI280492B (en) Web search system and method thereof
US12001490B2 (en) Systems for and methods of finding relevant documents by analyzing tags
US9576029B2 (en) Trust propagation through both explicit and implicit social networks
US20110078140A1 (en) Method and system for user guided search navigation
US8676811B2 (en) Method and apparatus of generating update parameters and displaying correlated keywords
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
US20070078889A1 (en) Method and system for automated knowledge extraction and organization
WO2008106667A1 (en) Searching heterogeneous interrelated entities
TW201118620A (en) Systems and methods for providing advanced search result page content
JP2000105739A (ja) サブジェクト・マップを形成し、該サブジェクト・マップに応じたインタ―ネット・デ―タを提供する方法及び装置
US10909196B1 (en) Indexing and presentation of new digital content
JP5237353B2 (ja) 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体
WO2015023304A1 (en) Refining search query results
Borodin et al. Context browsing with mobiles-when less is more
CN104067273A (zh) 将搜索结果分组为简档页面
TW200928815A (en) System and method for history clustering
JP2010128928A (ja) 検索システム及び検索方法
CN102257490A (zh) 文档信息选择方法和计算机程序产品
Hsu et al. Efficient and effective prediction of social tags to enhance web search
US11086961B2 (en) Visual leaf page identification and processing
JP5777663B2 (ja) 検索支援装置及び検索支援プログラム
JP3673859B2 (ja) ウェブページグループ発展過程提示システム
JP2012043290A (ja) 情報提供装置、情報提供方法、プログラム、ならびに、情報記録媒体
JP2010282403A (ja) 文書検索方法
Adhiya et al. AN EFFICIENT AND NOVEL APPROACH FOR WEB SEARCH PERSONALIZATION USING WEB USAGE MINING.