TWI620080B - 基於使用者行為的文件分類系統與方法 - Google Patents
基於使用者行為的文件分類系統與方法 Download PDFInfo
- Publication number
- TWI620080B TWI620080B TW105105906A TW105105906A TWI620080B TW I620080 B TWI620080 B TW I620080B TW 105105906 A TW105105906 A TW 105105906A TW 105105906 A TW105105906 A TW 105105906A TW I620080 B TWI620080 B TW I620080B
- Authority
- TW
- Taiwan
- Prior art keywords
- file
- webpage
- search key
- search
- user
- Prior art date
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明揭示一種基於使用者行為的文件分類系統,包括一瀏覽行為分析器,以依據下式,計算特定包含搜尋器的網頁文件與多數搜尋關鍵材料間的相關性值:
Description
本發明是關於一種基於使用者行為的文件分類系統與方法,特別是關於一種基於使用者行為的商品說明文件分類系統與方法。
在網際網路大量應用的時代,網路世界存在巨量的文件。為了使文件能夠順利達到目標讀者,網路搜尋引擎提供了決定性的幫助。絕大多數的網路搜尋引擎都提供一個搜尋介面,使用者只要以自己的電腦連結該搜尋引擎,並在該搜尋界面中輸入特定形式的資料,可稱為「搜尋關鍵材料」,例如一個詞、一段簡短的文字、一篇文章、一張或多張照片、一段聲音,或其組合,搜尋引擎就可以根據所輸入的搜尋關鍵材料,在一個巨大的資料庫中,以文件為單位,計算各個文件與該搜尋關鍵材料之間的相關性,並將相關性值超過臨界值的文件,以一定順序提供給使用者的電腦。
在現今的應用中,搜尋引擎所服務的對象已經不限於在搜尋介面上輸入搜尋關鍵材料的使用者。商業化的搜尋引擎應用在商品或資訊的銷售,針對可能購買商品或資訊的使用者,提供在背景搜尋的服務。最常見的服務是在使用者瀏覽特定網站(包括搜尋引擎所提供的網站本身)時,根據使用者的瀏覽行為,自動產生搜尋關鍵材料,並在特定的文件中,找出相關性值超過臨界值的文件,以一定順序提供給使用者的電腦。通常是以特定欄位的形式,顯示在使用者所瀏覽的網頁中,以促使使用者產生購買行為。
搜尋引擎應用在網路商場中,也用來幫助使用者找到可能需要的商品。一個網路商場可能包含相當多數的商店或專櫃,所提供的商品品項數量龐大。商場雖然提供簡單的分類,但使用者仍然難以搜尋到所需的商品,以及對相關的商品進行比較。搜尋引擎透過相關性的計算,以說明單項商品的資訊為單位文件,提供相關性較高的有限數量商品說明資訊,顯示在商場的搜尋網頁上,幫助使用者找到所需的商品或商品資訊。
在有關商品或服務的說明文件,以及性質類似的文件,通常都會設定多數的屬性欄位,以供文件製作者填入說明內容。這些屬性欄位包括多數分別標以「商品名稱」、「商品短標題」、「商品描述」、「商品產地」、「商品價錢」、「商品使用說明」、「寄送費用」、「付款方式」等屬性的欄位。傳統的搜尋引擎所使用的文件相關性值計算方法主要根據這些欄位的屬性,計算一份文件與特定搜尋關鍵材料之間的相關性。在提供商品或其他具有屬性欄位的說明文件搜尋服務時,搜尋引擎會根據所算得的相關性值,對文件進行分類。例如將相關性值超過一定臨界值的文件判斷為「高相關性」的文件,依照一定的順序,顯示在特定的網頁上,以供使用者點選,並進一步產生購買或其他行為。
例如,一種傳統的文件相關性計算方法,用以計算文件與搜尋關鍵材料a的相關性值,可以下式表示:……(式1) 其中,A表文件中各屬性欄位中的描述內容與搜尋關鍵材料a的命中程度分數,W代表該欄位的權值。N為一自然數,通常小於一上限值,以縮短文件分類的計算時間。所選用的屬性欄位通常為商品名稱欄位、短標題欄位、商品描述欄位等。
在這種傳統的文件分類系統中,所使用的搜尋關鍵材料通常就是「關鍵字」,亦即一個詞(word),或一段有限長度的文字。在以下的說明中,為方便理解起見,將以「關鍵字」指稱各種可能應用的搜尋關鍵材料,亦即包括上述的詞、簡短的文字、文章、照片、聲音,以及其他可能的搜尋關鍵材料或其組合。
傳統的文件分類系統會對各屬性欄位預先設定其權值,例如:對於商品名稱欄位可以設定100%的權值,短標題欄位可以設定50%的權值,商品描述欄位可以設定30%的權值,等等。至於所稱的「命中程度」,通常可以設定為:完全命中與部分命中兩種。完全命中是指關鍵字的長度與內容與該屬性欄位記載內容完全相同。這種情形可以給予最高的命中分數,例如1分。部分命中則指該屬性欄位中的記載內容包含該關鍵字。例如,該關鍵字於該屬性欄位中出現一次或多次,但屬性欄位的記載內容所含字數(稱為「長度」)與關鍵字長度不同,皆歸類成部分命中,給予較低的命中分數,例如0.5分。如果該關鍵字並不存在於該屬性欄位,則歸類為未命中,命中分數給予0分。
上述的傳統文件搜尋引擎或分類系統,提供了人為操控搜尋/分類結果的漏洞。了解上述或類似相關性值計算公式的人,可以在各個相關的屬性欄位中輸入特定的記載內容,而使搜尋引擎的分類,達到與原先預期目的不同的結果。
舉例而言,當使用者在一個網路商場的搜尋欄位中輸入的關鍵字是「衛生紙」時,習知的搜尋引擎會根據這個關鍵字,計算各種商品的說明文件與該關鍵字的相關性值。
上表所示的實例,常見於個網路商場的產品說明文件。但從表中所列的實例可以看出,以前該式1計算的結果,將是: 1. 舒潔衛生紙 – 只有商品名稱(100)欄位部分命中,其他欄位沒有命中,計算結果命中分數為50分。 2. 萬用衛生紙架 – 欄位商品名稱、商品短標題、商品描述均部分命中,計算結果命中分數為90分。 3. 碎花衛生紙盒 – 也是欄位商品名稱、商品短標題、商品描述均部分命中,計算結果命中分數為90分。
結果,以關鍵字「衛生紙」搜尋,會先找出衛生紙盒、衛生紙架,最後才是衛生紙。但從關鍵字「衛生紙」可知,使用者所搜尋的對象是衛生紙商品,而不是衛生紙盒、衛生紙架商品。且如果執行該相關性值計算的文件分類系統是以相關性值的高低排列,則衛生紙盒、衛生紙架的商品說明的排序會在衛生紙之前。
在這種情形下,當某產品的提供者得知另一項產品的需求者眾,且可預知需求者在搜尋時可能輸入的關鍵字,則可在自己的產品說明文件中的相關屬性欄位輸入該關鍵字,及可誤導搜尋引擎的分類結果,而將自己無關的產品,提供在需求者的搜尋結果中顯示。
本發明的目的是在提供一種基於使用者行為的文件分類系統與方法,用以改良習知文件分類系統或方法。
本發明的目的也在提供一種新穎的文件分類系統,該系統可根據使用者的行為,計算或修正特定文件與特定搜尋關鍵材料的相關性值,以基於該搜尋關鍵材料對文件做分類。
本發明的目的也在提供一種新穎的文件分類方法,以根據使用者的行為,計算或修正特定文件與特定搜尋關鍵材料的相關性值,並基於該搜尋關鍵材料對文件做分類。
根據本發明的設計,特定文件與特定搜尋關鍵材料b的關聯性質,可以下式計算:……式(2) 其中, B表使用者於該搜尋器輸入搜尋搜尋關鍵材料b而顯示該文件後,對該文件為Bn行動之人數。行動Bn可為各種與該文件相關的行動,但通常可包括瀏覽文件、點選商品、停留時間、加入購物車、完成付款等行為。W代表該欄位的權值。n為一自然數,通常小於一上限值,以縮短文件分類的計算時間。
在本發明的較佳實施例中,該行動人數為「相對人數」,亦即:在對該文件為前一行動之人數中為次一行動的人數比例。例如,以關鍵字b搜尋後得到該文件的人數中,點選該文件的人數比例;點選該文件的人數中,停留在該文件上超過預定時間的人數比例;點選該文件的人數中,從該文件中點選一個以上商品的人數比例;點選一個以上商品的人數中,將一個以上點選商品加入購物車的人數比例;將一個以上點選商品加入購物車的人數中,完成付款的人數比例等等。該相對人數也未必是為一行動之人數對為前一行動的人數的比例,而可為對為之前任何一行動的人數比例。例如,在本發明的一種較佳實例中,該點選商品、停留時間、加入購物車、完成付款的相對人數,都是為該行動的人數與點選該文件的人數的比例。相對人數的值,經過計算後,為0到1之間的數值。但其他人數計算方式,例如以絕對人數計算,也屬可行。
在上述設計下,本發明的基於使用者行為的文件分類系統乃包括: 一個瀏覽行為蒐集器附加手段,用以在一個網站的網頁檔案中附加一瀏覽行為蒐集器,其中,該網頁檔案包含多數網頁文件以及至少一搜尋器; 該瀏覽行為蒐集器在該網頁檔案由一電腦下載執行後,可取得執行該網頁檔案期間使用者之行為資訊,包括使用者電腦代碼、該搜尋器之搜尋行為、使用者對特定網頁之行為等資訊,送回至該文件分類系統中; 一個瀏覽行為分析器,用以針對該網頁檔案所包含的網頁文件,根據該瀏覽行為蒐集器所送回的瀏覽行為資訊,計算該網頁文件與多數搜尋關鍵材料間的相關性值,形成一相關性資料檔;及 一個文件分類手段,用以將該多數網頁文件以既存的搜尋關鍵材料為索引,加以分類; 其中,該瀏覽行為分析器是依據式(2),計算該網頁文件與多數搜尋關鍵材料間的相關性值。
在本發明的較佳實例中,該分類包括選擇與一搜尋關鍵材料之相關性值高於一臨界值的特定數量網頁文件,歸屬於以該搜尋關鍵材料為索引的文件類別。
在本發明的某些較佳實例中,該文件分類系統另包括一個導引器,該導引器可在該網頁檔案由一電腦下載執行後,於偵測到使用者電腦使用該既存的搜尋關鍵材料在該搜尋器進行搜尋時,將經分類歸屬該搜尋關鍵材料類別的預定數量網頁文件或網頁文件的說明,顯示於該搜尋器的搜尋結果顯示中。
在本發明有用的實施例中,該瀏覽行為分析器另包括優化機制。該優化機制包括:於所蒐集的瀏覽行為資訊筆數超過一定數量時,將超過一定時間以前所蒐集的瀏覽行為資訊,排除在相關性計算之外。
將一使用者的行動中,與前一行動時間間隔超過預定期間的行動,視為無該行動。
將未包含該搜尋關鍵材料的網頁文件,排除於以該搜尋關鍵材料為索引的分類之外。
本發明提供一種新穎的文件分類方法,用以依據多數的搜尋關鍵材料,將一網站檔案中所含的網頁文件作分類。其中,該網頁檔案包含多數網頁文件以及至少一搜尋器。該方法包括: 於該網站檔案中附加一瀏覽行為蒐集器,該瀏覽行為蒐集器在該網頁檔案由一電腦下載執行後,可取得執行該網頁檔案期間使用者之行為資訊,包括使用者電腦代碼、該搜尋器之搜尋行為、使用者對特定網頁之行為等資訊; 針對該網頁檔案所包含的網頁文件,根據該瀏覽行為資訊,計算該網頁文件與多數搜尋關鍵材料間的相關性值,形成一相關性資料檔;及 將該多數網頁文件以既存的搜尋關鍵材料為索引,加以分類; 其中,該相關性值是依據式(2)計算。
在本發明的較佳實例中,該分類步驟包括選擇與一搜尋關鍵材料之相關性值高於一臨界值的特定數量網頁文件,歸屬於以該搜尋關鍵材料為索引的文件類別。
在本發明的某些較佳實例中,該方法另可包括在偵測到有使用者電腦使用該既存的搜尋關鍵材料在該搜尋器進行搜尋時,將經分類歸屬該搜尋關鍵材料類別的預定數量網頁文件或網頁文件的說明,顯示於該搜尋器的搜尋結果顯示中的步驟。
該計算相關性值的步驟尚可包括以下步驟中至少一種: 於所蒐集的瀏覽行為資訊筆數超過一定數量時,將超過一定時間以前所蒐集的瀏覽行為資訊,排除在相關性計算之外。
將一使用者的行動中,與前一行動時間間隔超過預定期間的行動,視為無該行動。
及將未包含該搜尋關鍵材料的網頁文件,排除於以該搜尋關鍵材料為索引的分類之外。
本發明的其他目的及優點,可由以下詳細說明並參照下列圖式,而更形清楚。
以下依據圖式說明本發明文件分類系統與方法的幾種實施例。圖1表示本發明文件分類系統的方塊圖。如圖所示,本發明的文件分類系統100主要是一種以電腦軟體形式呈現的網頁文件分類工具。該文件分類系統100可以建置於一個網站伺服器110中,利用該伺服器電腦的各種運算、通信、儲存能力,進行操作。該文件分類系統100也可單獨建置在一個伺服器電腦中,用以透過網路連線服務一個或多個網站伺服器。
圖1也顯示本發明的文件分類系統100包括一個瀏覽行為蒐集器附加手段10,一個瀏覽行為分析器20,以及一個文件分類手段30。此外,該文件分類系統100尚可包含一個導引器40。其中,該瀏覽行為蒐集器附加手段10是用來在該網站伺服器110中所包含,代表一個網站的網頁檔案中,附加一瀏覽行為蒐集器11。圖中顯示,該網站伺服器110包含多數的網頁檔案111、112、113,各個網頁檔案111、112、113都包含多數網頁文件114、115、116以及至少一個搜尋器117。如此行業專家所知,個別網頁檔案111、112、113經過使用者電腦(未圖示)透過網路連線下載,並在該使用者電腦中執行後,即可在該使用者電腦中產生網頁,呈現個別網頁檔案中的特定網頁文件114、115、116,並可藉由使用者相對於該網頁文件114、115、116的操作,例如點選、輸入指令或資料等行動,而產生對應的功能。在本發明的較佳實例中,該網頁檔案111、112、113為網路商場網頁,用來提供使用者上網搜尋商品,進行購物。但是其他功能的網站,例如單純的搜尋網站,社交網站、企業內部網站、政府網站等,只要配備搜尋功能,都可適用於本發明,以進行網站中網頁文件的分類,以幫助使用者正確搜尋所需的文件。至於該搜尋器117,則可以為任何市售的搜尋器軟體,也可是建置該網站的廠商自行開發,用以在該網站中,例如為一網路商場中,搜尋商品的軟體工具。這種搜尋器117的技術內容廣為習知,在此不須贅述。
圖1中的瀏覽行為蒐集器11,附在該網頁檔案111、112、113中,在該網頁檔案111、112、113由任一電腦下載執行後,取得執行該網頁檔案期間使用者之行為資訊。適用在本發明的使用者行為資訊,包括使用者電腦代碼、該搜尋器之搜尋行為、使用者對特定網頁之行為等資訊。該瀏覽行為蒐集器11配備通信能力,於取得一筆使用行為資訊後,啟動執行該網頁檔案的瀏覽器,將該筆使用行為資訊傳回該文件分類系統100。
具備這種功能的瀏覽行為蒐集器11已屬已知技術。各種市售的瀏覽行為蒐集器軟體均可應用在本發明。其中一種實例包括稱為「Javascript貼碼」(Javascript tracking code)的技術,通常是在以符合一般網頁規範製作的網頁html檔案中,嵌入一段javascript程式碼。例如在以javascript語言所定義的網路商城網頁html中,嵌入該javascript程式碼,用以蒐集使用者行為資訊。當使用者電腦連接該網頁,執行到此段Javascript貼碼時,則該瀏覽行為蒐集器11可透過事先定義好的貼碼參數,取得使用者瀏覽相關資訊,回傳到該文件分類系統100。利用這種瀏覽行為蒐集器技術所能蒐集到的瀏覽行為資訊,包含: 1. 瀏覽網站資訊, 2. 瀏覽頁面資訊,包括首頁、分類頁、商品頁、搜尋頁、購物車頁、成交頁等, 3. 瀏覽器資訊,包括記錄cookie、瀏覽器相關資訊等, 4. 使用者會員資訊,例如登入的會員代號, 5. 單純的瀏覽行為資訊,包括曾經搜尋的搜尋關鍵材料(關鍵字)、放入購物車的行動、購買商品的行動以及所購買的商品名稱或其他說明、付款行動及明細、個別頁面停留時間等資訊,以及 6. 其它資訊。
由於具有上述功能的瀏覽行為蒐集器的程式設計、嵌入方式以及資訊蒐集、回傳方法,均屬已知技術,熟習本技術領域的人士均可依照既有技術資料,製作該瀏覽行為蒐集器附加手段10及該瀏覽行為蒐集器11,其詳情即不須在此贅述。本實施例的瀏覽行為分析器20是用來以該網頁檔案111、112、113所包含的網頁文件114、115、116為單位,根據該瀏覽行為蒐集器11所送回的瀏覽行為資訊,計算該網頁文件114、115、116與多數搜尋關鍵材料間的相關性值,以產生一個對應於各網頁檔案111、112、113的相關性資料檔101。
在本實施例的文件分類手段30是用來將該多數網頁文件以既存的搜尋關鍵材料為索引,加以分類,提供依據搜尋關鍵材料找尋相關性值超過一定臨界值的網頁文件。該文件分類手段30可將分類的結果,形成文件分類檔,儲存在該文件分類系統100中(記憶裝置中),但也可以在每次啟動搜尋時,才進行分類。
本發明的核心技術之一,在於該瀏覽行為分析器20計算特定網頁文件與多數搜尋關鍵材料間的相關性值的方法。在本發明的較佳實例中,該瀏覽行為分析器是依據式(2),計算各網頁文件與多數搜尋關鍵材料間的相關性值:……式(2) 其中,B表使用者於該搜尋器輸入搜尋搜尋關鍵材料b而顯示該文件後,對該文件為Bn行動之人數。行動Bn可為各種與該文件相關的行動,但通常可包括瀏覽文件、點選商品、停留時間、加入購物車、完成付款等行為。W代表該欄位的權值,可以依照特定的應用加以適當設定。N、m為自然數,n通常小於一上限值,以縮短文件分類的計算時間。
在本發明的較佳實施例中,該行動人數為「相對人數」,亦即:在對該文件為前一行動之人數中為次一行動的人數比例。例如,以關鍵字b在該搜尋器117中進行搜尋後,得到該文件的人數中,點選該文件的人數比例;在點選該文件的人數中,停留在該文件上超過預定時間的人數比例;點選該文件的人數中,從該文件的「商品名稱」或其他相關欄位,或在文件中點選一個以上超連結,以顯示屬性為商品說明的人數比例;點選一個以上商品的人數中,將一個以上點選商品加入該文件頁面的購物車欄位的人數比例;將一個以上點選商品加入購物車的人數中,完成付款的人數比例等等。該相對人數也未必是為一行動之人數對為前一行動的人數的比例,而可為對為之前任何一行動的人數比例。例如,在本發明的一種較佳實例中,該點選商品、停留時間、加入購物車、完成付款的相對人數,都是為該行動的人數與點選該文件的人數的比例。相對人數的值,經過計算後,為0到1之間的數值。但其他人數計算方式,例如以絕對人數計算,也屬可行。
在上述設計下,本發明的瀏覽行為蒐集器11所蒐集的瀏覽行為資訊,主要即包括執行特定網頁檔案111、112、113,並以該搜尋器117進行搜尋的使用者電腦代碼或其他標記,執行該搜尋後所得到的網頁文件,以及使用者利用該電腦對該網頁文件所作的行動,例如點選、輸入資料等行動。為達成此目的,特定的網頁文件較好配備屬性欄位,並在欄位中填入相關說明,以供該瀏覽行為分析器20計算該相關性值。適用的屬性欄位包括商品名稱欄位、購買指令欄位、購物車欄位、結帳欄位等等。
該瀏覽行為蒐集器11通常是在該使用者電腦的搜尋器117進行一次搜尋時啟動。該瀏覽行為蒐集器11偵測到該搜尋事件後,即記錄該使用者電腦的代碼,搜尋的關鍵字,以及搜尋所得的文件描述。在本發明的較佳實例中,當使用者在該搜尋所得網頁中點選其中一文件後,該瀏覽行為蒐集器11即記錄該行動。之後,如該使用者無進一步行動,而點選另一文件,該瀏覽行為蒐集器11也記錄該行動。如使用者在特定文件中點選一超連結或一欄位,該瀏覽行為蒐集器11也記錄該行動。餘此類推。當該使用者電腦關閉該搜尋器117,或以任何方式結束搜尋,例如超過一定時間無進一步行動後,該瀏覽行為蒐集器11即將記錄的結果回傳到該文件分類系統100。在本發明的一些實例中,該瀏覽行為蒐集器11是即時(real time)將使用者的行為資訊回傳到該文件分類系統100。該文件分類系統100即將所得的瀏覽行為資訊,儲存在其記憶裝置(未圖示)中。
如此得到的一筆瀏覽行為資訊,即包括以單一網頁文件為單位的資料檔,包括該網頁文件、該使用者電腦代碼、該使用者電腦對該網頁文件的行動,以及相關的時間。
該瀏覽行為分析器20根據該瀏覽行為蒐集器11所蒐集的瀏覽行為資訊,計算特定文件與特定搜尋關鍵材料的相關性時,即可取得多數筆的瀏覽行為資訊檔,根據式(2)進行計算。以建立該相關性資料檔101。
在本發明的較佳實例中,該相關性資料檔101包括多數網頁文件描述,多數既存的(已經取得的) 搜尋關鍵材料,以及各網頁文件與既存的搜尋關鍵材料的相關性值。
圖2顯示一種相關性資料檔101的實例。如圖所示,該相關性資料檔101的結構類似一種網格,並表示各網頁文件與各個已知的搜尋關鍵材料之間的關聯性值。該關聯性值是以式(2),根據該瀏覽行為蒐集器11所取得的瀏覽行為資訊計算所得的結果。圖中顯示,有些使用者輸入關鍵字A後,因為點選文件1與文件2,以及其後針對該文件所為的行動,產生並提高文件1、文件2與關鍵字A的相關性值。有些使用者輸入關鍵字A後,可能並不會得到文件3或4,或者得到後沒有點選,故兩者之間並無有效的相關性值存在。此外,使用者輸入關鍵字A、B、C、D都會出現文件2,且均有人點選,並繼而行動。使文件2與該等關鍵字均產生相關性值。
從圖2顯示的結果可見,本發明的文件分類系統是根據使用者對搜尋所得的結果文件,所為的行動有無及種類、數量,以及行為時間遠近,而判斷特定關鍵字與特定網頁文件之間的相關性。所計算得到的相關性值足以代表特定關鍵字與特定網頁文件之間的真實相關性。
當該相關性資料檔101建立完成後,該文件分類手段30即可容易的以各搜尋關鍵材料/關鍵字為索引,對所有的文件作分類。該分類的操作可以預先完成,產生一個網頁文件-索引分類檔備用。也可在使用者請求時,才進行分類。分類時,可以選擇與一搜尋關鍵材料之相關性值高於一臨界值的特定數量網頁文件,歸屬於以該搜尋關鍵材料為索引的文件類別。如此可以縮短將來搜尋時的所需時間。
在圖1的實例中,該文件分類系統另包括一個導引器50,該導引器可在該網頁檔案111、112、113由一電腦下載執行後,於偵測到使用者電腦使用以經存在該文件分類系統100中的搜尋關鍵材料,在該搜尋器117進行搜尋時,將經分類歸屬該搜尋關鍵材料類別的預定數量網頁文件或網頁文件的說明,顯示於該搜尋器117的搜尋結果顯示中。該導引器50即是以這種方式取代該搜尋器117,提供搜尋的結果。由於經過該文件分類系統100分類後的結果,足以代表各個既存的搜尋關鍵材料與特定網頁文件之間的相關性值,該導引器50所提供的網頁文件,即會是正確的搜尋結果。
該導引器50也可以與類似或相同於該瀏覽行為蒐集器11的附加方式,附加到該網頁檔案111、112、113中,以在使用者電腦中執行,取代或輔助該搜尋器117。此外,將該導引器50以對該瀏覽行為蒐集器11附加功能的形式,附加在該瀏覽行為蒐集器11中,也是一種可能的做法。其詳細技術內容,在此即不須贅述。
在本發明有用的實施例中,該瀏覽行為分析器20另可提供一種或以上的優化機制。所適用的優化機制包括: 1. 於所蒐集的瀏覽行為資訊筆數超過一定數量時,將超過一定時間以前,例如180天以前所蒐集的瀏覽行為資訊,排除在相關性計算之外。 2. 將一使用者的行動中,與前一行動時間間隔超過預定期間的行動,例如超過數分鐘以上的行動,視為該行動不存在。 3. 將未包含該搜尋關鍵材料/關鍵字,或未包含特定內容的網頁文件,或於特定欄位,例如商品名稱欄位、商品描述欄位、分類名稱欄位等,未包含該特映內容的文件,排除於以該搜尋關鍵材料為索引的分類之外。 4. 將瀏覽行為資訊的時間遠近,加入考量。將時間距離越近的行為,給予越高的權重。
經過上述優化機制的一種或多種的修正後,可以進一步提高本發明的分類正確性。
如上所述的本發明文件分類系統100,可以執行一種新穎的文件分類方法,用以依據多數的搜尋關鍵材料,將一網站檔案中所含的網頁文件作分類。其中,該網頁檔案包含多數網頁文件以及至少一搜尋器。圖3即顯示本發明文件分類方法步驟流程圖。如圖所示,本發明的方法包括如下步驟: 在步驟301,該文件分類系統100在該網站檔案中附加一瀏覽行為蒐集器11。於步驟302,該瀏覽行為蒐集器11在該網頁檔案由多數電腦下載執行後,取得該等電腦使用者執行該網頁檔案後之行為資訊,包括各使用者電腦代碼、該搜尋器之搜尋行為、各使用者對特定網頁之行為等資訊。於步驟303,該瀏覽行為蒐集器11將所取得的多數瀏覽行為資訊回傳給該文件分類系統100。在步驟304,該文件分類系統100根據該瀏覽行為蒐集器11回傳的瀏覽行為資訊,為該網頁檔案所包含的網頁文件,計算該網頁文件與多數搜尋關鍵材料間的相關性值,形成一相關性資料檔。在此步驟中,該文件分類系統100是根據式(2)的方法,依據使用者針對各該文件所為的行動種類,數量等參數,計算該相關性值。在步驟305,該文件分類系統100將該多數網頁文件以既存的搜尋關鍵材料為索引,加以分類。在本發明的較佳實例中,該分類步驟可以選擇與一搜尋關鍵材料之相關性值高於一臨界值的特定數量網頁文件,歸屬於以該搜尋關鍵材料為索引的文件類別。至於相關性值較低的網頁文件,則視為不相關,即不屬該類別。
在步驟306,該導引器50偵測到特定電腦中,該網頁檔案中的搜尋器117開始執行搜尋,乃將該搜尋所用的搜尋關鍵材料(關鍵字)回傳給該文件分類系統100。於步驟307,該文件分類系統100在與該網頁檔案相關聯的相關性資料檔101中找尋該關鍵字是否存在。如果不存在,則無任何動作,而進入步驟308,等待該電腦中已經建置的瀏覽行為蒐集器11回傳該電腦使用者的瀏覽行為資訊。如果找到該關鍵字,則在步驟309,由該文件分類手段30將屬於該關鍵字為索引的類別的文件(文件描述、超連結網址等),傳送給該使用者電腦,由該導引器50在步驟310啟動該搜尋器117,顯示在該電腦螢幕中。其後,步驟回到308,等待該瀏覽行為蒐集器11回傳該電腦使用者的瀏覽行為資訊。該瀏覽行為蒐集器11回傳該電腦使用者的瀏覽行為資訊後,即結束操作。
在該相關性值的計算步驟,當然也可透過前述優化機制的步驟,提高分類的正確性。
實施例一
為證實本發明的功效,於一網路商場使用其搜尋器,以「衛生紙」為關鍵字進行搜尋。結果得到排序如下的結果:
表1
但經過該瀏覽行為蒐集器的蒐集後,得到不同使用者電腦以「衛生紙」為關鍵字進行搜尋65次以後,點選各文件的次數,如下:
表2
再根據該瀏覽行為蒐集器所得到的瀏覽行為資訊,得知該5筆網路文件也會在以其他關鍵字搜尋後出現。統計點選次數後,結果如下:
表3
經過本發明的分類後,結果如下: 1. 以「衛生紙」為關鍵字搜尋,得到結果為:舒潔衛生紙 (20/65) > 純潔衛生紙 (18/65) > 五月花純潔衛生紙 (17/65) > 碎花衛生紙盒 (6/65) > 萬用衛生紙架 (4/65)。 2. 以「純潔為關鍵字搜尋,得到結果為:純潔衛生紙 (15/30) > 五月花純潔衛生紙 (11/30)。 3. 以「再生紙漿」為關鍵字搜尋,得到結果為:純潔衛生紙 (8/18) > 舒潔衛生紙 (6/18) > 五月花純潔衛生紙 (4/18)。
實施例二
於前述商場網站,以「Iphone」為關鍵字在其搜尋器中搜尋,得到結果如下:
表4
經過本發明以該瀏覽行為蒐集器所得到的瀏覽行為資訊,僅根據點選人數計算後,得到結果如下:
表5
上述結果已經能夠改正比較例的搜尋結果。如果再加上瀏覽之後的其他行為,並利用前述優化機制優化,將可進一步提高搜尋的正確性。
以上結果證明,本發明的文件分類系統與方法,確實能夠正確的計算文件與搜尋關鍵材料之間的相關性值,達成正確的分類。經過本發明分類後,對於商品或其他資訊的搜尋,不容易發生錯誤,也不容易以人為方式誤導。確屬一種新穎、進步的發明。
10‧‧‧瀏覽行為蒐集器附加手段
11‧‧‧瀏覽行為蒐集器
20‧‧‧瀏覽行為分析器
30‧‧‧文件分類手段
40‧‧‧導引器
50‧‧‧導引器
100‧‧‧文件分類系統
101‧‧‧相關性資料檔
110‧‧‧網站伺服器
111、112、113‧‧‧網頁檔案
114、115、116‧‧‧網頁文件
117‧‧‧搜尋器
11‧‧‧瀏覽行為蒐集器
20‧‧‧瀏覽行為分析器
30‧‧‧文件分類手段
40‧‧‧導引器
50‧‧‧導引器
100‧‧‧文件分類系統
101‧‧‧相關性資料檔
110‧‧‧網站伺服器
111、112、113‧‧‧網頁檔案
114、115、116‧‧‧網頁文件
117‧‧‧搜尋器
圖1表示本發明文件分類系統的方塊圖。 圖2顯示一種相關性資料檔101的實例。 圖3表示本發明文件分類方法流程圖。
Claims (14)
- 一種文件分類系統,包括:一個瀏覽行為蒐集器附加手段,用以在一個網站的網頁檔案中附加一瀏覽行為蒐集器,其中,該網頁檔案包含多數網頁文件以及至少一搜尋器;該瀏覽行為蒐集器在該網頁檔案由一電腦下載執行後,可取得執行該網頁檔案期間使用者之行為資訊,送回至該文件分類系統中;一個瀏覽行為分析器,用以針對該網頁檔案所包含的網頁文件,根據該瀏覽行為蒐集器所送回的瀏覽行為資訊,計算該網頁文件與多數搜尋關鍵材料間的相關性值,形成一相關性資料檔;及一個文件分類手段,用以將該多數網頁文件以既存的搜尋關鍵材料為索引,加以分類;其中,該瀏覽行為分析器是依據下式,計算該網頁文件與多數搜尋關鍵材料間的相關性值:F(b)=Σ(Bn X Wm)其中,B表使用者於該搜尋器輸入搜尋搜尋關鍵材料b而顯示該文件後,對該文件為Bn行動之人數,W代表該欄位的權值,n、m為自然數。
- 如請求項1的文件分類系統,其中該瀏覽行為資訊包括執行該搜尋器的使用者電腦代碼、該搜尋器之搜尋行為、以及至少一種使用者對特定網頁之行為之資訊。
- 如請求項2的文件分類系統,其中該使用者對特定網頁之行為包括與該文件相關的行動Bn,並為流覽瀏覽文件、點選商品、停留時間、加入購物車、完成付款等行為中之至少一種。
- 如請求項1的文件分類系統,其中該行動人數為相對人數,亦即:在對該文件為前一行動之人數中為次一行動的人數比例。
- 如請求項1的文件分類系統,其中該文件分類手段之分類包括選擇與一搜尋關鍵材料之相關性值高於一臨界值的特定數量網頁文件,歸屬於以該搜尋關鍵材料為索引的文件類別。
- 如請求項1到5中任一項的文件分類系統,另包括一個導引器,可在該網頁檔案由一電腦下載執行後,於偵測到使用者電腦使用該既存的搜尋關鍵材料在該搜尋器進行搜尋時,將經分類歸屬該搜尋關鍵材料類別的預定數量網頁文件或網頁文件的說明,顯示於該搜尋器的搜尋結果顯示中。
- 如請求項1到5中任一項的文件分類系統,其中,該瀏覽行為分析器計算該相關性值時,另包括以下列之至少一種,作為參數:1)於所蒐集的瀏覽行為資訊筆數超過一定數量時,將超過一定時間以前取得的行為資訊,排除在相關性計算之外;2)將一使用者的行動中,與前一行動時間間隔超過預定期間的行動,視為不存在;3)將未包含該搜尋關鍵材料,或未包含特定內容的網頁文件,或於特定欄位,例如商品名稱欄位、商品描述欄位、分類名稱欄位等,未包含該特定內容的文件,排除於以該搜尋關鍵材料為索引的分類之外;及4)將取得時間距離越近的行為資訊,給予越高的權重。
- 一種文件分類方法,用以依據多數的搜尋關鍵材料,將一網站檔案中所含的網頁文件作分類,其中,該網頁檔案包含多數網頁文件以及至少一搜尋器;該方法包括: 於該網站檔案中附加一瀏覽行為蒐集器,該瀏覽行為蒐集器在該網頁檔案由一電腦下載執行後,可取得執行該網頁檔案期間使用者之行為資訊;針對該網頁檔案所包含的網頁文件,根據該瀏覽行為資訊,計算該網頁文件與多數搜尋關鍵材料間的相關性值,形成一相關性資料檔;及將該多數網頁文件以既存的搜尋關鍵材料為索引,加以分類;其中,該相關性值是依據下式計算:F(b)=Σ(Bn X Wm)其中,B表使用者於該搜尋器輸入搜尋搜尋關鍵材料b而顯示該文件後,對該文件為Bn行動之人數,W代表該欄位的權值,n、m為自然數。
- 如請求項8的文件分類方法,其中該瀏覽行為資訊包括執行該搜尋器的使用者電腦代碼、該搜尋器之搜尋行為、以及至少一種使用者對特定網頁之行為之資訊。
- 如請求項9的文件分類方法,其中該使用者對特定網頁之行為包括與該文件相關的行動Bn,並為流覽瀏覽文件、點選商品、停留時間、加入購物車、完成付款等行為中之至少一種。
- 如請求項8的文件分類方法,其中該行動人數為相對人數,亦即:在對該文件為前一行動之人數中為次一行動的人數比例。
- 如請求項8的文件分類方法,其中該文件分類步驟包括選擇與一搜尋關鍵材料之相關性值高於一臨界值的特定數量網頁文件,歸屬於以該搜尋關鍵材料為索引的文件類別。
- 如請求項8到12中任一項的文件分類方法,另包括一個步驟,以在該網頁檔案由一電腦下載執行後,於偵測到使用者電腦使用該既存的搜尋關鍵材料在該搜尋器進行搜尋時,將經分類歸屬該搜尋關鍵材料類別的預定數量網頁文件或網頁文件的說明,顯示於該搜尋器的搜尋結果顯示中。
- 如請求項8到12中任一項的文件分類方法,其中,該相關性值另以下列參數之至少一種修正:1)於所蒐集的瀏覽行為資訊筆數超過一定數量時,將超過一定時間以前取得的行為資訊,排除在相關性計算之外;2)將一使用者的行動中,與前一行動時間間隔超過預定期間的行動,視為不存在;3)將未包含該搜尋關鍵材料,或未包含特定內容的網頁文件, 或於特定欄位,例如商品名稱欄位、商品描述欄位、分類名稱欄位等,未包含該特定內容的文件,排除於以該搜尋關鍵材料為索引的分類之外;及4)將取得時間距離越近的行為資訊,給予越高的權重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105105906A TWI620080B (zh) | 2016-02-26 | 2016-02-26 | 基於使用者行為的文件分類系統與方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105105906A TWI620080B (zh) | 2016-02-26 | 2016-02-26 | 基於使用者行為的文件分類系統與方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201730791A TW201730791A (zh) | 2017-09-01 |
TWI620080B true TWI620080B (zh) | 2018-04-01 |
Family
ID=60479873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105105906A TWI620080B (zh) | 2016-02-26 | 2016-02-26 | 基於使用者行為的文件分類系統與方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI620080B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200844881A (en) * | 2007-05-01 | 2008-11-16 | Chien-Te Fan | System for matching transaction of intellectual property with self-searching, self-enlarge and amending classification characters and method of the same |
TW200951860A (en) * | 2008-03-18 | 2009-12-16 | Yahoo Inc | Personalizing sponsored search advertising layout using user behavior history |
-
2016
- 2016-02-26 TW TW105105906A patent/TWI620080B/zh active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200844881A (en) * | 2007-05-01 | 2008-11-16 | Chien-Te Fan | System for matching transaction of intellectual property with self-searching, self-enlarge and amending classification characters and method of the same |
TW200951860A (en) * | 2008-03-18 | 2009-12-16 | Yahoo Inc | Personalizing sponsored search advertising layout using user behavior history |
Also Published As
Publication number | Publication date |
---|---|
TW201730791A (zh) | 2017-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9171088B2 (en) | Mining for product classification structures for internet-based product searching | |
US7555478B2 (en) | Search results presented as visually illustrative concepts | |
CN102722481B (zh) | 一种用户收藏夹数据的处理方法及搜索方法 | |
JP5843904B2 (ja) | ブラウザ履歴を使用したアクション提案の方法及びシステム | |
US9262766B2 (en) | Systems and methods for contextualizing services for inline mobile banner advertising | |
US9348935B2 (en) | Systems and methods for augmenting a keyword of a web page with video content | |
JP6517818B2 (ja) | ウェブサイト・トラフィック最適化の改善 | |
CN100568232C (zh) | 通用搜索引擎接口 | |
US9659067B2 (en) | Providing a search results document that includes a user interface for performing an action in connection with a web page identified in the search results document | |
JP6022056B2 (ja) | 検索結果の生成 | |
US20130054356A1 (en) | Systems and methods for contextualizing services for images | |
US20130054672A1 (en) | Systems and methods for contextualizing a toolbar | |
CN105164710A (zh) | 实体投标 | |
KR20110085995A (ko) | 검색 결과들의 제공 | |
CN106415537A (zh) | 本地应用的触发和排名 | |
JP2013531289A (ja) | 検索におけるモデル情報群の使用 | |
US20120246561A1 (en) | Systems and methods for extended content harvesting for contextualizing | |
EP3090358A1 (en) | Rich content for query answers | |
US9330071B1 (en) | Tag merging | |
US8121970B1 (en) | Method for identifying primary product objects | |
EP2933734A1 (en) | Method and system for the structural analysis of websites | |
CN108572971A (zh) | 一种用于挖掘与检索词相关的关键词的方法和装置 | |
US20130091415A1 (en) | Systems and methods for invisible area detection and contextualization | |
CN107851114A (zh) | 自动信息检索 | |
TWI620080B (zh) | 基於使用者行為的文件分類系統與方法 |