TWI571756B - 用以分析瀏覽記錄及其文件之方法及其系統 - Google Patents

用以分析瀏覽記錄及其文件之方法及其系統 Download PDF

Info

Publication number
TWI571756B
TWI571756B TW104141664A TW104141664A TWI571756B TW I571756 B TWI571756 B TW I571756B TW 104141664 A TW104141664 A TW 104141664A TW 104141664 A TW104141664 A TW 104141664A TW I571756 B TWI571756 B TW I571756B
Authority
TW
Taiwan
Prior art keywords
browsing
file
topic
attention
preset
Prior art date
Application number
TW104141664A
Other languages
English (en)
Other versions
TW201721467A (zh
Inventor
蔡宗霖
李孟煜
林順傑
Original Assignee
財團法人工業技術研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人工業技術研究院 filed Critical 財團法人工業技術研究院
Priority to TW104141664A priority Critical patent/TWI571756B/zh
Priority to US14/982,711 priority patent/US10467255B2/en
Application granted granted Critical
Publication of TWI571756B publication Critical patent/TWI571756B/zh
Publication of TW201721467A publication Critical patent/TW201721467A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

用以分析瀏覽記錄及其文件之方法及其系統
本發明係有關於一種文件分析方法及系統,特別是有關於一種可分析瀏覽記錄及其相關瀏覽文件內容之方法及其系統。
近年來,隨著網路的發展與寬頻網路的日漸普及,目前在網際網路上所提供的網路服務也愈來愈多,在全球資訊網上「瀏覽」這種活動的應用頻繁,故網路服務商欲透過蒐集及分析各種使用者瀏覽行為事件,例如點擊流量、網頁瀏覽資訊、網站造訪停留時間等,以偵測其瀏覽行為意圖,以便提供更符合使用者需求的相關服務。
然而,目前的各種使用者瀏覽行為事件分析並無法提供給系統管理人員了解各使用者在各文件產品分類的關注趨勢。
因此,需要一種能夠提供使用者在不同主題類別的瀏覽趨勢判定之方法及其系統。
本發明一實施例提供一種用以分析瀏覽記錄及其文件之方法,包括下列步驟:取得一瀏覽記錄及多個文件,其中瀏 覽記錄至少包括各文件於一時間週期中的瀏覽資訊;依據瀏覽記錄,自文件在時間週期中的每一時間間隔中選出多個關注文件組,其中每一關注文件組對應於每一時間間隔;對關注文件組進行一文件內容前處理,以獲得對應於關注文件組的多個關鍵字集;將關鍵字集進行分群計算,以獲得多個主題並計算每一主題的內聚力;刪除內聚力不足的主題,以獲得多個高關聯主題,並依據高關聯主題所對應的關鍵字集,與多個預設主題類別之多個關鍵字集進行比對,以歸類每一高關聯主題至預設主題類別的其中之一;獲得每一預設主題類別之瀏覽統計,並計算每一預設主題類別在每一時間間隔中的多個關注度;以及依據關注度變化情形,判斷每一預設主題類別之一瀏覽趨勢。
再者,本發明另一實施例提供一種用以分析瀏覽記錄及其文件之系統,其包括一瀏覽記錄擷取器、一關注文件篩選器、一文件前處理器、一主題分群產生器、一主題歸類與整併器、一關注度分析器以及一瀏覽趨勢判定器。瀏覽記錄擷取器用以取得一瀏覽記錄及多個文件,其中瀏覽記錄至少包括各文件於一時間週期中的瀏覽資訊。關注文件篩選器耦接至瀏覽記錄擷取器,用以依據瀏覽記錄,自文件在時間週期中的每一時間間隔中選出多個關注文件組,其中每一關注文件組對應於每一時間間隔。文件前處理器耦接至關注文件篩選器,用以對關注文件組進行一文件內容前處理,以獲得對應於關注文件組的多個關鍵字集。主題分群產生器耦接至文件前處理器,用以將關鍵字集進行分群計算,以獲得多個主題並計算每一主題的內聚力,並刪除內聚力不足的主題,以獲得多個高關聯主題。主題歸類與整併器耦接至主 題分群產生器,用以依據高關聯主題所對應的關鍵字集,與多個預設主題類別之多個關鍵字集進行比對,以歸類每一高關聯主題至預設主題類別的其中之一。關注度分析器耦接至主題歸類與整併器,用以獲得每一預設主題類別之瀏覽統計,並計算每一預設主題類別在每一時間間隔中的多個關注度。瀏覽趨勢判定器耦接至關注度分析器,用以依據關注度變化情形,判斷每一預設主題類別之一瀏覽趨勢。
本發明之方法可經由本發明之系統來實作,其為可執行特定功能之硬體或韌體,亦可以透過程式碼方式收錄於一紀錄媒體中,並結合特定硬體來實作。當程式碼被電子裝置、處理器、電腦或機器載入且執行時,電子裝置、處理器、電腦或機器變成用以實行本發明之裝置或系統。
100‧‧‧用以分析瀏覽記錄及其文件之系統
110‧‧‧瀏覽記錄擷取器
120‧‧‧關注文件篩選器
130‧‧‧文件前處理器
140‧‧‧主題分群產生器
150‧‧‧主題歸類與整併器
160‧‧‧關注度分析器
170‧‧‧瀏覽趨勢判定器
S210、S220、S230、S240、S250、S260‧‧‧執行步驟
300‧‧‧文件
310、320、330‧‧‧段落
S410、S420、S430‧‧‧執行步驟
S510、S520、S530、S540‧‧‧執行步驟
S610、S620、S630‧‧‧執行步驟
800‧‧‧使用者介面
第1圖為依據本發明實施例之用以分析瀏覽記錄及其文件之系統之示意圖。
第2圖為依據本發明實施例之用以依據本發明實施例之用以分析瀏覽記錄及其文件之方法之流程圖。
第3圖為依據本發明實施例之文件主題的特徵強化與關鍵字集產生方式之示意圖。
第4圖為依據本發明另一實施例之用以分析瀏覽記錄及其文件之方法之流程圖,用以建立文件產品類別(IM Types)的初始模型。
第5圖為依據本發明另一實施例之用以分析瀏覽記錄及其文 件之方法之流程圖,用以提供後續時間間隔(T1~TM)之模型增長程序。
第6圖為依據本發明另一實施例之用以分析瀏覽記錄及其文件之方法之流程圖,用以依使用者瀏覽記錄產生其文件產品類別時間關注度軌跡報告。
第7圖為依據本發明實施例之主題延續性判斷之示意圖。
第8圖為依據本發明實施例之使用者介面之示意圖。
為使本發明之上述和其他目的、特徵、和優點能更明顯易懂,下文特舉出較佳實施例,並配合所附圖式,作詳細說明如下。注意的是,本章節所敘述的是實施本發明之最佳方式,目的在於說明本發明之精神而非用以限定本發明之保護範圍,應理解下列實施例可經由軟體、硬體、韌體、或上述任意組合來實現。
本發明實施例提出一種分析瀏覽記錄及其內容的方法與系統,可分析網站上的瀏覽記錄,根據全體使用者的瀏覽與動作歷程,先以文件的關鍵字分群找出主題,再對主題歸類,從而分析出不同使用者在不同時段的不同主題類別的關注度,並取得各使用者在不同主題類別的瀏覽趨勢。
第1圖為依據本發明實施例之用以分析瀏覽記錄及其文件之系統100之示意圖。如第1圖所示,用以分析瀏覽記錄及其文件之系統100(以下簡稱系統100)其至少包括一瀏覽記錄擷取器110、一關注文件篩選器120、一文件前處理器130、一主題分群產生器140、一主題歸類與整併器150、一關注度分析器160以及一 瀏覽趨勢判定器170。瀏覽記錄擷取器110用以取得一瀏覽記錄及複數文件,其中瀏覽記錄至少包括文件於一既定時間週期中的瀏覽相關資訊。關注文件篩選器120係耦接至瀏覽記錄擷取器110,用以依據所有文件的瀏覽相關資訊,自文件中過濾出既定時間週期中每一時間間隔之一關注文件組。文件前處理器130係耦接至關注文件篩選器120,用以依據每一時間間隔之關注文件組,得到每一時間間隔之關注文件組之文件及其對應關鍵字集。主題分群產生器140係耦接至文件前處理器130,用以將文件依據關鍵字進行主題分群,產生主題與相對應的關鍵字集與文件組,並對產生的主題計算其內聚力,刪除內聚力不足的主題,以獲得多個高關聯主題。主題歸類與整併器150係耦接至主題分群產生器140,用以依據高關聯主題及其對應關鍵字集與複數預設主題類別之複數關鍵字集,歸類至預設主題類別中之其中之一。關注度分析器160係耦接至主題歸類與整併器150,用以依據一使用者於每一主題類別之一瀏覽統計,判定使用者於每一時間間隔之每一主題類別之一關注度。瀏覽趨勢判定器170係耦接至關注度分析器160,用以依據使用者於每一時間間隔之每一主題類別之關注度變化情形,判定使用者於每一主題類別之一瀏覽趨勢。其細節將說明於下。
可理解的是,於本實施例中,上述各元件係為一具有對應功能的裝置,可具有適當的硬體電路或元件以執行對應功能,然而,該裝置並不以具有實體為限,其亦得為一虛擬的具有對應功能的程式、軟體,或是具有處理、運行該程式、軟體能力的裝置。而上述各元件運作的方式,可進一步的參閱以下對應之方法之說明。具體來說,系統100可經由控制瀏覽記錄擷取器110、 關注文件篩選器120、文件前處理器130、主題分群產生器140、主題歸類與整併器150、關注度分析器160以及瀏覽趨勢判定器170的操作來執行本發明之用以分析瀏覽記錄及其文件之方法,其細節將於下進行說明。
第2圖為依據本發明實施例之用以分析瀏覽記錄及其文件之方法之流程圖。依據本發明實施例之分析瀏覽記錄及其文件之方法可以應用於第1圖的系統100上。
首先,如步驟S210,系統100透過瀏覽記錄擷取器110,取得一瀏覽記錄以及此瀏覽記錄相關的多個文件,其中,瀏覽記錄中至少包括一既定時間周期中(例如:一天、一周、一個月等等)每個文件的瀏覽相關資訊,例如瀏覽時間、瀏覽動作、內容等等。具體來說,使用者對系統動作時,系統記錄該使用者的動作與相關資訊如相關的時間點、動作(瀏覽文件、搜尋、登入...)以及該動作的相關資訊如文件資訊(文件標題、文件內容、搜尋字串..等),由系統自動儲存為瀏覽記錄。舉例來說,瀏覽記錄可包括網路伺服器的歷程記錄、系統記錄到資料庫的歷程記錄等,但不限於此。於一實施例中,瀏覽記錄係為一網站歷程記錄(web access log),其可包括使用者資料(例如:使用者帳號代碼、登入時間、登入位置等等)、使用者的動作相關資訊(例如:瀏覽文件、搜尋、登入等等)、使用者瀏覽相關資料(例如:瀏覽文件名稱以及瀏覽時間相關記錄等)以及記錄的時間戳記等等資訊。
接著,如步驟S220,系統100透過關注文件篩選器120,進行文件被瀏覽的關注度判定,依據文件的前述瀏覽相關資訊,自文件在時間週期中的每一時間間隔中選出多個關注文件 組,其中每一關注文件組對應於每一時間間隔。文件的關注度判定包括關注瀏覽時間以及關注瀏覽次數的判定。其中,自前述多個文件中選出一組關注文件的步驟可包括濾除無效瀏覽時間、計算文件關注瀏覽時間以及關注瀏覽次數、依據文件關注瀏覽時間以及關注瀏覽次數,決定關注文件。於一實施例中,關注瀏覽時間的判定,可藉由計算特定時間區間中文件被不同使用者瀏覽的時間,利用中位數計算各單一文件關注瀏覽時間(例如:大於第一中位數*0.8且小於第三中位數*2.2的文件),則文件的瀏覽時間位於關注瀏覽時間記為關注瀏覽次數。因此,每份文件對應到一個關注瀏覽次數。再將此區間的關注瀏覽次數加總後的值設為該區間的關注瀏覽次數。之後,便可依據各文件的關注瀏覽次數來取得某一時間區間的關注文件。舉例來說,若有一份文件的關注瀏覽次數在該區間的排名在所有文件的前80%(或前n位),則該文件即可視為在該時間區間中的關注文件。
因此,依據本發明之用以分析瀏覽記錄及其文件之方法,可藉由統計各時間間隔內各文件之關注瀏覽次數、關注瀏覽時間等來判定文件是否為關注文件,並且之後只取關注文件來計算歸類,可以降低計算量並可以濾除雜訊。
於自文件中過濾出既定時間週期中每一時間間隔的關注文件組之後,接著,如步驟S230,系統100透過文件前處理器130進行文件主題的特徵強化,依據各時間間隔之關注文件組,得到各時間間隔之主題及其對應關鍵字集。於一實施例中,前述文件主題的特徵強化步驟可更包括對各文件取出關鍵字、將文件分段、計算文件各段落中關鍵字出現的頻率,決定各段落的重要 性權重,並依據各段落之重要性權重,決定至少一關鍵段落、以及依據關鍵段落的關鍵字,產生主題及其對應關鍵字集等。
具體來說,文件前處理器130先從每份文件取出關鍵字集之後,將文件採分段處理,比對每一個段落的關鍵字出現次數,用關鍵字集中關鍵字出現的次數除以該段落的長度即可得到該段落對於文件的重要性。之後,文件前處理器130再取其中幾個重要段落的關鍵字合成該文件的關鍵字集,即可得到該文件強化主題的關鍵字集。
第3圖為依據本發明實施例之文件主題的特徵強化與關鍵字集產生方式之示意圖。如第3圖所示,於此實施例中,假設文件300的關鍵字集包括關鍵字A、B、C、D,其關鍵字集為{A:3,B:5,C:2,D:1},表示關鍵字A出現3次,關鍵字B出現5次,依此類推。依據本發明之方法,文件前處理器130將文件300分為段落310、320、330,並且分別計算每一個段落的關鍵字出現次數,得到段落310、320、330的關鍵字集分別為{A:2,B:4,C:1}、{C:1,D:1}以及{A:1,B:1}。之後,再根據關鍵字出現的次數除以各段落的長度,得到各段落對於文件的重要性估計值(權重)。於此實施例中,假設段落310-330的重要性權重排名分別為1、3、2,表示段落310最重要,段落330次之,段落320最不重要。因此,系統100根據重要性排名選出關鍵段落(例如,於此實施例中,關鍵段落為段落310與段落330),再利用這些關鍵段落的關鍵字集產生代表文件300的強化關鍵字集,因此可得到文件300的關鍵字集為{A:3,B:5,C:1}。
其中,從每份文件取出關鍵字集的步驟可更包括關 鍵字(keywords)、詞頻(TFIDF)處理,其中,詞頻處理係用以依據文件的架構如詞性、詞類、文法、語言(如中文或英文)等進行斷句、斷詞,以從每份文件中取出關鍵字集。注意的是,詞頻處理係可採用本領域技藝人士所熟知的各種詞頻處理技術來加以實現,其細節在此省略。
因此,依據本發明之用以分析瀏覽記錄及其文件之方法,以關鍵字(keywords)、詞頻(TFIDF)來計算每個段落對文件的重要性,只擷取重要的段落來代表該文件的關鍵字集,可以使所擷取的關鍵字集更聚焦於該文件的主題。
得到其關鍵字集之後,如步驟S240,系統100再透過主題分群產生器140進行主題分群,以獲得多個主題並計算每一主題的內聚力,接著,刪除內聚力不足的主題,以獲得多個高關聯主題,並依據所有高關聯主題所對應的關鍵字集,與多個預設主題類別之多個關鍵字集進行比對,以歸類每一高關聯主題至預設主題類別的其中之一。其中,關鍵字集中包含關鍵字與各關鍵字對該主題的權重值。該主題的內聚力的計算方式以關鍵字集與權重值當成基本文件向量,對每個文件的關鍵字之詞頻乘上向量中對應的權重值即成為該文件的向量值。然後計算主題內所有文件之間的歐氏距離後平均則為該主題的內聚力。主題的內聚力低於閥值則不視為有效主題,將與捨棄。將所有內聚力不足的主題刪除之後,可獲得多個有效主題,有效主題又稱為高關聯主題。舉例來說,假設經計算後主題之關鍵字集為[key_A:0.9,key_B:0.8,key_C:0.7,key_D:0.6],其中文件A之關鍵字集詞頻為[key_A:2,key_B:4,key_C:2],文件B之關鍵字集詞頻為[key_B:4, key_D:2],則文件A的向量為V(A)=[key_A:1.8,key_B:3.2,key_C:1.4,key_D:0],文件B的向量為V(B)=[key_A:0,keyB:3.2,key_C:0,key_D:1.2],計算後的主題內聚力為:
然後透過主題歸類與整併器150進行主題歸類與整併,依據所有高關聯主題所對應的關鍵字集,與多個預設主題類別之多個關鍵字集進行比對,以歸類每一高關聯主題至預設主題類別的其中之一。更確切來說,本發明之用以分析瀏覽記錄及其文件之方法可提供將主題自動歸類為數個主題類別,比對主題之關鍵字集與該文件產品類別之關鍵字集之相似性,當該主題之關鍵字集與該文件產品類別內之關鍵字集之相似性大於一既定門檻值時,將該主題歸類至該文件產品類別。另外,主題類別的關鍵字集可自動根據新加入的主題的關鍵字集進行更新。
接著,如步驟S250,系統100透過關注度分析器160,獲得使用者於每一預設主題類別之瀏覽統計,並計算每一預設主題類別在每一時間間隔中的多個關注度,再如步驟S260,透過瀏覽趨勢判定器170,依據使用者於各時間間隔之各預設主題類別關注度變化情形,判斷每一預設主題類別之一瀏覽趨勢。舉例來說,於一實施例中,以不同時段的關注度趨勢可區分為以下多種選項至少其中之一:對該類別的文件由關注到未關注、對該類別的文件持續關注中或對該類別的文件由未關注轉向關注等。因此,可藉由分析使用者於不同時段的各主題類別的關注度趨勢來得知各 使用者所關注的是那些主題或文件產品類別以及關注的類別是否產生變化等,進而可提供後續的應用,例如同文件產品類別的文件推薦或相關廣告產品推播等等。
明確來說,本發明之方法將每一群組的文件視為一個主題,而每一時間區段中每一類別會出現零到多個高關聯主題。也就是說,存在有時間區段-類別-主題的關聯性。之後,將分群後的群組關鍵字集與現有的類別中的關鍵字集比對,若該群組的關鍵字集重複出現的比率超過門檻值則視為該群的文件皆歸類到比對的類別中。然後,該群再利用關鍵字集與該類別的其他主題作關聯計算,若是計算的結果超過門檻值則將該群視為先前主題的延續。主題歸類與整併的具體流程請參閱以下第4圖至第6圖的說明。
第4圖為依據本發明另一實施例之用以分析瀏覽記錄及其文件之方法之流程圖,用以建立文件產品類別(IM Types)的初始模型。依據本發明實施例之分析瀏覽記錄及其文件之方法可以應用於第1圖的系統100上,例如可由主題歸類與整併器150所加以執行。
首先,先依第一時間區隔T0,辨識出時間區隔T0的主題(Topics(P0))及其主要關鍵字集(步驟S410)。接著,將各主題依文件主題(Docs-Topics)及主題關鍵字集的對應關係分類到數個群組(groups)(步驟S420)。之後,再調整主題群組關係後,將各群組(group)內各主題賦予一文件產品類別(IM types)(步驟S430)。
第5圖為依據本發明另一實施例之用以分析瀏覽記錄及其文件之方法之流程圖,用以提供後續時間間隔(T1~TM)之 模型增長程序。依據本發明實施例之分析瀏覽記錄及其文件之方法可以應用於第1圖的系統100上,例如可由主題歸類與整併器150所加以執行。
首先,依時間間隔Ti,辨識出主題(Topics(Pi))及其主要關鍵字集(步驟S510)。也就是說,主題歸類與整併器150可根據前述方法分別辨識出各時間間隔T1~TM中的主題(Topics(Pi))及其主要關鍵字集。接著,將具時間先後順序的主題Pi及主題Pi-1依文件主題及主題關鍵字關係分類到數個群組(groups)(步驟S520)。接著,將主題Pi依同群組之主題Pi-1的文件產品類別情形,賦予相同之文件產品類別(步驟S530)。之後,調整主題Pi之主題群組關係及其文件產品類別(步驟S540)。
之後,系統100可依使用者瀏覽記錄產生其文件產品類別時間關注度軌跡報告。第6圖為依據本發明另一實施例之用以分析瀏覽記錄及其文件之方法之流程圖,用以依使用者瀏覽記錄產生其文件產品類別時間關注度軌跡報告。依據本發明實施例之分析瀏覽記錄及其文件之方法可以應用於第1圖的系統100上,例如可由關注度分析器160以及瀏覽趨勢判定器170所加以執行。
首先,可輸入一欲查詢的使用者代碼,以便讀取某一使用者各時間區隔(T0~TM)之瀏覽文件列示(doc-list)(步驟S610)。接著,依各時間間隔(T0~TM)從模型中找出各文件之文件產品模組或主題類別(IM type)(步驟S620)。找出各文件之產品模組或主題類別之後,接著統計各時間區隔之文件產品類別的文件數量,以產生使用者之文件產品類別時間關注度軌跡報告(步驟S630)。舉例來說,於一實施例中,所產生的使用者之文件產品類 別時間關注度軌跡報告可表示使用者對一文件產品類別於不同時段的的關注度趨勢,可大致區分為以下多種選項至少其中之一:對該類別的文件由關注到未關注、對該類別的文件持續關注中或對該類別的文件由未關注轉向關注等。
以下列舉一些實施例,用以輔助說明依據本發明之方法細節,但本發明並不限於此。第7圖為依據本發明實施例之主題延續性判斷之示意圖。如第7圖所示,於此實施例中,假設有一文件產品類別的名稱為”行動裝置”類別且其關鍵字集包括”IPHONE”、”HTC”、”手環”、”遠距”、”規格”、”新一代”等關鍵字,其中於時間T2時的主題TOPIC0001包含”HTC”、”手環”等關鍵字的關鍵字集,另一主題TOPIC0002包含”IPHONE”、”新一代”、”規格”等關鍵字的關鍵字集。假設時間T2之後的一時間T3中,有一文件的主題TOPIC1002包含”IPHONE”、”發表會”、”記者”、”規格”等關鍵字的關鍵字集時,因主題TOPIC0002的關鍵字集與”行動裝置”類別的關鍵字集的相似度(例如:75%)大於既定門檻值(例如:70%),因此,主題TOPIC1002也會被歸類至”行動裝置”類別,並且主題TOPIC1002的關鍵字集也會合併至”行動裝置”類別原先的關鍵字集中。另外,因為時間T2時的主題TOPIC0002包含”IPHONE”、”新一代”、”規格”等關鍵字的關鍵字集,與主題TOPIC1002的關鍵字集的相似度大於既定門檻值,表示主題TOPIC0002與主題TOPIC1002有相關性,因此可判定為主題的延續,並將兩主題進行關聯,表示該使用者對”行動裝置”類別的文件持續感興趣中。因此,依據本發明之用以分析瀏覽記錄及其文件之方法,可以對主題做追蹤,即使其中有一段時間此主題不出 現,再次出現時,雖然關鍵字集會有所差別,但本方法仍可識別新主題與前主題同屬一個主題類別,因此可以辨別不同時期出現的主題之間的相關性,並進而追蹤各使用者在各時間間隔之主題類別關注度趨勢。
於一些實施例中,瀏覽趨勢判定器170可更提供一使用者介面,用以以圖表方式顯示既定時間週期之瀏覽趨勢之分析結果,其中既定時間週期的各時間間隔的關注度可用以表示對類別的文件的關注變化方向。參見第8圖,第8圖為依據本發明實施例之使用者介面800之示意圖,用以以圖表方式顯示既定時間週期之瀏覽趨勢。如第8圖所示,使用者介面800顯示了一公司的相關模組趨勢觀察結果,其中縱軸表示各文件產品類別對應的關注度,橫軸表示以2014年為單位的不同時間間隔(不同季)。如第8圖所示,係以圓圈表示關注度,關注度愈高,則圓圈的半徑愈大,例如根據第8圖可明顯看出,該公司從”IC產業”類別的關注度愈來愈小,表示對該類別文件愈來愈不關注,而從”智慧醫療”類別的關注度持續增加,表示對”智慧醫療”類別的文件愈來愈關注。因此,可藉由瀏覽趨勢判定器170所提供的使用者介面更簡單地判別出使用者的瀏覽趨勢。
本發明之方法,或特定型態或其部份,可以以程式碼的型態存在。程式碼可以包含於實體媒體,如軟碟、光碟片、硬碟、或是任何其他機器可讀取(如電腦可讀取)儲存媒體,亦或不限於外在形式之電腦程式產品,其中,當程式碼被機器,如電腦載入且執行時,此機器變成用以參與本發明之裝置。程式碼也可透過一些傳送媒體,如電線或電纜、光纖、或是任何傳輸型態 進行傳送,其中,當程式碼被機器,如電腦接收、載入且執行時,此機器變成用以參與本發明之裝置。當在一般用途處理器實作時,程式碼結合處理器提供一操作類似於應用特定邏輯電路之獨特裝置。
雖然本發明已以較佳實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中包括通常知識者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾。舉例來說,本發明實施例所述之系統以及方法可以硬體、軟體或硬體以及軟體的組合的實體實施例加以實現。因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
S210、S220、S230、S240、S250、S260‧‧‧執行步驟

Claims (16)

  1. 一種用以分析瀏覽記錄及其文件之方法,包括下列步驟:取得一瀏覽記錄及多個文件,其中該瀏覽記錄至少包括該些文件於一時間週期中的瀏覽資訊且該瀏覽資訊至少包含一關注瀏覽時間以及一關注瀏覽次數;依據該瀏覽記錄中該些文件之該些關注瀏覽時間以及該些關注瀏覽次數,自該些文件在該時間週期中的每一時間間隔中選出多個關注文件組,其中每一該些關注文件組對應於該每一時間間隔;對該些關注文件組進行一文件內容前處理,以獲得對應於該些關注文件組的多個關鍵字集;將該些關鍵字集進行分群計算,以獲得多個主題並計算每一該些主題的內聚力;刪除內聚力不足的該些主題,以獲得多個高關聯主題,並依據該些高關聯主題所對應的該些關鍵字集,與多個預設主題類別之多個關鍵字集進行比對,以歸類每一該些高關聯主題至該些預設主題類別的其中之一;獲得每一該些預設主題類別之文件之瀏覽次數統計,並計算每一該些預設主題類別之文件在該每一時間間隔中的多個關注度;以及依據該些關注度變化情形,判斷每一該些預設主題類別之一瀏覽趨勢, 其中該文件內容前處理之步驟包括對該些關注文件組之每一文件進行:取得多個關鍵字;分段並計算每一段落中該些關鍵字出現的頻率,以計算對應於該些段落的多個重要性權重,並依據該些重要性權重,決定至少一關鍵段落;以及依據該至少一關鍵段落中的該些關鍵字產生該關鍵字集。
  2. 如申請專利範圍第1項所述之方法,其中選出該些關注文件組之步驟更包括:濾除該些文件的瀏覽資訊中之未關注瀏覽資訊,得到一過濾後瀏覽資訊;依據該過濾後瀏覽資訊,計算每一該些文件之該關注瀏覽時間以及該關注瀏覽次數;以及依據每一該些文件之該關注瀏覽時間以及該關注瀏覽次數,判斷每一該些文件是否屬於該些關注文件組;其中當該文件之該關注瀏覽時間超過一時間門檻值,且該關注瀏覽次數超過一次數門檻值時,將該文件歸類至該些關注文件組。
  3. 如申請專利範圍第1項所述之方法,其中歸類每一該些高關聯主題至該些預設主題類別的其中之一的方法包括:當該些關鍵字集與比對之該預設主題類別之該關鍵字集之相似性大於一既定門檻值時,將該些關鍵字集對應的該些 高關聯主題歸類至比對之該預設主題類別。
  4. 如申請專利範圍第3項所述之方法,更包括:將該高關聯主題歸類至比對之該預設主題類別之後,自動利用該高關聯主題的該關鍵字集,更新比對之該預設主題類別的該關鍵字集。
  5. 如申請專利範圍第3項所述之方法,更包括:將該高關聯主題歸類至比對之該預設主題類別之後,比對該高關聯主題的該對應關鍵字集與該預設主題類別中一第一主題的關鍵字集的一相似性;以及當該相似性大於一既定門檻值時,將該高關聯主題關聯於該第一主題。
  6. 如申請專利範圍第1項所述之方法,其中判斷每一該些預設主題類別之該瀏覽趨勢之步驟包括:分析每一該些預設主題類別於該每一時間間隔中的一總瀏覽次數;依據該些總瀏覽次數,判定於該每一時間間隔中每一該些預設主題類別的一關注度;以及依據該些關注度之變化,分析出於每一該些預設主題類別的該瀏覽趨勢。
  7. 如申請專利範圍第6項所述之方法,其中該瀏覽趨勢包括以下至少一者:對該預設主題類別由關注到未關注、對該預設主題類別持續關注、以及對該預設主題類別由未關注轉 向關注。
  8. 如申請專利範圍第7項所述之方法,更包括:提供一使用者介面,以圖表方式顯示該時間週期之該瀏覽趨勢之分析結果;其中該瀏覽趨勢表示每一該些預設主題類別的關注變化方向。
  9. 一種用以分析瀏覽記錄及其文件之系統,包括:一瀏覽記錄擷取器,用以取得一瀏覽記錄及多個文件,其中該瀏覽記錄至少包括該些文件於一時間週期中的瀏覽資訊且該瀏覽資訊至少包含一關注瀏覽時間以及一關注瀏覽次數;一關注文件篩選器,耦接至該瀏覽記錄擷取器,用以依據該瀏覽記錄中該些文件之該些關注瀏覽時間以及該些關注瀏覽次數,自該些文件在該時間週期中的每一時間間隔中選出多個關注文件組,其中每一該些關注文件組對應於該每一時間間隔;一文件前處理器,耦接至該關注文件篩選器,用以對該些關注文件組進行一文件內容前處理,以獲得對應於該些關注文件組的多個關鍵字集;一主題分群產生器,耦接至該文件前處理器,用以將該些關鍵字集進行分群計算,以獲得多個主題並計算每一該些主題的內聚力,並刪除內聚力不足的該些主題,以獲得多 個高關聯主題;一主題歸類與整併器,耦接至該主題分群產生器,用以依據該些高關聯主題所對應的該些關鍵字集,與多個預設主題類別之多個關鍵字集進行比對,以歸類每一該些高關聯主題至該些預設主題類別的其中之一;一關注度分析器,耦接至該主題歸類與整併器,用以獲得每一該些預設主題類別之文件之瀏覽次數統計,並計算每一該些預設主題類別之文件在該每一時間間隔中的多個關注度;以及一瀏覽趨勢判定器,耦接至該關注度分析器,用以依據該些關注度變化情形,判斷每一該些預設主題類別之一瀏覽趨勢,其中,對該關注文件組之每一文件,該文件前處理器更取得多個關鍵字,分段並計算每一段落中該些關鍵字出現的頻率,以計算對應於該些段落的多個重要性權重,並依據該些重要性權重,決定至少一關鍵段落,以及依據該至少一關鍵段落中的該些關鍵字產生該關鍵字集。
  10. 如申請專利範圍第9項所述之系統,其中該關注文件篩選器更濾除該些文件的瀏覽資訊中之未關注瀏覽資訊,得到一過濾後瀏覽資訊依據該過濾後瀏覽資訊,計算每一該些文件之該關注瀏覽時間以及該關注瀏覽次數,依據每一該些文件之該關注瀏覽時間以及該關注瀏覽次數,判斷每一該 些文件是否屬於該些關注文件組,其中當該文件之該關注瀏覽時間超過一時間門檻值,且該關注瀏覽次數超過一次數門檻值時,將該文件歸類至該些關注文件組。
  11. 如申請專利範圍第9項所述之系統,其中該主題歸類與整併器更於該些關鍵字集與比對之該預設主題類別之該關鍵字集之相似性大於一既定門檻值時,將該些關鍵字集對應的該些高關聯主題歸類至比對之該預設主題類別。
  12. 如申請專利範圍第11項所述之系統,其中該主題歸類與整併器更於將該高關聯主題歸類至比對之該預設主題類別之後,自動利用該高關聯主題的該關鍵字集,更新比對之該預設主題類別的該關鍵字集。
  13. 如申請專利範圍第11項所述之系統,其中該主題歸類與整併器更於將該高關聯主題歸類至比對之該預設主題類別之後,比對該高關聯主題的該對應關鍵字集與該預設主題類別中一第一主題的關鍵字集的一相似性,以及當該相似性大於一既定門檻值時,將該高關聯主題關聯於該第一主題。
  14. 如申請專利範圍第11項所述之系統,其中該關注度分析器更分析每一該些預設主題類別於該每一時間間隔中的一總瀏覽次數,依據該些總瀏覽次數,判定於該每一時間間隔中每一該些預設主題類別的一關注度,以及依據該些關注度之變化,分析出於每一該些預設主題類別的該瀏覽趨勢。
  15. 如申請專利範圍第14項所述之系統,其中該使用者於每一 該等主題類別之該瀏覽趨勢包括以下至少一者:對該主題類別的文件由關注到未關注、對該主題類別的文件持續關注、以及對該主題類別的文件由未關注轉向關注。
  16. 如申請專利範圍第9項所述之系統,其中該瀏覽趨勢判定器更提供一使用者介面,以圖表方式顯示該既定時間週期之該瀏覽趨勢之分析結果,其中該瀏覽趨勢用以表示對每一該等預設主題類別的文件的關注變化方向。
TW104141664A 2015-12-11 2015-12-11 用以分析瀏覽記錄及其文件之方法及其系統 TWI571756B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW104141664A TWI571756B (zh) 2015-12-11 2015-12-11 用以分析瀏覽記錄及其文件之方法及其系統
US14/982,711 US10467255B2 (en) 2015-12-11 2015-12-29 Methods and systems for analyzing reading logs and documents thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104141664A TWI571756B (zh) 2015-12-11 2015-12-11 用以分析瀏覽記錄及其文件之方法及其系統

Publications (2)

Publication Number Publication Date
TWI571756B true TWI571756B (zh) 2017-02-21
TW201721467A TW201721467A (zh) 2017-06-16

Family

ID=58608495

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104141664A TWI571756B (zh) 2015-12-11 2015-12-11 用以分析瀏覽記錄及其文件之方法及其系統

Country Status (2)

Country Link
US (1) US10467255B2 (zh)
TW (1) TWI571756B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI709905B (zh) * 2018-09-07 2020-11-11 台達電子工業股份有限公司 資料分析方法及資料分析系統
CN113792149A (zh) * 2021-11-15 2021-12-14 北京博瑞彤芸科技股份有限公司 一种基于用户关注度分析产生获客方案的方法和装置
US11409804B2 (en) 2018-09-07 2022-08-09 Delta Electronics, Inc. Data analysis method and data analysis system thereof for searching learning sections

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102604450B1 (ko) * 2016-08-03 2023-11-22 삼성전자주식회사 키워드를 기초로 접속 기록을 저장하는 방법 및 장치
US11244013B2 (en) * 2018-06-01 2022-02-08 International Business Machines Corporation Tracking the evolution of topic rankings from contextual data
CN111124816B (zh) * 2019-12-06 2023-01-06 苏州浪潮智能科技有限公司 一种基于hdp算法的服务器日志分析方法及系统
CN114281961B (zh) * 2021-11-15 2024-07-26 北京智谱华章科技有限公司 一种基于生物动力学模型的科技文献兴趣评估方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200846941A (en) * 2007-05-18 2008-12-01 Bridgewell Inc Method and module for computing weighted value of keywords in webpages, method and system for capturing theme terms
US20090234794A1 (en) * 2007-09-18 2009-09-17 Mpire Corporation Method for a contextual, vector-based content-serving system
US20120330977A1 (en) * 2009-12-09 2012-12-27 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
US8447110B2 (en) * 2010-01-08 2013-05-21 International Business Machines Corporation Time-series analysis of keywords

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3597697B2 (ja) * 1998-03-20 2004-12-08 富士通株式会社 文書要約装置およびその方法
US6845374B1 (en) * 2000-11-27 2005-01-18 Mailfrontier, Inc System and method for adaptive text recommendation
US7155668B2 (en) 2001-04-19 2006-12-26 International Business Machines Corporation Method and system for identifying relationships between text documents and structured variables pertaining to the text documents
US7568148B1 (en) 2002-09-20 2009-07-28 Google Inc. Methods and apparatus for clustering news content
US8090717B1 (en) 2002-09-20 2012-01-03 Google Inc. Methods and apparatus for ranking documents
US20060074883A1 (en) 2004-10-05 2006-04-06 Microsoft Corporation Systems, methods, and interfaces for providing personalized search and information access
US7457808B2 (en) 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
US7788263B2 (en) 2005-08-10 2010-08-31 Microsoft Corporation Probabilistic retrospective event detection
US7813919B2 (en) 2005-12-20 2010-10-12 Xerox Corporation Class description generation for clustering and categorization
US7720848B2 (en) 2006-03-29 2010-05-18 Xerox Corporation Hierarchical clustering with real-time updating
US7788264B2 (en) 2006-11-29 2010-08-31 Nec Laboratories America, Inc. Systems and methods for classifying content using matrix factorization
US7711747B2 (en) 2007-04-06 2010-05-04 Xerox Corporation Interactive cleaning for automatic document clustering and categorization
JP2009033589A (ja) * 2007-07-30 2009-02-12 Ricoh Co Ltd 画像形成装置、プログラムおよび記録媒体
US8417312B2 (en) * 2007-10-25 2013-04-09 Dexcom, Inc. Systems and methods for processing sensor data
JP5224868B2 (ja) 2008-03-28 2013-07-03 株式会社東芝 情報推薦装置および情報推薦方法
US8234274B2 (en) 2008-12-18 2012-07-31 Nec Laboratories America, Inc. Systems and methods for characterizing linked documents using a latent topic model
CN102611785B (zh) 2011-01-20 2014-04-02 北京邮电大学 面向手机的移动用户个性化新闻主动推荐服务系统及方法
TWI536182B (zh) 2011-12-27 2016-06-01 國立臺灣科技大學 一種文章分類方法及系統
CN103020159A (zh) 2012-11-26 2013-04-03 百度在线网络技术(北京)有限公司 一种面向事件的新闻展现方法和装置
US20170002442A1 (en) * 2014-03-12 2017-01-05 Panasonic Intellectual Property Management Co., Ltd. Hydrogen-absorbing alloy, alloy powder for electrode, negative electrode for alkaline storage battery, and alkaline storage battery
CN105589914B (zh) * 2015-07-20 2018-07-06 广州市动景计算机科技有限公司 一种网页页面的预读取方法、装置及智能终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200846941A (en) * 2007-05-18 2008-12-01 Bridgewell Inc Method and module for computing weighted value of keywords in webpages, method and system for capturing theme terms
US20090234794A1 (en) * 2007-09-18 2009-09-17 Mpire Corporation Method for a contextual, vector-based content-serving system
US20120330977A1 (en) * 2009-12-09 2012-12-27 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
US8447110B2 (en) * 2010-01-08 2013-05-21 International Business Machines Corporation Time-series analysis of keywords

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI709905B (zh) * 2018-09-07 2020-11-11 台達電子工業股份有限公司 資料分析方法及資料分析系統
US11409804B2 (en) 2018-09-07 2022-08-09 Delta Electronics, Inc. Data analysis method and data analysis system thereof for searching learning sections
CN113792149A (zh) * 2021-11-15 2021-12-14 北京博瑞彤芸科技股份有限公司 一种基于用户关注度分析产生获客方案的方法和装置

Also Published As

Publication number Publication date
US20170169096A1 (en) 2017-06-15
TW201721467A (zh) 2017-06-16
US10467255B2 (en) 2019-11-05

Similar Documents

Publication Publication Date Title
TWI571756B (zh) 用以分析瀏覽記錄及其文件之方法及其系統
Li et al. Filtering out the noise in short text topic modeling
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
CN106383887B (zh) 一种环保新闻数据采集和推荐展示的方法及系统
Cai et al. What are popular: exploring twitter features for event detection, tracking and visualization
US8990241B2 (en) System and method for recommending queries related to trending topics based on a received query
JP5192475B2 (ja) オブジェクト分類方法およびオブジェクト分類システム
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
Macdonald et al. Blog track research at TREC
CN109684538A (zh) 一种基于用户个人特征的推荐方法及推荐系统
CN108874812B (zh) 一种数据处理方法及服务器、计算机存储介质
US9256593B2 (en) Identifying product references in user-generated content
CN111538931B (zh) 基于大数据的舆情监控方法、装置、计算机设备及介质
CN104573054A (zh) 一种信息推送方法和设备
EP2488970A1 (en) System and method for grouping multiple streams of data
CN113660541A (zh) 新闻视频的摘要生成方法及装置
CN109933691B (zh) 用于内容检索的方法、装置、设备和存储介质
JP6042790B2 (ja) トレンド分析装置、トレンド分析方法およびトレンド分析プログラム
CN103226601A (zh) 一种图片搜索的方法和装置
JP4879775B2 (ja) 辞書作成方法
JP5952756B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
WO2016027364A1 (ja) 話題クラスタ選択装置、及び検索方法
WO2018086518A1 (zh) 一种新主题的实时检测方法及装置
CN108921431A (zh) 政企客户聚类方法及装置
KR20180111646A (ko) 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법