TWI453609B - Automatic summary judgment method for file cluster - Google Patents

Automatic summary judgment method for file cluster Download PDF

Info

Publication number
TWI453609B
TWI453609B TW100142996A TW100142996A TWI453609B TW I453609 B TWI453609 B TW I453609B TW 100142996 A TW100142996 A TW 100142996A TW 100142996 A TW100142996 A TW 100142996A TW I453609 B TWI453609 B TW I453609B
Authority
TW
Taiwan
Prior art keywords
file
value
content
threshold value
cumulative
Prior art date
Application number
TW100142996A
Other languages
English (en)
Other versions
TW201322009A (zh
Inventor
Hung Yang Tsai
Tsu Teng Kao
Ke Min Su
Original Assignee
Esobi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Esobi Inc filed Critical Esobi Inc
Priority to TW100142996A priority Critical patent/TWI453609B/zh
Priority to US13/684,393 priority patent/US9116864B2/en
Publication of TW201322009A publication Critical patent/TW201322009A/zh
Application granted granted Critical
Publication of TWI453609B publication Critical patent/TWI453609B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

文件群集的自動摘要判斷方法
一種文件的摘要處理方法,特別是有關於一種文件群集的自動摘要判斷方法。
電腦及網際網路的快速發展,造成網際網路資訊量的快速爆增。一般而言,使用者大都是透過特定的入口網站觀看所喜愛的內文。所謂的文件泛指的是網頁中的文章、新聞或資訊,亦可稱之為數位文件,由於目前數位科技的普遍運用,近年來文件的產生極為快速,數量非常龐大,而且為達到即時的更新頁面中的各項文件之版面的目的,大多數的文件提供者(例如入口網站)都會提供文件內容的摘要處理與顯示,藉以提供使用者可以同時觀看更多數量的文件。
習知的文件摘要處理是將文件中的主文內容進行部分的摘錄。誠如前文所提到,入口網站每一天所接收到的文件數量是非常龐大的。若使用人工進行摘要處理的話,對於廠商不啻為一項沈重的負擔。因此文件提供者多會採用自動摘要的處理,其處理方式是將主文中的標題或前幾個字直接取出,將其當成該篇文件的摘要並顯示於首頁中,也就是說習知的摘要處理方法雖然可以提高同一頁面中的文章顯示數量,但是大部分為求處理快速,僅僅擷取主文部分文字作為該篇文件的摘要,而未做摘要內容是否符合貼近主文重點或摘要內容是否充足豐富的判斷,於是造成使用者在瀏覽該篇摘要時,常難以理解該篇文件的真正內容,不符合現代使用者瀏覽重點式摘要的需求。
有鑒於上述問題,本發明的主要目的在於揭露一種文件群集的自動摘要判斷方法,以期能在使用者瀏覽選定的文件群集(該文件群集即為一網站的頁面內容或該網站的一個頻道頁面內容),先判斷該文件群集中所夾帶的所有子文件之原始摘要內容是否充足且貼近主文重點,經由本發明的數個判斷步驟分析是否需就該文件群集之內容(其中所有的子文件)產出更貼近主文重點的摘要重組內容(較佳的摘要內容),以求能更符合使用者瀏覽重點式摘要的需求。
為達成上述目的,本發明的主要技術手段係包含下列步驟:(A)建立一資料庫,將使用者預載的每一個包含有複數筆子文件摘要內容及主文內容的文件群集包裝儲存成對應的文件群集歷程記錄檔,每一個該文件群集歷程記錄檔中記錄有該些子文件的該摘要內容及該主文內容,並設置有一文件累計數值、一摘要化累計次數值及一摘要化成功次數值;(B)針對使用者欲瀏覽的該文件群集,於該資料庫中取出對應的該文件群集歷程記錄檔;再針對該文件群集歷程記錄檔中的每一筆子文件的摘要內容,配合一文件累計數值、一摘要化累計次數值及一摘要化成功次數值,進行下列主要的迴圈式判斷步驟,直至文件群集歷程記錄檔中所有的子文件的摘要內容都被處理過為止,(C)針對其中該文件累計數值判斷是否大於一第一門檻值;(D)計算該摘要化累計次數值及該摘要化成功次數值以產生一摘要化成功率數值;(E)判斷該摘要化成功率數值是否大於一第二門檻值;(F)判斷該筆子文件的摘要內容長度是否大於一第三門檻值;(G)針對該筆子文件的主文內容進行一摘要化處理,產出一新摘要內容;(J)輸出新摘要內容。
其中,文件累計數值、摘要化累計次數值及摘要化成功次數值會隨著資料庫中文件群集歷程記錄檔的建置和上述判斷步驟的執行過程中而不斷變化,由上述判斷步驟(其中步驟(H)至步驟(I)是為更新該文件群集記錄檔之動作,故未列於前述步驟中,有關本發明詳細步驟細節將於實施方式中搭配實施例闡述),得以於使用者瀏覽選定的文件群集內容前,先行判斷是否需就該文件群集內容中的所有子文件的摘要內容進行摘要處理的動作,以產出更貼近主文重點的新摘要內容,提供使用者較佳的摘要瀏覽需要。
本發明更可延伸設置更多的數值及增加更細微的判斷步驟進行交叉比對,藉以檢查並輸出最佳化的摘要結果供使用者瀏覽,如於步驟(G)中更包含:(G1)比對新摘要內容長度與該筆子文件的(原始)摘要內容長度,若新摘要內容長度小於該筆子文件的(原始)摘要內容長度,則表示該筆子文件的(原始)摘要內容較豐富,便直接選擇輸出該筆子文件的(原始)摘要內容;(G2)若新摘要內容長度大於該筆子文件的摘要內容長度,則代表經上述步驟所產出的新摘要內容較豐富,而進行步驟(J)輸出更符合使用者瀏覽需求的新摘要內容。
有關本發明的特徵與實施例,以下茲配合圖式與較佳實施例的詳細說明清楚呈現如下。
本發明以下所揭露之實施例,可以透過一般具有數位化資料處理能力的電子設備實施,例如電腦及智慧型手機,這裡所稱的電腦包含但不限於個人電腦(Personal Computer)或是筆記型電腦(Note Book Computer),透過軟體的途徑執行下文中所揭露的方法來加以實現。
第1圖主要闡述了本發明的一個較佳實施例之方塊執行程序示意圖,如圖中所示,其主要執行程序係以下步驟:
步驟S10:建立資料庫,產出對應於預載文件群集內容的文件群集記錄檔;
步驟S11:針對使用者選擇,取出對應的文件群集記錄檔(內容及數值);
步驟S12:針對其中數值判斷第一門檻值;
步驟S13:針對其中數值計算摘要化成功率;
步驟S14:針對摘要化成功率判斷第二門檻值;
步驟S15:針對其中內容判斷第三門檻值;
步驟S16:針對其中內容進行摘要化處理,產出新摘要內容;
步驟S17:更新文件群集歷程記錄檔(內容及數值),並輸出該新摘要內容。
由上述步驟主要可得知,本發明係透過建置文件群集記錄檔,並藉由其中所記錄的內容及數值,分別經過步驟S12至S15至少三個門檻值的嚴謹判斷,若判斷皆成立後,才會進行步驟S16摘要化處理的動作產出一新摘要內容,並於步驟S17輸出該新摘要內容於顯示端。由於文件群集記錄檔記錄了對應的文件群集內容和建置了數個可供分析的判斷數值,於上述步驟中更可加入更多的交叉比對動作,增加更多的門檻值進行更嚴謹的判斷步驟,而得到更貼近使用者需要的摘要內容。此種於使用者瀏覽文件群集內容之前,針對文件群集內容中的所有子文件的摘要判斷流程,實為業界獨創之方式。
其中於步驟S10中(請同時參考第2圖),係先建立一資料庫30,將使用者預載的複數個文件群集(文件群集A、文件群集B)中所夾帶的每一個子文件的摘要內容及主文內容抓取出來包裝儲存成對應的文件群集歷程記錄檔(文件群集記錄檔CA、文件群集記錄檔CB),也就是說有多少個文件群集就形成多少個對應的文件群集歷程記錄檔,其中文件群集A中夾帶有數筆子文件(以下以第一筆子文件A1做概括解說),該文件群集歷程記錄檔CA將文件群集A中夾帶的子文件A1的摘要內容A11及主文內容A12抓取出來儲存為對應的摘要內容CA11及主文內容CA12,並設置一文件累計數值CA2、一摘要化累計次數值CA3及一摘要化成功次數值CA4。
其中所述的文件群集A係為一網站的頁面內容或該網站的一個頻道頁面內容,其可能包括新聞頻道(News channel)、運動頻道(Sport channel)、科技頻道(Technology Channel)或財經頻道(Economics channel)等各式類型相近的網站頁面內容或頻道頁面內容,每一個頁面內容中,都會有大量的文章顯示數量,請同時參考第3圖,第3圖係以一新聞網頁對照解說,其中每一個單獨的頁面(21、22),即為一個單獨的文件群集A、文件群集B,其中該文件群集A(21)中,即放置有數個經節錄出來的當日新聞文章(211即子文件A1、212即子文件A2)以供點閱瀏覽,但由於網頁空間有限的原因,所以該些新聞文章皆僅擷取主文部分文字(有的附加圖片)作為該篇文件的摘要內容(即子文件A1的摘要內容2111、子文件A2的摘要內容2121),並顯示於頁面上供點閱瀏覽,如圖中所示,該摘要內容(2111、2121)係根據主文內容所產生的部分內容(其內容可能為文字或文字加上圖片,如圖所示該摘要內容2111、2121即為文字加上圖片),而關於如何抓取網頁純文字及圖片內容之技術,此廣為熟習該項技藝者所熟知且非本案之重點,故不在此重覆贅述。
以下搭配第4圖所示的詳細步驟流程圖,做更詳細的步驟解說。步驟S20是先建立一個資料庫,將使用者於網路上預載好的每一個文件群集包裝儲存成對應的文件群集歷程記錄檔,每一個文件群集如前述都夾帶著複數筆的子文件摘要內容及主文內容,本發明透過前述抓取網頁純文字及圖片內容之技術,將文件群集中每一筆子文件的原始摘要內容及主文內容抓取出來,並一一記錄在對應的文件群集歷程記錄檔中,文件群集歷程記錄檔中同時設置有可供分析的文件累計數值、摘要化累計次數值及摘要化成功次數值(有關步驟S20的成型方式,請參考前述和第2圖所示),設置文件累計數值、摘要化累計次數值及摘要化成功次數值的用意是在做為進行後續步驟或下次使用時,判斷邏輯上的參考之用其中,文件累計數值、摘要化累計次數值及摘要化成功次數值一開始都先設為0,該些數值將隨著後續步驟的執行而累積變化,本發明的步驟是一次取出文件群集歷程記錄檔中的一筆子文件的摘要內容做判斷,所以當取出一筆子文件的摘要內容時,文件累計數值就加1,一直累加下去,其記錄該份文件群集歷程記錄檔中處理過子文件數量,避免文件群集歷程記錄檔中累積處理過的子文件數量太少,而進行後續步驟浪費記憶體運算資源,或者因累積處理過的子文件數量太少而造成執行後續步驟時產生錯誤的判斷,故文件累計數值限定需達到預定數量,如後續步驟S22中需與第一門檻值做比對,大於預設的第一門檻值才會進行後續的步驟。
而摘要化累計次數值及摘要化成功次數值,則隨著步驟的執行而記錄著產生新摘要內容的次數和新摘要內容覆蓋取代該筆子文件(原始)摘要內容的次數(將詳細說明如后)。
另外該資料庫係持續累積記錄內容及數值,在使用者更新預載的文件群集後,會把同一個來源的文件群集的新內容,再抓取出來置入之前已經建置好的對應的文件群集歷程記錄檔中累積記錄,並更新該份文件群集歷程記錄檔中的文件累計數值,若是上次沒建置到的新來源的文件群集,便會再產生一個對應的新的文件群集記錄檔。這樣的資料庫建置及應用方式,對於使用者下次選定欲瀏覽的文件群集時,由於文件群集歷程記錄檔不斷的累積內容及更新判斷數值(文件累計數值、摘要化累計次數值及摘要化成功次數),對於進行後續步驟S21至步驟S29會得到一次比一次快速的判斷結果,並輸出最貼近主文重點的較佳摘要化內容供使用者瀏覽。以下為方便說明,先將文件累計數值預設為199(即代表該文件群集歷程記錄檔中處理過了199筆子文件的摘要內容及主文內容),並將摘要化累計次數值預設為150、摘要化成功次數值設為120。
當資料庫建置好之後,接下來便可於步驟S21中,在使用者選定欲瀏覽的文件群集前,先於資料庫中取出對應於該文件群集的文件群集歷程記錄檔出來,並進行步驟S22,先取出該文件群集歷程記錄檔中記錄的其中一筆子文件的(原始)摘要內容(第200筆子文件),因為又取出了一筆子文件的(原始)摘要內容,所以先更新文件累計數值將之累加1使之數值成為200,接著判斷文件群集歷程記錄檔中設置的文件累計數值是否大於第一門檻值,於本實施例中,將該第一門檻值設定為100,代表該文件群集歷程記錄檔中至少要累積有100篇子文件內容(摘要內容和主文內容),才進行步驟S23繼續判斷,若小於第一門檻值就直接跳至步驟S29輸出該筆子文件的摘要內容。於本實施例中,文件累計數值數值200大於第一門檻值數值100,所以繼續進行步驟S23。
於步驟S23中,計算該文件累計數值及該摘要化成功次數值,產生一摘要化成功率數值,於本實施例中透過下列方式計算出該摘要化成功率數值,惟其計算方式可以與文件群集歷程記錄檔中設置的判斷數值做多種組合計算,當不應限定以何種方式計算出摘要化成功率數值,於此僅舉下例說明之。
摘要化成功率數值=摘要化成功次數值(數值:120)/摘要化累計次數值(數值:150)
得到摘要化成功率數值為0.8,接著進行步驟S24。
於步驟S24中,預設一個第二門檻值為0.5,用以跟步驟S23中計算出來的摘要化成功率數值做判斷,若該摘要化成功率大於第二門檻值,則進行下一步驟S25繼續判斷,若小於第二門檻值就直接跳至步驟S29輸出該筆子文件的(原始)摘要內容。於本實施例中,於步驟S23中計算出來的摘要化成功率數值0.6大於第二門檻值0.5,所以進行步驟S25繼續判斷。
於步驟S25中,預設一個第三門檻值為100,用以跟該筆子文件的(原始)摘要內容長度做判斷,用意是判斷該筆子文件的(原始)摘要內容長度是否夠長,若大於第三門檻值,則判定該筆子文件(原始)摘要內容就足夠充足了,不需要再進行後續判斷步驟,直接跳至步驟S29輸出該筆子文件的(原始)摘要內容。以下為方便步驟說明,設定該筆子文件的(原始)摘要內容為50,於本實施例中,該筆子文件的(原始)摘要內容(數值50)小於第三門檻值100,所以繼續進行步驟S26。
經由前面種種步驟判斷至此,於步驟S26中即對該子文件的主文內容進行一摘要化處理,以產出一新摘要內容。至於所述摘要化處理產生新摘要內容的方式,係透過特別的演算法將該筆子文件的主文內容中的文字字元和圖片抓取出來,進行演算法計算後(例如與標題做比對或計算段落權重、文章最大區塊等等方式)而將文字字元和圖片重組成一個新的摘要內容,關於該演算法之技術,此廣為熟習該項技藝者所熟知且非本案之重點,故不在此重覆贅述。當產出一新摘要內容之後,即將該摘要化累計次數值累加1,代表產出了一次新摘要內容,然後繼續進行步驟S27,將產出的該筆新摘要內容更新至該份文件群集歷程記錄檔中取代該筆子文件的(原始)摘要內容(於此步驟中,該筆子文件原來的舊摘要內容已被新摘要內容覆蓋並儲存於該文件群集歷程記錄檔中),及進行步驟S28更新該文件群集歷程記錄檔中的摘要化成功次數值將之數值累加1,代表摘要判斷又成功了1筆(以供後續步驟或下次使用文件群集歷程記錄檔時判斷邏輯上的參考),然後繼續進行步驟S29。
於步驟S29中,便直接將文件群集歷程記錄檔中的該筆子文件的摘要內容輸出於顯示端供使用者瀏覽,完成文件群集歷程記錄檔中該筆子文件的摘要判斷流程,並重覆步驟S22,取出下一筆子文件的(原始)摘要內容繼續進行步驟S22至步驟S29的判斷流程,直至該文件群集歷程記錄檔中所有的子文件(原始)摘要內容都被處理過為止。
而於本實施例中,可於文件群集歷程記錄檔中加入新的數值產生新的組合判斷或更進一步的比對,如第5圖,係本實施例的一新增步驟示意圖,於步驟S22中,當文件累計數值(數值:200)大於第一門檻值(數值:100)之後,再多增加一個步驟S221的判斷,進一步判斷摘要化累計數值是否也大於一第四門檻值,如此藉由判斷文件累計數值及摘要化累計數值是否皆達預定數量的雙重判斷,更可達到嚴謹的比對,避免無謂的進行後續步驟而浪費記憶體運算資源,或因累積處理過的子文件數量太少而造成執行後續步驟時產生錯誤的判斷。於本實施例中,摘要化累計數值150,大於第四門檻值20,所以可以再繼續進行步驟S23。
再如第6圖,係本實施例的另一新增步驟示意圖,於步驟S26針對該子文件的主文內容進行一摘要化處理,以產出一新摘要內容之後,增加一個步驟S261的步驟,進一步比對該新摘要內容長度與該子文件的(原始)摘要內容長度,判斷新摘要內容與(原始)摘要內容兩者哪一個內容長度比較長(即摘要內容較豐富),若產出的新摘要內容長度比較長,則進行步驟S57進行更新該筆子文件摘要的動作,若經比對後,該筆子文件的(原始)摘要內容比新產出的新摘要內容長度還長,則直接跳至步驟S59輸出原來的摘要內容,經過步驟S561的判斷,可選出最適合的摘要內容,並減少程式的誤判。於本實施例中,假設於步驟S26中所產出的新摘要內容長度為60,而本實施例於上述步驟S25中已經預設該筆子文件的(原始)摘要內容為50,於是經過步驟S261的比對判斷後,該新摘要內容長度大於該筆子文件的(原始)摘要內容長度,所以進行步驟S27的將產出的該筆新摘要內容更新至該份文件群集歷程記錄檔中取代該筆子文件的(原始)摘要內容的動作,而若新摘要內容長度小於該筆子文件的(原始)摘要內容長度的話,則判定該筆子文件的(原始)摘要內容較豐富,所以直接進行步驟S29輸出該筆子文件的(原始)摘要內容。
第7圖顯示另一完整的較佳實施例,即將前述新增的判斷步驟都加入(即圖中步驟S521及步驟S561),使之成為一個較完整的判斷流程,其判斷方式於前述都以充份闡述,是以不在此重覆贅述。而為了使本發明的判斷流程更加詳盡及令輸出結果更為優良及減少誤判的可能性,請參考第8圖,於本實施例中更於步驟S53計算出該筆子文件的摘要成功率之後,於步驟S54判斷該摘要化成功率是否大於預設的第二門檻值的判斷步驟中,加入了更詳細的一個敗部復活判斷流程(該摘要化成功率若小於第二門檻值,在直接進行步驟S59直接輸出該筆子文件的原始摘要內容之前,先進行摘要化成功率不高的子文件有敗部復活空間的進一步判斷),以提高該筆文文仔的摘要化成功率及增加該份文件群集歷程記錄檔的摘要化成功次數。
該判斷步驟包含:(步驟S541)判斷該摘要化成功率數值是否大於一第二門檻值,若該摘要化成功率數值大於該第二門檻值,則進行步驟S55;若該摘要化成功率數值小於該第二門檻值,則進行下列(敗部復活)步驟:
(步驟S542)計算該摘要化累計次數值及該文件累計數值,產生一摘要化頻率數值;
(步驟S543)判斷該摘要化頻率數值是否大於一第五門檻值,若該摘要化頻率數值大於該第五門檻值,則進行步驟S59;
(步驟S544)若該摘要化頻率數值小於該第五門檻值,則更新該N值,並判斷該N值是否等於一第六門檻值,若該N值不等於該第六門檻值,則進行步驟S59步驟;
若該N值等於該第六門檻值,則將該N值歸零並進行步驟S55。
以下為方便清楚解說,先假設於步驟S53計算出來的該筆子文件的摘要成功率為0.4(有關如何計算摘要成功率,已於前述實施例中完整揭露),而第二門檻值預設為0.5,另外摘要化累計次數值預設為18,文件累計數值預設為200。於步驟S541中,摘要化成功率數值0.4小於第二門檻值0.5,於是進行步驟S542。於步驟S542中,計算摘要化累計次數值及該文件累計數值,產生一摘要化頻率數值,本實施例透過下列方式計算出該摘要化頻率數值,惟其計算方式可以與文件群集歷程記錄檔中設置的判斷數值做多種組合計算,當不應限定以何種方式計算出摘要化頻率數值,於此僅舉下例說明之。
摘要化頻率數值=摘要化累計次數值(數值:18)/文件累計數值(數值:200)
得到摘要化頻率數值為0.09,接著進行步驟S543。
於步驟S543中預設一第五門檻值為0.1,用以跟步驟S542中計算出來的摘要化頻率數值做判斷,若該摘要化頻率數值小於第五門檻值,則進行下一步驟S544繼續判斷,若大於第五門檻值就直接跳至步驟S59輸出該筆子文件的(原始)摘要內容。於本實施例中,於步驟S542中計算出來的摘要化頻率數值0.09小於第五門檻值0.1,所以進行步驟S544繼續判斷。
於S544中設置有一計數值N,該計數值N係累積記錄於步驟S541中摘要化成功率低於第二門檻值而進入S542敗部復活判斷程序的子文件數量,一開始設為0,每當處理一筆子文件就累加1,用以與一預設的第六門檻值做比對,用意在當處理的子文件達到預設的數量(第六門檻值)時,便將該筆子文件的摘要內容進行後續步驟S55的判斷而不是直接將該筆子文件的摘要內容輸出,藉以得到隨機篩選的目的,提高本發明針對文件群集歷程記錄檔中的子文件摘要內容做判斷處理的數量,也能減少因為步驟S53中計算出來的該筆子文件摘要化成功率太低而未做後續判斷步驟的誤判結果產生。於本步驟中,該第六門檻值可設為4~6中的任一個數值,並用以和計數值N做判斷,以得到當計數值N累積到第4筆、第5筆或第6筆子文件時,即將該筆摘要化成功率太低的子文件的摘要內容進行後續步驟S55的進一步判斷,此即達到隨機篩選及前述所謂敗部復活的用意。
本發明以前述之較佳實施例揭露如上,然其並非用以限定本發明,任何熟習相像技藝者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,因此本發明之專利保護範圍須視本說明書所附之申請專利範圍所界定者為準。
20...使用者預載的文件群集
21...文件群集A
211...子文件A1
2111...摘要內容
212...子文件A2
2121...摘要內容
22...文件群集B
30...資料庫
S10~S17...步驟說明
S20~S29...步驟說明
S50~S59...步驟說明
第1圖係本發明一較佳實施例之方塊執行程序示意圖。
第2圖係本發明一較佳實施例之文件群集歷程記錄檔之示意圖。
第3圖係一新聞網頁對照解說示意圖。
第4圖係本發明一較佳實施例之詳細步驟流程圖。
第5圖係該較佳實施例之一新增步驟示意圖。
第6圖係該較佳實施例之另一新增步驟示意圖。
第7圖係本發明另一較佳實施例之詳細步驟流程圖。
第8圖係該較佳實施例之一新增步驟示意圖。

Claims (14)

  1. 一種文件群集的自動摘要判斷方法,包括下列步驟:(A) 建立一資料庫,將使用者預載的每一個包含有複數筆子文件摘要內容及主文內容的文件群集包裝儲存成對應的文件群集歷程記錄檔,每一個該文件群集歷程記錄檔中記錄有該些子文件的該摘要內容及該主文內容,並設置有一文件累計數值、一摘要化累計次數值及一摘要化成功次數值;(B) 針對使用者欲瀏覽的文件群集,於該資料庫中取出對應的該文件群集歷程記錄檔;(C) 取出其中一筆子文件的該摘要內容,更新該文件累計數值並判斷該文件累計數值是否大於一第一門檻值,若該文件累計數值小於該第一門檻值,則進行(F)步驟;(D) 若該文件累計數值大於該第一門檻值,則計算該摘要化累計次數值及該摘要化成功次數值,產生一摘要化成功率數值;(E) 判斷該摘要化成功率數值是否大於一第二門檻值,若該摘要化成功率數值小於該第二門檻值,則進行(J)步驟;(F) 判斷該摘要內容長度是否大於一第三門檻值,若該摘要內容長度大於該第三門檻值則進行(J)步驟;(G) 若該摘要內容長度小於該第三門檻值,對該子文件的該主文內容進行一摘要化處理,產出一新摘要內容並更新該摘要化累計次數值;(H) 將該新摘要內容更新至該文件群集歷程記錄檔中取代該筆子文件的摘要內容;(I) 更新該摘要化成功次數值;(J) 輸出該摘要內容於顯示端;(K) 重覆步驟(C)至步驟(K)步驟,直至該文件群集歷程記錄檔中所有的子文件摘要內容都被處理過為止。
  2. 如請求項1所述之文件群集的自動摘要判斷方法,其中該文件群集係為一網站或該網站的一頻道內容。
  3. 如請求項1所述之文件群集的自動摘要判斷方法,其中該文件群集歷程記錄檔中更設置有一計數值N。
  4. 如請求項1所述之文件群集的自動摘要判斷方法,其中於步驟(C)更包含:(C1)判斷該摘要化累計次數值是否大於一第四門檻值,若該摘要化累計次數值小於該第四門檻值則進行(F)步驟;以及(C2)若該摘要化累計次數值大於該第四門檻值則進行(D)步驟。
  5. 如請求項4所述之文件群集的自動摘要判斷方法,其中該第四門檻值為20。
  6. 如請求項1或3所述之文件群集的自動摘要判斷方法,其中該步驟(E)係包含:(E1)判斷該摘要化成功率數值是否大於一第二門檻值,若該摘要化成功率數值大於該第二門檻值,則進行(F)步驟;(E2)若該摘要化成功率數值小於該第二門檻值,則進行下列步驟:(E21)計算該摘要化累計次數值及該文件累計數值,產生一摘要化頻率數值;(E22)判斷該摘要化頻率數值是否大於一第五門檻值,若該摘要化頻率數值大於該第五門檻值,則進行(J)步驟;(E23)若該摘要化頻率數值小於該第五門檻值,則更新該計數值N,並判斷該計數值N是否等於一第六門檻值,若該計數值N不等於該第六門檻值,則進行(J)步驟;(E24)若該計數值N等於該第六門檻值,則將該計數值N歸零並進行(F)步驟。
  7. 如請求項6所述之文件群集的自動摘要判斷方法,其中該第二門檻值為0.5。
  8. 如請求項6所述之文件群集的自動摘要判斷方法,其中該第五門檻值為0.1。
  9. 如請求項6所述之文件群集的自動摘要判斷方法,其中該第六門檻值為4~6。
  10. 如請求項1或3所述之文件群集的自動摘要判斷方法,其中於步驟(G)更包含:(G1)比對該新摘要內容長度與該子文件的該摘要內容長度,若該新摘要內容長度小於該子文件的該摘要內容長度,則進行(J)步驟;以及(G2)若該新摘要內容長度大於該子文件的該摘要內容長度,則進行(H)步驟。
  11. 如請求項1所述之文件群集的自動摘要判斷方法,其中該摘要內容係由文字、圖片所組成。
  12. 如請求項1所述之文件群集的自動摘要判斷方法,其中該新摘要內容係由新摘要文字、新摘要圖片所組成。
  13. 如請求項1所述之文件群集的自動摘要判斷方法,其中該第一門檻值為100。
  14. 如請求項1所述之文件群集的自動摘要判斷方法,其中該第三門檻值為100。
TW100142996A 2011-11-23 2011-11-23 Automatic summary judgment method for file cluster TWI453609B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW100142996A TWI453609B (zh) 2011-11-23 2011-11-23 Automatic summary judgment method for file cluster
US13/684,393 US9116864B2 (en) 2011-11-23 2012-11-23 Automatic abstract determination method of document clustering

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW100142996A TWI453609B (zh) 2011-11-23 2011-11-23 Automatic summary judgment method for file cluster

Publications (2)

Publication Number Publication Date
TW201322009A TW201322009A (zh) 2013-06-01
TWI453609B true TWI453609B (zh) 2014-09-21

Family

ID=48428145

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100142996A TWI453609B (zh) 2011-11-23 2011-11-23 Automatic summary judgment method for file cluster

Country Status (2)

Country Link
US (1) US9116864B2 (zh)
TW (1) TWI453609B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2851772C (en) * 2011-10-14 2017-03-28 Yahoo! Inc. Method and apparatus for automatically summarizing the contents of electronic documents
CN107766419B (zh) * 2017-09-08 2021-08-31 广州汪汪信息技术有限公司 一种基于阈值去噪的TextRank文档摘要方法及装置
DE102018005540B4 (de) * 2018-07-13 2022-06-09 Pepperl+Fuchs Ag 1D-Ultraschallwandler-Einheit

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826724B1 (en) * 1998-12-24 2004-11-30 Ricoh Company, Ltd. Document processor, document classification device, document processing method, document classification method, and computer-readable recording medium for recording programs for executing the methods on a computer
TW200612264A (en) * 2004-10-01 2006-04-16 Inst Information Industry Patent summarization system, the method, and machine-readable storage medium
TW200900971A (en) * 2007-06-28 2009-01-01 Academia Sinica Method and device for summarization and graph construction of topics evolutions
US20090063473A1 (en) * 2007-08-31 2009-03-05 Powerset, Inc. Indexing role hierarchies for words in a search index
TW201113720A (en) * 2009-10-14 2011-04-16 Univ Nat Chiao Tung Document processing system and method

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6789230B2 (en) * 1998-10-09 2004-09-07 Microsoft Corporation Creating a summary having sentences with the highest weight, and lowest length
US6766287B1 (en) * 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
US20050278314A1 (en) * 2004-06-09 2005-12-15 Paul Buchheit Variable length snippet generation
US20060200464A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
US7853587B2 (en) * 2008-01-31 2010-12-14 Microsoft Corporation Generating search result summaries
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826724B1 (en) * 1998-12-24 2004-11-30 Ricoh Company, Ltd. Document processor, document classification device, document processing method, document classification method, and computer-readable recording medium for recording programs for executing the methods on a computer
TW200612264A (en) * 2004-10-01 2006-04-16 Inst Information Industry Patent summarization system, the method, and machine-readable storage medium
TW200900971A (en) * 2007-06-28 2009-01-01 Academia Sinica Method and device for summarization and graph construction of topics evolutions
US20090063473A1 (en) * 2007-08-31 2009-03-05 Powerset, Inc. Indexing role hierarchies for words in a search index
TW201113720A (en) * 2009-10-14 2011-04-16 Univ Nat Chiao Tung Document processing system and method

Also Published As

Publication number Publication date
US9116864B2 (en) 2015-08-25
TW201322009A (zh) 2013-06-01
US20130132827A1 (en) 2013-05-23

Similar Documents

Publication Publication Date Title
US11995034B2 (en) Hierarchical tags with community-based ratings
US8812493B2 (en) Search results ranking using editing distance and document information
JP5224868B2 (ja) 情報推薦装置および情報推薦方法
CN109286850B (zh) 一种基于弹幕的视频标注方法及终端
WO2017096877A1 (zh) 一种推荐方法和装置
KR100706389B1 (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
TWI453609B (zh) Automatic summary judgment method for file cluster
JP2008146624A (ja) コンテンツのフィルタリング方法、フィルタリング装置およびフィルタリングプログラム
JP4796538B2 (ja) コメントデータを関連付ける方法
TWI427490B (zh) 網頁檢視方法及系統,及其電腦程式產品
CN106899879B (zh) 一种多媒体数据的处理方法和装置
JP4640554B2 (ja) サーバ装置、情報処理方法およびプログラム
JPWO2009096506A1 (ja) 情報分析装置、情報分析方法、情報分析用プログラム、及び検索システム
JP5516416B2 (ja) 情報検索装置、情報検索方法、及びプログラム
JP5179564B2 (ja) クエリセグメント位置決定装置
Jēkabsons Evaluation of fingerprint selection algorithms for local text reuse detection
JP5727846B2 (ja) シリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラム
JP2012173817A (ja) 検索支援装置、プログラム及び方法
CN106548069B (zh) 一种基于排序算法的特征提取系统及方法
Andreadou et al. Web image size prediction for efficient focused image crawling
JP2012099021A (ja) 話題出力装置及び方法及びプログラム
KR20160029625A (ko) 콘텐츠 서비스를 제공하는 방법 및 서버
CN112269900A (zh) 一种快速检索采集视频的方法
CN103164473A (zh) 文件群集的自动摘要判断方法
CN114579736A (zh) 网页的自动分类方法及系统

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees