TW201822025A - 比較表格自動產生方法、裝置及其電腦程式產品 - Google Patents

比較表格自動產生方法、裝置及其電腦程式產品 Download PDF

Info

Publication number
TW201822025A
TW201822025A TW105139987A TW105139987A TW201822025A TW 201822025 A TW201822025 A TW 201822025A TW 105139987 A TW105139987 A TW 105139987A TW 105139987 A TW105139987 A TW 105139987A TW 201822025 A TW201822025 A TW 201822025A
Authority
TW
Taiwan
Prior art keywords
article
marked
words
collection
paragraph
Prior art date
Application number
TW105139987A
Other languages
English (en)
Other versions
TWI621952B (zh
Inventor
陳棅易
郭台達
曹嬿恆
楊又權
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW105139987A priority Critical patent/TWI621952B/zh
Priority to CN201710066132.8A priority patent/CN108153715B/zh
Priority to US15/604,677 priority patent/US20180157744A1/en
Application granted granted Critical
Publication of TWI621952B publication Critical patent/TWI621952B/zh
Publication of TW201822025A publication Critical patent/TW201822025A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

一種比較表格自動產生方法,包含以下步驟:提供介面以設定比較議題、基礎文章及其基礎文章主題和標記段落;計算標記段落的基礎文章字詞間的相關聯性,以產生標記主標籤及標記擴增詞,據以從資訊源擷取收集文章和收集文章主題;計算收集文章段落的收集文章字詞間的相關聯性,以產生收集文章段落主標籤以及收集文章段落擴增詞,與標記主標籤以及標記擴增詞進行比對以產生近似度,以根據近似度產生選擇段落;以及建立比較表格,以比較議題、基礎文章主題和收集文章主題做為列、行的項目名稱,依據比較議題的標記段落及選擇段落填入欄位。

Description

比較表格自動產生方法、裝置及其電腦程式產品
本發明是有關於一種資料處理技術,且特別是有關於一種比較表格自動產生方法、裝置及其電腦程式產品。
隨著網路的發達,使用者可透過網路輕易地存取巨大的資訊量。然而,當使用者想要針對一特定的主題進行比較且製作比較表格時,往往需要以人工的方式對網路資訊進行檢索。舉例而言,使用者需要實際觀看多篇網路文章並尋找相同的議題以及對應的內容,才能進行比較,然後自行篩選所需資料來製作格。這樣以人工進行比較的方式耗時費力,並且效率低落,無法迅速對大量的資料進行快速的整理。
因此,如何設計一個新的比較表格自動產生方法、裝置及其電腦程式產品,以解決上述缺陷,乃為此一業界亟待解決的問題。
因此,本發明之一態樣是在提供一種比較表格自動產生方法,藉由一伺服器實施,且比較表格自動產生方法包含以下步驟:於介面單元接收複數個比較議題之設定、基礎文章及其基礎文章主題和複數個標記段落,其中每一標記段落係由基礎文章中選擇文章段落且標記其對應之其中之一比較議題;令伺服器計算各標記段落所包含的各複數個基礎文章字詞間的相關聯性,以令伺服器產生對應各標記段落的至少一標記主標籤以及複數個標記擴增詞;令伺服器依據標記主標籤和標記擴增詞,從資訊源中擷取收集文章和對應之收集文章主題;令伺服器計算收集文章之複數收集文章段落所包含的各複數個收集文章字詞間的相關聯性,以令伺服器產生對應各收集文章之各收集文章段落的至少一收集文章段落主標籤以及複數個收集文章段落擴增詞;令伺服器將各收集文章之各收集文章段落的收集文章段落主標籤以及收集文章段落擴增詞,與各標記段落的標記主標籤以及標記擴增詞進行比對以產生近似度,以令伺服器根據該近似度從各收集文章段落中選擇對應每一比較議題的選擇段落;以及令伺服器建立比較表格,其中比較表格係分別以每一比較議題作為每一列的項目名稱,將基礎文章主題作為其中一行 的項目名稱,並令伺服器依據基礎文章中對應每一比較議題的標記段落填入此行中對應每一比較議題之列的欄位中,以及令伺服器將收集文章主題做為另一行的項目名稱,並令伺服器依據收集文章中對應每一比較議題的選擇段落填入此行中對應每一比較議題之列的欄位中。
本發明之另一態樣是在提供一種比較表格自動產生裝置,包含:儲存單元以及處理單元。儲存單元配置以儲存應用程式。處理單元電性耦接於輸入單元以及儲存單元,處理單元配置以執行應用程式,依據基礎文章及時間區間的複數收集文章以自動產生比較表格。其中處理單元提供一介面以設定複數個比較議題、基礎文章及其基礎文章主題和複數個標記段落,其中該每一標記段落係由該基礎文章中選擇一文章段落且標記其對應之其中之一該等比較議題;計算各該等標記段落所包含的各複數個基礎文章字詞間的相關聯性,以產生對應各標記段落的至少一標記主標籤以及複數個標記擴增詞;依據標記主標籤和標記擴增詞,從資訊源中擷取收集文章和對應之收集文章主題;計算收集文章之複數收集文章段落所包含的各複數個收集文章字詞間的相關聯性,以產生對應各收集文章之各收集文章段落的至少一收集文章段落主標籤以及複數個收集文章段落擴增詞;將各收集文章之各收集文章段落的收集文章段落主標籤以及收集文章段落擴增詞,與各標記段落的標記主標籤以及標記擴增詞進行比對產生近似度,以根據該近似度從各收集文章段落中選擇對應每一比較議題的選擇段落;以及建立比較表格, 其中比較表格係分別以每一比較議題作為每一列的項目名稱,將基礎文章主題作為其中一行的項目名稱,並依據基礎文章中對應每一比較議題的標記段落填入此行中對應每一比較議題之列的欄位中,以及將收集文章主題做為另一行的項目名稱,並依據收集文章中對應每一比較議題的選擇段落填入此行中對應每一比較議題之列的欄位中。
本發明之又一態樣是在提供一種電腦程式產品,用以執行一種比較表格自動產生方法,比較表格自動產生方法藉由一伺服器實施,且包含以下步驟:於介面單元接收複數個比較議題之設定、基礎文章及其基礎文章主題和複數個標記段落,其中每一標記段落係由基礎文章中選擇文章段落且標記其對應之其中之一比較議題;令伺服器計算各標記段落所包含的各複數個基礎文章字詞間的相關聯性,以令伺服器產生對應各標記段落的至少一標記主標籤以及複數個標記擴增詞;令伺服器依據標記主標籤和標記擴增詞,從資訊源中擷取收集文章和對應之收集文章主題;令伺服器計算收集文章之複數收集文章段落所包含的各複數個收集文章字詞間的相關聯性,以令伺服器產生對應各收集文章之各收集文章段落的至少一收集文章段落主標籤以及複數個收集文章段落擴增詞;令伺服器將各收集文章之各收集文章段落的收集文章段落主標籤以及收集文章段落擴增詞,與各標記段落的標記主標籤以及標記擴增詞進行比對以產生近似度,以令伺服器根據該近似度從各收集文章段落中選擇對應每一比較議題的選擇段落;以及令伺服器建立比較表格,其 中比較表格係分別以每一比較議題作為每一列的項目名稱,將基礎文章主題作為其中一行的項目名稱,並令伺服器依據基礎文章中對應每一比較議題的標記段落填入此行中對應每一比較議題之列的欄位中,以及令伺服器將收集文章主題做為另一行的項目名稱,並令伺服器依據收集文章中對應每一比較議題的選擇段落填入此行中對應每一比較議題之列的欄位中。
應用本發明之優點在於,本發明的比較表格自動產生裝置以及比較表格自動產生方法可以依據基礎文章的內容判斷欲進行比較的文章主題、比較議題以及與比較議題相關的內容,再自收集文章擷取相關的文章主題以及與比較議題相關的內容,產生基礎文章和收集文章的比較表格,快速建立不同主題間的比較資料。
1‧‧‧比較表格自動產生裝置
10‧‧‧處理單元
11‧‧‧使用者輸入
12‧‧‧儲存單元
120‧‧‧指令
13‧‧‧基礎文章
14‧‧‧使用者輸入輸出介面
15‧‧‧收集文章
16‧‧‧網路單元
17‧‧‧比較表格
200‧‧‧比較表格自動產生方法
201-206‧‧‧步驟
300、302、304‧‧‧段落
400、402‧‧‧段落
第1圖為本發明一實施例中,一種比較表格自動產生裝置之方塊圖;第2圖為本發明一實施例中,一種比較表格自動產生方法的流程圖;第3A圖為本發明一實施例中,基礎文章的示意圖;第3B圖為本發明一實施例中,基礎文章經由比較議題、標記主標籤以及標記擴增詞的設定後的示意圖;第4A圖為本發明一實施例中,收集文章的示意圖; 第4B圖為本發明一實施例中,收集文章經由比較議題、標記主標籤以及標記擴增詞的設定後的示意圖;以及第5圖為本發明一實施例中,比較表格的示意圖。
請參照第1圖。第1圖為本發明一實施例中,一種比較表格自動產生裝置1之方塊圖。比較表格自動產生裝置1包含:處理單元10、儲存單元12、使用者輸入輸出介面14以及網路單元16。於一實施例中,比較表格自動產生裝置1可為一個電腦主機或是伺服器,以由使用者透過操作介面或是遠端網路主機存取及操作。
處理單元10耦接儲存單元12、使用者輸入輸出介面14及網路單元16。處理單元10可為各種具有運算能力的處理器,並可透過不同的資料傳輸路徑與上述的單元進行資料傳輸。儲存單元12可包含一或多個不同形式的儲存元件,例如但不限於唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或其他類型之記憶體。
於一實施例中,使用者輸入輸出介面14包含輸出的元件,例如,但不限於顯示單元,以依據處理單元10的控制產生顯示畫面。並且,使用者輸入輸出介面14可包含輸入的元件,例如,但不限於滑鼠、鍵盤或其他可用以接收使用者輸入11的裝置或軟體,以在使用者的操作下傳送指令至處理單元10。
網路單元16可連接至網路(未繪示),例如但不限於區域網路或是網際網路。處理單元10可藉由網路單元16透過網路與其他的遠端主機進行通訊。
需注意的是,上述的元件僅為一示例性說明。於其他實施例中,比較表格自動產生裝置1亦可包含其他類型的元件。
儲存單元12儲存有多個電腦可執行的指令120。當指令120由處理單元10執行處理動作時,可作用為多個模組,以執行並提供比較表格自動產生裝置1的功能。於一實施例中,處理單元10可藉由自使用者輸入輸出介面14接收使用者輸入11來運行比較表格自動產生裝置1。以下將就處理單元10執行比較表格自動產生裝置1時的處理動作進行說明。
請同時參照第2圖。第2圖為本發明一實施例中,一種比較表格自動產生方法200的流程圖。比較表格自動產生方法200可應用於如第1圖所繪示的比較表格自動產生裝置1中,或經由其他硬體元件如資料庫、一般處理器、計算機、伺服器、或其他具特定邏輯電路的獨特硬體裝置或具特定功能的設備來實作,如將程式碼和處理器/晶片整合成獨特硬體。此方法可實作為一電腦程式產品,而使電腦程式產品執行比較表格自動產生方法。電腦程式產品可配置於唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存元件。
比較表格自動產生方法200包含下列步驟(應瞭解到,在本實施方式中所提及的步驟,除特別敘明其順序者外,均可依實際需要調整其前後順序,甚至可同時或部分同時執行)。
於步驟201,於介面單元接收複數個比較議題之設定、基礎文章13及其基礎文章主題和複數個標記段落。於一實施例中,介面單元可包括上述的使用者輸入輸出介面14、網路單元16或其組合。基礎文章例如可以是一篇網路文章的部分或全部、網路新聞的部分或全部、資料庫中一文件的部分或全部、社群網站中的塗鴉牆文字等等。
請參照第3A圖。第3A圖為本發明一實施例中,基礎文章13的示意圖。
於一實施例中,基礎文章13是由使用者操作使用者輸入輸出介面14後,由網路單元16自網路中的資訊源或資料庫擷取。於本實施例中,基礎文章13的內容為和一種第三方支付名牌「歐付寶」相關,並包含此第三方支付名牌的名稱、此第三方支付名牌的收款方式、加入會員的方式及型態等。需注意的是,上述的基礎文章13的內容僅為一範例。於其他實施例中,基礎文章13可包含其他的內容。
於一實施例中,藉由使用者輸入輸出介面14,可設定基礎文章13的基礎文章主題為「歐付寶」,並設定多個比較議題為例如,但不限於第三方支付名牌、付款方式以及會員類型。
進一步地,每一標記段落是由基礎文章13中對文章段落進行選擇,且標記其對應之其中之一比較議題。舉例而言,第3A圖中的基礎文章13的段落300所敘述的內容為與歐付寶做為電子支付的相關內容,在選擇後可標記為「第三方支付名牌」。基礎文章13的段落302所敘述的內容為與歐付寶款項收付相關的內容,在選擇後可標記為「收款方式」。基礎文章13的段落304所敘述的內容為與歐付寶加入會員的方式相關的內容,在選擇後可標記為「會員類型」。
於步驟202,處理單元10分別針對每一各標記段落300-304分別計算其所包含的各基礎文章字詞間的相關聯性,以分別產生對應各標記段落的標記主標籤以及標記擴增詞。
於一實施例中,處理單元10對各基礎文章字詞計算正規化Google距離(normalized Google distance;NGD),以計算各基礎文章字詞間的相關聯性。
以段落302為例,處理單元10可藉由斷詞技術,從文字擷取出「另外」、「也」、「提供」、「超商繳款」、「信用卡」、「ATM」、「金流服務」等基礎文章字詞。
處理單元10將透過網路單元16,將這些基礎文章字詞分別兩兩進行Google搜尋,以藉由正規化Google距離的計算得到基礎文章字詞間的相關聯性。
舉例而言,「金流服務」及「另外」的正規化Google距離為0.45、「金流服務」及「也」的正規化Google 距離為0.35、「金流服務」及「提供」的正規化Google距離為0.6、「金流服務」及「超商繳款」的正規化Google距離為0.91、「金流服務」及「信用卡」的正規化Google距離為0.98與「金流服務」及「ATM」的正規化Google距離為0.97。上述各組基礎文章字詞的正規化Google距離,即可做為相關聯性高低的判斷依據。
因此,段落302中較為重要的基礎文章字詞,可由相關聯性大於關聯門檻值的基礎文章字詞擷取出。舉例而言,當關聯門檻值設定為0.7時,「金流服務」及「另外」、「金流服務」及「也」和「金流服務」及「提供」的基礎文章字詞將被排除。而「金流服務」及「超商繳款」、「金流服務」及「信用卡」與「金流服務」及「ATM」將會被擷取。
對於這些相關聯性大於關聯門檻值的基礎文章字詞,處理單元10進一步透過k-core演算法或pagerank演算法擷取標記主標籤。k-core演算法或pagerank演算法可找尋出上述重要的基礎文章字詞中,與所有其他基礎文章字詞的相關聯性最高者。
舉例而言,「超商繳款」、「信用卡」、「ATM」與「金流服務」間都具有高度相關聯性。然而,「金流服務」的與各個基礎文章字詞間的總相關聯性是最高的。因此,「金流服務」將被處理單元10判斷為段落302的標記主標籤。而「超商繳款」、「信用卡」、「ATM」則將被判斷為標記擴增詞。
需注意的是,上述判斷相關聯性的技術僅為一範例。於其他實施例中,亦可能採用其他計算相關聯性的技術,而不為上述實施例所限。
於一實施例中,處理單元10可透過網路單元10在搜尋引擎中,根據上述的標記擴增詞進行搜尋,以將搜尋結果頁中包含的結果字詞中,重要性大於重要性門檻值的結果字詞歸納為標記擴增詞。
更詳細地說,處理單元10在根據標記擴增詞進行搜尋後,可在例如,但不限於前20個搜尋結果頁中的文字進行斷詞,以計算重要性。於一實施例中,重要性可藉由計算各個斷詞的字詞數目和在所有斷詞的字詞數目的比例判斷斷詞的字詞的出現頻率,來決定重要性。當出現頻率大於預設的重要性門檻值時,即將對應的斷詞字詞加入標記擴增詞中。
請參照第3B圖。第3B圖為本發明一實施例中,基礎文章13經由比較議題、標記主標籤以及標記擴增詞的設定後的示意圖。
藉由上述的設定,基礎文章13的標記段落可簡化為第3B圖所示的表格。其中,段落300對應於「第三方支付名牌」的比較議題,包含「歐付寶」的標記主標籤,並具有「電子支付」、「第三方支付」、「線上和線下儲值」、「P2P轉帳」等標記擴增詞。段落302對應於「收款方式」的比較議題,包含「金流服務」的標記主標籤,並具有「超商繳款」、「信用卡」、「ATM」等標記擴增詞。段落304 對應於「會員類型」的比較議題,包含「會員申請」的標記主標籤,並具有「月繳399元」、「免費」、「註冊會員」等標記擴增詞。
於步驟203,處理單元10依據標記主標籤和標記擴增詞,從資訊源中擷取在一特定時間區間的收集文章15和對應之收集文章主題。
於一實施例中,資訊源可為比較表格自動產生裝置1中的儲存單元12或是可透過網路單元16存取的網路伺服器、資料庫等。根據第3B圖中的標記主標籤和標記擴增詞,處理單元10可擷取在特定時間區間的收集文章15和對應之收集文章主題。於一實施例中,收集文章主題亦可經由使用者輸入輸出介面14設定,例如但不限於「Yahoo奇摩」、「PCHome」等與第三方支付相關的主題。
時間區間可由使用者設定長短。舉例而言,處理單元10可擷取例如,但不限於在一周內、一個月內或是半年內的文章做為收集文章15。
於步驟204,處理單元10計算收集文章15的收集文章段落所包含的各收集文章字詞間的相關聯性,以產生對應各收集文章之各收集文章段落的收集文章段落主標籤以及收集文章段落擴增詞。
請參照第4A圖。第4A圖為本發明一實施例中,收集文章15的示意圖。
於本實施例中,收集文章15包含段落400以及402,且內容為和「Yahoo奇摩輕鬆付」、「PCHomePay 支付連」的第三方支付名牌相關,並包含此些第三方支付名牌的名稱、此第三方支付名牌的收款方式、加入會員的方式及型態等。需注意的是,上述的收集文章15的內容僅為一範例。於其他實施例中,收集文章15可包含其他的內容。
類似於處理單元10對於基礎文章13的處理,處理單元10可對每一收集文章15進行斷詞,並計算文章字詞間的相關聯性,以產生對應各收集文章之各收集文章段落的收集文章段落主標籤以及收集文章段落擴增詞。因此,詳細的產生過程不再贅述。
請參照第4B圖。第4B圖為本發明一實施例中,收集文章15經由收集文章段落主標籤以及收集文章段落擴增詞的擷取後的示意圖。
舉例而言,由第4B圖可知,段落400的收集文章段落主標籤為「付款」,對應的收集文章段落擴增詞則包含「電子商務平台帳號」以及「銀行帳戶」。段落402的收集文章段落主標籤為「Yahoo奇摩輕鬆付」,對應的收集文章段落擴增詞則包含「第三方金流」「Yahoo奇摩」與「一般會員及商務會員」。另一個收集文章段落主標籤為「PCHomePay支付連」,對應的收集文章段落擴增詞則包含「露天拍賣金流服務」、「PChome Online」與「一般會員及法人會員」。
於步驟205,處理單元10將各收集文章15之各收集文章段落的收集文章段落主標籤以及收集文章段落擴增詞,與各標記段落的標記主標籤以及標記擴增詞進行比對 以產生近似度,以根據近似度從各收集文章段落400、402中選擇對應每一比較議題的選擇段落。
於一實施例中,處理單元10根據第4B圖中的各個段落400、402的收集文章段落主標籤,與第3B圖中的各個段落300、302、304的標記主標籤,兩兩計算正規化Google距離,以及根據第4B圖中的各個段落400、402的收集文章段落擴增詞,與第3B圖中的各個段落300、302、304的標記擴增詞計算餘弦近似度(cosine similarity)。
其中,餘絃近似度是資訊檢索中常用的相似度計算方式,可用來計算文件之間的相似度,也可以計算詞彙之間的相似度。於一實施例中,處理單元10將收集文章段落擴增詞以及標記擴增詞表達為向量,以基礎文章13和收集文章15做為向量維度,並以收集文章段落擴增詞以及標記擴增詞在基礎文章13和收集文章15的權重做為維度值計算餘弦近似度。
接著,處理單元10根據正規化Google距離以及餘弦近似度產生段落400、402以及段落300、302、304間的近似度。於一實施例中,處理單元10是根據預設的第一權重值以及第二權重值,分別對正規化Google距離以及餘弦近似度進行權重總和的計算,以產生近似度。舉例而言,當收集文章段落主標籤和標記主標籤的正規化Google距離表示為Simmt、收集文章段落擴增詞和標記擴增詞的餘弦近似度表示為Simew,且第一權重值以及第二權重值分別為α及β時,近似度可表示為Sim=α×Simmt+β×Simew
接著,處理單元10在近似度大於預設的近似門檻值時,判斷收集文章段落的比較議題與基礎文章段落的比較議題相同。因此,藉由近似度的計算,處理單元10可判斷基礎文章13和收集文章15間,對應同一比較議題的段落。
舉例而言,基礎文章13的段落302和收集文章15的段落402都與金流和付款方式高度相關,處理單元10可在進行近似度的計算後,判斷段落302和402均對應「收款方式」的比較議題。因此,處理單元10將段落402選擇為對應「收款方式」的比較議題的選擇段落。
於步驟206,處理單元10建立比較表格17。
請參照第5圖。第5圖為本發明一實施例中,比較表格17的示意圖。
處理單元10使比較表格17分別以每一比較議題作為每一列的項目名稱。如第5圖所示,比較表格17的各列項目名稱分別為「第三方支付名牌」、「收款方式」以及「會員類型」。接著,處理單元10將基礎文章主題作為第一行的項目名稱。因此,如第5圖所示,比較表格17的第一行是以「歐付寶」做為項目名稱。
進一步地,處理單元10依據基礎文章13中對應每一比較議題的標記段落填入第一行中對應每一比較議題之列的欄位中。需注意的是,在不同實施例中,處理單元10可選擇性地將標記段落中的所有段落文字、段落中的部分句子或是段落中部分關鍵的字詞(例如標記擴增詞)填入欄位中。因此,如第5圖所示,對應於第一列的比較議題「第 三方支付名牌」,處理單元10將在第一行的欄位填入「歐付寶」。對應於第二列的比較議題「收款方式」,處理單元10將在第一行的欄位填入「超商繳款、信用卡、ATM」。對應於第三列的比較議題「會員類型」,處理單元10將在第一行的欄位填入「免費、註冊會員」。
處理單元10將收集文章主題做為第二行的項目名稱。因此,如第5圖所示,比較表格17的第二行是以「PChome」做為項目名稱。
進一步地,處理單元10依據收集文章中對應每一比較議題的選擇段落填入第二行中對應每一比較議題之列的欄位中。
如第5圖所示,對應於第一列的比較議題「第三方支付名牌」,處理單元10將在第二行的欄位填入「PChomePay支付連」。對應於第二列的比較議題「收款方式」,處理單元10將在第二行的欄位填入「全家OK萊爾富取貨付款、郵局快捷貨到付款」。對應於第三列的比較議題「會員類型」,處理單元10將在第二行的欄位填入「一般、法人會員」。
由於收集文章中尚包含另一收集文章主題「Yahoo奇摩」。因此,如第5圖所示,比較表格17的第三行是以「Yahoo奇摩」做為項目名稱。
進一步地,處理單元10依據收集文章中對應每一比較議題的選擇段落填入第三行中對應每一比較議題之列的欄位中。
如第5圖所示,對應於第一列的比較議題「第三方支付名牌」,處理單元10將在第三行的欄位填入「Yahoo奇摩輕鬆付」。對應於第二列的比較議題「收款方式」,處理單元10將在第三行的欄位填入「WebATM轉帳、ATM轉帳、信用卡」。對應於第三列的比較議題「會員類型」,處理單元10將在第三行的欄位填入「一般、商務會員」。
需注意的是,上述的實施例僅以一篇收集文章15做為範例進行說明。在其他實施例中,處理單元10可收集多篇收集文章並進行類似的處理,並依序將多個收集文章填入各行的文章主題後,對應各個比較議題填入文章的段落或是字詞。並且,上述的實施例是以第三方支付相關的主題做為範例進行說明。在其他實施例中,亦可根據不同的文章主題及比較議題產生比較表格。
需注意的是,上述的步驟中,部分可視實作的需求而調整順序或增減,不為上述的順序及內容所限。
因此,本發明的比較表格自動產生裝置以及比較表格自動產生方法可以依據基礎文章的內容判斷欲進行比較的文章主題、比較議題以及與比較議題相關的內容,再自收集文章擷取相關的文章主題以及與比較議題相關的內容,產生基礎文章和收集文章的比較表格,快速建立不同主題間的比較資料。
雖然本案內容已以實施方式揭露如上,然其並非配置以限定本案內容,任何熟習此技藝者,在不脫離本案 內容之精神和範圍內,當可作各種之更動與潤飾,因此本案內容之保護範圍當視後附之申請專利範圍所界定者為準。

Claims (17)

  1. 一種比較表格自動產生方法,藉由一伺服器實施,且該比較表格自動產生方法包含以下步驟:於一介面單元接收複數個比較議題之設定、一基礎文章及其基礎文章主題和複數個標記段落,其中該每一該等標記段落係由該基礎文章中選擇一文章段落且標記其對應之其中之一該等比較議題;令該伺服器計算各該等標記段落所包含的各複數個基礎文章字詞間的相關聯性,以令該伺服器產生對應各該等標記段落的至少一標記主標籤以及複數個標記擴增詞;令該伺服器依據該等標記主標籤和該等標記擴增詞,從一資訊源中擷取一收集文章和對應之一收集文章主題;令該伺服器計算該收集文章之複數收集文章段落所包含的各複數個收集文章字詞間的相關聯性,以令該伺服器產生對應各該等收集文章之各該等收集文章段落的至少一收集文章段落主標籤以及複數個收集文章段落擴增詞;令該伺服器將各該等收集文章之各該等收集文章段落的該收集文章段落主標籤以及該等收集文章段落擴增詞,與各該等標記段落的該標記主標籤以及該等標記擴增詞進行比對以產生一近似度,以令該伺服器根據該近似度從各該等收集文章段落中選擇對應每一該等比較議題的一選擇段落;以及 令該伺服器建立一比較表格,其中該比較表格係分別以每一該等比較議題作為每一列的項目名稱,將該基礎文章主題作為其中一行的項目名稱,並令該伺服器依據該基礎文章中對應每一該等比較議題的該等標記段落填入該行中對應每一該等比較議題之列的欄位中,以及令該伺服器將該收集文章主題做為另一行的項目名稱,並令該伺服器依據該收集文章中對應每一該等比較議題的該選擇段落填入該行中對應每一比較議題之列的欄位中。
  2. 如請求項1所述之比較表格自動產生方法,更包含:令該伺服器對各該等基礎文章字詞計算一正規化Google距離(normalized Google distance;NGD),以計算各該等基礎文章字詞間的相關聯性。
  3. 如請求項1所述之比較表格自動產生方法,更包含:在一搜尋引擎中,令該伺服器對各該等標記擴增詞進行搜尋,以令該伺服器將一搜尋結果頁中包含的複數個結果字詞中,重要性大於一重要性門檻值的該等結果字詞歸納為該等標記擴增詞。
  4. 如請求項1所述之比較表格自動產生方法,其中該標記主標籤以及該等標記擴增詞是由相關聯性大於一關聯門檻值的該等基礎文章字詞擷取出。
  5. 如請求項4所述之比較表格自動產生方法,更包含:對相關聯性大於該關聯門檻值的該等基礎文章字詞,令該伺服器透過一k-core演算法或一pagerank演算法擷取該標記主標籤。
  6. 如請求項1所述之比較表格自動產生方法,更包含:令該伺服器根據該收集文章段落主標籤與該標記主標籤計算一正規化Google距離,以及令該伺服器根據該等收集文章段落擴增詞與該等標記擴增詞計算一餘弦近似度;令該伺服器根據該正規化Google距離以及該餘弦近似度產生該近似度;以及當一近似度大於一近似門檻值時,令該伺服器判斷該收集文章段落的該比較議題與該基礎文章段落的該比較議題相同。
  7. 如請求項1所述之比較表格自動產生方法,更包含: 令該伺服器根據一第一權重值以及一第二權重值,對該正規化Google距離以及該餘弦近似度進行一權重總和的計算,以產生該近似度。
  8. 如請求項1所述之比較表格自動產生方法,更包含:令該伺服器從該資訊源中擷取多個該收集文章並產生對應各個該收集文章中對應每一該等比較議題的該選擇段落;以及令該伺服器將多個該收集文章的該收集文章主題做為該比較表格的複數行的項目名稱,並令該伺服器依據各個該收集文章中對應每一該等比較議題的該選擇段落填入該複數行中對應每一比較議題之列的欄位中。
  9. 一種比較表格自動產生裝置,包含:一儲存單元,配置以儲存一應用程式;以及一處理單元,電性耦接於該輸入單元以及該儲存單元,該處理單元配置以執行該應用程式,依據一基礎文章及一時間區間的複數收集文章以自動產生一比較表格;其中該處理單元提供一介面以設定複數個比較議題、該基礎文章及其基礎文章主題和複數個標記段落,其中該每一該等標記段落係由該基礎文章中選擇一文章段落且標記其對應之其中之一該等比較議題;計算各該等標記段落所包含的各複數個基礎文章字詞間的相關聯性,以產 生對應各該等標記段落的至少一標記主標籤以及複數個標記擴增詞;依據該等標記主標籤和該等標記擴增詞,從一資訊源中擷取該收集文章和對應之一收集文章主題;計算該收集文章之複數收集文章段落所包含的各複數個收集文章字詞間的相關聯性,以產生對應各該等收集文章之各該等收集文章段落的至少一收集文章段落主標籤以及複數個收集文章段落擴增詞;將各該等收集文章之各該等收集文章段落的該收集文章段落主標籤以及該等收集文章段落擴增詞,與各該等標記段落的該標記主標籤以及該等標記擴增詞進行比對產生一近似度,以根據該近似度從各該等收集文章段落中選擇對應每一該等比較議題的一選擇段落;以及建立一比較表格,其中該比較表格係分別以每一該等比較議題作為每一列的項目名稱,將該基礎文章主題作為其中一行的項目名稱,並依據該基礎文章中對應每一該等比較議題的該等標記段落填入該行中對應每一該等比較議題之列的欄位中,以及將該收集文章主題做為另一行的項目名稱,並依據該收集文章中對應每一該等比較議題的該選擇段落填入該行中對應每一比較議題之列的欄位中。
  10. 如請求項9所述之比較表格自動產生裝置,其中該處理單元更對各該等基礎文章字詞計算一正規化Google距離,以計算各該等基礎文章字詞間的相關聯性。
  11. 如請求項9所述之比較表格自動產生裝置,其中該處理單元更鏈結至一搜尋引擎,對各該等標記擴增詞進行搜尋,以將一搜尋結果頁中包含的複數個結果字詞中,重要性大於一重要性門檻值的該等結果字詞歸納為該等標記擴增詞。
  12. 如請求項9所述之比較表格自動產生裝置,其中該標記主標籤以及該等標記擴增詞是由相關聯性大於一關聯門檻值的該等基礎文章字詞擷取出。
  13. 如請求項12所述之比較表格自動產生裝置,其中該處理單元更對相關聯性大於該關聯門檻值的該等基礎文章字詞,透過一k-core演算法或一pagerank演算法擷取該標記主標籤。
  14. 如請求項9所述之比較表格自動產生裝置,其中該處理單元更根據該收集文章段落主標籤與該標記主標籤計算一正規化Google距離,以及根據該等收集文章段落擴增詞與該等標記擴增詞計算一餘弦近似度;根據該正規化Google距離以及該餘弦近似度產生該近似度;以及當一近似度大於一近似門檻值時,判斷該收集文章段落的該比較議題與該基礎文章段落的該比較議題相同。
  15. 如請求項9所述之比較表格自動產生裝置,其中該處理單元更根據一第一權重值以及一第二權重值,對該正規化Google距離以及該餘弦近似度進行一權重總和的計算,以產生該近似度。
  16. 如請求項9所述之比較表格自動產生裝置,其中該處理單元更從該資訊源中擷取多個該收集文章並產生對應各個該收集文章中對應每一該等比較議題的該選擇段落;以及將多個該收集文章的該收集文章主題做為該比較表格的複數行的項目名稱,並依據各個該收集文章中對應每一該等比較議題的該選擇段落填入該複數行中對應每一比較議題之列的欄位中。
  17. 一種電腦程式產品,用以執行一種比較表格自動產生方法,該比較表格自動產生方法藉由一伺服器實施,並包含以下步驟:於一介面單元接收複數個比較議題之設定、一基礎文章及其基礎文章主題和複數個標記段落,其中該每一標記段落係由該基礎文章中選擇一文章段落且標記其對應之其中之一該等比較議題;令該伺服器計算各該等標記段落所包含的各複數個基礎文章字詞間的相關聯性,以令該伺服器產生對應各該等標記段落的至少一標記主標籤以及複數個標記擴增詞; 令該伺服器依據該等標記主標籤和該等標記擴增詞,從一資訊源中擷取一收集文章和對應之一收集文章主題;令該伺服器計算該收集文章之複數收集文章段落所包含的各複數個收集文章字詞間的相關聯性,以令該伺服器產生對應各該等收集文章之各該等收集文章段落的至少一收集文章段落主標籤以及複數個收集文章段落擴增詞;令該伺服器將各該等收集文章之各該等收集文章段落的該收集文章段落主標籤以及該等收集文章段落擴增詞,與各該等標記段落的該標記主標籤以及該等標記擴增詞進行比對以產生一近似度,以令該伺服器根據該近似度從各該等收集文章段落中選擇對應每一該等比較議題的一選擇段落;以及令該伺服器建立一比較表格,其中該比較表格係分別以每一該等比較議題作為每一列的項目名稱,將該基礎文章主題作為其中一行的項目名稱,並令該伺服器依據該基礎文章中對應每一該等比較議題的該等標記段落填入該行中對應每一該等比較議題之列的欄位中,以及令該伺服器將該收集文章主題做為另一行的項目名稱,並令該伺服器依據該收集文章中對應每一該等比較議題的該選擇段落填入該行中對應每一比較議題之列的欄位中。
TW105139987A 2016-12-02 2016-12-02 比較表格自動產生方法、裝置及其電腦程式產品 TWI621952B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW105139987A TWI621952B (zh) 2016-12-02 2016-12-02 比較表格自動產生方法、裝置及其電腦程式產品
CN201710066132.8A CN108153715B (zh) 2016-12-02 2017-02-06 比较表格自动产生方法及装置
US15/604,677 US20180157744A1 (en) 2016-12-02 2017-05-25 Comparison table automatic generation method, device and computer program product of the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105139987A TWI621952B (zh) 2016-12-02 2016-12-02 比較表格自動產生方法、裝置及其電腦程式產品

Publications (2)

Publication Number Publication Date
TWI621952B TWI621952B (zh) 2018-04-21
TW201822025A true TW201822025A (zh) 2018-06-16

Family

ID=62243214

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105139987A TWI621952B (zh) 2016-12-02 2016-12-02 比較表格自動產生方法、裝置及其電腦程式產品

Country Status (3)

Country Link
US (1) US20180157744A1 (zh)
CN (1) CN108153715B (zh)
TW (1) TWI621952B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6663826B2 (ja) * 2016-09-08 2020-03-13 株式会社日立製作所 計算機及び応答の生成方法
US11586939B2 (en) * 2019-02-28 2023-02-21 Entigenlogic Llc Generating comparison information

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907836A (en) * 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
AU2002350131A1 (en) * 2001-11-09 2003-05-26 Gene Logic Inc. System and method for storage and analysis of gene expression data
JP3943582B2 (ja) * 2003-05-30 2007-07-11 富士通株式会社 対訳文対応付け装置
US7734627B1 (en) * 2003-06-17 2010-06-08 Google Inc. Document similarity detection
US8028229B2 (en) * 2007-12-06 2011-09-27 Microsoft Corporation Document merge
JP2009169536A (ja) * 2008-01-11 2009-07-30 Ricoh Co Ltd 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム
US9384175B2 (en) * 2008-02-19 2016-07-05 Adobe Systems Incorporated Determination of differences between electronic documents
US8196030B1 (en) * 2008-06-02 2012-06-05 Pricewaterhousecoopers Llp System and method for comparing and reviewing documents
US8447789B2 (en) * 2009-09-15 2013-05-21 Ilya Geller Systems and methods for creating structured data
US8868621B2 (en) * 2010-10-21 2014-10-21 Rillip, Inc. Data extraction from HTML documents into tables for user comparison
CN101980196A (zh) * 2010-10-25 2011-02-23 中国农业大学 文章比对方法与装置
US20120185259A1 (en) * 2011-01-19 2012-07-19 International Business Machines Corporation Topic-based calendar availability
CN102663001A (zh) * 2012-03-15 2012-09-12 华南理工大学 基于支持向量机的博客作者兴趣与性格自动识别方法
TWI484359B (zh) * 2012-10-26 2015-05-11 Inst Information Industry 文章資訊提供方法以及系統
EP2984577A4 (en) * 2013-04-11 2016-08-24 Brandshield Ltd DEVICE, SYSTEM AND METHOD FOR THE PROTECTION OF BRAND NAMES AND DOMAIN NAMES
US9633062B1 (en) * 2013-04-29 2017-04-25 Amazon Technologies, Inc. Document fingerprints and templates
EP2824586A1 (en) * 2013-07-09 2015-01-14 Universiteit Twente Method and computer server system for receiving and presenting information to a user in a computer network
CN104462083B (zh) * 2013-09-13 2018-11-02 佳能株式会社 用于内容比较的方法、装置和信息处理系统
CN105095229A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 训练主题模型的方法,对比文档内容的方法和相应的装置
US9378204B2 (en) * 2014-05-22 2016-06-28 International Business Machines Corporation Context based synonym filtering for natural language processing systems
CN105335416B (zh) * 2014-08-05 2018-11-02 佳能株式会社 内容提取方法、内容提取装置和用于内容提取的系统
TWI526856B (zh) * 2014-10-22 2016-03-21 財團法人資訊工業策進會 服務需求分析系統、方法與電腦可讀取記錄媒體
JP6875993B2 (ja) * 2015-02-25 2021-05-26 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 臨床の所見のコンテキストによる評価のための方法及びシステム
ZA201504892B (en) * 2015-04-10 2016-07-27 Musigma Business Solutions Pvt Ltd Text mining system and tool
US10268747B2 (en) * 2015-06-07 2019-04-23 Apple Inc. Reader application with a personalized feed and method of providing recommendations while maintaining user privacy
US11341182B2 (en) * 2015-09-17 2022-05-24 Artashes Valeryevich Ikonomov Electronic article selection device
TWI649663B (zh) * 2015-11-09 2019-02-01 財團法人資訊工業策進會 議題顯示系統、議題顯示方法以及電腦可讀取記錄媒體
US20170193074A1 (en) * 2015-12-30 2017-07-06 Yahoo! Inc. Finding Related Articles for a Content Stream Using Iterative Merge-Split Clusters
CN106021226A (zh) * 2016-05-16 2016-10-12 中国建设银行股份有限公司 一种文本摘要生成方法及装置
US11210324B2 (en) * 2016-06-03 2021-12-28 Microsoft Technology Licensing, Llc Relation extraction across sentence boundaries
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
US11941344B2 (en) * 2016-09-29 2024-03-26 Dropbox, Inc. Document differences analysis and presentation

Also Published As

Publication number Publication date
CN108153715A (zh) 2018-06-12
CN108153715B (zh) 2021-07-06
TWI621952B (zh) 2018-04-21
US20180157744A1 (en) 2018-06-07

Similar Documents

Publication Publication Date Title
US11372894B2 (en) Associating product with document using document linkage data
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
TWI522942B (zh) 用戶收藏夾資料的處理方法與裝置、用戶收藏夾資料的搜尋方法與裝置、及用戶收藏夾系統
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN103631929B (zh) 一种用于搜索的智能提示的方法、模块和系统
JP6022056B2 (ja) 検索結果の生成
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
US20130060769A1 (en) System and method for identifying social media interactions
KR101936362B1 (ko) 광고 캠페인 생성
WO2018040343A1 (zh) 用于识别文本类型的方法、装置和设备
JP2008542951A (ja) 関連性ネットワーク
US20130339369A1 (en) Search Method and Apparatus
CN113342976B (zh) 一种自动采集处理数据的方法、装置、存储介质及设备
WO2017088496A1 (zh) 一种搜索推荐方法、装置、设备及计算机存储介质
CN114254201A (zh) 一种科技项目评审专家的推荐方法
JP2018537768A (ja) ソーシャルビジネス特性を持つユーザの識別
CN110766486A (zh) 确定物品类目的方法和装置
CN105468649A (zh) 一种待展示对象匹配的判断方法及其装置
CN112347147A (zh) 基于用户关联关系的信息推送方法、装置及电子设备
TWI621952B (zh) 比較表格自動產生方法、裝置及其電腦程式產品
CN108255963A (zh) 一种基于互联网的新闻信息检索的控制方法及装置
KR20190109628A (ko) 개인화된 기사 컨텐츠 제공 방법 및 장치
CN110941952A (zh) 一种完善审计分析模型的方法及装置
CN112131491B (zh) 分层排序方法、计算设备和计算机可读存储介质
CN116739626A (zh) 商品数据挖掘处理方法、装置、电子设备及可读介质