TW201333722A - 大量多元資料篩選管理的機制與方法 - Google Patents

大量多元資料篩選管理的機制與方法 Download PDF

Info

Publication number
TW201333722A
TW201333722A TW101103471A TW101103471A TW201333722A TW 201333722 A TW201333722 A TW 201333722A TW 101103471 A TW101103471 A TW 101103471A TW 101103471 A TW101103471 A TW 101103471A TW 201333722 A TW201333722 A TW 201333722A
Authority
TW
Taiwan
Prior art keywords
data
database
interest
point
module
Prior art date
Application number
TW101103471A
Other languages
English (en)
Other versions
TWI453608B (zh
Inventor
Hui-Hong Jian
Jian-Qin Weng
ji-shun Lin
Xiang-Mei Wang
jin-liang Zhou
Original Assignee
Chunghwa Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chunghwa Telecom Co Ltd filed Critical Chunghwa Telecom Co Ltd
Priority to TW101103471A priority Critical patent/TWI453608B/zh
Publication of TW201333722A publication Critical patent/TW201333722A/zh
Application granted granted Critical
Publication of TWI453608B publication Critical patent/TWI453608B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種大量多元資料篩選管理的機制與方法,其可以減少資料比對人力成本,以及提升資料正確性,藉以得到普羅大眾有興趣的工商資料,並且提供給需要的客戶。本發明整體流程包括:興趣點(Point of Interest,POI)搜尋引擎模組、大量資料分類模組、大量資料比對模組、唯一標籤(Unique Identification)定義模組、大量資料管理模組、企業應用系統整合資料比對模組、大量資料抽取模組及計費模組。

Description

大量多元資料篩選管理的機制與方法
本發明係關於一種大量多元資料篩選管理的機制與方法服務系統,特別是指利用可同時爬取多個資料來源的功能,並結合興趣點搜尋引擎、大量資料分類、大量資料管理、大量資料比對等多項軟體技術,及搭配大量資料抽取模組來查詢資料庫,可以滿足客戶所提出的大量店家資料或地理景點查詢需求,並自動回報查詢結果給客戶(E-mail或簡訊),是一種可以減輕大量人力的查詢服務系統,並加以提高資料正確性。
在本發明推出之前,查詢網路熱門店家資料或地理景點仍須要使用人工搜尋熱門網站,提供客戶所需要的店家資料或地理景點,搜尋速度相當緩慢,等查到店家資料之後再另外確認店家地址和電話是否正確(或者是有在繼續營業中),並且尚未採用店家資料比對檢索技術,正確率的提升相當困難,遇到錯誤的資料只能依賴人工來做錯誤分析,進而去改進資料正確率無法提升的缺點,且查詢程式結束之後,並無法立刻將查詢結果寄送給客戶,仍須依賴人力將資料整理完之後再轉寄。
由此可見,上述使用方式仍有諸多可以改善之地方,實非良善之設計,而亟待加以改良。
經搜尋台灣公開專利,與本發明較相似的專利案有二件:分別為”本地搜尋服務使用與提供方法及其程式產品、目錄服務平台與架構”及”資料獲取裝置、資料獲取系統和獲取資料方法”專利案。”本地搜尋服務使用與提供方法及其程式產品、目錄服務平台與架構”專利案主要是一種本地搜尋服務的提供方法,係由一目錄服務平台來執行,目錄服務平台儲存多數個本地搜尋引擎的資料,而於自一終端設備收到一清單下載要求時,選擇該等本地搜尋引擎資料中的至少一筆來形成一服務清單以回傳至該終端設備,該服務清單含有分別與各選定本地搜尋引擎對應的本地搜尋引擎選項,以於各該本地搜尋引擎選項被選擇時可連線至對應的本地搜尋引擎,以達到自動提供本地搜尋引擎資料之功效。本篇所提專利則非著重於搜尋本地服務資料,而是可選擇輸入『關鍵字』,搜尋各大網站所刊登資訊,且本發明所提出的搜尋方法可一次性讀入大量網頁所刊登資訊,並設定比對原有資料庫,準確找出資料庫未包含資料,若有異動資料可進入人工審核,因此”本地搜尋服務使用與提供方法及其程式產品、目錄服務平台與架構”跟本發明所提出的發明概念有極大的不同。
而”資料獲取裝置、資料獲取系統和獲取資料方法”專利案之內容,主要是透過該通信單元配合GPS獲取資料。而本發明只要透過興趣點(Point of Interest,POI)搜尋引擎模組獲取資料,且透過該位置計算其經緯度資料,不需額外硬體設施;且”資料獲取裝置、資料獲取系統和獲取資料方法”此專利,從該案之圖二十觀察整個流程,其中關於店家營業時間的正確率,是從使用者在興趣點停留一段充足之時間長度,來判斷時間資料是否正確,其缺點為使用者會到了目的地才發覺店家無營業,但本案發明概念可透過事先資料庫儲存之資料,和網路上獲取資料一一比對,若有差異性會進入人工審核階段,藉此提高其正確率。
本發明除了採用大量資料比對模組和企業應用系統整合(Enterprise Application Integration,EAI)資料比對模組來提升正確率之外,並結合爬取網頁的興趣點搜尋引擎模組,以及自行研發的大量資料分類模組和大量資料管理模組,可以做到爬取網頁資料後,開始一連串的大量多元資料篩選管理流程;首先輸入多個欲爬取網站的全球資源定址器(Uniform Resource Locator)來查詢資料、大量資料分類和管理、資料比對、快速人工審核、資料回傳和歸納、客戶提出申請、大量資料抽取、計費、及傳送查詢資料結果給客戶。
本案發明人鑑於上述方式所衍生的各項缺點,乃亟思加以改良創新,並經多年苦心孤詣潛心研究後,決定採用目前先進的軟體技術,來研發電信業務用的興趣點多元資料搜尋比對系統,終於成功研發完成本案”大量多元資料篩選管理的機制與方法”。
本發明之目的即在於提供一種大量多元資料篩選管理的機制與方法,係建立一個可以解決『大量多元資料來源卻造成多個資料重複』的系統,即可以自動化作業的電信業務興趣點服務系統,而且自動分類和管理資料、分析客戶所傳來的查詢申請單,並且可以在短時間內查詢大量網路上熱門店家和地理資訊資料,並利用大量資料抽取模組的功能,依據客戶所提出的需求去擷取資料庫店家資料,可在短時間之內得到精確的結果。
本發明的次一目的係在於結合大量資料比對模組和企業應用系統整合資料比對模組,並提出大量資料來源人工審核介面和大量資料抽取人工審核介面,比較與其原有資料庫中店家資料差異性;待人工將審核結果儲存進資料庫之後,會自動更新資料庫中舊有的店家資料和地理資訊,便以提高資料正確性。
達成上述發明目的之大量多元資料篩選管理的機制與方法,係利用可同時爬取多個資料來源的能力,並結合網頁搜尋引擎、大量資料分類、大量資料比對等多項軟體技術,及搭配大量資料抽取模組來查詢資料庫,以滿足客戶所提出的大量店家資料或地理景點查詢需求,並自動回報查詢結果給客戶(E-mail或簡訊),是一種可以減輕大量人力的查詢服務系統,並加以提高資料正確性。其中包括:
a. 興趣點搜尋引擎模組,主要功能係執行定時排程作業,利用興趣點搜尋引擎系統去抓取店家資料,歸類至索引興趣點網頁資料庫(Index POI WEB DB)或索引興趣點資料庫(Index POI DB),並把索引興趣點網頁資料庫做為待審核店家資料,而索引興趣點資料庫做為待分類店家資料;
b. 大量資料分類模組,主要功能為接受興趣點搜尋引擎模組傳遞過來的指令,根據抓取到的店家資料內容或地理資訊,若有新資料傳入的話,將主動分類屬於店家基本資料(店家名稱、店家電話、店家地址)或者是店家加值資料(營業時間、產品價格、交通方式、店家簡介、房間數量等加值資料),對資料作整合性規劃,並具有把審核過和已分類的店家資料,回傳至興趣點主機資料庫之能力,並通知大量資料比對模組有新的資料進來,可以啟動此模組來處理資料;
c. 大量資料比對模組,主要功能為接受大量資料分類模組傳遞過來的指令,將執行網路上爬取到店家資料存進索引興趣點網頁資料庫和索引興趣點資料庫進行比對作業,進而尋找到興趣點資料庫未含有的店家資料或差異性的店家資料,並且將尋找到的店家資料逕行發送給大量資料來源人工審核介面做審核動作;
d. 唯一標籤(Unique Identification)定義模組,主要功能為接受大量資料來源主機資料庫所傳遞過來的資料,並且將整理過的資料寫入至資料庫,指定的某特定標籤欄位為唯一標籤,格式為類似於ASCII編碼方式,將此新特定標籤欄位移放到興趣點主機資料庫管理,並通知大量資料管理模組;
e. 大量資料管理模組,主要功能為接受唯一標籤定義模組傳遞過來的指令,係到指定的資料庫下讀取資料並分類,以及規劃定時排程將店家資料或地理資訊傳送至興趣點搜尋引擎資料庫,且為系統可接受的標準格式;
f. 企業應用系統整合資料比對模組,主要功能係執行資料比對產生作業,會接受大量管理模組傳遞的指令產生相對應的資料,其資料來源是興趣點搜尋引擎的資料庫和興趣點主機資料庫,並且會將產生完的資料逕行發送給大量資料抽取人工審核介面做審核動作,並且通知大量資料管理模組資料處理作業已經完成,此企業應用系統整合資料比對模組是本專利的核心功能;
g. 大量資料抽取模組,係將標準化過的店家資料從興趣點主機資料庫讀取,並通知計費模組,以及發簡訊通知客戶已經開始在處理此份申請案件;
h. 計費模組,係執行費用計算以及告知客戶,並且將計算完的結果逕行發送給客戶以及相關處理人員。
本發明可以同時處理多方資料來源、分析網頁所傳來的各種不同格式的店家資料或地理資訊,可以在短時間內查詢大量的資料,利用我們自行研發的企業應用系統整合資料比對模組,自行跟大量資料來源主機資料庫中的原有店家資料比對,可得到更精確的結果。並且結合收費模組,告知客戶送來的案件已經在處理中,以及本次查詢將會收取之費用,等查詢結果輸出標準格式之後,例如:(xml、pdf),會自動按照客戶所留下的EMAIL位址,自動回寄給客戶。主要功能係以物件導向(Object Oriented)觀念為設計架構,使用中文搜尋引擎FAST ESP來搜尋各個網站之網頁上的內容,並利用Microsoft VB .Net語言作為程式設計工具,使用MS SQL Server 2008作為資料庫,搭配MS SQL Server Integration Services的轉換、封裝技術,以HTTP以及TCP/IP的方式作為系統與其他介接系統之通信媒介,綜合上述整體概念以開發本系統。
整體來說,本系統結合了電信業務查詢系統、興趣點搜尋引擎系統、大量資料分類及管理模組、大量資料比對模組、大量資料收取模組、收費模組以及電信業務加值服務的多項功能,使其成為單一系統,且其具備圖形化與自動化之功能,大幅提升了電信業務維運管理之便利性。
為了詳細說明本發明之結構以及特點所在,茲舉以下一較佳實例,並配合圖示說明如後:
請先參閱圖一及圖二,為本發明大量多元資料篩選管理的機制與方法所提供之操作人員輸入網頁種子的方式,此乃操作人員要加入大量爬取網頁種子服務時,必須先行在『種子收集』之關鍵字欄位輸入任一關鍵字,並按照規定功能儲存該網址,之後會持續收集該網址的大量店家資料內容。
店家基本資料必要欄位有:店家名稱、店家地址、店家聯絡電話;其他主要的加值資料欄位(非必要)有:營業時間、消費價位、捷運站(查詢店家附近之捷運站)、產品特色(為何會有人推廌)、交通資訊、房間數(查詢住宿之房間數量)、地區位置(查詢相對位置)、景點類型、服務項目、開車路線等加值資料,這一份店家基本資料和加值資料會由操作人員處理,處理完成之後會設定在興趣點搜尋引擎模組1中。
請參閱圖三,為本發明大量多元資料篩選管理的機制與方法多之系統架構圖,其中包括客戶申請查詢之相關組件(2,21)、業者搭配之相關組件(3,31,32,33)及本發明之系統組件(1,11-19)。本發明之系統組件包括:
a. 興趣點搜尋引擎模組1,係執行定時排程作業,利用興趣點搜尋引擎系統去爬取店家資料,歸類至索引資料庫31,並把索引興趣點網頁資料庫做為待審核店家資料,而索引興趣點資料庫做為待分類店家資料,其運作包括:
(a) 在使用者操作錯誤或輸入參數無效時,即會產生錯誤之訊息;
(b) 遇到網路斷線,或資料庫當機沒有回應時,產生告警訊息;
(c) 檢索範圍含括各大網站、以及種子列表內所涵蓋的網站內容;
(d) 提供定時排程檢查功能,若作業處理中需要其他功能模組配合進行,則產生處理訊息,並下達指令,送交相關功能模組;
(e) 可將資料庫內容(工商店家基本資料之部分欄位)導入搜尋引擎,亦即興趣點之基本資料必須常駐在搜尋引擎的索引資料庫31內,並掃瞄網站列表(Seed List)內的網站是否存有索引資料庫31內相關店家之相關資訊,並產出相關報表;
(f) 依據其他功能模組的要求,顯示指定訊息於螢幕上,或更新特定畫面顯示;
(g) 依據收到其他功能模組的要求,將其錯誤訊息顯示於螢幕上、列印於報表上、並記錄於系統事件日誌資料庫;
(h) 依據操作員的需求,可以不限次數的查詢系統的事件記錄、呼叫記錄、目前有哪些網站列表(Seed List)的資料正在處理中,並可隨時產生報表;
(i) 依據操作員的需求,將全自動化改成人工作業啟動,直接操作系統處理某份全球資源定址器(Uniform Resource Locator)。
b. 大量資料分類模組11,係到指定的資料庫接收新的資料,並通知大量資料比對模組12啟動其他模組來處理檔案,其運作包括:
(a) 若有新資料傳入,指定的主機IP不存在,或指定的目錄無效時,產生錯誤訊息於螢幕上;
(b) 接收或更新資料過程處理失敗或錯誤時,產生錯誤訊息於螢幕上;
(c) 接收或更新資料完成時,檢查一下接收資料是否齊全,若不齊全則產生錯誤訊息;
(d) 接收到其他功能模組訊息時,將其訊息直接顯示於螢幕上;
(e) 接收索引資料庫31完成時,會將資料依據其特性而分類並導入至興趣點搜尋引擎資料庫32各個相關之資料表格中;
(f) 可接收及更新大量資料來源人工審核介面13,所審核過的大量正確資料,會逕行儲存至興趣點搜尋引擎資料庫32之該資料表格;
(g) 每日利用SQL Server Integration Services提供定時排程功能,可接收及輸出資料至興趣點主機資料庫33。
c. 大量資料比對模組12,係將執行網路上爬取到店家資料存進索引資料庫31進行比對作業,其運作包括:
(a) 主要功能係執行網路上爬取到店家資料存進索引資料庫31進行資料庫比對作業,僅需比對出索引興趣點網頁資料庫和索引興趣點資料庫內『基本資料』不一致之資訊,然後將資料設定為待審核資訊;
(b) 可以透過審核畫面來檢視這些差異資料或索引資料庫31未含有的店家資料,逕行發送給大量資料來源人工審核介面13做審核參考;
(c) 大量資料來源人工審核介面13可支援多人同時使用的功能,避免某筆資料同時被競爭鎖定,導致資料無法審核的情況發生,進入審核介面後,可記錄按下存檔按鈕的使用者登入ID,以及當時的存檔時間,然後寫入至興趣點臨時表格內;
(d) 且審核畫面顯示資料差異時,會將有差異的資料改成紅色字體顯示,並且提供每個欄位都具備可以編輯的功能,若雙方資料結果有差異,最後以編輯過的興趣點網頁資料庫資訊為主,並寫回索引資料庫31(需含加值內容欄位)。
d. 唯一標籤定義模組14,係將定義化過的資料寫入到興趣點主機資料庫33,其運作包括:
(a) 將接受大量資料來源主機資料庫3所傳遞過來的資料,並且將整理過的資料寫入至興趣點主機資料庫33,且指定的某特定標籤欄位為唯一標籤,格式為類似於ASCII編碼方式,將此新特定標籤欄位儲存進興趣點主機資料庫33管理;
(b) 寫入過程中,若發生資料格式錯誤,或任何異常錯誤,將這些錯誤資料寫入記錄。
e. 大量資料管理模組15,係把資料擷取至興趣點主機資料庫33且需要進行管理的動作,並判斷輸入的資料特性,來決定歸類於哪一類興趣點主機資料庫33之資料表格中,其運作包括:
(a) 可以依據特定標籤欄位,管理資興趣點主機資料庫33內所有的興趣點資料;
(b) 接收大量資料來源主機資料庫3的資料後,可根據資料特性,逕行決定此筆資料儲存於興趣點主機資料庫33之哪一類資料表格;
(c) 可接收及更新大量資料抽取人工審核介面17,所審核過的大量正確資料,會逕行儲存至興趣點主機資料庫33之該資料表格;
(d) 遇到網路斷線,或資料庫當機沒有回應時,產生告警訊息;
(e) 每日利用SQL Server Integration Services提供定時排程功能,可接收及輸出資料至興趣點搜尋引擎的資料庫32。
f. 企業應用系統整合資料比對模組16,係執行資料比對產生作業,資料來源是興趣點搜尋引擎資料庫32和興趣點主機資料庫33,其運作包括:
(a) 將產生完的資料逕行發送給大量資料抽取人工審核介面17做審核動作;
(b) 透過企業應用系統整合資料比對模組16檢查大量資料來源人工審核介面13回傳的資料,該店家電話號碼是否存在,若不存在則予以刪除,反之,若存在則跳至下一步驟;
(c) 接著讀取興趣點資料庫表格,並檢查該號碼是否存在於該表格中,若不存在則標示為待審核的新資料;若存在則與該表格資料內容做比對,不相同則標示為待審核的差異資料;
(d) 可依據查詢條件查詢興趣點主檔歸戶檔資料及待審核/已審核FAST UGC來源資料。
g. 大量資料抽取模組18,將標準化過的店家資料從興趣點主機資料庫33讀取,並通知計費模組19,其運作包括:
(a) 根據客戶所提出申請文件21,抽取興趣點主機資料庫33之需求資料,並把查詢結果輸出標準格式之後,例如:(xml、pdf、xls);
(b) 自動發簡訊通知客戶2已經開始在處理此份申請案件;
(c) 若處理好之後,自動通知計費模組19。
h. 計費模組19,係執行費用計算以及告知客戶2,其運作包括:
(a) 根據案件編號所查詢的資料筆數來計價;
(b) 若遇到大量需求查詢的資料,價格另外計算;
(c) 自動帶出客戶2列帳號碼,並傳送給帳務系統;
(d) 自動發收費簡訊通知客戶2。
本發明完成大量多元資料篩選管理的機制與方法之步驟為:
a. 操作者從興趣點搜尋引擎模組1 GUI介面,輸入欲搜尋網站之關鍵字或全球資源定址器(Uniform Resource Locator)(格式如圖一所介紹),並且將資料按照規定格式操作完畢。
b. 操作完GUI介面之後,可至興趣點搜尋引擎模組1另一個GUI介面,可編輯、刪除各個全球資源定址器(Uniform Resource Locator)之內容(格式如圖二所介紹)。
c. 係將執行定時排程作業,利用興趣點搜尋引擎模組1去抓取店家資料,歸類至索引資料庫31,並把索引興趣點網頁資料庫做為待審核店家資料,而索引興趣點資料庫做為待分類店家資料,並把資料送至大量資料分類模組11。
d. 大量資料分類模組11將會根據資料特性,主動分類屬於店家基本資料或者是店家加值資料,對資料作整合性規劃,並傳送及接收資料至興趣點主機資料庫33。
e. 大量資料比對模組12需比對出興趣點網頁資料庫和興趣點資料庫內『基本資料』不一致之資訊:
(a) 首先比對電話號碼全碼FullTel欄位,並檢查興趣點資料庫中的表格,此筆電話號碼的POI_ENABLE欄位是否為0,代表使用中,而一筆電話號碼可能有許多筆歷史記錄,假若電話號碼歷史紀錄其中有一筆資料為『使用中』,則繼續下列檢驗流程;假若都不存在有使用中的資料,則直接跳離下列檢驗程序,並捨棄資料,代表電話已經拆機,網路上的內容也不需信任;
(b) 再來是比對裝機地址device_address欄位,詳細程度到幾號幾樓,若地址相同,則繼續比對店家名稱資料;
(c) 接著是比對店家名稱POI_name欄位,且比對其店家名稱的相似度,判斷出是否為同一家店;
(d) 若網路上搜尋回來的資訊,其電話號碼、裝機地址、店家名稱都相同,且無加值資料存在,直接捨棄這一筆;反之若網路上搜尋回來的資訊,其電話號碼、裝機地址、店家名稱都相同,且有加值資料存在,需導入資料至待審核資料區;
(e) 若網路上搜尋回來的資訊,其電話號碼、裝機地址都相同,但店家名稱不同,直接導入資料至待審核資料區,並在興趣點網頁資料庫抓取回來的店家名稱先進行過濾,將E-MAIL或者優惠資訊等不相關內容濾除;
(f) 若網路上搜尋回來的資訊,其電話號碼、店家名稱都相同,但裝機地址不同,原則上以興趣點資料庫資料為主,若有加值資料存在,才需導入資料至待審核資料區,若無加值資訊,直接捨棄這一筆;
(g) 若網路上搜尋回來的資訊,其電話號碼在興趣點資料庫尚未存在,即導入資料至待審核資料區。
f. 經過大量資料比對模組12產生出的待審核資料,會由大量資料來源人工審核介面13做審核動作,審核完畢後回傳興趣點搜尋引擎資料庫32。
g. 唯一標籤定義模組14,將收到每一筆資料加上某特定標籤欄位,接著把資料傳送至大量資料管理模組15管理。
h. 大量資料管理模組15,依據將會根據資料特性,主動分類相關資料,對資料作整合性規劃,並傳送及接收資料至興趣點搜尋引擎資料庫32。
i. 企業應用系統整合資料比對模組16,透過企業應用系統整合資料比對模組16檢查大量資料來源人工審核介面13回傳的資料,該店家電話號碼是否存在,且將產生完的資料逕行發送給大量資料抽取人工審核介面17做審核動作。
j. 大量資料抽取人工審核介面17會把審核過的資料回傳至興趣點主機資料庫33。
k. 客戶2填寫完申請文件21,並且將資料按照規定格式填寫完畢,開始處理此份申請案件。
l. 填寫完申請文件21之後,送至大量資料抽取模組18,大量資料抽取模組18將抽取興趣點主機資料庫33該需求資料,再傳送至計費模組19。
m. 計費模組19處理結束時,會產生一份報表資料和收費簡訊,並使用E-MAIL將報表發送給客戶2。
請參閱圖四,為本發明大量多元資料篩選管理的機制與方法之資料流程順序圖,係說明各模組之間的呼叫順序,按照呼叫時間來排序,由上而下,由左而右。
圖式內上方為構成系統的模組以及客戶人員,其指標可以分為三種,實線實心黑色三角頭指標、虛線三角頭指標、實線黑色三角頭指標,其中實線實心黑色三角頭指標代表了呼叫模組、啟動模組執行命令;虛線三角頭指標代表回應訊息給原呼叫端;實線黑色三角頭指標代表傳遞資料給接受端。
從圖式上方可以看到底下這幾個模組:
1. 興趣點搜尋引擎模組1。
2. 大量資料分類模組11。
3. 大量資料比對模組12。
4. 唯一標籤定義模組14。
5. 大量資料管理模組15。
6. 企業應用系統整合資料比對模組16。
7. 大量資料抽取模組18。
8. 計費模組19。
除了這幾個模組之外還有操作人員和資料庫、客戶人員的角色,順序從最左邊的操作端開始輸入欲查詢全球資源定址器(Uniform Resource Locator),接者興趣點搜尋引擎模組1開始呼叫大量資料分類模組11,接者大量資料分類模組11回傳訊息給興趣點搜尋引擎模組1,要求興趣點搜尋引擎模組1下載資料到指定目錄,並且將資料交給大量資料分類模組11處理,大量資料分類模組11接收之後會先驗證資料格式是否正確,若有錯誤會將資料剔除,假設資料沒有重大錯誤,資料分類完之後,則會繼續將資料放在指定目錄下,由大量資料比對模組12繼續處理。假設一般資料通過大量資料比對模組12的處理之後,會繼續啟動大量資料來源人工審核介面13,將蒐尋及歸類的審查完資料寫入興趣點搜尋引擎資料庫32內,並且加上額外的補充資訊,等到資料全部儲存到興趣點搜尋引擎資料庫32之後,大量資料分類模組11會發訊息給大量資料管理模組15,告知審查作業處理完畢,可以開始進行定時排程作業。大量資料來源主機資料庫3,會呼叫唯一標籤定義模組14,接者唯一標籤定義模組14會回傳訊息給大量資料來源主機資料庫3產生特定標籤欄位,且大量資料來源主機資料庫3將新資料寄送給大量資料管理模組15。大量資料管理模組15接收興趣點搜尋引擎資料庫32和大量資料來源主機資料庫3的資料,則把資料分類後寄送給企業應用系統整合資料比對模組16。假設一般資料通過企業應用系統整合資料比對模組16的處理之後,會繼續啟動大量資料抽取人工審核介面17,將整合及歸類的審查完資料寫入興趣點主機資料庫33內,並且加上額外的補充資訊,接者大量資料管理模組15會發訊息給大量資料分類模組11,告知審查作業處理完畢,可以開始進行定時排程作業。若客戶2開始遞送申請文件21,接者大量資料抽取模組18開始呼叫大量資料管理模組15,接者大量資料管理模組15回傳訊息給大量資料抽取模組18,大量資料抽取模組18寄發簡訊通知客戶2已經開始在處理此份申請案件21,處理完成之後,直接寄給計費模組19,根據案件編號所查詢的資料筆數來計價,且自動發收費簡訊通知客戶2。訊息發送完畢之後,會呼叫並回傳成功的訊息給流程計費模組19,代表此份申請文件21已經可以結案。
本發明所提供之大量多元資料篩選管理的機制與方法,與其他習用技術相互比較時,更具有下列之優點:
1. 可輸入設備號碼透過企業應用系統整合資料比對模組查詢基本資料、透過企業應用系統整合資料比對模組利用地址計算經緯度資料。
2. 結合高效能的全文檢索技術,可以在短時間內快速又正確的比對出大量資料來源主機資料庫所沒有的資料,效率是人工查詢的數百倍。
3. 大量資料抽取模組可以自動的將查詢結果產生各類型報表,並且自動發簡訊通知客戶已經開始在處理此份申請案件。
4. 計費模組,會將結果報表寄送給客戶以及相關人員,並且發送收費簡訊。
5. 興趣點搜尋引擎模組,是一般查詢系統所缺乏的功能,可以透過輸入的關鍵字來調查相關的店家資料。
6. 本發明可減輕大量人力的查詢人員的負擔,減少人為因素的缺失
上列詳細說明係針對本發明之一可行實施例之具體說明,惟該實施例並非用以限制本發明之專利範圍,凡未脫離本發明技藝精神所為之等效實施或變更,均應包含於本案之專利範圍中。
綜上所述,本案不僅於技術思想上確屬創新,並具備習用之傳統方法所不及之上述多項功效,已充分符合新穎性及進步性之法定發明專利要件,爰依法提出申請,懇請 貴局核准本件發明專利申請案,以勵發明,至感德便。
1...興趣點搜尋引擎模組
11...大量資料分類模組
12...大量資料比對模組
13...大量資料來源人工審核介面
14...唯一標籤定義模組
15...大量資料管理模組
16...企業應用系統整合資料比對模組
17...大量資料抽取人工審核介面
18...大量資料抽取模組
19...計費模組
2...客戶
21...申請文件
3...大量資料來源主機資料庫
31...索引資料庫
32...興趣點搜尋引擎資料庫
33...興趣點主機資料庫
圖一為本發明自大量多元資料篩選管理的機制與方法之操作人員輸入網頁種子的方式;
圖二為該大量多元資料篩選管理的機制與方法之操作人員管理網頁種子的方式;
圖三為該大量多元資料篩選管理的機制與方法之系統架構圖;以及
圖四為該大量多元資料篩選管理的機制與方法之資料流程順序圖。
1...興趣點搜尋引擎模組
11...大量資料分類模組
12...大量資料比對模組
13...大量資料來源人工審核介面
14...唯一標籤定義模組
15...大量資料管理模組
16...企業應用系統整合資料比對模組
17...大量資料抽取人工審核介面
18...大量資料抽取模組
19...計費模組
2...客戶
21...申請文件
3...大量資料來源主機資料庫
31...目錄資料庫
32...興趣點搜尋引擎資料庫
33...興趣點主機資料庫

Claims (11)

  1. 一種大量多元資料篩選管理的機制與方法,係結合資料庫全文檢索、資料檔案格式轉換、通訊、系統狀態偵測技術,以達成全自動化的查詢服務系統,其包括:a. 興趣點搜尋引擎模組,其係用以執行定時排程作業,利用該興趣點搜尋引擎系統去抓取店家資料,歸類至索引興趣點網頁資料庫或索引興趣點資料庫,並把該索引興趣點網頁資料庫做為待審核店家資料,而把該索引興趣點資料庫做為待分類店家資料;b. 大量資料分類模組,其係用以接受該興趣點搜尋引擎模組傳遞過來的指令,根據抓取到的店家資料內容或地理資訊,若有新資料傳入的話,將主動分類屬於店家基本資料或店家加值資料,對資料作整合性規劃,並具有把審核過和已分類的該店家資料,回傳至興趣點主機資料庫之能力,並通知該大量資料比對模組有新的資料進來,以啟動該大量資料比對模組來處理資料;c. 大量資料比對模組,其係用以接受該大量資料分類模組傳遞過來的指令,將執行網路上爬取到的該店家資料存進該索引興趣點網頁資料庫和該索引興趣點資料庫進行比對作業,進而尋找到該索引興趣點資料庫未含有的店家資料或差異性的店家資料,並且將尋找到的該店家資料逕行發送給大量資料來源人工審核介面做審核動作;d. 唯一標籤定義模組,其係用以接受大量資料來源主機資料庫所傳遞過來的資料,並且將整理過的資料寫入至該興趣點主機資料庫,以指定的某特定標籤欄位為唯一標籤,格式為類似於ASCII編碼方式,將此新特定標籤欄位移放到該興趣點主機資料庫進行管理,並通知大量資料管理模組;e. 大量資料管理模組,其係用以接受唯一標籤定義模組傳遞過來的指令,係到指定的資料庫下讀取資料並分類,以及規劃定時排程將該店家資料或地理資訊傳送至興趣點搜尋引擎資料庫,且為系統可接受的標準格式;f. 企業應用系統整合資料比對模組,主要係執行資料比對產生作業,會接受大量管理模組傳遞的指令產生相對應的資料,其資料來源是該興趣點搜尋引擎資料庫和該興趣點主機資料庫,並且會將產生的資料逕行發送給大量資料抽取人工審核介面做審核動作,並且通知該大量資料管理模組資料處理作業已經完成;g. 大量資料抽取模組,係將標準化過的店家資料從該興趣點主機資料庫讀取,並通知計費模組,及發簡訊通知客戶已經開始在處理此份申請案件;以及,h. 計費模組,係執行費用計算以及告知客戶,並且將計算完的結果逕行發送給客戶以及相關處理人員;其中,該大量多元資料篩選管理的機制與方法係用以同時處理多方資料來源、分析網頁所傳來的各種不同格式的店家資料或地理資訊,在短時間內查詢大量的資料,利用該企業應用系統整合資料比對模組,與該大量管理模組中的原有店家資料比對,以得到精確的結果。並且結合該計費模組,告知客戶送來的案件已經在處理中,以及本次查詢將會收取之費用,待查詢結果輸出標準格式之後,自動按照客戶所留下的E-MAIL位址,自動回寄給客戶。
  2. 一種大量多元資料篩選管理的機制與方法,其包括以下步驟:a.該興趣點搜尋引擎模組檢查是否有新的全球資源定址器,其係執行定時排程作業,利用該興趣點搜尋引擎系統去抓取店家資料,歸類至索引興趣點網頁資料庫或索引興趣點資料庫,並把該索引興趣點網頁資料庫做為待審核店家資料,而該索引興趣點資料庫則做為待分類店家資料;b. 將新的或異動之該店家資料下載到指定的目錄下存放,並啟動該大量資料分類模組,根據抓取到的該店家資料,分類屬於店家基本資料或者是店家加值資料,對資料作整合性規劃,且將已審核過和已分類的店家資料,回傳至該興趣點主機資料庫;c.該大量資料分類模組將該店家資料的資料內容分類之檔案送至該大量資料比對模組審查,係執行網路上欲爬取之客戶要求特定業別店家資料和索引興趣點資料庫進行比對作業,進而尋找到興趣點資料庫未含有的店家資料或差異性的店家資料,並且將尋找到的店家資料逕行發送給該大量資料來源人工審核介面做審核動作,且利用大量資料來源人工審核介面將資料回傳至該興趣點搜尋引擎資料庫,並接收和回傳資料至該興趣點主機資料庫;d. 該唯一識別定義模組確認每一筆資料加上特定識別欄位,係指定的某特定識別欄位為唯一標籤,格式為ASCII編碼方式,將此新特定識別欄位存入該興趣點主機資料庫之中,並啟動該大量資料管理模組來處理接收的資料;e.該大量資料管理模組接收和回傳資料至該興趣點搜尋引擎資料庫,係到指定的資料庫下讀取資料並分類,以及規劃定時排程將店家資料或地理資訊傳送至該興趣點搜尋引擎資料庫,且為系統可接受的標準格式,並可把資料再送至該企業應用系統整合資料比對模組審查,利用該大量資料抽取人工審核介面將資料回傳至該興趣點主機資料庫;f. 該大量資料抽取模組係將標準化過的店家資料依據客戶需求抽取該興趣點主機資料庫的資料,並告知客戶其所提出的查詢案件已經開始受理,且已經在處理中;g. 該大量資料抽取模組結束之後,即通知計費模組;以及h. 該計費模組統計完費用之後,將處理結果以及費用相關訊息通知客戶以及相關人員,並且將報表寄送給客戶。
  3. 如申請專利範圍第1項所述之大量多元資料篩選管理的機制與方法,其中該興趣點搜尋引擎模組之特徵包括:a. 在使用者操作錯誤或輸入參數無效時,即產生錯誤訊息;b. 遇到網路斷線,或資料庫當機沒有回應時,產生警告訊息;c. 檢索範圍含括各大網站、以及種子列表內所涵蓋的網站內容;d. 提供定時排程檢查功能,若作業處理中需要其他功能模組配合進行,則產生處理訊息,並下達指令,送交相關功能模組;e. 可將資料庫內容(工商店家基本資料之欄位)導入搜尋引擎,亦即興趣點基本資料必須常駐在搜尋引擎的索引資料庫內,並掃瞄網站列表內的網站是否存有索引資料庫內相關店家之相關資訊,產出相關報表;f. 依據其他功能模組的要求,顯示指定訊息於螢幕上,或更新特定畫面顯示;g. 依據收到其他功能模組的要求,將其錯誤訊息顯示於螢幕上、列印於報表上、並記錄於系統事件日誌資料庫;h. 依據操作員的需求,查詢系統的事件記錄、呼叫記錄、目前有哪些網站列表的資料正在處理中,並產生報表;以及i. 依據操作員的需求,將全自動化改成人工作業啟動,直接操作系統之全球資源定址器。
  4. 如申請專利範圍第1項所述之大量多元資料篩選管理的機制與方法,其中該大量資料分類模組之特徵包括:a. 若有新資料傳入,指定的主機位址不存在,或指定的目錄無效時,產生錯誤訊息於螢幕上;b. 接收或更新資料過程處理失敗或錯誤時,產生錯誤訊息於螢幕上;c. 接收或更新資料完成時,檢查一下接收資料是否齊全,若不齊全則產生錯誤訊息;d. 接收到其他功能模組訊息時,將其訊息直接顯示於螢幕上;e. 接收索引資料庫之完成時,會將資料依據其特性而分類並導入至該興趣點搜尋引擎資料庫各個相關之資料表格中;f. 接收及更新大量資料來源人工審核介面,所審核過的大量正確資料,會逕行儲存至該興趣點搜尋引擎資料之該資料表格;以及g. 每日利用定時排程功能,接收及輸出資料至該興趣點主機資料庫。
  5. 如申請專利範圍第1項所述之大量多元資料篩選管理的機制與方法,其中該大量資料比對模組之特徵包括:a. 主要功能係執行網路上爬取到店家資料存進索引興趣點網頁資料庫和索引興趣點資料庫進行比對作業,僅需比對出興趣點網頁資料庫和興趣點資料庫內『基本資料』不一致之資訊,然後將資料設定為待審核資訊;b. 透過該審核畫面來檢視這些差異資料或資料庫未含有的店家資料,逕行發送給大量資料來源人工審核介面做審核參考;c. 該審核介面係支援多人同時使用的功能,避免某筆資料同時被競爭鎖定,導致資料無法審核的情況發生,進入審核介面後,記錄按下存檔按鈕的使用者登入身分,以及當時的存檔時間,然後寫入至興趣點臨時表格內;以及d. 當該審核畫面顯示資料差異時,會將有差異的資料改成紅色字體顯示,並且提供編輯功能,若雙方資料結果有差異,最後則以編輯過的興趣點網頁資料庫資訊為主,並寫回該資料庫。
  6. 如申請專利範圍第1項所述之大量多元資料篩選管理的機制與方法,其中該唯一標籤定義模組之特徵包括:a. 將接受大量資料來源主機資料庫所傳遞過來的資料,並且將整理過的資料寫入至興趣點主機資料庫,且指定某特定標籤欄位為唯一標籤,格式為ASCII編碼方式,將此新特定標籤欄位儲存進興趣點主機資料庫管理;b. 寫入過程中,若發生資料格式錯誤,或任何異常錯誤,將這些錯誤資料寫入記錄。
  7. 如申請專利範圍第1項所述之大量多元資料篩選管理的機制與方法,其中該大量資料管理模組之特徵包括:a. 依據特定標籤欄位,管理資料庫內所有的興趣點資料;b. 接收大量資料來源主機資料庫的資料後,根據資料特性,逕行決定此筆資料儲存於興趣點主機資料庫之哪一類表格;c. 接收及更新大量資料抽取人工審核介面,所審核過的大量正確資料,會逕行儲存至該興趣點主機資料庫之該資料表格;d. 遇到網路斷線,或資料庫當機沒有回應時,產生告警訊息;以及e. 每日利用該定時排程功能,接收及輸出資料至興趣點搜尋引擎的資料庫。
  8. 如申請專利範圍第1項所述之大量多元資料篩選管理的機制與方法,其中企業應用系統整合資料比對模組之特徵包括:a. 將產生完的資料逕行發送給大量資料抽取人工審核介面做審核動作;b. 透過企業應用系統整合檢查大量資料來源人工審核介面回傳的資料,該店家電話號碼是否存在,若不存在則予以刪除,反之,若存在則跳至下一步驟;c. 讀取該興趣點資料庫表格,並檢查該號碼是否存在於該表格中,若不存在則標示為待審核的新資料;若存在則與該表格資料內容做比對,不相同則標示為待審核的差異資料;d. 依據查詢條件查詢興趣點主檔歸戶檔資料及待審核/已審核資料。
  9. 如申請專利範圍第1項所述之大量多元資料篩選管理的機制與方法,其中該大量資料抽取模組之特徵包括:a. 根據客戶所提出申請文件,抽取該興趣點主機資料庫之需求資料,並把查詢結果以標準格式輸出;b. 自動發簡訊通知客戶已經開始在處理此份申請案件;c. 若處理好之後,自動通知該計費模組。
  10. 如申請專利範圍第1項所述之大量多元資料篩選管理的機制與方法,其中該計費模組之特徵包括:a. 根據案件編號所查詢的資料筆數來計價;b. 若遇到大量需求查詢的資料,價格另外計算;c. 自動帶出客戶列帳號碼,並傳送給帳務系統;d. 自動發收費簡訊通知客戶。
  11. 如申請專利範圍第1項所述之大量多元資料篩選管理的機制與方法,其中各模組以TCP/IP或Socket的方式作為通信媒介。
TW101103471A 2012-02-03 2012-02-03 System and method for managing a large number of multiple data TWI453608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW101103471A TWI453608B (zh) 2012-02-03 2012-02-03 System and method for managing a large number of multiple data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101103471A TWI453608B (zh) 2012-02-03 2012-02-03 System and method for managing a large number of multiple data

Publications (2)

Publication Number Publication Date
TW201333722A true TW201333722A (zh) 2013-08-16
TWI453608B TWI453608B (zh) 2014-09-21

Family

ID=49479521

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101103471A TWI453608B (zh) 2012-02-03 2012-02-03 System and method for managing a large number of multiple data

Country Status (1)

Country Link
TW (1) TWI453608B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293676A (zh) * 2015-06-08 2017-01-04 东元电机股份有限公司 产生整体检测程序的方法及系统
US11507373B2 (en) 2015-12-17 2022-11-22 The Charles Stark Draper Laboratory, Inc. Techniques for metadata processing
TWI794405B (zh) * 2018-02-02 2023-03-01 美商查爾斯塔克德拉普實驗室公司 用於政策執行處理的系統及方法
US11748457B2 (en) 2018-02-02 2023-09-05 Dover Microsystems, Inc. Systems and methods for policy linking and/or loading for secure initialization
US11797398B2 (en) 2018-04-30 2023-10-24 Dover Microsystems, Inc. Systems and methods for checking safety properties
US11841956B2 (en) 2018-12-18 2023-12-12 Dover Microsystems, Inc. Systems and methods for data lifecycle protection
TWI828433B (zh) * 2022-11-21 2024-01-01 中華電信股份有限公司 串流資料之處理設備、處理方法及執行處理方法之電腦程式產品
US11875180B2 (en) 2018-11-06 2024-01-16 Dover Microsystems, Inc. Systems and methods for stalling host processor

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201011574A (en) * 2008-09-10 2010-03-16 Mitac Int Corp Method of using and providing local searching service, and its program product, catalogue service platform and architecture
TW201017119A (en) * 2008-10-30 2010-05-01 Tomtom Int Bv Data acquisition apparatus, data acquisition system and method of acquiring data
CN101504290A (zh) * 2009-03-11 2009-08-12 凯立德欣技术(深圳)有限公司 一种导航系统及其使用的兴趣点周边检索方法
TW201040752A (en) * 2009-05-13 2010-11-16 Alibaba Group Holding Ltd Method and system for providing localized information

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293676B (zh) * 2015-06-08 2019-05-10 东元电机股份有限公司 产生整体检测程序的方法及系统
CN106293676A (zh) * 2015-06-08 2017-01-04 东元电机股份有限公司 产生整体检测程序的方法及系统
US11720361B2 (en) 2015-12-17 2023-08-08 The Charles Stark Draper Laboratory, Inc. Techniques for metadata processing
US11507373B2 (en) 2015-12-17 2022-11-22 The Charles Stark Draper Laboratory, Inc. Techniques for metadata processing
US11635960B2 (en) 2015-12-17 2023-04-25 The Charles Stark Draper Laboratory, Inc. Processing metadata, policies, and composite tags
US11782714B2 (en) 2015-12-17 2023-10-10 The Charles Stark Draper Laboratory, Inc. Metadata programmable tags
TWI794405B (zh) * 2018-02-02 2023-03-01 美商查爾斯塔克德拉普實驗室公司 用於政策執行處理的系統及方法
US11748457B2 (en) 2018-02-02 2023-09-05 Dover Microsystems, Inc. Systems and methods for policy linking and/or loading for secure initialization
US11709680B2 (en) 2018-02-02 2023-07-25 The Charles Stark Draper Laboratory, Inc. Systems and methods for policy execution processing
US11977613B2 (en) 2018-02-02 2024-05-07 Dover Microsystems, Inc. System and method for translating mapping policy into code
US11797398B2 (en) 2018-04-30 2023-10-24 Dover Microsystems, Inc. Systems and methods for checking safety properties
US11875180B2 (en) 2018-11-06 2024-01-16 Dover Microsystems, Inc. Systems and methods for stalling host processor
US11841956B2 (en) 2018-12-18 2023-12-12 Dover Microsystems, Inc. Systems and methods for data lifecycle protection
TWI828433B (zh) * 2022-11-21 2024-01-01 中華電信股份有限公司 串流資料之處理設備、處理方法及執行處理方法之電腦程式產品

Also Published As

Publication number Publication date
TWI453608B (zh) 2014-09-21

Similar Documents

Publication Publication Date Title
TWI453608B (zh) System and method for managing a large number of multiple data
US8346782B2 (en) Method and system of information matching in electronic commerce website
CN103473230B (zh) 服务范围确定方法、物流服务提供方推荐方法及相应装置
CN111949834B (zh) 选址方法和选址平台系统
CN107844875B (zh) 绿色产品管理系统及方法
RU2695420C1 (ru) Способ сбора логистической информации и система межгосударственных перевозок
CN111260296A (zh) 快件派送方式推荐方法、装置、设备及存储介质
US20120166319A1 (en) Method and system for language-independent search within scanned documents
US20140288981A1 (en) Methods and systems for travel-based interactions
CN111327514B (zh) 微信图文消息群发方法、系统、服务器及存储介质
CN108074033A (zh) 指标数据的处理方法、系统、电子设备和存储介质
CN114648393A (zh) 一种应用于招投标的数据挖掘方法、系统及设备
JP5764080B2 (ja) Web検索システムおよびWeb検索方法
CN111652699A (zh) 用于税票系统的数据传输方法
CN111476013A (zh) 信息收集方法、装置、介质及电子设备
CN107844960B (zh) 一种自动化智能分析商业计划书的投资分析工具
KR20140026796A (ko) 맞춤형 특허분석 서비스 시스템 및 그 방법
CN109636303B (zh) 一种半自动提取和结构化文档信息的存储方法及系统
JP2015153378A (ja) 情報入力システム及びプログラム
KR20080011900A (ko) 마켓플레이스형 쇼핑 포탈 시스템.
CN113077288A (zh) 消息推送方法、装置、计算机设备及计算机可读存储介质
TWI549008B (zh) A large number of data into the system and methods of screening management
US20200394614A1 (en) Methods, devices, and systems for capturing content from client transaction related messages on a client device by a third party
CN104091284A (zh) 一种交易对象属性查询方法及其信息设备
KR20120135179A (ko) 쇼핑 정보를 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees