TW201604694A - 大量資料匯入篩選管理的系統與方法 - Google Patents

大量資料匯入篩選管理的系統與方法 Download PDF

Info

Publication number
TW201604694A
TW201604694A TW103125935A TW103125935A TW201604694A TW 201604694 A TW201604694 A TW 201604694A TW 103125935 A TW103125935 A TW 103125935A TW 103125935 A TW103125935 A TW 103125935A TW 201604694 A TW201604694 A TW 201604694A
Authority
TW
Taiwan
Prior art keywords
data
module
index
value
screening
Prior art date
Application number
TW103125935A
Other languages
English (en)
Other versions
TWI549008B (zh
Inventor
Hui-Hung Chien
Tsu-Chun Chen
Chia-Yu Guo
Original Assignee
Chunghwa Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chunghwa Telecom Co Ltd filed Critical Chunghwa Telecom Co Ltd
Priority to TW103125935A priority Critical patent/TWI549008B/zh
Publication of TW201604694A publication Critical patent/TW201604694A/zh
Application granted granted Critical
Publication of TWI549008B publication Critical patent/TWI549008B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明係為一種大量資料匯入篩選管理的系統與方法,其包括建立索引分類模組、資料篩選模組、資料比對模組、設定映射模組、資料管理模組與資料抽取模組。其主要透過定義映射表格及資料比對模組利用加權的公式計算權重值,可在短時間內快速比對出匹配的資料結果,且載入資料庫中,將提高資料辨別正確性及大幅提升維運管理之便利性,及彙整各類型大量資料;可實際運用映射表格特性,亦即時新增和更新資料內容。

Description

大量資料匯入篩選管理的系統與方法
本發明係為一種匯入資料的系統與方法有關;具體而言,特別是關於一種於電信業務中大量資料匯入篩選管理的系統與方法,係透過字元數、連續性及排序方式進而匯入篩選並管理。
於專利前案多媒體檔案的分類方法(申請日期:2008/12/09,申請案號:097147879),係為利用EXIF資訊、影像特徵以及檔案屬性等參數自動分類大量的多媒體檔案,並且在瀏覽畫面上顯示具有分類名稱、檔案名稱、日期參數以及檔案位置之分類標籤,讓使用者可以方便的管理與瀏覽大量的多媒體檔案。
於專利前案利用比對單字位置關係進行全文檢索之系統及其方法(申請日期:2006/10/04,申請案號:095136960),係為利用比對單字位置關係進行全文檢索之系統及其方法,應用於具有辭典功能之手持式資料處理裝置,係透過具有文件編號及位置編號之辭典資料庫,建立一索引關係,當執行待檢索 辭彙查找時,初步比對出包含待檢索辭彙各單字之文件編號,接續比對各單字之位置編號以找出符合待檢索辭彙各單字位置關係之辭彙文件,同時生成一檢索結果列表,提供使用者相關檢索資訊,以達精確檢索之要求。
由此可見,上述習用方式仍有諸多缺失,實非一良善之設計,而亟待加以改良。
本案發明人鑑於上述習用方式所衍生的各項缺點,乃亟思加以改良創新,並經多年苦心孤詣潛心研究後,終於成功研發完成本件發明。
本專利之目的,當面對大量商品資料匯入且不同來源情況下、以及格式錯誤和資料內容包含無法判斷之符號或詞句時,以尚未代入本專利篩選的方法進行展示介面呈現,往往會得到過多但不絕對精確的匹配成功結果,需要人工介入至後端平台做修改。故本發明採用建立索引分類模組區分各型態資料且建立索引值;資料篩選模組剔除無效資料內容;資料比對模組主要區分各類別資料;資料管理模組爬取資料內容並寫入各資料庫中;最後資料抽取模組依據展示介面需求,讀取主機資料庫的資料,依序回傳給展示介面,將可大幅度降低因展示介面資料內容的錯誤,而發生客訴案件機率。
以往匯入商品資料至展示介面,都需依靠人工匯入和比對,且花費大量時間和人力彙整、儲存並維運其各類商品資料,如雲端、手機或固網等商品,以便對外出售商品頁面提供正確的商品資訊。本發明可搭配需求者定義映射表格提供創 新之自助服務;及資料比對模組利用加權的公式計算權重值;和需求者只要修改映射表格,不需直接更改程式,即可彈性新增、更新商品資料內容與類別,這樣可以大幅提升電信業務維運管理之便利性。
本發明之大量資料匯入篩選管理的系統與方法具備圖形化與自動化之功能,且具時效性、正確性、整合型、效率性及便利性等優點,提高資料辨別正確性,減輕大量商品編輯人力及大幅提升電信業務維運管理之便利性,也可運用於其它需大量資料匯入且資料重複的系統中。
本發明所提供之技術特徵,與其它習用技術相互比較時,更具備下列優點:
1.採用建立索引分類模組進行智慧型分類判斷分析,區分各型態資料,提高資料爬取效率。
2.利用資料篩選模組依據設定自訂組態,自動過濾無效字詞或符號,減少人工過濾作業成本。
3.資料比對模組透過加權的公式計算權重值,考量比對字詞之相同字數量、相同字順序、相同字詞連續性三種條件,將可以在短時間內快速比對出匹配的資料結果,更準確區分來源商品資料的分類。
4.利用設定映射模組提供創新之自助服務,不需直接更改程式內容,即可彈性新增、更新商品資料內容與類別,大幅提升電信業務維運管理之便利性。
5.採用資料管理模組可減輕大量資料建檔的人力成本負擔,所以也將減少因人為因素而導致發生回報案件。
6.利用資料抽取模組可設置自動化排程,直接由展示介面傳送需求給該模組,該摸組主動由主機資料庫爬取資料再回傳,減少大量前端商品編輯人力,有效降低公司人力成本。
100‧‧‧大量資料匯入篩選管理的系統
110‧‧‧建立索引分類模組
120‧‧‧資料篩選模組
130‧‧‧資料比對模組
140‧‧‧設定映射模組
150‧‧‧資料管理模組
160‧‧‧資料抽取模組
170‧‧‧資料匯入模組
180‧‧‧資料審核模組
S210~S270‧‧‧大量資料匯入篩選管理的流程步驟
210、220‧‧‧資料庫
230‧‧‧主機資料庫
240‧‧‧展示介面
請參閱有關本發明之詳細說明及其附圖,將可進一步瞭解本發明之技術內容及其目的功效;有關附圖為:第1圖為本發明之大量資料匯入篩選管理的系統之示意圖。
第2圖為本發明之大量資料匯入篩選管理的方法之流程圖。
第3圖為本發明之大量資料匯入篩選管理的系統之實施例圖。
第4圖為本發明之大量資料匯入篩選管理的方法之資料計算解說圖。
第5圖為本發明之大量資料匯入篩選管理的方法之資料計算解說圖。
第6圖為本發明之大量資料匯入篩選管理的方法之資料計算解說圖。
第7圖為本發明之大量資料匯入篩選管理的系統與方法之時序圖。
為了使本發明的目的、技術方案及優點更加清楚明白,下面結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發明,但並不用於限定本發明。
以下,結合附圖對本發明進一步說明:請參閱第1圖,第1圖為本發明之大量資料匯入篩選管理的系統之示意圖。如第1圖所示,其包括建立索引分類模組110、資料篩選模組120、資料審核模組180、資料比對模組130、設定映射模組140、資料管理模組150與資料抽取模組160。而建立索引分類模組110接收資料並判斷各個索引目標端是否有索引值,且預先建置索引目標端與索引值儲存於資料庫。其次,資料篩選模組120設定組態並接收該建立索引分類模組110之資料進行過濾。然而,資料審核模組180接收該資料篩選模組120之資料,且該些資料係為無法判斷或亂碼並主動建立審核介面。資料比對模組130接收該資料篩選模組120或該資料審核模組180之資料,並依據設定映射模組140之資料表進行交叉比對;而該設定映射模組140利用程式邏輯進行多層群組彙整,並預先定義各個模組之資料表,且轉換為該系統之標準格式資料。接著,資料管理模組150接收該設定映射模組140之資料表與該資料比對模組130之資料,依據各資料表欄位進行特徵名稱分類。最後,資料抽取模組160呼叫資料管理模組150,並接收該資料管理模組150之資料,再將該些資料回傳至該展示介面240。
而上述之該些索引值更可分類為單一值、多值與空值。該單一值係為目標端不需再進一步解析,且該多值係為目標端更包含其他索引值,需再進一步解析、而該空值係為目標 端無其它索引值,不需要進一步解析。
請參閱第2圖,第2圖為本發明之大量資料匯入篩選管理的方法之流程圖。如第1圖及第2圖所示,其流程步驟可包括:S210該建立索引分類模組110接收資料,建立索引值與索引目標端,並利用索引目標端名稱進行分類。
S220該資料篩選模組120設定組態並接收該建立索引分類模組110之資料進行過濾,若可進行判斷分析則進行步驟S240:若否則進行步驟S230。
S230該資料審核模組180接收該資料篩選模組120之資料,且該些資料係為無法判斷分析或亂碼,並主動建立審核介面進行除錯。
S240該資料比對模組130接收該資料篩選模組120或該資料審核模組180之資料,並依據設定映射模組140之資料表進行交叉比對。
S250該設定映射模組140利用程式邏輯進行多層群組彙整,並預先定義各個模組之資料表,且轉換為該系統之標準格式資料。
S260該資料管理模組150接收該設定映射模組140之資料表與該資料比對模組130之資料,依據各資料表欄位進行特徵名稱分類。
S270該資料抽取模組160接收並依據展示介面240需求彙整進行批次遞送,接收該資料管理模組150之資料,再將該些資料回傳至該展示介面240。
該建立索引分類模組110預先建置索引目標端供 資料比對模組130與資料管理模組150查詢,不需提前爬取整份XML文件才找的到目標字串,該建立索引分類模組110可提高資料爬取效率,且將結果存放於資料庫。然而,資料篩選模組120自訂組態進行資料過濾,負責過濾建立索引分類模組110所傳送資料之特定資料字串或符號,預先建立過濾資料表包括無法判斷之符號或詞句等不相關內容,或建立需要代替之字詞或符號之資料表,解決因人為因素導致的資料錯誤;若有資料內容無法判斷且多數為亂碼,該資料篩選模組120會逕行發送給資料審核模組180做審核動作,減少客服人員工作量。
接著,資料比對模組130主要係執行資料比對產生 作業,會接受資料篩選模組120或者是資料審核模組180傳遞的指令產生相對應的資料,並依據設定映射模組140所定義的「各個商品資料類型」之資料表交叉比對。其資料來源是資料篩選模組120、資料審核模組180與設定映射模組140所發送資料,且會將比對完的資料逕行發送給資料管理模組150彙整至來源類型欄位,將來可直接由展示介面240區分不同類型,並通知資料管理模組150。比對方法是依據商品特性及比對流程,發明的權重值公式,其各考量數值加總最高,會將商品歸類至該類型,以下列公式所示:
α+β+γ=10
,表示其中若計算數值小 於0.1,則直接取0.1; 表示其中若計算數值小於 0.1,則直接取0.1;Ws=權重值分數加總;α、β、γ=權重因子;Q=順序質量;Nd=索引目標端之資料內容欲比對的名稱相同字數;Ns=設定映射模組之定義資料表的關鍵字字數;=索引目標端之資料內容欲比對的名稱位置順序;=設定映射模組之定義資料表的關鍵字位置順序;S(Pd)=索引目標端之資料內容欲比對的名稱相同字詞連續性;以及Ps=設定映射模組之定義資料表的關鍵字詞連續性。
而設定映射模組140係利用程式邏輯進行多層群組彙整,主要功能預先定義「各個商品資料類型」之資料表與「各個索引目標端處理」之資料表供資料比對模組和資料管理模組爬取預定資料及指定放置位置,且為系統可接受的標準格式資料。
此外,資料管理模組150係接收設定映射模組140傳送之資料表,依據各資料表欄位進行特徵名稱分類,且遵行設定映射模組的「各個索引目標端處理」之資料表交叉比對,處理各商品資料內容,預先設置來源類型、目的名稱、目的資料表、目的欄位、擷取處理等欄位,可將欲爬取XML商品資料寫入各資料庫和資料表中。最後,資料抽取模組160依據展示介面240需求,將標準化過的商品資料從主機資料庫讀取,及根據主機資料庫之「來源類型」欄位,回傳資料至展示介面240各商品專區,藉此區分各類型資料商品。
為俾利能更清楚了解本發明,於此提出實施例說明。請參閱第3圖,第3圖為本發明之大量資料匯入篩選管理的系統之實施例圖。如第1圖至第3圖所示,主要透過以下步驟來 完成以自動化方式配合展示介面240需求抽取主機資料庫之資料:
1.資料匯入模組170係執行定時排程作業抓取XML資料,歸類至實體位置或是資料庫暫存,並把資料庫210暫存做為待分類之商品資料。
2.建立索引分類模組110係到指定的資料庫220接收新的資料,並通知資料篩選模組120啟動其模組來處理檔案,其運作包括:
(a)在客服人員傳送XML資料格式有問題時,即會產生錯誤之訊息。
(b)遇到網路斷線,或資料庫當機沒有回應時,產生告警訊息。
(c)若有新資料傳入,指定的資料庫不存在,或指定的索引目標端無效時,產生錯誤訊息於螢幕上;
(d)接收或更新資料過程處理失敗或錯誤時,產生錯誤訊息於螢幕上。
(e)接收資料匯入模組170完成時,會將資料依據其特性而分類並導入至資料庫220各個相關之資料表格中,透過區分型態來分類是否需要可再進一步擷取,並建立其索引值。
(f)接收或更新資料完成時,檢查一下接收資料是否齊全,若不齊全則產生錯誤訊息。
(g)接收到其他功能模組訊息時,將其訊息直接顯示於螢幕上。
(h)每日利用結構化查詢語言(Structured Query Language, SQL)整合服務(Integration Services)提供定時排程功能,可接收及輸出資料至資料庫220。
3.資料篩選模組120係將爬取到商品資料且已存進資料庫220進行篩選作業,其運作包括:(a)主要功能係爬取到商品資料已存進資料庫220進行篩選作業,且需預先建立過濾資料表將無法判斷之符號或詞句等不相關內容濾除,或建立需要代替之字詞或符號之資料表,然後將資料自動傳至下一模組做處理;(b)若有資料內容無法判斷且多數為亂碼,逕行發送給資料審核模組180做審核參考,但這部分資料約占1%以下;(c)提供定時排程檢查功能,若作業處理中需要其他功能模組配合進行,則產生處理訊息,並下達指令,送交相關功能模組。
4.資料審核模組180接收資料篩選模組120之商品資料內容,資料內容大多是無法判斷且為亂碼,需要審核資料筆數非常少,且主動產製一個審核介面供客服人員做審核動作。
5.資料比對模組130係將執行資料比對產生作業,會接受資料篩選模組120或者是資料審核模組180傳遞的指令產生相對應的資料,且依據設定映射模組140的「各個商品資料類型」之資料表交叉比對,並會將比對完的資料逕行發送給資料管理模組150彙整至來源類型欄位,比對方法是以權重值公式計算。
請參閱第4圖至第6圖,係為本發明之大量資料匯入篩選管理的方法之資料計算解說圖。如第4圖至第6圖所示,該比對方法以權重值公式計算,以一實施例進行說明,其步驟 如下:
i.該XML類型之輸入商品透過設定映射模組140所定義出「資料類型資料表」做交叉比對。例如:「asus平板電腦+mPro最新校園專案優惠月繳750」為資料檢索字詞進行資料比對,假設「比對資料表」中,符合資料檢索條件字元而被檢索出來的結果有:「iPad min平板」、「輕鬆FUN月繳750」、「大家講月租方案750」、「mPro450+3G183」、及「平板+mPro750」等結果標的。其中以公式Nd/Ns作為權重值計算之一,依據其規則拆解「asus平板電腦+mPro最新校園專案優惠月繳750」且符合欲比對字串之相同字的個數,比值分別為「iPad min平板」:5/10、「輕鬆FUN月繳750」:6/10、「大家講月租方案750」:5/10、「mPro450+3G183」:7/13、及「平板+mPro750」:10/10。 其以上述例子可知「平板+mPro750」在Nd/Ns計算數值最高。
ii.以「asus平板電腦+mPro最新校園專案優惠月繳750」資料檢索字詞進行第二階段,符合欲比對字串相同字的位置順序比對評分,其中以公式Q()作為權重值計算之一,其比對之評分結果分別為:「iPad min平板」:0.09、「輕鬆FUN月繳750」:0.18、「大家講月租方案750」:0.12、「mPro450+3G183」:0.138、及「平板+mPro750」:0.3。其以上述例子可知「平板+mPro750」在Q()計算數值最高。
iii.以「asus平板電腦+mPro最新校園專案優惠月繳750」資料檢索字詞進行第三階段,符合欲比對字串相同字詞的連續性比對評分,其中以公式(S(Pd))/Ps作為權重值計算之一,其比對之評分結果分別為:「iPad min平板」:2/10、「輕鬆FUN月繳750」:5/10、「大家講月租方案750」:3/10、「mPro450+3G183」:4/13、及「平板+mPro750」:4/10。其以上述例子可知「輕鬆FUN月繳750」在(S(Pd))/Ps計算數值最高。
iv.最後,傳回各計算數值時,先將各權重比值跟各權重因子加以相乘,並以加總數值最高作為選擇資料分類之依據,可以得到最後選擇傳回資料之分類為:「平板+mPro750」。
如上所述,該權重值公式計算之流程說明如下:
(a)主要功能係執行比對作業接受資料篩選模組120或者是資料審核模組180傳遞的指令產生相對應的資料,再依據設定映射模組140的「各個商品資料類型」之資料表 交叉比對。
(b)依據收到各權重比值跟各權重因子加以相乘,並以加總數值最高作為選擇資料分類之依據,可更有效和精準判斷此產品資料屬於何種類型。
(c)再將資料回傳資料管理模組150且彙整至來源類型欄位,並通知資料管理模組150處理作業已經完成。
(d)提供定時排程檢查功能,若作業處理中需要其他功能模組配合進行,則產生處理訊息,並下達指令,送交相關功能模組。
(e)依據其他功能模組的要求,顯示指定訊息於螢幕上,或mail通知其客服人員。
(f)依據收到其他功能模組的要求,將其錯誤訊息顯示於螢幕上、列印於報表上、並記錄於系統事件日誌資料庫。
(g)依據客服人員的需求,可以不限次數的查詢系統的事件記錄、呼叫記錄、目前有哪些XML的商品資料正在處理中,並可隨時產生報表。
6.設定映射模組140係預先定義「各個商品資料類型」之資料表與「各個索引目標端定義處理」之資料表供資料比對模組130和資料管理模組150比對資料及指定放置位置寫入到主機資料庫,其運作包括:
(a)將預先定義「各個商品資料類型」之資料表與「各個索引目標端定義處理」之資料表,並將此資料表供資料比對模組130和資料管理模組150讀取,進而處理下一階段,且寫入過程中,若發生資料格式錯誤,或任何異常 錯誤,即將這些錯誤資料寫入資料記錄。
(b)未來若客服人員有擴欄或者是更改產品名稱需求,可在此模組中彈性增加欄位數量與名稱,不需直接更改程式。
7.資料管理模組150係把商品資料擷取至主機資料庫230且需要進行管理的動作,並判斷匯入的資料特性,爬取XML型態之商品資料和寫入各資料庫和資料表中,其運作包括:
(a)可以依據設定映射模組140所傳送過來資料表,管理主機資料庫內所有的商品資料。
(b)接收資料庫的資料後,可根據資料特性,逕行決定此筆資料儲存於主機資料庫之哪一類資料表格。
(c)可提供資料抽取模組160,所篩選與比對過的大量正確資料,且提供資料抽取模組160逕行搜尋主機資料庫230之該資料表格。
(d)遇到網路斷線,或資料庫當機沒有回應時,產生告警訊息。
(e)每日利用結構化查詢語言;(Structured Query Language,SQL)整合服務(Integration Services)提供定時排程功能,可接收及輸出資料。
8.資料抽取模組160將標準化過的商品資料從主機資料庫讀取,其運作包括:
(a)根據需求者依據展示介面240所提出申請需求彙整進行批次遞送,以供後續抽取主機資料庫之需求資料,且把 查詢結果輸出標準格式,並將資料回傳於展示介面240。
(b)自動發mail通知該人員已經開始在處理此份申請案件。
(c)若處理好之後,自動通知該申請人員。
請參閱第7圖,第7圖為本發明之大量資料匯入篩選管理的系統與方法之時序圖。如第7圖所示,其資料流程順序圖係說明各模組之間的呼叫順序,按照呼叫時間來排序,由上而下,由左而右。傳送大量XML商品資料至資料匯入模組170,資料匯入模組170會存成一份檔案至實體位置及開始爬取整份文件至資料庫暫存,接者資料匯入模組170開始呼叫建立索引分類模組110,接著建立索引分類模組110回傳訊息給資料匯入模組170,要求資料匯入模組170下載資料至資料庫,並且將資料交給建立索引分類模組110處理;建立索引分類模組110判斷各索引目標端是否有值,可將其分為單一、多值或空值,建立一份完整索引表格,且將結果存放於資料庫。再呼叫資料篩選模組120繼續處理,資料篩選模組120負責置換、過濾無法判斷之符號或詞句等不相關內容;假設一般資料通過資料篩選模組120的處理之後,會繼續啟動資料比對模組130,將正確的資料送至資料比對模組130,與設定映射模組140做比對動作;若資料內容有誤需要修改,則會通知資料審核模組180會進入資料編輯流程送出後,會將編輯過後資料再送至資料比對模組130處理。
需求者一開始會預先至設定映射模組140設定「各個商品資料類型」與「各個索引目標端定義處理」之對應資料表,接者設定映射模組140會等待資料比對模組130和管理模組150呼叫,回傳對應資料表給資料比對模組130及資料管理 模組150。
若展示介面240開始提出申請需求,接者資料抽取模組160開始呼叫資料管理模組150,接著資料管理模組150回傳訊息給資料抽取模組160,資料抽取模組160寄發簡訊通知該人員已經開始在處理此份申請案件,處理完成之後,資料管理模組150直接將資料傳送給資料抽取模組160,資料抽取模組160回傳給展示介面240。
上列詳細說明乃針對本發明之一可行實施例進行具體說明,惟該實施例並非用以限制本發明之專利範圍,凡未脫離本發明技藝精神所為之等效實施或變更,均應包含於本案之專利範圍中。
綜上所述,本案不僅於技術思想上確屬創新,並具備習用之傳統方法所不及之上述多項功效,已充分符合新穎性及進步性之法定發明專利要件,爰依法提出申請,懇請 貴局核准本件發明專利申請案,以勵發明,至感德便。
100‧‧‧大量資料匯入篩選管理的系統
110‧‧‧建立索引分類模組
120‧‧‧資料篩選模組
130‧‧‧資料比對模組
140‧‧‧設定映射模組
150‧‧‧資料管理模組
160‧‧‧資料抽取模組
170‧‧‧資料匯入模組
180‧‧‧資料審核模組

Claims (15)

  1. 一種大量資料匯入篩選管理的系統,其至少包括:一建立索引分類模組,接收資料並判斷各目標端是否有索引值,且預先建置索引目標端與索引值儲存於資料庫;一資料篩選模組,設定組態並接收該建立索引分類模組之資料進行過濾;一資料審核模組,接收該資料篩選模組之資料,且該些資料係為無法判斷或亂碼,並主動建立審核介面;一資料比對模組,接收該資料篩選模組或該資料審核模組之資料,並依據設定映射模組之資料表進行交叉比對;該設定映射模組,利用程式邏輯進行多層群組彙整,並預先定義各個模組之資料表,且轉換為該系統之標準格式資料;一資料管理模組,接收該設定映射模組之資料表與該資料比對模組之資料,依據各資料表欄位進行特徵名稱分類;以及一資料抽取模組,依據展示介面需求彙整進行批次遞送,接收該資料管理模組之資料,再將該些資料回傳至該展示介面。
  2. 如申請專利範圍第1項所述之大量資料匯入篩選管理的系統,其中,該些索引值其係為單一值、多值與空值,該單一值係為目標端不需再進一步解析,且該多值係為目標端更包含其他索引值,需再進一步解析、而該空值係為目標 端無其它索引值,不需要進一步解析。
  3. 如申請專利範圍第1項所述之大量資料匯入篩選管理的系統,其更包括資料匯入模組,接收外部資料傳送至該建立索引分類模組,該資料匯入模組執行定時排程作業,係接收資料並歸類至實體位置或資料庫進行暫存。
  4. 如申請專利範圍第1項所述之大量資料匯入篩選管理的系統,其中,該資料比對模組與該資料管理模組係接收該些索引值,並回傳分析後之資料儲存於該資料庫。
  5. 如申請專利範圍第1項所述之大量資料匯入篩選管理的系統,其中,該些資料表係為各個資料類型之資料表與各個目標端處理之資料表,並提供該資料比對模組及該資料管理模組讀取預定資料及指定放置位置。
  6. 如申請專利範圍第5項所述之大量資料匯入篩選管理的系統,其中,該資料管理模組依據該設定映射模組之各個目標端處理之資料表交叉比對,將該些資料預先設置來源類型、目的名稱、目的資料表、目的欄位或擷取處理欄位,並儲存於各資料庫和資料表。
  7. 一種大量資料匯入篩選管理的方法,其步驟至少包括:1.該建立索引分類模組接收資料,並利用索引目標端名稱進行分類,及建立索引值與索引目標端;2.該資料篩選模組設定組態並接收該建立索引分類模組之資料進行過濾,若可進行判斷分析則進行下列步驟4,若否則進行下列步驟3;3.該資料審核模組接收該資料篩選模組之資料,且該些資 料係為無法判斷分析或亂碼,並主動建立審核介面進行除錯;4.該資料比對模組接收該資料篩選模組或該資料審核模組之資料,並依據一設定映射模組之資料表進行交叉比對;5.該設定映射模組利用程式邏輯進行多層群組彙整,並預先定義各個模組之資料表,且轉換為該系統之標準格式資料;6.該資料管理模組接收該設定映射模組之資料表與該資料比對模組之資料,且依據各資料表欄位進行特徵名稱分類;以及7.該資料抽取模組依據展示介面需求彙整進行批次遞送,接收該資料管理模組之資料,再將該些資料回傳至該展示介面。
  8. 如申請專利範圍第7項所述之大量資料匯入篩選管理的方法,其中,該步驟1之索引值分類係為單一值、多值與空值,該單一值係為目標端僅具有單一索引值,不需再進一步解析,且該多值係為目標端更包含其他索引值,需再進一步解析、而該空值係為目標端無其它索引值,故不需要進一步解析。
  9. 如申請專利範圍第7項所述之大量資料匯入篩選管理的方法,其中,該資料比對模組與該資料管理模組接收該些索引目標端之索引值,進行分析比對並將結果儲存於資料庫。
  10. 如申請專利範圍第7項所述之大量資料匯入篩選管理的方法,其中,該步驟4更包括該資料比對模組接收該資料篩選模組、該資料審核模組與該設定映射模組之資料,將比對分析後之資料傳送至該資料管理模組,該資料管理模組進行匯整分類。
  11. 如申請專利範圍第7項所述之大量資料匯入篩選管理的方法,其中,該步驟4之比對分析方法係為依據資料數據及比對流程,進行權重值之演算,並依該權重值進行分類,其該權重值公式如下: α+β+γ=10 ,表示其中若計算數 值小於0.1,則直接取0.1; 表示其中若計算數值小於 0.1,則直接取0.1;Ws=權重值分數加總;α、β、γ=權重因子;Q=順序質量;Nd=索引目標端之資料內容欲比對的名稱相同字數;Ns=設定映射模組之定義資料表的關鍵字字數;=索引目標端之資料內容欲比對的名稱位置順序;=設定映射模組之定義資料表的關鍵字位置順序;S(Pd)=索引目標端之資料內容欲比對的名稱相同字詞連續性;以及Ps=設定映射模組之定義資料表的關鍵字詞連續性。
  12. 如申請專利範圍第7項所述之大量資料匯入篩選管理的方法,其中,該步驟6該資料管理模組根據該設定映射模組進行特徵名稱分類,以分析判斷資料遞送流程,並將資料紀錄儲存於資料庫。
  13. 如申請專利範圍第7項所述之大量資料匯入篩選管理的方法,其中,該步驟7該資料抽取模組依據自動化排程,接收外部指令進行彙整批次傳送該些資料。
  14. 如申請專利範圍第12項所述之大量資料匯入篩選管理的方法,其中,該判斷資料遞送流程,係依據該設定映射模組之特定欄位名稱所設定的內容去執行。
  15. 如申請專利範圍第14項所述之大量資料匯入篩選管理的方法,其中,該自動化排程,係為指無需人工介入,依據規劃的流程自動執行下一個流程,其中包括匯集需求、批次遞送、抽取資料、辨識資料內容及型態、資料正規化之相關流程。
TW103125935A 2014-07-30 2014-07-30 A large number of data into the system and methods of screening management TWI549008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW103125935A TWI549008B (zh) 2014-07-30 2014-07-30 A large number of data into the system and methods of screening management

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW103125935A TWI549008B (zh) 2014-07-30 2014-07-30 A large number of data into the system and methods of screening management

Publications (2)

Publication Number Publication Date
TW201604694A true TW201604694A (zh) 2016-02-01
TWI549008B TWI549008B (zh) 2016-09-11

Family

ID=55809645

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103125935A TWI549008B (zh) 2014-07-30 2014-07-30 A large number of data into the system and methods of screening management

Country Status (1)

Country Link
TW (1) TWI549008B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI758725B (zh) * 2020-05-08 2022-03-21 台達電子工業股份有限公司 資料分析系統和資料分析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9213961B2 (en) * 2008-09-21 2015-12-15 Oracle International Corporation Systems and methods for generating social index scores for key term analysis and comparisons
US9171088B2 (en) * 2011-04-06 2015-10-27 Google Inc. Mining for product classification structures for internet-based product searching
CN102831121B (zh) * 2011-06-15 2015-07-08 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
TW201300722A (zh) * 2011-06-29 2013-01-01 Asia Vital Components Co Ltd 散熱模組結構及其製造方法

Also Published As

Publication number Publication date
TWI549008B (zh) 2016-09-11

Similar Documents

Publication Publication Date Title
US11403464B2 (en) Method and system for implementing semantic technology
CN109426543B (zh) 针对混合劳动力的机器人操作控制系统
TWI453608B (zh) System and method for managing a large number of multiple data
CN109151023A (zh) 任务分配方法、装置及存储介质
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
CN114202755A (zh) 基于ocr和nlp技术的交易背景真实性审核方法和系统
CN110765101B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN111310032B (zh) 资源推荐方法、装置、计算机设备及可读存储介质
CN107533554A (zh) 文档验证系统
CN116383198A (zh) 基于大数据的决策分析方法及系统
CN110210038A (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
CN112328868A (zh) 一种基于信息数据的信用评估与授信申请系统及方法
TWI549008B (zh) A large number of data into the system and methods of screening management
CN117217699A (zh) 一种合同审批管理系统及方法
CN105913071A (zh) 信息处理装置、信息处理系统、信息处理方法
CN111159213A (zh) 一种数据查询方法、装置、系统和存储介质
CN115471148A (zh) 数据处理方法、装置、设备及存储介质
CN112767933B (zh) 公路养护管理系统的语音交互方法、装置、设备及介质
US20120233175A1 (en) Database, slip data management server, and index data management program
CN113886538A (zh) 医保报销信息查询方法、装置、电子设备和存储介质
CN113689314A (zh) 一种餐厨废弃物数据管理平台
KR101809362B1 (ko) Ocr 시스템을 이용한 거래정보 관리 시스템과 이를 이용한 전산 거래정보 관리방법
CN116991873A (zh) 基于知识图谱的目标报送数据处理方法、装置和服务器
CN115204916A (zh) 一种营销策略预测方法及装置
CN115293740A (zh) 信息处理方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees