TW201441850A - 文檔伺服器分壓系統及方法 - Google Patents

文檔伺服器分壓系統及方法 Download PDF

Info

Publication number
TW201441850A
TW201441850A TW102116021A TW102116021A TW201441850A TW 201441850 A TW201441850 A TW 201441850A TW 102116021 A TW102116021 A TW 102116021A TW 102116021 A TW102116021 A TW 102116021A TW 201441850 A TW201441850 A TW 201441850A
Authority
TW
Taiwan
Prior art keywords
document
server
sub
processed
main
Prior art date
Application number
TW102116021A
Other languages
English (en)
Inventor
Chung-I Lee
De-Yi Xie
Shuai-Jun Tao
zhi-qiang Yi
Jun-Chao Yao
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Publication of TW201441850A publication Critical patent/TW201441850A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一種文檔伺服器分壓系統及方法,包括:將所需上傳的文檔上傳至應用伺服器所對應的子文檔伺服器中;將所述上傳的文檔的資訊存儲於該子文檔伺服器所對應的子文檔資料庫中,並在子文檔資料庫中將所述文檔標記為待處理;讀取所述標記為待處理的文檔,並對所述待處理的文檔進行預處理;判斷預處理後的文檔是否需要上傳到主文檔伺服器上;將預處理後的文檔上傳到主文檔伺服器;將所述預處理後的文檔的資訊存儲到主文檔資料庫中,並將所述預處理後的文檔在所述子文檔資料庫中所對應的文檔標記為已處理;刪除所述子文檔伺服器上已經處理過的文檔。

Description

文檔伺服器分壓系統及方法
本發明涉及一種文檔伺服器分壓系統及方法。
目前,在大多數情況下,涉及文檔存儲的應用伺服器是將文檔存儲在單獨的文檔伺服器上,應用伺服器直接訪問該文檔伺服器進行文檔的存取。無論是什麼文檔,只要是應用伺服器上傳的文檔都將存儲在文檔伺服器上。在很多情況下,上傳的文檔是需要再次做處理之後才能確定其正確性的,之後應用伺服器和與應用伺服器相關的程式會再次將文檔從文檔伺服器上下載下來,處理完成後再上傳至文檔伺服器,這樣的來回將增加對文檔伺服器的訪問次數和存儲壓力。
鑒於以上內容,有必要提供文檔伺服器分壓系統及方法,其可以有效的減少對主文檔伺服器的訪問次數和存儲壓力。
一種文檔伺服器分壓系統,其包括:上傳模組,用於將用戶端所需上傳的文檔上傳至應用伺服器所對應的子文檔伺服器中;所述上傳模組,還用於同時將所述上傳的文檔的資訊存儲於該子文檔伺服器所對應的子文檔資料庫中,並在子文檔資料庫中將所述文檔標記為待處理;預處理模組,用於在預設時間段中,按照預設時間間隔讀取所述標記為待處理的文檔,並對所述待處理的文檔進行預處理;判斷模組,用於判斷預處理後的文檔是否需要上傳到主文檔伺服器上;所述上傳模組,還用於當預處理後的文檔需要上傳到主文檔伺服器上時,將預處理後的文檔上傳到主文檔伺服器;所述上傳模組,還用於將所述預處理後的文檔的資訊存儲到主文檔資料庫中,同時將所述預處理後的文檔在所述子文檔資料庫中所對應的文檔標記為已處理;刪除模組,用於刪除所述子文檔伺服器上已經處理過的文檔。
一種文檔伺服器分壓方法,該方法包括:上傳步驟一,將用戶端所需上傳的文檔上傳至應用伺服器所對應的子文檔伺服器中;上傳步驟二,同時將所述上傳的文檔的資訊存儲於該子文檔伺服器所對應的子文檔資料庫中,並在子文檔資料庫中將所述文檔標記為待處理;預處理步驟,在預設時間段中,按照預設時間間隔讀取所述標記為待處理的文檔,並對所述待處理的文檔進行預處理;判斷步驟,判斷預處理後的文檔是否需要上傳到主文檔伺服器上;上傳步驟三,當預處理後的文檔需要上傳到主文檔伺服器上時,將預處理後的文檔上傳到主文檔伺服器;上傳步驟四,將所述預處理後的文檔的資訊存儲到主文檔資料庫中,同時將所述預處理後的文檔在所述子文檔資料庫中所對應的文檔標記為已處理;刪除步驟,刪除所述子文檔伺服器上已經處理過的文檔。
相較於習知技術,所述文檔伺服器分壓系統及方法,先在子文檔伺服器上對用戶端需要上傳的文檔進行預處理,再將預處理後所需上傳的文檔上傳到主文檔伺服器上。這樣可以有效的減少對主文檔伺服器的訪問次數和存儲壓力。
7...主文檔伺服器
4...主文檔資料庫
2...子文檔伺服器
3...應用伺服器
5...子文檔資料庫
11...儲存器
12...處理器
8...用戶端
10...文檔伺服器分壓系統
100...上傳模組
101...判斷模組
102...預處理模組
103...刪除模組
圖1是本發明文檔伺服器分壓系統的應用環境圖。
圖2是本發明文檔伺服器分壓系統的模組圖。
圖3是本發明文檔伺服器分壓方法的較佳實施例的流程圖。
如圖1所示,是本發明文檔伺服器分壓系統的應用環境圖。在本實施例中,文檔伺服器分壓系統10應用於子文檔伺服器2中來減少主文檔伺服器7的存儲壓力及對主文檔伺服器7的訪問次數。
所述主文檔伺服器7對應一個主文檔資料庫4、N個子文檔伺服器2、N個子文檔資料庫5及N個應用伺服器3。每個應用伺服器3對應各自的一個子文檔伺服器2、一個子文檔資料庫5。
所述應用伺服器3用於與用戶端8進行通信,將用戶端8所需上傳的文檔上傳到子文檔伺服器2。
所述子文檔伺服器2用於保存該子文檔伺服器2所對應的應用伺服器3所上傳的文檔。
所述子文檔資料庫5用於存儲所述應用伺服器3所上傳的文檔的資訊,所述上傳的文檔的資訊包括該文檔在子文檔伺服器2中的文檔大小、文檔名、存儲路徑及該文檔的標記等。所述標記用於標識文檔是否已經預處理。當文檔已經預處理時,文檔標記為已處理;當文檔未預處理時,文檔標記為待處理。
所述主文檔伺服器7用於接收上傳的經過預處理後的文檔。
所述主文檔資料庫4用於存儲經過預處理後的文檔的資訊。所述預處理後的文檔的資訊包括在主文檔伺服器7中的文檔大小、文檔名及存儲路徑等。
如圖2所示,是本發明文檔伺服器分壓系統的模組圖。在本實施例中,所述文檔伺服器分壓系統10包括上傳模組100、判斷模組101、預處理模組102及刪除模組103。本發明所稱的模組是指一種能夠被處理器12所執行並且能夠完成固定功能的一系列電腦程式段,其存儲在儲存器11中。在本實施例中,關於各模組的功能將在圖3的流程圖中具體描述。
如圖3所示,是本發明文檔伺服器分壓方法的較佳實施例的流程圖。根據不同的需求,該流程圖中步驟的順序可以改變,某些步驟可以省略。
步驟S10,上傳模組100透過應用伺服器3將用戶端所需上傳的文檔上傳並存儲至該應用伺服器3所對應的子文檔伺服器2中。
步驟S11,該上傳模組100同時將所述上傳的文檔的資訊存儲於該子文檔伺服器2所對應的子文檔資料庫5中,上傳及存儲成功後,在子文檔資料庫5中將所述文檔標記為待處理。
步驟S12,在預設時間段中,預處理模組102按照預設時間間隔T(如5S)讀取所述子文檔資料庫5中的標記為待處理的文檔,並對所述待處理的文檔進行預處理。所述預處理包括讀取文檔內容、文檔重命名、文檔合併、文檔壓縮及從文檔中提取所需的內容。
在本實施例中,所述預處理以從文檔中提取所需的內容為例,預處理模組102先利用正則運算式的方法排除待處理文檔中的干擾資訊,如所需的內容不在文檔的標題中,就可以把文檔的標題先排除。所述正則運算式是對文檔中的字元串操作的一種邏輯公式,即用事先定義好的一些特定字元、及這些特定字元的組合,組成一個規則字串,用該規則字串把文檔中的干擾資訊過濾掉。
然後利用光學字元識別技術(Optical Character Recognition,OCR)從排除後的待處理的文檔中提取所需內容。所述光學字元識別技術是對所述文檔進行圖形分析處理(如文字形狀匹配),獲取文字資訊的過程。
在另外一個實施例中,所述預處理以對文檔的合併及壓縮為例,用戶端需要先合併文檔A1、文檔A2,再將合併後的文檔進行壓縮;預處理模組102先利用pdfbox元件中提供的應用程式編程介面(Application Programming Interface,API)方法,調用該API方法中的MergeFile方法合併文檔A1、文檔A2;再透過iTextSharp元件提供的API方法,將合併後的文檔重新設定映射格式和解析度,從而降低合併後的文檔的大小。
在本實施例中,所述預設時間段可以為一天中的任意一個時間段,如每天上午8點到晚上11點。
步驟S13,判斷模組101判斷預處理後的文檔是否需要上傳到主文檔伺服器7上。當預處理後的文檔需要上傳到主文檔伺服器7上時,執行步驟S14;當預處理後的文檔不需要上傳到主文檔伺服器7上時,該流程結束。
所述判斷的方法可以根據用戶在所述用戶端的用戶介面上的選項來判斷,當用戶選擇的選項為“是”時,即需要上傳到主文檔伺服器7上;當用戶選擇的選項為“否”時,即不需要上傳到主文檔伺服器7上。也可以根據預設規則來判斷,所述預設規則如壓縮後的文檔大小在一定範圍內(0-10M)內可以上傳、文檔格式為word、pdf的可以上傳等。
步驟S14,上傳模組100將預處理後的文檔上傳到主文檔伺服器7。
步驟S15,上傳模組100將所述預處理後的文檔的資訊存儲到主文檔資料庫4中,直至上傳及存儲成功後,同時將所述預處理後的文檔在所述子文檔資料庫5中所對應的文檔的標記更新為已處理。
步驟S16,刪除模組103刪除所述子文檔伺服器2上已經處理過的文檔以釋放該子文檔伺服器2的空間。
本發明所述文檔伺服器分壓系統及方法,先在子文檔伺服器上對用戶端需要上傳的文檔進行預處理,再將預處理後所需上傳的文檔上傳到主文檔伺服器上。這樣可以有效的減少對主文檔伺服器的訪問次數和存儲壓力。當有多個應用伺服器時,每個應用伺服器都對應一個子文檔伺服器,對主文檔伺服器的分壓效果會更明顯。
最後應說明的是,以上實施例僅用以說明本發明的技術方案而非限制,儘管參照較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或等同替換,而不脫離本發明技術方案的精神和範圍。
2...子文檔伺服器
11...儲存器
12...處理器
10...文檔伺服器分壓系統
100...上傳模組
101...判斷模組
102...預處理模組
103...刪除模組

Claims (10)

  1. 一種文檔伺服器分壓系統,該系統包括:
    上傳模組,用於將用戶端所需上傳的文檔上傳至應用伺服器所對應的子文檔伺服器中;
    所述上傳模組,還用於同時將所述上傳的文檔的資訊存儲於該子文檔伺服器所對應的子文檔資料庫中,並在子文檔資料庫中將所述文檔標記為待處理;
    預處理模組,用於在預設時間段中,按照預設時間間隔讀取所述標記為待處理的文檔,並對所述待處理的文檔進行預處理;
    判斷模組,用於判斷預處理後的文檔是否需要上傳到主文檔伺服器上;
    所述上傳模組,還用於當預處理後的文檔需要上傳到主文檔伺服器上時,將預處理後的文檔上傳到主文檔伺服器;
    所述上傳模組,還用於將所述預處理後的文檔的資訊存儲到主文檔資料庫中,同時將所述預處理後的文檔在所述子文檔資料庫中所對應的文檔標記為已處理;
    刪除模組,用於刪除所述子文檔伺服器上已經處理過的文檔。
  2. 根據申請專利範圍第1項之文檔伺服器分壓系統,所述上傳的文檔的資訊包括該文檔在子文檔伺服器中的文檔大小、文檔名、存儲路徑及該文檔的標記,所述標記用於標識文檔是否已經預處理。
  3. 根據申請專利範圍第1項之文檔伺服器分壓系統,所述主文檔伺服器對應一個主文檔資料庫、多個子文檔伺服器、多個子文檔資料庫及多個應用伺服器;
    每個應用伺服器對應各自的一個子文檔伺服器、一個子文檔資料庫。
  4. 根據申請專利範圍第1項之文檔伺服器分壓系統,所述預處理包括讀取文檔內容、文檔重命名、文檔合併、文檔壓縮及從文檔中提取所需的內容。
  5. 根據申請專利範圍第1項之文檔伺服器分壓系統,所述預處理後的文檔的資訊包括在主文檔伺服器中的文檔大小、文檔名及存儲路徑。
  6. 一種文檔伺服器分壓方法,該方法包括:
    上傳步驟一,將用戶端所需上傳的文檔上傳至應用伺服器所對應的子文檔伺服器中;
    上傳步驟二,同時將所述上傳的文檔的資訊存儲於該子文檔伺服器所對應的子文檔資料庫中,並在子文檔資料庫中將所述文檔標記為待處理;
    預處理步驟,在預設時間段中,按照預設時間間隔讀取所標記為待處理的文檔,並對所述待處理的文檔進行預處理;
    判斷步驟,判斷預處理後的文檔是否需要上傳到主文檔伺服器上;
    上傳步驟三,當預處理後的文檔需要上傳到主文檔伺服器上時,將預處理後的文檔上傳到主文檔伺服器;
    上傳步驟四,將所述預處理後的文檔的資訊存儲到主文檔資料庫中,同時將所述預處理後的文檔在所述子文檔資料庫中所對應的文檔標記為已處理;
    刪除步驟,刪除所述子文檔伺服器上已經處理過的文檔。
  7. 根據申請專利範圍第6項之文檔伺服器分壓方法,所述上傳的文檔的資訊包括該文檔在子文檔伺服器中的文檔大小、文檔名、存儲路徑及該文檔的標記;所述標記用於標識文檔是否已經預處理。
  8. 根據申請專利範圍第6項之文檔伺服器分壓方法,所述主文檔伺服器對應一個主文檔資料庫、多個子文檔伺服器、多個子文檔資料庫及多個應用伺服器;
    每個應用伺服器對應各自的一個子文檔伺服器、一個子文檔資料庫。
  9. 根據申請專利範圍第6項之文檔伺服器分壓方法,所述預處理包括讀取文檔內容、文檔重命名、文檔合併、文檔壓縮及從文檔中提取所需的內容。
  10. 根據申請專利範圍第6項之文檔伺服器分壓方法,所述預處理後的文檔的資訊包括在主文檔伺服器中的文檔大小、文檔名及存儲路徑。
TW102116021A 2013-04-29 2013-05-06 文檔伺服器分壓系統及方法 TW201441850A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310157929.0A CN104123327A (zh) 2013-04-29 2013-04-29 文件服务器分压系统及方法

Publications (1)

Publication Number Publication Date
TW201441850A true TW201441850A (zh) 2014-11-01

Family

ID=51768739

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102116021A TW201441850A (zh) 2013-04-29 2013-05-06 文檔伺服器分壓系統及方法

Country Status (2)

Country Link
CN (1) CN104123327A (zh)
TW (1) TW201441850A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104486434A (zh) * 2014-12-23 2015-04-01 深圳供电局有限公司 一种移动终端文件上传、下载的方法及移动终端
CN105162893A (zh) * 2015-10-16 2015-12-16 珠海格力电器股份有限公司 视频文件的上传方法、上传系统、访问方法及访问系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438136B2 (en) * 2007-09-27 2013-05-07 Symantec Corporation Backup catalog recovery from replicated data
CN101741896A (zh) * 2009-11-24 2010-06-16 中兴通讯股份有限公司 Web系统中的数据处理方法、装置及系统
CN101964795A (zh) * 2010-09-30 2011-02-02 北京世纪互联工程技术服务有限公司 日志采集系统、日志采集方法和日志回收服务器
CN102682590B (zh) * 2011-03-16 2014-04-30 高德软件有限公司 实时交通信息处理方法和装置
CN102724290B (zh) * 2012-05-23 2015-01-28 华为技术有限公司 一种获取目标客户群的方法、设备及系统

Also Published As

Publication number Publication date
CN104123327A (zh) 2014-10-29

Similar Documents

Publication Publication Date Title
US20230126005A1 (en) Consistent filtering of machine learning data
US10366053B1 (en) Consistent randomized record-level splitting of machine learning data
US8458186B2 (en) Systems and methods for processing and managing object-related data for use by a plurality of applications
US9984428B2 (en) Systems and methods for structuring data from unstructured electronic data files
US11734364B2 (en) Method and system for document similarity analysis
WO2019237540A1 (zh) 财政数据的获取方法、装置、终端设备及介质
US20170177597A1 (en) Biological data systems
US9189504B2 (en) Application source code scanning for database migration
CN108536745B (zh) 基于Shell的数据表提取方法、终端、设备及存储介质
WO2017036348A1 (zh) 一种可扩展标记语言xml文档的压缩、解压方法和装置
US11074133B2 (en) Method, electronic device and computer readable medium of file management
JP2019109693A (ja) データ管理装置、データ管理方法、およびプログラム
WO2019024231A1 (zh) 数据自动匹配方法、电子设备及计算机可读存储介质
WO2019075968A1 (zh) 表格信息跨页识别方法、电子设备及计算机可读存储介质
US20160110324A1 (en) Compression of cascading style sheet files
US10997181B2 (en) Generating a data structure that maps two files
US20140222772A1 (en) Storage system and methods for time continuum data retrieval
US20220083507A1 (en) Trust chain for official data and documents
TW201441850A (zh) 文檔伺服器分壓系統及方法
CN112965939A (zh) 一种文件合并方法、装置和设备
US20170060998A1 (en) Method and apparatus for mining maximal repeated sequence
CN111651531B (zh) 数据导入方法、装置、设备及计算机存储介质
CN112417819A (zh) 一种Word文档信息提取方法、装置、电子设备及介质
US9286372B2 (en) Content management with RDBMS
Alshammari et al. A new technique for file carving on hadoop ecosystem