TW202123026A

TW202123026A - 資料歸檔方法、裝置、電腦裝置及存儲介質

Info

Publication number: TW202123026A
Application number: TW108140340A
Authority: TW
Inventors: 黃安琪; 陳敬軒
Original assignee: 鴻海精密工業股份有限公司
Priority date: 2019-11-04
Filing date: 2019-11-06
Publication date: 2021-06-16
Also published as: CN112783825B; US11397756B2; US20210133212A1; CN112783825A; TWI745777B

Abstract

本發明提供一種資料歸檔方法、裝置、電腦裝置及存儲介質，所述方法包括：獲取待處理資料的資料格式；按照待處理資料的資料格式在第一資料庫中查找是否存在與資料格式相同的資料類別；若存在則按照第一規則對待處理資料中的特徵資進行提取，並將特徵資訊按照待處理資料的資料格式所屬的資料類別的存儲規則存儲於第一資料庫中；若不存在則按照第二規則在第二資料庫中查找待處理資料所屬的資料類別，並按照第一規則對所述待處理資料中的特徵資訊進行提取，將特徵資訊按照待處理資料的資料格式所屬的資料類別的存儲規則存儲於第一資料庫中。

Description

資料歸檔方法、裝置、電腦裝置及存儲介質

本發明涉及資料歸檔技術領域，具體涉及一種資料歸檔方法、資料歸檔裝置、電腦裝置及電腦存儲介質。

大資料時代，各個領域都需要對獲取到的資料進行分類統計整理，不同應用領域需要整理的資料類型也是多種多樣。傳統的資料歸檔方式是通過技術人員對統計資料進行分門別類的整理，並將整理好的資料存儲於資料庫中。在實際操作中，會出現由於工作人員的邏輯錯誤、粗心等原因而導致資料歸檔錯誤的情況，且人工歸檔的效率低，花費時間長。

鑒於以上內容，有必要提出一種資料歸檔方法及裝置、電腦裝置和電腦可讀存儲介質，使得資料歸檔的方法以智慧、高效、準確的方式進行。

本申請的第一方面提供一種資料歸檔方法，所述方法包括：獲取待處理資料的資料格式；按照所述待處理資料的資料格式在第一資料庫中查找是否存在與所述資料格式相同的資料類別，其中所述第一資料庫用於存儲已處理的不同資料格式的資料類別；若存在與所述資料格式相同的資料類別，則按照第一預設規則對所述待處理資料中的特徵資訊進行提取，並將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中；及若不存在與所述資料格式相同的資料類別，則按照第二預設規則在第二資料庫中查找所述待處理資料所屬的資料類別，並按照所述第一預設規則對所述待處理資料中的特徵資訊進行提取，將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中，其中所述第二資料庫中存儲了多種資料類別的特徵資訊。

優選地，所述待處理資料包括文字、數位、圖像中的一項或多項。

優選地，所述按照第一預設規則對所述待處理資料中的特徵資訊進行提取，並將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中的步驟包括：獲取在所述第一資料庫中所述資料類別存儲資料的特徵資訊及存儲規則；按照所述資料類別中資料的特徵資訊從所述待處理資料中提取符合所述特徵資訊的待處理特徵資訊；及將所述符合資料特徵資訊的待處理特徵資訊按照所述存儲規則進行處理，並將處理之後的待處理特徵資訊按照所述待處理資料的資料格式所屬的資料類別存儲於所述第一資料庫中。

優選地，所述待處理資料為文字，所述按照所述資料類別中資料的特徵資訊從所述待處理資料中提取符合所述特徵資訊的待處理特徵資訊的步驟為：將所述待處理的文字與所述資料類別中的資料的特徵資訊進行匹配計算，其中，所述匹配計算的方法包括邏輯合併和/或AI自然語言處理；根據匹配計算的結果提取所述文字中的特徵資訊；及按照所述待處理的文字的語義、詞性中的至少一種方式對提取的文字特徵資訊的語序進行調整。

優選地，所述待處理資料為數位，所述按照所述資料類別中資料的特徵資訊從所述待處理資料中提取符合所述特徵資訊的待處理特徵資訊的步驟包括：獲取所述第一資料庫中所述資料類別中的數位特徵資訊及存儲規則；及按照所述資料類別中的數位特徵資訊使用爬蟲技術查找符合所述數位特徵資訊的數位特徵資訊。

優選地，所述按照第二預設規則在第二資料庫中查找所述待處理資料所屬的資料類別的步驟包括：判斷所述待處理資料是否屬於所述第二資料庫中存儲的資料類別；若屬於所述第二資料庫中所存儲的資料類別，則將所述待處理資料中的關鍵字輸入到預設的神經網路演算法模型中，以確定所述待處理資料中的關鍵字所屬於的資料類別；若不屬於所述第二資料庫中所存儲的資料類別，則將所述待處理資料的資料類別添加到所述第二資料庫中。

優選地，所述第二資料庫中存儲的多種資料類別的特徵資訊通過以下步驟構建：從任一資料類別的技術資料中提取所述技術資料所屬的技術領域的關鍵字；將所述關鍵字輸入到第二資料模型中，以提取所述技術領域中的特徵資訊；將提取後的特徵資訊與所述資料類別對應存儲於所述第二資料庫中；其中，所述第二資料模型通過以下步驟構建：將從不同技術領域的技術資料中提取的關鍵字分為訓練集和驗證集；選擇第二資料模型，並利用所述訓練集對所述第二資料模型進行訓練，其中所述第二資料模型用於獲取所述訓練集中所述關鍵字的特徵資訊；利用所述驗證集對訓練後的第二資料模型進行驗證，根據驗證結果得到第二資料模型的準確率；判斷所述第二模型的準確率是否大於預設閾值；若大於，則將優化後的資料模型進行輸出；若不大於，則對優化後的資料模型進行第二次優化。

本申請的第二方面提供一種資料歸檔裝置，所述裝置包括：獲取模組，用於獲取待處理資料的資料格式；判斷模組，用於按照所述待處理資料的資料格式在第一資料庫中查找是否存在與所述資料格式相同的資料類別，其中所述第一資料庫用於存儲已處理的不同資料格式的資料類別；第一執行模組，用於當存在與所述資料格式相同的資料類別時，則按照第一預設規則對所述待處理資料中的特徵資訊進行提取，並將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中；第二執行模組，用於當不存在與所述資料格式相同的資料類別時，則按照第二預設規則在第二資料庫中查找所述待處理資料所屬的資料類別，並按照所述第一預設規則對所述待處理資料中的特徵資訊進行提取，將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中，其中所述第二資料庫中存儲了多種資料類別的特徵資訊。

本申請的協力廠商面提供一種電腦裝置，所述電腦裝置包括處理器，所述處理器用於執行記憶體中存儲的電腦程式時實現如前所述資料歸檔方法。

本申請的第四方面提供一種電腦存儲介質，其上存儲有電腦程式，所述電腦程式被處理器執行時實現如前所述資料歸檔方法。

本發明資料歸檔方法根據資料庫中資料的類別，採用人工智慧識別的方式對獲取到的資料進行歸類整理，並將整理好的資料存儲於資料庫中。通過所述方法可以實現智慧化資料歸檔，提高了資料歸檔的效率。

為了能夠更清楚地理解本發明的上述目的、特徵和優點，下面結合附圖和具體實施例對本發明進行詳細描述。需要說明的是，在不衝突的情況下，本申請的實施例及實施例中的特徵可以相互組合。

在下面的描述中闡述了很多具體細節以便於充分理解本發明，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬於本發明保護的範圍。

除非另有定義，本文所使用的所有的技術和科學術語與屬於本發明的技術領域的技術人員通常理解的含義相同。本文中在本發明的說明書中所使用的術語只是為了描述具體的實施例的目的，不是旨在于限制本發明。

實施例一

參閱圖1所示，為本發明實施例一提供的資料歸檔方法的應用環境架構示意圖。

本發明中的資料歸檔方法應用在電腦裝置1中，所述電腦裝置1和至少一個使用者終端2通過網路建立通信連接。所述網路可以是有線網路，也可以是無線網路，例如無線電、無線保真（Wireless Fidelity, WIFI）、蜂窩、衛星、廣播等。

所述電腦裝置1可以為安裝有資料歸檔軟體的電子設備，用於歸檔並存儲使用者終端2發送的資料資訊。例如個人電腦、平板電腦、伺服器等，其中，所述伺服器可以是單一的伺服器、伺服器集群或雲伺服器等。

所述使用者終端2是具有資料記錄功能的電子設備，包括但不限於智慧手機、平板電腦、膝上型便捷電腦、臺式電腦等。

在本發明又一實施方式中，所述資料歸檔方法應用在電腦裝置1中，所述電腦裝置1既具有資料記錄功能又具有資料歸檔存儲功能。所述電腦裝置1將記錄的待處理資料使用資料歸檔方法進行歸檔之後存儲於電腦裝置1中，所述電腦裝置1可以是智慧手機、平板電腦、膝上型便捷電腦、臺式電腦、伺服器等。

實施例二

請參閱圖2所示，是本發明第二實施例提供的資料歸檔方法的流程圖。根據不同的需求，所述流程圖中步驟的順序可以改變，某些步驟可以省略。

步驟S1、獲取待處理資料的資料格式。

在本發明一實施方式中，電腦裝置1獲取使用者終端2發送的待處理資料，所述待處理資料包括文字、數位、圖像中的一項或多項。所述待處理資料的存儲格式可以是Excel、Word、PDF、TXT等類型。

在本發明又一實施方式中，所述步驟還包括對獲取的待處理資料進行預處理，所述預處理的內容包括去除待處理資料中多餘的空格、標點、字元資訊。

步驟S2、按照所述待處理資料的資料格式在第一資料庫中查找是否存在與所述資料格式相同的資料類別，其中所述第一資料庫用於存儲已處理的不同資料格式的資料類別。

舉例而言，所述第一資料庫中的資料按照不同的資料格式進行分類，每種資料格式中按照資料內容的不同分成多種資料類別。例如在Excel資料格式中，根據資料的內容分為多種資料類別，所述資料類別包括工藝參數、設備參數、環境參數等。電腦裝置1獲取了使用者終端2發送的待處理資料，按照所述待處理資料的資料格式在第一資料庫中查找是否存在與所述資料格式相同的資料類別。

步驟S3、若存在與所述資料格式相同的資料類別，則按照第一預設規則對所述待處理資料中的特徵資訊進行提取，並將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中。

在本發明一實施方式中，所述按照第一預設規則對所述待處理資料中的特徵資訊進行提取，並將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中的步驟包括：獲取在所述第一資料庫中所述資料類別存儲資料的特徵資訊及存儲規則；按照所述資料類別中資料的特徵資訊從所述待處理資料中提取符合所述特徵資訊的待處理特徵資訊；及將所述符合資料特徵資訊的待處理特徵資訊按照所述存儲規則進行處理，並將處理之後的待處理特徵資訊按照所述待處理資料的資料格式所屬的資料類別存儲於所述第一資料庫中。

若所述待處理資料為文字，按照所述資料類別中資料的特徵資訊在所述待處理資料中提取符合所述特徵資訊的待處理的特徵資訊的可以步驟為：將所述待處理的文字與所述資料類別中的資料的特徵資訊進行匹配計算，其中，所述匹配計算的方法包括邏輯合併和/或AI自然語言處理；根據匹配計算的結果提取所述文字中的特徵資訊；及按照所述待處理的文字的語義、詞性中的至少一種方式對提取的文字特徵資訊的語序進行調整。

舉例而言，若所述待處理的資料為文字資訊，通過步驟S2判斷之後找到所述文字資訊所對應的資料類別，則在第一資料庫中獲取所述資料類別的特徵資訊及存儲規則。例如所述待處理的文字資訊是設備的維修記錄，所述維修記錄中的內容包括文字資訊和數位資訊，其中文字資訊可以是維修的部件名稱，維修操作者的姓名，數位資訊可以是維修時間等。在第一資料庫中獲取所述維修記錄的資料類別的特徵資訊和存儲規則。例如所述第一資料庫中記錄了維修記錄的特徵資訊為維修者姓名、維修設備名稱、維修地點、維修物料，存儲規則為將按照表格方式存儲。按照所述維修記錄的特徵資訊在待處理文字資訊中使用邏輯合併和AI自然語言處理的方式對待處理文字資訊中的特徵資訊進行提取，如按照維修者姓名的方式，通過AI自然語言處理識別出待處理文字資訊中的姓名資訊。若所述待識別文字資訊屬於特殊的技術領域，則使用詞向量演算法處理，將獲取到的待識別文字資訊與所述特殊技術領域中的關鍵字通過詞向量演算法進行識別，從而獲取待識別文字資訊中的特徵資訊，所述特殊的技術領域包括新型技術領域或應用範圍僅限於某些特殊行業如軍工、醫療等的技術領域。所述方法還包括當識別出的文字資訊的特徵資訊具有共同特性時，對所述共同特性使用預設方式進行視覺化標注。所述預設方式可以包括顏色、符號、特殊字體等。例如當識別多條待處理文字資訊中存在相同的維修者的姓名，則對所述維修者姓名使用不同的顏色進行標注。

在又一實施例中，還要將提取到的文字資訊進行簡化，去掉不必要的修飾語，例如去掉“例如、詳見附件”等，還需要對獲取到的文字的詞性進行判斷，避免同一文字在為動詞和名詞時，因為詞性的不同導致所述文字的含義不同。

若所述待處理資料為數位，按照所述資料類別中資料的特徵資訊在所述待處理資料中提取符合所述特徵資訊的待處理的特徵資訊的步驟包括：獲取所述第一資料庫中所述資料類別中的數位特徵資訊及存儲規則；及按照所述資料類別中的數位特徵資訊使用爬蟲技術查找符合所述數位特徵資訊的數位特徵資訊。

舉例而言，若所述待處理資料為數位資訊，則根據第一資料庫中所述數位資訊所屬的資料類別中數位的特徵資訊和文字資訊使用爬蟲的方式在待處理數位資訊中查找相同類型的數位資訊。例如第一資料庫中的記錄的維修時間，則在待處理數位資訊中查找和時間相關的數位資訊，並將所述數位資訊按照資料類別中的數位存儲方式進行存儲。

在本發明又一實施方式，若所述待處理資料資訊為圖像，則識別所述圖像中的內容，並在第一資料庫中查找所述資料資訊所屬的資料類別，根據所述類別中圖像的特徵資訊及存儲規則存儲所述待處理圖像。

步驟S4、若不存在與所述資料格式相同的資料類別，則按照第二預設規則在第二資料庫中查找所述待處理資料所屬的資料類別，並按照所述第一預設規則對所述待處理資料中的特徵資訊進行提取，將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中，其中所述第二資料庫中存儲了多種資料類別的特徵資訊。

所述按照第二預設規則在第二資料庫中查找所述待處理資料屬於的資料類別的步驟包括：判斷所述待處理資料是否屬於所述第二資料庫中存儲的資料類別；若屬於所述第二資料庫中所存儲的資料類別，則將所述待處理資料中的關鍵字輸入到預設的神經網路演算法模型中，以確定所述待處理資料中的關鍵字所屬於的資料類別；若不屬於所述第二資料庫中所存儲的資料類別，則將所述待處理資料的資料類別添加到所述第二資料庫中。

所述第二資料庫的構建步驟包括：從任一資料類別的技術資料中提取所述技術資料所屬的技術領域的關鍵字；將所述關鍵字輸入到第二資料模型中，以提取所述技術領域中的特徵資訊；將提取後的特徵資訊與所述資料類別對應存儲於所述第二資料庫中；其中，所述第二資料模型通過以下步驟構建：將從不同技術領域的技術資料中提取的關鍵字分為訓練集和驗證集；選擇第二資料模型，並利用所述訓練集對所述第二資料模型進行訓練，其中所述第二資料模型用於獲取所述訓練集中所述關鍵字的特徵資訊；利用所述驗證集對訓練後的第二資料模型進行驗證，根據驗證結果得到第二資料模型的準確率；判斷所述第二模型的準確率是否大於預設閾值；若大於，則將優化後的資料模型進行輸出；若不大於，則對優化後的資料模型進行第二次優化。

舉例而言，若所述待處理的資料通過步驟S2判斷之後在第一資料庫中未找到所述資料對應的資料類別，則在第二資料庫中查找所述待處理資料所屬的資料類別。例如所述待處理資料為資料類別，所述待處理資料的內容為統計疾病的發病率的相關資料，包括疾病名稱、病人年齡、病人性別、病人職業、病人所在城市、病人生活習慣等資訊。通過和第二資料庫中的不同技術領域的特徵資訊進行比對查找，沒有查找出所述醫學領域，則在第二資料庫中按照待處理資料的資料類別及存儲方式進行存儲。若通過和第二資料庫中資訊的比對查找，發現所述醫學領域的特徵資訊，則將所述待處理資料和第二資料庫中技術領域的特徵資訊通過預設的神經網路演算法模型進行匹配查找出所述待處理資料中所屬的技術領域，將按照所述技術領域將所述待處理資料通過步驟S3中提到第一預設規則對所述待處理資料中關鍵字的特徵資訊進行提取，並將所述特徵資訊按照所述待處理資料所屬的資料類別存儲於所述第一資料庫中。

其中，所述第二資料庫中存儲了現有技術中所有技術領域的特徵資訊。所述資料庫的構建過程包括從現有技術資料中提取關鍵字資訊，使用第一資料模型對關鍵字的特徵資訊進行提取，並將提取後的特徵資訊與所述技術領域對應存儲，所述現有技術資料包括：論文、期刊、書籍、專利、網頁資料等。

上述圖2詳細介紹了本發明的資料歸檔方法，下面結合第3-4圖，對實現所述資料歸檔方法的軟體裝置的功能模組以及實現所述資料歸檔方法的硬體裝置架構進行介紹。

應所述瞭解，所述實施例僅為說明之用，在專利申請範圍上並不受此結構的限制。

實施例三

圖3為本發明資料歸檔裝置較佳實施例的結構圖。

在一些實施例中，資料歸檔裝置10運行於電腦裝置中。所述電腦裝置通過網路連接了多個使用者終端。所述資料歸檔裝置10可以包括多個由程式碼段所組成的功能模組。所述資料歸檔裝置10中的各個程式段的程式碼可以存儲於電腦裝置的記憶體中，並由所述至少一個處理器所執行，以實現資料歸檔功能。

本實施例中，所述資料歸檔裝置10根據其所執行的功能，可以被劃分為多個功能模組。參閱圖3所示，所述功能模組可以包括：獲取模組101、判斷模組102、第一執行模組103、第二執行模組104。本發明所稱的模組是指一種能夠被至少一個處理器所執行並且能夠完成固定功能的一系列電腦程式段，其存儲在記憶體中。在本實施例中，關於各模組的功能將在後續的實施例中詳述。

所述獲取模組101，用於獲取待處理資料的資料格式。

所述判斷模組102，用於按照所述待處理資料的資料格式在第一資料庫中查找是否存在與所述資料格式相同的資料類別，其中所述第一資料庫用於存儲已處理的不同資料格式的資料類別。

舉例而言，所述第一資料庫中的資料按照不同的資料格式進行分類，每種資料格式中按照資料內容的不同分成多種資料類別。例如在Excel資料格式中，根據資料的內容分為多種資料類別，所述資料類別包括工藝參數、設備參數、環境參數等。所述判斷模組102獲取了使用者終端2發送的待處理資料，按照所述待處理資料的資料格式在第一資料庫中查找是否存在與所述資料格式相同的資料類別。

所述第一執行模組103，用於當存在與所述資料格式相同的資料類別時，則按照第一預設規則對所述待處理資料中的特徵資訊進行提取，並將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中。

舉例而言，若所述待處理的資料為文字資訊，通過判斷模組102判斷之後找到所述文字資訊所對應的資料類別，則在第一資料庫中獲取所述資料類別的特徵資訊及存儲規則。例如所述待處理的文字資訊是設備的維修記錄，所述維修記錄中的內容包括文字資訊和數位資訊，其中文字資訊可以是維修的部件名稱，維修操作者的姓名，數位資訊可以是維修時間等。在第一資料庫中獲取所述維修記錄的資料類別的特徵資訊和存儲規則。例如所述第一資料庫中記錄了維修記錄的特徵資訊為維修者姓名、維修設備名稱、維修地點、維修物料，存儲規則為將按照表格方式存儲。按照所述維修記錄的特徵資訊在待處理文字資訊中使用邏輯合併和AI自然語言處理的方式對待處理文字資訊中的特徵資訊進行提取，如按照維修者姓名的方式，通過AI自然語言處理識別出待處理文字資訊中的姓名資訊。若所述待識別文字資訊屬於特殊的技術領域，則使用詞向量演算法處理，將獲取到的待識別文字資訊與所述特殊技術領域中的關鍵字通過詞向量演算法進行識別，從而獲取待識別文字資訊中的特徵資訊，所述特殊的技術領域包括新型技術領域或應用範圍僅限於某些特殊行業如軍工、醫療等的技術領域。所述方法還包括當識別出的文字資訊的特徵資訊具有共同特性時，對所述共同特性使用預設方式進行視覺化標注。所述預設方式可以包括顏色、符號、特殊字體等。例如當識別多條待處理文字資訊中存在相同的維修者的姓名，則對所述維修者姓名使用不同的顏色進行標注。

若所述待處理資料為數位，按照所述資料類別中資料的特徵資訊在所述待處理資料中提取符合所述特徵資訊的待處理的特徵資訊的步驟可以包括：獲取所述第一資料庫中所述資料類別中的數位特徵資訊及存儲規則；及按照所述資料類別中的數位特徵資訊使用爬蟲技術查找符合所述數位特徵資訊的數位特徵資訊。

所述第二執行模組104，用於當不存在與所述資料格式相同的資料類別時，則按照第二預設規則在第二資料庫中查找所述待處理資料所屬的資料類別，並按照所述第一預設規則對所述待處理資料中的特徵資訊進行提取，將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中，其中所述第二資料庫中存儲了多種資料類別的特徵資訊。

舉例而言，若所述待處理的資料通過判斷模組102判斷之後在第一資料庫中未找到所述資料對應的資料類別，則在第二資料庫中查找所述待處理資料所屬的資料類別。例如所述待處理資料為資料類別，所述待處理資料的內容為統計疾病的發病率的相關資料，包括疾病名稱、病人年齡、病人性別、病人職業、病人所在城市、病人生活習慣等資訊。通過和第二資料庫中的不同技術領域的特徵資訊進行比對查找，沒有查找出所述醫學領域，則在第二資料庫中按照待處理資料的資料類別及存儲方式進行存儲。若通過和第二資料庫中資訊的比對查找，發現所述醫學領域的特徵資訊，則將所述待處理資料和第二資料庫中技術領域的特徵資訊通過預設的神經網路演算法模型進行匹配查找出所述待處理資料中所屬的技術領域，將按照所述技術領域將所述待處理資料通過第一執行模組103中提到第一預設規則對所述待處理資料中關鍵字的特徵資訊進行提取，並將所述特徵資訊按照所述待處理資料所屬的資料類別存儲於所述第一資料庫中。

實施例四

圖4為本發明電腦裝置較佳實施例的示意圖。

所述電腦裝置1包括記憶體20、處理器30以及存儲在所述記憶體20中並可在所述處理器30上運行的電腦程式40，例如資料歸檔程式。所述處理器30執行所述電腦程式40時實現上述資料歸檔方法實施例中的步驟，例如圖2所示的步驟S1~S4。或者，所述處理器30執行所述電腦程式40時實現上述資料歸檔裝置實施例中各模組/單元的功能，例如圖3中的單元101-104。

示例性的，所述電腦程式40可以被分割成一個或多個模組/單元，所述一個或者多個模組/單元被存儲在所述記憶體20中，並由所述處理器30執行，以完成本發明。所述一個或多個模組/單元可以是能夠完成特定功能的一系列電腦程式指令段，所述指令段用於描述所述電腦程式40在所述電腦裝置1中的執行過程。例如，所述電腦程式40可以被分割成圖3中的獲取模組101、判斷模組102、第一執行模組103、第二執行模組104。

所述電腦裝置1可以是桌上型電腦、筆記本、掌上型電腦及雲端伺服器等計算設備。本領域技術人員可以理解，所述示意圖僅僅是電腦裝置1的示例，並不構成對電腦裝置1的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件，例如所述電腦裝置1還可以包括輸入輸出設備、網路接入設備、匯流排等。

所稱處理器30可以是中央處理單元(Central Processing Unit，CPU)，還可以是其他通用處理器、數位訊號處理器 (Digital Signal Processor，DSP)、專用積體電路 (Application Specific Integrated Circuit，ASIC)、現成可程式設計閘陣列 (Field-Programmable Gate Array，FPGA) 或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件等。通用處理器可以是微處理器或者所述處理器30也可以是任何常規的處理器等，所述處理器30是所述電腦裝置1的控制中心，利用各種介面和線路連接整個電腦裝置1的各個部分。

所述記憶體20可用於存儲所述電腦程式40和/或模組/單元，所述處理器30通過運行或執行存儲在所述記憶體20內的電腦程式和/或模組/單元，以及調用存儲在記憶體20內的資料，實現所述電腦裝置1的各種功能。所述記憶體20可主要包括存儲程式區和存儲資料區，其中，存儲程式區可存儲作業系統、至少一個功能所需的應用程式（比如聲音播放功能、圖像播放功能等）等；存儲資料區可存儲根據電腦裝置1的使用所創建的資料（比如音訊資料、電話本等）等。此外，記憶體20可以包括高速隨機存取記憶體，還可以包括非易失性記憶體，例如硬碟、記憶體、插接式硬碟，智慧存儲卡（Smart Media Card, SMC），安全數位（Secure Digital, SD）卡，快閃記憶體卡（Flash Card）、至少一個磁碟記憶體件、快閃記憶體器件、或其他易失性固態記憶體件。

所述電腦裝置1集成的模組/單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時，可以存儲在一個電腦可讀取存儲介質中。基於這樣的理解，本發明實現上述實施例方法中的全部或部分流程，也可以通過電腦程式來指令相關的硬體來完成，所述的電腦程式可存儲於一電腦可讀存儲介質中，所述電腦程式在被處理器執行時，可實現上述各個方法實施例的步驟。其中，所述電腦程式包括電腦程式代碼，所述電腦程式代碼可以為原始程式碼形式、物件代碼形式、可執行檔或某些中間形式等。所述電腦可讀介質可以包括：能夠攜帶所述電腦程式代碼的任何實體或裝置、記錄介質、U盤、移動硬碟、磁碟、光碟、電腦記憶體、唯讀記憶體（ROM，Read-Only Memory）、隨機存取記憶體（RAM，Random Access Memory）、電載波信號、電信信號以及軟體分發介質等。需要說明的是，所述電腦可讀介質包含的內容可以根據司法管轄區內立法和專利實踐的要求進行適當的增減，例如在某些司法管轄區，根據立法和專利實踐，電腦可讀介質不包括電載波信號和電信信號。

在本發明所提供的幾個實施例中，應所述理解到，所揭露的電腦裝置和方法，可以通過其它的方式實現。例如，以上所描述的電腦裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式。

另外，在本發明各個實施例中的各功能單元可以集成在相同處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在相同單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用硬體加軟體功能模組的形式實現。

對於本領域技術人員而言，顯然本發明不限於上述示範性實施例的細節，而且在不背離本發明的精神或基本特徵的情況下，能夠以其他的具體形式實現本發明。因此，無論從哪一點來看，均應將實施例看作是示範性的，而且是非限制性的，本發明的範圍由所附申請專利範圍而不是上述說明限定，因此旨在將落在申請專利範圍的等同要件的含義和範圍內的所有變化涵括在本發明內。不應將申請專利範圍中的任何附圖標記視為限制所涉及的申請專利範圍。此外，顯然“包括”一詞不排除其他單元或步驟，單數不排除複數。電腦裝置申請專利範圍中陳述的多個單元或電腦裝置也可以由同一個單元或電腦裝置通過軟體或者硬體來實現。第一，第二等詞語用來表示名稱，而並不表示任何特定的順序。

最後應說明的是，以上實施例僅用以說明本發明的技術方案而非限制，儘管參照較佳實施例對本發明進行了詳細說明，本領域的普通技術人員應當理解，可以對本發明的技術方案進行修改或等同替換，而不脫離本發明技術方案的精神和範圍。

1:電腦裝置 2:使用者終端 10:資料歸檔裝置 20:記憶體 30:處理器 40:電腦程式 101:獲取模組 102:判斷模組 103:第一執行模組 104:第二執行模組

圖1是本發明實施例一提供的資料歸檔方法的應用環境架構示意圖。

圖2是本發明實施例二提供的資料歸檔方法流程圖。

圖3是本發明實施例三提供的資料歸檔裝置的結構示意圖。

圖4是本發明實施例四提供的電腦裝置示意圖。

Claims

一種資料歸檔方法，所述方法包括：獲取待處理資料的資料格式；按照所述待處理資料的資料格式在第一資料庫中查找是否存在與所述資料格式相同的資料類別，其中所述第一資料庫用於存儲已處理的不同資料格式的資料類別；若存在與所述資料格式相同的資料類別，則按照第一預設規則對所述待處理資料中的特徵資訊進行提取，並將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中；及若不存在與所述資料格式相同的資料類別，則按照第二預設規則在第二資料庫中查找所述待處理資料所屬的資料類別，並按照所述第一預設規則對所述待處理資料中的特徵資訊進行提取，將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中，其中所述第二資料庫中存儲了多種資料類別的特徵資訊。
如申請專利範圍第1項所述之資料歸檔方法，其中，所述待處理資料包括文字、數位、圖像中的一項或多項。
如申請專利範圍第2項所述之資料歸檔方法，其中，所述按照第一預設規則對所述待處理資料中的特徵資訊進行提取，並將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中的步驟包括：獲取在所述第一資料庫中所述資料類別存儲資料的特徵資訊及存儲規則；按照所述資料類別中資料的特徵資訊從所述待處理資料中提取符合所述特徵資訊的待處理特徵資訊；及將所述符合資料特徵資訊的待處理特徵資訊按照所述存儲規則進行處理，並將處理之後的待處理特徵資訊按照所述待處理資料的資料格式所屬的資料類別存儲於所述第一資料庫中。
如申請專利範圍第3項所述之資料歸檔方法，其中，所述待處理資料為文字，所述按照所述資料類別中資料的特徵資訊從所述待處理資料中提取符合所述特徵資訊的待處理特徵資訊的步驟為：將所述待處理的文字與所述資料類別中的資料的特徵資訊進行匹配計算，其中，所述匹配計算的方法包括邏輯合併和/或AI自然語言處理；根據匹配計算的結果提取所述文字中的特徵資訊；及按照所述待處理的文字的語義、詞性中的至少一種方式對提取的文字特徵資訊的語序進行調整。
如申請專利範圍第3項所述之資料歸檔方法，其中，所述待處理資料為數位，所述按照所述資料類別中資料的特徵資訊從所述待處理資料中提取符合所述特徵資訊的待處理特徵資訊的步驟包括：獲取所述第一資料庫中所述資料類別中的數位特徵資訊及存儲規則；及按照所述資料類別中的數位特徵資訊使用爬蟲技術查找符合所述數位特徵資訊的數位特徵資訊。
如申請專利範圍第1項所述之資料歸檔方法，其中，所述按照第二預設規則在第二資料庫中查找所述待處理資料所屬的資料類別的步驟包括：判斷所述待處理資料是否屬於所述第二資料庫中存儲的資料類別；若屬於所述第二資料庫中所存儲的資料類別，則將所述待處理資料中的關鍵字輸入到預設的神經網路演算法模型中，以確定所述待處理資料中的關鍵字所屬於的資料類別；及若不屬於所述第二資料庫中所存儲的資料類別，則將所述待處理資料的資料類別添加到所述第二資料庫中。
如申請專利範圍第1項所述之資料歸檔方法，其中，所述第二資料庫中存儲的多種資料類別的特徵資訊通過以下步驟構建：從任一資料類別的技術資料中提取所述技術資料所屬的技術領域的關鍵字；將所述關鍵字輸入到第二資料模型中，以提取所述技術領域中的特徵資訊；將提取後的特徵資訊與所述資料類別對應存儲於所述第二資料庫中；其中，所述第二資料模型通過以下步驟構建：將從不同技術領域的技術資料中提取的關鍵字分為訓練集和驗證集；選擇第二資料模型，並利用所述訓練集對所述第二資料模型進行訓練，其中所述第二資料模型用於獲取所述訓練集中所述關鍵字的特徵資訊；利用所述驗證集對訓練後的第二資料模型進行驗證，根據驗證結果得到第二資料模型的準確率；判斷所述第二模型的準確率是否大於預設閾值；若大於，則將優化後的資料模型進行輸出；若不大於，則對優化後的資料模型進行第二次優化。
一種資料歸檔裝置，所述裝置包括：獲取模組，用於獲取待處理資料的資料格式；判斷模組，用於按照所述待處理資料的資料格式在第一資料庫中查找是否存在與所述資料格式相同的資料類別，其中所述第一資料庫用於存儲已處理的不同資料格式的資料類別；第一執行模組，用於當存在與所述資料格式相同的資料類別時，則按照第一預設規則對所述待處理資料中的特徵資訊進行提取，並將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中；第二執行模組，用於當不存在與所述資料格式相同的資料類別時，則按照第二預設規則在第二資料庫中查找所述待處理資料所屬的資料類別，並按照所述第一預設規則對所述待處理資料中的特徵資訊進行提取，將所述特徵資訊按照所述待處理資料的資料格式所屬的資料類別的存儲規則存儲於所述第一資料庫中，其中所述第二資料庫中存儲了多種資料類別的特徵資訊。
一種電腦裝置，所述電腦裝置包括處理器，所述處理器用於執行記憶體中存儲之電腦程式時實現如申請專利範圍1至7中任一項所述之資料歸檔方法。
一種電腦存儲介質，其上存儲有電腦程式，其中所述電腦程式被處理器執行時實現如申請專利範圍1至7中任一項所述之資料歸檔方法。