TWI777163B - 表單數據檢測方法、電腦裝置及儲存介質 - Google Patents

表單數據檢測方法、電腦裝置及儲存介質 Download PDF

Info

Publication number
TWI777163B
TWI777163B TW109115489A TW109115489A TWI777163B TW I777163 B TWI777163 B TW I777163B TW 109115489 A TW109115489 A TW 109115489A TW 109115489 A TW109115489 A TW 109115489A TW I777163 B TWI777163 B TW I777163B
Authority
TW
Taiwan
Prior art keywords
text information
test
detection method
test form
data detection
Prior art date
Application number
TW109115489A
Other languages
English (en)
Other versions
TW202139054A (zh
Inventor
林鼎晃
陳敬軒
黃安琪
Original Assignee
鴻海精密工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 鴻海精密工業股份有限公司 filed Critical 鴻海精密工業股份有限公司
Publication of TW202139054A publication Critical patent/TW202139054A/zh
Application granted granted Critical
Publication of TWI777163B publication Critical patent/TWI777163B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3684Test management for test design, e.g. generating new test cases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本發明提供一種表單數據檢測方法,包括:獲取測試表單的文本資訊;提取所述測試表單的文本資訊的詞向量;將所提取的詞向量輸入至預先訓練獲得的分類模型,獲得所述測試表單的品質類別;根據所述測試表單的品質類別確定所述測試表單是否透過檢測;及當所述測試表單沒有透過檢測時,將與所述測試表單對應的範本表單提供給使用者參考。本發明還提供實現所述表單數據檢測方法的電腦裝置和儲存介質。本發明可對表單數據進行快速檢測。

Description

表單數據檢測方法、電腦裝置及儲存介質
本發明涉及一種資料處理技術領域,尤其涉及一種表單數據檢測方法、電腦裝置及儲存介質。
在工業生產領域中,產線相關人員會利用表單記錄不良品的缺陷或是生產過程中發生的錯誤。然而,人工作業難免會有疏失,如何有效率地發現並改善此現象,是重要的課題。
鑒於以上內容,有必要提供一種表單數據檢測方法、電腦裝置及儲存介質,可對表單數據進行快速檢測,並可確保表單數據的正確性。
所述表單數據檢測方法,包括:獲取測試表單的文本資訊;提取所述測試表單的文本資訊的詞向量;將所提取的詞向量輸入至預先訓練獲得的分類模型,獲得所述測試表單的品質類別;根據所述測試表單的品質類別確定所述測試表單是否透過檢測;及當所述測試表單沒有透過檢測時,將與所述測試表單對應的範本表單提供給使用者參考。
優選地,該表單數據檢測方法還包括:回應用戶的操作,修改所述測試表單,返回至所述獲取測試表單的文本資訊。
優選地,所述提取所述測試表單的文本資訊的詞向量包括:利用TF-IDF演算法或者Word2Vec模型提取所述測試表單的文本資訊的詞向量。
優選地,所述將與所述測試表單對應的範本表單提供給使用者參考包括:獲取預先儲存的多個範本表單分別對應的文本資訊;計算所述測試表單的文本資訊與所述多個範本表單中的每個範本表單所對應的文本資訊之間的相似度,並獲得多個相似度值;將該多個相似度值中的每個相似度值與對應的範本表單建立關聯;根據所述多個相似度值確定與所述測試表單對應的範本表單;及將與所述測試表單對應的範本表單顯示給使用者參考。
優選地,所述顯示給使用者參考的範本表單所對應的相似度值為所述多個相似度值中的最大值。
優選地,所述表單數據檢測方法還包括:訓練所述分類模型;其中,訓練所述分類模型的步驟包括:收集預設數量的樣本資料,每份樣本資料包括一份表單所對應的文本資訊;對所述預設數量的樣本資料中的每份樣本資料進行處理,獲得經過處理的所述預設數量的樣本資料,包括:將每份樣本資料所包括的表單的文本資訊進行向量化處理,由此獲得每份樣本資料所對應的詞向量;以及對每份樣本資料所對應的表單的品質類別進行標示;及將經過處理的所述預設數量的樣本資料作為訓練樣本,對神經網路進行訓練,獲得所述分類模型。
優選地,所述對所述預設數量的樣本資料中的每份樣本資料進行處理還包括:從每份樣本資料所對應的詞向量中提取關鍵字;及對所提取的關鍵字作歸類處理。
優選地,在所述將所提取的詞向量輸入至預先訓練獲得的分類模型,獲得所述測試表單的品質類別之前,所述表單數據檢測方法還包括:根據所述測試表單的文本資訊確定所述測試表單是否滿足特定條件;及當所述測試表單滿足所述特定條件時,將所述測試表單的品質類別分類到差等;或當所述測試表單不滿足所述特定條件時,觸發所述將所提取的詞向量輸入至預先訓練獲得的分類模型,獲得所述測試表單的品質類別。
所述電腦可讀儲存介質儲存有至少一個指令,所述至少一個指令被處 理器執行時實現所述表單數據檢測方法。
所述電腦裝置包括儲存器和至少一個處理器,所述儲存器中儲存有多個指令,所述多個指令被所述至少一個處理器執行時實現所述表單數據檢測方法。
相較於習知技術,所述表單數據檢測方法、電腦裝置及儲存介質,可對表單數據進行快速檢測,並可確保表單數據的正確性。
3:電腦裝置
31:儲存器
32:處理器
30:表單數據檢測系統
301:獲取模組
302:執行模組
圖1是本發明較佳實施例的電腦裝置的架構圖。
圖2是本發明較佳實施例的表單數據檢測系統的功能模組圖。
圖3是本發明較佳實施例的表單數據檢測方法的流程圖。
為了能夠更清楚地理解本發明的上述目的、特徵和優點,下面結合附圖和具體實施例對本發明進行詳細描述。需要說明的是,在不衝突的情況下,本發明的實施例及實施例中的特徵可以相互組合。
在下面的描述中闡述了很多具體細節以便於充分理解本發明,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
除非另有定義,本文所使用的所有的技術和科學術語與屬於本發明的技術領域的技術人員通常理解的含義相同。本文中在本發明的說明書中所使用的術語只是為了描述具體的實施例的目的,不是旨在於限制本發明。
參閱圖1所示,為本發明較佳實施例提供的電腦裝置的架構圖。
本實施例中,電腦裝置3包括互相之間電氣連接的儲存器31、至少一 個處理器32。
本領域技術人員應該瞭解,圖1示出的電腦裝置3的結構並不構成本發明實施例的限定,所述電腦裝置3還可以包括比圖1更多或更少的其他硬體或者軟體,或者不同的部件佈置。
需要說明的是,所述電腦裝置3僅為舉例,其他現有的或今後可能出現的電腦裝置如可適應於本發明,也應包含在本發明的保護範圍以內,並以引用方式包含於此。
在一些實施例中,所述儲存器31可以用於儲存電腦程式的程式碼和各種資料。例如,所述儲存器31可以用於儲存安裝在所述電腦裝置3中的表單數據檢測系統30,並在電腦裝置3的運行過程中實現高速、自動地完成程式或資料的存取。所述儲存器31可以是包括唯讀儲存器(Read-Only Memory,ROM)、可程式設計唯讀儲存器(Programmable Read-Only Memory,PROM)、可抹除可程式設計唯讀儲存器(Erasable Programmable Read-Only Memory,EPROM)、一次可程式設計唯讀儲存器(One-time Programmable Read-Only Memory,OTPROM)、電子抹除式可複寫唯讀儲存器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、唯讀光碟(Compact Disc Read-Only Memory,CD-ROM)或其他光碟儲存器、磁碟儲存器、磁帶儲存器、或者任何其他能夠用於攜帶或儲存資料的非易失性的電腦可讀的儲存介質。
在一些實施例中,所述至少一個處理器32可以由積體電路組成。例如,可以由單個封裝的積體電路所組成,也可以是由多個相同功能或不同功能封裝的積體電路所組成,包括一個或者多個中央處理器(Central Processing unit,CPU)、微處理器、數文書處理晶片、圖形處理器及各種控制晶片的組合等。所述至少一個處理器32是所述電腦裝置3的控制核心(Control Unit),利用各種介面和線路連接整個電腦裝置3的各個部件,透過執行儲存在所述儲存器31內的程式或者模組或者指令,以及調用儲存在所述儲存器31內的資料,以執行電腦裝置3的各種功能和處理資料,例如,對表單數據進行檢測的功能(具體細節參後面 對圖3的介紹)。
在本實施例中,表單數據檢測系統30可以包括一個或多個模組,所述一個或多個模組儲存在所述儲存器31中,並由至少一個或多個處理器(本實施例為處理器32)執行,以實現對表單數據進行檢測的功能(具體細節參後面對圖3的介紹)。
在本實施例中,所述表單數據檢測系統30根據其所執行的功能,可以被劃分為多個模組。參閱圖2所示,所述多個模組包括獲取模組301、執行模組302。本發明所稱的模組是指一種能夠被至少一個處理器(例如處理器32)所執行並且能夠完成固定功能的一系列電腦可讀的指令段,其儲存在儲存器(例如電腦裝置3的儲存器31)中。在本實施例中,關於各模組的功能將在後續結合圖3詳述。
本實施例中,以軟體功能模組的形式實現的集成的單元,可以儲存在一個非易失性可讀取儲存介質中。上述軟體功能模組包括一個或多個電腦可讀指令,所述電腦裝置3或一個處理器(processor)透過執行所述一個或多個電腦可讀指令實現本發明各個實施例的方法的部分,例如圖3所示的對表單數據進行檢測的方法。
在進一步的實施例中,結合圖2,所述至少一個處理器32可執行所述電腦裝置3中所安裝的各類應用程式(如所述的表單數據檢測系統30)、程式碼等。
在進一步的實施例中,所述儲存器31中儲存有電腦程式的程式碼,且所述至少一個處理器32可調用所述儲存器31中儲存的程式碼以執行相關的功能。例如,圖2中所述表單數據檢測系統30的各個模組是儲存在所述儲存器31中的程式碼,並由所述至少一個處理器32所執行,從而實現所述各個模組的功能以達到對表單數據進行檢測的目的(詳見下文中對圖3的描述)。
在本發明的一個實施例中,所述儲存器31儲存一個或多個電腦可讀指令,所述一個或多個電腦可讀指令被所述至少一個處理器32所執行以實現對表 單數據進行檢測的目的。具體地,所述至少一個處理器32對上述電腦可讀指令的具體實現方法詳見下文中對圖3的描述。
圖3是本發明較佳實施例提供的表單數據檢測方法的流程圖。
在本實施例中,所述表單數據檢測方法可以應用於電腦裝置3中,對於需要進行表單數據檢測的電腦裝置3,可以直接在該電腦裝置3上集成本發明的方法所提供的用於表單數據檢測的功能,或者以軟體開發套件(Software Development Kit,SDK)的形式運行在所述電腦裝置3上。
如圖3所示,所述表單數據檢測方法具體包括以下步驟,根據不同的需求,該流程圖中步驟的順序可以改變,某些步驟可以省略。
步驟S1、獲取模組301獲取待檢測的表單的文本資訊。為清楚簡單說明本發明,將待檢測的表單稱為“測試表單”。
本實施例中,所述測試表單可以包括多個欄位。該測試表單的檔案格式可以是各種格式類型,例如可以是.xls格式,.doc格式。
所述多個欄位元分別用於填寫不同資訊。舉例而言,對應產品名稱的欄位元用於填寫產品名稱,對應產品的序號的欄位元則用於填寫產品序號。即所述獲取模組301從對應產品名稱的欄位元所獲取的文本資訊則為產品的名稱資訊。從對應產品的序號的欄位元所獲取的文本資訊則為產品的序號。
在一個實施例中,所述獲取模組301獲取測試表單的文本資訊包括:按照預設的順序依次讀取所述測試表單的所述多個欄位元分別對應的文本資訊;將所述多個欄位元分別對應的文本資訊進行彙整,將彙整得到的文本資訊作為所述測試表單的文本資訊。
在一個實施例中,所述預設的順序可以是從上到下,從左到右的順序。當然也可以為其他順序。
在一個實施例中,所述將所述多個欄位元分別對應的文本資訊進行彙整包括: 將所述多個欄位中的每個欄位元所對應的文本資訊按照讀取出來的先後順序進行記錄;及對所記錄的所有文本資訊作統一格式的處理。
在一個實施例中,所述統一格式的處理包括,但不限於,去除所記錄的所有文本資訊中的標點符號如句號等、回應用戶的操作去除指定的日誌記錄(Log)、統一英文字母的格式例如將大寫的英文字母改寫為小寫格式、統一所記錄的文本資訊的字體格式例如將所記錄的文本資訊中的中文字的字體格式都改為“宋體”,將所記錄的文本資訊中的英文字的字體格式都改為“Times New Roman”,以及統一英文詞語的時態與單複數型式等。
步驟S2、執行模組302提取所述測試表單的文本資訊的詞向量。
在一個實施例中,所述執行模組302利用TF-IDF(term frequency-inverse document frequency)演算法提取所述測試表單的文本資訊的詞向量。
需要說明的是,TF-IDF演算法是一種統計方法,用以評估一個字詞對於一個檔的重要程度或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著字詞在檔中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。
在其他實施例中,所述執行模組302利用Word2Vec模型提取所述測試表單的文本資訊的詞向量。
需要說明的是,Word2Vec模型考量檔內的詞的上下文與該詞的關係,是一個雙層神經網路。Word2Vec模型可用來映射每個詞到一個向量,可用來表示詞對詞之間的關係。
本實施例中,所述Word2Vec模型可以為CBOW模型(Continuous Bag Of Words Model)或者Skip-gram模型(Continuous Skip-gram Model)。其中,CBOW模型是由上下文推當前詞的網路;Skip-gram是由當前詞推上下文的網路。由於Word2Vec模型考慮了詞與上下文之間的關係,因此,利用Word2Vec模型所生成的任意兩個單詞的詞向量為該兩個單詞之間的相似度,可以說是表現了 單詞的含義。相比較而言,TF-IDF演算法生成的詞向量則為較單純的詞頻表現。因此,相較於利用TF-IDF演算法生成的詞向量而言,利用Word2Vec模型生成的詞向量更能代表檔在語料庫中的特徵,因為它包含了語意的成分在內。
步驟S3、執行模組302將所提取的詞向量輸入至預先訓練獲得的分類模型,獲得所述測試表單的品質類別。
在一個實施例中,所述品質類別分為優等、中等、差等。
在一個實施例中,執行模組302將所提取的詞向量輸入至所述分類模型之前還可以對所述測試表單的品質類別進行初步分類。
具體地,所述對所述測試表單的品質類別進行初步分類包括:根據所述測試表單的文本資訊確定所述測試表單是否滿足特定條件;當所述測試表單滿足所述特定條件時,直接將所述測試表單的品質類別分類到差等;當所述測試表單不滿足所述特定條件時,則將所提取的詞向量輸入至所述分類模型,從而獲得所述測試表單的品質類別。
在一個實施例中,所述特定條件包括,但不限於,所述測試表單的特定欄位元的缺失文本資訊、所述特定欄位元的文字出現重複。
在一個實施例中,所述特定欄位是所述測試表單的多個欄位中的其中一個欄位。
在一個實施例中,執行模組302將所提取的詞向量輸入至所述分類模型之前還可以對所提取的詞向量作預處理,然後將作了所述預處理後的詞向量輸入至所述分類模型,以對所述測試表單的品質類別進行分類。
具體地,所述對所提取的詞向量作預處理包括:從所提取的詞向量中提取關鍵字;及對所提取的關鍵字作歸類處理。
在一個實施例中,所述對所提取的關鍵字作歸類處理包括:將對應同一標的不同名稱統一為相同的名稱;及將專有名詞、表示動作的詞、連接詞、近似詞、同義詞分別歸類。
在一個實施例中,所述執行模組302還透過訓練神經網路獲得所述分 類模型。
具體地,所述獲得所述分類模型的步驟包括(a1)-(a3):
(a1)收集預設數量(例如10萬份)的樣本資料,每份樣本資料包括一份表單所對應的文本資訊。
(a2)對所述預設數量的樣本資料中的每份樣本資料進行處理,獲得經過處理的所述預設數量的樣本資料。
本實施例中,所述對所述預設數量的樣本資料中的每份樣本資料進行處理包括:將每份樣本資料所包括的表單的文本資訊進行向量化處理,由此獲得每份樣本資料所對應的詞向量;以及對每份樣本資料所對應的表單的品質類別進行標示。
具體地,可以回應用戶的操作對每份樣本資料所對應的表單的品質類別進行標示。即對每份樣本資料所對應的表單的品質類別是優等、中等,還是差等進行標示。
在一個實施例中,所述對所述預設數量的樣本資料中的每份樣本資料進行處理包括:從每份樣本資料所對應的詞向量中提取關鍵字;及對所提取的關鍵字作歸類處理。
在一個實施例中,所述對所提取的關鍵字作歸類處理包括,但不限於:將對應同一標的不同名稱統一為相同的名稱;及將專有名詞、表示動作的詞、連接詞、近似詞、同義詞分別歸類。
(a3)將經過處理的所述預設數量的樣本資料作為訓練樣本,對神經網路(例如,LSTM(Long Short Term Memory networks,長短期記憶網路))進行訓練,獲得所述分類模型。
步驟S4,執行模組302根據所述測試表單的品質類別確定所述測試表單是否透過檢測。當所述測試表單沒有透過檢測時,執行步驟S5。當所述測試表單透過檢測時,執行模組302可以將所述測試表單的測試結果提示給使用者, 並結束流程。
在一個實施例中,當所述測試表單的品質類別為差等時,所述執行模組302確定所述測試表單沒有透過檢測。當所述測試表單的品質類別為中等或者優等時,所述執行模組302確定所述測試表單透過測試。
步驟S5,當所述測試表單沒有透過檢測時,執行模組302將與所述測試表單對應的範本表單提供給使用者參考。由此,使用者可根據所提供的範本表單對所述測試表單進行修改。在一個實施例中,所述將與所述測試表單對應的範本表單提供給使用者參考包括(b1)-(b4):
(b1)獲取預先儲存的多個範本表單分別對應的文本資訊。
在一個實施例中,所述多個範本表單可以是所述預設數量的樣本資料中品質類別為優等的表單。當然,所述多個範本表單也可以是另外收集的品質類別為優等的表單。
(b2)計算所述測試表單的文本資訊與所述多個範本表單中的每個範本表單所對應的文本資訊之間的相似度,由此獲得多個相似度值。
(b3)將該多個相似度值中的每個相似度值與對應的範本表單建立關聯。
(b4)根據所述多個相似度值確定與所述測試表單對應的範本表單;及將與所述測試表單對應的範本表單顯示給使用者參考。
在一個實施例中,所述顯示給使用者參考的範本表單所對應的相似度值為所述多個相似度值中的最大值。
在其他實施例中,步驟S5之後還可進一步包括步驟S6:
步驟S6,執行模組302回應使用者的操作修改所述測試表單。執行完步驟S6之後回到步驟S1。即對修改後的所述測試表單的品質類別再行檢測。
在本發明所提供的幾個實施例中,應該理解到,所揭露的裝置和方法,可以透過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述模組的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的 劃分方式。
所述作為分離部件說明的模組可以是或者也可以不是物理上分開的,作為模組顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。
另外,在本發明各個實施例中的各功能模組可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用硬體加軟體功能模組的形式實現。
對於本領域技術人員而言,顯然本發明不限於上述示範性實施例的細節,而且在不背離本發明的精神或基本特徵的情況下,能夠以其他的具體形式實現本發明。因此,無論從哪一點來看,均應將實施例看作是示範性的,而且是非限制性的,本發明的範圍由所附請求項而不是上述說明限定,因此旨在將落在請求項的等同要件的含義和範圍內的所有變化涵括在本發明內。不應將請求項中的任何附圖標記視為限制所涉及的請求項。此外,顯然“包括”一詞不排除其他單元或,單數不排除複數。裝置請求項中陳述的多個單元或裝置也可以由一個單元或裝置透過軟體或者硬體來實現。第一,第二等詞語用來表示名稱,而並不表示任何特定的順序。
最後所應說明的是,以上實施例僅用以說明本發明的技術方案而非限制,儘管參照以上較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或等同替換,而不脫離本發明技術方案的精神和範圍。

Claims (10)

  1. 一種表單數據檢測方法,其中,該表單數據檢測方法包括:獲取測試表單的文本資訊;提取所述測試表單的文本資訊的詞向量;將所提取的詞向量輸入至預先訓練獲得的分類模型,獲得所述測試表單的品質類別;根據所述測試表單的品質類別確定所述測試表單是否透過檢測;及當所述測試表單沒有透過檢測時,將與所述測試表單對應的範本表單提供給使用者參考;所述獲取測試表單的文本資訊包括:按照預設的順序依次讀取所述測試表單的多個欄位元分別對應的文本資訊;將所述多個欄位元分別對應的文本資訊進行彙整,將彙整得到的文本資訊作為所述測試表單的文本資訊;所述將所述多個欄位元分別對應的文本資訊進行彙整包括:將所述多個欄位中的每個欄位元所對應的文本資訊按照讀取出來的先後順序進行記錄;及對所記錄的所有文本資訊作統一格式的處理,包括:去除所記錄的所有文本資訊中的標點符號、回應用戶的操作去除指定的日誌記錄、統一所記錄的所有文本資訊的英文字母的大小寫格式、統一所記錄的所有文本資訊的字體格式、以及統一所記錄的所有文本資訊的英文詞語的時態與單複數型式。
  2. 如請求項1所述的表單數據檢測方法,其中,該表單數據檢測方法還包括:回應用戶的操作,修改所述測試表單,返回至所述獲取測試表單的文本資訊。
  3. 如請求項1所述的表單數據檢測方法,其中,所述提取所述測試表單的文本資訊的詞向量包括:利用TF-IDF演算法或者Word2Vec模型提取所述測試表單的文本資訊的詞向量。
  4. 如請求項1所述的表單數據檢測方法,其中,所述將與所述測試表單對應的範本表單提供給使用者參考包括:獲取預先儲存的多個範本表單分別對應的文本資訊;計算所述測試表單的文本資訊與所述多個範本表單中的每個範本表單所對應的文本資訊之間的相似度,並獲得多個相似度值;將該多個相似度值中的每個相似度值與對應的範本表單建立關聯;根據所述多個相似度值確定與所述測試表單對應的範本表單;及將與所述測試表單對應的範本表單顯示給使用者參考。
  5. 如請求項4所述的表單數據檢測方法,其中,所述顯示給使用者參考的範本表單所對應的相似度值為所述多個相似度值中的最大值。
  6. 如請求項1所述的表單數據檢測方法,其中,所述表單數據檢測方法還包括:訓練所述分類模型;其中,訓練所述分類模型的步驟包括:收集預設數量的樣本資料,每份樣本資料包括一份表單所對應的文本資訊;對所述預設數量的樣本資料中的每份樣本資料進行處理,獲得經過處理的所述預設數量的樣本資料,包括:將每份樣本資料所包括的表單的文本資訊進行向量化處理,由此獲得每份樣本資料所對應的詞向量;以及對每份樣本資料所對應的表單的品質類別進行標示;及將經過處理的所述預設數量的樣本資料作為訓練樣本,對神經網路進行訓練,獲得所述分類模型。
  7. 如請求項6所述的表單數據檢測方法,其中,所述對所述預設數量的樣本資料中的每份樣本資料進行處理還包括:從每份樣本資料所對應的詞向量中提取關鍵字;及對所提取的關鍵字作歸類處理。
  8. 如請求項1所述的表單數據檢測方法,其中,在所述將所提取的詞向量輸入至預先訓練獲得的分類模型,獲得所述測試表單的品質類別之前,所述表單數據檢測方法還包括:根據所述測試表單的文本資訊確定所述測試表單是否滿足特定條件;及當所述測試表單滿足所述特定條件時,將所述測試表單的品質類別分類到差等;或當所述測試表單不滿足所述特定條件時,觸發所述將所提取的詞向量輸入至預先訓練獲得的分類模型,獲得所述測試表單的品質類別。
  9. 一種電腦可讀儲存介質,其中,所述電腦可讀儲存介質儲存有至少一個指令,所述至少一個指令被處理器執行時實現如請求項1至8中任意一項的所述表單數據檢測方法。
  10. 一種電腦裝置,其中,該電腦裝置包括儲存器和至少一個處理器,所述儲存器中儲存有多個指令,所述多個指令被所述至少一個處理器執行時實現如請求項1至8中任意一項的所述表單數據檢測方法。
TW109115489A 2020-04-10 2020-05-09 表單數據檢測方法、電腦裝置及儲存介質 TWI777163B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010279395.9A CN113515588A (zh) 2020-04-10 2020-04-10 表单数据检测方法、计算机装置及存储介质
CN202010279395.9 2020-04-10

Publications (2)

Publication Number Publication Date
TW202139054A TW202139054A (zh) 2021-10-16
TWI777163B true TWI777163B (zh) 2022-09-11

Family

ID=78006383

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109115489A TWI777163B (zh) 2020-04-10 2020-05-09 表單數據檢測方法、電腦裝置及儲存介質

Country Status (3)

Country Link
US (1) US20210318949A1 (zh)
CN (1) CN113515588A (zh)
TW (1) TWI777163B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328242B (zh) * 2021-12-30 2024-02-20 北京百度网讯科技有限公司 表单的测试方法、装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015190B1 (en) * 2007-03-30 2011-09-06 Google Inc. Similarity-based searching
US20160371167A1 (en) * 2015-06-17 2016-12-22 General Electric Company Scalable methods for analyzing formalized requirements and localizing errors
CN110232188A (zh) * 2019-06-04 2019-09-13 上海电力学院 电网用户故障报修工单的文本自动分类方法
TW202001620A (zh) * 2018-06-29 2020-01-01 國立臺灣師範大學 自動化網站資料蒐集方法
US20200019492A1 (en) * 2018-07-12 2020-01-16 EMC IP Holding Company LLC Generating executable test automation code automatically according to a test case

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740213B (zh) * 2014-12-10 2018-11-16 珠海金山办公软件有限公司 一种演示文稿模板提供方法及装置
CN107045496B (zh) * 2017-04-19 2021-01-05 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107357941A (zh) * 2017-09-01 2017-11-17 浙江省水文局 一种可实时对水雨情数据进行检验的系统和方法
CN109582833B (zh) * 2018-11-06 2023-09-22 创新先进技术有限公司 异常文本检测方法及装置
CN109559242A (zh) * 2018-12-13 2019-04-02 平安医疗健康管理股份有限公司 异常数据的处理方法、装置、设备及计算机可读存储介质
CN110134961A (zh) * 2019-05-17 2019-08-16 北京邮电大学 文本的处理方法、装置和存储介质
CN110727880B (zh) * 2019-10-18 2022-06-17 西安电子科技大学 一种基于词库与词向量模型的敏感语料检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015190B1 (en) * 2007-03-30 2011-09-06 Google Inc. Similarity-based searching
US20160371167A1 (en) * 2015-06-17 2016-12-22 General Electric Company Scalable methods for analyzing formalized requirements and localizing errors
TW202001620A (zh) * 2018-06-29 2020-01-01 國立臺灣師範大學 自動化網站資料蒐集方法
US20200019492A1 (en) * 2018-07-12 2020-01-16 EMC IP Holding Company LLC Generating executable test automation code automatically according to a test case
CN110232188A (zh) * 2019-06-04 2019-09-13 上海电力学院 电网用户故障报修工单的文本自动分类方法

Also Published As

Publication number Publication date
TW202139054A (zh) 2021-10-16
US20210318949A1 (en) 2021-10-14
CN113515588A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
US9690788B2 (en) File type recognition analysis method and system
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
EP3640847A1 (en) Systems and methods for identifying form fields
US11487844B2 (en) System and method for automatic detection of webpage zones of interest
CN111274239B (zh) 试卷结构化处理方法、装置和设备
US11157816B2 (en) Systems and methods for selecting and generating log parsers using neural networks
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
US11393237B1 (en) Automatic human-emulative document analysis
CN110741376A (zh) 用于不同自然语言的自动文档分析
TW201913411A (zh) 同義詞辭典作成裝置、記錄有同義詞辭典作成程式之電腦可讀取之記錄媒體及同義詞辭典作成方法
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
CN111444718A (zh) 一种保险产品需求文档处理方法、装置及电子设备
CN110490237B (zh) 数据处理方法、装置、存储介质及电子设备
WO2023038722A1 (en) Entry detection and recognition for custom forms
TWI777163B (zh) 表單數據檢測方法、電腦裝置及儲存介質
CN111159354A (zh) 一种敏感资讯检测方法、装置、设备及系统
CN108021595B (zh) 检验知识库三元组的方法及装置
CN114943219A (zh) 物料清单测试数据的生成方法、装置、设备及存储介质
KR102467096B1 (ko) 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치
CN113627892A (zh) 一种bom数据的识别方法及其电子设备
CN113722421A (zh) 一种合同审计方法和系统,及计算机可读存储介质
JP7032582B1 (ja) 情報解析プログラム、情報解析方法及び情報解析装置
CN109710651B (zh) 数据类型识别方法及装置
CN113901195A (zh) 风险控制方法、装置、计算设备及计算机存储介质
Zamyatina Text mining of companies annual reports in PDF format

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent