TW201516711A - 計算裝置、檔案內容一致性驗證系統及方法 - Google Patents

計算裝置、檔案內容一致性驗證系統及方法 Download PDF

Info

Publication number
TW201516711A
TW201516711A TW102124235A TW102124235A TW201516711A TW 201516711 A TW201516711 A TW 201516711A TW 102124235 A TW102124235 A TW 102124235A TW 102124235 A TW102124235 A TW 102124235A TW 201516711 A TW201516711 A TW 201516711A
Authority
TW
Taiwan
Prior art keywords
file
text
content
information
text information
Prior art date
Application number
TW102124235A
Other languages
English (en)
Inventor
Chung-I Lee
De-Yi Xie
zhi-qiang Yi
Qiang Cheng
ming-zhu He
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Priority to TW102124235A priority Critical patent/TW201516711A/zh
Publication of TW201516711A publication Critical patent/TW201516711A/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明提供一種檔案內容一致性驗證系統,應用於計算裝置。該系統包一系列功能模組。利用這些功能模組,該系統設置從圖檔檔案中提取文字資訊的資訊提取規則,並設置驗證與圖檔檔案相關聯的文本檔案的驗證規則。該系統根據資訊提取規則從圖檔檔案中識別文字資訊,對識別得到的文字資訊進行容錯處理,並從容錯處理後得到的文字資訊提煉得到關鍵文字資訊。之後,該系統按照設置的驗證規則在文本檔案中查找與所述關鍵文字資訊相匹配的內容,並根據匹配結果判斷文本檔案記載的內容與圖檔檔案記載的內容是否一致。

Description

計算裝置、檔案內容一致性驗證系統及方法
本發明涉及一種錯誤檢查系統及方法,尤其涉及一種驗證相關聯檔的內容一致性的系統及方法。
一般,技術性或者專業性的檔如果僅僅包含文本內容,會顯得內容蒼白、表現力不強且不便於讀者理解,因此此類檔往往會附帶解釋性/代表性的附圖來輔助說明文本內容部分,以提高檔的可讀性。一方面,由於文本內容的編輯與附圖的製作可能有一定的時間差,可能會存在文本內容與附圖內容不一致的問題,給讀者帶來了誤解或困惑。另一方面,有時附圖的內容可能是從文本內容提取的,由於人工作業會造成錯漏現象,也可能導致文本內容和附圖內容不一致。
鑒於以上內容,有必要提供一種系統及方法,可以驗證相關聯的文本檔案及圖檔檔案的內容的一致性。
本發明提供一種計算裝置,該計算裝置包括儲存器及處理器。儲存器存儲電腦程式化指令及容錯詞庫。處理器運行所述電腦程式化指令,執行以下操作:設置從圖檔檔案中提取文字資訊的資訊提取規則及驗證與圖檔檔案相關聯的文本檔案的驗證規則,並將資訊提取規則及驗證規則存儲至儲存器;利用資訊識別技術根據資訊提取規則在圖檔檔案指定的區域中識別文字資訊;根據容錯詞庫對識別得到的文字資訊進行容錯處理,並根據資訊提取規則對容錯處理後得到的文字資訊進行提煉,得到關鍵文字資訊;及按照設置的驗證規則在文本檔案中查找與所述關鍵文字資訊相匹配的內容,並根據匹配結果判斷文本檔案記載的內容與圖檔檔案記載的內容是否一致。
本發明提供一種檔案內容一致性驗證系統,應用於計算裝置。該系統包括:規則設置模組,用於設置從圖檔檔案中提取文字資訊的資訊提取規則,並設置驗證與圖檔檔案相關聯的文本檔案的驗證規則;文字識別模組,用於利用資訊識別技術根據資訊提取規則在圖檔檔案指定的區域中識別文字資訊;文字提煉模組,用於對識別得到的文字資訊進行容錯處理,並根據資訊提取規則對容錯處理後得到的文字資訊進行提煉,得到關鍵文字資訊;及內容匹配模組,用於按照設置的驗證規則在文本檔案中查找與所述關鍵文字資訊相匹配的內容,並根據匹配結果判斷文本檔案記載的內容與圖檔檔案記載的內容是否一致。
本發明還提供一種檔案內容一致性驗證方法,應用於計算裝置。該方法包括:(A)設置從圖檔檔案中提取文字資訊的資訊提取規則,並設置驗證與圖檔檔案相關聯的文本檔案的驗證規則;(B)利用資訊識別技術根據資訊提取規則在圖檔檔案指定的區域中識別文字資訊;(C)對識別得到的文字資訊進行容錯處理,並根據資訊提取規則對容錯處理後得到的文字資訊進行提煉,得到關鍵文字資訊;及(D)按照設置的驗證規則在文本檔案中查找與所述關鍵文字資訊相匹配的內容,並根據匹配結果判斷文本檔案記載的內容與圖檔檔案記載的內容是否一致。
相較於習知技術,本發明提供的檔案內容一致性驗證系統及方法,可以根據圖檔檔案對相關聯的文本檔案記載的資訊進行驗證,找出相關聯的文本檔案及圖檔檔案記載的內容不一致的位置,供用戶參考修改。
100‧‧‧計算裝置
10‧‧‧檔案內容一致性驗證系統
11‧‧‧規則設置模組
12‧‧‧文字識別模組
13‧‧‧文字提煉模組
14‧‧‧內容匹配模組
20‧‧‧儲存器
21‧‧‧文本檔案
22‧‧‧圖檔檔案
23‧‧‧規則
24‧‧‧容錯詞庫
30‧‧‧處理器
40‧‧‧顯示器
圖1是本發明檔案內容一致性驗證系統較佳實施例的功能模組圖。
圖2是本發明檔案內容一致性驗證方法較佳實施例的流程圖。
圖3是一個圖檔檔案的示意圖。
如圖1所示,是本發明檔案內容一致性驗證系統10較佳實施例的應用環境圖。該系統10運行於計算裝置100中。該計算裝置100還包括透過資料匯流排相連的儲存器20、處理器30及顯示器40。計算裝置100可以是電腦或其他具有資料處理能力的電子裝置。
儲存器20存儲有一系列文本檔案及圖檔檔案,例如圖1中所示的具有關聯關係的文本檔案21及圖檔檔案22。在本實施例中,文本檔案21可以為WORD檔、TXT檔等,圖檔檔案可以為PDF檔、TIF檔等。文本檔案21及圖檔檔案22相關聯是指文本檔案21及圖檔檔案22均是涉及相同的主題,文本檔案21是以文字方式介紹該主題,圖檔檔案22是以圖示方式介紹該主題、或是對文本檔案21中的文字內容進行輔助說明。例如,文本檔案21可以是一件專利或專利申請的說明書,圖檔檔案22可以是該專利或專利申請的說明書附圖。
在本實施例中,該系統10包括規則設置模組11、文字識別模組12、文字提煉模組13及內容匹配模組14。利用這些功能模組,該系統10設置驗證規則23,根據驗證規則23提取圖檔檔案中的文字資訊,根據儲存器20存儲的容錯詞庫24對提取的文字資訊進行容錯處理及提煉得到圖檔檔案中的關鍵文字資訊,再根據所述驗證規則在與圖檔檔案相關聯的文本檔案中查找與所述關鍵文字資訊相匹配的內容,根據匹配結果判斷相關聯的文本檔案21與圖檔檔案22記載的內容是否一致。
模組11-14包括電腦程式化指令,這些電腦程式化指令存儲在儲存器20,處理器30執行這些電腦程式化指令,提供系統10的上述功能。顯示器40顯示所述匹配結果。以下結合圖2說明模組11-14的具體功能。
如圖2所示,是本發明檔案內容一致性驗證方法較佳實施例的應用環境圖。本實施例以相關聯的文本檔案21及圖檔檔案22為例說明。文本檔案21為一件專利申請的說明書,圖檔檔案22為該專利申請的說明書附圖。
步驟S10,規則設置模組11接收用戶設置的規則23。在本實施例中,規則23包括從圖檔檔案22中提取文字資訊的資訊提取規則及對驗證文本檔案21內容一致性的驗證規則。
資訊提取規則包括在圖檔檔案22中指定執行文字資訊識別操作的區域。例如,假設圖檔檔案22包括五幅圖檔,可以指定從所有五幅圖檔中識別文字資訊,也可以指定從某一幅或其中幾幅圖檔中識別文字資訊。資訊提取規則還包括從圖檔檔案22中識別的文字資訊的類型,例如是識別數位、中文字、英文字,還是其他類型的文字資訊。
驗證規則包括在文本檔案21中執行內容一致性驗證的區域。例如,若文本檔案21為一件專利申請的說明書,則其包括【技術領域】、【背景技術】、【發明內容】、【附圖簡要說明】、【具體實施方式】等部分,在驗證規則中可以指定文本檔案21中進行文字資訊匹配的區域為【具體實施方式】部分,或者是其他部分。此外,驗證規則還可以包括在文本檔案21中執行內容一致性驗證操作中啟用語義驗證或禁用語義驗證、忽略或不忽略英文大小寫。
步驟S20,文字識別模組12利用資訊識別技術根據資訊提取規則在圖檔檔案22指定的區域中識別文字資訊。在本實施例中,所述資訊識別技術為光學字元識別(optical character recognition,OCR)技術。例如,圖3是一個圖檔檔案22的示意圖,文字識別模組12對圖3所示的圖檔檔案22執行文字資訊識別可以得到文字資訊“12 1i 14 17\n13 18”。
步驟S30,文字提煉模組13根據容錯詞庫24對文字識別模組12識別得到的文字資訊進行容錯處理,並根據資訊提取規則設置的提取文字資訊的類型對容錯處理後得到的文字資訊進行提煉,得到關鍵文字資訊,例如關鍵字/詞/句。容錯詞庫24包括數位容錯詞庫、中文容錯詞庫、英文容錯詞庫等。以數位容錯詞庫為例,如下表所示:
例如,文字識別模組12從圖3識別的文字資訊“12 li 14 17\n13 18”根據數位容錯詞庫經過容錯處理後被糾正為“12 11 14 17\n13 18”。
之後,文字提煉模組13根據資訊提取規則設置的提取文字資訊的類型對容錯處理後得到的文字資訊進行提煉。在本實施中,文字提煉模組13利用正則運算式執行提煉操作。例如,若資訊提取規則設置設置的提取文字資訊的類型為數位,則文字提煉模組13利用正則運算式(\d+)從容錯處理後得到的文字資訊“12 11 14 17\n13 18”提煉出一個一維陣列{12,11,14,17,13,18},作為關鍵文字資訊。
步驟S40,內容匹配模組14按照設置的驗證規則在文本檔案21查找與所述關鍵文字資訊相匹配的內容,並根據匹配結果判斷文本檔案21記載的內容與圖檔檔案22記載的內容是否一致。
例如,若驗證規則指定文本檔案21中進行文字資訊匹配的區域為【具體實施方式】部分,則內容匹配模組14在【具體實施方式】部分查找上述一維陣列{12,11,14,17,13,18}包括的每個元件標號,若在【具體實施方式】部分未查找到該陣列中的包括的任意一個元件標號,則判斷文本檔案21記載的內容與圖檔檔案22記載的內容不一致。內容匹配模組14還可以在文本檔案21中標識內容不一致的位置,供用戶參考修改。
如上文所述,驗證規則可以設置啟用語義驗證,語義驗證一般是實用於從圖檔檔案22中識別的文字資訊為中文或英文字詞的情況,例如,若從圖檔檔案22中識別出中文詞“電腦”,則內容匹配模組14執行語義分析後產生匹配詞語“電腦/電腦”,然後在文本檔案21中相應部分查找該匹配詞語,只要查找到“電腦”或“電腦”,就表明匹配成功。
最後應說明的是,以上實施例僅用以說明本發明的技術方案而非限制,儘管參照較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或等同替換,而不脫離本發明技術方案的精神和範圍。
100‧‧‧計算裝置
10‧‧‧檔案內容一致性驗證系統
11‧‧‧規則設置模組
12‧‧‧文字識別模組
13‧‧‧文字提煉模組
14‧‧‧內容匹配模組
20‧‧‧儲存器
21‧‧‧文本檔案
22‧‧‧圖檔檔案
23‧‧‧規則
24‧‧‧容錯詞庫
30‧‧‧處理器
40‧‧‧顯示器

Claims (10)

  1. 一種檔案內容一致性驗證方法,應用於計算裝置,該方法包括:
    規則設置步驟:設置從圖檔檔案中提取文字資訊的資訊提取規則,並設置驗證與圖檔檔案相關聯的文本檔案的驗證規則;
    文字識別步驟:利用資訊識別技術根據資訊提取規則在圖檔檔案指定的區域中識別文字資訊;
    文字提煉步驟:對識別得到的文字資訊進行容錯處理,並根據資訊提取規則對容錯處理後得到的文字資訊進行提煉,得到關鍵文字資訊;及
    內容匹配步驟:按照設置的驗證規則在文本檔案中查找與所述關鍵文字資訊相匹配的內容,並根據匹配結果判斷文本檔案記載的內容與圖檔檔案記載的內容是否一致。
  2. 如申請專利範圍第1項所述的檔案內容一致性驗證方法,其中,所述資訊提取規則包括在圖檔檔案中指定執行文字資訊識別操作的區域,以及從圖檔檔案中識別的文字資訊的類型。
  3. 如申請專利範圍第1項所述的檔案內容一致性驗證方法,其中,所述驗證規則包括以下選項之一或多個選項的組合:指定文本檔案中查找匹配內容的區域;在查找匹配內容過程中啟用/禁用語義驗證;忽略/不忽略英文大小寫。
  4. 如申請專利範圍第1項所述的檔案內容一致性驗證方法,其中,所述容錯處理是根據容錯詞庫執行的。
  5. 如申請專利範圍第2項所述的檔案內容一致性驗證方法,其中,所述對容錯處理後得到的文字資訊進行提煉是根據資訊提取規則設置的文字資訊的類型利用正則運算式執行的。
  6. 一種檔案內容一致性驗證系統,應用於計算裝置,該系統包括:
    規則設置模組,用於設置從圖檔檔案中提取文字資訊的資訊提取規則,並設置驗證與圖檔檔案相關聯的文本檔案的驗證規則;
    文字識別模組,用於利用資訊識別技術根據資訊提取規則在圖檔檔案指定的區域中識別文字資訊;
    文字提煉模組,用於對識別得到的文字資訊進行容錯處理,並根據資訊提取規則對容錯處理後得到的文字資訊進行提煉,得到關鍵文字資訊;及
    內容匹配模組,用於按照設置的驗證規則在文本檔案中查找與所述關鍵文字資訊相匹配的內容,並根據匹配結果判斷文本檔案記載的內容與圖檔檔案記載的內容是否一致。
  7. 如申請專利範圍第6項所述的檔案內容一致性驗證系統,其中,所述資訊提取規則包括在圖檔檔案中指定執行文字資訊識別操作的區域,以及從圖檔檔案中識別的文字資訊的類型。
  8. 如申請專利範圍第6項所述的檔案內容一致性驗證系統,其中,所述驗證規則包括以下選項之一或多個選項的組合:指定文本檔案中查找匹配內容的區域;在查找匹配內容過程中啟用/禁用語義驗證;忽略/不忽略英文大小寫。
  9. 如申請專利範圍第7項所述的檔案內容一致性驗證系統,其中,所述對容錯處理後得到的文字資訊進行提煉是根據資訊提取規則設置的文字資訊的類型利用正則運算式執行的。
  10. 一種計算裝置,包括:
    儲存器,用於存儲電腦程式化指令及容錯詞庫;及
    處理器,該處理器運行所述電腦程式化指令,執行以下操作:
    設置從圖檔檔案中提取文字資訊的資訊提取規則及驗證與圖檔檔案相關聯的文本檔案的驗證規則,並將資訊提取規則及驗證規則存儲至儲存器;
    利用資訊識別技術根據資訊提取規則在圖檔檔案指定的區域中識別文字資訊;
    根據容錯詞庫對識別得到的文字資訊進行容錯處理,並根據資訊提取規則對容錯處理後得到的文字資訊進行提煉,得到關鍵文字資訊;及
    按照設置的驗證規則在文本檔案中查找與所述關鍵文字資訊相匹配的內容,並根據匹配結果判斷文本檔案記載的內容與圖檔檔案記載的內容是否一致。
TW102124235A 2013-07-05 2013-07-05 計算裝置、檔案內容一致性驗證系統及方法 TW201516711A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW102124235A TW201516711A (zh) 2013-07-05 2013-07-05 計算裝置、檔案內容一致性驗證系統及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW102124235A TW201516711A (zh) 2013-07-05 2013-07-05 計算裝置、檔案內容一致性驗證系統及方法

Publications (1)

Publication Number Publication Date
TW201516711A true TW201516711A (zh) 2015-05-01

Family

ID=53720346

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102124235A TW201516711A (zh) 2013-07-05 2013-07-05 計算裝置、檔案內容一致性驗證系統及方法

Country Status (1)

Country Link
TW (1) TW201516711A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379254A (zh) * 2021-06-15 2021-09-10 深圳市聚赢档案管理有限公司 一种公证档案的自动质检系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379254A (zh) * 2021-06-15 2021-09-10 深圳市聚赢档案管理有限公司 一种公证档案的自动质检系统

Similar Documents

Publication Publication Date Title
US10049096B2 (en) System and method of template creation for a data extraction tool
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
US11176141B2 (en) Preserving emotion of user input
US9514417B2 (en) Cloud-based plagiarism detection system performing predicting based on classified feature vectors
US11914968B2 (en) Official document processing method, device, computer equipment and storage medium
US9436882B2 (en) Automated redaction
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
US10235350B2 (en) Detect annotation error locations through unannotated document segment partitioning
JP5204244B2 (ja) 誤訳の検出を支援する装置及び方法
WO2019042349A1 (zh) 操作系统框架的翻译方法、移动终端和存储装置
US10896287B2 (en) Identifying and modifying specific user input
CN104252446A (zh) 计算装置、文件内容一致性验证系统及方法
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
CN117235546B (zh) 多版本文件比对方法、装置、系统及存储介质
WO2020133186A1 (zh) 一种文档信息提取方法、存储介质及终端
CN112464927B (zh) 一种信息提取方法、装置及系统
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP5229102B2 (ja) 帳票検索装置、帳票検索プログラムおよび帳票検索方法
JP2006023944A5 (zh)
WO2021139242A1 (zh) 演示文稿生成方法、装置、设备及存储介质
WO2019000697A1 (zh) 信息检索方法、系统、服务器及可读存储介质
TW201516711A (zh) 計算裝置、檔案內容一致性驗證系統及方法
JP5916666B2 (ja) テキストによる視覚表現を含む文書を分析する装置、方法およびプログラム
JP2016103150A (ja) 文書処理装置および文書処理プログラム
JP2014044555A (ja) 画像処理装置、画像処理システム及びプログラム