TWI840106B - 語意分析系統及方法 - Google Patents
語意分析系統及方法 Download PDFInfo
- Publication number
- TWI840106B TWI840106B TW112103447A TW112103447A TWI840106B TW I840106 B TWI840106 B TW I840106B TW 112103447 A TW112103447 A TW 112103447A TW 112103447 A TW112103447 A TW 112103447A TW I840106 B TWI840106 B TW I840106B
- Authority
- TW
- Taiwan
- Prior art keywords
- document data
- comparison unit
- unit
- consistency
- comparison
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title description 12
- 238000012545 processing Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 description 11
- 239000000463 material Substances 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 3
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 2
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000001915 proofreading effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Abstract
本發明提供一種語意分析系統,該語意分析系統置於雲端平台,其包含:一資料庫、一辨識單元、一比對單元以及一處理單元,該資料庫連接該辨識單元,該辨識單元連接該比對單元,該比對單元連接處理單元,其中資料庫收集複數文件資料、及與複數文件資料相關之關鍵字;辨識單元文字化複數文件資料,產生複數文件資料之文字化表單;比對單元依據關鍵字比對複數文字化表單之間詞句及語意的一致性,產生比對結果;處理單元依據比對結果及複數文件資料產生一致性報告。本發明另提供語意分析方法。
Description
本發明係有關於語意分析系統及其方法,特別係關於一種透過辨識單元與比對單元對文件資料之間一致性進行分析的系統及方法。
在很多工程專案中,包含各種複雜且繁瑣的文書,有關於圖說、成本估算、數量計算、合約條款等等。
這些文書資料很可能分散在不只一個部門或處理人員手中,對於每一件文書資料的撰寫也很可能非出自同一人員,但是在這些文書資料中卻有很多文字、數字,尤其是金額、規格、型號、合約條款內容等,都必須在不同文件有相同一致的內容。
在現有執行過程中,仰賴藉由人力一份一份文件比對審核各個文書資料之間是否一致,例如合約條款之語意表達與其他設計文件內容之相似、成本估算與數量計算及工程圖說間之數字一致性等,造成工作量大增,且使用人力來審閱容易出錯、漏看,消耗很多人力與時間成本。
更有可能因為人為失誤導致產生履約爭議或履約表現,進而花費更多人力及時間在處理延伸出來的問題。
是以,本案發明人在觀察上述議題後,而遂有本發明之產生。
為達上述目的,本發明提供一種語意分析系統,該語意分析系統置於雲端平台,其包含:一資料庫、一辨識單元、一比對單元以及一處理單元,該資料庫連接該辨識單元,該辨識單元連接該比對單元,該比對單元連接處理單元,其中資料庫收集複數文件資料、及與複數文件資料相關之關鍵字;辨識單元文字化複數文件資料,產生複數文件資料之文字化表單;比對單元依據關鍵字比對複數文字化表單之間詞句及語意的一致性,產生比對結果;處理單元依據比對結果及複數文件資料產生一致性報告。
較佳地,複數文件資料包含圖說、成本估算、數量、及合約條款。
較佳地,比對單元包含一圖說比對單元、一數量比對單元、一規範比對單元以及一預算比對單元,分別對複數文字化表單中相對應圖說、成本估算、數量、及合約條款的文字及數字的一致性進行比對。
較佳地,文字化複數文件資料包含刪除文件資料中的標點符號、贅詞及介係詞。
較佳地,辨識單元依據同義詞向量訓練模型產生字詞向量;比對單元依據字詞向量產生文字化表單中的字詞向量距,且依據字詞向量距比對語意的一致性。
本發明另提供一種語意分析方法,包含:收集文件資料及與複數文件資料相關之關鍵字;依據同義詞向量訓練模型產生字詞向量,文字化複數
文件資料產生文字化表單;依據關鍵字及字詞向量比對複數文字化表單之間詞句及語意的一致性,產生比對結果;以及依據比對結果及複數文件資料產生一致性報告。
本發明之語意分析系統及方法利用人工智慧的字詞訓練模型及詞性分析模型,將相關聯的複數文件資料轉換成文字化表單,對文字化表單進行一致性比對產生比對結果及報告,從而大幅減少製作及校閱關聯文件資料的時間成本與人力成本,且同時提高產出關聯文件的效率與準確率。
為使熟悉該項技藝人士瞭解本發明之目的、特徵及功效,茲藉由下述具體實施例,並配合所附之圖式,對本發明詳加說明如下。
1:語意分析系統
10:資料庫
20:辨識單元
30:比對單元
31:圖說比對單元
32:數量比對單元
33:規範比對單元
34:預算比對單元
40:處理單元
圖1為根據本發明之語意分析系統的方塊圖;圖2為根據本發明之語意分析系統的比對單元的方塊圖:以及圖3為根據本發明之語意分析方法的流程圖。
現在將參照其中示出本發明概念的示例性實施例的附圖在下文中更充分地闡述本發明概念。以下藉由參照附圖更詳細地闡述的示例性實施例,本發明概念的優點及特徵以及其達成方法將顯而易見。
本文所用術語僅用於闡述特定實施例,而並非旨在限制本發明。除非上下文中清楚地另外指明,否則本文所用的單數形式的用語「一」及「該」旨在亦包括複數形式。本文所用的用語「及/或」包括相關所列項其中一或多者的任意及所有組合。應理解,當稱元件「連接」或「耦合」至另一元件時,所述元件可直接連接或耦合至所述另一元件或可存在中間元件。
本文中參照圖來闡述示例性實施例,其中所述圖是理想化示例性說明圖。因此,預期存在由例如製造技術及/或容差所造成的相對於圖示形狀的偏離。因此,圖中所示的區為示意性的,且其形狀並非旨在說明裝置的區的實際形狀、亦並非旨在限制示例性實施例的範圍。
圖1為根據本發明之語意分析系統的方塊圖。如圖1所示,語意分析系統1包含資料庫10、辨識單元20、比對單元30及處理單元40,其中,資料庫10連接辨識單元20,辨識單元20連接比對單元30,比對單元30連接處理單元40。
具體地,語意分析系統1可設置於雲端平台,其具有人工智慧字詞向量訓練模型、詞性分析模型等,包含資料庫10收集複數文件資料,例如圖說、成本估算、數量計算、合約條款等文件。資料庫10收集的文件資料類型並沒有加以限制,但多個文件資料之間應當要包含相同及同義的詞句及數字。
具體地,辨識單元20接收與文件資料相關領域(例如工程字典)的關鍵字詞,辨識單元20由資料庫讀取對欲分析的文件資料,對文件資料預處理(包含將文件資料文字化及刪除標點符號、贅詞、介係詞後產生文字串);嵌入與文件資料相關領域的詞彙(詞嵌入,word
embedding);依據同義詞向量訓練模型產生字詞向量(word vector);建立文字串的資料格式;及產生各文件資料的文字化表單。
具體地,辨識單元20產生的文字化表單僅包含文字及數字,將文字化表單傳送至比對單元30,也就是說,辨識單元20處理複數文件資料而產生複數文字化表單,且將全部文字化表單傳送至比對單元30。
比對單元30會先文字化表單進行詞性分析,亦即,依據字詞向量分析確認文字化表單中的語意,產生字詞向量距,有利於之後比對一致性。比對單元30基於關鍵字詞及文法等規則對文字化表單進行規則比對,以字詞向量距比對文字化表單中無規則資料。
具體地,辨識單元20透過詞嵌入,將文字以數學向量的方式表示,比對單元30透過不同詞彙的向量距可以知道詞彙的相近程度,進而知道是否為同義詞,再者,詞性分析模式,是用來辨識動詞、名詞、主詞等等的詞性,並依循文法規則,進而分析文句的架構,也可稱為語法分析。
比對單元30比對一致性結束後將比對結果傳送至處理單元40,處理單元40將比對結果統整並分析比對結果最終產生一致性報告。
具體地,一致性報告可以包含但不限於不同的文件資料間應該一致卻不一致的詞句及數字,並標示出是不一致的詞句及數字位於各文件資料的頁碼,或包含可能應該一致卻不一致的詞句,亦即,
語意模糊的詞句,透過一致性報告一一列出文件資料中需要進一步確認的詞句。
以工程專案為例來說明本發明之語意分析系統,工程專案中包含工程圖說、工程成本估算書、設計計算書、工程數量計算書、招標文件、相關條款等文件資料,在這些文件資料中彼此具有關聯性需具備一致性,例如:材料規格、結構型式和編號、計價方式、引用規範等。
圖2為根據本發明之語意分析系統的比對單元的方塊圖。比對單元30可包含圖說比對單元31、數量比對單元32、規範比對單元33以及預算比對單元34,分別對文字化表單內相對應的文字及數字進行比對。
具體地,比對單元30對文字化表單的比對可以分為完全比對(規則比對)以及語意比對(無規則比對),完全比對是詞句及數字必須完全一致,而語意比對則為詞句可以不同但語意相同即可。
圖說比對單元31針對工程圖說與設計計算書內容進行比對,例如:引用規範、材料規格、編號、圖號作一致性比對。
數量比對單元32針對工程圖說、設計計算書、工程數量計算書及預算內容進行比對,例如:計量計價方式、材料數量作一致性比對。
規範比對單元33針對相關條款與工程圖說、設計計算書內容進行比對,例如:引用規範、特定條款作一致性比對。
預算比對單元34針對預算書與數量計算書內容進行比對,例如:材料規格、結構型式與編號、價格作一致性比對。
比對單元30將比對結果傳送至處理單元40,處理單元40依據比對結果及工程專案中的工項分類產生一致性報告,此一致性報告可以包含例如:工程圖說中第N頁材料規格與工程數量計算書中第M頁材料規格不一致,或相關條款中第O頁引用的規範與招標文件中第P頁引用的規範不一致等警示。
本發明另提供語意分析方法,圖3為根據本發明之語意分析方法的流程圖。使用本發明的語意分析系統進行語意分析方法包含收集資料步驟、處理資料步驟、比對一致性步驟及產生報告步驟。
在收集資料步驟,以資料庫接收並儲存(收集)複數文件資料及與文件資料相關領域的關鍵字。
在處理資料步驟,以辨識單元文字化文件資料,刪除標點符號、贅詞、介係詞等,產生一文字化表單,依據同義詞向量訓練模型產生字詞向量。
在比對一致性步驟,以比對單元對文字化表單進行詞性分析,確認文字化表單中詞句的語意,產生字詞向量距;依據規則(例如關鍵字詞及文法)與字詞向量距比對文字化表單之間詞句及語意的一致性,產生比對結果。
在產生報告步驟,以處理單元依據文件資料及比對結果產生一致性報告。
綜上所述,本發明之語意分析系統及方法利用人工智慧的字詞訓練模型及詞性分析模型,將相關聯的複數文件資料轉換成文字化表單,對文字化表單進行一致性比對產生比對結果及報告,從而大幅減少製作及校閱關聯文件資料的時間成本與人力成本,且同時提高產出關聯文件的效率與準確率。
以上係藉由特定的具體實施例說明本發明之實施方式,所屬技術領域具有通常知識者可由本說明書所揭示之內容輕易地瞭解本發明之其他優點及功效。
以上所述僅為本發明之較佳實施例,並非用以限定本發明之範圍;凡其它未脫離本發明所揭示之精神下所完成之等效改變或修飾,均應包含在下述之專利範圍內。
1:語意分析系統
10:資料庫
20:辨識單元
30:比對單元
40:處理單元
Claims (7)
- 一種語意分析系統,該語意分析系統置於雲端平台,其包含:一資料庫、一辨識單元、一比對單元及一處理單元,該資料庫連接該辨識單元,該辨識單元連接該比對單元,該比對單元連接處理單元;其中,該資料庫,收集複數文件資料、及與該複數文件資料相關之關鍵字;該辨識單元,文字化該複數文件資料,產生該複數文件資料之文字化表單;該比對單元,依據該關鍵字比對該複數文字化表單之間詞句及語意的一致性,產生比對結果;以及該處理單元,依據該比對結果及該複數文件資料產生一致性報告,其中,該辨識單元依據同義詞向量訓練模型產生字詞向量;該比對單元依據該字詞向量產生該文字化表單中的字詞向量距,且依據該字詞向量距比對語意的一致性。
- 如請求項1所述之語意分析系統,其中,該複數文件資料包含圖說、成本估算、數量、及合約條款。
- 如請求項2所述之語意分析系統,其中,該比對單元包含一圖說比對單元、一數量比對單元、一規範比對單元以及一預算比對單元,分別對該複數文字化表單中相對應該圖說、該成本估算、該數量、及該合約條款的文字及數字的一致性進行比對。
- 如請求項1所述之語意分析系統,其中,文字化該複數文件資料包含刪除該等文件資料中的標點符號、贅詞及介係詞。
- 一種使用如請求項1之語意分析系統的語意分析方法,其包含:收集由資料庫接收並儲存文件資料及與該複數文件資料相關之關鍵字;依據同義詞向量訓練模型產生字詞向量,以辨識單元文字化該複數文件資料產生文字化表單;依據該關鍵字及該字詞向量,以比對單元比對該複數文字化表單之間詞句及語意的一致性,產生比對結果;以及 依據該比對結果及該複數文件資料,以處理單元產生一致性報告,其中該辨識單元依據同義詞向量訓練模型產生字詞向量;該比對單元依據該字詞向量產生該文字化表單中的字詞向量距,且依據該字詞向量距比對語意的一致性。
- 如請求項5所述之語意分析方法,其中,該複數文件資料包含圖說、成本估算、數量、及合約條款。
- 如請求項6所述之語意分析方法,其中,透過該比對單元分別對該複數文字化表單中相對應該圖說、該成本估算、該數量、及該合約條款的文字及數字的一致性進行比對。
Publications (1)
Publication Number | Publication Date |
---|---|
TWI840106B true TWI840106B (zh) | 2024-04-21 |
Family
ID=
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140075566A1 (en) | 2011-04-28 | 2014-03-13 | Cisco Technology Inc. | Computer-Implemented Method and Apparatus for Encoding Natural-Language Text Content And/Or Detecting Plagiarism |
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140075566A1 (en) | 2011-04-28 | 2014-03-13 | Cisco Technology Inc. | Computer-Implemented Method and Apparatus for Encoding Natural-Language Text Content And/Or Detecting Plagiarism |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095204B (zh) | 同义词的获取方法及装置 | |
CN110347787B (zh) | 一种基于ai辅助面试场景的面试方法、装置及终端设备 | |
CN101539907A (zh) | 词性标注模型训练装置、词性标注系统及其方法 | |
CN113806563A (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
TW201841121A (zh) | 一種自動生成語義相近句子樣本的方法 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN107832290B (zh) | 中文语义关系的识别方法及装置 | |
WO2024016516A1 (zh) | 文献数据集上知识图谱实体标注错误识别方法和系统 | |
TW201403354A (zh) | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 | |
CN111597356A (zh) | 智能化教育知识图谱构建系统与方法 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 | |
CN111626042A (zh) | 指代消解方法及装置 | |
CN114239579A (zh) | 基于正则表达式和crf模型的电力可研文档提取方法及装置 | |
CN113792542A (zh) | 一种融合句法分析和语义角色剪枝的意图理解方法 | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
CN113361252A (zh) | 基于多模态特征和情感词典的文本抑郁倾向检测系统 | |
TWI840106B (zh) | 語意分析系統及方法 | |
CN112395484A (zh) | 一种面向自动驾驶汽车的用户满意度评价方法 | |
CN116611447A (zh) | 一种基于深度学习方法的信息抽取和语义匹配系统及方法 | |
Hathout | Acquisition of morphological families and derivational series from a machine readable dictionary | |
CN106650803A (zh) | 一种计算字符串间相似度的方法及装置 | |
WO2022227196A1 (zh) | 一种数据分析方法、装置、计算机设备及存储介质 | |
Patrick et al. | Developing SNOMED CT subsets from clinical notes for intensive care service | |
Sun et al. | Important attribute identification in knowledge graph |