TW201419014A - 從電子文件中之表結構提取語義關係 - Google Patents

從電子文件中之表結構提取語義關係 Download PDF

Info

Publication number
TW201419014A
TW201419014A TW102129888A TW102129888A TW201419014A TW 201419014 A TW201419014 A TW 201419014A TW 102129888 A TW102129888 A TW 102129888A TW 102129888 A TW102129888 A TW 102129888A TW 201419014 A TW201419014 A TW 201419014A
Authority
TW
Taiwan
Prior art keywords
data structure
super
cell
semantic
statement
Prior art date
Application number
TW102129888A
Other languages
English (en)
Other versions
TWI563400B (en
Inventor
Scott N Gerard
Mark G Megerian
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of TW201419014A publication Critical patent/TW201419014A/zh
Application granted granted Critical
Publication of TWI563400B publication Critical patent/TWI563400B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本發明提供在一資料處理系統中之機制,該等機制用於提取與一電子文件相關聯之一表資料結構中之表內容之間的語義關係。此等機制判定該表資料結構內之一儲存格組態。該等機制基於該已判定儲存格組態而識別該表資料結構內之一或多個超級儲存格。對於該一或多個超級儲存格中每一超級儲存格,該等機制亦將對應於該超級儲存格之表資料轉換成用於該超級儲存格之一語義關係陳述式,其中該語義關係陳述式識別對應於該超級儲存格的該表資料之部分之間的一或多個關係。該等機制進一步與該表資料結構相關聯地儲存用於該等超級儲存格中每一者之該等語義關係陳述式。

Description

從電子文件中之表結構提取語義關係
本申請案大體上係關於一種改良型資料處理裝置及方法,且更具體而言,係關於用於從電子文件中之表結構提取語義關係之機制。
自然語言處理(natural language processing,NLP)系統、問答建立(question and answer creation,Q&A)系統及其類似者利用電子文件之文字內容之分析以執行其各種功能。舉例而言,可購自紐約阿蒙克(Armonk)之國際商業機器(International Business Machines,IBM)公司的被稱作WatsonTM之Q&A系統分析電子文件之非結構化文字內容以回答問題且從該文字內容衍生結論。
雖然此等系統對文字內容良好地起作用,但知識及資訊在電子文件中之表結構中被呈現或捕捉許多次。此類NLP及Q&A系統不能適當地處理此類表結構以搜集呈現於此等表結構中之資訊及知識。
在一說明性實施例中,提供一種在一資料處理系統中之方法,該方法用於提取與一電子文件相關聯之一表資料結構中之表內容之間的語義關係。該方法包含判定該表資料結構內之一儲存格組態。該方法進一步包含基於該已判定儲存格組態而識別該表資料結構內之一或多個超級儲存格。此外,對於該一或多個超級儲存格中每一超級儲存格,該方法包含將對應於該超級儲存格之表資料轉換成用於該超級儲 存格之一語義關係陳述式,其中該語義關係陳述式識別對應於該超級儲存格的該表資料之部分之間的一或多個關係。該方法進一步包含與該表資料結構相關聯地儲存用於該等超級儲存格中每一者之該等語義關係陳述式。
在其他說明性實施例中,提供一種包含一電腦可用或可讀媒體之電腦程式產品,該電腦可用或可讀媒體具有一電腦可讀程式。該電腦可讀程式在執行於一計算器件上時使該計算器件執行上文關於該方法說明性實施例所略述之該等操作中之各種操作及其組合。
在又一說明性實施例中,提供一種系統/裝置。該系統/裝置可包含一或多個處理器及一記憶體,該記憶體耦接至該一或多個處理器。該記憶體可包含指令,該等指令在由該一或多個處理器執行時使該一或多個處理器執行上文關於該方法說明性實施例所略述之該等操作中之各種操作及其組合。
本發明之此等及其他特徵與優點將在本發明之實例實施例之以下詳細描述中予以描述,或將鑒於本發明之實例實施例之以下詳細描述而變得對於一般熟習此項技術者顯而易見。
100‧‧‧分散式資料處理系統
102‧‧‧網路
104‧‧‧伺服器
106‧‧‧伺服器
108‧‧‧儲存單元
110‧‧‧用戶端
112‧‧‧用戶端
114‧‧‧用戶端
200‧‧‧資料處理系統
202‧‧‧北橋接器與記憶體控制器集線器(NB/MCH)
204‧‧‧南橋接器與輸入/輸出(I/O)控制器集線器(SB/ICH)
206‧‧‧處理單元
208‧‧‧主記憶體
210‧‧‧圖形處理器
212‧‧‧區域網路(LAN)配接器
216‧‧‧音訊配接器
220‧‧‧鍵盤與滑鼠配接器
222‧‧‧數據機
224‧‧‧唯讀記憶體(ROM)
226‧‧‧硬碟機(HDD)
230‧‧‧光碟唯讀記憶體(CD-ROM)磁碟機
232‧‧‧通用串列匯流排(USB)埠與其他通信埠
234‧‧‧PCI/PCIe器件
236‧‧‧超級I/O(SIO)器件
238‧‧‧匯流排
240‧‧‧匯流排
300‧‧‧表結構
310‧‧‧表角落儲存格/表標頭
312‧‧‧表角落儲存格
314‧‧‧表角落儲存格
316‧‧‧表角落儲存格
320‧‧‧欄標頭儲存格/欄標頭
330‧‧‧列標頭儲存格/列標頭
350‧‧‧欄頁尾儲存格/欄頁尾
360‧‧‧列頁尾儲存格/列頁尾
370‧‧‧表標題
380‧‧‧超級儲存格
400‧‧‧有序元組
410‧‧‧對應表標頭部分
412‧‧‧額外部分
416‧‧‧額外部分
420‧‧‧列標頭部分
430‧‧‧欄標頭部分
440‧‧‧超級儲存格部分
450‧‧‧欄頁尾部分
460‧‧‧列頁尾部分
470‧‧‧第二表標頭部分
480‧‧‧範本部分
610‧‧‧控制器
620‧‧‧介面
630‧‧‧表結構識別引擎
640‧‧‧有序元組產生引擎
650‧‧‧語義表示引擎
本發明以及較佳使用模式及其另外目標及優點將藉由參考說明性實施例之以下詳細描述且結合隨附圖式而得以最好地理解,在該等圖式中:圖1為可實施說明性實施例之態樣之分散式資料處理系統的實例圖;圖2為可實施說明性實施例之態樣之計算器件的實例方塊圖;圖3為根據一說明性實施例之表結構的實例圖,其展示用於判定表結構之語義的表結構之元素;圖4為根據一說明性實施例之說明有序元組之實例組織的實例 圖;圖5A至圖5D說明可供實施說明性實施例之其他實例表結構;圖6為根據一說明性實施例之表結構語法提取引擎的實例方塊圖;及圖7為根據一說明性實施例之流程圖,其略述用於提取表結構語法資訊且制訂表結構之語義表示之實例操作。
說明性實施例提供用於從內嵌於電子文件中或以其他方式與電子文件相關聯之表結構提取語義關係之機制。如上文所提到,自然語言處理(NLP)系統、問答建立(Q&A)系統及其類似者不能夠適當地處理此類表結構,此係因為其未經組態成以有意義方式來理解此類表結構之結構或辨識此類表中含有之資訊之間的關係。此係因為諸如IBM公司之WatsonTM Q&A系統的此類NLP及Q&A系統對以句子結構而呈現之資訊進行操作,且分析已適當形成句子之語法以收集關於電子文件之內容之資訊。
說明性實施例提供用於將表結構映射至表示彼等表結構中之資訊之文字陳述式或映射至其他形式之結構化資訊的機制,分析引擎可經組態以利用該結構化資訊。在給出電子文件中之表結構的情況下,說明性實施例提供對可如何提取該表結構之意義或語義而使得此等語義可被以程式處理之問題的解決方案。
亦即,許多表結構具有表結構中之儲存格之間的一組豐富關係。此等關係可包括與同一列中之標頭及頁尾儲存格的水平關係、與同一欄中之標頭及頁尾儲存格的垂直關係、與表結構之「角落(corner)」儲存格且與表結構之標題的表格式/內容相關式關係、相鄰儲存格之間的鄰居關係,及其類似者。說明性實施例提供用於從表結構提取此類語義關係且將該等語義關係制訂成可由分析引擎使用之結 構的機制。舉例而言,此制訂可包括產生表示表結構中之資訊之間的語義關係之句子結構、具有表示此等語義關係之內容的結構化查詢語言(Structured Query Language,SQL)陳述式、語義三元組(例如,資源描述架構(Resource Description Framework,RDF)或N3),或其類似者。將出於解釋簡易起見而使用二維表結構來描述說明性實施例,但一般熟習此項技術者應瞭解,可運用如可提供於電腦模型、資料倉儲或其類似者中的具有2個以上維度之表結構來實施說明性實施例之機制。
根據一說明性實施例,從表結構提取意義(或語義)包含以下三個操作:結構識別、有序元組產生,及語義表示建構。關於結構識別,判定列標頭、列頁尾、欄標頭及欄頁尾之大小,以及表結構中之超級儲存格之大小。此情形提供用以剖析表結構以提取表結構之內容及基於表之結構之關係的結構資訊。
有序元組產生涉及針對每一超級儲存格而建構一有序元組。該有序元組含有該超級儲存格之內容(鄰居相關儲存格)以及該超級儲存格之水平、垂直及表格式相關儲存格中之全部的內容。語義表示建構涉及使用表結構之範本以將每一有序元組獨立地轉換成一目標語義表示。所得語義表示可插入於電子文件中之表結構中或以其他方式與電子文件中之表結構相關聯,或通常插入至電子文件。結果,語義表示可由利用語義表示之NLP、Q&A或其他分析系統處理。
熟習此項技術者應瞭解,本發明之態樣可被體現為系統、方法或電腦程式產品。因此,本發明之態樣可採取完全硬體實施例、完全軟體實施例(包括韌體、常駐軟體、微碼等等)或組合軟體態樣與硬體態樣之實施例的形式,該等實施例在本文中通常皆可被為「電路」、「模組」或「系統」。此外,本發明之態樣可採取體現於任何一或多個電腦可讀媒體中之電腦程式產品的形式,該一或多個電腦可讀媒體 具有體現於其上之電腦可用程式碼。
可利用一或多個電腦可讀媒體之任何組合。電腦可讀媒體可為電腦可讀信號媒體或電腦可讀儲存媒體。舉例而言,電腦可讀儲存媒體可為但不限於電子、磁性、光學、電磁、紅外線或半導體系統、裝置或器件,或前述各者之任何合適組合。電腦可讀儲存媒體之更特定實例(非詳盡清單)將包括以下各者:具有一或多個電線之電連線、攜帶型電腦磁片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除可程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、攜帶型光碟唯讀記憶體(CDROM)、光學儲存器件、磁性儲存器件,或前述各者之任何合適組合。在此文件之上下文中,電腦可讀儲存媒體可為可含有或儲存供指令執行系統、裝置或器件使用或結合指令執行系統、裝置或器件而使用之程式的任何有形媒體。
電腦可讀信號媒體可包括傳播資料信號,其中體現有電腦可讀程式碼,例如,在基頻中或作為載波之部分。此類傳播信號可採取多種形式中任一者,包括但不限於電磁、光學或其任何合適組合。電腦可讀信號媒體可為並非電腦可讀儲存媒體且可傳達、傳播或傳送供指令執行系統、裝置或器件使用或結合指令執行系統、裝置或器件而使用之程式的任何電腦可讀媒體。
可使用任何適當媒體來傳輸體現於電腦可讀媒體上之電腦程式碼,該任何適當媒體包括但不限於無線、有線、光纖纜線、射頻(RF)等等,或其任何合適組合。
可以一或多種程式設計語言之任何組合來撰寫用於進行用於本發明之態樣之操作的電腦程式碼,該一或多種程式設計語言包括諸如JavaTM、SmalltalkTM、C++或其類似者之物件導向式程式設計語言,及諸如「C」程式設計語言或相似程式設計語言之習知程序性程式設計語言。程式碼可完全地執行於使用者之電腦上、部分地執行於使用 者之電腦上、作為獨立式套裝軟體而執行、部分地執行於使用者之電腦上且部分地執行於遠端電腦上,或完全地執行於遠端電腦或伺服器上。在後者情境中,遠端電腦可經由包括區域網路(LAN)或廣域網路(WAN)的任何類型之網路而連接至使用者之電腦,或可對外部電腦進行連接(例如,經由使用網際網路服務提供者之網際網路)。
下文藉由參考根據本發明之說明性實施例之方法、裝置(系統)及電腦程式產品的流程圖說明及/或方塊圖而描述本發明之態樣。應理解,該等流程圖說明及/或方塊圖之每一區塊以及該等流程圖說明及/或方塊圖中之區塊組合可由電腦程式指令實施。可將此等電腦程式指令提供至一般用途電腦、特殊用途電腦或其他可程式化資料處理裝置之處理器以產生一機器,使得經由該電腦或其他可程式化資料處理裝置之處理器而執行之指令建立用於實施該或該等流程圖及/或方塊圖區塊中指定之功能/動作的構件。
亦可將此等電腦程式指令儲存於電腦可讀媒體中,其可指導電腦、其他可程式化資料處理裝置或其他器件以特定方式起作用,使得儲存於該電腦可讀媒體中之指令產生一製品,該製品包括實施該或該等流程圖及/或方塊圖區塊中指定之功能/動作的指令。
亦可將該等電腦程式指令載入至電腦、其他可程式化資料處理裝置或其他器件上以使一系列操作步驟執行於該電腦、該其他可程式化裝置或該等其他器件上以產生一電腦實施處理序,使得執行於該電腦或其他可程式化裝置上之指令提供用於實施該或該等流程圖及/或方塊圖區塊中指定之功能/動作的處理序。
諸圖中之流程圖及方塊圖說明根據本發明之各種實施例之系統、方法及電腦程式產品之可能實施的架構、功能性及操作。在此方面,流程圖或方塊圖中之每一區塊可表示一程式碼模組、區段或部分,其包含用於實施已指定邏輯功能之一或多個可執行指令。亦應注 意,在一些替代實施中,區塊中提到之功能可不以諸圖中提到之次序發生。舉例而言,取決於所涉及之功能性,連續地展示之兩個區塊事實上可實質上同時地執行,或該等區塊有時可以相反次序執行。亦應注意,方塊圖及/或流程圖說明之每一區塊以及方塊圖及/或流程圖說明中之區塊組合可由執行已指定功能或動作的以特殊用途硬體為基礎之系統或特殊用途硬體及電腦指令之組合實施。
因此,可在許多不同類型之資料處理環境中利用說明性實施例。為了提供用於描述說明性實施例之特定元件及功能性的上下文,此後提供圖1及圖2作為可實施說明性實施例之態樣之實例環境。應瞭解,圖1及圖2僅為實例且不意欲確證或隱含關於可實施本發明之態樣或實施例之環境的任何限制。可在不脫離本發明之精神及範疇的情況下進行對所描繪環境之許多修改。
圖1描繪可實施說明性實施例之態樣之實例分散式資料處理系統的圖示表示。分散式資料處理系統100可包括可實施說明性實施例之態樣之電腦的網路。分散式資料處理系統100含有至少一網路102,網路102為用以在分散式資料處理系統100內連接在一起之各種器件與電腦之間提供通信鏈路的媒體。網路102可包括連線,諸如,電線、無線通信鏈路或光纖纜線。
在所描繪實例中,伺服器104及伺服器106連同儲存單元108一起連接至網路102。此外,用戶端110、112及114亦連接至網路102。舉例而言,此等用戶端110、112及114可為個人電腦、網路電腦或其類似者。在所描繪實例中,伺服器104將諸如開機檔案、作業系統影像及應用程式之資料提供至用戶端110、112及114。在所描繪實例中,用戶端110、112及114為至伺服器104之用戶端。分散式資料處理系統100可包括未展示之額外伺服器、用戶端及其他器件。
在所描繪實例中,分散式資料處理系統100為網際網路,其中網 路102表示使用傳輸控制協定/網際網路協定(TCP/IP)協定套件以相互通信之網路及閘道器的全球集合。在網際網路之中心處的是主要節點或主機電腦之間的高速資料通信線之骨幹,其由路由資料及訊息之數千個商業、政府、教育及其他電腦系統組成。當然,分散式資料處理系統100亦可經實施以包括數個不同類型之網路,諸如,企業內部網路、區域網路(LAN)、廣域網路(WAN)或其類似者。如上文所陳述,圖1意欲作為一實例,而非作為針對本發明之不同實施例之架構限制,且因此,不應將圖1所展示之特定元件視為關於可實施本發明之說明性實施例之環境是限制性的。
圖2為可實施說明性實施例之態樣之實例資料處理系統的方塊圖。資料處理系統200為電腦之實例,諸如,圖1中之用戶端110,其中可定位有實施用於本發明之說明性實施例之處理序的電腦可用程式碼或指令。
在所描繪實例中,資料處理系統200使用包括北橋接器與記憶體控制器集線器(NB/MCH)202及南橋接器與輸入/輸出(I/O)控制器集線器(SB/ICH)204之集線器架構。處理單元206、主記憶體208及圖形處理器210連接至NB/MCH 202。圖形處理器210可經由加速圖形埠(AGP)而連接至NB/MCH 202。
在所描繪實例中,區域網路(LAN)配接器212連接至SB/ICH 204。音訊配接器216、鍵盤與滑鼠配接器220、數據機222、唯讀記憶體(ROM)224、硬碟機(HDD)226、CD-ROM磁碟機230、通用串列匯流排(USB)埠與其他通信埠232及PCI/PCIe器件234經由匯流排238及匯流排240而連接至SB/ICH 204。舉例而言,PCI/PCIe器件可包括乙太網路配接器、附加介面卡(add-in card),及用於筆記型電腦之PC卡。PCI使用卡匯流排控制器,而PCIe不使用卡匯流排控制器。舉例而言,ROM 224可為快閃基本輸入/輸出系統(BIOS)。
HDD 226及CD-ROM磁碟機230經由匯流排240而連接至SB/ICH 204。舉例而言,HDD 226及CD-ROM磁碟機230可使用整合式電子驅動介面(integrated drive electronics,IDE)或串列進階附接技術(serial advanced technology attachment,SATA)介面。超級I/O(SIO)器件236可連接至SB/ICH 204。
作業系統執行於處理單元206上。作業系統協調及提供圖2中之資料處理系統200內之各種組件的控制。作為用戶端,作業系統可為諸如Microsoft® Windows 7®之市售作業系統。諸如JavaTM程式設計系統之物件導向式程式設計系統可結合作業系統而執行,且提供從執行於資料處理系統200上之JavaTM程式或應用程式而對作業系統之呼叫。
作為伺服器,舉例而言,資料處理系統200可為執行Advanced Interactive Executive(AIX®)作業系統或LINUX®作業系統之IBM® eServerTM System p®電腦系統。資料處理系統200可為在處理單元206中包括複數個處理器之對稱多處理器(SMP)系統。或者,可使用單一處理器系統。
用於作業系統之指令、物件導向式程式設計系統及應用程式或程式位於諸如HDD 226之儲存器件上,且可載入至主記憶體208中以供處理單元206執行。用於本發明之說明性實施例之處理序可由處理單元206使用電腦可用程式碼而執行,該電腦可用程式碼可(例如)位於諸如主記憶體208、ROM 224之記憶體中或位於一或多個周邊器件226及230中。
諸如圖2所展示之匯流排238或匯流排240之匯流排系統可包含一或多個匯流排。當然,可使用任何類型之通信網狀架構或架構來實施匯流排系統,該通信網狀架構或架構提供附接至該網狀架構或架構之不同組件或器件之間的資料傳送。諸如圖2之數據機222或網路配接器 212之通信單元可包括用以傳輸及接收資料之一或多個器件。舉例而言,一記憶體可為圖2中之主記憶體208、ROM 224,或諸如NB/MCH 202中發現之快取記憶體。
一般熟習此項技術者應瞭解,圖1及圖2中之硬體可取決於實施而變化。除了圖1及圖2所描繪之硬體以外或代替圖1及圖2所描繪之硬體,亦可使用諸如快閃記憶體、等效非揮發性記憶體或光碟機及其類似者之其他內部硬體或周邊器件。又,在不脫離本發明之精神及範疇的情況下,說明性實施例之處理序可應用於不同於先前所提及之SMP系統的多處理器資料處理系統。
此外,資料處理系統200可採取數個不同資料處理系統中任一者之形式,該等資料處理系統包括用戶端計算器件、伺服器計算器件、平板電腦、膝上型電腦、電話或其他通信器件、個人數位助理(PDA)或其類似者。在一些說明性實例中,舉例而言,資料處理系統200可為經組態有快閃記憶體以提供用於儲存作業系統檔案及/或使用者產生資料之非揮發性記憶體的攜帶型計算器件。基本上,在無架構限制之情況下,資料處理系統200可為任何已知或以後開發之資料處理系統。
再次參看圖1,本發明之說明性實施例可實施於圖1所說明之計算器件中任一者或複數者中,該等計算器件包括伺服器104、106及/或用戶端110至114。在一些說明性實施例中,說明性實施例之機制係結合用於分析儲存於一或多個儲存系統/器件中之電子文件之分析引擎而實施。此分析引擎可採取包括自然語言處理(NLP)分析引擎、問答建立(Q&A)系統或其類似者之許多不同形式。由說明性實施例之機制分析之電子文件及與說明性相關聯之分析引擎可在本端儲存至執行說明性實施例之機制及分析引擎之計算器件、可在遠端位於與其他計算器件相關聯且可經由一或多個網路102而存取之儲存系統/器件上、 可包含在本端維護之電子文件及在遠端維護之電子文件兩者,且可橫越可經由一或多個網路102而存取之多個計算器件及儲存系統/器件而分散。在一說明性實施例中,電子文件(能夠具有內嵌式表結構或與電子文件相關聯之表結構)可為可得自任何用戶端計算器件、伺服器、網路附接儲存系統或其類似者之任何電子文件、網頁或內容集合。
出於以下描述之目的,將假定說明性實施例之機制係結合Q&A分析引擎而實施。Q&A分析引擎取得輸入問題、分析輸入問題,且傳回指示輸入問題之最可能答案之結果。Q&A系統提供用於仔細搜尋大組內容來源(例如,電子文件)之自動化機制,且關於輸入問題而分析該等內容來源以判定該問題之答案及關於回答輸入問題之答案之準確度的信賴度量。
一種此類Q&A系統為可購自紐約阿蒙克之國際商業機器(IBM)公司之WatsonTM系統。WatsonTM系統為進階自然語言處理(NLP)、資訊擷取、知識表示與推理及機器學習技術至開域問題回答領域之應用。WatsonTM系統係建置於用於假設產生、大量辨識項收集、分析及計分的IBM之DeepQATM技術上。DeepQATM取得輸入問題、分析輸入問題、將該問題分解成組成部分、基於已分解之問題以及答案來源之主要搜尋之結果而產生一或多個假設、基於從辨識項來源對辨識項之擷取而執行假設及辨識項計分、執行一或多個假設之合成,且基於已訓練模型而執行最終合併及排名以連同信賴度量一起而輸出輸入問題之答案。
各種美國專利申請公開案描述亦可結合說明性實施例之機制而使用的各種類型之問答系統。美國專利申請公開案第2011/0125734號揭示一種用於基於資料之主體(corpus)而產生問答對的機制。該系統以一組問題開始,且接著分析該組內容以提取彼等問題之答案。美國 專利申請公開案第2011/0066587號揭示一種用於將已分析資訊之報告轉換成問題集合且從資訊組判定問題集合之答案被回答抑或反駁的機制。將結果資料併入至已更新資訊模型中。在不脫離說明性實施例之精神及範疇的情況下,任何已知或以後開發之問答建立系統可與說明性實施例之機制一起使用。
說明性實施例之機制可作為內嵌於電子文件中或以其他方式與電子文件相關聯之表結構內容之預處理器而操作,該等電子文件待由Q&A系統或具有可識別格式之內容的其他分析引擎分析,該內容能夠由該分析引擎處理。在Q&A系統之狀況下,可識別格式為句子結構格式。此句子結構格式不為需要資訊之特定排序的嚴格格式,而為靈活之非結構化格式,此在於:Q&A系統可分析具有各種格式之句子且提取該等句子之語法。在其他實施例中,該格式可具有較不靈活之結構,且可要求可識別格式具有資訊之特定排序。
說明性實施例可對與電子文件相關聯之表結構內容進行操作以將表結構內容轉換至分析引擎能夠進行處理以獲得語法資訊之格式。說明性實施例處理表結構內容以判定表結構內容之結構、產生從表結構內容提取之資訊之表示,且接著使用從表結構內容提取之資訊之表示以建構此資訊之語義表示,該語義表示具有能夠由關聯分析引擎處理之格式。
為了更清楚地理解由說明性實施例之機制執行之操作,首先重要的是理解可內嵌於電子文件中或以其他方式與電子文件相關聯之表結構之一般結構及內容。圖3為根據一說明性實施例之表結構的實例圖,其展示用於判定表結構之語義的表結構之元素。圖3所展示之圖解說明實例表結構之儲存格結構。應瞭解,此情形僅為一實例,且其他表結構可具有可由說明性實施例之機制識別之不同結構。
如圖3所展示,表結構300包含在圖3中被表示為方框之複數個儲 存格。此等儲存格可儲存包括標頭、頁尾及資訊內容的不同類型之資訊。在圖3所展示之實例中,儲存格310至316為表角落儲存格,儲存格320為欄標頭儲存格,儲存格330為列標頭儲存格,儲存格350為欄頁尾儲存格,且儲存格360為列頁尾儲存格。表角落儲存格310至316可包括一或多個欄標頭/頁尾儲存格及列標頭/頁尾儲存格。在圖3所展示之實例中,可將表角落儲存格310視為提供關於表自身之標頭資訊的表標頭。其他表角落儲存格312至316亦可儲存額外表標頭/頁尾資訊。表結構300進一步包含一或多個表標題370。
表結構300中之每一水平列具有零個或多個列標頭儲存格330及零個或多個列頁尾儲存格360。表結構300中之每一垂直欄具有零個或多個欄標頭儲存格320及零個或多個欄頁尾儲存格350。表結構300之內文(在表標頭310及表頁尾340內部)含有為相關儲存格之非重疊集合的超級儲存格380。較佳地,此等超級儲存格380具有矩形形狀,但無需此情形。此等超級儲存格380可包含表內之一或多個儲存格。相似地,表結構300之其他部分(例如,標頭、頁尾及其類似者)可同樣地包含表結構300之一或多個儲存格。
列標頭330、列頁尾360、欄標頭320及欄頁尾350之大小定義應用於整個表結構300的表結構300之角落中之儲存格區塊。選用之一或多個表標題370亦應用於整個表結構300。
表結構300之大小及組態可由與表結構300相關聯之後設資料識別,或可經由儲存格之配置及儲存格內含有之內容的分析而自動地識別。舉例而言,當建立表結構300時,表結構300之建立者可指定該表結構之哪些儲存格對應於欄標頭、欄頁尾、列標頭及列頁尾。此外,建立者可闡述表結構300之內文內之超級儲存格的大小(以儲存格之數目為單位)。或者,可提供指示表結構300之類型(例如,列之數目、欄之數目)的資訊,且可分析內容以判定該表結構之哪些部分對應於 標頭/頁尾且哪些部分對應於內文內容。若超級儲存格大小之預設設定未被給出或不能夠根據表結構300之分析予以辨別,則可選取超級儲存格大小之預設設定。
舉例而言,自動化分析可涉及找尋指示標頭之文字內容,諸如,與特定詞彙相對之一般詞彙,例如,「Name」係一般的,「Steve」為「Name」之特定例項。數值項目相比於標頭/頁尾常常更多地指示內文內容,且因此可被視為內文內容以作為自動化分析之部分。與為內文內容儲存格之內部儲存格相對,表結構之外部邊界上之儲存格傾向於為標頭/頁尾。作為一另外實例,術語「總計」、「小計」及其類似者可指示用於欄/列之標頭/頁尾。當評估表結構300之儲存格以判定該等儲存格為標頭、頁尾抑或內文內容(例如,超級儲存格)之部分時,分析可考量該等儲存格之許多不同特性。在不脫離說明性實施例之精神及範疇的情況下,可使用用於識別表結構之部分的任何機制及/或邏輯。
出於以下描述之目的,將假定表結構300之結構及配置在與表結構300相關聯之後設資料中被指定,該後設資料在表結構300被建立時抑或在此後之某點時被手動地輸入或自動地產生。此外,表結構300之建立者或關注於描述表結構300之內容之其他人員可提供一範本陳述式,該範本陳述式指示表結構300之內容可被表示的方式。舉例而言,在所描繪實例中,範本陳述式可能屬於類型「The cost of $rowhead(1,1)in year $colhead(1,1)is $cell(1,1)」,其中列標頭為產品名稱,欄標頭為年份,且內文內容儲存格包含成本資訊。此範本陳述式可用來以能夠由關聯分析引擎(例如,NLP引擎、Q&A引擎或其類似者)處理之格式來產生表結構300中含有之資訊之語義表示。
在知道表結構300內之儲存格之結構及配置的情況下,說明性實施例之機制針對表結構300之內文中之每一超級儲存格380而產生有序 元組(有序組值)。有序元組提供用於從表結構300收集之資訊之標準化格式,使得可將此資訊映射至如由範本定義的表之語義表示。藉由產生有序元組,接著可基於用以產生表結構300之語義表示之特定範本來針對不同類型之分析引擎或出於不同目的而格式化資訊。舉例而言,第一範本可用以產生表結構300之自然語言句子語義表示,且第二範本可用以產生表示表結構300之SQL陳述式。兩個範本皆可使用相同有序元組以產生對應於該等範本之語義表示。此外,如圖3所展示,超級儲存格380、標頭及頁尾可包含多個儲存格,且有序元組根據每一超級儲存格380而組織此資訊。
圖4為根據一說明性實施例之說明有序元組之實例組織的實例圖。圖4所展示之特定實例係用於圖3中之實例表結構300,但說明性實施例不應被認作限於對僅具有圖3所展示之特定結構之表結構300進行操作。
如圖4所展示,針對表300中之每一超級儲存格380存在一分離有序元組,存在所產生之分離有序元組400。因此,在圖4所展示之有序元組資料結構中,存在9個分離有序元組,針對表結構300之內文中之9個超級儲存格380中每一者存在一個分離有序模組。每一有序元組400包含用於在9個分離有序元組當中共同之表標題370的項目。每一有序元組400包含對應表標頭部分410(對應於表標頭310)、列標頭部分420(對應於列標頭330)、欄標頭部分430(對應於欄標頭320)、超級儲存格部分440(對應於超級儲存格380)、欄頁尾部分450(對應於欄頁尾350)、列頁尾部分460(對應於列頁尾360)、第二表標頭部分470(對應於表標頭340),及指定待與該有序元組一起使用之一或多個範本或範本識別符之範本部分480。亦可針對表角落部分而提供額外部分412及416。
範本部分480係選用的,且可基於在建立有序元組400時與表相 關聯之特定範本予以填入。或者,範本部分480可被動態地填入,或範本可基於待用於正對電子文件及其內嵌式或關聯表結構300進行操作之分析引擎之特定範本予以動態地判定。在不脫離說明性實施例之精神及範疇的情況下,除了所展示之資訊以外抑或替換圖4所展示之資訊之部分,有序元組400亦可進一步含有圖4中未特定地展示之其他應用特定資訊,例如,超級儲存格列及欄數目或其類似者。
說明性實施例提供用於將表結構300中之資訊映射成圖4之有序元組資料結構之有序元組400的邏輯。在已經由說明性實施例之映射邏輯而產生有序元組400的情況下,說明性實施例之機制對範本進行操作以產生儲存於有序元組400中之資訊之語義表示。亦即,說明性實施例將用於表結構300之範本應用於有序元組以針對每一有序元組而產生一分離語義陳述式。範本之此類應用包含使範本中之變數填入有來自有序元組之對應部分之對應資訊。結果為描述表結構300中之內容及內容之間的關係之一組語義陳述式。此等陳述式接著可儲存於表結構300及/或與表結構300相關聯之電子文件中,或與表結構300及/或該電子文件相關聯。
分離範本可應用於有序元組400以產生可由不同類型之分析引擎使用或可出於不同目的而使用之分離語義陳述式。因此,與表結構300相關聯之語義陳述式可包含用於每一有序元組400之多個語義陳述式,針對每一範本存在一個語義陳述式。
結果,當分析引擎處理具有關聯表結構300之電子文件時,分析引擎可識別能夠由分析引擎處理的與表結構300相關聯之語義陳述式。分析引擎接著可對此等語義陳述式執行其正常分析操作,例如,NLP操作、Q&A操作或其類似者,以產生對應分析結果。
因此,說明性實施例提供用於處理與電子文件相關聯之表結構以便產生該等表結構中含有之資訊之間的關係之語義表示的機制。此 等語義表示能夠由NLP分析引擎、Q&A分析引擎及其類似者處理。因此,說明性實施例之機制允許將先前不能夠由此等類型之分析引擎處理之表結構轉換至能夠由分析引擎處理之語義表示。
如上文所提及,圖3所展示之表結構300僅為能夠由說明性實施例之機制處理之一個可能表結構300的實例。說明性實施例不限於任何特定類型之表結構300,只要表結構300之配置及組態能夠經由表結構300之分析抑或經由與表結構300相關聯之後設資料之處理予以識別即可。
圖5A至圖5D說明可供實施說明性實施例之其他實例表結構。圖5A說明二維表結構。圖5B說明一維按列表結構。圖5C說明一維按欄表結構。圖5D說明並排表結構。圖5A至圖5C中之表結構為最常見之表結構,其中圖5D較不常見,但用於足夠數目個帳戶處理及金融例項中以保證考慮。說明性實施例能夠識別此等各種類型之表結構,且使用上文先前所描述之方法及機制來產生用於此等表結構之內文中之超級儲存格的有序元組。
圖6為根據一說明性實施例之表結構語法提取引擎的實例方塊圖。圖6所展示之元件可以硬體、軟體或硬體與軟體之任何組合予以實施。在一說明性實施例中,圖6之機制可被實施為由一或多個硬體元件執行之軟體指令。舉例而言,圖6之元件可被實施為載入至一或多個記憶體中且由一或多個處理器執行之軟體指令。
如圖6所展示,表結構語法提取引擎600包含控制器610、介面620、表結構識別引擎630、有序元組產生引擎640及語義表示引擎650。控制器610控制表結構語法提取引擎600之整體操作,且使其他元件620至650之操作和諧地結合起來。介面620提供一通信介面,表結構資訊可經由該通信介面被接收且表結構資訊之語義表示可經由該通信介面被輸出。介面620提供一通信路徑,表結構語法提取引擎600 可經由該通信路徑而與一或多個分析引擎通信,表結構語法提取引擎600與該一或多個分析引擎合作。
表結構識別引擎630提供用於判定表之結構的邏輯。此情形可涉及處理識別表之結構的與表相關聯之後設資料,或分析該表以判定該結構。該結構可依據列標頭、列頁尾、欄標頭、欄頁尾、超級儲存格及其類似者之大小而指定。此資訊可用以識別表中之各種儲存格以判定哪些儲存格對應於表之不同部分,例如,列標頭/頁尾、欄標頭/頁尾、表之內文中之超級儲存格,及其類似者。
有序元組產生引擎640取得如由表結構識別引擎630判定的用於表之結構資訊且使用此結構資訊以將表之內容映射至有序元組,針對表中之每一超級儲存格存在一個有序元組,該等有序元組可經儲存以供以後擷取,諸如,由語義表示引擎650擷取,如下文所描述。此等有序元組基本上將來自表之內容映射成可用以產生表之語義表示的格式,該語義表示包含用於每一超級儲存格之一分離語義陳述式。
將由有序元組產生引擎640產生之有序元組提供至語義表示引擎650。語義表示引擎650將一或多個語義表示範本應用於由有序元組產生引擎640產生之有序元組。如上文所提及,此等範本可在其被產生時與有序元組相關聯,或可以其他方式在以後時間被動態地應用。舉例而言,連同輸入至表結構語法提取引擎600之表資訊一起,該(該等)範本亦可經輸入以供語義表示引擎650應用。由語義表示引擎650產生之結果為定義輸入表中之內容之間的關係之一組語義陳述式,其經格式化以供諸如NLP引擎、Q&A引擎或其類似者之關聯分析引擎處理。此等語義陳述式可經儲存為表結構之部分、與表結構相關聯之電子文件,或連結至表結構及/或電子文件之分離資料結構。此等語義陳述式之關聯允許分析引擎從表提取語義關係資訊以對表結構執行其分析操作。此等語義陳述式可為自然語言句子陳述式、SQL陳述式或 其類似者。
圖7為根據一說明性實施例之流程圖,其略述用於提取表結構語法資訊且制訂表結構之語義表示之實例操作。舉例而言,圖7中略述之操作可由圖6中之表結構語法提取引擎600實施。
如圖7所展示,操作藉由接收表結構資訊作為輸入而開始(步驟710)。舉例而言,在操作係由分析引擎回應於表插入至電子文件中或作為電子文件之部分被建立或適於起始電子文件中之表結構之語義表示之產生的數個其他可能事件中任一者而執行之前,此步驟可回應於分析引擎在分析電子文件時遭遇表結構而作為電子文件之預處理步驟之部分而進行。
回應於接收表結構資訊,識別表之結構(步驟720)。舉例而言,此步驟可包括判定標頭、頁尾、超級儲存格及其類似者之大小。表之結構之判定可包含分析與表相關聯且經提供為表結構資訊之部分的後設資料,或執行表之內容之分析以識別對應於標頭、頁尾、內文儲存格及其類似者之部分。在判定表之結構之後,使用用以將表之內容映射至用於每一超級儲存格之有序元組的映射邏輯來針對表之內文中之超級儲存格中每一者而產生有序元組(步驟730)。接著使用範本來處理有序元組以產生對應於有序元組之語義陳述式,使得每一有序元組產生定義對應於有序元組之超級儲存格之內容之間的關係之一或多個語義陳述式(步驟740)。接著與表結構相關聯地儲存語義陳述式(步驟750)以供以後由分析引擎使用(步驟760)。操作接著終止。
因此,如上文所提到,說明性實施例提供用於將表結構轉換至能夠由諸如NLP分析引擎、Q&A分析引擎及其類似者之分析引擎處理之形式的機制。該轉換包含判定表之結構、產生表中之每一超級儲存格之有序元組表示,及將一或多個範本應用於有序元組以產生表示表中之超級儲存格之內容之間的關係之語義陳述式。
如上文所提到,應瞭解,說明性實施例可採取完全硬體實施例、完全軟體實施例或含有硬體元件及軟體元件兩者之實施例的形式。在一實例實施例中,說明性實施例之機制係以軟體或程式碼予以實施,該軟體或程式碼包括但不限於韌體、常駐軟體、微碼等等。
適合於儲存及/或執行程式碼之資料處理系統將包括直接地或經由系統匯流排而間接地耦接至記憶體元件之至少一處理器。記憶體元件可包括在程式碼之實際執行期間使用之本端記憶體、大容量儲存器及快取記憶體,快取記憶體提供至少某程式碼之暫時儲存,以便減少在執行期間必須從大容量儲存器擷取程式碼的次數。
輸入/輸出或I/O器件(包括但不限於鍵盤、顯示器、指標器件等等)可直接地耦接至系統抑或經由介入I/O控制器而耦接至系統。網路配接器亦可耦接至系統以使資料處理系統能夠經由介入私用或公用網路而耦接至其他資料處理系統或遠端印表機或儲存器件。數據機、纜線數據機及乙太網路卡僅為當前可用類型之網路配接器中的少數幾種。
本發明之描述已出於說明及描述之目的而予以呈現,且不意欲為詳盡的或將本發明限於所揭示形式。許多修改及變化對於一般熟習此項技術者將顯而易見。選擇及描述實施例以便最好地解釋本發明之原理、實務應用,且使其他一般熟習此項技術者能夠針對具有適合於所預期之特定使用之各種修改的各種實施例而理解本發明。
300‧‧‧表結構
310‧‧‧表角落儲存格/表標頭
312‧‧‧表角落儲存格
314‧‧‧表角落儲存格
316‧‧‧表角落儲存格
320‧‧‧欄標頭儲存格/欄標頭
330‧‧‧列標頭儲存格/列標頭
350‧‧‧欄頁尾儲存格/欄頁尾
360‧‧‧列頁尾儲存格/列頁尾
370‧‧‧表標題
380‧‧‧超級儲存格

Claims (25)

  1. 一種在一資料處理系統中之方法,其用於提取與一電子文件相關聯之一表資料結構中之表內容之間的語義關係,該方法包含:由該資料處理系統判定該表資料結構內之一儲存格組態;由該資料處理系統基於該已判定儲存格組態而識別該表資料結構內之一或多個超級儲存格;對於該一或多個超級儲存格中每一超級儲存格,將對應於該超級儲存格之表資料轉換成用於該超級儲存格之一語義關係陳述式,其中該語義關係陳述式識別對應於該超級儲存格的該表資料之部分之間的一或多個關係;及由該資料處理系統與該表資料結構相關聯地儲存用於該等超級儲存格中每一者之該等語義關係陳述式。
  2. 如請求項1之方法,其中對於每一超級儲存格,將對應於該超級儲存格之表資料轉換成一語義關係陳述式包含:由該資料處理系統將與該超級儲存格相關聯的該表資料結構之內容映射至具有一已定義格式之一有序元組資料結構;及基於用於該超級儲存格之該有序元組資料結構而產生用於該超級儲存格之一語義關係陳述式。
  3. 如請求項2之方法,其中基於用於該超級儲存格之該有序元組資料結構而產生用於該超級儲存格之該語義關係陳述式包含:將一語義關係陳述式範本應用於該有序元組資料結構以產生用於該超級儲存格之一語義關係陳述式。
  4. 如請求項1之方法,其進一步包含:使用與該表資料結構相關聯之語義關係陳述式來執行用於分 析該電子文件之一分析操作。
  5. 如請求項4之方法,其中該分析操作包含:對該電子文件之內容執行之一自然語言處理操作或一問答建立操作中至少一者,其中該電子文件之該內容包含該表資料結構。
  6. 如請求項1之方法,其中該語義關係陳述式包含經組態以供一自然語言處理分析引擎剖析之一自然語言句子結構。
  7. 如請求項1之方法,其中該語義關係陳述式包含一結構化查詢語言(SQL)陳述式、一資源描述架構(RDF)語義三元組或一N3語義三元組中至少一者。
  8. 如請求項1之方法,其中判定該表資料結構內之一儲存格組態包含:擷取與該表資料結構相關聯之後設資料,該後設資料識別該表資料結構之部分之大小及該表資料結構之部分之一組態。
  9. 如請求項1之方法,其中判定該表資料結構內之一儲存格組態包含:執行該表資料結構之該內容之自動分析以識別對應於該表資料結構之標頭、頁尾及超級儲存格的該表資料結構之部分。
  10. 一種包含一電腦可讀儲存媒體之電腦程式產品,該電腦可讀儲存媒體在其中儲存有一電腦可讀程式,其中該電腦可讀程式在執行於一計算器件上時使該計算器件:判定表資料結構內之一儲存格組態;基於該已判定儲存格組態而識別該表資料結構內之一或多個超級儲存格;對於該一或多個超級儲存格中每一超級儲存格,將對應於該超級儲存格之表資料轉換成用於該超級儲存格之一語義關係陳述式,其中該語義關係陳述式識別對應於該超級儲存格的該表資料之部分之間的一或多個關係;且與該表資料結構相關聯地儲存用於該等超級儲存格中每一者 之該等語義關係陳述式。
  11. 如請求項10之電腦程式產品,其中該電腦可讀程式使該計算器件對於每一超級儲存格至少藉由以下操作而將對應於該超級儲存格之表資料轉換成一語義關係陳述式:將與該超級儲存格相關聯的該表資料結構之內容映射至具有一已定義格式之一有序元組資料結構;及基於用於該超級儲存格之該有序元組資料結構而產生用於該超級儲存格之一語義關係陳述式。
  12. 如請求項11之電腦程式產品,其中該電腦可讀程式使該計算器件至少藉由以下操作而基於用於該超級儲存格之該有序元組資料結構而產生用於該超級儲存格之該語義關係陳述式:將一語義關係陳述式範本應用於該有序元組資料結構以產生用於該超級儲存格之一語義關係陳述式。
  13. 如請求項10之電腦程式產品,其中該電腦可讀程式進一步使該計算器件:使用與該表資料結構相關聯之語義關係陳述式來執行用於分析電子文件之一分析操作。
  14. 如請求項13之電腦程式產品,其中該分析操作包含對該電子文件之內容執行之一自然語言處理操作或一問答建立操作中至少一者,其中該電子文件之該內容包含該表資料結構。
  15. 如請求項10之電腦程式產品,其中該語義關係陳述式包含經組態以供一自然語言處理分析引擎剖析之一自然語言句子結構。
  16. 如請求項10之電腦程式產品,其中該語義關係陳述式包含一結構化查詢語言(SQL)陳述式、一資源描述架構(RDF)語義三元組或一N3語義三元組中至少一者。
  17. 如請求項10之電腦程式產品,其中該電腦可讀程式使該計算器 件至少藉由以下操作而判定該表資料結構內之一儲存格組態:擷取與該表資料結構相關聯之後設資料,該後設資料識別該表資料結構之部分之大小及該表資料結構之部分之一組態。
  18. 如請求項10之電腦程式產品,其中該電腦可讀程式使該計算器件至少藉由以下操作而判定該表資料結構內之一儲存格組態:執行該表資料結構之該內容之自動分析以識別對應於該表資料結構之標頭、頁尾及超級儲存格的該表資料結構之部分。
  19. 一種裝置,其包含:一處理器;及一記憶體,其耦接至該處理器,其中該記憶體包含指令,該等指令在由該處理器執行時使該處理器:判定表資料結構內之一儲存格組態;基於該已判定儲存格組態而識別該表資料結構內之一或多個超級儲存格;對於該一或多個超級儲存格中每一超級儲存格,將對應於該超級儲存格之表資料轉換成用於該超級儲存格之一語義關係陳述式,其中該語義關係陳述式識別對應於該超級儲存格的該表資料之部分之間的一或多個關係;且與該表資料結構相關聯地儲存用於該等超級儲存格中每一者之該等語義關係陳述式。
  20. 如請求項19之裝置,其中該等指令使該處理器對於每一超級儲存格至少藉由以下操作而將對應於該超級儲存格之表資料轉換成一語義關係陳述式:將與該超級儲存格相關聯的該表資料結構之內容映射至具有一已定義格式之一有序元組資料結構;及基於用於該超級儲存格之該有序元組資料結構而產生用於該 超級儲存格之一語義關係陳述式。
  21. 如請求項20之裝置,其中該等指令使該處理器至少藉由以下操作而基於用於該超級儲存格之該有序元組資料結構而產生用於該超級儲存格之該語義關係陳述式:將一語義關係陳述式範本應用於該有序元組資料結構以產生用於該超級儲存格之一語義關係陳述式。
  22. 如請求項19之裝置,其中該等指令進一步使該處理器:使用與該表資料結構相關聯之語義關係陳述式來執行用於分析電子文件之一分析操作。
  23. 如請求項22之裝置,其中該分析操作包含對該電子文件之內容執行之一自然語言處理操作或一問答建立操作中至少一者,其中該電子文件之該內容包含該表資料結構。
  24. 如請求項19之裝置,其中該語義關係陳述式包含經組態以供一自然語言處理分析引擎剖析之一自然語言句子結構。
  25. 如請求項19之裝置,其中該等指令使該處理器至少藉由以下操作而判定該表資料結構內之一儲存格組態:擷取與該表資料結構相關聯之後設資料,該後設資料識別該表資料結構之部分之大小及該表資料結構之部分之一組態。
TW102129888A 2012-10-30 2013-08-20 Method, computer program product and system for extracting semantic relationships from table structures in electronic documents TWI563400B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/664,144 US8914419B2 (en) 2012-10-30 2012-10-30 Extracting semantic relationships from table structures in electronic documents

Publications (2)

Publication Number Publication Date
TW201419014A true TW201419014A (zh) 2014-05-16
TWI563400B TWI563400B (en) 2016-12-21

Family

ID=50548409

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102129888A TWI563400B (en) 2012-10-30 2013-08-20 Method, computer program product and system for extracting semantic relationships from table structures in electronic documents

Country Status (3)

Country Link
US (1) US8914419B2 (zh)
CN (1) CN103793372A (zh)
TW (1) TWI563400B (zh)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021099839A1 (en) * 2019-11-18 2021-05-27 Roy Mann Collaborative networking systems, methods, and devices
US10289653B2 (en) 2013-03-15 2019-05-14 International Business Machines Corporation Adapting tabular data for narration
US9164977B2 (en) 2013-06-24 2015-10-20 International Business Machines Corporation Error correction in tables using discovered functional dependencies
US9600461B2 (en) 2013-07-01 2017-03-21 International Business Machines Corporation Discovering relationships in tabular data
US9495347B2 (en) * 2013-07-16 2016-11-15 Recommind, Inc. Systems and methods for extracting table information from documents
US9607039B2 (en) * 2013-07-18 2017-03-28 International Business Machines Corporation Subject-matter analysis of tabular data
US9830314B2 (en) 2013-11-18 2017-11-28 International Business Machines Corporation Error correction in tables using a question and answer system
US9542928B2 (en) * 2014-03-25 2017-01-10 Microsoft Technology Licensing, Llc Generating natural language outputs
US10318625B2 (en) 2014-05-13 2019-06-11 International Business Machines Corporation Table narration using narration templates
US9977780B2 (en) 2014-06-13 2018-05-22 International Business Machines Corporation Generating language sections from tabular data
US9514118B2 (en) * 2014-06-18 2016-12-06 Yokogawa Electric Corporation Method, system and computer program for generating electronic checklists
US20160019192A1 (en) * 2014-07-21 2016-01-21 General Electric Company System and method to extract structured semantic model from document
US9720962B2 (en) 2014-08-19 2017-08-01 International Business Machines Corporation Answering superlative questions with a question and answer system
US10191946B2 (en) 2015-03-11 2019-01-29 International Business Machines Corporation Answering natural language table queries through semantic table representation
JP6578685B2 (ja) * 2015-03-16 2019-09-25 富士通株式会社 関係推定方法、関係推定プログラムおよび情報処理装置
US10452661B2 (en) * 2015-06-18 2019-10-22 Microsoft Technology Licensing, Llc Automated database schema annotation
CN104933162B (zh) * 2015-06-26 2018-03-09 河海大学 一种从元数据标注的csv数据到rdf数据的转换方法
US10685173B2 (en) * 2015-08-17 2020-06-16 International Business Machines Corporation Formatting tables with complex patterns
US10095740B2 (en) 2015-08-25 2018-10-09 International Business Machines Corporation Selective fact generation from table data in a cognitive system
US10078629B2 (en) 2015-10-22 2018-09-18 International Business Machines Corporation Tabular data compilation
US20170116194A1 (en) 2015-10-23 2017-04-27 International Business Machines Corporation Ingestion planning for complex tables
US10650050B2 (en) 2016-12-06 2020-05-12 Microsoft Technology Licensing, Llc Synthesizing mapping relationships using table corpus
US10013441B1 (en) * 2017-02-13 2018-07-03 Sas Institute Inc. Distributed data set indexing
US11475488B2 (en) 2017-09-11 2022-10-18 Accenture Global Solutions Limited Dynamic scripts for tele-agents
US10997228B2 (en) 2017-10-26 2021-05-04 International Business Machines Corporation Comparing tables with semantic vectors
US11853930B2 (en) 2017-12-15 2023-12-26 Accenture Global Solutions Limited Dynamic lead generation
US11650970B2 (en) 2018-03-09 2023-05-16 International Business Machines Corporation Extracting structure and semantics from tabular data
US10762142B2 (en) 2018-03-16 2020-09-01 Open Text Holdings, Inc. User-defined automated document feature extraction and optimization
US11048762B2 (en) 2018-03-16 2021-06-29 Open Text Holdings, Inc. User-defined automated document feature modeling, extraction and optimization
US10878195B2 (en) * 2018-05-03 2020-12-29 Microsoft Technology Licensing, Llc Automated extraction of unstructured tables and semantic information from arbitrary documents
US11200413B2 (en) 2018-07-31 2021-12-14 International Business Machines Corporation Table recognition in portable document format documents
CN109117479B (zh) * 2018-08-13 2022-07-22 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN109241514A (zh) * 2018-09-10 2019-01-18 深圳市泰洲科技有限公司 数据自动导入方法、装置、计算机设备及存储介质
US10776573B2 (en) * 2018-09-20 2020-09-15 International Business Machines Corporation System for associating data cells with headers in tables having complex header structures
US11443106B2 (en) 2018-09-20 2022-09-13 International Business Machines Corporation Intelligent normalization and de-normalization of tables for multiple processing scenarios
US11514258B2 (en) 2018-09-20 2022-11-29 International Business Machines Corporation Table header detection using global machine learning features from orthogonal rows and columns
US10831798B2 (en) 2018-09-20 2020-11-10 International Business Machines Corporation System for extracting header labels for header cells in tables having complex header structures
US11762890B2 (en) 2018-09-28 2023-09-19 International Business Machines Corporation Framework for analyzing table data by question answering systems
US11468882B2 (en) * 2018-10-09 2022-10-11 Accenture Global Solutions Limited Semantic call notes
US10923114B2 (en) 2018-10-10 2021-02-16 N3, Llc Semantic jargon
US12001972B2 (en) 2018-10-31 2024-06-04 Accenture Global Solutions Limited Semantic inferencing in customer relationship management
US11132695B2 (en) 2018-11-07 2021-09-28 N3, Llc Semantic CRM mobile communications sessions
US10972608B2 (en) 2018-11-08 2021-04-06 N3, Llc Asynchronous multi-dimensional platform for customer and tele-agent communications
US10742813B2 (en) 2018-11-08 2020-08-11 N3, Llc Semantic artificial intelligence agent
US11610277B2 (en) 2019-01-25 2023-03-21 Open Text Holdings, Inc. Seamless electronic discovery system with an enterprise data portal
US10546135B1 (en) 2019-03-06 2020-01-28 SecurityScorecard, Inc. Inquiry response mapping for determining a cybersecurity risk level of an entity
WO2020220283A1 (en) * 2019-04-30 2020-11-05 Microsoft Technology Licensing, Llc Document auto-completion
CN110134957B (zh) * 2019-05-14 2023-06-13 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果入库方法及系统
US11380116B2 (en) 2019-10-22 2022-07-05 International Business Machines Corporation Automatic delineation and extraction of tabular data using machine learning
US11443264B2 (en) 2020-01-29 2022-09-13 Accenture Global Solutions Limited Agnostic augmentation of a customer relationship management application
US11392960B2 (en) 2020-04-24 2022-07-19 Accenture Global Solutions Limited Agnostic customer relationship management with agent hub and browser overlay
US11481785B2 (en) 2020-04-24 2022-10-25 Accenture Global Solutions Limited Agnostic customer relationship management with browser overlay and campaign management portal
JP2022035594A (ja) * 2020-08-21 2022-03-04 株式会社日立製作所 表構造認識装置及び表構造認識方法
US11507903B2 (en) 2020-10-01 2022-11-22 Accenture Global Solutions Limited Dynamic formation of inside sales team or expert support team
CN112270165A (zh) * 2020-10-19 2021-01-26 中译语通科技股份有限公司 一种表格的处理方法、装置、介质和电子设备
US11688193B2 (en) 2020-11-13 2023-06-27 International Business Machines Corporation Interactive structure annotation with artificial intelligence
US20220171922A1 (en) * 2020-12-01 2022-06-02 Jpmorgan Chase Bank, N.A. Method and system for conditioned generation of descriptive commentary for quantitative data
US11797586B2 (en) 2021-01-19 2023-10-24 Accenture Global Solutions Limited Product presentation for customer relationship management
US11816677B2 (en) 2021-05-03 2023-11-14 Accenture Global Solutions Limited Call preparation engine for customer relationship management
CN113656592B (zh) * 2021-07-22 2022-09-27 北京百度网讯科技有限公司 基于知识图谱的数据处理方法、装置、电子设备和介质
CN113868260A (zh) * 2021-10-09 2021-12-31 北京字跳网络技术有限公司 数据处理方法、装置和电子设备

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4688195A (en) 1983-01-28 1987-08-18 Texas Instruments Incorporated Natural-language interface generating system
JP2926066B2 (ja) 1992-05-29 1999-07-28 富士ゼロックス株式会社 表認識装置
GB2344265B (en) 1997-11-20 2003-07-16 Xacct Technologies Inc Network accounting and billing system and method
US6161103A (en) * 1998-05-06 2000-12-12 Epiphany, Inc. Method and apparatus for creating aggregates for use in a datamart
US6769096B1 (en) 1998-06-24 2004-07-27 Microsoft Corporation System and method for updating a table of contents in a frameset
US6452467B1 (en) 1999-04-01 2002-09-17 Mcewan Technologies, Llc Material level sensor having a wire-horn launcher
JP3690730B2 (ja) 2000-10-24 2005-08-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 構造回復システム、構文解析システム、変換システム、コンピュータ装置、構文解析方法、及び記憶媒体
US7620665B1 (en) 2000-11-21 2009-11-17 International Business Machines Corporation Method and system for a generic metadata-based mechanism to migrate relational data between databases
US7054871B2 (en) * 2000-12-11 2006-05-30 Lucent Technologies Inc. Method for identifying and using table structures
US6904428B2 (en) 2001-04-18 2005-06-07 Illinois Institute Of Technology Intranet mediator
WO2003012661A1 (en) 2001-07-31 2003-02-13 Invention Machine Corporation Computer based summarization of natural language documents
JP2004062446A (ja) 2002-07-26 2004-02-26 Ibm Japan Ltd 情報収集システム、アプリケーションサーバ、情報収集方法、およびプログラム
US20040064447A1 (en) 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching
US7143026B2 (en) 2002-12-12 2006-11-28 International Business Machines Corporation Generating rules to convert HTML tables to prose
US7792829B2 (en) 2005-01-28 2010-09-07 Microsoft Corporation Table querying
US20070011183A1 (en) 2005-07-05 2007-01-11 Justin Langseth Analysis and transformation tools for structured and unstructured data
US7672831B2 (en) 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US8024653B2 (en) 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US8036889B2 (en) 2006-02-27 2011-10-11 Nuance Communications, Inc. Systems and methods for filtering dictated and non-dictated sections of documents
US7788580B1 (en) 2006-03-28 2010-08-31 Amazon Technologies, Inc. Processing digital images including headers and footers into reflow content
KR100918847B1 (ko) 2007-10-15 2009-09-28 한국전자통신연구원 온톨로지 인스턴스 자동 생성 장치 및 방법
JP4476318B2 (ja) 2007-10-31 2010-06-09 富士通株式会社 論理構造認識プログラム、論理構造認識装置、および論理構造認識方法
US8069190B2 (en) * 2007-12-27 2011-11-29 Cloudscale, Inc. System and methodology for parallel stream processing
US7792823B2 (en) 2008-01-15 2010-09-07 International Business Machines Corporation Maintained symbol table only index
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
WO2009155281A1 (en) * 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US8255789B2 (en) * 2008-09-30 2012-08-28 Apple Inc. Providing spreadsheet features
US8959481B2 (en) 2009-04-30 2015-02-17 International Business Machines Corporation Determining system level dependencies
CN101887413B (zh) * 2009-05-14 2012-07-04 北大方正集团有限公司 版式表格的结构处理方法和系统
CN101556606B (zh) * 2009-05-20 2010-12-01 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
US8037108B1 (en) 2009-07-22 2011-10-11 Adobe Systems Incorporated Conversion of relational databases into triplestores
US8280838B2 (en) 2009-09-17 2012-10-02 International Business Machines Corporation Evidence evaluation system and method based on question answering
US20110125734A1 (en) 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US20110126197A1 (en) 2009-11-25 2011-05-26 Novell, Inc. System and method for controlling cloud and virtualized data centers in an intelligent workload management system
US20120011115A1 (en) 2010-07-09 2012-01-12 Jayant Madhavan Table search using recovered semantic information
EP2622592A4 (en) 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
US8738362B2 (en) 2010-09-28 2014-05-27 International Business Machines Corporation Evidence diffusion among candidate answers during question answering
US9592050B2 (en) 2010-09-30 2017-03-14 Ethicon Endo-Surgery, Llc End effector comprising a distal tissue abutment member
US8442988B2 (en) * 2010-11-04 2013-05-14 International Business Machines Corporation Adaptive cell-specific dictionaries for frequency-partitioned multi-dimensional data
US8630989B2 (en) 2011-05-27 2014-01-14 International Business Machines Corporation Systems and methods for information extraction using contextual pattern discovery
US8874540B2 (en) 2011-09-07 2014-10-28 Xerox Corporation Method for semantic classification of numeric data sets
US8601030B2 (en) 2011-09-09 2013-12-03 International Business Machines Corporation Method for a natural language question-answering system to complement decision-support in a real-time command center
US8909648B2 (en) 2012-01-18 2014-12-09 Technion Research & Development Foundation Limited Methods and systems of supervised learning of semantic relatedness

Also Published As

Publication number Publication date
TWI563400B (en) 2016-12-21
US20140122535A1 (en) 2014-05-01
CN103793372A (zh) 2014-05-14
US8914419B2 (en) 2014-12-16

Similar Documents

Publication Publication Date Title
TW201419014A (zh) 從電子文件中之表結構提取語義關係
US10725836B2 (en) Intent-based organisation of APIs
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
US9471559B2 (en) Deep analysis of natural language questions for question answering system
JP6731198B2 (ja) 信憑性判定システム及びそのためのコンピュータプログラム
US9836526B2 (en) Selecting a structure to represent tabular information
US10229154B2 (en) Subject-matter analysis of tabular data
US10217377B2 (en) Evaluating user responses based on bootstrapped knowledge acquisition from a limited knowledge domain
US20160171095A1 (en) Identifying and Displaying Relationships Between Candidate Answers
US9697099B2 (en) Real-time or frequent ingestion by running pipeline in order of effectiveness
US9411878B2 (en) NLP duration and duration range comparison methodology using similarity weighting
US10430713B2 (en) Predicting and enhancing document ingestion time
US20200118022A1 (en) Determining Comprehensiveness of Question Paper Given Syllabus
US11762890B2 (en) Framework for analyzing table data by question answering systems
US10747751B2 (en) Managing compliance data systems
CN111552766B (zh) 使用机器学习来表征在引用图形上应用的参考关系
US20190171774A1 (en) Data filtering based on historical data analysis
CN110928871B (zh) 使用来自正交行和列的全局机器学习特征的表头部检测
US20210349925A1 (en) System and Method for Retrieving Results and Responses with Context Based Exclusion Criteria
US11443106B2 (en) Intelligent normalization and de-normalization of tables for multiple processing scenarios
US20210295036A1 (en) Systematic language to enable natural language processing on technical diagrams
US11120062B2 (en) Framework for analyzing graphical data by question answering systems
Zhang et al. ForensiQ: A Knowledge Graph Question Answering System for IoT Forensics
Mavrogiorgos et al. A Question Answering Software for Assessing AI Policies of OECD Countries

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees