TW498229B - Construction method and system of a database which possesses the know-how structure - Google Patents
Construction method and system of a database which possesses the know-how structure Download PDFInfo
- Publication number
- TW498229B TW498229B TW089119249A TW89119249A TW498229B TW 498229 B TW498229 B TW 498229B TW 089119249 A TW089119249 A TW 089119249A TW 89119249 A TW89119249 A TW 89119249A TW 498229 B TW498229 B TW 498229B
- Authority
- TW
- Taiwan
- Prior art keywords
- database
- data
- name
- information
- technical
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
498229 A7 經濟部智慧財產局員工消費合作社印製 五、發明說明(1 ) 技術領域 本^月係有關於具有可以統合既有之關係型資料庫及目標定向資料庫之技術訣竅構造之資料構築方法及具有技 術訣竅構造之資料庫構築系統。 技術背景 先前,在資料之數據化,檢索及分析之具有代表性之 方法有:將包含於對象資料中之資訊分類成規定構造之字 類⑷ass)與依照該項構造所記錄之資訊之事例加加㈣加 以儲存,並重視資料之功能或意義而整理成樹狀結雜“ structure)之方法,以及將對象資料管理成關係型資料庫 中士所見之表格形式之方法。如採取像樹狀結構之特定構造 蚪對於可以檢索者以外之其他資訊即變得非常困難。 言之’如第12⑷圖所示’目標定向資料庫係由字類與 例所構成。A1至A3表示應記錄於事例中之「值的概念 ,在事例中依照記載於位址X之字類c之規則記錄著「 」。在如第12(b)圖所示之樹狀結構中,因為位於下位 貢料字類是位於上位之資料之字類之下位概念,因此可 藉由树之頂點向下流下相肖等之資料而簡$地檢索到企望 :資料。惟此種目標定向資料庫雖可對上位概念與下位概 念等概念加以資料化’但是無法將難以掌握成概念之默認 知識或事例加以資料化。 另一方面,在表格形式中,必須事先設定檢索鍵之 性,即模式S1至Sn,以設計資料結構。即,關係型資 庫,簡言之,如第5圖所示,係具有由模式 簡事 之 以 屬料
Γ---------^--------- (請先閱讀背面之注意事項再填寫本頁) 498229
五、發明說明(2 ) f 經濟部智慧財I局具工消費合作社印製 及由該值之多個元組(Tuple)T11至Tmn所構成之每個記錄 以表格形式記錄之資料結構。因此如此在資料中具有當初 即已存在之模式以外之項目時,即無法將該模式或相當於 該模式之元組加以資料化。要將其資料化,必須重新檢 ............―一......... 資料庫整體之設計,無法在中途已設計之構造暫時變更。 因為關係型資料庫中,必須重新檢視新資料庫整體之設計 ’所以無法應付每日更新的現實世界之資料化。 此外,最近,公家機關或企業所持有之大量之文書, 資料之有效利用受到注意。在該領域中,無論是利用上述 樹狀結構之整理方法或表格形式之方法,因為必須利用大 S的人工作業,資料結構化之難度,設定檢索鍵時之困難 ’無法成為有效之方法是可想而知的。 再者,由於上述資料庫間之結構之差異,無法將現有 之每一資料庫互相利用,因此有無法充分活用資料庫之問 題0 因此,大家期待有一種資料庫,其構築方法及系統是 了以克服資料結構之差異並且不管目標定向之資料庫或關 係型資料庫皆可共同利用之新穎構造之資料庫。 本發明為回應上述企望而創,其目的在提供改良了由 名稱及數值所構成之先前資料結構,使其具有可以參照其 值(即value)與含有其名稱,類型,可取得之範圍之限制之 具有技術訣竅構造之資料庫之構築方法及具有技術訣竅構 築系統。 發明之描示 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) 6 --------^---------^ (請先閱讀背面之注意事項再填寫本頁) 498229 A7 B7 經濟部智慧財產局員工消費合作社印製 發明說明( 本發明之第-形態係將屬於多種業界·領域之資料構 築成具有技術㈣構造之資料庫之方法,其提供包含下列 過程之具有技術訣竅構造之資料庫構築方法: 將單字依每一名稱加以分類,並以該分類名稱之名稱 與該名稱之類型,大小,可取得之範圍等之事例做為屬性 ’並且i蓋名稱之值數值化之知識化單㈣存以製作知識 化單字辭典之過程;利用知識化單字辭典對輸人資訊加以 單字分解’文句分析,並將其技術f訊化成可以參照屬性 或該純化單字辭典狀H讀及值所構成之構成單 元之、集合之過程;以及 在技術資訊化之知識化資料賦予識別符(ID),並且儲 存於知識化資料庫之過程。 在此,所謂「分類名稱之名稱」係指「人名」,「地 名」’ 「表示程度之形容詞」,「表示場所之名稱」,「 表示動作之動詞」等之「單字之種類+性質.特性」。「 單字之種類」為可以區別品詞等單字之分類,藉由對其賦 與性質。特性即可使該單字本身及/或該單字所表示之文 章中之其他單字產生某種約束。例如,在「人名」之情形 八内合或值中,只有文字而不可能有數字(除了中文 數字)或記號。另外’動詞「去」是與表示「誰」,「與 °隹」,「何時」,「為什麼」,「到那裡」,「什麼方法 」之單字連結。此時’例如在「到那裡」之内容或值中, ^須要接表示場所之賴。因此,在知識化單字辭典之「 分類名稱之名稱」僅能選擇「表示場所之名詞」,亦即, X 297公釐) I -----^---訂--------- (請先閱讀背面之注意事項再填寫本頁) 498229 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明(4) 固有名詞之「地名」與表示一般名詞之場所之單字,以供 - 獲得被單字分解之文章的正解之參照。 ” 如上所述m貞名稱之名稱」與「該名稱可取得 之類型’大小,及可取得之範圍等之限制」做為屬性,並 將該名稱之内容做為「值」(value)以製作知識化單字而記 錄、儲存於知識化單字辭典中。 錢輸人資訊,如為外語文書,則用翻譯機,如為印 > I口口則.用OCR,如為聲音則用語音識別機,如為其他機種 之電子資訊,則用格式轉換機,如為影像資訊,則用影像 朗機加以轉換成文件資料(text山⑷,並將其做單字分 解、文句分析。此時,利用儲存於上述知識化單字辭典: 之知識化單字,尤其是屬性中之限制,可以迅速與確實地 獲得文句分析。在本發明之方法中,係將此種文句分析之 結果做為含有屬性及數值所構成之構成單元之集合加以技 術資訊化而做為知識化資料。上述屬性也可以用構造上能 ,參照知識化單字辭典内之屬性之分類名稱之名稱代替,並 且以該名稱與值所構成之構成單元之集合形態技術資訊化 以做為知識化資料。 經過如此技術資訊化之知識化資料被賦予與其他資料 識別之識別符(ID)而儲存於知識化資料庫中。 • 申請專利範圍第2項記載之本發明為具有申請專利範 - 圍第1項所記錄之技術訣竅構造之資料庫之構築方法,其 特徵為含有另針對已構築做為關係型資料庫之資料選擇資 料庫之各記錄,並將該記錄之多個元組做為數值之集合, --------------裝-----:----訂---------線 (請先閱讀背面之注意事項再填寫本頁) 五、發明說明(5 ) :n故為屬性名稱之集合以技術資訊化之過程。 構成=::::rr式之多個― 元式與—個記錄所構成之資料,並以該-記錄之 之。藉此動作,申过專利=之名稱集合交換 信所棋士申响專利砣圍第1項所記載之屬性名稱與 種交換,關係型資料二相同。亦即,經由此 明之知識化資料同樣I處Γ—貝錢,也可以與本發 範圍II 專利範圍第3項所記載之本發明為具有申請專利 、所δ己載之技術訣襄構造之資料庫之構築方法, 括針對已構条做為目標定向資料庫,將目標定 =Γ事例(Ιη一)做為值之集合,並將字類— 做為屬性名稱之集合以技術資訊化之過程。 目標定向資料庫係由資料之數目及表示排列順序之字 iass) W及表不其值之事例(1繞所構成。如將字 類與屬性名稱之集合交換,事例與值之集合交換,即變成 與申請專利範圍第1項所記載之屬性名稱與值所構成之構 成單元之集合形態相同。亦即藉由此種交換,即可以將目 標定向資料庫技術資訊化,並可以與本發明之知識化資料 同法處理。 —申晴專職圍第4項所記載之本發明為具有巾請專利 乾圍第1至3項之任一項中所記載之技術言夬竅構造之資料庫 之構築方法,其特徵為含有針對檢索數目較多者取出一定 本紙張尺度適用中國國家鮮(CNS)A4 χ 公釐) 經濟部智慧財度局員工消費合作社印製 498229 B7 五、發明說明(6 ) 己錄於可重寫之高逮緩衝儲存器 •料庫中有供檢索之存取(access)時,構进上=田在該-貝 述之高速緩衝儲存器。 了以先檢索上 構造上,針對檢索數目多者, 存器中,當資料庫中具有供檢索之^财子於高迷緩衝儲 歧㈣存^稭此,檢“度可觀地提昇。在經驗上, :::貝枓庫中之檢索内容除了一部分之數 而成為相同的内容。因此,可以事先預二 之^、 結〶速緩射㈣11巾準備對處該項檢索 之貧料以便迅速對處。 朱 =專利範圍第5項所記載之本發明為φ請專利範圍 弟4項所記載之具有技術缺襄構造之資料庫之構築方法, 其構成特徵包含製作被頻繁抽出做為檢索對象之知識 料中之名稱而使用次數高之上位一定數目之名稱做為
(schema)之關係型資料庫,並記錄於高速緩衝儲存器中L 過程。 必須記憶於該高速緩衝儲存器之最重要者是出現於頻 繁抽出做為檢索對象之知識化資料中之屬性名稱中,針對 頻繁抽出者所製作之關係型資料庫。其係將使用次數高的 上位一定數目之名稱選出做為模式(schema)並以表格Z式 製作符合於該模式之知識化資料,而製得關係型資料庫: 藉由將其記錄、儲存於高速緩衝儲存器中,除了對僅限定 於檢索知識化資料之高速化之外,尚可藉由備妥關係型i 料庫獲得進一步之檢索高4化。 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 10
498229
經濟部智慧財產局員工消費合作社印製 —:請專利範圍第6項所記載之本發明為具有申請專利 乾圍第4項所記載之技術訣襄構造之資料庫構築方法,i 構造特徵包含:對於頻繁抽出做為檢索對象之知識化資料 中,、如-部分之構成單元為共同時,則製作由共同部分所 :冓成之部分技術資訊化資料做為上位而以含有不同之構成 單元之技術資訊化資料做為下位之目標定向f料庫並記錄 於尚速緩衝儲存器之過程。 必須記憶於高速儲存器之次要者為在頻繁地抽出做為 檢索對象之知識化資料中,如_部分之構成單元為共同時 將k些集中於上位,下位概念而做成之目標指向資料庫 。在頻繁抽出做為檢索對象之知識化資料之中,對於可以 做成樹狀結構之資料庫者可以備用以期進行進一步之檢索 之高速化。 ' 申請專利範圍第7項所記載之本發明為具有申請專利 範圍第4項所記載之技術訣竅構造之資料庫之構築方法, 其構成特徵包含:將鮮㈣做為檢索對象之知識化資料 分類成絕對真理有關之技術資訊化資料,與可隨時間變化 之相對真理有關之技術資訊化資料,當後者存在多數時, 取代做為絕對真理有關之技術資訊化資料而記錄於高速緩 衝儲存器中之過程。 第三種應儲存於高速緩衝儲存器中者為在會隨時間變 化之相對真理有關之技術資訊化資料中存在多數相同資料 時’將其取代成為與絕對真理有關之技術資訊化資料者。 藉由壓縮資料數目,可以提昇檢索速度。
本紙張尺度適用中國國家標準(CNS)A4規格(210
------—tr----- (請先閱讀背面之注意事項再填寫本頁) I 1 n I 經濟部智慧財產局員工消費合作社印製 A7 ------—__B7 —_ 發明說明(8 ) "~^ " 範圍申第L專鄕圍第8項所記載之本發明為具有申請專利 、所•己載之技術訣竅構造之資料庫之構築方法, 其構成特徵包含:將頻繁抽出做為檢索對象之知識化資料 依業界•領域種類加以分類以求取其中出現之單字間之關 聯度’並就各單字由關聯度高者選擇關聯字以記錄於 緩衝儲存器之過程。 一必須'己憶於高速緩衝儲存器中之第4種資料為藉由求 仔母一景象(scene)中之單字間之關聯度而導出之關聯字。 關聯字係在過去一定數目之知識化資料中,在單字中出現 頻度之關聯較高_,用以另—方之單字代替一方之單字檢 索資料庫者。如同在針對某運動明星選手之活躍進行檢索 時,以該項運動同時獲獎之其他明星選手來檢索之情形一 樣。其他的方法係於不能獲得期待之檢索結果時所使用。 本發明之第2形態為將屬於多數業界·領域之資料儲 存做為具有技術訣竅構造之資料而成之資料庫構築系統, 其提供一技術訣竅構造,包含:一知識化單字辭典,是將 具有由做為單字之分類名稱之名稱與含有該名稱之類型, 大小,可取得之範圍等之限制所構成之屬性以及該名稱之 數值之值之知識化早子多數儲存而成;一控制裳置,係將 由輸入裝置所輸入之文章參照上述知識化單字辭典進行單 字分解。文句分析,同時技術資訊化成可以參照屬性或該 知識化單字辭典内之屬性之上述名稱及數值所構成之構成 早元之集合,以及一知識化資料庫’用於儲存賦予識別賦 (ID)於技術資訊北之知識化資料。 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 12 ^-----Μ---^----I----線 (請先閱讀背面之注意事項再填寫本頁) 498229 Α7 Β7 經濟部智慧財產局員工消費合作社印製 五、發明說明(9 申請專利範圍第10項之本發明為具有申請專利範圍第 9項之技術訣竅構造之資料庫構築系統,其構造特徵為· 控制裝置包含一 R-DB技術資訊化控制裝置,係針對已構 築做為關係型資料庫之資料,選擇資料庫之名稱記錄,以 该圮錄之元組做為值,模式(schema)做為屬性之名稱並加 以技術資訊化。 申請專利範圍第11項所記載之本發明為具有申請專利 軏圍第·9項所記載之技術訣竅構造之資料庫構築系統,其 構造特徵為控制裝置包含一 〇-DB技術資訊化控制裝置/,' 係針對已構築成目標定向資料庫之資料,將目標指向資料 庫之事例(instence)技術資訊化做為值,字類(class)做為屬 性之名稱而加以技術資訊化者。 申請專利範圍第12項所記載之本發明為具有申請專利 粑圍第9至丨丨項中之任一項所記載之技術縣構造之資料 庫構築系統,其特徵包含一高速緩衝健存器(cashe n-_y),用於針對檢索數目較多者取出—定數目並記錄 成可重寫狀態’當該資料庫出現供檢索之存取時,即先檢 索上述高速緩衝儲存器。 —申請專利範圍第13項所記載之本發明為具有申請專利 粑圍第12項所記載之技術缺竅構造之資料庫構築系統,其 特徵為,控制裝置,構造上製成將頻繁抽出做為檢索對象 之知識化資料中之名稱且使用次數高的上位_定數目之名 稱做為模式(schema)之關係型資料庫,並記錄於高速緩衝 儲存器中。
本紙張尺度適財關家標準(CNS)A4規格⑽χ挪公爱) ------------裝-----^—訂---------- (請先閱讀背面之注意事項再填寫本頁)
經濟部智慧財產局員工消費合作社印製
_申請專利範圍第Μ項所記載之本發明為具有申請專利 犯圍第12項所載之技術訣襄構造之資料庫構築系統,其 特徵為控㈣置在構造上為’ #頻繁抽出做為檢索對象之 知識化資料之-部分構成單元為共同時,即製作以共同部 分所構成之-部分技術資訊化資料做為上位而含有不同構 成單元之技術資訊化資料做為下位之目標^向資料庫並健 存於高速緩衝儲存器中。 θ 請專職圍第15項所記載之本發明為具有中請專利 祀圍第12項所s己載之技術言夬寂構造之資料庫構築系統,其 特徵為’控制裝置在構造上可將頻繁抽出做為檢索對象之 知識化資料分類成與絕對真理有關之技術資訊化資料,與 可隨時間變化之相對真理有關之技術資訊化資料,當後者 存在較多時,則取代成為與絕對真理有關之技術資訊化資 料而記錄於高速緩衝儲存器中。 ^申印專利犯圍第16項所記載之本發明為具有申請專利 範圍第12項所記載之技術絲構造之資料庫構築系統,其 特徵為控制裝置在構造上可將頻繁抽出做為檢索對象之知 識化貝料依業界•領域類別⑽㈣加以分類以求得其中出 ,之單子間之關聯度,並就各單字中選出關聯度高之關聯 字並記錄於高速緩衝儲存器中。 本發明並不限定於下面具體記載之實施例,在不跳脫 其精神範圍内,可以進行各種修正與變更。 圖式之簡單說明 第1圖為本發明之第i形態有關之具有技術訣竅構造之
本紙張尺度翻㈣國冢標準(CNS)A4規格(2ii 297公釐)
經濟部智慧財產局員工消費合作社印製 A7 五、發明說明(11 ) 資料庫之構築枝之—實施狀流程圖。 第2圖為表示知識化單字之數例之表。 弟(a) /、(b)圖分別表示將舉出做為文例之文章做單字 分%•之狀態之說明圖。 第4(a)與(b)圖表示由第3(a)與(b)圖之文書所獲得之知 識化資料之一例之說明圖。 第5圖為表示先前之關係型資料庫之表。 第·6圖為由第5圖所示之關係型資料庫選擇一記錄而得 之關係型資料庫之說明圖。 第7圖係將第6圖之關係型資料庫中所示之一個記錄之 π組做為值(value),而模式(schema)做為屬性之名稱之要 旨而得之知識化資料之說明圖。 第8圖表示先前之目標定向資料庫之圖。 第9圖係表不將由共同部分所構成部分技術資訊化資 料做為上位,而含有不同構成單元之技術資訊化資料做為 下位之目標定向資料庫之製作順序之說明圖。 第10圖係用於說明針對某一單字獲得關聯度高的關聯 字方法之表。 第11圖為表示有關本發明之具有技術訣竅構造之資料 庫之構築方法之一實施形態之流程圖。 第12(a)及(b)圖分別為說明先前之目標定向資料庫中 之貧料構造之圖,以及用於說明資料間之樹狀結構之概略 圖。 實施發明之最佳形態 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) 15
(請先閱讀背面之注意事項再填寫本頁} L---訂--------- A7 A7 時 裝 資 五、發明說明(i2 以下要參H?、圖式詳細說明本發明之具有技術訣竅構造 之=貝料庫之構杀方法及具有技術訣竅構造之資料庫構築系 統之一實施例。 首先,第1圖係用於說明本發明各種形態之整體像之 方塊圖。 參考號碼10表示屬於多種業界•領域(有關各種業界 •領域之資訊之集合稱為Γ景像」(scene))之資料之集合 。如果·資料為外國語文書10a時,則藉由翻譯機12a翻譯成 日語並將其送到技術資訊化控制裝置2〇。如資料為文書 ,以OCR 12b,及聲音時則以聲音識別軟體Uc等習知 置進行預處理後,送到技術資訊化控制裝置2〇。接著,、 料為各種電子資訊l〇d時,則經由格式轉換機12d統一格式 (format)後,送到技術資訊化控制裝置2〇。如為人的臉, 指紋等之影像資訊l〇e時,則經由影像識別機12e預處理後 ’送到技術資訊化控制裝置2〇。 本發明之系統與先前不同,係以知識化單字辭典進行 單子为解。文書分析以技術資訊化輸入資訊。在此,所謂 知識化單字辭典係單字依每一名稱加以分類,而以該分類 名稱與該名稱之類型,大小,可取得範圍等之限制做為屬 性,並將以該名稱之值做為數值(value)之知識化單字累積 而成者。「分類名稱之名稱」係指「人名」,「地名」, 「表示程度之形容詞」,「表示場所之名詞」,「表示動 作之動詞」等之「品詞等之單字之種類+性質•特性」。 由於賦予性質與特性,該單字本身及/或該單語所出現之 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) — — — — — — I — — III— * I I I l· I I I ·11111111 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財I局鼻工消費合作社印製 16 498229 A7 五、發明說明(13) 文早内之其他單字便產生某種限制。例如,在「人名」的 情形下,該内容或值(value)只出現文字,而不可能有數字 除了「中文數字或記號。又動詞「居住」(或「住」)之主詞 有「表不人的名詞,如父母兄弟,叔父,叔母,原住戶, 古人等或固有名詞之「人名」,而在主詞與片語之間有東 京,公寓,獨門獨戶建築等之表示「場所或住所」之名詞 經濟部智慧財產局員工消費合作社印製 動詞「去」(或走)則與表示「誰」, 」,「為何」「到何處」,「何種方法」之名詞相連結 。此時,例如在「到何處」之内容或值,必須接著表示場 所之名詞。於是,做為知識化單字辭典之「 稱」僅能選擇「表示場所之名詞」,即固有名詞之「地名 」與普通名詞之「表示場所之單字」以供獲得被單字分解 之文句之正解之參照。 如上述,係以「分類名稱之名稱」與「該名稱可取得 之範圍等之限制」為屬性,且以該名稱之内容為「值」的 製作知識化單字而記錄,儲存於知識化單字辭典中。第2 圖為表示知識化單字之數例之表。 技術資訊化控制裝置2 〇係利用知識化單字辭典3 〇單字 分解及文句分析以各種形態輸入之資訊,並做為屬性及值 所構成之構成單元之集合加以技術資訊化。或者,也可以 技術資訊化成可以參照由知識化單字辭典3〇中之屬性之名 稱及值所構成之構成單元之集合。如此可以大大節省知識 化資料庫40之儲存容量。 時 同誰 何 ------------裝--------訂--------- $ (請先閱讀背面之注意事項再填寫本頁} 本紙張尺度適用中關家標準(CNS)A4規格⑽x 297公爱 17
Φ 經濟部智慧財1.局員工消費合作社印製 。如從將,由「龍崎與狗一起悠閒地住在東京的公寓 /、遽崎去學扠。」所構成之兩個文句資料(Text Data) 識化貝料化之情形加以說明。第3(a)及⑻圖表示將 文句進行單字分解之狀態。在第一例中,由表示行動之 ,同「住」字產生『在主詞接著「表示人之名詞或人名」 在闲與述闲之動詞之間接著「表示場所之名詞或 所」』之限制。技術資訊化控制裝置2G以主詞之位置之 確曰之單子「龍崎」檢索儲存於知識化單字辭典30中之 名稱「表示人之名詞」或「人名」而抽出「龍崎:、。 义以同樣的方法’檢索表示場所之助詞「在」或「於」 之::之碩彳「東京的公寓」之正確之單字。此時,視需要 由「連接詞」「的」而得到讀音「東京」與「公寓」 對此兩子,再檢索儲存於知識化單字辭典3〇中之名 ::表示場所之名詞”戈「地名」者而分別抽出、「東京」 與「公寓」。第4⑷及⑻圖為利用此方法製作之知識化資 料之-例。在本實施例中,係屬性之名稱與值所構成之構 成單元之集合來構築知識化資m,如果知識化資料 庫40之容量極為龐大時,可以將知識化資料形成為屬性與 值所構成之構成單元之集合而加以儲存。因為不必參照知 識化單字辭典30即可以技術資訊化控制裝置20進行特定之 處理,所以處理速度有隨之增快之優點。 因為此種檢索由於屬性之名稱及限制而限定了應檢索 之對象,所以檢索所花之時間大為減少。 大容量之内容或知識化資料庫4〇是在如此構築之知識
本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) ^--------^---------Μ (請先閱讀背面之注意事項再填寫本頁) 匕會料賦予識別符⑽而記錄健存。賦予10之目的係做為 技術資訊化控制裝置20要參照知識化資料時之住址。 在圖示之較佳實施例中,技術資訊化控制裝置20含有 =經構築成關係型資料庫之資料加以技術資訊化而記錄 存於知識化資料庫40中以期能與上述知識化f料同樣使 用之咖技術資訊化控制裝置20a。第5圖為表示先前之 關係型*料庫之表。表中,S1至Sn為做為檢索鍵之屬性 ’即模式⑽ema),T1至Tmn為其内容或值之元組(Tup⑷ :雖?各行構成—個記錄,惟只選擇由Si,82至如所構 :之杈式與貧料庫之各記錄,並製作與原來之關係型資料 一之5己錄數目相同之第6圖所示之記錄數為…之關係型 貧料庫。然後進行如第7圖所示,再進行將記錄之元組做 為值’而將模式做為屬性之名稱之意旨之取代。此種資料 因具有與上述知識化資料相同之資料結構,所以可以直接 ,或於修正模式成符合上述之「分類名稱之名稱」後,記 錄儲存於知識化資料庫中。 在其他較佳實施例中,控制裝置已經含有將構築成目 標定向資料庫之資料技術資訊化而記錄儲存於知識化資料 庫中’俾能與上述知識化資料—樣使用之〇_db技術資 訊化控制裝置鳥。第12⑷圖為表示先前之目標定向資料 庫之圖。圖中’ A1A3為字類中之資料名稱,心㈣ 其内容及值之事例。如將此項資料分別取代前述之屬性及 值,即具有與本發明之知識化資料相同之資料結構。所以 ’可以直接’或於修正字類中之資料分類成與上述之「分 49S229 A7 五、發明說明(16, W員名稱之名稱相一致後,即 中。 。己錄儲存於知識化資料庫40 在本發明之具有技術 識化資_中,必定館存著 此每當有供檢索之存取時,二大=知識化資料。因 A^ 置接對知識化資料庫40進行 二索:處:,即拖長處理之時間。為大事 在圖不之μ實施财,料檢索數較多者,] 出一定數記錄成可以重寫之言、#經床 叹有可以取 !該知識化資料庫4_為:索之二:事=: ==器Γ.如後所述,在該高速緩衝儲存器财 字各種途徑(approach)來的資料儲存成可以 ’並且可以構築成可從其中檢索速度最快者開始檢索。恶 檢索數多的事先儲存於高速緩衝儲存器中,而 ^庫中有出現檢索之存取時,能首先檢索該高速 儲所以有更加提昇檢索速度之效果。因為根據經驗 ’在料資料庫中,因為檢索之内容除了—部分之數%以 外,貫質上沒有變更而成為相同之内容者。因此,可以事 濟 部· 智 慧 財 局 員 工· 消 費 合 作 社 印 製 先預測將進行那種檢索而在高速緩衝儲存器中準備與那種 檢索相對應之資料,俾便迅速對處。 記錄於高速緩衝儲存器50之知識化資料,首先有做為 檢索對象而被頻繁抽出之知識化資料中,例如,以⑽個 名稱做為模式而製作之關係型資料庫(參照第8圖)。在技 術資訊化控制裝置20中設置有此種製作關係型資料庫之控 制部20c。當然,要設幾個做為檢索對象而被頻繁抽出之 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公髮 A7
訂
經濟部智慧財產局員工消費合作社印製
^ -. (請先閱讀背面之注意事項再填寫本頁) --線· -I I I - 本紙張尺度適用中國國家標準(CNS)A4^iT^ X 297公釐) (scene)以求得出現於其中之單字間之關聯度,並就各單字 選擇關聯度高者以組成之關聯字(參照第1〇圖)。在技術資 訊化控制裝置20中設置有製作此種目標定向資料庫之控制 部20g。在過去的一定數目之知識化資料中之單字間有較 高的出現頻度之關聯時,可以用另一方之單字代替一方之 單字來檢索資料庫。在針對職棒明星之活躍度進行檢索時 ,在檢索與該選手同格之其他選手(例如大榮隊之王貞治 選手)之在職時代之事蹟時,有時會由讀當巨人隊時代之 盟友「長嶋茂雄」選手之姓名,「全疊打王」,「貝比· 羅斯」等關聯字來檢索。其他的方法可以用於得不到期望 之檢索結果時使用。 要決定關聯字之前提在於選擇一個單字與其他單字之 關聯度可以正確特定之資料集合。在上述例子中,尤其是 必須在特定為棒球之領域之資料尋查其關聯度。不管如何 在經濟或商工業之領域之報紙雜誌尋找也找不到有效的關 聯度。業界•領域類別(景象[seene])之概念就^在此種情 形下,預先設定可以獲得正確關聯度之範圍。此種景象 (scene)可以在,例如知識化資料之屬性中附加如「運動/ 棒球」那樣的標誌'符藉以簡單設定。 第1〇圖係例如將附有相同景象標諸符之單字,亦即含 有值(valne)之多數資料進行單字分解,並依其中出現之單 字之出現頻度之順序排列者。如將資料中之單字數目假定 為10萬字時,則在資料!中,顯示單字vl出現ig次,單字^ 出現7次。同樣地,在資料2中,單字W出現4次,單字 22 498229 五、發明說明(19) B7 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 出現8次。 在此種表中,如真纟φ g令Λ 寻主早予ν4,即發現出現在100個資 料中之58個資料中。另-方面,單字W,雖然在卿資 料中出現於98個資斜,如LV苗〜 次 、 乂早子vl取代單字v4檢索該1〇〇 貝料即可以正確抽出48個資料,而遺漏Μ個資料。所以 :設關聯度為(含有單字ν4之資料數中可以單字νΐ抽出之 會料數’即單字vl與v4同時出現之資料數)+(含有單字“ 之貧料數)時,則對於單字v4之單字vi之關聯度為 4 8 5 8 = 0.8 2 8 〇 同樣地’單字Vl 18雖然出現於⑽個資料中之53個資 =’但是假設與單字v4_出狀f料數為科,如以單 字=8取代單字順索該職資料時,即可正確地抽⑽ 個食料’而僅遺漏8個資料。所以關聯度為5^8=〇 862 ’而比單字v 1為高。 將如此計算出來之關聯度高的單字選出-定數目, 將其儲存於高速緩衝儲存器中' 錢以單字μ 6〇之檢㈣件時,即可辑照知航單字辭㈣^定該 早字V4之分類名稱之名稱,並檢索高速緩衝儲存器50中之 各種資料’例如關係型資料庫或目標指向資料庫中之名稱 之相同者,以抽出企望之知識化資料。如果未能獲得企望 之知識化㈣等時候,則湘儲存於高速緩衝儲存 關聯度高的單字,以同樣方法檢索高速緩_存器。 接著’要說明本發明之具有技術絲構造 構築方法。 叶厚 並 人 之 之 本紙張尺度適用中國國豕標準(CNS)A4規格(210 X 297公爱
裝--- (請先閱讀背面之注意事項再填寫本頁) 線. 經濟部智慧財產局員工消費合作社印製
498229 A7 --------------B7_ ••五、發明說明(2〇) 第11圖為表示本發明之具有技術訣竅構造之資料庫之 構築方法之一個實施形態之流程圖。如第n圖所示,本發 明之具有技術訣竅構造之資料庫之構築方法大致上由知識 - 化單字辭典製作過程程S1,輸入資訊,既有關係型資料 • 庫或既有目標指向資料庫之技術資訊化過程S2至S4,賦 予ID資訊之知識化資料之資料庫化過程S5,以及將常出 現知識化資料記錄於高速緩衝儲存器之記錄過程S 6所構 ^ 成。 知識單字辭典製作過程81係將單字依每一名稱加以 分類,並以該分類名稱之名稱與該名稱之類型,大小,可 取得之範圍等限制做為屬性而儲存於知識化單字辭典3〇 輸入資訊之種類很多。例如,如屬外語文書時,於利 用翻譯機進行文書資料化後,即以技術資訊化控制裝置20 一邊參照知識化單字辭典30, 一邊對其做單字分解與文句 分析。同樣地,如屬印刷品,則用〇CR,如屬聲音,則用 聲音識別機,如屬其他種類之電子資訊,則用格式轉換器 ,如屬影像資訊,則用影像識別機進行文書資料化,並且 由技術貧訊化控制裝置一邊參照知識化單字辭典,一邊 對其進行單字分解•文句分析。 既有之關係型資料庫係以值集合取代一個記錄之元组 集合m性之名㈣合取代模式⑽_),經過技術 資訊化後當做通常之知識化資料一樣處理。既有之目標定 向資料庫以值集合取代事例(instouce),而以屬性之名稱 本紙張尺錢财關家標準(CNS)乂4規格(210 X 297公爱)
五、發明說明(21 之术合取代字類(class),經過技術資訊後當做通常之知識 化資料一樣處理。 此時,利用儲存於上述知識化單字辭典中之知識化資 料,尤其是屬性中之限制,即可迅速而確實地獲得文句分 析在本發明方法中係以此種文句分析之結果做為含有屬 性及值所構成之構成單元之集合加以技術資訊化而成知識 化貧料。也可以不用屬性而使用構造上可以參照知識化單 字辭典·内之屬性之分類名稱之名稱,以該名稱與值所構成 之構成單元之集合之形態進行技術資訊化以做為知識化資 料。 、 而在貝料庫化過程S5中,技術資訊化之知識化資料 係附加ID而儲存於知識化資料庫4〇。在圖示之較佳實施 例中,為求檢索之迅速及/或正確,另外設置有將常出現 之知識化資料記錄於高速緩衝儲存器之過程%。而且在 2識化倾庫财有檢索之存取時,構造上可以事先檢索 高速緩衝儲存器5〇。 ’ 。。構造上’可以事先係檢索數目多者儲存於高速緩衝儲 存器中’當資料庫中出現檢索之存取時,首先檢索此高速 ㈣儲存器。因此’可以大大提昇檢索速度。根據經驗, :整個資料庫中1了一部分之數%以外,檢索之内容實 :上並無變更而具有相同之内容。因&,可以事先預測可 月匕進订該項檢索而在高速緩衝儲存器中準備對處該項檢索 之貧料俾能迅速對處。 南速緩衝儲存器之利用形態之例有下面四種。第一為 本紙張尺度顧 (請先閱讀背面之注意事項再填寫本頁) .til —訂--------- 事· 經濟部智慧財產局員工消費合作社印製 498229 五 A7 發明說明(22 y ,製作以被頻繁抽出做為檢索對象之知識人化資料中之名 稱且使用頻度高之上位一定數目之名稱做為模式 之關係型資料庫,並且將其記錄於高速緩衝儲存器者。第 二為,如被頻繁抽出做為檢索對象之知識化資料庫中之一 部分構成單元為共同時,則製作由共同部分所構成之部分 之技術貧訊化資料做為上位,而含有不同構成單元之技術 資訊化資料做為下位之目標定向資料庫而記錄於高速緩衝 儲存器,者。第三為,將被頻繁抽出做為檢索對象之知識化 資料分類為絕對真理有關之技術資訊化資料,與可隨時間 變化之相對真理有關之技術資訊化資料,並在後者存在較 多時,則取代成絕對真理有關之技術資訊化資料,並且將 其記錄於高速緩衝儲存器中者。第四為,將被頻繁抽出做 為檢索對象之知識化資料依業界•領域類別(景象[scene]) 加以分類並求得出現其中之單字間之關聯度,並就各單字 之關聯度高者選擇關聯字而儲存於高速緩衝儲存器中者。 --- (請先閱讀背面之注意事項再填寫本頁) 訂· 線- 經濟部智慧財產局員工消費合作社印製 26 本紙張尺錢时關家標準(CNS)A4祕(21〇
Claims (1)
- 經濟部智慧財產局員工消費合作社印製 —-------§_ 六、申請專利範圍 L 一種具有技術訣竅構造之資料庫構築方法,係將屬於 夕數之業界’領域之資料做為具有技術訣竅構造之資 料庫之構築方法,其構成包含下列各過程: 將單字依每一名稱加以分類並以該分類名稱之名 %與該名稱之類型、大小,可取得範圍等之限制做為 屬f生’並且以該名稱之值做為數值(value)之知識化單 字加以儲存以製作知識化單字辭典之過程; 利用上述知識化單字辭典將輸入資訊加以單字分 解文句分析並技術資訊化以做為可以參照由屬性或 忒知識化單字辭典内之屬性之上述名稱及值所構成之 構成單元之集合之過程;以及 在技術資訊化之知識資料附加識別符並儲存於知 識化資料庫之過程。 2·如申味專利範圍第丨項所記載之具有技術訣竅構造之資 料庫構梁方法,其中另包含由已構築為關係型資料庫 之貧料選擇資料庫之各記錄,並且將該記錄之元組 (Tuple)做為值(va!ue)而將模式(schema)做為上述屬性 之名稱而加以技術資訊化之過程。 3·如申請專利範圍第!項所記載之具有技術絲構造之資 料庫構築方法,其中另包含, 對於已構築成目標定向資料庫之資料中,將上述 目標定向資料庫之事minstancem為值,字類做上述 屬性之名稱加以技術資訊化之過程。 4.如申請專利範圍第!至3項中任—項所記載之具有技術 ^紙張尺度適用中國國家標準(CNS)A4規格⑵Q χ 297公楚)-------- -27 - ---------------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 498229 六、申請專利範圍 ㈣構造之資料庫構築方法,其中包含由檢索數目較 乡者取出-定數目而健存於高速緩衝健存器成不可重 寫狀能之過程,當該資料庫中出現檢索之存取時,構 成上是先檢索上述高速緩衝儲存器。 5·如申請專利第4項所記狀具有技術㈣構造之資 料庫構条方法,其中包含製作將頻繁抽出做為上述檢 , q象之知識化資料中之名稱且制頻度高之上位之 疋數目之名%做為模式⑽㈣)之關係型資料庫並 記錄於上述高速緩衝儲存器之過程。 資 由 而 目 線 6.如申請專利範圍第4項所記載之具有技術訣敦構造之 料庫構乘方法,其中當頻繁抽出做為上述檢索對象 知識化資料之-部分構成單元為共同時,即製作將 共同部分所構成之部分技術資訊化資料做為上位, 以含有不同構成單元之技術資訊化資料做為下位之 Μ向資料庫並記錄於上述高速緩衝儲存器之過程。 資 之 料 1 ?·如申請專利範圍第4項所記載之具有技術訣竅構造之 料庫構築方法’其中將頻繁抽出做為上述檢索對象 知識化資料分類為與絕對真理有關之技術資訊化資,, 丄以及與可隨時間變化之相對真理有關之技術資訊化 資料,當後者存在較多時,調換成與絕對真理有關之 技術資訊化資料並記錄於上述高速緩衝儲存器之過程 8·如申4專利範圍第4項所記載之具有技術訣竅構造之資 料庫構築方法,其中含有將頻繁抽出做為上述檢索對 297公釐) &張尺度適财_家標準(CNg)A4規格(21『 28 經濟部智慧財產局員工消費合作社印製 C8 ^-----_ ^、申請專利範圍 象之知識化資料依業界、領域類別(景象[scene])加以 分類,以求取出現於其中之單字間之關聯度,並就各 單字由關聯度高者選擇關聯字而記錄於上述高速缓衝 儲存裔之過程。 9· 一種具有技術訣竅構造之資料庫構築系統,係將屬於 多數業界、領域之資料儲存做為具有技術訣竅構造之 資料,其構造包含·· 知識化單字辭典,係將具有含有單字分類名稱之 名稱與該名稱之值(value)之知識化單字累積多數而成 控制裝置,將輸入裝置所輸入之文章,一邊參照 上述知識化單字辭典一邊進行單字分解•文句分析, 同%技術資§fl化成可以參照屬性或該知識化單字辭典 中之屬性之名稱及值(value)所構成之構成單元之集合 ,以及 知識化資料庫,將識別符(ID)賦予技術資訊化之 知識化資料並儲存之。 10.如申請專利範圍第9項之具有技術訣襄構造之資料庫構 木系統,其中上述控制裝置包含從構築成關係型資料 庫之資料中選擇資料庫之各記錄,並以該記錄之元組 (Tuple)為值,模式做為上述屬性之名稱而進行技術資 訊化之R-DB技術資訊化控制裝置。 11=申請專利範圍第9項之具有技術絲構造之資料庫構 築系統’其中上述控制裝置包含在已構築成目標定向 本紙張尺度_中關家標準(CNS)A4規格(210 X 297公爱)__ --^-------I . (請先閱讀背面之注意事項再填寫本頁) 29 六、申請專利範圍 料庫之貝料中,以上述目標定向資料庫之事例做為 值,而以字類做為上述屬性之名稱加以技術資訊化之 Ο-DB技術資訊化控制裝置。 △如申請專利範圍第項之任—項所記載之具有技術 决竅構造之資料庫構築系統,其中包含從檢索數多者 取出一定數目而記錄成可重寫狀態之高速緩衝儲存器經 濟 部· 智 慧 財 局. 員 主 消 費 合 作 社 印 製 ,構造上’在該資料庫中有檢索之存取時,可以首先 才双索上述向速緩衝儲存器。 13·=申請專利範圍第12項所記載之具有技術絲構造之 貧料庫構築系統,其中上述控制裝置將頻繁抽出以做 為上述檢索對象之知識化資料中之名稱且使用頻度高 ,上位之一定數目之名稱做為模式(schema之關係型 貝料庫並記錄於上述高速緩衝儲存器中。 如申明專利範圍第12項所記載之具有技術訣襄構造之 貝料庫構築系統,其中上述控制裝置在構造上係在頻 繁抽出做為檢索對象之知識化資料之一部分構成單元 為共同時,即製作將共同部分所構成之部分技術資訊 化貪料做為上位,而以含有不同構成單元之技術資訊 化資料做為下位之目標指向資料庫,並記錄於上述高 速緩衝儲存器中。 15·如申请專利範圍第12項所記載之具有技術訣竅構造之 貝料庫構築系統,其中上述控制裝置在構造上將頻繁 抽出做為檢索對象之知識化資料分類為與絕對真理有 關之技術資訊化資料,以及與可隨時間變化之相對真 本紙張尺度適用中國國家標準(CNS)A4規格(21〇 x 297公釐 ^8229 09888 ABCD 六、申請專利範圍 理有關之技術資訊化資料,並記錄於上述高速緩衝儲 存器中。 16·如申請專利範圍第12項所記載之具有技術絲構造之 資料庫構築系統,其中上述控制裝置在構造上,將頻 繁抽出做為上述檢索對象之知識化資料依業界、領域 類別(景象[scene])加以分類以求取出現於其中之單〜 間之關聯度二並由各單字由關聯度高的選擇關聯= 記錄於上述高速緩衝儲存器中。 I I,-----—— 丨訂----------AWI 广請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 31
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2000/006041 WO2002021270A1 (fr) | 2000-09-06 | 2000-09-06 | Procede et systeme pour creer une base de donnees presentant une structure de savoir-faire |
Publications (1)
Publication Number | Publication Date |
---|---|
TW498229B true TW498229B (en) | 2002-08-11 |
Family
ID=11736431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW089119249A TW498229B (en) | 2000-09-06 | 2000-09-19 | Construction method and system of a database which possesses the know-how structure |
Country Status (3)
Country | Link |
---|---|
JP (1) | JPWO2002021270A1 (zh) |
TW (1) | TW498229B (zh) |
WO (1) | WO2002021270A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818720B (zh) * | 2022-06-23 | 2022-09-09 | 北京惠每云科技有限公司 | 一种专病数据集构建方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04205173A (ja) * | 1990-11-29 | 1992-07-27 | Shimadzu Corp | 情報検索システム |
JPH05113924A (ja) * | 1991-10-23 | 1993-05-07 | Nec Corp | 情報管理モデル変換システム |
JP2606056B2 (ja) * | 1992-09-25 | 1997-04-30 | 日本電気株式会社 | 知識ベース構築方式 |
JPH11203325A (ja) * | 1998-01-16 | 1999-07-30 | Tadamitsu Ryu | データベース作成方法、そのプログラムを格納した記録媒体及びその作成方法で作成したデータ群を記録した記録媒体 |
EP0962873A1 (en) * | 1998-06-02 | 1999-12-08 | International Business Machines Corporation | Processing of textual information and automated apprehension of information |
-
2000
- 2000-09-06 JP JP2002524817A patent/JPWO2002021270A1/ja active Pending
- 2000-09-06 WO PCT/JP2000/006041 patent/WO2002021270A1/ja active Application Filing
- 2000-09-19 TW TW089119249A patent/TW498229B/zh active
Also Published As
Publication number | Publication date |
---|---|
WO2002021270A1 (fr) | 2002-03-14 |
JPWO2002021270A1 (ja) | 2004-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5752020A (en) | Structured document retrieval system | |
US10572528B2 (en) | System and method for automatic detection and clustering of articles using multimedia information | |
KR20130095171A (ko) | 포렌식 시스템과 포렌식 방법 및 포렌식 프로그램 | |
US6219665B1 (en) | Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program | |
CN110516011B (zh) | 一种多源实体数据融合方法、装置及设备 | |
JP7171100B1 (ja) | 特許文書作成支援装置、特許文書作成支援方法、特許文書作成支援プログラム。 | |
US7359896B2 (en) | Information retrieving system, information retrieving method, and information retrieving program | |
Lee et al. | An integrated approach to metadata interoperability | |
KR102575507B1 (ko) | 인공지능을 활용한 기사 작성 솔루션 및 장치 | |
JPH0628403A (ja) | 文書検索装置 | |
JP2007058706A (ja) | 文書検索システム、文書検索方法及び文書検索プログラム | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN107526795B (zh) | 知识库的构建方法及装置、存储介质、计算设备 | |
JPWO2009048149A1 (ja) | 電子文書の同等判定システムおよび同等判定方法 | |
TW498229B (en) | Construction method and system of a database which possesses the know-how structure | |
JP2004078446A (ja) | キーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム | |
CN102207947A (zh) | 一种直接引语素材库的生成方法 | |
US20220121881A1 (en) | Systems and methods for enabling relevant data to be extracted from a plurality of documents | |
Putra et al. | BudayaKB: Extraction of cultural heritage entities from heterogeneous formats | |
Pokorny | Automatic subject indexing and classification using text recognition and computer-based analysis of tables of contents | |
JP5739352B2 (ja) | 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム | |
Batjargal et al. | Providing universal access to Japanese humanities digital libraries: an approach to federated searching system using automatic metadata mapping | |
JP2002183195A (ja) | 概念検索方式 | |
CN111222312A (zh) | 一种裁判文书结构化方法及装置 | |
JP3943005B2 (ja) | 情報検索プログラム |