TWI385537B - 標示語言文件存取的輔助方法及裝置 - Google Patents

標示語言文件存取的輔助方法及裝置 Download PDF

Info

Publication number
TWI385537B
TWI385537B TW098114706A TW98114706A TWI385537B TW I385537 B TWI385537 B TW I385537B TW 098114706 A TW098114706 A TW 098114706A TW 98114706 A TW98114706 A TW 98114706A TW I385537 B TWI385537 B TW I385537B
Authority
TW
Taiwan
Prior art keywords
field
elements
language file
markup language
parent
Prior art date
Application number
TW098114706A
Other languages
English (en)
Other versions
TW201040746A (en
Inventor
Sheng Wen Pan
Sheng De Wang
Original Assignee
Univ Nat Taiwan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Taiwan filed Critical Univ Nat Taiwan
Priority to TW098114706A priority Critical patent/TWI385537B/zh
Priority to US12/510,265 priority patent/US8150834B2/en
Publication of TW201040746A publication Critical patent/TW201040746A/zh
Application granted granted Critical
Publication of TWI385537B publication Critical patent/TWI385537B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • G06F16/8373Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

標示語言文件存取的輔助方法及裝置
本發明是有關於一種標示語言文件的存取方法,且特別是有關於一種標示語言文件存取的輔助方法及裝置。
標示語言(Markup Language)是一種使用標示(markup)進行標識,將文本(text)以及文本相關的訊息結合起來,展現出關於文件結構(document structure)和資料處理細節的電腦文字編碼。而隨著網際網路的發展,超文本標示語言(HyperText Markup Language,HTML)以及可延伸標示語言(Extensible Markup Language,XML)已成無目前廣泛使用的標示語言。
近幾年來,XML格式的文件更是已經隨處可見,無論是電腦應用程序或是網路應用程式。這是因為,XML具有強大、精密、易撰寫及擴充的特性,例如:XML能夠由使用者來自行定義標籤(tag)的名稱。據此,在未來,XML文件將會普遍地應用在網際網路與資料庫管理。因此,如何使得XML文件的分析加速則是當前的研究課題之一。
本發明提供一種標示語言文件存取的輔助裝置,藉以將標示語言文件轉換為中介表格。
本發明提供一種標示語言文件存取的輔助方法,藉由中介表格來加快存取標示語言文件的速度。
本發明提出一種標示語言文件存取的輔助方法,其中標示語言文件包括多個元素。此存取方法首先建立中介表格至儲存單元,其中中介表格包括長度欄位、深度欄位、類型欄位、父元素欄位以及偏移(offset)欄位。接著,轉換這些元素的結構資料至中介表格,以將各元素的字串長度、階層深度、元素類型、父元素索引值以及絕對位置分別儲存至長度欄位、深度欄位、類型欄位、父元素欄位以及偏移欄位。最後,依據中介表格來輔助標示語言文件的存取。
在本發明之一實施例中,上述依據中介表格來輔助標示語言文件的存取的步驟,首先提供位置路徑,而此位置路徑包括多個項目。接著,利用中介表格所儲存的各元素的父元素索引值,由位置路徑最底層的項目依序往上一層查詢位置路徑全部的項目所對應的元素。詳細地說,先於標示語言文件中查詢位置路徑最底層的項目所對應的底層元素。之後,利用中介表格所儲存的各元素的父元素索引值,查詢底層元素的父元素,並判斷底層元素的父元素是否與位置路徑最底層項目的上一層項目對應,以決定是否繼續利用中介表格而依序往上一層進行查詢,直至查詢到位置路徑第一層的項目為止。
在本發明之一實施例中,上述轉換元素的結構資料至中介表格的步驟,包括判斷各元素的字串長度,以記錄字串長度至長度欄位;判斷各元素於標示語言文件中的階層深度,以記錄階層深度至深度欄位;依據類型定義表判斷各元素的元素類型,以記錄元素類型至類型欄位;依據元素間的階層關係判斷各元素的父元素,以記錄各元素的父元素索引值至父元素欄位;判斷各元素於標示語言文件中的絕對位置,以記錄絕對位置至偏移欄位。
在本發明之一實施例中,上述中介表格更包括雜湊欄位。而上述轉換元素的結構資料至中介表格的步驟則更包括:計算各元素的雜湊值,以記錄雜湊值至雜湊欄位。其中計算各元素的雜湊值的步驟例如:將各元素的字元的編碼加總而獲得預先雜湊值,之後再藉由雜湊函式將預先雜湊值轉換為雜湊值。
在本發明之一實施例中,上述標示語言文件其中一個元素為密文元素時,在解密密文元素而產生解密元素之後,在中介表格新增一個識別列。在中介表格中,識別列是位於密文元素之後。識別列包括特殊符號欄位以及密文索引欄位,藉由特殊符號欄位表示在識別列之後所記錄為解密元素,並藉由密文索引欄位記錄密文元素於中介表格中的位置。
在本發明之一實施例中,上述轉換元素的結構資料至中介表格是以二進位方式將結構資料儲存至中介表格。
從另一方面來看,本發明提出一種標示語言文件存取的輔助裝置。此輔助裝置包括擷取單元以及儲存單元。儲存單元用以儲存中介表格,而中介表格包括長度欄位、深度欄位、類型欄位、父元素欄位以及偏移欄位。另外,擷取單元則是用以自標示語言文件的各元素中擷取出字串長度、階層深度、元素類型、父元素索引值以及絕對位置以分別儲存至長度欄位、深度欄位、類型欄位、父元素欄位以及偏移欄位。而輔助裝置便是依據中介表格來輔助標示語言文件的存取。
在本發明之一實施例中,上述輔助裝置更包括查詢模組。查詢模組是利用中介表格所儲存的各元素的父元素索引值,而由位置路徑最底層的項目依序往上一層查詢位置路徑全部的項目所對應的元素。
在本發明之一實施例中,上述查詢模組更可於標示語言文件中查詢位置路徑最底層的項目所對應的底層元素,之後再利用中介表格所儲存的父元素索引值,查詢底層元素的父元素,並判斷底層元素的父元素是否與位置路徑最底層的項目的上一層項目對應,以決定是否繼續利用中介表格而依序往上一層進行查詢,直至查詢到位置路徑第一層的項目為止。
在本發明之一實施例中,上述擷取單元包括以下動作:判斷各元素的字串長度,以記錄字串長度至長度欄位;判斷各元素於標示語言文件中的階層深度,以記錄階層深度至深度欄位;依據類型定義表判斷各元素的元素類型,以記錄元素類型至類型欄位;依據元素之間的階層關係判斷各元素的父元素,以記錄各元素的父元素索引值至父元素欄位;判斷各元素於標示語言文件中的絕對位置,以記錄絕對位置至偏移欄位。
在本發明之一實施例中,上述中介表格更包括雜湊欄位,而擷取單元更可計算各元素的雜湊值,以記錄雜湊值至雜湊欄位。詳細地說,擷取單元是將元素的字元的編碼加總,而獲得預先雜湊值,再藉由雜湊函式將預先雜湊值轉換為雜湊值。
在本發明之一實施例中,上述輔助裝置更包括密文處理模組。密文處理模組用以在標示語言文件的其中一個元素為密文元素時,將密文元素解密而產生解密元素,之後於中介表格新增識別列。其中,識別列包括特殊符號欄位以及密文索引欄位,而特殊符號欄位用以表示在識別列之後所記錄為解密元素,密文索引欄位用以記錄密文元素於中介表格中的位置。
基於上述,本發明在中介表格中儲存標示語言文件的每一個元素的父元素,如此一來便能夠把整個標示語言文件所隱含的樹狀結構完整地存在中介表格中。再者,將每一個元素的雜湊值亦儲存至中介表格中,據此更可以過濾掉大部分非預期的元素,以達到加速的效果。
為讓本發明之上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
近年來可延伸標示語言(Extensible Markup Language,XML)格式的文件已經隨處可見,因此XML文件的快速分析是相當迫切需要的技術。據此,本發明提出一種標示語言文件存取的輔助方法與裝置,以幫助分析XML文件。將原始的XML文件轉換為一個中介表格來表示,藉以加速存取XML文件的速度。為了使本發明之內容更為明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例。
圖1是依照本發明一實施例所繪示的標示語言文件存取的輔助方法流程圖。請參照圖1,在本實施例中,標示語言文件例如為XML文件。而標示語言文件中包括多個元素。
首先,在步驟S105中,建立中介表格至儲存單元。接著,如步驟S110所示,將標示語言文件中的多個元素的結構資料轉換至中介表格。上述中介表格包括長度欄位、深度欄位、類型欄位、父元素欄位以及偏移(offset)欄位,以分別儲存各元素的字串長度、階層深度、元素類型、父元素索引值以及絕對位置。而中介表格除了包括上述五個欄位之外,更可包括雜湊欄位以儲存元素的雜湊值。
在本實施例中,中介表格包括多個記錄列,一個記錄列用來記錄一個元素的結構資料,每個記錄列分別包括多個欄位(例如長度欄位、深度欄位、類型欄位、父元素欄位以及偏移欄位等),以將元素的結構資料儲存在這些欄位中。在此,各元素的結構資料是以二進位方式儲存至中介表格。
以下列舉一實施例來說明中介表格。圖2是依照本發明一實施例所繪示的中介表格的欄位示意圖。請參照圖2,在本實施例中,中介表格200包括雜湊欄位210、長度欄位220、深度欄位230、類型欄位240、父元素欄位250以及偏移欄位260。而在其他實施例中,中介表格200亦可以只包括長度欄位220、深度欄位230、類型欄位240、父元素欄位250以及偏移欄位260。
雜湊欄位210用以儲存元素的雜湊值。例如,將各元素的字元的編碼加總而獲得預先雜湊值(pre-hashed value)後,藉由雜湊函式將預先雜湊值轉換為雜湊值。
長度欄位220是用來存放元素的字串長度。例如,在判斷元素的字串長度之後,便將字串長度記錄至長度欄位220。另外,由於標示語言文件中的各元素具有階層關係,在判斷出此元素於標示語言文件中的階層深度之後,便可將階層深度記錄至深度欄位230。
而類型欄位240用來存放元素類型(element type)。在此,元素類型包括元素名稱、屬性名稱、屬性值、內容(content)等。此外,視使用情況的不同,元素類型更可包括起始標籤、結束標籤、註解等。舉例來說,可事先制定一個類型定義表,給定所需要的元素類型一個編號,如:元素名稱的類型編號為1,屬性名稱的類型編號為2等等。據此,便能夠透過類型定義表來判斷元素的元素類型並將元素類型記錄至類型欄位240。
父元素欄位250則是用來存放父元素索引值。例如,給定每個元素一個索引值,假設元素A的索引值1,且元素A為元素B的父元素。因此,當判斷出元素B的父元素為元素A時,元素B的父元素索引值即是1,而將1記錄至父元素欄位250中。
偏移欄位260則是用來存放元素於標示語言文件中的絕對位置。例如,以整份標示語言文件的第一個字元做為第一個位置開始往下數。而當欲查詢指定元素的字串時,藉由查詢偏移欄位260,便能夠得知在標示語言文件中,指定元素的起始位置。另外,藉由長度欄位220更可以得知此字串的末端位置。據此,透過查詢偏移欄位260與長度欄位220便能夠獲得指定元素的字串。
以下再以一標示語言文件為例來說明。圖3是依照本發明一實施例所繪示的標示語言文件的示意圖。請參照圖3,標示語言文件300包括一個根元素「store」。另外,在根元素底下則包括兩個元素「book」,而每個元素「book」底下則皆包括元素「title」以及元素「introduction」。
以第一個元素<store>為例,「store」的字串長度為5。而由於元素「store」為根元素,故其階層深度為1。再者,元素「store」是第一層並無父元素,因此父元素索引值為-1。另外,於標示語言文件300中,由第一列第一個字元開始數起,元素「store」的起始位置為40,也就是元素「store」的字元「s」於標示語言文件300中的絕對位置。此外,假設元素「store」的各個字元的編碼分別為0073、0074、006F、0072、0065,將這些編碼相加之後便可獲得一個預先雜湊值,再將預先雜湊值輸入至雜湊函式中,便能夠獲得元素「store」的雜湊值。
最後,如步驟S115所示,依據中介表格來輔助標示語言文件的存取。詳細地說,以XML路徑語言(XML Path Language)而言,首先提供一個位置路徑,此位置路徑包括多個項目。位置路徑例如為/A/B/C,其中項目A、B、C代表標示語言文件中的一個元素。接著,利用中介表格所儲存的各元素的父元素索引值,由位置路徑最底層的項目依序往上一層查詢位置路徑全部的項目所對應的元素。
也就是說,先於標示語言文件中查詢位置路徑最底層的項目所對應的底層元素。以位置路徑/A/B/C而言,即是搜尋C於標示語言文件中所對應的元素C。之後,再利用中介表格來查詢元素C的父元素索引值,以獲得元素C的父元素。在取得元素C的父元素之後,藉由其父元素的偏移欄位以及長度欄位自標示語言文件中來取出其父元素對應的字串。並且,判斷其父元素對應的字串是否符合B,若符合則繼續往上一層查詢。以此類推,由最後一層依序往上一層進行查詢,直至查詢到位置路徑第一層的項目A為止。
例如,以圖3的標示語言文件300而言,假設位置路徑為/store/book/title/text()=iPhone programming。首先,搜尋底層字串iPhone programming於標示語言文件300中的絕對位置。接著,依據底層字串的絕對位置而自中介表格中找到對應的記錄列。之後,從其記錄列的父元素欄位得知底層字串的父元素索引值(也就是「title」的索引值),進而得知底層字串的父元素。而後再由「title」於中介表格的記錄列往上查詢到其父元素「book」,並且由「book」於中介表格的記錄列查詢到其父元素「store」。
此外,以「store」和「title」而言,在某些情況下不考慮階層深度時,這兩者便會產生衝突(collision)。而藉由雜湊值便能夠來篩選出真正所要的元素。
值得一提的是,當標示語言文件的其中一個元素為密文(ciphered text)元素時,可將解密後多出來的解密元素亦轉換至中介表格而加在原本的記錄列後面。例如,新增一個識別列,藉以辨別在識別列之後的記錄列為解密元素。
也就是說,在將密文元素解密而產生解密元素之後,會在中介表格新增一個識別列。在此,識別列位於密文元素所對應的記錄列之後,以將解密元素對應的記錄列儲存至識別列之後。識別列包括特殊符號欄位以及密文索引欄位。特殊符號欄位表示在此識別列之後所記錄為解密元素,而密文索引欄位則是記錄密文元素於中介表格中的位置。
舉例來說,圖4A~圖4C是依照本發明一實施例所繪示的密文元素解密的示意圖。圖4A所示為具有加密的密文元素的標示語言文件,將圖4A的內容經過兩次解密之後得到圖4C的結果。也就是說,圖4B所示為圖4A解密後的內容,圖4C為圖4B再次解密後的內容。而圖4A~圖4C於中介表格的記錄列則如圖5所示。圖5是依照本發明一實施例所繪示的加上解密部分的中介表格的示意圖。
請同時參照圖4A~4C與圖5,在本實施例中,密文元素「encrypted」解密後產生新的元素「signature」。此時,在中介表格500中新增識別列510。在此,識別列510的左欄為特殊符號欄位,而“0000”為預先定義好的值,表示在識別列510之後的記錄列為解密元素的結構資料。另外,識別列510的右欄為密文索引欄位,記錄元素「signature」是由第3列的密文元素「encrypted」解密而來的。以此類推,當元素「signature」解密後產生元素「name」時,亦會於中介表格500中新增識別列520,以在識別後520之後的記錄列中記錄元素「name」的結構資料。
以下再舉一實施例來說明使用上述方法的標示語言文件存取的輔助裝置。圖6是依照本發明一實施例所繪示的標示語言文件存取的輔助裝置方塊圖。請參照圖6,在本實施例中,輔助裝置600包括擷取單元610與儲存單元620。在此,儲存單元620包括中介表格621,而中介表格621與圖2的中介表格200相似,故在此不再贅述。
擷取單元610是自標示語言文件中擷取出各元素的結構資料(包括字串長度、階層深度、元素類型、父元素索引值以及絕對位置),並且將各元素的結構資料以二進位方式儲存至中介表格621中。也就是說,藉由擷取單元610來讀取標示語言文件,並將各元素的結構資料轉換至中介表格621,而其詳細流程已於先前描述,在此則不再贅述。
另外,圖7是依照本發明另一實施例所繪示的標示語言文件存取的輔助裝置方塊圖。請參照圖7,輔助裝置700包括擷取單元710、儲存單元720、查詢模組730以及密文處理模組740。在此,標示語言文件721與中介表格723皆是位於儲存單元720中。擷取單元710和中介表格723分別與上述輔助裝置600的擷取單元610和中介表格621相同。
在本實施例中,查詢模組730可於標示語言文件721中查詢位置路徑最底層的項目所對應的底層元素,之後再利用中介表格723所儲存的父元素索引值,查詢底層元素的父元素,並判斷底層元素的父元素是否與位置路徑最底層的項目的上一層項目對應,以決定是否繼續利用中介表格而依序往上一層進行查詢,直至查詢到位置路徑第一層的項目為止。
密文處理模組740是用以在標示語言文件721的其中一個元素為密文元素時,將密文元素解密而產生解密元素。之後,密文處理模組740會於中介表格723中新增一個識別列,以作為識別新增的解密元素的依據。識別列已於先前描述,在此不再贅述。
綜上所述,本發明是將標示語言文件轉換為中介表格來表示,藉以利用中介表格來輔助標示語言文件的存取。在中介表格中儲存標示語言文件中的每一個元素的父元素,據此便能夠將整個標示語言文件所隱含的樹狀結構完整地存放至中介表格中。再者,亦將各元素的雜湊值儲存至中介表格中,以在查詢到多個元素時藉由雜湊值來過濾掉大部分元素,進而達到加速存取的效果。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,故本發明之保護範圍當視後附之申請專利範圍所界定者為準。
S105~S115...本發明標示語言文件存取的輔助方法各步驟
200、500、621、723...中介表格
210...雜湊欄位
220...長度欄位
230...深度欄位
240...類型欄位
250...父元素欄位
260...偏移欄位
300、721...標示語言文件
510、520...識別欄
610、710...擷取單元
620、720...儲存單元
730...查詢模組
740...密文處理模組
圖1是依照本發明一實施例所繪示的標示語言文件存取的輔助方法流程圖。
圖2是依照本發明一實施例所繪示的中介表格的欄位示意圖。
圖3是依照本發明一實施例所繪示的標示語言文件的示意圖。
圖4A~圖4C是依照本發明一實施例所繪示的密文元素解密的示意圖。
圖5是依照本發明一實施例所繪示的加上解密部分的中介表格的示意圖。
圖6是依照本發明一實施例所繪示的標示語言文件存取的輔助裝置方塊圖。
圖7是依照本發明另一實施例所繪示的標示語言文件存取的輔助裝置方塊圖。
S105~S115...本發明標示語言文件存取的輔助方法各步驟

Claims (20)

  1. 一種標示語言文件存取的輔助方法,其中該標示語言文件包括多個元素,該存取方法包括:建立一中介表格至一儲存單元,其中該中介表格包括一長度欄位、一深度欄位、一類型欄位、一父元素欄位以及一偏移欄位;轉換該些元素的結構資料至該中介表格,以將各該些元素的一字串長度、一階層深度、一元素類型、一父元素索引值以及一絕對位置分別儲存至該長度欄位、該深度欄位、該類型欄位、該父元素欄位以及該偏移欄位;以及依據該中介表格來輔助該標示語言文件的存取。
  2. 如申請專利範圍第1項所述之標示語言文件存取的輔助方法,其中依據該中介表格來輔助該標示語言文件的存取的步驟,包括:提供一位置路徑,該位置路徑包括多個項目;以及利用該中介表格所儲存的各該些元素的父元素索引值,由該位置路徑最底層的項目依序往上一層查詢該位置路徑全部的項目所對應的元素。
  3. 如申請專利範圍第2項所述之標示語言文件存取的輔助方法,其中利用該中介表格所儲存的各該些元素的父元素索引值,由該位置路徑最底層的項目依序往上一層查詢該位置路徑全部的項目所對應的元素的步驟,包括:於該標示語言文件中查詢該位置路徑最底層的項目所對應的一底層元素;以及利用該中介表格所儲存的各該些元素的父元素索引值,查詢該底層元素的父元素,並判斷該底層元素的父元素是否與該位置路徑最底層的項目的上一層項目對應,以決定是否繼續利用該中介表格而依序往上一層進行查詢,直至查詢到該位置路徑第一層的項目為止。
  4. 如申請專利範圍第1項所述之標示語言文件存取的輔助方法,其中轉換該些元素的結構資料至該中介表格的步驟,包括:判斷各該些元素的字串長度,以記錄該字串長度至該長度欄位;判斷各該些元素於該標示語言文件中的階層深度,以記錄該階層深度至該深度欄位;依據一類型定義表判斷各該些元素的元素類型,以記錄該元素類型至該類型欄位;依據該些元素的階層關係判斷各該些元素的父元素,以記錄各該些元素的父元素索引值至該父元素欄位;以及判斷各該些元素於該標示語言文件中的絕對位置,以記錄該絕對位置至該偏移欄位。
  5. 如申請專利範圍第1項所述之標示語言文件存取的輔助方法,其中該中介表格更包括一雜湊欄位,轉換該些元素的結構資料至該中介表格的步驟,更包括:計算各該些元素的雜湊值,以記錄該雜湊值至該雜湊欄位。
  6. 如申請專利範圍第5項所述之標示語言文件存取的輔助方法,其中計算各該些元素的雜湊值的步驟,包括:將各該些元素的字元的編碼加總,以獲得一預先雜湊值;以及藉由一雜湊函式將該預先雜湊值轉換為該雜湊值。
  7. 如申請專利範圍第1項所述之標示語言文件存取的輔助方法,其中當該些元素其中之一為一密文元素時,轉換該些元素的結構資料至該中介表格的步驟,更包括:在解密該密文元素而產生一解密元素之後,在該中介表格新增一識別列。
  8. 如申請專利範圍第7項所述之標示語言文件存取的輔助方法,其中該識別列包括一特殊符號欄位以及一密文索引欄位,其中該特殊符號欄位用以表示在該識別列之後所記錄為該解密元素,該密文索引欄位用以記錄該密文元素於該中介表格中的位置。
  9. 如申請專利範圍第8項所述之標示語言文件存取的輔助方法,其中該識別列位於該密文元素之後。
  10. 如申請專利範圍第1項所述之標示語言文件存取的輔助方法,其中轉換該些元素的結構資料至該中介表格的步驟,包括:以二進位方式將該結構資料儲存至該中介表格。
  11. 一種標示語言文件存取的輔助裝置,其中該標示語言文件包括多個元素,該輔助裝置包括:一儲存單元,用以儲存一中介表格,其中該中介表格包括一長度欄位、一深度欄位、一類型欄位、一父元素欄位以及一偏移欄位;以及一擷取單元,用以自該標示語言文件的各該些元素中擷取出一字串長度、一階層深度、一元素類型、一父元素索引值以及一絕對位置以分別儲存至該長度欄位、該深度欄位、該類型欄位、該父元素欄位以及該偏移欄位;其中,該輔助裝置是依據該中介表格來輔助該標示語言文件的存取。
  12. 如申請專利範圍第11項所述之標示語言文件存取的輔助裝置,更包括:一查詢模組,利用該中介表格所儲存的各該些元素的父元素索引值,而由一位置路徑最底層的項目依序往上一層查詢該位置路徑全部的項目所對應的元素。
  13. 如申請專利範圍第12項所述之標示語言文件存取的輔助裝置,其中該查詢模組更包括:於該標示語言文件中查詢該位置路徑最底層的項目所對應的一底層元素;以及利用該中介表格所儲存的各該些元素的父元素索引值,查詢該底層元素的父元素,並判斷該底層元素的父元素是否與該位置路徑最底層的項目的上一層項目對應,以決定是否繼續利用該中介表格而依序往上一層進行查詢,直至查詢到該位置路徑第一層的項目為止。
  14. 如申請專利範圍第11項所述之標示語言文件存取的輔助裝置,其中該擷取單元包括:判斷各該些元素的字串長度,以記錄該字串長度至該長度欄位;判斷各該些元素於該標示語言文件中的階層深度,以記錄該階層深度至該深度欄位;依據一類型定義表判斷各該些元素的元素類型,以記錄該元素類型至該類型欄位;依據該些元素的階層關係判斷各該些元素的父元素,以記錄各該些元素的父元素索引值至該父元素欄位;以及判斷各該些元素於該標示語言文件中的絕對位置,以記錄該絕對位置至該偏移欄位。
  15. 如申請專利範圍第11項所述之標示語言文件存取的輔助裝置,其中該中介表格更包括一雜湊欄位,而該擷取單元更包括計算各該些元素的雜湊值,以記錄該雜湊值至該雜湊欄位。
  16. 如申請專利範圍第15項所述之標示語言文件存取的輔助裝置,其中該擷取單元是將各該些元素的字元的編碼加總,而獲得一預先雜湊值,再藉由一雜湊函式將該預先雜湊值轉換為該雜湊值。
  17. 如申請專利範圍第16項所述之標示語言文件存取的輔助裝置,更包括:一密文處理模組,用以在該些元素其中之一為一密文元素時,在解密該密文元素而產生一解密元素之後,於該中介表格新增一識別列。
  18. 如申請專利範圍第17項所述之標示語言文件存取的輔助裝置,其中該識別列包括一特殊符號欄位以及一密文索引欄位,其中該特殊符號欄位用以表示在該識別列之後所記錄為該解密元素,該密文索引欄位用以記錄該密文元素於該中介表格中的位置。
  19. 如申請專利範圍第17項所述之標示語言文件存取的輔助裝置,其中該識別列位於該密文元素之後。
  20. 如申請專利範圍第11項所述之標示語言文件存取的輔助裝置,其中該擷取單元是以二進位方式將該結構資料儲存至該中介表格。
TW098114706A 2009-05-04 2009-05-04 標示語言文件存取的輔助方法及裝置 TWI385537B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW098114706A TWI385537B (zh) 2009-05-04 2009-05-04 標示語言文件存取的輔助方法及裝置
US12/510,265 US8150834B2 (en) 2009-05-04 2009-07-28 Assisting method and apparatus for accessing markup language document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW098114706A TWI385537B (zh) 2009-05-04 2009-05-04 標示語言文件存取的輔助方法及裝置

Publications (2)

Publication Number Publication Date
TW201040746A TW201040746A (en) 2010-11-16
TWI385537B true TWI385537B (zh) 2013-02-11

Family

ID=43031190

Family Applications (1)

Application Number Title Priority Date Filing Date
TW098114706A TWI385537B (zh) 2009-05-04 2009-05-04 標示語言文件存取的輔助方法及裝置

Country Status (2)

Country Link
US (1) US8150834B2 (zh)
TW (1) TWI385537B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10073820B2 (en) * 2010-12-31 2018-09-11 Thomson Reuters Global Resources Unlimited Company Systems, methods, and interfaces for pagination and display on an access device
US20120188572A1 (en) * 2011-01-20 2012-07-26 Canon Kabushiki Kaisha Systems and methods for updating a user interface for a printing device
US9141314B2 (en) * 2011-01-20 2015-09-22 Canon Kabushiki Kaisha Systems and methods for updating a user interface for a printing device
US8996985B1 (en) 2011-03-16 2015-03-31 Google Inc. Online document processing service for displaying comments
US10430388B1 (en) 2011-10-17 2019-10-01 Google Llc Systems and methods for incremental loading of collaboratively generated presentations
US20150199308A1 (en) 2011-10-17 2015-07-16 Google Inc. Systems and methods for controlling the display of online documents
US8812946B1 (en) 2011-10-17 2014-08-19 Google Inc. Systems and methods for rendering documents
US8266245B1 (en) 2011-10-17 2012-09-11 Google Inc. Systems and methods for incremental loading of collaboratively generated presentations
US8434002B1 (en) * 2011-10-17 2013-04-30 Google Inc. Systems and methods for collaborative editing of elements in a presentation document
US9367522B2 (en) 2012-04-13 2016-06-14 Google Inc. Time-based presentation editing
US9529785B2 (en) 2012-11-27 2016-12-27 Google Inc. Detecting relationships between edits and acting on a subset of edits
CN103902278A (zh) * 2012-12-31 2014-07-02 鼎捷软件股份有限公司 描述对象变化信息的记录方法
US9971752B2 (en) 2013-08-19 2018-05-15 Google Llc Systems and methods for resolving privileged edits within suggested edits
US9348803B2 (en) 2013-10-22 2016-05-24 Google Inc. Systems and methods for providing just-in-time preview of suggestion resolutions

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW576995B (en) * 2002-11-27 2004-02-21 Inst Information Industry Data conversion method for relational database and the extensible markup language document
TW578064B (en) * 2002-12-25 2004-03-01 Inst Information Industry Conversion device and method for formatted table of hypertext markup language
TW200413960A (en) * 2002-06-27 2004-08-01 Microsoft Corp System and method for validating an XML document and reporting schema violations
TWI225998B (en) * 2003-12-19 2005-01-01 Inst Information Industry Method for managing element property in markup language
TWI237774B (en) * 2002-12-23 2005-08-11 Inst Information Industry Method for lowering transmission load of XML document
US20080140645A1 (en) * 2006-11-24 2008-06-12 Canon Kabushiki Kaisha Method and Device for Filtering Elements of a Structured Document on the Basis of an Expression

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721727B2 (en) * 1999-12-02 2004-04-13 International Business Machines Corporation XML documents stored as column data
US20020078416A1 (en) * 2000-12-01 2002-06-20 Hitachi, Ltd. Method of recording/reproducing digital data and apparatus for same
EP1430420A2 (en) * 2001-05-31 2004-06-23 Lixto Software GmbH Visual and interactive wrapper generation, automated information extraction from web pages, and translation into xml
US7133857B1 (en) * 2002-10-15 2006-11-07 Ximpleware, Inc. Processing structured data
US7287248B1 (en) * 2002-10-31 2007-10-23 Tellme Networks, Inc. Method and system for the generation of a voice extensible markup language application for a voice interface process
JP3982623B2 (ja) * 2003-03-25 2007-09-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、データベース検索システム及びプログラム
US7478100B2 (en) * 2003-09-05 2009-01-13 Oracle International Corporation Method and mechanism for efficient storage and query of XML documents based on paths
US7809700B2 (en) * 2004-04-09 2010-10-05 Capital One Financial Corporation Methods and systems for verifying the accuracy of reported information
US9436779B2 (en) * 2006-11-17 2016-09-06 Oracle International Corporation Techniques of efficient XML query using combination of XML table index and path/value index
US8478760B2 (en) * 2006-11-17 2013-07-02 Oracle International Corporation Techniques of efficient query over text, image, audio, video and other domain specific data in XML using XML table index with integration of text index and other domain specific indexes
US8126932B2 (en) * 2008-12-30 2012-02-28 Oracle International Corporation Indexing strategy with improved DML performance and space usage for node-aware full-text search over XML

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200413960A (en) * 2002-06-27 2004-08-01 Microsoft Corp System and method for validating an XML document and reporting schema violations
TW576995B (en) * 2002-11-27 2004-02-21 Inst Information Industry Data conversion method for relational database and the extensible markup language document
TWI237774B (en) * 2002-12-23 2005-08-11 Inst Information Industry Method for lowering transmission load of XML document
TW578064B (en) * 2002-12-25 2004-03-01 Inst Information Industry Conversion device and method for formatted table of hypertext markup language
TWI225998B (en) * 2003-12-19 2005-01-01 Inst Information Industry Method for managing element property in markup language
US20080140645A1 (en) * 2006-11-24 2008-06-12 Canon Kabushiki Kaisha Method and Device for Filtering Elements of a Structured Document on the Basis of an Expression

Also Published As

Publication number Publication date
US8150834B2 (en) 2012-04-03
TW201040746A (en) 2010-11-16
US20100281076A1 (en) 2010-11-04

Similar Documents

Publication Publication Date Title
TWI385537B (zh) 標示語言文件存取的輔助方法及裝置
US7788262B1 (en) Method and system for creating context based summary
US20120303663A1 (en) Text-based fuzzy search
JP4860416B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
US20070038447A1 (en) Pattern matching method and apparatus and speech information retrieval system
WO2010063311A1 (en) System and method for matching entities
CN104537116A (zh) 一种基于标签的图书搜索方法
JP5135272B2 (ja) 構造化文書管理装置、及び方法
JP2005063432A (ja) マルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法
Nixon et al. Survey of semantic media annotation tools for the web: towards new media applications with linked media
CN105701091A (zh) 一种基于语义的pdf文档的处理方法及处理装置
Kurz et al. Semantic enhancement for media asset management systems: Integrating the Red Bull Content Pool in the Web of Data
US20070185832A1 (en) Managing tasks for multiple file types
US20110252313A1 (en) Document information selection method and computer program product
US20130297657A1 (en) Apparatus and Method for Forming and Using a Tree Structured Database with Top-Down Trees and Bottom-Up Indices
CN100336061C (zh) 多媒体对象检索设备和方法
JP2004086845A (ja) 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体
CN115687566A (zh) 一种全文检索及显示检索结果的方法及装置
Strobel et al. Metadata for scientific audiovisual media: current practices and perspectives of the TIB| AV-Portal
Gruber et al. Linking Roman coins: current work at the American Numismatic Society
Raithatha Knowledge Extraction for Semantic Web
Schedl et al. Towards an automatically generated music information system via web content mining
Schedl et al. Automatically detecting members and instrumentation of music bands via web content mining
CN1588371A (zh) 包装器的生成方法
CN104516941A (zh) 相关文档检索装置、方法及程序

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees