TWI604318B

TWI604318B - 資料排序方法

Info

Publication number: TWI604318B
Application number: TW102138073A
Authority: TW
Inventors: 周斌
Original assignee: 緯創資通股份有限公司
Priority date: 2013-10-17
Filing date: 2013-10-22
Publication date: 2017-11-01
Also published as: US9396201B2; US20150112952A1; TW201516715A; CN104572685A; CN104572685B

Description

資料排序方法

本發明是有關於一種資料排序方法，且特別是有關於一種可以解決不同資料庫的排序差異之資料排序方法。

電腦系統之資料庫中的資料包含有多種不同類別，例如特殊符號、純數位、英文和東亞文字字元(如繁體中文、簡體中文、日文或韓文..等字元)，或是其他國家語言。目前，不同資料庫中默認排序方式各不相同，且無法滿足特定需要。例如，使用者通過個人電腦(Personal Computer，PC)端和Apple平板電腦-ipad端，欲獲得存儲於伺服器(server)端上目錄的結構碼的，則可以通過網際網路(web)瀏覽server端上的資料庫內容，而儲存在PC端和ipad端之資料庫，但由於兩個系統的排序方式並不相同，會得到不同的排序結果，造成使用者查詢資料時的困擾。

以sql server 2008和sqlite資料庫為例，欲查詢字串：{‘065’，‘12’,‘abc’,‘@’,‘ab12c’,‘+’,‘張三’,‘李四’}。sql server 2008資料庫默認排列出來的順序為：{‘@’,‘+’,‘065’,‘12’,‘ab12c’,‘abc’,‘張三’,‘李四’}。而sqlite資料庫默認排列出來的順序為：{‘+’,‘065’,‘12’,‘@’,‘ab12c’,‘abc’,‘張三’,‘李四’}。兩個資料庫默認排列出來的順序並不相同。不但特殊字元順序不同，純數值和中文名稱的排序也都不相同。如果在程式中重新編寫代碼來完成整個排序工作將大幅提高排序的複雜化程度，而且會降低程式的性能，影響用戶體驗。

本發明係有關於一種資料排序方法，使不同資料庫中能簡單且有效率地以相同方式排序，可以解決不同資料庫的排序差異，且又不影響查詢資料時之效率。

根據本發明一實施例，係提出一種資料排序方法，至少包括：於一電腦可讀取之記錄媒體中之一資料表中建立一分類規則，其中電腦可讀取之記錄媒體至少包括一接收單元、一處理單元和一儲存單元；接收單元接收複數個檔案名稱；處理單元根據分類規則處理接收單元所接收的檔案名稱，並分別產生相應的多個對應轉換代碼；和儲存單元儲存處理單元所轉換之該些對應轉換代碼於資料表，以與檔案名稱相應；其中儲存單元係根據分類規則之一預定順序依序存儲該些對應轉換代碼。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式，作詳細說明如下：

101~104、201~203‧‧‧步驟

第1圖為本揭露一實施例之資料排序方法之流程圖。

第2圖為本揭露一實施例之一種於資料表中實現檔案名稱排序之方法流程圖。

第3A、3B圖係分別為資料表尚未增加實施例之分類規則，和增加實施例之分類規則後，資料表結構變化之示意圖。

本揭露之實施例係提出資料排序方法，使不同資料庫中能簡單且有效率地以相同方式排序。用戶以不同資料庫得到的查詢結果也有相同排序，且又不影響查詢資料時之效率。

以下係參照所附圖式詳細敘述相關實施例。需注意的是，實施例所提出的細部步驟和例示內容等等僅為舉例說明之用，本揭露欲保護之範圍並非僅限於實施例所述之該些方式。因此，該些例示內容並非作為限縮本揭露保護範圍之用。

第1圖為本揭露一實施例之資料排序方法之流程圖。步驟101，於一電腦可讀取之記錄媒體(computer-readable storage medium)中之一資料表中建立一分類規則。例如是在資料表名稱中建立分類規則，使各檔案名稱可依照一定規則排序。電腦可讀取之記錄媒體例如是包括接收單元、處理單元和儲存單元。步驟102，一接收單元接收複數個檔案名稱。步驟103，一處理單元根據所建立之分類規則對接收單元所接收的檔案名稱進行處理，並分別產生與該些檔案名稱相應的多個對應轉換代碼。步驟104，一儲存單元儲存處理單元所轉換的該些對應轉換代碼於資料表，以與其檔案名稱相應。其中儲存單元係根據分類規則中之一預定順序依序存儲該些對應轉換代碼。實施例之資料排序方法可使不同資料庫能以相同方式排序，解決了不同資料庫的排序差異。

實施例中，電腦可讀取之記錄媒體係指任何可由使用者在電腦系統上存取的可用媒體。舉例而非限制的，「電腦可讀取媒體」可包括電腦儲存媒體與通訊媒體。「電腦儲存媒體」包括以儲存資訊(如電腦可讀取指令、資料結構、程式模組或其他資料)的任何方法或技術實施的揮發性與非揮發性、抽取式與非抽取式媒體。「電腦儲存媒體」包括但不限於：RAM、ROM、EEPROM、快閃記憶體或其他記憶體技術；CD-ROM、數位多功能光碟(DVD)或其他光學儲存裝置；卡式磁帶、磁帶、磁碟儲存裝置或其他磁性儲存裝置；或可用來儲存所需資訊並可利用電腦存取的任何其他媒體。「通訊媒體」通常執行電腦可讀取指令、資料結構、程式模組或調變資料信號的其他資料，如載波或其他傳輸機制，且包括任何資訊遞送媒體。用語「調變資料信號」是指具有其以編碼信號資訊的方式設定或變更之特徵中一或多個的信號。舉例而非限制，通訊媒體包括：有線媒體，如有線網路或直接有線連線；及無線媒體，如聲音、射頻(RF)、紅外線、及其他無線媒體。亦可將上述中任何一項的組合包括在「電腦可讀取媒體」的範疇中。

第2圖為本揭露一實施例之一種於資料表中實現檔案名稱排序之方法流程圖。請同時參照第1圖和第2圖。

實施例中，於資料表中所建立的分類規則，例如是包括了一字串類型識別、一數位字串識別、和一字串轉義識別。如第2圖之步驟201，可在資料表名稱(t_file)中增加三個字段：「order_type」、「int_len」、「firstletter」，其中，「order_type」字段是識別字串類型，「int_len」字段是識別數位字串，「firstletter」字段是進行字串轉義。

步驟202，處理單元係根據分類規則中該些字段之預定規則，對檔案名稱進行處理，包括：寫入字串類型之存儲值以完成字串類型識別(「order_type」)，寫入有效數位以完成數位字串識別(「int_len」)、和寫入轉義字母以完成字串轉義識別(「firstletter」)。儲存單元並根據預定順序依序存儲識別結果。步驟203所示，按照字段「order_type」、「int_len」、「firstletter」之排列順序查出結果。

第3A、3B圖係分別為資料表尚未增加實施例之分類規則，和增加實施例之分類規則後，資料表結構變化之示意圖。資料表中增加實施例之分類規則，例如於資料表名稱(t_file)中增加了三個字段(第3B圖)，其中字段「order_type」、「int_len」、「firstletter」其存儲內容分別為整數(integer)、整數和文字(text)。

實施例中，字串類型識別(「order_type」)例如是：將具有特殊字元開頭之檔案名稱判別為一第一類型存儲值，將純數字開頭之檔案名稱判別為一第二類型存儲值，將特殊字元和純數字以外的其它字串開頭之檔案名稱判別為一第三類型存儲值。而分類規則之預定順序中，係按照第一類型存儲值、第二類型存儲值和第三類型存儲值進行排序。

一實施例中，若要按特殊字元、純數位、其他字串(如英文，中文)的總體順序排列，則字串類型識別「order_type」中可將檔案名稱開頭之字元/字串分為三種類型：特殊字元、純數字和其他字串，如表一所示。

實際應用時，可依照客戶對檔案排序的需求或喜好，藉由調整類型存儲值來變更分類規則之預定順序。舉例來說，若第一、第二、第三類型存儲值如表一所示，分別設定為1, 2,3，則檔案名稱經實施例之方法排序出來的即是：特殊字元/純數字/其它。但若將第一、第二、第三類型存儲值設定為2,1,3那檔案名稱排序出來就是純數字/特殊字元/其它。

再者，一實施例中，係將英文和中文開頭之檔案名稱皆歸類為其他字串，而判別為第三類型存儲值。但若因應使用者有其他語文上之需求，如日文，德文或俄文...等等，判別時亦可將該些語言併入第三類型存儲值、或是增加相應之第四(甚至第五、...)類型存儲值或更多。其類型存儲值之數量、和對檔案名稱開頭之字元/字串的分類方式並不僅限於上述實施例之三種方式，而是可依照應用時所需呈現的總體順序排列方式做適當的調整和設定。

一實施例中，如步驟201、202，於資料表名稱(t_file)中所增加的欄位-數位字串識別(「int_len」)是：判斷字串為純數字時的有效位元數。數位字串識別(「int_len」)之存儲值例如表二。

當檔案名稱為純數位時，「int_len」之存儲值欄位為它的有效位元數，亦指數位前面的0都不算；例如檔案名稱中之字串為003時，有效位數為1，此「int_len」之存儲值欄位的值即為1；檔案名稱中之字串為0203時，有效位數為3，此欄位的值為3；為203時，有效位數為3，此欄位的值也為3。

再者，實施例中，在資料表中所建立的分類規則之預定順序裡，純數字開頭之檔案名稱係按照判斷之有效位元之數值大小進行排序。若有兩個純數字開頭之檔案名稱分別為065和00203，則有效位數分別為2和3，有效數值分別為65和203，在實施例之預定順序裡，係按照判斷之有效位元之數值大小進行排序，即065排序在00203之前。

一實施例中，如步驟201、202，於資料表名稱(t_file)中所增加的欄位-字串轉義識別(「firstletter」)，是將該些檔案名稱按照位元依序轉換成固定規則的英文和/或數位，使該些檔案名稱經識別後分別產生相應的對應轉換代碼，再依位元特性順序排列。關於實施例所指之「依位元特性順序排列」，以2個字符串「A161」和「AB03」為例，應用實施例之資料庫在比較這兩個字符串的時，先識別兩個字符串的第一個字符「A」和「A」，發現第一個字符相等，然後再比較第二個字符「1」和「B」，發現「1」應該在「B」的前面，則判定「A161」在「AB03」的前面，就不會再對後面的字符再進行識別和比較。

表三係簡列一實施例之字串轉義識別具體規則。

一實施例中，對檔案名稱中的特殊字元可依照一編碼方案轉換成相應的字元編碼，作為字串轉義識別「firstletter」之存儲值。其編碼方案例如(但不限制地)是ANSI碼(American National Standards Institute美國國家標準協會碼)、或萬國碼(Unicode，又稱統一碼/標準萬國碼)、或其他編碼方案如美國訊息交換標準代碼(American Standard Code for Information Interchange，ASCII)、延伸美國訊息交換標準代碼(Extended ASCII，EASCII)等等。

Unicode是電腦科學領域裡的一項業界標準，它對世界上大部分的文字系統進行了整理、編碼，使得電腦可以用更為簡化地方式來呈現和處理文字。Unicode依隨著通用字符集的標準而發展，至今仍在不斷增修和加入更多新的字元，是可以適合不同的使用地區與國家，來選擇適合的可支持不同語言字符集的代碼方案。美國訊息交換標準代碼(ASCII)是基於拉丁字母的一套電腦編碼系統，它主要用於顯示現代英語，而其擴展版本EASCII則可以部分支援其他西歐語言。

根據一實施例之字串轉義識別之具體規則，特殊字元於「firstletter」欄位中之存儲值，如表三，可將各檔案名稱中的特殊字元轉換成ANSI碼的6位元十進位編碼，不足六位元以”0”補齊，以產生相應的字元編碼。6位元數可以涵蓋所有的特殊字元。但本揭露並不僅限於此。一實施例中，例如符號「+」，屬特殊字元，轉換成ANSI碼的6位元十進位編碼為000043(43之前補齊四個0)；符號「@」，屬特殊字元，轉換成ANSI碼的6位元十進位編碼為000064(64之前補齊四個0)。

一實施例中，在資料表中所建立的分類規則之預定順序，可按照相應的字元編碼之大小進行排序，例如符號「+」所轉換的相應字元編碼000043係排序在符號「@」所轉換的相應字元編碼000064之前。

再者，一實施例中，對檔案名稱中的英文字母可統一轉換成大寫。將轉換後的相應字元編碼內容，作為檔案名稱裡英文的「firstletter」之存儲值。例如：Bc轉換成BC，computer轉換成COMPUTER。

特殊情況：將字元a或者A轉換成AA。這是為了與實施例中如後述-“字串中的數位”轉換後也包含大寫字母A，做出區分。

另外，一實施例中，係將檔案名稱其字串中的數位的有效數字轉換為字母表首字母A加上ANSI碼的十進位編碼。例如檔案名稱d12e可轉換為DA49A50E，其中的”1”轉換為A49，”2”轉換為A50。”d”轉換為大寫英文字母D，”e”轉換為大寫英文字母E。

一實施例中，在資料表中所建立的分類規則之預定順序中，轉換後之大寫英文字母係按照英文字母順序進行排序。舉例來說，依上述規則，幾個檔案名稱的相應字元編碼和排序如下：檔案名稱abc轉換後的相應字元編碼為AABC；檔案名稱ab1轉換後的相應字元編碼為AABA49；檔案名稱ab2轉換後的相應字元編碼為AABA50；檔案名稱ab12c轉換後的相應字元編碼為AABA49A50C。

而根據「firstletter」之存儲值中轉換後之大寫英文字母順序進行排序，上述檔案名稱之排序應為：ab1→ab12c→ab2→abc。

再者，一實施例中，對檔案名稱中的中文字可依據一拼音系統轉換成英文小寫之拼音首字母，作為該檔案名稱的相應字元編碼，儲存在檔案名稱裡的「firstletter」之欄位裡。其拼音系統並沒有別限制，例如是漢語拼音、或通用拼音、或其他拼音系統皆可應用。一實施例中，係以漢語拼音系統為例，來做中文檔案名稱轉換之拼音系統。

例如：檔案名稱「張三」，漢語拼音為Zhang San(/Zhng Sn)，取其小寫拼音首字母則為“zs”，「firstletter」之存儲值即為zs。檔案名稱「李四」，漢語拼音為Li Si(/L Sì)，取其小寫拼音首字母則為“ls”，「firstletter」之存儲值即為ls。

一實施例中，在資料表中所建立的分類規則之預定順序中，各檔案名稱中的中文字係依照轉換後的拼音首字母的英文字母順序進行排序。舉例來說，依上述規則，檔案名稱「張三」和「李四」轉換後的相應字元編碼(即firstletter之存儲值)zs和ls，則排序應為：李四→張三。

再者，一實施例中，檔案名稱的純數字可轉換為有效數字，作為相應字元編碼而儲存在檔案名稱裡的「firstletter」之欄位裡。例如：檔案名稱003轉換成有效數字3；檔案名稱0203轉換成有效數字203；檔案名稱0052轉換成有效數字52；檔案名稱600有效數字仍為600。

如第2圖所示，在對應的資料表增加「order_type」、「int_len」、「firstletter」等這些欄位後，如步驟203，按照字段「order_type」、「int_len」、「firstletter」之排列順序查詢，其查詢結果例如上述例示說明。查詢資料時例如是使用：select*from t_file order by order_type,int_len,firstletter。

表四係列出多個檔名按照字段「order_type」、「int_len」、「firstletter」之相對應轉換的存儲值和排序的結果。

實施例所提出之資料排序方法可在不同資料庫中，將字串列表按照以下方式排列(不同資料庫的排序要是完全一樣的)：特殊字元(固定順序)，純數位(按實際數值從小到大排列)，英文(不分大小寫)，中文(按首字母順序排列)。因此，於一例子中，若查詢檔案名稱，其字串為：{‘065’,‘12’,‘abc’,‘@’,‘ab12c’,‘+’,‘張三’,‘李四’}，則按照上述實施例之轉換和排序方法，所查詢的排序結果為{‘+’,‘@’,‘12’,‘065’,‘ab12c’,‘abc’,‘李四’,‘張三’}。另一例子中，若無純數位的檔案名稱要查詢，則無須進行數位字串識別(「int_len」)，僅進行字串類型識別(「order type」)和字串轉義識別(「firstletter」)，例如查詢檔案名稱，其字串為：{abc’,‘ab12c’,‘張三’,‘@’,‘+’,‘李四’}，則按照上述實施例之轉換和排序方法，所查詢的排序結果為{‘+’,‘@’,‘ab12c’,‘abc’,‘李四’,‘張三’}。

實施例所提出之資料排序方法可以達到：

1.特殊字元的排列兩種資料庫排列一樣。

2.數位的排列資料庫都是按照按位元比較的形式排列的。以數字065和12為例，065的實際數值大於12，因為開頭是0比12的開頭1要小，未應用實施例時065可能會排在12前面，沒有按照實際大小來排列。但實施例是確認了實際數值大小，因而使12排在065前面。

3.中文按照首字母的順序排列，如‘張三‘的首字母是zs，李四的首字母是ls，應用實施例之方法，李四會排在張三的前面。

綜上，根據上述實施例所提出之資料排序方法，其於資料表中進一步建立一分類規則，可依照使用者需求(並不僅限定於實施例所舉出之分類方法和增加字段)完成排序工作，使不同資料庫中能簡單且有效率地以相同方式排序。由於每個資料庫對字母和數位的排序是一樣的，因此用戶以不同資料庫得到的查詢結果也有相同方式的排序，解決了不同資料庫的排序差異。再者，實施例所提出之資料排序方法，在查詢時並不需要複雜的結構化查詢(Structured Query Language，SQL)語句，也不用消耗額外的系統資源進行複雜的重新排序，因而保證了查詢的性能，不影響查詢資料時之效率。

綜上所述，雖然本發明已以實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

101~104‧‧‧步驟

Claims

一種資料排序方法，至少包括：於一電腦可讀取之記錄媒體中之一資料表中建立一分類規則，該電腦可讀取之記錄媒體至少包括一接收單元、一處理單元和一儲存單元；該接收單元接收複數個檔案名稱；該處理單元根據該分類規則處理該接收單元所接收之該些檔案名稱，並分別產生相應的多個對應轉換代碼；和該儲存單元係儲存該處理單元所轉換之該些對應轉換代碼於該資料表，以與該檔案名稱相應，其中該儲存單元係根據該分類規則之一預定順序依序存儲該些對應轉換代碼。
如申請專利範圍第1項所述之方法，其中該分類規則包括一字串類型識別、一數位字串識別、和一字串轉義識別。
如申請專利範圍第2項所述之方法，其中該字串類型識別包括：具有特殊字元開頭之檔案名稱判別為一第一類型存儲值，純數字開頭之檔案名稱判別為一第二類型存儲值，特殊字元和純數字以外的其它字串開頭之檔案名稱判別為一第三類型存儲值。
如申請專利範圍第3項所述之方法，其中該分類規則之該預定順序中，係按照該第一類型存儲值、該第二類型存儲值和該第三類型存儲值進行排序。
如申請專利範圍第3項所述之方法，其中英文和中文開頭之檔案名稱皆判別為該第三類型存儲值。
如申請專利範圍第3項所述之方法，其中該字串轉義識別包括：將該些檔案名稱轉換成固定規則的英文和/或數位，使該些檔案名稱經識別後分別產生相應的該些對應轉換代碼。
如申請專利範圍第2或3項所述之方法，其中該數位字串識別包括：判斷字串為純數字時的有效位元數。
如申請專利範圍第7項所述之方法，其中該分類規則之該預定順序中，該檔案名稱中之純數字係按照判斷之有效位元之數值大小進行排序。
如申請專利範圍第7項所述之方法，其中該字串轉義識別包括：將該些檔案名稱轉換成固定規則的英文和/或數位，使該些檔案名稱經識別後分別產生相應的該些對應轉換代碼。
如申請專利範圍第2項所述之方法，其中該字串轉義識別包括：將該些檔案名稱轉換成固定規則的英文和/或數位，使該些檔案名稱經識別後分別產生相應的該些對應轉換代碼。
如申請專利範圍第2或10項所述之方法，其中該字串轉義識別包括：將各該檔案名稱中的特殊字元依照一編碼方案轉換成相應的字元編碼。
如申請專利範圍第11項所述之方法，其中該編碼方案為ANSI碼(American National Standards Institute美國國家標準協會碼)，或萬國碼(Unicode)。
如申請專利範圍第11項所述之方法，其中係將各該檔案名稱中的特殊字元轉換成ANSI碼的6位元十進位編碼，不足六位元以”0”補齊，以產生相應的字元編碼。
如申請專利範圍第11項所述之方法，其中該分類規則之該預定順序中，係按照相應的字元編碼之大小進行排序。
如申請專利範圍第2或10項所述之方法，其中該字串轉義識別包括：將各該檔案名稱中的英文字母統一轉換成大寫。
如申請專利範圍第15項所述之方法，其中該字串轉義識別更包括：將各該檔案名稱中的英文字母中的字元a或A轉換成AA。
如申請專利範圍第15項所述之方法，其中該分類規則之該預定順序中，轉換後之大寫英文字母係按照英文字母順序進行排序。
如申請專利範圍第2或10項所述之方法，其中該字串轉義識別包括：將各該檔案名稱中的每個中文字依據一拼音系統轉換成英文小寫之拼音首字母。
如申請專利範圍第18項所述之方法，其中該拼音系統為漢語拼音、或通用拼音。
如申請專利範圍第18項所述之方法，其中該分類規則之該預定順序中，各該檔案名稱中的每個中文字係依照轉換後的拼音首字母的英文字母順序進行排序。
如申請專利範圍第2或10項所述之方法，其中該字串轉義識別包括：將各該檔案名稱其字串中的數位的有效數字轉換為字母表首字母A加上ANSI碼的十進位編碼。
一種資料排序方法，係使用於一電腦系統中，該方法至少包括：建立一分類規則，並提供一接收單元、一處理單元和一儲存單元，其中該分類規則至少包括一字串類型識別、一數位字串識別、和一字串轉義識別其中之一；該接收單元接收複數個檔案名稱；於一資料表之一資料表名稱(t_file)中增加對應至該字串類型識別、該數位字串識別、和該字串轉義識別之複數個字段；該處理單元係根據該分類規則中該些字段之一預定規則，對該些檔案名稱進行處理，以將對應的值寫入該些檔案名稱所對應之該些字段的欄位；該處理單元係根據該分類規則之一預定順序與該些檔案名稱所對應之該些字段的值，來對該些檔案名稱進行排序；以及該儲存單元儲存該些檔案名稱所對應之該些字段的值。