TW201339861A - 提供較小目標編碼空間之碼轉換的方法、電腦裝置與程式產品 - Google Patents

提供較小目標編碼空間之碼轉換的方法、電腦裝置與程式產品 Download PDF

Info

Publication number
TW201339861A
TW201339861A TW101111653A TW101111653A TW201339861A TW 201339861 A TW201339861 A TW 201339861A TW 101111653 A TW101111653 A TW 101111653A TW 101111653 A TW101111653 A TW 101111653A TW 201339861 A TW201339861 A TW 201339861A
Authority
TW
Taiwan
Prior art keywords
code
space
source
conversion
target
Prior art date
Application number
TW101111653A
Other languages
English (en)
Inventor
Albert Hsieh
Elaine Yi-Xiang Liao
Gary Zhi-Yuan Lin
Pei-Yi Lin
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Priority to TW101111653A priority Critical patent/TW201339861A/zh
Priority to US13/851,289 priority patent/US9684654B2/en
Publication of TW201339861A publication Critical patent/TW201339861A/zh
Priority to US15/451,755 priority patent/US10545924B2/en
Priority to US16/656,884 priority patent/US11675744B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本發明揭示一種提供來源編碼空間(如Unicode)大於目標編碼空間(如EBCDIC)時碼轉換的方法、電腦裝置與程式產品。該方法包含接收對一來源檔執行由一來源編碼空間至一目標編碼空間之碼轉換的一要求,其中該來源檔係依據一來源編碼空間編碼,且該來源編碼空間大於目標編碼空間;及依據一預先建立之碼轉換之映射表,而對該來源檔分別產生一主要轉換檔及一延伸轉換檔。

Description

提供較小目標編碼空間之碼轉換的方法、電腦裝置與程式產品
本發明係關於提供碼轉換的機制;尤其是提供來源編碼空間(如Unicode)大於目標編碼空間(如EBCDIC)時碼轉換的方法與電腦裝置。
電腦及其他電子裝置基本上使用本文(text)與使用者互動,而一般顯示在監視器或其他型式顯示螢幕上。由於本文必須以電腦或其他電子裝置內部之數位型式表示(representation),因此必須以字符集編碼(Character Set Encoding)。一般,字符集編碼係對字符集之每一字符以一唯一之數位表示編碼。該經編碼之字符可為字母、數字或各種本文符號。每一字符被指定一數值碼供電腦或其他電子裝置使用。不同語言之電腦系統使用不同字符集。以中文為例,可使用BIG5,Unicode字符集。EBCDIC之已編碼字符集標識符(Coded Character Set Identifier,CCSID) 00835也指示一代表雙位元組傳統中文之碼頁(codepage)。
然而,在涉及碼頁或字符轉換時,將遭遇一問題。當轉換來自較大碼頁之字符時,較小碼頁將侷限碼點(code point)之擴充。例如,Unicode與EBCDIC(CCSID=00835)間之轉換。與Unicode相較,EBCDIC碼頁之碼點範圍較小。當來源編碼空間(如Unicode)大於目標編碼空間(如EBCDIC)時,將耗盡目標編碼空間之碼表中所有可用碼點。因此在目標編碼空間中將有來源編碼空間之碼點遺失。如圖1所示,來源編碼空間(如Unicode)中之碼點”坤”(U+5764)在目標編碼空間(EBCDIC,CCSID=00835)中,存在一對應碼點”坤”(507D),然而Unicode之碼點“蜫”(U+872B)在EBCDIC中,並不存在一對應碼點。
一般,這些在EBCDIC中不存在對應碼點之Unicode原始碼點係語言中所謂稀有字(rare word)。傳統之解決方式是將這些稀有字映射至目標編碼空間之一預定義特定字符;或在已轉換之目標編碼本文中保留該要被轉換之來源編碼空間稀有字的原始碼(即在來源編碼空間之碼點),雖然它在已轉換之目標編碼本文中係不可讀的。然而,對4位元組之Unicode(UCS-4)與2位元組之EBCDIC(CCSID=00835)間轉換而言,因EBCDIC(CCSID=00835)僅使用2位元組,而Unicode(UCS-4)是4位元組,故後者將不可行。至於前者,雖該特定字符可在目標編碼空間或碼頁下識別,但該稀有字的語言特性,都將遺失。以中文為例,該語言特性可為拼音(pronunciation/Pinyin)、部首(radical)、筆畫(number of strokes)、筆順(stroke order)、字形(glyph)等等。
因此存在一目標編碼空間能讀取稀有字且又能保有該稀有字之的語言特性的需求。
本說明書中所提及的特色、優點、或類似表達方式並不暗示本發明可實現的所有特色及優點應在本發明之任何單一的具體實施例內。而是應明白,有關特色及優點的表達方式是指結合具體實施例所述的特定特色、優點、或特性係包含在本發明的至少一具體實施例內。因此,本說明書中對於特色及優點、及類似表達方式的論述可與相同具體實施例有關,但亦非必要。
此外,可以任何合適的方式,在一或多個具體實施例中結合本發明所述特色、優點、及特性。相關技術者應明白,在沒有特定具體實施例之一或多個特定特色或優點的情況下,亦可實施本發明。在其他例子中應明白,特定具體實施例中的其他特色及優點可能未在本發明的所有具體實施例中出現。
本發明提供一新的碼轉換機制。該機制係利用一預先建立之碼轉換之映射表,而對一依來源編碼空間編碼之來源檔分別產生一依較小目標編碼空間編碼之主要轉換(main converted)檔及一延伸轉換檔,供應用程式使用。該映射表係利用語言特性所建立,其機制係利用一些特定語言特性群組化一些來源編碼空間之稀有字,以共享目標編碼空間之具有相同或相似的特定語言特性之相同單一碼點。
當執行資料檔轉換時,該主要轉換檔係依習知方式根據預先建立之碼轉換映射表建立,而該延伸轉換檔也依該映射表而記錄該稀有字之延伸碼,以區別共享目標編碼空間之相同單一碼點而來自來源編碼空間的不同字符。因此,藉由結合主要轉換檔及延伸轉換檔,本發明延伸了之目標編碼空間之碼區域,供使用目標編碼空間之程式利用。
對於僅能接受原始目標編碼空間之習知應用程式而言,對應該共享目標編碼空間之相同單一碼點而有相同或相似之語言特性的一替代字符,可用來代表該稀有字。由於該替代字符與該稀有字有相同或相似之語言特性,因此也能幫助了解及猜測該資料檔之內容。至於,能利用本發明上述結合主要轉換檔及延伸轉換檔而建立之目標編碼空間延伸碼區域的新程式而言,可結合主要轉換檔及延伸轉換檔以找到該正確的稀有字,而正確呈現。
根據本發明一實施例,本發明揭示一種提供在較小目標編碼空間之碼轉換的的方法,該方法包含:接收對一來源檔執行由一來源編碼空間至一目標編碼空間之碼轉換的一要求,其中該來源檔係依據一來源編碼空間編碼,且該來源編碼空間大於目標編碼空間;及依據一預先建立之碼轉換之映射表,而對該來源檔分別產生一主要轉換檔及一延伸轉換檔。
根據本發明另一實施例,本發明揭示一種提供在較小目標編碼空間之碼轉換的電腦裝置,包含:一主機;該主機包含,一匯流排系統;一記憶體,連接到該匯流排系統,其中該記憶體包含一組指令;一連接到該匯流排系統之處理單元,其中該處理單元執行該組指令,以執行前述之碼轉換的方法。
根據本發明另一實施例,本發明揭示一種提供在較小目標編碼空間之碼轉換的電腦裝置一種儲存在一電腦可用媒體上之電腦程式產品,包含一電腦可讀程式,供於一電腦上執行時,以實施前述之碼轉換的方法。
參考以下說明及隨附申請專利範圍或利用如下文所提之本發明的實施方式,即可更加明瞭本發明的這些特色及優點。
本說明書中「一具體實施例」或類似表達方式的引用是指結合該具體實施例所述的特定特色、結構、或特性係包括在本發明的至少一具體實施例中。因此,在本說明書中,「在一具體實施例中」及類似表達方式之用語的出現未必指相同的具體實施例。
熟此技藝者當知,本發明可實施為電腦裝置、方法或作為電腦程式產品之電腦可讀媒體。因此,本發明可以實施為各種形式,例如完全的硬體實施例、完全的軟體實施例(包含韌體、常駐軟體、微程式碼等),或者亦可實施為軟體與硬體的實施形式,在以下會被稱為「電路」、「模組」或「系統」。此外,本發明亦可以任何有形的媒體形式實施為電腦程式產品,其具有電腦可使用程式碼儲存於其上。
一個或更多個電腦可使用或可讀取媒體的組合都可以利用。舉例來說,電腦可使用或可讀取媒體可以是(但並不限於)電子的、磁的、光學的、電磁的、紅外線的或半導體的系統、裝置、設備或傳播媒體。更具體的電腦可讀取媒體實施例可以包括下列所示(非限定的例示):由一個或多個連接線所組成的電氣連接、可攜式的電腦磁片、硬碟機、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、可攜式光碟片(CD-ROM)、光學儲存裝置、傳輸媒體(例如網際網路(Internet)或內部網路(intranet)之基礎連接)、或磁儲存裝置。需注意的是,電腦可使用或可讀取媒體更可以為紙張或任何可用於將程式列印於其上而使得該程式可以再度被電子化之適當媒體,例如籍由光學掃描該紙張或其他媒體,然後再編譯、解譯或其他合適的必要處理方式,然後可再度被儲存於電腦記憶體中。在本文中,電腦可使用或可讀取媒體可以是任何用於保持、儲存、傳送、傳播或傳輸程式碼的媒體,以供與其相連接的指令執行系統、裝置或設備來處理。電腦可使用媒體可包括其中儲存有電腦可使用程式碼的傳播資料訊號,不論是以基頻(baseband)或是部分載波的型態。電腦可使用程式碼之傳輸可以使用任何適體的媒體,包括(但並不限於)無線、有線、光纖纜線、射頻(RF)等。
用於執行本發明操作的電腦程式碼可以使用一種或多種程式語言的組合來撰寫,包括物件導向程式語言(例如Java、Smalltalk、C++或其他類似者)以及傳統程序程式語言(例如C程式語言或其他類似的程式語言)。程式碼可以獨立軟體套件的形式完整的於使用者的電腦上執行或部分於使用者的電腦上執行,或部分於使用者電腦而部分於遠端電腦。
於以下本發明的相關敘述會參照依據本發明具體實施例之電腦裝置、方法及電腦程式產品之流程圖及/或方塊圖來進行說明。當可理解每一個流程圖及/或方塊圖中的每一個方塊,以及流程圖及/或方塊圖中方塊的任何組合,可以使用電腦程式指令來實施。這些電腦程式指令可供通用型電腦或特殊電腦的處理器或其他可程式化資料處理裝置所組成的機器來執行,而指令經由電腦或其他可程式化資料處理裝置處理以便實施流程圖及/或方塊圖中所說明之功能或操作。
這些電腦程式指令亦可被儲存在電腦可讀取媒體上,以便指示電腦或其他可程式化資料處理裝置來進行特定的功能,而這些儲存在電腦可讀取媒體上的指令構成一製成品,其內包括之指令可實施流程圖及/或方塊圖中所說明之功能或操作。
電腦程式指令亦可被載入到電腦上或其他可程式化資料處理裝置,以便於電腦或其他可程式化裝置上進行一系統操作步驟,而於該電腦或其他可程式化裝置上執行該指令時產生電腦實施程序以達成流程圖及/或方塊圖中所說明之功能或操作。
其次,請參照圖2至圖5,在圖式中顯示依據本發明各種實施例的電腦裝置、方法及電腦程式產品可實施的架構、功能及操作之流程圖及方塊圖。因此,流程圖或方塊圖中的每個方塊可表示一模組、區段、或部分的程式碼,其包含一個或多個可執行指令,以實施指定的邏輯功能。另當注意者,某些其他的實施例中,方塊所述的功能可以不依圖中所示之順序進行。舉例來說,兩個圖示相連接的方塊事實上亦可以同時執行,或依所牽涉到的功能在某些情況下亦可以依圖示相反的順序執行。此外亦需注意者,每個方塊圖及/或流程圖的方塊,以及方塊圖及/或流程圖中方塊之組合,可籍由基於特殊目的硬體的系統來實施,或者籍由特殊目的硬體與電腦指令的組合,來執行特定的功能或操作。
<電腦裝置>
圖2說明本發明之例示性電腦裝置202之硬體環境方塊圖。在一個示範性的實施例中,電腦裝置為一台通用型之桌上型電腦,可具有處理器以執行各種應用程式;儲存裝置以儲存各種資訊及程式碼;顯示裝置、通訊及輸出/入裝置做為與使用者溝通之介面;以及週邊元件或其他特定用途元件。在其他實施例中,本發明亦可實施為其他的形式,而具有更多或更少之其他裝置或元件。網路亦可實施為任何型式之連線,包括固定連接之區域網路(LAN)或廣域網路(WAN)連線,或利用網際網路服務提供者來暫時撥接至網際網路,亦不限於有線無線等各種連接方式,例如透過GSM、或Wi-Fi等無線網路與伺服端電腦通信。然而應了解,雖未繪示但其他硬體及軟體組件(例如額外電腦系統、路由器、防火牆等)可包含於網路之中。
如圖2所示,電腦裝置202包括一耦合至系統匯流排206之處理器單元204。一視訊配接器208(其控制一顯示器210)亦耦合至系統匯流排206。系統匯流排206藉由一匯流排橋212耦合至一輸入/輸出(I/O)匯流排214。一I/O介面216耦合至I/O匯流排214。I/O介面216能與各個I/O裝置之通信,該等I/O裝置包括一鍵盤218、一滑鼠220、一唯讀光碟機(CD-ROM)222、一軟碟機224及一快閃記憶體隨身碟226。I/O裝置更可為數位相機模組用以輸入影像資料或是條碼資料,或是I/O裝置可與顯示器210整合為觸控螢幕,用以供使用者操作應用程式與編寫資訊。連接到I/O介面216之埠的規格,可以是熟悉電腦架構技術者所知之任一種,其包括(但不限於)通用串列匯流排(USB)埠。
使用一網路介面230,電腦裝置202能藉由一網路228與一伺服器252通信,網路介面230耦合至系統匯流排206。網路228可係一外部網路(例如,網際網路)或一內部網路(例如,一乙太網路或一虛擬私人網路(VPN))。使用網路228,電腦裝置202能使用本發明以與伺服器252互動。
一硬碟機介面232亦耦合至系統匯流排206上。硬碟機介面232與一硬碟機234介接。在一較佳實施例中,硬碟機234進駐(populates)系統記憶體236,該系統記憶體236亦耦合至系統匯流排206。進駐系統記憶體236之資料包括電腦裝置202之作業系統(OS)238及應用程式244。
OS 238包括一用於供使用者存取諸如應用程式244等資源之殼層(shell)240及核心242。殼層240係一可在使用者與作業系統間提供一解譯器與介面的程式。該殼層提供系統提示、解譯由鍵盤、滑鼠或其他使用者輸入媒體所輸入的命令及向該作業系統之適當的較低層級(例如,核心242)發送經解譯之命令供進行處理。雖然殼層240一般係以文字為基礎之行導向式使用者介面,但本發明亦能支援其他使用者介面模式,諸如圖形的、語音的、示意動作的模式等。核心242包括OS 238之較低層級功能,該等較低層級功能包括由OS 238之其他部分及應用程式244所要求之基本服務,該基本服務包括:記憶體管理、處理序及任務管理、磁碟管理及滑鼠與鍵盤之管理。
伺服器252可以使用與前述電腦裝置202相同或類似的硬體架構,亦或者可以利用其他的基礎架構,本發明並不限制。舉例來說,伺服器可以是桌上型電腦等。然而圖2所示以及上述的範例皆非用於限制本發明的架構。伺服器252可包括一瀏覽器。瀏覽器包括程式模組及指令,該等程式模組及指令使用超文字傳送協定(HTTP)訊息使全球資訊網(WWW)用戶端(即:電腦裝置202)能夠發送及接收網路訊息至網際網路。
應用程式244可包括一本發明之碼轉換模組246及一供碼轉換之映射表(mapping table)248。碼轉換模組246包括程式模組及指令,該等程式模組及指令能對一來源檔執行碼轉換,以獲得一轉換之目標檔。該碼轉換模組246可以是應用程式內之模組,或以常駐程式(Daemon)之方式實施。但在其他實施例中,亦可以用其他形式之程式型態來實施。
在電腦裝置202內繪示之硬體元件並非意欲包羅萬象,而係代表本發明所使用之最重要元件。舉例而言,電腦裝置202可以另包括替代記憶體儲存裝置,諸如磁帶(magnetic cassette)、多樣化數位光碟(DVD)、(Bernoulli)卡匣及類似者。此等及其它變化將包含在本發明之精神及範疇內。
<碼轉換模組流程>
圖3係配合圖4與圖5以顯示本發明之碼轉換模組的方法步驟。
圖3為一種依據本發明一具體實施例之碼轉換模組的方法流程圖。
● 步驟310:接收對一來源檔執行碼轉換之一要求,該來源檔係依據一來源編碼空間編碼。
● 步驟320:依據一預先建立之碼轉換之映射表,而對該來源檔分別產生一主要轉換檔及一延伸轉換檔。其中該來源編碼空間(如Unicode)大於目標編碼空間(如EBCDIC)。至於該映射表則係利用語言特性所建立,其機制係利用一些特定語言特性群組化(group)一些來源編碼空間之稀有字,以共享目標編碼空間之具有相同或相似的特定語言特性之相同單一碼點。更多細節將參照圖4或5描述於後。該主要轉換檔係依習知方式根據預先建立之碼轉換映射表建立,而該延伸轉換檔也依該映射表而記錄該稀有字之延伸碼,以區別共享目標編碼空間之相同單一碼點而來自來源編碼空間之的不同字符。
圖4顯示一依據本發明以建立碼轉換之映射表之第一具體實施例。如前述之圖1所示,來源編碼空間(如Unicode)中之碼點”坤”(U+5764)在目標編碼空間(EBCDIC,CCSID=00835)中,存在一對應碼點”坤”(507D),然而Unicode之碼點“蜫”(U+872B)為在EBCDIC中不存在一對應碼點之稀有字。
依據本發明圖4之例子,首先,該在EBCDIC中不存在對應碼點之Unicode之碼點將映射至EBCDIC中之一代表一替代(surrogate)字符之碼點,該替代字符具有與該稀有字相同或相似拼音之語言特性。如圖4所示,Unicode中之碼點”坤”(U+5764)在EBCDIC(CCSID=00835)中,存在一對應碼點”坤”(507D)。而有相同拼音之語言特性的Unicode稀有字之碼點“蜫”(U+872B)也映射至”坤”(U+5764)在EBCDIC中之該對應碼點”坤”(507D)。因此,有相同拼音之稀有字可被歸類為同一群組以共享EBCDIC中之一相同碼點代表之替代字符。
其次,使用一延伸碼,供識別有相同或相似拼音之語言特性而共享目標編碼空間之相同單一碼點的稀有字。如圖4所示,有相同拼音之語言特性的Unicode稀有字之碼點“蜫”(U+872B)也映射至”坤”(U+5764)在EBCDIC中之該對應碼點”坤”(507D),但利用相同之拼音的語言特性,額外記錄一延伸碼(H1)。延伸碼(H1)之產生可簡單地依序編碼,如依本發明圖4之例子可簡單地指定H1=01。因此,藉由結合主要轉換檔及延伸轉換檔,本發明延伸了之目標編碼空間之碼區域,供使用目標編碼空間之程式利用。
圖4之例子僅取拼音之單一語言特性做為群組化稀有字的依據。事實上,該替代字符可具有與該稀有字至少一個相同或相似的語言特性。以中文為例,該語言特性可為拼音(pronunciation/Pinyin)、部首(radical)、筆畫(number of strokes)、筆順(stroke order)、字形(glyph)等等。因此,有相同之一或複數個語言特性之稀有字可被歸類為同一群組,以共享EBCDIC中相同之一單一碼點,即共享相同單一碼點代表之替代字符。此時,延伸碼之建立可利用習知之雜湊(hash)函數,以不同語言特性為輸入,而對每一共享相同碼點之複數個字符指定一唯一數值作為延伸碼。
例如:假設部首及筆畫之值是[0,255]間之整數,則下述之雜湊函數將產生唯一數值給一特定部首及筆畫之組合。
F(部首,筆畫)=Hex((部首)*256+(筆畫))
該雜湊函數式可逆的(reversible),因此能在延伸碼中保有語言特性。
圖5為一種依據本發明以建立碼轉換之一第二具體實施例。如圖示,其除了對有相同或相似拼音之語言特性,而共享目標編碼空間之相同單一碼點的稀有字,指定唯一延伸碼外,對該共享之碼點之替代字符也指定一延伸碼。例如,Unicode中之碼點”昆”(U+6606)在EBCDIC(CCSID=00835)中,存在一對應碼點”昆”(50F9)。而有相同拼音之語言特性的Unicode稀有字之碼點“蜫”(U+872B)及”崐”(U+5D10)也一併映射至”昆”(U+6606)在EBCDIC中之該對應碼點”昆”(50F9),即共享目標編碼空間之相同的對應碼點”昆”(50F9)。但是,如圖5所示,包含對應碼點”昆”(50F9)在內,共享碼點之所有字符皆被指定唯一延伸碼外,H1,H2及H3。相似地,如前述,依本發明本實施例延伸碼(H1,H2及H3)之產生可簡單地依序編碼,即可簡單地分別指定H1=01、H2=02及H2=02。
依前述圖4或圖5實施例,一碼轉換之映射表可被預先建立。當執行資料檔轉換時,依據一預先建立之碼轉換之映射表,而對該來源檔分別產生一主要轉換檔及一延伸轉換檔。該主要轉換檔係依習知方式根據一預先建立之碼轉換映射表而建立,而該延伸轉換檔也依據該映射表而記錄該稀有字之延伸碼,以區別共享目標編碼空間之相同單一碼點的不同字符。因此,藉由結合主要轉換檔及延伸轉換檔,本發明延伸了之目標編碼空間之碼區域,供使用目標編碼空間之程式利用。執行資料檔轉換後建立之主要轉換檔及一延伸轉換檔可以如下列形式呈現。
其中XYZ為在來源編碼空間之字符,而xxxx yyyy zzzz分別為XYZ在目標編碼空間中相應之碼點。對於在目標編碼空間中有相應碼點的字符,在延伸轉換檔中可以一特殊字元hhhh代表。否則以相應之延伸碼填入。需注意的是,上述延伸轉換檔的格式僅是例示,本發明並不限制。其也可以偏移量(offset)方式記錄(即本文中的第幾個字),如
offset aaa H1
offset bbb H2
offset ccc H3
其中aaa,bbb,ccc分別代表”昆蜫崐”等字符在來源檔中的偏移量。
對於僅能接受原始目標編碼空間之習知應用程式而言,對應該共享目標編碼空間之相同單一碼點而有相同或相似之語言特性的一替代字符,可用來代表該稀有字。由於該替代字符與該稀有字有相同或相似之語言特性,因此也能幫助了解及猜測該資料檔之內容。
需說明的是,依本發明揭示者由於有延伸碼區域可供擴充原目標編碼空間相應之字符,以納入來源編碼空間所有之稀有字。因此,對能利用本發明上述結合主要轉換檔及延伸轉換檔而建立之目標編碼空間延伸碼區域的新程式而言,可結合主要轉換檔及延伸轉換檔,以找到該正確的稀有字而正確呈現。
在不脫離本發明精神或必要特性的情況下,可以其他特定形式來體現本發明。應將所述具體實施例各方面僅視為解說性而非限制性。因此,本發明的範疇如隨附申請專利範圍所示而非如前述說明所示。所有落在申請專利範圍之等效意義及範圍內的變更應視為落在申請專利範圍的範疇內。
202...電腦裝置
204...處理器單元
206...系統匯流排
208...視訊配接器
210...顯示器
212...匯流排橋
214...輸入/輸出(I/O)匯流排
216...I/O介面
218...鍵盤
220...滑鼠
222...唯讀光碟機(CD-ROM)
224...軟碟機
226...快閃記憶體隨身碟
228...網路
230...網路介面
232...硬碟機介面
234...硬碟機
236...系統記憶體
238...作業系統(OS)
240...殼層(shell)
242...核心
244...應用程式
246...碼轉換模組
248...映射表(mapping table)
252...伺服器
為了立即瞭解本發明的優點,請參考如附圖所示的特定具體實施例,詳細說明上文簡短敘述的本發明。在瞭解這些圖示僅描繪本發明的典型具體實施例並因此不將其視為限制本發明範疇的情況下,參考附圖以額外的明確性及細節來說明本發明,圖式中:
圖1為一種習知在Unicode與EBCDIC間進行碼轉換之例子;
圖2為本發明之例示性電腦裝置之硬體環境方塊圖;
圖3為一種依據本發明一具體實施例之碼轉換模組的方法流程圖;
圖4顯示一依據本發明以建立碼轉換之映射表之第一具體實施例;
圖5為一種依據本發明以建立碼轉換之一第二具體實施例。

Claims (10)

  1. 一種提供在較小目標編碼空間之碼轉換的方法,該方法包含:接收對一來源檔執行由一來源編碼空間至一目標編碼空間之碼轉換的一要求,其中該來源檔係依據一來源編碼空間編碼,且該來源編碼空間大於目標編碼空間;及依據一預先建立之碼轉換之映射表,而對該來源檔分別產生一主要轉換檔及一延伸轉換檔。
  2. 如請求項1之方法,其中該來源編碼空間係Unicode,而該目標編碼空間係EBCDIC。
  3. 如請求項1之方法,其中該映射表係利用語言特性所建立,該建立係利用至少一個相同或相似的語言特性群組化一些來源編碼空間之稀有字,以共享目標編碼空間具有與該稀有字相同或相似的語言特性之一替代(surrogate)字符之單一碼點。
  4. 如請求項3之方法,該稀有字係在目標編碼空間中不存在對應碼點之來源編碼空間之字符,該稀有字之碼點將映射至目標編碼空間中之一替代字符之碼點,且該替代字符具有與該稀有字至少一個相同或相似的語言特性。
  5. 如請求項4之方法,其中該主要轉換檔係根據預先建立之碼轉換映射表建立,而該延伸轉換檔也依該映射表而記錄該稀有字之延伸碼,以區別共享目標編碼空間之相同單一碼點而來自來源編碼空間的不同字符。
  6. 如請求項5之方法,其中該延伸碼係利用雜湊(hash)函數,以不同語言特性為輸入,而對每一共享相同碼點之複數個字符指定一唯一數值作為延伸碼。
  7. 如請求項5之方法,其中其除了對有相同或相似拼音之語言特性,而共享目標編碼空間之相同單一碼點的稀有字,指定唯一延伸碼外,對該共享之碼點之替代字符也指定一延伸碼。
  8. 如請求項2之方法,其中該語言特性可為拼音(pronunciation/Pinyin)、部首(radical)、筆畫(number of strokes)、筆順(stroke order)、字形(glyph)等等。
  9. 一種儲存在一電腦可用媒體上之電腦程式產品,包含一電腦可讀程式,供於一電腦上執行時,以實施如申請專利範圍第1至8項之任一項所述之方法,以提供在較小目標編碼空間之碼轉換。
  10. 一種提供在較小目標編碼空間之碼轉換的電腦裝置,包含:一主機;該主機包含,一匯流排系統;一記憶體,連接到該匯流排系統,其中該記憶體包含一組指令;一連接到該匯流排系統之處理單元,其中該處理單元執行該組指令,以執行如申請專利範圍第1至8項之任一項所述之方法。
TW101111653A 2012-03-30 2012-03-30 提供較小目標編碼空間之碼轉換的方法、電腦裝置與程式產品 TW201339861A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
TW101111653A TW201339861A (zh) 2012-03-30 2012-03-30 提供較小目標編碼空間之碼轉換的方法、電腦裝置與程式產品
US13/851,289 US9684654B2 (en) 2012-03-30 2013-03-27 Performing a code conversion in a smaller target encoding space
US15/451,755 US10545924B2 (en) 2012-03-30 2017-03-07 Performing a code conversion in a smaller target encoding space
US16/656,884 US11675744B2 (en) 2012-03-30 2019-10-18 Performing a code conversion in a smaller target encoding space

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101111653A TW201339861A (zh) 2012-03-30 2012-03-30 提供較小目標編碼空間之碼轉換的方法、電腦裝置與程式產品

Publications (1)

Publication Number Publication Date
TW201339861A true TW201339861A (zh) 2013-10-01

Family

ID=49236473

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101111653A TW201339861A (zh) 2012-03-30 2012-03-30 提供較小目標編碼空間之碼轉換的方法、電腦裝置與程式產品

Country Status (2)

Country Link
US (3) US9684654B2 (zh)
TW (1) TW201339861A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201339861A (zh) 2012-03-30 2013-10-01 Ibm 提供較小目標編碼空間之碼轉換的方法、電腦裝置與程式產品
US9785659B2 (en) * 2013-08-01 2017-10-10 International Business Machines Corporation Protecting storage data during system migration
CN111444680B (zh) * 2020-04-25 2023-05-16 中信银行股份有限公司 生僻字的编码扩展方法、装置、存储介质及电子设备
CN113791838B (zh) * 2021-08-20 2024-04-23 深圳市元征科技股份有限公司 一种程序文件调用方法、装置以及存储介质
CN113792529B (zh) * 2021-11-17 2022-05-06 北京华云安信息技术有限公司 用于机器学习的文本字符编码方法、装置及电子设备

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2830884B2 (ja) 1992-02-06 1998-12-02 日本電気株式会社 多重文字コードセットの入出力変換方式
US6185729B1 (en) * 1996-03-04 2001-02-06 Sun Microsystems, Inc. Multibyte locale for single byte languages
US6522330B2 (en) 1997-02-17 2003-02-18 Justsystem Corporation Character processing system and method
CA2205641A1 (en) 1997-05-16 1998-11-16 Ibm Canada Limited-Ibm Canada Limitee System and method of transforming information between ucs and ebcdic representations employing ebcdic-friendly transformation formats
US6204782B1 (en) 1998-09-25 2001-03-20 Apple Computer, Inc. Unicode conversion into multiple encodings
WO2000022521A1 (en) 1998-10-10 2000-04-20 The Victoria University Of Manchester Program code conversion
US7353163B2 (en) 1999-04-27 2008-04-01 Transitive Limited Exception handling method and apparatus for use in program code conversion
US6698014B1 (en) 1999-10-14 2004-02-24 Convert Systems Inc. System for automatically converting source code from one programming language to another
US7051278B1 (en) * 2000-07-10 2006-05-23 International Business Machines Corporation Method of, system for, and computer program product for scoping the conversion of unicode data from single byte character sets, double byte character sets, or mixed character sets comprising both single byte and double byte character sets
US7900143B2 (en) 2000-12-27 2011-03-01 Intel Corporation Large character set browser
US7251667B2 (en) 2002-03-21 2007-07-31 International Business Machines Corporation Unicode input method editor
US6701320B1 (en) * 2002-04-24 2004-03-02 Bmc Software, Inc. System and method for determining a character encoding scheme
US7299452B1 (en) * 2002-05-10 2007-11-20 Oracle International Corporation System and method for testing the compatibility of a computer application with a foreign character set
US7218252B2 (en) 2004-02-25 2007-05-15 Computer Associates Think, Inc. System and method for character conversion between character sets
US7676797B2 (en) * 2005-01-31 2010-03-09 Computer Associates Think, Inc. System and method for managing long names in an application programming interface
US7400271B2 (en) 2005-06-21 2008-07-15 International Characters, Inc. Method and apparatus for processing character streams
CN1741006A (zh) 2005-09-22 2006-03-01 北京北大方正电子有限公司 一种创建冷僻字扩充字库的方法
US20070115488A1 (en) 2005-11-22 2007-05-24 International Business Machines Corporation Methods and systems for multiple encodings within a code page
US9275019B2 (en) * 2007-12-21 2016-03-01 Sap Se System and method for performing Unicode matching
CN101404007A (zh) 2008-11-19 2009-04-08 闻泰集团有限公司 一种Unicode编码到GB2312编码转换方法
TW201339861A (zh) 2012-03-30 2013-10-01 Ibm 提供較小目標編碼空間之碼轉換的方法、電腦裝置與程式產品

Also Published As

Publication number Publication date
US20130262490A1 (en) 2013-10-03
US20170242850A1 (en) 2017-08-24
US20200050589A1 (en) 2020-02-13
US9684654B2 (en) 2017-06-20
US10545924B2 (en) 2020-01-28
US11675744B2 (en) 2023-06-13

Similar Documents

Publication Publication Date Title
US11675744B2 (en) Performing a code conversion in a smaller target encoding space
JP6685230B2 (ja) 拡張オブジェクト表記データを提供するための方法及び装置
US9456229B2 (en) Parsing single source content for multi-channel publishing
WO2016029801A1 (zh) 编码、解码方法以及编码装置和解码装置
US20160078656A1 (en) Remote Font Management
TWI470442B (zh) 利用複數個精簡型用戶端平台獲得交互相容性之系統及方法
JP2015528162A (ja) ローカライズされたユーザインターフェースの生成
CN112966824A (zh) 推理库的部署方法、装置和电子设备
WO2017166756A1 (zh) 文本截断、上传方法、装置和电子设备
US10437849B2 (en) Method and apparatus for implementing storage of file in IP disk
US10944824B2 (en) Method and apparatus for processing media type in rest software architecture
US10534849B2 (en) Geo-cultural information based dynamic character variant rendering
US8094940B2 (en) Input method transform
CN103914436B (zh) 提供较小目标编码空间的码转换方法和装置
US9385979B1 (en) Customizing posts by activity type and client type
US20190129921A1 (en) Enhancing Crossing Copying and Pasting Operations
ES2905584T3 (es) Procedimiento de procesamiento de mensajes y dispositivo electrónico que soporta el mismo
CN105793842A (zh) 序列化消息之间的转换方法和装置
US8839102B2 (en) Method to automatically display filenames encoded in multiple code sets
JP2022024640A (ja) 情報処理装置、プログラム及び情報処理方法
TWI306337B (en) Character conversion methods and systems
BR112019012023A2 (pt) codificação de dados de impressão e transmissão de dados de impressão por dispositivo hospedeiro
JP5965661B2 (ja) 表示画面変換装置、表示画面変換方法、およびプログラム
JP4740425B2 (ja) 文字コード入力支援システム、文字コード入力支援プログラム
JP6613671B2 (ja) 情報処理装置