TWI230341B - Kanji searching method using codes - Google Patents

Kanji searching method using codes Download PDF

Info

Publication number
TWI230341B
TWI230341B TW89104765A TW89104765A TWI230341B TW I230341 B TWI230341 B TW I230341B TW 89104765 A TW89104765 A TW 89104765A TW 89104765 A TW89104765 A TW 89104765A TW I230341 B TWI230341 B TW I230341B
Authority
TW
Taiwan
Prior art keywords
chinese
character
chinese character
characters
search
Prior art date
Application number
TW89104765A
Other languages
English (en)
Inventor
Wen-Hu Wang
Original Assignee
Wen-Hu Wang
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wen-Hu Wang filed Critical Wen-Hu Wang
Priority to TW89104765A priority Critical patent/TWI230341B/zh
Application granted granted Critical
Publication of TWI230341B publication Critical patent/TWI230341B/zh

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

1230341 狄、發明說明: 【發明所屬之技術領域】 本發明係提供能_在計算機應频 行信息檢索的方法,尤其是指一種採用釋碼用、·扁碼和譯碼方式廷 漢字檢索技術。 、、、式的應用於計算機系統上的 【先前技術】 如今世界已經進入—個信息 成為廣大普通人日常必需之事 〜禮包樹#息檢索已經越來越 甚至上千萬冊,想要找需型圖書館的藏書多達幾百萬 電腦光碟容量達幾個G以上,可以儲二而,進仃檢索’·如今的一張 DI音樂,其數量超過了大多數^ :固漢字,或是儲存上萬首M1 是不進谢人們她构 書編#過的樂曲,要 _郵4糾格,他也必須通過檢索,才能朗自 的郵品。所以,沒有簡僮的柃去主饥^ I且悄牦。適 針。 _双索手奴,想要查尋到需要的信息如同海底撈 此外’廣大的華人電腦用戶也要求軟體能使㈣字。經過二 年的努力不懈,漢字的輸人輪出方法都已有相當的完善,可是漢字的檢索 則尚待改進’續齡檢索的_更麟㈣物。 、 如第-圖所示’目前的漢字檢索流程是採: (10)加載漢字輸入法 (20)按輸入法輸入檢索字 (30)生成含漢字的檢索字符串 (40)伙内存5買出被檢索的數據字符串 (50)比車父檢索字符φ和數據字符串 (6 0)做被檢索數據的相關運作 1230341 (70)檢查數據是否終了 (80)進入下一個數據區 (90)檢索完畢 在中文平臺上選擇-種漢字輸人法,輸人檢索字的〃模板〃字符串, 然後將被檢索的數據字符串逐段取出,如若其中有一段模板的字符串完全 ,等則彻為真’。目前賴字檢索方法必關辭輸人法並按照漢 2式輸人’而且—般在檢索字段巾不能含有符號或外文,關往往 識別。 …' 然而,在實際中上述的漢字檢索碰到了極為多種的困難,如: 因此^有^妹贿行時在漢字平臺上可以輸出漢字卻不能輸入漢字, 口此難以用漢字作為檢索字。 2·有些電練體運行時盡管允許輸人漢字,但當輸 〜 有外文、觀時,便會遇雜細為切換TO作相咖Γ 3,、子又 入方訊她人在掌握漢字輸 易的漢字檢索方法來::::嫌 【發明内容】 發出一索流程所積存的不便利處,本發明人乃積極' 的電腦用戶。 的更佳便利處理技術,造福全球眾多使用漢: 本愈月的主要目的:在於提供一種採用譯碼的漢字产帝方丰 可以不必_漢字輸人法,甚至不必掌 ^外索方法操偏 字檢索。 ^旱握,莫子輪入法,即能簡便的進衍! 碼,使操作簡單、使用方 高效率的目的。 本=月的另主要目的,在於使用簡便的編 便’提高了漢字檢爱的效率,達到簡便、快速、 1230341 電子計算機是處理信息的機器,它 字:圖:、聲音以及其它可·成電信訊號的::::僅:= 内π無娜數據、地址,運控都使用二進制,因此 ” 的 ,都要·、,使關是 貫上已為國際公認,中國國標GB簡《信息交換用的七位編石馬〜碼事 基本上等同細基本碼。GB 《信息處理交換 扁=集》 擴充方法》,GB ·3《信息處理郎交換用八 =子付集的 規定了擴展碼的使用方法。GB则(同等ί5=構和,.扁碼規則》 的拼音字母的擴展碼編號。 &了彡種非英文 漢字等文字數較多的文種則使用兩個田比連的卿錐 便可在電腦中儲存。這種雙細的形式,稱為内碼 又字/形式, 的形式在電腦中儲存的。 溟子疋以内碼 漢字字符集只是内碼和漢字的映射關絲,是電職存 内碼儲存在電腦中,它符合—字—碼、—碼—字的原則。'饨把。 目前電腦用的漢字庫主要有兩類: -、基本庫:①GB 2312標準《信息交_漢字編碼字科美 國標區位碼,簡稱GB碼。共94區94位,其中_級漢字獅個.,土本集》 ^ 3008 ^ 6763 〇 @GB/T 12345, 集輔霜簡稱,包含㈣個繁體漢字销職禽管= 助集,實際卻是基^,其中-二級漢字庫和⑶2312相同, 103個1960年代漢字簡化時被精簡掉的漢字。 了 二、擴展庫:_附他衫,為从編寫整理古«求,中_ 家標準局制訂了: 國 GB 7578《信息交換用漢字編碼字符集第二輔助集》 GB 13131《信息交_財編碼字符集第三輔助集》 1230341 。心父換用漢字編碼字符隼 GB13132《信息交_漢字編碼字符集第五 第二、第五輔助集乃是第二、第四輔助集的繁、 盡管是強繼標準,卻鮮好有人姻,^二上幾個輔助集 區94位,要通過Esc控制命令,,轉義,, :#予符集都使用了 94 麻須有關係。除了要擴大字庫外,針對;;=轉換’編電腦程序有點 ISO /IEC 1__ i /GB 13_ #、漢字同時使用的
即中、日、韓,Ή 、'漢子編碼字符集》,稱簡CJK 準,^稱1^ 議個漢字。而在港臺則使糊腦標 漢字I字庫用《 字符集,含有13G53個繁體漢字。目前國内電腦 ^ ^ L 80 Μ 5 CJK BIG 5 法㈣她姆龍糖嶋字檢索方 漢化的,是輸人輸出的、_和譯碼,它們都分兩個轉進行··對於 石錢疋把漢子按照某種規則編成外碼,然後將外碼轉換為雙Ascn 儲存;對於輸出,首先是讀出儲存著的則内碼,再調用漢字 :付“出内碼相對應的漢字,從_連續按_些鍵來輸人料,這類漢 咖扁剩做外碼,外碼未必符合—碼—字,電腦操作者輸入漢字 疒用易於e己憶、編碼較短的外碼鍵入漢字,再由電腦自動轉換為内碼儲 、子〜用任何方錄人漢字,轉_編碼錄人賴,本發明的檢索法只和 漢字内碼有直接義,和外碼以及漢字輸人方式無直接關係。反過來說, 用义何方式方法輸入的漢字,都可以用本發明的譯碼法檢索。 電腦軟體的漢化並非要求全部使用漢字,而是根據需要可以中、外文、 阿拉伯數字、符號混合用,以取得最佳效果為目標,檢索漢字實質上就是 1230341 乍子符串的比ix’ §被檢索字符串和檢索字符串比較期為鱗時為,,直 本毛明以的細譯碼的漢字檢索方法,其步驟包含有: ⑴加載主要由電腦及其輸入、輸出設備構成的漢字檢索軟體 (2)選擇字符集的類型 ⑶從該漢字檢«統的輸人設備輸人檢索字 ⑷知檢索子的輸人順序和界^符生成〃檢索字符串" (5) 讀出被檢索的數據 (6) 對被檢索數據譯碼生成〃別稱字符串〃 (7) 比較檢索字符串〃和〃別稱字符串" (8) 做被檢索數據的邏輯運算和關系運算 (9) 檢查數據是否終了 (10) 進入下一個數據區 (11)檢索完畢 譯:的確大幅改變了漢字檢索的思路和 :::1文千$上不需調入漢字輸入法,耐艮據某種常用和簡便的 編碼原則從鍵盤輸入ASCII基本碼字符,組成—個字符串;另一方法,將 被檢索的數據字射按漢字内碼和與輪人字符串所用相同的編碼原則譯、 碼,返回—個字射。將兩個辦進行比較,如果鱗或被檢t字符串 經含檢索字符串,則判別為"真,/。 ’、 來從《輸人由脱„基本碼字符组成的檢索字料的常用 ㈣=難馬方法,是採以漢語拼音首字符的方法,即採用輸入檢索字的 :=子__第-_ (w是聲简是料)的方式來 ’因為這種方式不織編碼規則,按鍵次 、 操作簡便,只要會漢語拼音即可。 0 由於本發明獅_字檢打法提出財料需料字輸人模塊,因 1230341 而可以應麟不能輸人漢字,但能輪出漢字的場合,可以避免中、外文和 符號輸入切換時的操作困難;而且,實際上配合本發明的是簡短的編碼法, 來進行檢索’從而節省時間,於是,不會使用漢字輸入法 的用戶,糊本發明也能簡便的檢索漢字,會用漢字輸入細戶,利用 本發明更是可以大幅提高檢索效率。 【實施方式】 …本發明設計的_譯碼的漢字檢索方法,請參第二騎示,其改變了 漢子檢索的思路和運行流程,在中文平 ㈣赍_ __ 上不需調人漢字輸人法,而根據 =種㈣和間便的編碼棚從鍵雜人·丨基本碼字符,域—個字符 =另-杨,將被檢㈣數據字符串按齡㈣和與輸人 同的編碼原則譯碼,返回一個字斿电 ^ 七心+―± 將_字符串進行比較,如果相等 或被榀索子付串蘊含檢索字符串,則判別為,,真"。 對本發明的採用譯碼的漢字檢索方法在檢索步驟是包含有:
一、 加載漢字檢索系統(D 士將本發明所形成的漢字檢索方法安裝在所需的計算機系統中 ,發明的齡财方法可翻於各_作线和顧軟體,如 DOS、CCD0S、WINDOWS等;本發明的、、堇定纟八各十+ f 一 子齡方奸⑽來擴展操 作系統的功能,而不是替代原有的操作系統。 二、 選擇字符集的類型(2) —使用本發明的漢字檢索系統的譯碼應該和被檢索對象所用的漢 =子付集雜,从產生κ現象,當漢字字符驗變時,應 _換到相應的譯碼字符集。要實現此種判別和改變可以人^ =進行,其具體操作可輯以;讀取原漢字輸人系統所配帶的字 中若干侧定位置的字符及叫_中已設定料作為桿 内碼相比較,選擇内碼相同的那—個設定即代表了原字符集的 1230341 本發明設計的齡檢卿碼法可_ 字節符編碼集,如:GB2312(信息交換用漢字編碼字鄕基又 集》;GB/Γ腿《信息交換用漢字編碼字符集辅助集》;臺細 1⑽標準順大五碼;侧们_嶋字庫,以及隨52 ^月鮮文字,GB_蒙古文字,⑶刪維吾敎字和其他國家 =民族1 雙字!5字符;其中以GB 2312,娜,⑶S臟 二子符集最為常用。在啟動本發明的漢字檢索系統後,要識 別電恥中子符編碼集的類型,並來與之相匹配。 二、輸入檢索字(3) 本 =的漢字檢索方法中採用的譯碼,原則上可以將任何輸入 /裰子法補’以漢字輸入法為例,各種獨特的編碼法盡管各有 所^但是絕大多數的漢字輪人法並不能為廣大用戶所輕鬆學會, 而ΐΐ難以付諸實用。本發明以漢字顺的漢語拼音首字符作為輸 的輸入字符’只要操作者具備一般的拼音基礎,就不必預 、、堇1=東’而且按鍵次數少,最容易被廣泛接受;除了前述的用 日i字符輸人檢索字’本發明也可採用各種目前既有的輸入 / 入檢索字,如採物輪人法、大易輸人法、注入法、 %蝦米輸入法等。 明的漢子檢索方法還可以採用縮碼或縮鍵(針對電話之類 木用較少的鍵碼)的輸入方式,如果希望減少鍵入的次數 :,木心碼’㈣〃是指〃不完整〃的或謂〃模糊〃的輸入 〆比如丄漢§吾拼音首字母、中文注音首子母、各種漢子輸入法 拙“ /莫子的第—第二個筆劃,俾使輸人簡化,電腦程式簡潔, 一、、/、型的代表是使用漢語拼音首字符,一個漢字縮碼為 10 1230341 一個碼,一個聲母和一個韻母的雙拼也是縮碼,現在的雙拼字母聲 韻不分,只能用兩個字母代表一個漢字,考慮到漢語拼音首字符共 要使用23個拼音字母,餘下丨、u、v中的i、u為韻母,此外以⑬、 1、〇分別代表a、e、〇 (@、〇為形似,i為聲似),便可以聲韻 分開,用一聲一韻或一聲或一韻來檢索,聲韻檢索對於被檢索對象 字數短的較有優勢。 改進後的聲韻輸入法的具體對應如下·· 拼音 aoebpmfdtnlgkhiqxzcsrwy (z、c、s 含 zh、ch、sh ) 鍵盤 @ 01 bpm f dt η 1 gkh j qxzcsrwy (當韻母a、〇、e為首字母時,仍然使用&、〇、e鍵) 這樣的方式,能允許漢字拼音首字母和一聲一韻的檢索方法兼 容,而不必使用隔音符號。 漢字總共只有九種筆劃,編或數碼便可以用小鍵盤輸入,早在 民國初年的《一九學生字典》就使用了這種檢字法。四角號碼亦是 一種縮碼,這些方式適合硬體鍵數少的,如電話、遙控器等等。 由此可見,本發明的方法可以根據被檢索對象文本文件採用的 子付集、電知用戶吾好的檢索方案、硬體的使用條件,來選擇譯碼 字符集的版本,從而具備廣泛的適應性。 四 、按譯碼法生成"檢索字符串"(4) 根據程序,將輸入的信息轉化成可以進行比較的〃檢索字符 串",本發明的檢索方法可以用於中外文及符號的混合檢索,能識 別中、外文、大小寫及符號等。例如:①用小寫字母代表漢字,大 寫字母代表英文,英文檢索不區分大小寫,這是漢字輸入常用的方 法;②用大寫字母表示漢字,小寫字母表示英文,英文檢索不區分 11 4 4寫T英文區分大小寫,中文統一用小寫(或大寫)字母映照; 〇央文不區分大小寫,中文統一用小寫(或大寫)字母映照。由於 中文檢索首字符鱗和英对儒序常有顯著差別 ,最後兩種方式 檢索出的剩餘對象也不會很多。 例如:被檢索對象"漢化Qbaslc語言" 在漢字檢索方法中,數據轉換過程如下: 數據 Γ------_ 字符串内容 GB漢字’十六進制碼 原始數據 漢化Qbasic 語言 BABA BBAF 5142 61 7369 63D3 EFD1 D4 將英文轉化為 大寫字母 漢化QBASIC 語言 BABA BBAF 5142 41 5349 43D3 EFD1 D4 將漢字轉化為 拼音首字符 -------_ hhQBASICyy --—----- 68 68 51 42 41 53 49 43 79 79 —-—--- 檢索子可取” hhQB*〃,此格式表示首段匹配,*號是一個標記, 表示其後無要求,被檢索字生成的別稱字符串為"68 68 51 42 41 53 49 43 79 79",而檢索字符串生成的檢索字符串為"68 68 51 42", 字符串比較時截取前4字節,皆為 68 68 51 42 吻合丨 檢索成功。 中外文混合檢索,其中所謂的符號是ASCII碼基本碼符號,佔一 個字節,和一個英文字母相仿,漢字字符集中的雙字節符號,不能 1230341 作為檢索字母内容,檢索時跳過,但允許在被檢索字中存在。 五、 讀出被檢索的數據(5) 根據程序命令,計算機自動從内存、鍵盤、軟體、光碟或者網 路、數據光纜甚至於大型數據庫等讀取被檢索的數據。 六、 按譯碼法生成〃別稱字符串〃(6) 在檢索漢字時,對於碰索字符串以兩個字符為—組逐一判斷 和處理’經過譯碼構成一個,,別稱字符串以配合GB23i2和斷 12345字符集為例是採:①漢字庫以外的字符,即Ascn碼小於诎 的字符’原樣照抄;②對於一二級漢字,根據譯碼字符庫轉換為相 應的編碼字符;③對於漢字庫範圍内的非漢字部分,即16區以前和 γ區(或GB/T 12345的90區)以後的部分,放棄。對於其他字 符集,亦用類似辦法處理,把雙字節符號譯碼為空串。 被檢索的字符串,可以預先自動轉換成的,,別稱字符串"儲存 起來,也可以在檢索時臨時生成,採用何種形式,取決於被檢索對 象的長度和是否相對穩定,如果被檢索對象總長度小於ι〇萬字節, 澤碼花費的時間與鍵入字符的時間相比可以忽略,不需要 稱,如果被檢索對象變動甚多,比如網路信息或讀取光碟,則沒有 2事先轉換;反之,_書目錄之類量大又穩定的字符可以預 =轉換成別稱儲存起來,節省每次檢索的時間,並且將別稱字符串 取概小順序排列’如繼的是首字段,便可對分法快速查 槿^皮檢索的對象,以程序設計角度看待,均屬於資料文件,纽 先:===件、格式化順序文件、機動文件: 顺子付串的方法視對象的格式而定 文件,轉m字符串二糖組;對於雜式化卿文/轉化為字 13 J23034! 符串簡單變量或字符串 組,把這歧數_存在怎,對於齡文件轉化為記錄變量數 標和朴數=Γ内射,檢索匹配的元素,根據它的ί 同,它不包含固定和可擴展的詞庫二:漢字輸入法不 索字符串自鱗找匹配。 屬 '自錢糸统,能和被檢 g 、 &索方法的澤碼需要有一個和内碼配套的嘩巧字1庙 =建盤和被檢索字符的映照,譯碼字符庫相當於—:=, j的—舞應於齡編碼字鄕馳 ’ 摞用中且A #丄 、再對應於位,當譯石馬 數植,一:例如使用—個字符時’譯碼字符庫可以改用-唯 較少,加載ir兀相應於一個區’採用一維數組佔用的儲存單元 自力载速度較快。附錄-列出用小寫拉丁字母對GB2312《作 =、ΓΓ編碼字符·縣集》的漢字漢語拼音首字符譯碼字 付庫、用PH-300微機從鍵盤讀入内存的時間約2· 6毫秒,佔用内 =值”肖耗資源甚少,譯碼的程序亦不报複雜,很容易轉化到 比板中用於顯示儀表和家用電器。 七、比較’’檢索字符串"和"別稱字符串"(7) r別稱字符m索字符串〃進行比較,如果匹配的話, 判別為真’如有需要可以記下匹配的位置,把匹配的部分以不同顏 色或字體表示,以便識別;並可以將原字符串顯示或列印出來,如 果不匹配的話,判別為"假。 本漢子檢索方法,可以結合邏輯運算,最常用的是〃與〃計算, 對成個仏索子綜合判斷,在文件檢索時通常用〃 *〃作為分隔符來 分隔檢索字段,表示對這些字段作〃與〃運算;例如,被檢索對象,, 漢化Qbasic語言,,可以用hh%y來檢索,對於關鍵詞或者主題, 14 1230341 邏輯檢索更有價值;以化學催化劑查詢為例’比如要尋含白金加氣 =:,用漢語拼音首字符檢索詞應為、 *bJ*JQ*chJ"? . 此外月料口風改製、油脂加氨硬化等等所用的白金催化劑。 坪匹配:Γ還可以要求"全匹配9首字段匹配ί 或"又非順如 段匹配'中間字段又可以要求、序匹配" ㈣配’從而滿足各種檢索需要,這些前題可以在包含 澤碼檢索的程序中反映出來。 匕各 八 、其它步驟 匹西仏灸判別為真’則顯示或列印原被檢索的數據⑻,把 豆—相_刀/不同的顏色或字體表示出來,以便識別,同時,可作 :::運作,如運行該程序等,然後檢查被檢索的數據是否已 經結束(9),若社击,曰,口人土_ ° 數墟成(11);若未結束,職入下—個 數據£(10),進行新_輪循環。 不nrr物顺’岭_嫩-鋒索,若 =檢Γ成(u),wh娜⑽,進行斯 在計謝序的檢索步 (12) 檢測字符集的内碼 (13) "檢索字符串"和"別稱字符串"比車交 ⑽調用和字符集對應的檢索程序 (15) 讀取鍵盤暫存區内的數據 (16) 轉換成π檢索字符串,, (1Ό存入固定地址的内存 15 1230341 (18) 讀取内存緩衝區中的數據 (19) 轉換成π別稱字符串” (20) 檢索字符串”與”別稱字符串"比較 (21) 調用相關的運行程序 (22) 檢查下一個數據區的數據是否存在 (23) 調用下一個數據區的地址 (24) 程序終止 另外’本發明的漢字檢索方法的兼容性和内碼的兼容性—致;例如: ™涵蓋™,CJK涵蓋GB 23C 12345的-二級字符集又和GB 2312 相同只是改用繁體顯示,於是GB 2312内碼的譯碼便可以用來檢衾、 CJK、GB 2312、GB 12345,只是只能用GB 2312内碼的譯碼作檢索字,豆 它漢字可赠為被檢索字的成份,顯示㈣印絲。 ’ 反之,GBK的譯碼法也可以向下兼容用於CJK、GB 12345、⑶挪内 ^ 12345 ^ GB 2312 IS〇 48?3/GB n383 雞集4 1用於非央文的外文單字節字符,這並不會對實際使用造成困 難0 應用例1 WIN 95#作系統推出了最長可達255個字符的長文 PC機8· 3文件名缺乏文件# 名被底解决 應了㈣舰聽,㈣了騎檢索功能, " =+里心速擴大,信息量速增帶來的困擾,S己置了夕種文# 動方式’方便了操作;但是,在_ws 敎件 下用DIR命令檢索需要里供〜京的貝机不夠完善,在DC ^京而要具備D()s中文平臺,兹將 行程序,用於檢㈣字和軸路徑名和文件相法,.扁成可 即能方便地查尋路徑和文件的目的。 心!不需調入漢子系 查尋路徑名時只使用—個首字段,將磁碟或光碟中的路徑名讀入内 16 1230341 音首字符數息乂換用漢字編碼字符_基本集》配套的漢語拼 得匹配祕 稱,再和鍵織⑽檢財進行字料比較,杳 =配的路“ ’如果符合要求的路徑名是唯—的,自動進人文件名: 如果和檢索字符串匹配的路秤名 一、’ 序號,供選«認。 個,則那全純_路徑名及其 錄文件名個_的方法,只是由敎件名較長,耻允許分 她侧細或是 自叙I» 要求順序匹配,如果檢索結果是唯一的, 目職目⑽請名全賴#來,並舰_部分以醒 日的願色顯示,以供挑選。 比如該^ΓΓ選擇〃 ί含子目錄〃和〃不包含子目錄〃兩種檢索模式 有貝夕分《給艾麗絲》的樂曲,在國内的唱片上通常譯為' 示出
=、.、糸,用本發明的技術,只要鍵入ais便能將該文件自動挑選和顯 來’配上鶴程序即便演奏該樂曲。
、二取更樂為例’c碟中約1〇〇〇個路徑,ρ η—3〇〇微電腦查尋匹配的 文路徑名耗費的時間—磁碟機械運行時間的ig至啊。若從軟 碟:通信娜I取數據速度更慢,檢㈣間所佔比例更低 ,電腦鍵盤是〃 \㈣入速度不可能超過购建/分鐘,大多數人輸入速度達不到250 鍵/刀、-况且鍵入日守動腦的時間比動手的時間多,本發明免除了調入漢字 輸入法以及鍵人‘作較為簡便節省了時間,從而縮短了檢索耗費的全部時 間,是一種高效率的檢索方法。 了 WIN簡St運行目標程序難以輸人漢字,因 而也難以議㈣顧,也可入丨⑽術、外文、符號 同時出現雜作_,具有高度的適雜和$活性。 應用例2 17 1230341 對於圖書檢索、專利檢索、電話號索、海_稅檢索料,這些 對象的數據結構大凡比較簡單,可以用—張表格來表達,表格中的每一行 有若干個數據項,反映被檢索對象的特徵,因此,像圖書檢索、專利檢索、 ^話號碼檢索、海_稅檢索等等只是此類表格數據查詢的例子,·比如, j片作例子,名片上通常包含:姓名、職務、單位、單位地址、電話、 I、網址等項目’這些數據既是檢索的對象,又是檢索的依據,一般情 ==知道的-項或數德人,抑要求輸出全部麟,檢索系統允許用戶 4輸入項,本發明的特财檢索中的漢字部分可以在外文輸人狀離下進 =鍵人,的内容可以簡化,現在要查尋—個名叫發明者"的人的名 _ 、’ famingzhe”要簡便,若要縮小搜索 耗*'以在公司一攔鍵入公司名稱拼音首字符;反過來,要是想在名片 /中查尋專利商標代理'只要在公司欄目中鍵场刚*,便能查到這一 行業所有公司的人員名片。 歸輪來’本發_比較目前的漢字財方法,為具朴下的顯著功 夕文· 字可以不必辭輸人法,甚至财者可以不需 輸入法,亦可簡便的檢索漢字。 便。2·知用本發明的漢字檢索方法,可以簡化檢索詞的輸入,操作快速方 字檢索效率Γ里敲㈣統中進韻字檢索,確可大幅增進目前使用的漢 符。4·不需規定檢索的格式,檢索字符可以是首字符、㈣字符或者尾字 4上所述,本發明可以使漢字的檢轉常易學、好用,不 18 1230341 更為簡便、快捷,上述的實施例對本發明作了更進一步的描述,但這並不 以此為限。 【圖式簡單說明】 第一圖:目前的漢字檢索方法流程示意圖 第二圖:本發明的漢字檢索方法流程示意圖 第三圖:本發明的漢字檢索方法的計算機程序流程圖 19

Claims (1)

  1. 拾、申請專利範圍: 1· -種採_碼_字檢索方法,其檢索步貌含: (1) 力σ載主要φ電腦及其輸人、輪丨設備彳減的漢字檢索軟體; (2) 遥擇字符集的類型; (3) 從该漢字檢索系統的輸入設備輸入檢索字; (4) 按檢索字的輸入順序和界定符生成〃檢索字符串; (5) 讀出被檢索的數據; (6) 對被檢索數據譯碼生成〃別稱字符串"; (7) 比較"檢索字符串’’和"別稱字符串"; (8) 作被檢索數據的邏輯運算和關系運算; (9) 檢查數據是否終了; (10) 進入下一個數據區; (11) 檢索完畢。 2.依申請專利範圍第1項所述之「採用譯碼的漢字檢索方法」,其中: 第(3)步驟的輸入檢索字的方法可以採用聲韻輸入法,即只取檢索字的 漢語拼音首字符,即可以是聲母,亦可以是韻母,其拼音和一般鍵盤 上的鍵在對應關係如下: 拼音 aoebpmfdtnlgkhjqxzcsrwy 鍵盤 @ 01 bpmf d t η 1 gkh j qxzcsrwy 其中:z、c、s 含 zh、ch、sh。 (當韻母a、o、e為首字母時,仍然使用a、〇、e鍵) 3·依申請專利範圍第1項所述之「採用譯碼的漢字檢索方法」,其中: 第(3)步驟的在輸入檢索字時可以同時輸入中外文和符號以及它們的 混合組合。 4·依申請專利範圍第1或2項所述之「採用譯碼的漢字檢索方法」,其 20 1230341 中: 第⑶步驟的輸人檢索字可祕闕_,碼的輸入方式。 5·依申請專利翻第丨項所述之「採用譯碼_字檢索綠」,宜中. 第⑸步驟的被檢索數據可以是,計算機文件目錄、文件名稱、文件内 谷和關鍵詞,報表和數據庫的表格數據,如人名、地名、單位名、貨 ^名、内容摘要等,含漢字或其他雙字節文字_路通信:纽,圖書'、 專利、文獻資料、電話號碼、海關關稅等標題,以及各種含漢字或立 ,雙字節文字的_電||和齡化縣巾齡的信息,_是光碟儲 存的大量節目信息。 6.依申請專利範圍第i項所述之「採用譯碼的漢字檢索方法」,盆中. 第⑹步驟帽碰索數據譯碼生成〃 _字符串"所軸"譯碼,,之且 體譯碼方法為可針對下列各種漢字、韓文、蒙文、維吾爾文字以及盆 f國家和民族制訂有計算機字符集的雙字節字符編碼集:gb 2312汴 i2345 子付_助集》、臺灣CNS 11643標準BIG 5大五碼、·脱職 的7子庫、GB 12〇52朝鮮文字、GB祕蒙古文字⑶維吾 =子’制翻於漢字祕,將雙字節字符編碼轉譯為漢字拼音首 字符。 7.依=專利範圍第i項所述之「_辆的漢字檢索方法」,其中: 漢字檢索方法P、和計算機__,和外碼無關 輪入法m浦人法力⑽、注音.^::^ 所述轉财糾可雜财㈣㈣㈣其轉譯 8_依申5胃專機圍第丨項所述之「採用譯碼的漢字檢索方法」,立中. 第⑹步驟的按譯碼法生成〃別稱字符串〃後可以儲存該〃別稱字符 1230341 xjj // 甲 Ο 9·依申請專利範圍第1項所述之「採用譯碼的漢字檢索方法」,其中· 第(6)步驟的譯碼法可以結合邏輯運算,最常用的是^。· 1Μ灰申請專利範圍第i項所述之「採用譯碼的漢字檢索方旬, 第(6)步驟的譯碼法可以對檢索字段要求〃全匹配〃、,,、,」&’、〃·, 中間字段匹配、"末字段匹配,,。 又匹配 11·依申請專娜圍第丨項所述之「_譯碼的漢字檢索方法」, 第(9)步驟可α在檢索完舰齡翻£卩諸 的部分以不同的顏色或字體表示出來,還可以作相 行程序。 職關數據的運算或執 4子付集的類型’是以能判斷字符集的類型 ^· 適應系統。 配疋個自動 ⑴===圍第i項所述之「採用譯碼的漢字檢 法〜索方法在執行檢索過財可以不必調用原中文平臺的漢字輸入 其中/ 14.依申請專利範圍第12項所述之「採用譯碼的漢字檢索方法 述的漢字檢索方法不包含@定和可擴制詞庫或池'/ ~ 其中/ 瓜依申請專利範圍第1〇項所述之「採用譯碼的漢 述的字航配〃可分為〃财随〃和序匹^ 16·依申請專利範圍第5項所述之「 Μ序匹配。 沾up 關#碼的漢字檢索方法」,龙中辦, 的漢子财減可細剌、柄輕料部 :中^ 子計算機或電腦化等設備,也可以轉化入職、_ 各類電器及電信設備。 _+導體材料用方 22
TW89104765A 2000-03-10 2000-03-10 Kanji searching method using codes TWI230341B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW89104765A TWI230341B (en) 2000-03-10 2000-03-10 Kanji searching method using codes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW89104765A TWI230341B (en) 2000-03-10 2000-03-10 Kanji searching method using codes

Publications (1)

Publication Number Publication Date
TWI230341B true TWI230341B (en) 2005-04-01

Family

ID=36083956

Family Applications (1)

Application Number Title Priority Date Filing Date
TW89104765A TWI230341B (en) 2000-03-10 2000-03-10 Kanji searching method using codes

Country Status (1)

Country Link
TW (1) TWI230341B (zh)

Similar Documents

Publication Publication Date Title
CN100594470C (zh) 用于对用户输入的多义性输入序列进行多义性消除的系统和方法
US6877003B2 (en) Efficient collation element structure for handling large numbers of characters
JP5501625B2 (ja) 不確定なテキスト入力から明確な文字をフィルタリングする装置及び方法
EP0294950B1 (en) A method of facilitating computer sorting
US20020165707A1 (en) Methods and apparatus for storing and processing natural language text data as a sequence of fixed length integers
US6067510A (en) Machine interpreter which stores and retrieves translated sentences based on variable and invariable sentence portions
Lu Computers and Chinese writing systems
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
TWI230341B (en) Kanji searching method using codes
CN104641367B (zh) 用于格式化电子字符序列的格式化模块、系统和方法
JP3532780B2 (ja) 音声仮名文字の入力順序を生成するための入力システム
CN1116647C (zh) 采用译码的汉字检索方法
KR100712001B1 (ko) 중국어 데이타 및 사용자에 의해 정정된 데이타를작성하고 사용하는 방법 및 시스템
CN101331483A (zh) 用于操纵数据文件的方法和设备
JP4004060B1 (ja) 文字検索方法
CN1466039A (zh) 可以进行中文和多种文字输入的电子遥控器
CN1269542A (zh) 联想汉字输入系统
JPH07114565A (ja) 電子辞書
Chaware et al. Information retrieval in multilingual environment
JPS6246029B2 (zh)
Kwok et al. Corpus-based pinyin name resolution
TW440778B (en) Query method for spelling codes of database
TW541472B (en) Word/vocabulary searching method for electronic dictionary
Oak et al. E-Granthalaya (Library Automation System)–Processing, Indexing and Retrieval of Information Using Language Component
TW201915775A (zh) 基於漢語含義的漢語編碼方法、軟體系統、儲存媒體和處理設備

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees