TW311997B - - Google Patents
Download PDFInfo
- Publication number
- TW311997B TW311997B TW84107070A TW84107070A TW311997B TW 311997 B TW311997 B TW 311997B TW 84107070 A TW84107070 A TW 84107070A TW 84107070 A TW84107070 A TW 84107070A TW 311997 B TW311997 B TW 311997B
- Authority
- TW
- Taiwan
- Prior art keywords
- language
- languages
- patent application
- search
- memory
- Prior art date
Links
Landscapes
- Character Discrimination (AREA)
Description
311997 A7 B7 經濟部中央標準局員工消費合作社印製 五、發明説明(/) 〔發明領域〕 本發明係關於自動辨識於其中數位資料被接收到之語 言的方法,特别是由一電腦系統之一終端機(t e rm i na1)所接收到之數位資料之自動辨識的方法。 本發明之一特定之應用領域係為自動辨識一語言,在 該語言中代表一將要被熟行之工作係藉著一顯示器裝置或 是藉著一列印装置,譬如像繪画機或是印表機,而被接收 到。 〔發明背景] 要藉著一繪圖機或是一 £卩_表機再生e p r o du ce)之資訊可M被譯解成為各式各樣之語言或是格式( format) ’此種語言或是格式係K傳輸自主機電腦 (host computer)之數位資料的形式存在 。被接收到的資料必須藉著一針對各別語言之特定譯解模 組(interpretat ion module)來 譯解或是解碼。譯解係用於將資料轉換(t r a rl s f ο 4 rmat i on)成為一形式,此形式可K被直接用於列 印’並且與所使用之語言無關,特別是一個位元應映影像 (bitmap image)之形式(亦即,一個完全 由點(dot)所描繪之影像)。 -4 - (請先閱讀背面之注意事項再填寫本頁) 丨裝. 訂 線 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 六、申請專利範圍 A8 B8 C8 D8 曰修孟 1 •一種自動辨識於其中數位資料被接收到之語言的 方法,該方法包括於被接收到的資料中選擇一資料區塊, 並且在該區塊中搜尋有肋於指出一語言存在或是不存在的 要素,其持徵在於:辨識之執行係藉由Μ —預先設定之次 序搜尋多數個已知之語言,Μ及藉由對每一語言進行,於 該資料區塊中,至少為一個之該語言之特徵要素之搜尋。 2 *如申請專利範圍第1項中所述之方法,其特徵在 於:該語言搜尋次序係依照辨識錯誤機率增加之次序來進 行。 3 ·如申請專利範圍第1或2項中所述之方法,其特 徵在於:搜尋係開始於搜尋具有一特殊標記之語言。 4 ·如申請專利範圍第3項中所述之方法,其特徵在 於:具有一特殊標記之語言係依照標記長度降低之次序進 行搜尋。 5 ·如申請專利範圍第3項中所述之方法,其特徵在 於:該搜尋於是繼續進行,搜尋具有特殊關鍵字或是同步 化字元之語言。 經濟部中央榇準局負工消費合作社印製 ---------^士衣-- (請先閲讀背面之注意事項再填寫本頁) 訂 6 ·如申請專利範園第3項中所述之方法,其特徵在 於:該搜尋接下來係Μ使用記憶符號之語言繼續進行搜尋 ,其中該等記憶符號ί系由已經決定數目之有效字元所構成 〇 7 ·如申請專利範圍第6項中所述之方法,其特徵在ί 於:為了在一群語言中自動辨識一 0語言,其中該群語言 本紙張尺度逍用中國國家梯準(CNS ) Α4规格(210 X 297公釐) 311997 A7 _______B7 五、發明説明(t ) 一給定之印表縣置可以接收Μ不同語言編碼而成之 數位資料。此係應用於當單一之使用者視將要被執行之工 作之不同而選擇使用不同之語言之時,或是當多數個使用 不同語吕之使用者透過一網路而利用一共用之印表機之時 。為了使得被接收到之資料可以被處理,必須選擇與被使 用之寫碼語言相對應之譯解模組。 數位資料流(data stream)係被假設成 由一糸列之繪圖檔(drawi ng f i 1 es)所構 成。每一個繪圖檔利用一個被定義於一個表單(1 i s t )中之語言。如果一繪圖檔未具有一明顯端(exPi i c i t end)的話,則不同的繪圖檔可以被區分,方 法是藉著檢測同步化之喪失或是碼之改變。如果一檔案中 含有錯誤的話,無論如何,其語言必須要能夠被正確地檢 測出,假使其中之錯誤數量尚靥合理的話。 使用上述的表單(1 i st)中的語言之檔案中,也 可以有文字檔(t extf i 1 es),它們並未使用語 言,在下文中它們將被稱之為”文字(texts) ” 。 經濟部中央標準局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁) 圖形可以藉著具有一特殊格式之文字而分開,此種特 殊格式在下文中將被稱之為一”旗號(banner) ” 格式。 一旗號因而被定義為所有之經過寫碼之數位資料(或 是字元),其中並未辨識出任何語言,而該語言係在一預 先定義之語言表(1 i st)中。 -5 - 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公漦) 經濟部中央標準局員工消費合作社印製 Α7 ,Β7 五、發明説明($ ) 經過確認之語言可以屬於各種不同之種類:具有標記 (s i gnature)之語言;具有關鍵字(keyw ord)或是同步化字元(synchor i zat i 〇 n character)之語言;使用記憶符號(mn emonics)之語言。 一記憶符號可K被視為一組具有預先設定大小,例如 ,具有兩涸有效字元(signigicant cha r a c t e r s)之長度之經過編碼之數位資料。 各種不同之方法已經被提出,來基於被接收到的資料 之至少一部分自動辨識一語言。在此處所使用之用語”自 動辨識”係指任何方法,不僅要避免任何藉著一使用者來 執行選擇於該列表機裝置上之實質介入的需要,也要避免 任何增加特別控制指令序列或是頭標(header)到 藉由一語言正常產生之資料中之需要。 一種已知的方法係在於使用所有譯解模組處理所接收 到的數位資料,然後保留產生最少錯誤之模組。此類型之 一種方法係描逑於文件EP— A — 0 5 5 6 059中 。雖然非常可靠,此種方法在大多數情形中均無法採用* 是因為其所需要的時間Μ及其必須儲存全部之所接收到的 貢料。 另一種已知的方法,係描述於文件US — Α — 5 2 93 466中,係在於開始時產生使用不同語言來編碼 之實料的樣本(s amp I e),然後K統計學的方法分 -6 - 本紙浪尺度適用中國國家揉準(CNS ) Α4規格(210Χ297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝. 、11 A7 311897 B7 五、發明説明(ψ) 析它們Κ推演出針對每一個語言之特徵(c h a !· a c t eristics),係M資料群的型式被儲存著。其後 >由該列印裝置所接收到的數位資料之起始部分係被節選 出來與該等被儲存之資料群相比較,於是在使用之語言被 從其中推演出。此一方法之困難係在於決定適當之特徵K 限制在辨識中之錯誤率。 我們也知道,從文件EP — A — 0 5 5 8 8 0 4 中,分析一個被接收到的資料區塊之語法(s yn t a X ),以及,對於每一個語言,在該資料區塊中加以識別” 支持(for) ”K及”否定(against) ”的關 鍵,將該等關鍵加以權重計算•然後再所得到的结果加總 起來,K在所有的語言中選擇出最適當的候選者。再次的 ,這是一種相當地冗長的方法,同時也再度會遭遇選擇該 等鼷鐽與選擇權重因數Μ使辨識中之錯_誤與不確定性減至 最小的難題。 ‘ 〔發明之目的與簡要說明〕 本發明的目的之一係為,使得自動語言辨識可以以一 種可靠且快速之方式來執行,但是卻僅使用所接收到的資 料之一部分。 為了達到此項目的,本發明係提供一種自動辨識於其 中數位資料被接收到之語言的方法,此方法包含選擇一資 -7- 本紙張尺度適用中國國家標準(CNS ) Α4規格(21 〇 X 297公釐) ---------- 裝-- (請先閲讀背面之注意事項再填寫本頁)
,1T 經濟部中央標準局員工消費合作社印製 A7 B7 經濟部中央標隼局員工消費合作社印裝 五、發明説明 ( ) 1 | 料 區 塊 於 所 接 收 到 的 資 料 中 9 同 時 在 該 區 塊 中 搜 尋 有 助 於 1 f 1 指 出 一 語 言 存 在 或 是 不 存 在 的 要 素 ( e 1 e m e η t ) 0 /«—V 1 1 依 昭 本 發 明 之 — 特 性 » 辨 識 之 執 行 係 藉 由 對 於 多 數 個 請 先 閱 1 I 已 知 的 語 —X— 依 照 一 預 先 設 定 之 次 序 進 行 搜 尋 * 並 且 對 每 背 1 1 Sj 1 一 涸 語 .V- 9 在 該 資 料 區 塊 中 進 行 至 少 該 語 - 之 一 個 要 素 特 冬 1 I t I 徵 之 一 項 搜 尋 〇 事 項 I I 最 好 該 語 —Χ-. 搜 尋 次 序 係 依 照 辨 識 錯 誤 機 率 增 加 之 次 填 行 因 寫 裝 序 來 進 〇 而 搜 尋 可 連 續 地 依 昭 下 列 之 次 序 來 進 行 頁 N_^ 1 : 先 是 對 具 有 — 特 定 標 記 之 語 進 行 搜 尋 依 照 標 記 長 度 1 1 降 低 之 次 序 再 是 對 包 括 特 定 關 鐽 字 或 是 同 步 話 字 元 之 語 1 1 進 行 搜 尋 然 後 再 對 使 用 記 憶 符 m 之 語 ,r.·» 進 行 搜 尋 0 1 訂 視 將 要 被 找 尋 之 語 的 類 型 之 不 同 最 好 使 用 不 同 長 1 度 之 資 料 區 塊 較 佳 其 中 該 等 資 料 區 塊 之 長 度 係 經 過 選 擇 1 1 9 以 將 辨 識 錯 誤 之 機 率 減 至 最 小 〇 1 1 在 本 發 明 之 一 特 定 之 實 施 例 中 其 係 被 配 置 成 用 來 從 U 線 一 群 使 用 記 憶 付 σ由 之 語 言 中 β 動 辨 識 出 個 語 —X™. 且 該 記 1 憶 付 號 係 由 預 先 設 定 數 巨 之 有 效 字 元 所 構 成 該 方 法 係 包 1 1 含 至 少 Η 下 之 各 個 步 驟 1 1 儲 存 鼷 於 該 群 語 言 之 記 憶 付 號 $ 包 括 屬 於 該 群 語 言 之 1 I 一 者 或 是 -- 部 分 語 言 之 區 別 性 記 憶 符 號 9 Η 及 不 靥 於 該 群 1 1 I 語 言 中 之 其 它 語 之 區 別 性 記 憶 符 5ίι , 1 1 將 該 等 被 儲 存 之 記 憶 符 a占 * 與 各 組 形 成 該 被 選 擇 之 區 塊 1 1 之 某 部 分 之 字 元 比 較 i 其 中 該 等 字 元 須 具 有 長 度 和 該 等 1 | - 8- 1 1 本紙張尺度適用中國國家標準 ( CNS ) A4規格(210X297公嫠〉 A7 311997 _B7 五、發明説明(A ) 被儲存之記憶符號之長度相同;κ及 在比較的步驟中,如果一組字元係被檢測出對應至一 區別性記憶符號的話,則該區別性記憶符號不靥於之該( 等)語言係被消除。 因而,該方法之一項特徵係在於•使用一準則(cr i ter i a)而使得在辨識程序的過程中排除一個或是 多個語言成為可能。 然而,此辨識程序亦包括有肯定的階段(pOS i t ί v e stage) 〇 因而,如果在比較步驟中,一組字元係被檢測出對應 至一記憶符號,且其中該記憶符號只屬於在該群語言中之 僅僅單一之語言中的話,則該軍一語言係被認為已經被辨 識出。 最好是,對於每一涸記憶符號屬於多數個在該群語言 中之語言並且通常其後跟随著,在一組經過編碼之資料中 ,預先設定數目之參數,而其中該等參數對於該等語言之 每一個係為特定的參數,與每一個語言之記憶符號相關連 的該等預先設定數目之參數係被儲存起來;Μ及 如果在比較步驟的過程中檢測出一組字元,同時該組 字元係對應至靥於該多數個在群語言中之語言,並且通常 後面有參數跟随著或是沒有參數跟随著的話,則在該資料 區塊中跟隨著該被檢測出之記憶符號的參數的數目係被計 數(count i ng),並且對於關連於各種不同語言 -9- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) ~~ (請先閲讀背面之注意事項再填寫本頁) -裝 訂 經濟部中央樣準局員工消費合作社印製 87 \1/ 7 /(V 明説 明發 相數 目 參 數之 的數· 數計 參過。 等經出 該與識 之目辨 存數被 儲的經 所數已 其參為 與之認 , 存被 號儲係 符所, 憶 於 ^目 計對語 該,之 之時等 個同相 一 , 目 每較數 之比的 經濟部中央標準局員工消費合作社印裝 ---------裝-- (請先閲讀背面之注意事項再填寫本頁) t 識有塊 辨被區 的個料 )一 資 e 第該 V 該 , i 從中 塊度 區長 該分 ο 在部 P 少 一 < 至的 定,始 肯認開 個確號 兩著符 之藉憶 述 K 記 所可之 上係出 W, 測 在中檢 形地 情效
S 來 號 符 憶 記 是 或 \ 0 及識 M辨 數之 參 ^15 之語 誤.} 錯m 為 r 言 i 語 f. 該 η 於 ο 封 C 有 ί 含實 未証 用中 該其 此法 藉方 , 碼 法解 方與 Wbx s 一 方 供識 提辨 為言 係語 的動 百 自 個之 一 料 另資 之的 明到 發收 本接 所 於 收 ί 接誤 所錯 組是 模或 解號 譯旗 之之 言 中 語料 之資 識之 辨到 過收 經接 該被 至該 應在 對為 一 因 由會 係不 料係 資 ’ 該到 選 動 自 種 1 在 β 性 特 之 。 步 礙 一 妨進 到更 受之 而明 現發 出本 之 照 } 依 t » 1 此 U 因 a f 中辨用 法動被 方自能 的,,可 碼塊個 解區數 之料多 料資從 資 一 , 位擇中 數選塊 之中區 到料料 收資資 接之該 被到在 於收著 用接藉 來被係 組從其 模 :, 解括 ^5 譯包語 一 係 一 擇,識 在語 存之 言識 語辨 定過 特經 一 該 出至 指應 於對 肋一 有擇 尋選 搜及 中M 言 , 語 , 之素 碼要 寫的 料在 資存 該不 為是 來或 處係 被後 K之 可出 且測 出檢 測被 檢誤 被錯 係法 號語 旗一 一 在 是 ^|日 或語 誤之 錯出 1 識 ’ 辨 組被 模該 解要 譯 只 的 , ^15理 在言 存語 係的 } 同 t 相 e 與 S處 f 之 f 始 ο 開 /IV 3K 移錯 偏法 一 語 且該 並於 , 介 同中 相流 言料 語資 之位 前數 先該 與於 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 訂 311997 A7 經濟部中央標準局員工消費合作杜印製 B7__五、發明説明(i7 ) 被再度辨識出之源頭(or i g i η)之間。錯誤與旗號 可Μ僅藉著將其忽略來處理;它們也可Κ選擇性地被列印 出或是被顯示出。 一個旗號也被檢測出且可Μ被處理,當該經過辨識之 語言在一語法錯誤被檢測出之後係不同於先前之語言,同 時一偏移係存在於該數位資料流中介於該語法錯誤開始之 處與該新的語言被辨識出之源頭之間,並且在確認其間沒 有任何語言之後。 〔圖示之簡要說明] 本發明藉著閲讀Μ下所述之說明*這些說明並非為本 發明之限制例,Κ及參考所附隨之圖示而更易於明白,其 中: 第一圖係為一自動辨識語言的方法之整體流程圖,在 該語言中藉著一繪圖機被接收到之數位資料係被編碼; 第二圖係為在第一圖中之方法之一個階段之一較詳细 之流程圖,係關於標記之搜尋; 第三匾係為在第一圖中之方法之一個階段之一較詳细 之流程圖,係關於關鍵字之搜尋; 第四圖係為在第一圖中之方法之一個階段之一較詳细 之流程圖,係關於CALCOMP語言之自動搜尋; 第五圖與第六圖係為在第一圖中之方法之一個階段之 -11- (請先閲讀背面之注意事項再填寫本頁) -裝. 訂 i 線 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 經濟部中央橾準局員工消費合作社印製 A7 B7_五、發明説明(气) 一較詳细之流程圖,係關於一個使用記憶符號之語言之自 動辨識; 第七圖與第八圖係為使用一自動語言辨識之方法之流 程圖,其係關於從藉著一繪圖機所接收到之數位資料中自 動檢測κ及移除錯誤與旗號之方法; 第九A圔至第九F圖顯示數位資料區塊之部分,顯示 用來自動檢測與消除錯誤與旗號之方法,特別是在第七圖 與第八圖中所顯示之錯誤與旗號;以及 第十圖係為一方塊圖,顯示由用於處理一個繪圖機所 接收到之數位資料之一單元(uni t),在該數位資料 中係具有用來繪圖之視圖。 〔較佳實施例詳细說明〕 下列之說明係藉著將本發明應用在關於被一個繪圖機 所接收到之數位資料之自動語言辨識與解碼而進行。對於 熟悉此技藝之人士而言,立即就可以明白相同之原理可以 藉由繪圖機K外之其它裝置而實行,特別是用於印表機, 同樣地,也可Μ用於周邊設備(per i phera 1 s ),該等周邊設備係從一主機電腦接收數位資料,或是從 一電腦網路,甚或是由單一之電腦(s i ng 1 e co mputer)處接收数位資料。 第十圖係為一方塊圖,顯示由用於接收與處理一個繪 -12- (請先聞讀背面之注意事項再填寫本頁) .裝 訂 4 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) 經濟部中央標準局員工消費合作社印製 A7 _B7___五、發明説明(〜) 圖機所接收到之數位資料Μ及用於代表要被再生之圖形資 訊之一單元(unit)。 進來的資料流係藉著一處理機模組1 〇所接收,該處 理機模組10係將資料處理以成為包含基本圖形要素(e 1 ementary graphics primit i v e)之一顯示列之形式:向量、多i形,K及由點( dot)所描繪之影像(即大家所知之”位元映圖(b i t m a p s ) ”)。 基本圖形要素係藉著一模組1 4轉換成一組點,係用 於描繪要被列印之影像。 一控制器1 6係將該處理器模組1 0連接至一中央單 元1 8,特別為了使該處理器模組1 0能夠被一個譯解模 組所控制,該譯解模組係為了其中被接收到之資料係被編 碼之語言而設置。 一顯示板(display pane 1 ) 12 係被 連接至該中央單元,同時其係,特別是,用來顯示現在被 辨識出之語言之名稱。在該中央單元中係可以有數個譯解 模組,同時適當之模組係被選擇,基於接收自一自動語言 辨識模組2 0之資料。該模組2 0係被連接至該中央單元 1 8並且接收到進來之資料之至少一部分。 K上所描述之架構(archi tecture)本 身即已為大家所熟知,因而無需再做更詳细的說明。 一自動語言辨識模組係被設置以從多數個已知之語言 -13- (請先閲讀背面之注意事項再填寫本頁) -裝·
、tT 级 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐)
經濟部中央標準局員工消費合作社印U 311997 A7 B7 五、發明説明(//) 中 識 別 ( i d e η t i f y ) 出 其 中 資 料 被 接 收 到 之 語 言 9 以 及 也 識 別 出 被 檢 测 之 語 X-. 開 始 之 位 置 0 在 圖 形 的 領 域 中 9 已 經 知 道 有 各 種 不 同 的 語 —X-. 被 使 用 著 ο 某 些 藉 著 向 量 來 定 義 一 條 要 被 繪 出 之 直 線 f 其 它 之 語 言 則 藉 由 點 來 定 義 要 被 繪 出 之 直 線 〇 某 些 要 被 再 生 之 責 訊 9 特 別 是 文 數 字 字 元 ( a 1 P h a η U m e Γ i C C h a r a C t e Γ ) 9 也 可 以 用 一 種 不 屬 於 刖 逑 兩 者 範 籌 任 — 者 之 特 殊 語 言 ( 文 字 ) 來 接 收 〇 下 列 係 為 向 量 語 v__ 的 例 子 : // Β G L ( B e η S 0 η G Γ a P h 1 C L a η s U a S e ) 係 K 本 受 諶 人 之 名 義 9 // Η P — G L // 與 // Η P — G L / 2 // ( Η e W 1 e t t Ρ a C k a Γ d G r a P h i C L a η S U a s e ) 屬 於 A m e Γ i C a η Η e W 1 e t t P a c k a Γ d 公 司 > // V D F // ( V a r i a b 1 e D a t a F 〇 Γ m a t ) 係 以 受 讓 人 之 名 義 ! ft C A L C 0 Μ Ρ 9 0 6 / 9 0 7 // 係 K 美 國 公 司 C a 1 c 〇 m P 之 名 義 >λ 及 tt P 〇 S t S C Γ i Ρ t 係 K A d ο b e S y s t e m 的 名 義 0 藉 由 點 來 定 義 直 線 之 語 _χ_. 的 例 子 ( 光 域 ( Γ a s t e r ) ” 語 言 ) 包 括 下 列 之 情 形 1 -14- (請先閲讀背面之注意事項再填寫本頁) 裝
*1T 本紙張尺度適用中國國家橾準(CNS ) Α4規格(210Χ:297公釐) A7 B7 五、發明説明(k) 經濟部中夬標準局員工消費合作社印製 // Η P R Τ L ✓/ ( G e W 1 e t t P a C k a Γ d R a S t e Γ T Γ a. η S f e Γ L a η g U a g e ) 係 A m e r 1 C a η Η e W 1 e t t Ρ a c k a r d 公 司 之 名 義 9 η C A L S // ( C 〇 m Ρ U t e Γ — a 1 d e d A C Q U i S i t 1 〇 η a η d L ο g i s t i c S u P P 〇 r t ) > ft T I F F // ( Τ a g g e d I m a g e F i 1 e F 0 r m a t ) 係 K A 1 d u s 之 名 義 K 及 // C C R F // ( C a 1 c ο m Ρ R a s t e r F ο Γ m a t ) 美 國 公 司 C a 1 c 0 m Ρ 之 名 義 0 在 其 它 語 言 中 9 除 了 文 字 外 > 包 括 下 列 之 語 言 // 〇 G R C F // ( O c e G Γ a Ρ h i C s R e m 〇 t e C ο η t Γ o 1 F o Γ m a t ) 係 >λ 受 譲 人 之 名 義 t 其 係 可 用 作 為 . 控 制 語 —y. » 特 別 是 用 於 建 立 繪 圖 m 之 組 態 0 g 動 語 言 辨 識 係 用 來 檢 查 ( e X a m i η e ) 一 部 分 被 接 收 到 之 數 位 資 料 並 且 在 該 等 資 料 中 搜 尋 一 種 言 出 現 或 是 不 存 在 之 特 徵 要 素 〇 該 經 過 檢 査 之 部 分 係 為 一 位 於 被 接 收 到 之 資 料 流 之 開 端 處 之 可 變 長 度 之 塊 0 該 等 一 種 語 言 出 現 或 是 不 存 在 之 特 徵 要 素 係 可 為 不 同 之 種 類 端 視 語 言 之 種 類 而 定 〇 . 有 語 言 使 用 __. 標 記 9 亦 即 > 一 預 先 設 定 的 且 為 不 變 -15- (請先閲讀背面之注意事項再填寫本頁) ‘裝- 本紙張尺度適用中國國家梯準(CNS ) A4規格(210X297公釐) 經濟部中央標準局員工消費合作社印製 311997 AV. B7 — I— M.M.—i.—,五、發明説明{A ) 的字元組,其係可M再一頭標,亦即在經由此等語言所寫 碼之該等資料組的開始處,中找到。經由檢査來在資料區 塊中檢測一標記使得直接辨識相對應之語言成為可能。 在上文所述之語言中,表一指出那些具有此種標記之 語言,Μ及它們的標記。 表一 語言 標記 w C A L S " s r c d o c i d : "C C R F " &&&&CALC0MP DEVICE CONTROL * CCRFO "0 G R C F " B E GMF "PostScript" 96 \ P S (1) TIFF I I^<N U L > o r MM<NU L>^ 〃 VDF〃 —~ (1) 不一定出現;<NUL> = ASC I I之空字元。 其它語言使用關鍵字或是具有特殊字元。因而,對於 # CALCOMP 〃來說,其有用之資料流係開語於一個 或是多個同步化字元,視該繪圖機之組態而定。P〇s t -1 6- 本紙張尺度適用中國國家梯準(CNS ) A4規格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁) 311997 A7 B7_ 五、發明説明(/斗)
Sc r i p t使用許多的闞鍵字。辨識於是可K藉由在該 受到檢査之資料區塊中搜尋翮鐽字或是同步化字元而執行 0 在其它既未使用標記又不使用關鐽字之語言中,"B G L # 、" Η P — G L " ,Κ 及"Η Ρ - G L / 2 "係使 用記憶符號,亦即,被寫碼為一預先設定長度之數位資料 組,該長度譬如說是具有兩個有效字元之長度。 在一群使用記憶符號之語言中,可能會遭遇下列數種 情況: 其中存在有區別性(d i scr imi nat i ng )記憶符號,此區別用記憶符號至少係在該等語言中之一 者中不存在; 其中存在有決定性(det erm i n i ng)記憶 符號,此決定性記憶符號僅僅存在於一種語言中; 其中存在有共通性(common)記憶符號,此共 通性記憶符號存在於許多種語言中。 在第一種情形中,在受到檢查之資料區塊中檢測一區 別性記憶符號係用來排除一種或是多種語言,藉K限制搜 尋之範圍。 舉例而言(並非限制例),記憶符號D T係為一區別 性記億符號,因為其將"BGL 〃語言排除在外;記憶符 號CR係為一區別性記憶符號*因為其將"HP — GL〃 語言排除在外;Μ及,記憶符號A P係為一區別性記憶符 -17- 本紙張尺度適用中國國家標準(CNS ) A4規格(2丨OX 297公釐) ---------ί -裝------訂------iix (請先閲讀背面之注意事項再填寫本頁) 經濟部中央樣準局員工消費合作社印製 經濟部中央橾準局員工消費合作社印裂 A7 B7_五、發明説明(,ς) 號,因為其將〃 HP — GL/2"語言排除在外。 在第二種情形中,在受到檢査之資料區塊中檢測一決 定性記憶符號,係使得辨識其相對應之語言成為可能,在 其受到可能之確認(ver i f i cat i on)之後。 這種情形的例子(並非限制例)係包括記憶符號CH ,其係可用於決定〃 B G L 〃 ;記憶符號C V,其係可用 於決定〃 HP — GL〃 ;K及記憶符號CF,其係可用於 決定"HP - GL/2"。 在第三種情形中,為了要執行辨識,必須要檢査一些 額外的特徵。在該資料流中,一些記憶符號後面通常跟著 一預先設定數目之參數*或是後面通常並未跟著一預先設 定數目之參數。此數目可能隨著語言之不同而有不同,因 而構成了 一個此種額外之特徵。结果,當一共同性記憶符 號在此狀況下被檢測出之時,已經足Μ在受到檢査之資料 區塊中計數與其相關之跟在後面參數的數目,同時將計數 所得之參數的數目與在受到考慮之各種語言中所期望之參 數的數目相比較。 這種情形的例子(並非限制例)係包括記憶符號CA ,其係為"B G L 〃與"Η Ρ — G L "之共通性記憶符號 ,其中〃 BGL〃中通常出現的參數的數目為3 ,而〃 Η P — GL 〃中通常出現的參數的數目為1 ;記憶符號DV ,其係為"B G L 〃與〃 Η Ρ — G L / 2 "之共通性記憶 符號,其中〃 BGL〃中通常出現的參數的數目為1 *而 -1 8 - (請先閱讀背面之注意事項再填寫本頁) -裝. 訂 」 4 本紙張尺度適用中國國家揉準(CNS ) A4規格(210X 297公釐) 311997 經濟部中央樣準局員工消費合作社印製 A 7 B7五、發明説明(4 ) "HP — GL/2〃中通常出現的參數的數目為2。 自動語言辨識係被執行於在受到檢査之賁料區塊中, 藉著循序地搜尋各種不同之已知語言或是各種不同類型之 語言。 搜尋的次序係依照語言辨識錯誤機率增加之次序進行 〇 結果,最好是最先搜尋要被辨識之語言是否具有一標 記。如果標記僅有一或二個字元長的話,確認可以被執行 。實際上,該標記愈長則發生辨識錯誤之風險愈小。 此後,繼績在該等使用關鐽字或是同步化字元的語言 中搜尋可能較為合適。 最後,在合適之際,繼讀搜尋使用記憶符號的語言, 使用以上所逑之方法,譬如說。 此外,觀察視窗(observat i on win dow)之長度,亦即,受到檢査之資料區塊的長度,可 以視被尋找的語言之類型而改變。當搜尋之進行是基於找 尋一個通常可以在被接收到的資料流的開始處找到的標記 之時,則該視窗之長度係被選擇成較為短小,且其可K選 擇性地(但是不一定必要)較短小於搜尋使用闞鐽字或是 同步化字元這些不一定在該資料流之開始處之語言時所使 用的長度。因而,當搜尋使用記憶符號之語言時,搜尋視 窗的長度可以較長。因此*觀察視窗的長度可Μ隨著辨識 錯誤的機率之增加而遞增,亦即,視窗長度可以隨著搜尋 -19- 本紙張尺度適用中國國家標準(CNS ) A4g ( 21〇><297公釐) (請先閲讀背面之注意事項再填寫本頁) -裝· 訂 i 經濟部中央標準局員工消費合作社印裝 A7 B7____五、發明説明(β) 次序而增加。 κ下之表二顯示出對於各種不同語言之最小的觀察視 窗之長度。 表二 語言 觀察視窗長度(位元組) C A L S,,,” C C R F,,, 3 2 HP R T L,,,,,F I F F,, 3 2 CALCOMP”, 128 PostScript,,,”VDF” 128 OGRCF” 256 BGL,,,,,HP-GL,,, 10 2 4 HP-GL/2” 1024 (請先閱讀背面之注意事項再填寫本頁) -裝· 訂 本發明之利用以上所述原理之自動語言辨識方法之實 行現在係藉著參考第一圖至第六圖來當作一個例子說明。 辨識係被執行於一個資料區塊上,例如,一個丨〇 2 4位元長度之區塊,但是觀察視窗之長度係可視所尋找之 語言的類型而變化。 在辨識方法一開始之時(第一圖),搜尋起始於被選 擇資料區塊之源頭處,亦即,在位置x = 〇處(步驟1〇 〇),同時為繪圖機所使用之用於"CALC0MP "語 -20- 本紙張尺度適用中國國家榇準(CNS ) A4規格(210X297公釐) 311997 B7 經濟部中央標準局員工消費合作社印製 五、發明説明 //) 1 1 -V - 的 參 數 係 被 載 入 ( 步 驟 1 〇 2 ) 0 1 1 此 後 在 步 驟 1 0 4 中 對於 —' 語 言 之 標 記 的 搜 尋 係 1 I 請 1 I 被 執 行 從 具 有 最 長 的 標 記 之 語 開 始 ( 在 本 例 中 係 為 該 先 閱 1 I C C R F // 語 ) 0 對 於 所 有 具 有 標 記 之 語 9 此 項 讀 背 1 1 1 搜 尋 均 被 執 行 在 本 例 中 是 在 一 個 N 位 元 组 的 資 料 區 塊 上 之 注 | 意 I 亦 即 是 介 於 開 始 位 置 與 位 置 N — 1 之 間 其 中 該 Ν 可 举 項 1 I >1 等 於 2 5 6 舉 例 而 言 0 導 ά 寫 本 第 二 圖 顯 示 -* 介 於 位 置 0 與 位 置 N 一 1 之 間 之 標 記 搜 頁 V—^ 1 I 尋 階 段 之 詳 细 情 形 〇 1 I 在 此 階 段 開 始 時 搜 尋 起 始 於 所 選 擇 之 資 料 區 塊 的 源 1 1 頭 處 亦 即 位 置 X 0 處 ( 步 驟 2 0 0 ) 0 測 試 2 0 1 訂 2 係 被 執 行 決 定 是 否 現 在 所 觀 察 的 位 置 X 處 之 字 元 對 應 1 | 到 一 標 記 的 第 一 個 字 元 0 如 果 測 試 的 结 果 是 肯 定 ( Ρ 0 S 1 1 ί t ί V e ) 的 話 這 表 示 在 步 驟 2 0 6 中 已 經 找 到 一 種 1 1 語 、-- 同 時 此 方 法 係 移 至 第 —^- 圖 中 整 體 方 法 之 測 試 1 0 6 im 處 0 1 I 如 果 測 試 2 〇 2 或 是 2 〇 4 之 任 一 者 的 结 果 是 否 定 ( 1 1 η e g a t 1 V e ) 的 話 則 步 驟 2 0 3 係 被 執 行 其 係 1 1 用 來 增 加 位 置 X 其 後 一 測 試 2 0 5 係 被 執 行 Μ 決 定 是 否 1 | 结 果 所 得 之 位 置 X 較 大 於 或 是 等 於 該 數 字 N 〇 只 要 不 是 此 1 I 種 情 形 則 此 方 法 回 到 測 試 2 0 2 之 輸 入 〇 否 則 如 果 X 1 1 較 大 於 或 是 等 於 N 的 話 則 此 標 記 搜 尋 階 段 已 告 结 束 而 1 ! 程 序 則 回 到 第 —k 圖 之 流 程 ΓΒΠ 圖 中 之 測 試 1 0 6 處 0 1 1 - 21 - 1 1 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 經濟部中央樣準局員工消费合作社印製 A7 B7_ 五、發明説明(/1) 如果測試1 〇 6指示出一標記已經被找到了的話’則 其可Μ下命令结耒該語言辨識方法。 在一較特定之實施例中,當一個包含至少三個字元之 標記已經在測試1 ◦ 6處被檢測出之時*則相對應之語言 係被認為已經被辨識出,且該方法亦被结束。否則*如果 一個僅包含兩個字元之標記已經被檢測出的話,則相對應 之語言係被選擇出*但是最好是再進行確認*因為對於一 涸非常短的標記而言,發生辨識錯誤之機率較大。 藉著樣本(example),確認可Μ是尋找,在 該標記之上游處,一個屬於其它語言之指令(c omma nd)存在的可能,其中在該語言中可能會遇到一個與該 被檢測之標記同一之組態。對於"VDF〃語言,其係具 有兩個字元之標記,下列之表三中係列出其它語言之指令 ,其中之指令含有相同之標記。 表三 標記之語言 其它語言中可K找到標記之命令 ”VDF” PE,LB,BL, T X,! ( " B G L 〃指令), % (〃 OGRCF 〃指令)
” PostScript” LB*BL*BP-TX> ! > % ”CALCOMP” DT,SM -22- 本紙張尺度適用中國國家標隼(CNS ) A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝_ 訂 i A7 B7 經濟部中央樣準局員工消費合作社印製 五、發明説明(%) 如果沒有找到此種指令的話,則該標記係被認為是真 的,則相對於該被檢測之標記之語言的辯識可K被証實, 因而结束該辨識方法。 如果此種指令被找到的話,則該標記係被認為是假的 ,在資料區塊中現在的位置y係被取為源頭:x = y,同 時此方法係回到標記搜尋步驟1 04。 如果沒有發現標記的話(從測試10 6中得到否定之 輸出),則程序移至一關鍵字搜尋階段108*如第三圖 中之流程圖所顯示一般。搜尋起始於該資料區塊之源頭: x=〇 (步驟300),同時一關鍵字搜尋(步驟302 )偽被執行,從位置X至該區塊之第一個N位元組(從X 至N—1),其中N係等於256,譬如說。 在步驟3 0 2中搜尋一關鐽字於位置X處之後,該X 之值係被增加1(unity)(步驟302),同時一 測試304係被執行以決定是否該X之值大於N。如果是 的話*該關鍵字搜尋方法係被结束,同時方法回到至測試 1 1〇,以決定是否該"Pos tScr i Dt"語言已 經被辨識出。 如果測試304之结果是否定的話,一测試305係 被執行以決定是否一關鐽字已經被找到。如果答案是否定 的話,則該方法回到步驟3 0 2。否則,一關鐽字己經被 找到,於是該方法移至一新的階段來搜尋一關鍵字從位置 -2 3- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) .裝· 訂 經濟部中央標準局員工消費合作社印製 A7 ' B7 五、發明説明(>丨) X,於步驟306處,同時X被增加1於步驟307,在 其執行步驟3 0 8M決定是否該X之值大於數目N之前。 如果情形是這樣的話,該關鍵字搜尋方法係告结束, 而回到該測試1 1 0。否則,如果測試3 0 8之結果是否 定的話,則測試3 0 9係被執行K決定是否一關鐽字已經 被找到。如果答案是否定的話,則該方法繼續步驟3 0 6 。否則,一翮鐽字已經被找到,於是一指示係被給出於步 驟310中’來指出該P〇stScr i pt語言係已經 被找到於位置X — 1 ,同時該關鐽字搜尋以及該P 0 s t S c r i p t語言之辨識方法已經结束,藉著回到第一圖 中之流程圖的步驟1 1 〇。 可K發現到,當一關鍵字被找到於測試3 ◦ 5中之時 ’在嵊於之資料區塊中搜尋另一個關鍵字或是相同之關鍵 字(步驟306至步驟309),使得其可以確認Μ及証 實語言之辨識’如果一些其它之關鐽字或是相同之關鍵字 被檢測出於步驟3 0 9中的話。 如果在第一圖中之測試1 10之结果,其係用來決定 是否一 字語言譬如像P〇 s t Sc r i p t已經被檢 濁!出•給出一肯定的结果的話,則該語言辨識方法係被结 束。· 否則’如果測試丄1 〇給出一否定的结果的話,則該 方法移至該同步化字元搜尋階段i 1 2,在本例中,此係 意味著搜尋"CALC0MP"語言。 本紙張尺度逋用中國國家揉準(CNS ) A4規格(2.10X297公釐) (請先閲讀背面之注意事項再填寫本頁) -裝· 訂 311997 A7 B7 五、發明説明(#) 用於搜尋具有一同步化字元之語言,譬如像是"CA LCOMP"語言,之方法係顯示於第四圖之流程圖中。 (請先閲讀背面之注意事項再填寫本頁) 在該方法之起始,一個指標y係被初始化(i n i t i a 1 i ze)至零(步驟400) ,同時一"新參數〃 旗號係被初始化為偽(步驟401)。 於是作出一要求(request.)在步驟402中 ,對於"CALC 0ΜΡ 〃參數第y號,同時一測試係被 執行以決定是否一同步化字元已經被找到於0至N的範園 中。如果此結果是否定的話,該y之值係被增加1 (步驟 404),同時一測試係被執行以決定〃CALC0MP "第y號參數是否存在。如果是的話,該方法回到至步驟 402。否則,該方法係结束且移至第一圖中之測試4 1 1 ,意味著對於系統已經知道的各種不同組之"C A L C 0ΜΡ〃參數並未找到同步化字元。 經濟部中央橾準局員工消費合作社印製 如果測試4 0 3之结果在位置p是肯定的,則一測試 4 0 6係被執行Μ決定是否所使用之組態為一新的組態。 如果不是的話,參數Β係被指出為一通常性偏差(usu a 1 bias)(步驟408),其中該偏差在此情形 中係為介於該同步化字元與有用的訊息之間的偏移(o f f s e t )。否則,該組態係為新的,因此該參數B係被 給定為用於此組態之偏差(步驟407)。 在步驟407與步驟408之後,一測試409係被 執行以決定是否字元p + 1等於Β。如果是的話,一測試 本纸張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) 經濟部中央樣準局員工消費合作社印策 A 7 B7_ 五、發明説明(4) 4 1 0係被執行K決定是否該字元P+ 1小於1 27。如 果不是的話,此方法结束並且回到測試1 1 4。如果额(試 4 1 0之结果是肯定的話,則在測試4 1 1中,可以指出 B係等於字元p+1,同時,如同當测試409之結果是 肯定之時一般,接下來的測試係由測試4 1 2所構成,其 中係決定是否字元p + 2較大於或是等於B。如果是的話 ’則該方法结束,同是接下來的步驟是測試1 1 4。如果 測試4 1 2之结果是肯定的話,則該方法繼.壤M —測試4 1 3來決定是否該同步化字元之數目等於ικ及是否p較 大於3。 · 如果測試4 1 3的结果是否定的話,則該方法繼鑕於 步驟4 1 5處,藉著將現有的組態更新,同時該偏差係被 更新,然後在步驟4 1 6中,可Μ指出該"CALC0M Ρ"語言已經被找到,同時該方法係结束,藉著移至測試 1 1 4 〇 如果测試4 1 3之结果是肯定的話,則確認將被執行 ’從該同步化字元之上游處,Μ瞧瞧是否能找到一個靥於 某一其它語言之指令,其亦使用該同步化字元。對於"C ALC0MP 〃而言,此種屬於另一種語言之指令可能是 DT或是SM。因此,一測試4 1 4係被執行以決定是否 字元Ρ—2等於* Μ’ 。如果測試414之結果是肯定的 話’則該方法直接跳至測試1 4 4。否則,如果測試4 1 4之结果是否定的話,則該方法跳至上述的步驟4 1 5。 _ 2 6 _ 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) ‘裝- 訂 經濟部中央橾準局員工消費合作社印製 A7 B7_._ 五、發明説明(外) 第—圖之測試114係用來決定是否一同步化字元語 言CALCOMP")已經被辨識出。如果此结果是 肯定的話,則該辨識方法係被结束。否則,亦即,如果沒 有同步化字元被檢測出的話,則該方法進行至一記憶符號 語言搜尋步驟1 1 6,此步驟1 1 6係被執行於範圍在0 至N — 1之間的位置。 此方法116係被詳细地描述於第五圖與第六圖中。 在一起始步驟500中,對應至要被辨識之語言數目 A之值n係被決定,同時該位置X係被起始化至零。 在一用於搜尋記憶符號Μ之步驟5 0 1中,與各別語 言相闞之一參數之值係被起始化至零。測試50 1 B i s 係在於決定是否La仍然為可辨織(並非稍早由記憶符號 語言所決定)。如果答案是肯定的話,對於語言Lc(之記 憶符號Μ之搜尋於是被進行於步驟5 0 2中,其詳细的流 程圖係被繪於第六圖中。否則(測試50 1 B i s的答案 是否定的),此方法係移至步驟503。 在步驟5 0 2中,其係有關對於一給定之語言L之記 憶符號Μ之搜尋,該方法起始於一測試6 0 1 ,係用於決 定是否Μ係為一備註(comment)或是標截(1 a bel)之開頭。如果是的話,在一步驟602中係指出 Μ為一標簸或是一備註,同時此方法直接移至第五圖中之 測試505。如果測試60 1之结果是否定的話,該方法 進行至一測試6 0 3 Κ決定是否該記憶符號Μ靥於正在考 -2 7- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) (讀先閲讀背面之注意事項再填寫本頁) -裝』 、1Τ j 經濟部中央標準局員工消費合作社印裝 A7 ' ____ B7 五、發明説明(豸) ®中之語言L。如果不是如此的話* (一個區別性記憶符 號),則在一步驟604中係指出該正在考盧中之記憶符 號Μ並非屬於該正在考慮中之語言,該語言於是被消除, 同時方法直接移至.第五圖之步驟505。 如果測試6 0 3之结果是肯定的話,則該方法移至一 測試6 0 5Μ檢査是否該該記憶符號Μ對於語言L係為一 決定性記憶符號。如果是的話,則步驟6 1 0顯示出該記 憶符號Μ決定語言L,同時該方法移至第五圖之測試5 0 5 〇 如果測試605之結果是否定的話,則測試606決 定是否必須參數的數目。如果測試6 0 6之结果是否定的 話,則測試6 07係指出由該記憶符號Μ無法決定任何語 言,同時該方法係移至第五圖之测試5 0 5。 如果測試6 0 6之结果是肯定的話,則該方法移至參 數計數步驟6 0 8,然後移至測試6 0 9,用來決定是否 該等被計數之參數係為正在考慮中的語言L之特徵。如果 是這樣的話,該方法移至步驟6 1 0,顯示出該記憶符號 決定語言L。否則*方法移至步驟60 7 *顯示出由該記 憶符號Μ無法決定任何語言。 請再次參考第五圖,測試5 0 5係用來決定是否語言 La已經被濟除於步驟502中(第六圖之流程圖)。如 果答案是肯定的,則在一步驟506中,η係被減少1並 且指出語言L a已經被消除。該方法於是進行至步驟5 0 3 -2 8 - 本紙張尺度適用中國國家橾隼(CNS ) A4規格(210 X 297公釐) (請先閲讀背面之注意事項再填寫本頁) -裝 訂 經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(4) ,在其中α係被增加1 ,然後至步驟504,其係用來決 定是否α較大於或是等於Α。如果不是的話,該方法回到 步驟502。否則,方法係移至步驟515,其中位置X 係被增加1 ,然後测試5 1 6係被執行,用來決定是否X 較大於或是等於N。如果不是的話,方法係移至測試5 1 7 ,用來決定是否η為零。如果不是的話,該方法回到步驟 50 1 ,否則方法係移至步驟5 1 8,其中係指出該語言 並未找到,同時該方法於是回到第一圖中之·測試1 1 8。 如果測試5 1 6之结果是肯定的話,則該方法回到測 試5 1 9 *其中係用來決定是否η= 1。如果是答案肯定 的話,則該方法移至步驟520,其中指出一語言已經被 找到,然後方法係移至測試1 1 8。 如果測試5 1 9之结果是否定的話,則方法係移至測 試521 ,其中係用來決定是否其留存(rema i η) 有一種語言譬如像〃 HP — GL"或是"HP — GL/2 〃。如果答案是肯定的話,則方法係移至步驟522,指 出該語言係為"Η P — G L "(否則Η Ρ — G L / 2 " 將非常可能已經被確認出),然後方法係移至步驟5 2 0 ’指出一語言已經被找到。否則方法係移至步驟5 1 8, 指出並未找到任何語言。 如果在測試5 0 5中發規語言L cx尚未被消除的話, 貝(1方法係移至測試507,其中係檢査是否語言La已經 被決定。如果答案是肯定的話,則確認係被執行(步驟 -29- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝· 訂 經濟部中央標準局員工消費合作社印製 311997 at B7 __ 五、發明説明(4) 5〇8),接下來是一測試509 *用來決定是否該確認 係為结論性的(cone 1 us i ve)。如果回答為否 定的話,方法係移至步驟503。否則,如果回答是肯定 的話,方法係移至步驟5 1 〇 *係指出該語言L α已經被 檢測於X處,然後方法係移至第一圖中之步驟1 1 8 °步 驟5 0 8之確認可用來檢査跟隨著該被檢測之記憶符號之 後的一個預先設定數目之字元,且用來査驗(c h e c k )是否它們對應至記憶符號或是對應至該語言Let之指令 0 如果測試5 0 7之结果是否定的話,則方法係移至測 試5 1 1 ,用來決定是否該記憶符號Μ靥於該語言L α。 如果答案是否定的話,則方法係移至步驟5 0 3。如果答 案是肯定的話,則方法係移至步驟5 1 2,用來決定是否 一個標籤或是一個備註已經被找到。如果答案是肯定的話 ,則方法係移至步驟5 1 3,將X定位於該標蕺或是備註 之末端,然後方法係移至步驟503。 如果測試5 1 2之结果是否定的話,則方法係移至步 驟5 1 4,係指出該記憶符號Μ存在*但是無法用來決定 任何事情,在此之後方法係繼讀以上所逑之步驟5 1 5。 一個由繪圖機所接收到的資料流可能包括錯誤與旗號 ,其對於列印之執行沒有意義。錯誤可能係為使用指令產 生器之故*這些指令產生器與某些語言之標準編排不相容 ,並且產生錯誤之指令或是不完整之指令。瑄些指令必須 本紙張尺度適用中國國家橾準(CNS ) Α4規格(2丨0>:297公釐) (請先閱讀背面之注意事項再填寫本頁) 裝' '1Τ A7 B7 經濟部中央標準局員工消費合作社印装 五、發明説明 ;Φ 1 I 被 忽 略 掉 〇 旗 係 為 可 由 電 腦 系 統 所 發 送 出 之 資 料 特 別 1 1 1 是 在 一 個 網 路 中 但 是 其 與 要 繪 之 画 沒 有 關 係 0 此 等 旗 號 /--S 1 I 必 須 被 檢 測 出 來 消 除 掉 ) 因 為 若 非 如 此 的 話 9 解 碼 器 將 產 請 先 1 1 閱 | 生 語 法 錯 誤 於 它 們 之 整 個 長 度 之 大 部 分 或 是 小 部 分 中 或 讀 背 | 面 1 是 語 可 能 因 此 而 被 辨 識 錯 誤 〇 之 注 1 I 意 1 I 白 動 語 -jfc-. 辨 識 方 法 可 用 於 檢 測 與消 除 旗 號 與 錯 誤 0 事 項 1 I —. 個 旗 係 顯 示 於 第 七 圖 與 第 八 随 画 中 0 再 填 1 在 使 用 一 個 譯 解 模 組 來 將 資 料 解 碼 之 際 1 且 該 譯 解 楔 寫 本 頁 裝 1 姐 係 相 對 應 於 個 先 刖 已 經 被 辨 識 出 之 語 言 L 1 當 一 個 1 1 語 法 錯 誤 被 檢 測 出 之 時 可 K 開 始 第 t nai 圓 中 所 給 的 流 程 圖 1 | 中 之 方 法 〇 1 訂 假 設 當 __1 語 法 錯 誤 係 被 檢 測 出 且 資 料 流 之 位 置 已 1 I 經 到 達 一 位 置 P 1 同 時 該 錯 誤 的 源 頭 將 會 被 找 到 於 一 位 1 1 置 Ρ 0 係 由 該 解 碼 迴 路 所 決 定 ( 起 始 步 驟 7 0 0 ) 〇 1 1 介 於 這 些 位 置 間 之 偏 移 係 為 d 1 — P 1 _ P 0 〇 JL 知4、 為 回 g*g 懕 檢 測 一 語 法 錯 誤 譯 解 該 語 L 1 之 方 法 係 被 1 I 插 斷 ( 步 驟 7 0 2 ) 同 時 一 個 自 動 語 言 辨 識 方 法 係 被 啟 1 1 動 (步 驟 7 0 ) 9 其 係 藉 著 參 考 譬如 像 是 第 八 圖 之 1 1 流 程 圖 來 加 以 說 明 0 1 | 第 八 圖 之 流 程 圖 係 關 於 一 過 程 8 0 〇 t 用 來 白 動 辨 m 1 I 在 一 個 具 有 N 個 字 元 ( 介 於 位 置 P 0 與 N — 1 之 間) 之 區 1 1 塊 中 之 語 言 〇 1 1 在 一 起 始 步 驟 8 0 3 中 該 參 數 P 2 係 被 給 定 N 之 值 1 1 - 31 - 1 1 本紙張尺度逋用中國國家標準(CNS ) A4規格(21〇Χ:297公釐) A7 311997 _B7_ 五、發明説明(纠) ,同時先前的語言係劈定義為未知。 其後*該方法係進行至步驟8.0 4,以在介於位置p 0與p 2— 1之間搜尋一語言。此搜尋可以使用定義於第 一圖Μ及第二至第六圖中之該等方法來執行。 其後,一測試806使得決定是否一語言L已經被辨 識出於一位置ρ處。 如果答案是肯定的話則步驟8 0 8係指出是否該舊的 語言與該語言L相同,Μ及是否參數ρ 2之值與該位置ρ 相等。 其後,一測試809係被執行,用來決定是否ρ 2之 值為零。如果不是的話*該方法回到步驟804,同時該 語言係被找尋於介於Ρ〇與ρ2— 1之間。否則,如果ρ 2之值為零的話,則該方法係進行至步驟8 1 0,其中慑 指出該經過檢測之語言係為舊的語言,於位置ρ 2處。 該方法於是移至第t圖之測試7 1 0。 如果測試8 0 6之答案是否定的話,該方法係進行至 一測試8 0 7,用來決定是否該舊的語言係為未知。 如果不是的話,則方法係移至步驟8 1 0,其中係指出該 經過檢測之語言係為舊的語言,在位置ρ 2處,並且指出 一旗號係存在於介於位置ρ 0與位置ρ 2— 1之間,假設 ρ 2不為零的話。否則,如果測試8 0 7的答案是肯定的 話,方法係移至步驟8 1 3,其僅係指出存在一旗號介於 ρ 2與ρ 2 — 1之間,之後方法係移至步驟8 1 5K要求 -32- 本紙張尺度逋用中國國家梂準(CNS ) A4規格(210X:297公釐) (請先閲讀背面之注意事項再填寫本頁) -裝
、1T 經濟部中央標準局員工消費合作社印製 經濟部中夬揉準局員工消費合作杜印製 A7 ___ B7 _ 五、發明説明(3/7) (reQuest)另一個區塊,然後該方法回到步驟8 ◦4K搜尋一語言,在介於p〇與P2—1之間。 藉著參考第七圖,測試7 1 0係用來決定是否該先前 處理過的語言L1係相等於在步驟704中所找到的語言 L2 ’該步驟704係相當於第八圖中之流程圖。 如果測試710之結果是否定的話,則方法係移至步 驟7 1 1 ,其係用來不考應來自位置p 〇與d之資料而從 位置P處啟動該語言L 2之處理。 如果測試7 1 0之结果是肯定的話*方法係移至步驟 7 1 2,其係用來忽略介於p ◦與p之間的資料而繼纘處 理使用語言L1,從對應至p與pi中較小的一個之位置 處。 自動語言辨識方法之施行的一個例子*其中至少施行 第一圖至第八圖之流程圖之一部分,係藉著參考第九A圖 至第九F圖而加K說明。 自動語言辨識方法係被執行於一個開始於位置P 0的 資科區塊,舉例來說,一個1 0 24位元組的區塊。 如果該方法失敗了、其中沒有語言被辨識出來的話, 至少該資料區塊的前端部分係被消除,同時由該資料流中 接下來之位元組取出之適當數目之位元組構成區塊。例如 ,可能可Μ保持該起始區塊之一終端部分,其長度係不超 過1 2 8位元組。該自動語言辨識方法於是被重覆,係使 用一新的源頭位置ρ 〇 *當被增加從起始區塊被消除之位 -33- 本紙張尺度適用中國國家標準(CNS ) Α4見格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁) -裝. 、1Τ 經濟部中央橾準局員工消費合作社印製 A7 B7 五、發明説明(+丨) 元姐數目時。此狀況$能係因一個很長的旗號B之出現之 故,特別是一個較資料區塊為長的旗號出現之時,如第九 Α圖中所顯示一般。如同開始時執行於該區塊b1上之辨 識方法於是再度被執行於區塊b 2上。 如果一個語言L 2被辨識出來的話*則檢査是否該偏 移d2為零,該偏移d 2係為介於在該語言L2被辨識出 之位置p 2處與位置p 0之間之偏移。 如果d 2為零的話,則檢査是否該語言L 2係相同於 該語言L 1。如果是的話,並且如果該偏移d 1亦為零的
I 話,則該辨識方法係被重新開始,回到該處理過程被插斷 處之步驟。此係對應至一種情況:發生一個語言的變換( swi tch)於位置pO處而沒有任何旗號(第九B圖 ),並且在p0之後該語言L1並未被辨識出之情形。 另一方面,如果該偏移d 1並不為零,一個新的語言 L 1之辨識係被証實,同時該處理過程係重新開始,使用 語言L1,從位置pi處,亦即,在從該位置p〇處偏移 d 1位元组之後。此係為K下之情況:一錯誤F已經發生 於介於該位置pO與pi之間(第九C圖),並且該錯誤 係在重新開始處理過程之前被跳過。 當測試710指出該新辨識出來的語言L2係與該先 前的語言L 1不同之時,則處理程序係被重新開始,使用 語言L 2M及從位置ι> 0處。此係為Μ下之情況:已經發 生介於語言L 1與語言L2之間的變換了,但是確沒有一 -34- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁) 丨裝 、1Τ 311997 at Β7 五、發明説明(从) 旗號介於其間(第九D圖)。 當該偏移d2並非為零之時’可K確認是否出現在介 於位置p 0與P 2之間的該等字元係為該語言L 1之特徵 。如果不是的話,處理程序重新開始’係以語言L 2 .,從 位置p 2處*亦即,跳過位在介於位置D 〇與位置D 2之 間的d 2個位兀組。此係為以下之情況::在經過—'個錯誤 FM及一個旗號B之後’已經語言上已經發生了變換。 然而,如果該語言L 1之特徵係在位置p 2的上游找 到的話,使用該語言L 1之處理程序係從位置P 3處繼鑛 ,在該位置p 3之後這些自元係被找到,亦卽,在執行一 偏移d 3以跳過位在p 0至p 3範圍内的字元之後。此係 為Μ下之情況:在一個資料區塊的長度内,已經發生了一 個錯誤F、一個旗號Β,以及一個語言上的變換(第九F 圖)。在該錯誤已經被消除之後,該語言L1之處理程序 應該要繼續,直到一個語法錯誤指出該旗號Β之出現之後 ----1-----ί -批衣------、玎------^ ^ (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印装 -35- 本紙浪尺度適用中國國家標準(CNS ) Α4規格(210X297公釐)
Claims (1)
- D8 申請專利範圍 1 •一種自動辨識於其中數位資料被接收到之語言的 方法,該方法包括於被接收到的資料中選擇一資料區塊, 並且在該區塊中搜尋有肋於指出一語言存在或是不存在的 要素,其特徵在於:辨識之執行係藉由以一預先設定之次 序搜尋多數個已知之語言,Μ及藉由對每一語言進行,於 該資料區塊中,至少為一個之該語言之特徵要素之搜尋。 2 ·如申請專利範園第1項中所述之方法,其特徵在 於:該語言搜尋次序係依照辨.識錯誤機率增加之次序來進 行。 3 ·如申請專利範圍第1或2項中所述之方法,其特 徵在於:搜尋係開始於搜尋具有一特殊標記之語言。 4 *如申請專利範圍第3項中所述之方法,其特徵在 於:具有一特殊標記之語言係依照標記長度降低之次序進 行搜尋。 5 ·如申請專利範圍第3項中所述之方法,其特徵在 於:該搜尋於是繼續進行,搜尋具有特.殊關鍵字或是同步 化字元之語言。 經濟部中央標準局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁) 6 ♦如申請專利範圍第3項中所述之方法,其特徵在 於:該搜尋接下來係Κ使用記憶符號之語言繼續進行搜尋 ,其中該等記憶符號ί系由已經決定數目之有效字元所構成 7 ·如申請專利範圍第6項中所述之方法,其特徵在 於:為了在一群語言中自動辨識一個語言,其中該群語言 -1 - 本紙張尺度適用中國國家揉準(CNS ) Α4規格(210Χ297公釐) 311997 A8 B8 C8 D8 々、申請專利範園 係為數個使用由已經決定數目之有效字元所構成的計億符 (請先閲讀背面之注意事項再填寫本頁) 號之語言,此方法包含至少κ下之步驟: 儲存屬於該群語言之記憶符號1其中係包括屬於該群 語言之一者或是一部分語言之區別性記憶符號,Μ及不屬 於該群語言中之其它語言之區別性記憶符號; 將該等被儲存之記憶符號與各组形成該被選擇之區塊 之某部分之字元比較,其中該等字元須具有一長度和該等 被儲存之記憶符號之長度相同.;Κ及 \ 在比較的步驟中,如果一組字元係被檢測出對應至一 ,區別性記憶符號的話,則該區別性記憶符號不屬於之該( 等)語言係被消除。 . 8 ·如申請專利範圍第7項中所述之方法,其^特徵在 於:如果在比較步驟中,一組字元係被檢測出對應至一記 憶符號,且其中該記憶符號只屬於在該群語言中之僅僅單 一之語言中的話,則該單一語言係被認為已經被辨識出。 9,如申請專利範圍第8項中所述之方法,其特徵在 於: 經濟部中央標隼局員工消費合作社印製 對於每一個記憶符號屬於多數個在該群語言中之語言 並且通常其後跟隨著,在一組經過編碼之資料中,預先設 定數目之參數,而其中該等參數對於該等語言之每一涸係 為特定的參數,與每一個語言之記億符號相關連的該等預 先設定數目之參數係被儲存起來;以及 如果在比較步驟的過程中檢測出一組字元,同時該組 -2- 本紙張尺度適用中困國家樑準(CNS ) Α4規格(210X297公釐) 311997 π? C8 D8 六、申請專利範圍 宇元係對應至屬於該多數個在群語言中之語言,並且通常 後面有參數跟隨著或是沒有參數跟随著的話,則在該資料 區塊中跟隨著該被檢測出之記憶符號的參數的數目係被計 數,並且對於關連於各種不同語言之每一個之該計憶符號 ,與其所儲存之該等參數的數目相比較,同時,對於所儲 存之參數的數目與經過計數之參數的數目相等之語言,係 被認為已經被辨識出。 1 0 ·如申請專利範圍第.8項中所述之方法,其特徵 在於:被認為已經被辨識出之該語言,係可K藉著確認, 至少在該區塊從該第一個被有效地檢測出之記憶符號開始 的一部分長度中,該資料區塊未含有對於該語言為錯誤之 參數以及/或是記憶符號,來証實語言之辨識。 1 1 ·如申請專利範圍第1或2項中所述之方法,其 特徵在於:在其中執行語言存在的搜尋之實料區塊或是觀 察視窗的長度係可K變化的。 經濟部中央榇準局員工消費合作社印装 (請先閲讀背面之注意事項再填寫本頁) 1 2,如申請專利範圍第1 1項中.所述之方法,其特 徵在於:該觀察視窗的長度之變化係為用來進行搜尋之語 言類型的函數。 1 3 · —種自動選擇一個用來將被接收到的數位資料 解碼之譯解橫組之方法,此方法包含:從被接收到之資料 中選擇一實科區塊;自動辨識一語言,其係藉著在該實料 區塊中,從多數個可能被用來為該資料寫碼之語言中搜尋, 有肋於指出一持定語言存在或是不存在的要素,Μ及選擇 -3 - 本紙浪尺度適用中國國家梯準(CNS ) Α4規格(210X297公釐) 7 9 9 1 1 3 8888 ABCD 經濟部中央梯準局男工消費合作社印装 、申請專利範国 —對應至該經過辨識之語言的譯解器;此方法之特徵在於 :自動語言辨識之執行係使用申請專利範圍第1至4項中 任一項所述之方法。 1 4 · 一種自動選擇一個用來將被接收到的數位資料 解碼之譯解模組之方法,此方法包含:從被接收到之資料 中選擇一資料區塊;自動辨識一語言,其係藉著在該資料 區塊中’從多數個可能被用來為該資料寫碼之語言中搜尋 有助於指出一特定語言存在或.是不存在的要素,以及選擇 一對應至該經過辨識之語言的譯解器·,此方法之特徵在於 :當一語法錯誤係為該譯解模組被檢測出之時,解碼之進 行係被插斷,同時自動語言辨識方法係被重新開始於下列 步驟之至少一者: a )在被接收到的資料中檢測一錯誤之存在,並且處 理該錯誤; b )在被接收到的資料中檢測一旗號之存在,並且處 理該旗號;Μ及 .、 c )檢測在語言上之一變換,並且選擇對應至該新被 辨識出之語言之譯解模組。 1 5 ·如申請專利範圍第1 4項中所述之方法’其特" 徵在於··自動語言辨識之執行係使用申請專利範園第1至 1 2項中任一項所述之方法。 L 6 .如申請專利範圍第1 4或1 5項中所述之方法‘ ,其特徵在於:一錯誤或是一旗號係被檢測出且可以被處 一 .1 _ --------7 装-- (請先閲讀背面之注意事項再填寫本頁) >11- J A _ ΐ"紙張尺度速用中國國家棵丰(CNS ) Α4ϋ#· ( 210X297公釐) 311997 A8 B8 C8 D8六、申請專利範圍 理,只要是在一語法錯誤被檢測出之後被辨識出之語言係 與先前之語言相同,並且一偏移係存在於該數位資料流中 介於該語法錯誤開始之處與相同的語言被再度辨識出之源 頭之間。 1 7 ·如_申請專利範圍第1 4或1 5項中所述之方法 ,其特徵在於:一個旗號係被檢測出且可Μ被處理,只要 是該經過辨識之語言在一語法錯誤被檢測出之後係不同於 先前之語言,同時一膈移係存.在於該數位資料流中介於該 語法錯誤開始之處與該新的語言被辨識出之源頭之間,並 ,且在確認其間沒有任何語言之後。 1 8 ·如申請專利範圍第1 3至1 5項中任一項所述 之方法的使用,係為用於將一顯示器或列印裝置所接收到 之數位資料解碼。 --------~ 装-- (請先閲讀背面之注意事項再填寫本頁) 訂 J 經濟部中央捸準局員工消費合作社印装 本紙張尺度適用中國國家揉隼(CNS ) Α4規格(210X297公釐)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL9409801 | 1994-08-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW311997B true TW311997B (zh) | 1997-08-01 |
Family
ID=51566468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW84107070A TW311997B (zh) | 1994-08-08 | 1995-07-08 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TW311997B (zh) |
-
1995
- 1995-07-08 TW TW84107070A patent/TW311997B/zh not_active IP Right Cessation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7836399B2 (en) | Detection of lists in vector graphics documents | |
US5960113A (en) | Method of automatically recognizing a language in which digital data is received | |
JPH05307638A (ja) | ビットマップ・イメージ・ドキュメントのコード化データへの変換方法 | |
KR101143650B1 (ko) | 분석용 디스플레이 문서 준비 장치 | |
CN110147545B (zh) | 文本的结构化输出方法及系统、存储介质和计算机设备 | |
US7200811B1 (en) | Form processing apparatus, form processing method, recording medium and program | |
CN111160188A (zh) | 金融票据识别方法、装置、设备及存储介质 | |
CN110807194A (zh) | 一种webshell检测方法及装置 | |
CN115019314A (zh) | 一种商品价格识别方法、装置、设备及存储介质 | |
US7073122B1 (en) | Method and apparatus for extracting structured data from HTML pages | |
TW311997B (zh) | ||
US6470362B1 (en) | Extracting ordered list of words from documents comprising text and code fragments, without interpreting the code fragments | |
KR100336719B1 (ko) | 우편물 배달정보 생성 시스템 및 그 방법 | |
CN114254138A (zh) | 多媒体资源分类方法、装置、电子设备和存储介质 | |
WO2002021291A1 (en) | Method and apparatus for extracting structured data from html pages | |
CN108090392B (zh) | 基于通用识别功能进行业务处理的方法、系统及移动终端 | |
JPH07168913A (ja) | 文字認識システム | |
CN111753548A (zh) | 信息获取方法及装置、计算机存储介质、电子设备 | |
CN109784082A (zh) | 一种基于pdf文件的图文相关鲁棒隐写方法及系统 | |
KR100544375B1 (ko) | 문서파일로부터 명함정보를 추출하기 위한 장치와 방법,및 상기 방법을 기록한 기록매체 | |
CN112069311B (zh) | 一种文本提取方法、装置、设备及介质 | |
CN115840833A (zh) | 一种数据处理方法及装置 | |
JP3720405B2 (ja) | 領域識別装置及び方法 | |
KR101025227B1 (ko) | 배송분류정보를 생성하는 운송장 | |
WO2002095614A1 (fr) | Procede d'identification d'un systeme de code de type langage ou par caracteres |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |