TW311997B - - Google Patents

Download PDF

Info

Publication number
TW311997B
TW311997B TW84107070A TW84107070A TW311997B TW 311997 B TW311997 B TW 311997B TW 84107070 A TW84107070 A TW 84107070A TW 84107070 A TW84107070 A TW 84107070A TW 311997 B TW311997 B TW 311997B
Authority
TW
Taiwan
Prior art keywords
language
languages
patent application
search
memory
Prior art date
Application number
TW84107070A
Other languages
English (en)
Original Assignee
Oce Nederland Bv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oce Nederland Bv filed Critical Oce Nederland Bv
Application granted granted Critical
Publication of TW311997B publication Critical patent/TW311997B/zh

Links

Landscapes

  • Character Discrimination (AREA)

Description

311997 A7 B7 經濟部中央標準局員工消費合作社印製 五、發明説明(/) 〔發明領域〕 本發明係關於自動辨識於其中數位資料被接收到之語 言的方法,特别是由一電腦系統之一終端機(t e rm i na1)所接收到之數位資料之自動辨識的方法。 本發明之一特定之應用領域係為自動辨識一語言,在 該語言中代表一將要被熟行之工作係藉著一顯示器裝置或 是藉著一列印装置,譬如像繪画機或是印表機,而被接收 到。 〔發明背景] 要藉著一繪圖機或是一 £卩_表機再生e p r o du ce)之資訊可M被譯解成為各式各樣之語言或是格式( format) ’此種語言或是格式係K傳輸自主機電腦 (host computer)之數位資料的形式存在 。被接收到的資料必須藉著一針對各別語言之特定譯解模 組(interpretat ion module)來 譯解或是解碼。譯解係用於將資料轉換(t r a rl s f ο 4 rmat i on)成為一形式,此形式可K被直接用於列 印’並且與所使用之語言無關,特別是一個位元應映影像 (bitmap image)之形式(亦即,一個完全 由點(dot)所描繪之影像)。 -4 - (請先閱讀背面之注意事項再填寫本頁) 丨裝. 訂 線 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 六、申請專利範圍 A8 B8 C8 D8 曰修孟 1 •一種自動辨識於其中數位資料被接收到之語言的 方法,該方法包括於被接收到的資料中選擇一資料區塊, 並且在該區塊中搜尋有肋於指出一語言存在或是不存在的 要素,其持徵在於:辨識之執行係藉由Μ —預先設定之次 序搜尋多數個已知之語言,Μ及藉由對每一語言進行,於 該資料區塊中,至少為一個之該語言之特徵要素之搜尋。 2 *如申請專利範圍第1項中所述之方法,其特徵在 於:該語言搜尋次序係依照辨識錯誤機率增加之次序來進 行。 3 ·如申請專利範圍第1或2項中所述之方法,其特 徵在於:搜尋係開始於搜尋具有一特殊標記之語言。 4 ·如申請專利範圍第3項中所述之方法,其特徵在 於:具有一特殊標記之語言係依照標記長度降低之次序進 行搜尋。 5 ·如申請專利範圍第3項中所述之方法,其特徵在 於:該搜尋於是繼續進行,搜尋具有特殊關鍵字或是同步 化字元之語言。 經濟部中央榇準局負工消費合作社印製 ---------^士衣-- (請先閲讀背面之注意事項再填寫本頁) 訂 6 ·如申請專利範園第3項中所述之方法,其特徵在 於:該搜尋接下來係Μ使用記憶符號之語言繼續進行搜尋 ,其中該等記憶符號ί系由已經決定數目之有效字元所構成 〇 7 ·如申請專利範圍第6項中所述之方法,其特徵在ί 於:為了在一群語言中自動辨識一 0語言,其中該群語言 本紙張尺度逍用中國國家梯準(CNS ) Α4规格(210 X 297公釐) 311997 A7 _______B7 五、發明説明(t ) 一給定之印表縣置可以接收Μ不同語言編碼而成之 數位資料。此係應用於當單一之使用者視將要被執行之工 作之不同而選擇使用不同之語言之時,或是當多數個使用 不同語吕之使用者透過一網路而利用一共用之印表機之時 。為了使得被接收到之資料可以被處理,必須選擇與被使 用之寫碼語言相對應之譯解模組。 數位資料流(data stream)係被假設成 由一糸列之繪圖檔(drawi ng f i 1 es)所構 成。每一個繪圖檔利用一個被定義於一個表單(1 i s t )中之語言。如果一繪圖檔未具有一明顯端(exPi i c i t end)的話,則不同的繪圖檔可以被區分,方 法是藉著檢測同步化之喪失或是碼之改變。如果一檔案中 含有錯誤的話,無論如何,其語言必須要能夠被正確地檢 測出,假使其中之錯誤數量尚靥合理的話。 使用上述的表單(1 i st)中的語言之檔案中,也 可以有文字檔(t extf i 1 es),它們並未使用語 言,在下文中它們將被稱之為”文字(texts) ” 。 經濟部中央標準局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁) 圖形可以藉著具有一特殊格式之文字而分開,此種特 殊格式在下文中將被稱之為一”旗號(banner) ” 格式。 一旗號因而被定義為所有之經過寫碼之數位資料(或 是字元),其中並未辨識出任何語言,而該語言係在一預 先定義之語言表(1 i st)中。 -5 - 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公漦) 經濟部中央標準局員工消費合作社印製 Α7 ,Β7 五、發明説明($ ) 經過確認之語言可以屬於各種不同之種類:具有標記 (s i gnature)之語言;具有關鍵字(keyw ord)或是同步化字元(synchor i zat i 〇 n character)之語言;使用記憶符號(mn emonics)之語言。 一記憶符號可K被視為一組具有預先設定大小,例如 ,具有兩涸有效字元(signigicant cha r a c t e r s)之長度之經過編碼之數位資料。 各種不同之方法已經被提出,來基於被接收到的資料 之至少一部分自動辨識一語言。在此處所使用之用語”自 動辨識”係指任何方法,不僅要避免任何藉著一使用者來 執行選擇於該列表機裝置上之實質介入的需要,也要避免 任何增加特別控制指令序列或是頭標(header)到 藉由一語言正常產生之資料中之需要。 一種已知的方法係在於使用所有譯解模組處理所接收 到的數位資料,然後保留產生最少錯誤之模組。此類型之 一種方法係描逑於文件EP— A — 0 5 5 6 059中 。雖然非常可靠,此種方法在大多數情形中均無法採用* 是因為其所需要的時間Μ及其必須儲存全部之所接收到的 貢料。 另一種已知的方法,係描述於文件US — Α — 5 2 93 466中,係在於開始時產生使用不同語言來編碼 之實料的樣本(s amp I e),然後K統計學的方法分 -6 - 本紙浪尺度適用中國國家揉準(CNS ) Α4規格(210Χ297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝. 、11 A7 311897 B7 五、發明説明(ψ) 析它們Κ推演出針對每一個語言之特徵(c h a !· a c t eristics),係M資料群的型式被儲存著。其後 >由該列印裝置所接收到的數位資料之起始部分係被節選 出來與該等被儲存之資料群相比較,於是在使用之語言被 從其中推演出。此一方法之困難係在於決定適當之特徵K 限制在辨識中之錯誤率。 我們也知道,從文件EP — A — 0 5 5 8 8 0 4 中,分析一個被接收到的資料區塊之語法(s yn t a X ),以及,對於每一個語言,在該資料區塊中加以識別” 支持(for) ”K及”否定(against) ”的關 鍵,將該等關鍵加以權重計算•然後再所得到的结果加總 起來,K在所有的語言中選擇出最適當的候選者。再次的 ,這是一種相當地冗長的方法,同時也再度會遭遇選擇該 等鼷鐽與選擇權重因數Μ使辨識中之錯_誤與不確定性減至 最小的難題。 ‘ 〔發明之目的與簡要說明〕 本發明的目的之一係為,使得自動語言辨識可以以一 種可靠且快速之方式來執行,但是卻僅使用所接收到的資 料之一部分。 為了達到此項目的,本發明係提供一種自動辨識於其 中數位資料被接收到之語言的方法,此方法包含選擇一資 -7- 本紙張尺度適用中國國家標準(CNS ) Α4規格(21 〇 X 297公釐) ---------- 裝-- (請先閲讀背面之注意事項再填寫本頁)
,1T 經濟部中央標準局員工消費合作社印製 A7 B7 經濟部中央標隼局員工消費合作社印裝 五、發明説明 ( ) 1 | 料 區 塊 於 所 接 收 到 的 資 料 中 9 同 時 在 該 區 塊 中 搜 尋 有 助 於 1 f 1 指 出 一 語 言 存 在 或 是 不 存 在 的 要 素 ( e 1 e m e η t ) 0 /«—V 1 1 依 昭 本 發 明 之 — 特 性 » 辨 識 之 執 行 係 藉 由 對 於 多 數 個 請 先 閱 1 I 已 知 的 語 —X— 依 照 一 預 先 設 定 之 次 序 進 行 搜 尋 * 並 且 對 每 背 1 1 Sj 1 一 涸 語 .V- 9 在 該 資 料 區 塊 中 進 行 至 少 該 語 - 之 一 個 要 素 特 冬 1 I t I 徵 之 一 項 搜 尋 〇 事 項 I I 最 好 該 語 —Χ-. 搜 尋 次 序 係 依 照 辨 識 錯 誤 機 率 增 加 之 次 填 行 因 寫 裝 序 來 進 〇 而 搜 尋 可 連 續 地 依 昭 下 列 之 次 序 來 進 行 頁 N_^ 1 : 先 是 對 具 有 — 特 定 標 記 之 語 進 行 搜 尋 依 照 標 記 長 度 1 1 降 低 之 次 序 再 是 對 包 括 特 定 關 鐽 字 或 是 同 步 話 字 元 之 語 1 1 進 行 搜 尋 然 後 再 對 使 用 記 憶 符 m 之 語 ,r.·» 進 行 搜 尋 0 1 訂 視 將 要 被 找 尋 之 語 的 類 型 之 不 同 最 好 使 用 不 同 長 1 度 之 資 料 區 塊 較 佳 其 中 該 等 資 料 區 塊 之 長 度 係 經 過 選 擇 1 1 9 以 將 辨 識 錯 誤 之 機 率 減 至 最 小 〇 1 1 在 本 發 明 之 一 特 定 之 實 施 例 中 其 係 被 配 置 成 用 來 從 U 線 一 群 使 用 記 憶 付 σ由 之 語 言 中 β 動 辨 識 出 個 語 —X™. 且 該 記 1 憶 付 號 係 由 預 先 設 定 數 巨 之 有 效 字 元 所 構 成 該 方 法 係 包 1 1 含 至 少 Η 下 之 各 個 步 驟 1 1 儲 存 鼷 於 該 群 語 言 之 記 憶 付 號 $ 包 括 屬 於 該 群 語 言 之 1 I 一 者 或 是 -- 部 分 語 言 之 區 別 性 記 憶 符 號 9 Η 及 不 靥 於 該 群 1 1 I 語 言 中 之 其 它 語 之 區 別 性 記 憶 符 5ίι , 1 1 將 該 等 被 儲 存 之 記 憶 符 a占 * 與 各 組 形 成 該 被 選 擇 之 區 塊 1 1 之 某 部 分 之 字 元 比 較 i 其 中 該 等 字 元 須 具 有 長 度 和 該 等 1 | - 8- 1 1 本紙張尺度適用中國國家標準 ( CNS ) A4規格(210X297公嫠〉 A7 311997 _B7 五、發明説明(A ) 被儲存之記憶符號之長度相同;κ及 在比較的步驟中,如果一組字元係被檢測出對應至一 區別性記憶符號的話,則該區別性記憶符號不靥於之該( 等)語言係被消除。 因而,該方法之一項特徵係在於•使用一準則(cr i ter i a)而使得在辨識程序的過程中排除一個或是 多個語言成為可能。 然而,此辨識程序亦包括有肯定的階段(pOS i t ί v e stage) 〇 因而,如果在比較步驟中,一組字元係被檢測出對應 至一記憶符號,且其中該記憶符號只屬於在該群語言中之 僅僅單一之語言中的話,則該軍一語言係被認為已經被辨 識出。 最好是,對於每一涸記憶符號屬於多數個在該群語言 中之語言並且通常其後跟随著,在一組經過編碼之資料中 ,預先設定數目之參數,而其中該等參數對於該等語言之 每一個係為特定的參數,與每一個語言之記憶符號相關連 的該等預先設定數目之參數係被儲存起來;Μ及 如果在比較步驟的過程中檢測出一組字元,同時該組 字元係對應至靥於該多數個在群語言中之語言,並且通常 後面有參數跟随著或是沒有參數跟随著的話,則在該資料 區塊中跟隨著該被檢測出之記憶符號的參數的數目係被計 數(count i ng),並且對於關連於各種不同語言 -9- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) ~~ (請先閲讀背面之注意事項再填寫本頁) -裝 訂 經濟部中央樣準局員工消費合作社印製 87 \1/ 7 /(V 明説 明發 相數 目 參 數之 的數· 數計 參過。 等經出 該與識 之目辨 存數被 儲的經 所數已 其參為 與之認 , 存被 號儲係 符所, 憶 於 ^目 計對語 該,之 之時等 個同相 一 , 目 每較數 之比的 經濟部中央標準局員工消費合作社印裝 ---------裝-- (請先閲讀背面之注意事項再填寫本頁) t 識有塊 辨被區 的個料 )一 資 e 第該 V 該 , i 從中 塊度 區長 該分 ο 在部 P 少 一 < 至的 定,始 肯認開 個確號 兩著符 之藉憶 述 K 記 所可之 上係出 W, 測 在中檢 形地 情效
S 來 號 符 憶 記 是 或 \ 0 及識 M辨 數之 參 ^15 之語 誤.} 錯m 為 r 言 i 語 f. 該 η 於 ο 封 C 有 ί 含實 未証 用中 該其 此法 藉方 , 碼 法解 方與 Wbx s 一 方 供識 提辨 為言 係語 的動 百 自 個之 一 料 另資 之的 明到 發收 本接 所 於 收 ί 接誤 所錯 組是 模或 解號 譯旗 之之 言 中 語料 之資 識之 辨到 過收 經接 該被 至該 應在 對為 一 因 由會 係不 料係 資 ’ 該到 選 動 自 種 1 在 β 性 特 之 。 步 礙 一 妨進 到更 受之 而明 現發 出本 之 照 } 依 t » 1 此 U 因 a f 中辨用 法動被 方自能 的,,可 碼塊個 解區數 之料多 料資從 資 一 , 位擇中 數選塊 之中區 到料料 收資資 接之該 被到在 於收著 用接藉 來被係 組從其 模 :, 解括 ^5 譯包語 一 係 一 擇,識 在語 存之 言識 語辨 定過 特經 一 該 出至 指應 於對 肋一 有擇 尋選 搜及 中M 言 , 語 , 之素 碼要 寫的 料在 資存 該不 為是 來或 處係 被後 K之 可出 且測 出檢 測被 檢誤 被錯 係法 號語 旗一 一 在 是 ^|日 或語 誤之 錯出 1 識 ’ 辨 組被 模該 解要 譯 只 的 , ^15理 在言 存語 係的 } 同 t 相 e 與 S處 f 之 f 始 ο 開 /IV 3K 移錯 偏法 一 語 且該 並於 , 介 同中 相流 言料 語資 之位 前數 先該 與於 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 訂 311997 A7 經濟部中央標準局員工消費合作杜印製 B7__五、發明説明(i7 ) 被再度辨識出之源頭(or i g i η)之間。錯誤與旗號 可Μ僅藉著將其忽略來處理;它們也可Κ選擇性地被列印 出或是被顯示出。 一個旗號也被檢測出且可Μ被處理,當該經過辨識之 語言在一語法錯誤被檢測出之後係不同於先前之語言,同 時一偏移係存在於該數位資料流中介於該語法錯誤開始之 處與該新的語言被辨識出之源頭之間,並且在確認其間沒 有任何語言之後。 〔圖示之簡要說明] 本發明藉著閲讀Μ下所述之說明*這些說明並非為本 發明之限制例,Κ及參考所附隨之圖示而更易於明白,其 中: 第一圖係為一自動辨識語言的方法之整體流程圖,在 該語言中藉著一繪圖機被接收到之數位資料係被編碼; 第二圖係為在第一圖中之方法之一個階段之一較詳细 之流程圖,係關於標記之搜尋; 第三匾係為在第一圖中之方法之一個階段之一較詳细 之流程圖,係關於關鍵字之搜尋; 第四圖係為在第一圖中之方法之一個階段之一較詳细 之流程圖,係關於CALCOMP語言之自動搜尋; 第五圖與第六圖係為在第一圖中之方法之一個階段之 -11- (請先閲讀背面之注意事項再填寫本頁) -裝. 訂 i 線 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 經濟部中央橾準局員工消費合作社印製 A7 B7_五、發明説明(气) 一較詳细之流程圖,係關於一個使用記憶符號之語言之自 動辨識; 第七圖與第八圖係為使用一自動語言辨識之方法之流 程圖,其係關於從藉著一繪圖機所接收到之數位資料中自 動檢測κ及移除錯誤與旗號之方法; 第九A圔至第九F圖顯示數位資料區塊之部分,顯示 用來自動檢測與消除錯誤與旗號之方法,特別是在第七圖 與第八圖中所顯示之錯誤與旗號;以及 第十圖係為一方塊圖,顯示由用於處理一個繪圖機所 接收到之數位資料之一單元(uni t),在該數位資料 中係具有用來繪圖之視圖。 〔較佳實施例詳细說明〕 下列之說明係藉著將本發明應用在關於被一個繪圖機 所接收到之數位資料之自動語言辨識與解碼而進行。對於 熟悉此技藝之人士而言,立即就可以明白相同之原理可以 藉由繪圖機K外之其它裝置而實行,特別是用於印表機, 同樣地,也可Μ用於周邊設備(per i phera 1 s ),該等周邊設備係從一主機電腦接收數位資料,或是從 一電腦網路,甚或是由單一之電腦(s i ng 1 e co mputer)處接收数位資料。 第十圖係為一方塊圖,顯示由用於接收與處理一個繪 -12- (請先聞讀背面之注意事項再填寫本頁) .裝 訂 4 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) 經濟部中央標準局員工消費合作社印製 A7 _B7___五、發明説明(〜) 圖機所接收到之數位資料Μ及用於代表要被再生之圖形資 訊之一單元(unit)。 進來的資料流係藉著一處理機模組1 〇所接收,該處 理機模組10係將資料處理以成為包含基本圖形要素(e 1 ementary graphics primit i v e)之一顯示列之形式:向量、多i形,K及由點( dot)所描繪之影像(即大家所知之”位元映圖(b i t m a p s ) ”)。 基本圖形要素係藉著一模組1 4轉換成一組點,係用 於描繪要被列印之影像。 一控制器1 6係將該處理器模組1 0連接至一中央單 元1 8,特別為了使該處理器模組1 0能夠被一個譯解模 組所控制,該譯解模組係為了其中被接收到之資料係被編 碼之語言而設置。 一顯示板(display pane 1 ) 12 係被 連接至該中央單元,同時其係,特別是,用來顯示現在被 辨識出之語言之名稱。在該中央單元中係可以有數個譯解 模組,同時適當之模組係被選擇,基於接收自一自動語言 辨識模組2 0之資料。該模組2 0係被連接至該中央單元 1 8並且接收到進來之資料之至少一部分。 K上所描述之架構(archi tecture)本 身即已為大家所熟知,因而無需再做更詳细的說明。 一自動語言辨識模組係被設置以從多數個已知之語言 -13- (請先閲讀背面之注意事項再填寫本頁) -裝·
、tT 级 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐)
經濟部中央標準局員工消費合作社印U 311997 A7 B7 五、發明説明(//) 中 識 別 ( i d e η t i f y ) 出 其 中 資 料 被 接 收 到 之 語 言 9 以 及 也 識 別 出 被 檢 测 之 語 X-. 開 始 之 位 置 0 在 圖 形 的 領 域 中 9 已 經 知 道 有 各 種 不 同 的 語 —X-. 被 使 用 著 ο 某 些 藉 著 向 量 來 定 義 一 條 要 被 繪 出 之 直 線 f 其 它 之 語 言 則 藉 由 點 來 定 義 要 被 繪 出 之 直 線 〇 某 些 要 被 再 生 之 責 訊 9 特 別 是 文 數 字 字 元 ( a 1 P h a η U m e Γ i C C h a r a C t e Γ ) 9 也 可 以 用 一 種 不 屬 於 刖 逑 兩 者 範 籌 任 — 者 之 特 殊 語 言 ( 文 字 ) 來 接 收 〇 下 列 係 為 向 量 語 v__ 的 例 子 : // Β G L ( B e η S 0 η G Γ a P h 1 C L a η s U a S e ) 係 K 本 受 諶 人 之 名 義 9 // Η P — G L // 與 // Η P — G L / 2 // ( Η e W 1 e t t Ρ a C k a Γ d G r a P h i C L a η S U a s e ) 屬 於 A m e Γ i C a η Η e W 1 e t t P a c k a Γ d 公 司 > // V D F // ( V a r i a b 1 e D a t a F 〇 Γ m a t ) 係 以 受 讓 人 之 名 義 ! ft C A L C 0 Μ Ρ 9 0 6 / 9 0 7 // 係 K 美 國 公 司 C a 1 c 〇 m P 之 名 義 >λ 及 tt P 〇 S t S C Γ i Ρ t 係 K A d ο b e S y s t e m 的 名 義 0 藉 由 點 來 定 義 直 線 之 語 _χ_. 的 例 子 ( 光 域 ( Γ a s t e r ) ” 語 言 ) 包 括 下 列 之 情 形 1 -14- (請先閲讀背面之注意事項再填寫本頁) 裝
*1T 本紙張尺度適用中國國家橾準(CNS ) Α4規格(210Χ:297公釐) A7 B7 五、發明説明(k) 經濟部中夬標準局員工消費合作社印製 // Η P R Τ L ✓/ ( G e W 1 e t t P a C k a Γ d R a S t e Γ T Γ a. η S f e Γ L a η g U a g e ) 係 A m e r 1 C a η Η e W 1 e t t Ρ a c k a r d 公 司 之 名 義 9 η C A L S // ( C 〇 m Ρ U t e Γ — a 1 d e d A C Q U i S i t 1 〇 η a η d L ο g i s t i c S u P P 〇 r t ) > ft T I F F // ( Τ a g g e d I m a g e F i 1 e F 0 r m a t ) 係 K A 1 d u s 之 名 義 K 及 // C C R F // ( C a 1 c ο m Ρ R a s t e r F ο Γ m a t ) 美 國 公 司 C a 1 c 0 m Ρ 之 名 義 0 在 其 它 語 言 中 9 除 了 文 字 外 > 包 括 下 列 之 語 言 // 〇 G R C F // ( O c e G Γ a Ρ h i C s R e m 〇 t e C ο η t Γ o 1 F o Γ m a t ) 係 >λ 受 譲 人 之 名 義 t 其 係 可 用 作 為 . 控 制 語 —y. » 特 別 是 用 於 建 立 繪 圖 m 之 組 態 0 g 動 語 言 辨 識 係 用 來 檢 查 ( e X a m i η e ) 一 部 分 被 接 收 到 之 數 位 資 料 並 且 在 該 等 資 料 中 搜 尋 一 種 言 出 現 或 是 不 存 在 之 特 徵 要 素 〇 該 經 過 檢 査 之 部 分 係 為 一 位 於 被 接 收 到 之 資 料 流 之 開 端 處 之 可 變 長 度 之 塊 0 該 等 一 種 語 言 出 現 或 是 不 存 在 之 特 徵 要 素 係 可 為 不 同 之 種 類 端 視 語 言 之 種 類 而 定 〇 . 有 語 言 使 用 __. 標 記 9 亦 即 > 一 預 先 設 定 的 且 為 不 變 -15- (請先閲讀背面之注意事項再填寫本頁) ‘裝- 本紙張尺度適用中國國家梯準(CNS ) A4規格(210X297公釐) 經濟部中央標準局員工消費合作社印製 311997 AV. B7 — I— M.M.—i.—,五、發明説明{A ) 的字元組,其係可M再一頭標,亦即在經由此等語言所寫 碼之該等資料組的開始處,中找到。經由檢査來在資料區 塊中檢測一標記使得直接辨識相對應之語言成為可能。 在上文所述之語言中,表一指出那些具有此種標記之 語言,Μ及它們的標記。 表一 語言 標記 w C A L S " s r c d o c i d : "C C R F " &&&&CALC0MP DEVICE CONTROL * CCRFO "0 G R C F " B E GMF "PostScript" 96 \ P S (1) TIFF I I^<N U L > o r MM<NU L>^ 〃 VDF〃 —~ (1) 不一定出現;<NUL> = ASC I I之空字元。 其它語言使用關鍵字或是具有特殊字元。因而,對於 # CALCOMP 〃來說,其有用之資料流係開語於一個 或是多個同步化字元,視該繪圖機之組態而定。P〇s t -1 6- 本紙張尺度適用中國國家梯準(CNS ) A4規格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁) 311997 A7 B7_ 五、發明説明(/斗)
Sc r i p t使用許多的闞鍵字。辨識於是可K藉由在該 受到檢査之資料區塊中搜尋翮鐽字或是同步化字元而執行 0 在其它既未使用標記又不使用關鐽字之語言中,"B G L # 、" Η P — G L " ,Κ 及"Η Ρ - G L / 2 "係使 用記憶符號,亦即,被寫碼為一預先設定長度之數位資料 組,該長度譬如說是具有兩個有效字元之長度。 在一群使用記憶符號之語言中,可能會遭遇下列數種 情況: 其中存在有區別性(d i scr imi nat i ng )記憶符號,此區別用記憶符號至少係在該等語言中之一 者中不存在; 其中存在有決定性(det erm i n i ng)記憶 符號,此決定性記憶符號僅僅存在於一種語言中; 其中存在有共通性(common)記憶符號,此共 通性記憶符號存在於許多種語言中。 在第一種情形中,在受到檢查之資料區塊中檢測一區 別性記憶符號係用來排除一種或是多種語言,藉K限制搜 尋之範圍。 舉例而言(並非限制例),記憶符號D T係為一區別 性記億符號,因為其將"BGL 〃語言排除在外;記憶符 號CR係為一區別性記憶符號*因為其將"HP — GL〃 語言排除在外;Μ及,記憶符號A P係為一區別性記憶符 -17- 本紙張尺度適用中國國家標準(CNS ) A4規格(2丨OX 297公釐) ---------ί -裝------訂------iix (請先閲讀背面之注意事項再填寫本頁) 經濟部中央樣準局員工消費合作社印製 經濟部中央橾準局員工消費合作社印裂 A7 B7_五、發明説明(,ς) 號,因為其將〃 HP — GL/2"語言排除在外。 在第二種情形中,在受到檢査之資料區塊中檢測一決 定性記憶符號,係使得辨識其相對應之語言成為可能,在 其受到可能之確認(ver i f i cat i on)之後。 這種情形的例子(並非限制例)係包括記憶符號CH ,其係可用於決定〃 B G L 〃 ;記憶符號C V,其係可用 於決定〃 HP — GL〃 ;K及記憶符號CF,其係可用於 決定"HP - GL/2"。 在第三種情形中,為了要執行辨識,必須要檢査一些 額外的特徵。在該資料流中,一些記憶符號後面通常跟著 一預先設定數目之參數*或是後面通常並未跟著一預先設 定數目之參數。此數目可能隨著語言之不同而有不同,因 而構成了 一個此種額外之特徵。结果,當一共同性記憶符 號在此狀況下被檢測出之時,已經足Μ在受到檢査之資料 區塊中計數與其相關之跟在後面參數的數目,同時將計數 所得之參數的數目與在受到考慮之各種語言中所期望之參 數的數目相比較。 這種情形的例子(並非限制例)係包括記憶符號CA ,其係為"B G L 〃與"Η Ρ — G L "之共通性記憶符號 ,其中〃 BGL〃中通常出現的參數的數目為3 ,而〃 Η P — GL 〃中通常出現的參數的數目為1 ;記憶符號DV ,其係為"B G L 〃與〃 Η Ρ — G L / 2 "之共通性記憶 符號,其中〃 BGL〃中通常出現的參數的數目為1 *而 -1 8 - (請先閱讀背面之注意事項再填寫本頁) -裝. 訂 」 4 本紙張尺度適用中國國家揉準(CNS ) A4規格(210X 297公釐) 311997 經濟部中央樣準局員工消費合作社印製 A 7 B7五、發明説明(4 ) "HP — GL/2〃中通常出現的參數的數目為2。 自動語言辨識係被執行於在受到檢査之賁料區塊中, 藉著循序地搜尋各種不同之已知語言或是各種不同類型之 語言。 搜尋的次序係依照語言辨識錯誤機率增加之次序進行 〇 結果,最好是最先搜尋要被辨識之語言是否具有一標 記。如果標記僅有一或二個字元長的話,確認可以被執行 。實際上,該標記愈長則發生辨識錯誤之風險愈小。 此後,繼績在該等使用關鐽字或是同步化字元的語言 中搜尋可能較為合適。 最後,在合適之際,繼讀搜尋使用記憶符號的語言, 使用以上所逑之方法,譬如說。 此外,觀察視窗(observat i on win dow)之長度,亦即,受到檢査之資料區塊的長度,可 以視被尋找的語言之類型而改變。當搜尋之進行是基於找 尋一個通常可以在被接收到的資料流的開始處找到的標記 之時,則該視窗之長度係被選擇成較為短小,且其可K選 擇性地(但是不一定必要)較短小於搜尋使用闞鐽字或是 同步化字元這些不一定在該資料流之開始處之語言時所使 用的長度。因而,當搜尋使用記憶符號之語言時,搜尋視 窗的長度可以較長。因此*觀察視窗的長度可Μ隨著辨識 錯誤的機率之增加而遞增,亦即,視窗長度可以隨著搜尋 -19- 本紙張尺度適用中國國家標準(CNS ) A4g ( 21〇><297公釐) (請先閲讀背面之注意事項再填寫本頁) -裝· 訂 i 經濟部中央標準局員工消費合作社印裝 A7 B7____五、發明説明(β) 次序而增加。 κ下之表二顯示出對於各種不同語言之最小的觀察視 窗之長度。 表二 語言 觀察視窗長度(位元組) C A L S,,,” C C R F,,, 3 2 HP R T L,,,,,F I F F,, 3 2 CALCOMP”, 128 PostScript,,,”VDF” 128 OGRCF” 256 BGL,,,,,HP-GL,,, 10 2 4 HP-GL/2” 1024 (請先閱讀背面之注意事項再填寫本頁) -裝· 訂 本發明之利用以上所述原理之自動語言辨識方法之實 行現在係藉著參考第一圖至第六圖來當作一個例子說明。 辨識係被執行於一個資料區塊上,例如,一個丨〇 2 4位元長度之區塊,但是觀察視窗之長度係可視所尋找之 語言的類型而變化。 在辨識方法一開始之時(第一圖),搜尋起始於被選 擇資料區塊之源頭處,亦即,在位置x = 〇處(步驟1〇 〇),同時為繪圖機所使用之用於"CALC0MP "語 -20- 本紙張尺度適用中國國家榇準(CNS ) A4規格(210X297公釐) 311997 B7 經濟部中央標準局員工消費合作社印製 五、發明説明 //) 1 1 -V - 的 參 數 係 被 載 入 ( 步 驟 1 〇 2 ) 0 1 1 此 後 在 步 驟 1 0 4 中 對於 —' 語 言 之 標 記 的 搜 尋 係 1 I 請 1 I 被 執 行 從 具 有 最 長 的 標 記 之 語 開 始 ( 在 本 例 中 係 為 該 先 閱 1 I C C R F // 語 ) 0 對 於 所 有 具 有 標 記 之 語 9 此 項 讀 背 1 1 1 搜 尋 均 被 執 行 在 本 例 中 是 在 一 個 N 位 元 组 的 資 料 區 塊 上 之 注 | 意 I 亦 即 是 介 於 開 始 位 置 與 位 置 N — 1 之 間 其 中 該 Ν 可 举 項 1 I >1 等 於 2 5 6 舉 例 而 言 0 導 ά 寫 本 第 二 圖 顯 示 -* 介 於 位 置 0 與 位 置 N 一 1 之 間 之 標 記 搜 頁 V—^ 1 I 尋 階 段 之 詳 细 情 形 〇 1 I 在 此 階 段 開 始 時 搜 尋 起 始 於 所 選 擇 之 資 料 區 塊 的 源 1 1 頭 處 亦 即 位 置 X 0 處 ( 步 驟 2 0 0 ) 0 測 試 2 0 1 訂 2 係 被 執 行 決 定 是 否 現 在 所 觀 察 的 位 置 X 處 之 字 元 對 應 1 | 到 一 標 記 的 第 一 個 字 元 0 如 果 測 試 的 结 果 是 肯 定 ( Ρ 0 S 1 1 ί t ί V e ) 的 話 這 表 示 在 步 驟 2 0 6 中 已 經 找 到 一 種 1 1 語 、-- 同 時 此 方 法 係 移 至 第 —^- 圖 中 整 體 方 法 之 測 試 1 0 6 im 處 0 1 I 如 果 測 試 2 〇 2 或 是 2 〇 4 之 任 一 者 的 结 果 是 否 定 ( 1 1 η e g a t 1 V e ) 的 話 則 步 驟 2 0 3 係 被 執 行 其 係 1 1 用 來 增 加 位 置 X 其 後 一 測 試 2 0 5 係 被 執 行 Μ 決 定 是 否 1 | 结 果 所 得 之 位 置 X 較 大 於 或 是 等 於 該 數 字 N 〇 只 要 不 是 此 1 I 種 情 形 則 此 方 法 回 到 測 試 2 0 2 之 輸 入 〇 否 則 如 果 X 1 1 較 大 於 或 是 等 於 N 的 話 則 此 標 記 搜 尋 階 段 已 告 结 束 而 1 ! 程 序 則 回 到 第 —k 圖 之 流 程 ΓΒΠ 圖 中 之 測 試 1 0 6 處 0 1 1 - 21 - 1 1 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 經濟部中央樣準局員工消费合作社印製 A7 B7_ 五、發明説明(/1) 如果測試1 〇 6指示出一標記已經被找到了的話’則 其可Μ下命令结耒該語言辨識方法。 在一較特定之實施例中,當一個包含至少三個字元之 標記已經在測試1 ◦ 6處被檢測出之時*則相對應之語言 係被認為已經被辨識出,且該方法亦被结束。否則*如果 一個僅包含兩個字元之標記已經被檢測出的話,則相對應 之語言係被選擇出*但是最好是再進行確認*因為對於一 涸非常短的標記而言,發生辨識錯誤之機率較大。 藉著樣本(example),確認可Μ是尋找,在 該標記之上游處,一個屬於其它語言之指令(c omma nd)存在的可能,其中在該語言中可能會遇到一個與該 被檢測之標記同一之組態。對於"VDF〃語言,其係具 有兩個字元之標記,下列之表三中係列出其它語言之指令 ,其中之指令含有相同之標記。 表三 標記之語言 其它語言中可K找到標記之命令 ”VDF” PE,LB,BL, T X,! ( " B G L 〃指令), % (〃 OGRCF 〃指令)
” PostScript” LB*BL*BP-TX> ! > % ”CALCOMP” DT,SM -22- 本紙張尺度適用中國國家標隼(CNS ) A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝_ 訂 i A7 B7 經濟部中央樣準局員工消費合作社印製 五、發明説明(%) 如果沒有找到此種指令的話,則該標記係被認為是真 的,則相對於該被檢測之標記之語言的辯識可K被証實, 因而结束該辨識方法。 如果此種指令被找到的話,則該標記係被認為是假的 ,在資料區塊中現在的位置y係被取為源頭:x = y,同 時此方法係回到標記搜尋步驟1 04。 如果沒有發現標記的話(從測試10 6中得到否定之 輸出),則程序移至一關鍵字搜尋階段108*如第三圖 中之流程圖所顯示一般。搜尋起始於該資料區塊之源頭: x=〇 (步驟300),同時一關鍵字搜尋(步驟302 )偽被執行,從位置X至該區塊之第一個N位元組(從X 至N—1),其中N係等於256,譬如說。 在步驟3 0 2中搜尋一關鐽字於位置X處之後,該X 之值係被增加1(unity)(步驟302),同時一 測試304係被執行以決定是否該X之值大於N。如果是 的話*該關鍵字搜尋方法係被结束,同時方法回到至測試 1 1〇,以決定是否該"Pos tScr i Dt"語言已 經被辨識出。 如果測試304之结果是否定的話,一测試305係 被執行以決定是否一關鐽字已經被找到。如果答案是否定 的話,則該方法回到步驟3 0 2。否則,一關鐽字己經被 找到,於是該方法移至一新的階段來搜尋一關鍵字從位置 -2 3- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) .裝· 訂 經濟部中央標準局員工消費合作社印製 A7 ' B7 五、發明説明(>丨) X,於步驟306處,同時X被增加1於步驟307,在 其執行步驟3 0 8M決定是否該X之值大於數目N之前。 如果情形是這樣的話,該關鍵字搜尋方法係告结束, 而回到該測試1 1 0。否則,如果測試3 0 8之結果是否 定的話,則測試3 0 9係被執行K決定是否一關鐽字已經 被找到。如果答案是否定的話,則該方法繼續步驟3 0 6 。否則,一翮鐽字已經被找到,於是一指示係被給出於步 驟310中’來指出該P〇stScr i pt語言係已經 被找到於位置X — 1 ,同時該關鐽字搜尋以及該P 0 s t S c r i p t語言之辨識方法已經结束,藉著回到第一圖 中之流程圖的步驟1 1 〇。 可K發現到,當一關鍵字被找到於測試3 ◦ 5中之時 ’在嵊於之資料區塊中搜尋另一個關鍵字或是相同之關鍵 字(步驟306至步驟309),使得其可以確認Μ及証 實語言之辨識’如果一些其它之關鐽字或是相同之關鍵字 被檢測出於步驟3 0 9中的話。 如果在第一圖中之測試1 10之结果,其係用來決定 是否一 字語言譬如像P〇 s t Sc r i p t已經被檢 濁!出•給出一肯定的结果的話,則該語言辨識方法係被结 束。· 否則’如果測試丄1 〇給出一否定的结果的話,則該 方法移至該同步化字元搜尋階段i 1 2,在本例中,此係 意味著搜尋"CALC0MP"語言。 本紙張尺度逋用中國國家揉準(CNS ) A4規格(2.10X297公釐) (請先閲讀背面之注意事項再填寫本頁) -裝· 訂 311997 A7 B7 五、發明説明(#) 用於搜尋具有一同步化字元之語言,譬如像是"CA LCOMP"語言,之方法係顯示於第四圖之流程圖中。 (請先閲讀背面之注意事項再填寫本頁) 在該方法之起始,一個指標y係被初始化(i n i t i a 1 i ze)至零(步驟400) ,同時一"新參數〃 旗號係被初始化為偽(步驟401)。 於是作出一要求(request.)在步驟402中 ,對於"CALC 0ΜΡ 〃參數第y號,同時一測試係被 執行以決定是否一同步化字元已經被找到於0至N的範園 中。如果此結果是否定的話,該y之值係被增加1 (步驟 404),同時一測試係被執行以決定〃CALC0MP "第y號參數是否存在。如果是的話,該方法回到至步驟 402。否則,該方法係结束且移至第一圖中之測試4 1 1 ,意味著對於系統已經知道的各種不同組之"C A L C 0ΜΡ〃參數並未找到同步化字元。 經濟部中央橾準局員工消費合作社印製 如果測試4 0 3之结果在位置p是肯定的,則一測試 4 0 6係被執行Μ決定是否所使用之組態為一新的組態。 如果不是的話,參數Β係被指出為一通常性偏差(usu a 1 bias)(步驟408),其中該偏差在此情形 中係為介於該同步化字元與有用的訊息之間的偏移(o f f s e t )。否則,該組態係為新的,因此該參數B係被 給定為用於此組態之偏差(步驟407)。 在步驟407與步驟408之後,一測試409係被 執行以決定是否字元p + 1等於Β。如果是的話,一測試 本纸張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) 經濟部中央樣準局員工消費合作社印策 A 7 B7_ 五、發明説明(4) 4 1 0係被執行K決定是否該字元P+ 1小於1 27。如 果不是的話,此方法结束並且回到測試1 1 4。如果额(試 4 1 0之结果是肯定的話,則在測試4 1 1中,可以指出 B係等於字元p+1,同時,如同當测試409之結果是 肯定之時一般,接下來的測試係由測試4 1 2所構成,其 中係決定是否字元p + 2較大於或是等於B。如果是的話 ’則該方法结束,同是接下來的步驟是測試1 1 4。如果 測試4 1 2之结果是肯定的話,則該方法繼.壤M —測試4 1 3來決定是否該同步化字元之數目等於ικ及是否p較 大於3。 · 如果測試4 1 3的结果是否定的話,則該方法繼鑕於 步驟4 1 5處,藉著將現有的組態更新,同時該偏差係被 更新,然後在步驟4 1 6中,可Μ指出該"CALC0M Ρ"語言已經被找到,同時該方法係结束,藉著移至測試 1 1 4 〇 如果测試4 1 3之结果是肯定的話,則確認將被執行 ’從該同步化字元之上游處,Μ瞧瞧是否能找到一個靥於 某一其它語言之指令,其亦使用該同步化字元。對於"C ALC0MP 〃而言,此種屬於另一種語言之指令可能是 DT或是SM。因此,一測試4 1 4係被執行以決定是否 字元Ρ—2等於* Μ’ 。如果測試414之結果是肯定的 話’則該方法直接跳至測試1 4 4。否則,如果測試4 1 4之结果是否定的話,則該方法跳至上述的步驟4 1 5。 _ 2 6 _ 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) ‘裝- 訂 經濟部中央橾準局員工消費合作社印製 A7 B7_._ 五、發明説明(外) 第—圖之測試114係用來決定是否一同步化字元語 言CALCOMP")已經被辨識出。如果此结果是 肯定的話,則該辨識方法係被结束。否則,亦即,如果沒 有同步化字元被檢測出的話,則該方法進行至一記憶符號 語言搜尋步驟1 1 6,此步驟1 1 6係被執行於範圍在0 至N — 1之間的位置。 此方法116係被詳细地描述於第五圖與第六圖中。 在一起始步驟500中,對應至要被辨識之語言數目 A之值n係被決定,同時該位置X係被起始化至零。 在一用於搜尋記憶符號Μ之步驟5 0 1中,與各別語 言相闞之一參數之值係被起始化至零。測試50 1 B i s 係在於決定是否La仍然為可辨織(並非稍早由記憶符號 語言所決定)。如果答案是肯定的話,對於語言Lc(之記 憶符號Μ之搜尋於是被進行於步驟5 0 2中,其詳细的流 程圖係被繪於第六圖中。否則(測試50 1 B i s的答案 是否定的),此方法係移至步驟503。 在步驟5 0 2中,其係有關對於一給定之語言L之記 憶符號Μ之搜尋,該方法起始於一測試6 0 1 ,係用於決 定是否Μ係為一備註(comment)或是標截(1 a bel)之開頭。如果是的話,在一步驟602中係指出 Μ為一標簸或是一備註,同時此方法直接移至第五圖中之 測試505。如果測試60 1之结果是否定的話,該方法 進行至一測試6 0 3 Κ決定是否該記憶符號Μ靥於正在考 -2 7- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) (讀先閲讀背面之注意事項再填寫本頁) -裝』 、1Τ j 經濟部中央標準局員工消費合作社印裝 A7 ' ____ B7 五、發明説明(豸) ®中之語言L。如果不是如此的話* (一個區別性記憶符 號),則在一步驟604中係指出該正在考盧中之記憶符 號Μ並非屬於該正在考慮中之語言,該語言於是被消除, 同時方法直接移至.第五圖之步驟505。 如果測試6 0 3之结果是肯定的話,則該方法移至一 測試6 0 5Μ檢査是否該該記憶符號Μ對於語言L係為一 決定性記憶符號。如果是的話,則步驟6 1 0顯示出該記 憶符號Μ決定語言L,同時該方法移至第五圖之測試5 0 5 〇 如果測試605之結果是否定的話,則測試606決 定是否必須參數的數目。如果測試6 0 6之结果是否定的 話,則測試6 07係指出由該記憶符號Μ無法決定任何語 言,同時該方法係移至第五圖之测試5 0 5。 如果測試6 0 6之结果是肯定的話,則該方法移至參 數計數步驟6 0 8,然後移至測試6 0 9,用來決定是否 該等被計數之參數係為正在考慮中的語言L之特徵。如果 是這樣的話,該方法移至步驟6 1 0,顯示出該記憶符號 決定語言L。否則*方法移至步驟60 7 *顯示出由該記 憶符號Μ無法決定任何語言。 請再次參考第五圖,測試5 0 5係用來決定是否語言 La已經被濟除於步驟502中(第六圖之流程圖)。如 果答案是肯定的,則在一步驟506中,η係被減少1並 且指出語言L a已經被消除。該方法於是進行至步驟5 0 3 -2 8 - 本紙張尺度適用中國國家橾隼(CNS ) A4規格(210 X 297公釐) (請先閲讀背面之注意事項再填寫本頁) -裝 訂 經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(4) ,在其中α係被增加1 ,然後至步驟504,其係用來決 定是否α較大於或是等於Α。如果不是的話,該方法回到 步驟502。否則,方法係移至步驟515,其中位置X 係被增加1 ,然後测試5 1 6係被執行,用來決定是否X 較大於或是等於N。如果不是的話,方法係移至測試5 1 7 ,用來決定是否η為零。如果不是的話,該方法回到步驟 50 1 ,否則方法係移至步驟5 1 8,其中係指出該語言 並未找到,同時該方法於是回到第一圖中之·測試1 1 8。 如果測試5 1 6之结果是肯定的話,則該方法回到測 試5 1 9 *其中係用來決定是否η= 1。如果是答案肯定 的話,則該方法移至步驟520,其中指出一語言已經被 找到,然後方法係移至測試1 1 8。 如果測試5 1 9之结果是否定的話,則方法係移至測 試521 ,其中係用來決定是否其留存(rema i η) 有一種語言譬如像〃 HP — GL"或是"HP — GL/2 〃。如果答案是肯定的話,則方法係移至步驟522,指 出該語言係為"Η P — G L "(否則Η Ρ — G L / 2 " 將非常可能已經被確認出),然後方法係移至步驟5 2 0 ’指出一語言已經被找到。否則方法係移至步驟5 1 8, 指出並未找到任何語言。 如果在測試5 0 5中發規語言L cx尚未被消除的話, 貝(1方法係移至測試507,其中係檢査是否語言La已經 被決定。如果答案是肯定的話,則確認係被執行(步驟 -29- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝· 訂 經濟部中央標準局員工消費合作社印製 311997 at B7 __ 五、發明説明(4) 5〇8),接下來是一測試509 *用來決定是否該確認 係為结論性的(cone 1 us i ve)。如果回答為否 定的話,方法係移至步驟503。否則,如果回答是肯定 的話,方法係移至步驟5 1 〇 *係指出該語言L α已經被 檢測於X處,然後方法係移至第一圖中之步驟1 1 8 °步 驟5 0 8之確認可用來檢査跟隨著該被檢測之記憶符號之 後的一個預先設定數目之字元,且用來査驗(c h e c k )是否它們對應至記憶符號或是對應至該語言Let之指令 0 如果測試5 0 7之结果是否定的話,則方法係移至測 試5 1 1 ,用來決定是否該記憶符號Μ靥於該語言L α。 如果答案是否定的話,則方法係移至步驟5 0 3。如果答 案是肯定的話,則方法係移至步驟5 1 2,用來決定是否 一個標籤或是一個備註已經被找到。如果答案是肯定的話 ,則方法係移至步驟5 1 3,將X定位於該標蕺或是備註 之末端,然後方法係移至步驟503。 如果測試5 1 2之结果是否定的話,則方法係移至步 驟5 1 4,係指出該記憶符號Μ存在*但是無法用來決定 任何事情,在此之後方法係繼讀以上所逑之步驟5 1 5。 一個由繪圖機所接收到的資料流可能包括錯誤與旗號 ,其對於列印之執行沒有意義。錯誤可能係為使用指令產 生器之故*這些指令產生器與某些語言之標準編排不相容 ,並且產生錯誤之指令或是不完整之指令。瑄些指令必須 本紙張尺度適用中國國家橾準(CNS ) Α4規格(2丨0>:297公釐) (請先閱讀背面之注意事項再填寫本頁) 裝' '1Τ A7 B7 經濟部中央標準局員工消費合作社印装 五、發明説明 ;Φ 1 I 被 忽 略 掉 〇 旗 係 為 可 由 電 腦 系 統 所 發 送 出 之 資 料 特 別 1 1 1 是 在 一 個 網 路 中 但 是 其 與 要 繪 之 画 沒 有 關 係 0 此 等 旗 號 /--S 1 I 必 須 被 檢 測 出 來 消 除 掉 ) 因 為 若 非 如 此 的 話 9 解 碼 器 將 產 請 先 1 1 閱 | 生 語 法 錯 誤 於 它 們 之 整 個 長 度 之 大 部 分 或 是 小 部 分 中 或 讀 背 | 面 1 是 語 可 能 因 此 而 被 辨 識 錯 誤 〇 之 注 1 I 意 1 I 白 動 語 -jfc-. 辨 識 方 法 可 用 於 檢 測 與消 除 旗 號 與 錯 誤 0 事 項 1 I —. 個 旗 係 顯 示 於 第 七 圖 與 第 八 随 画 中 0 再 填 1 在 使 用 一 個 譯 解 模 組 來 將 資 料 解 碼 之 際 1 且 該 譯 解 楔 寫 本 頁 裝 1 姐 係 相 對 應 於 個 先 刖 已 經 被 辨 識 出 之 語 言 L 1 當 一 個 1 1 語 法 錯 誤 被 檢 測 出 之 時 可 K 開 始 第 t nai 圓 中 所 給 的 流 程 圖 1 | 中 之 方 法 〇 1 訂 假 設 當 __1 語 法 錯 誤 係 被 檢 測 出 且 資 料 流 之 位 置 已 1 I 經 到 達 一 位 置 P 1 同 時 該 錯 誤 的 源 頭 將 會 被 找 到 於 一 位 1 1 置 Ρ 0 係 由 該 解 碼 迴 路 所 決 定 ( 起 始 步 驟 7 0 0 ) 〇 1 1 介 於 這 些 位 置 間 之 偏 移 係 為 d 1 — P 1 _ P 0 〇 JL 知4、 為 回 g*g 懕 檢 測 一 語 法 錯 誤 譯 解 該 語 L 1 之 方 法 係 被 1 I 插 斷 ( 步 驟 7 0 2 ) 同 時 一 個 自 動 語 言 辨 識 方 法 係 被 啟 1 1 動 (步 驟 7 0 ) 9 其 係 藉 著 參 考 譬如 像 是 第 八 圖 之 1 1 流 程 圖 來 加 以 說 明 0 1 | 第 八 圖 之 流 程 圖 係 關 於 一 過 程 8 0 〇 t 用 來 白 動 辨 m 1 I 在 一 個 具 有 N 個 字 元 ( 介 於 位 置 P 0 與 N — 1 之 間) 之 區 1 1 塊 中 之 語 言 〇 1 1 在 一 起 始 步 驟 8 0 3 中 該 參 數 P 2 係 被 給 定 N 之 值 1 1 - 31 - 1 1 本紙張尺度逋用中國國家標準(CNS ) A4規格(21〇Χ:297公釐) A7 311997 _B7_ 五、發明説明(纠) ,同時先前的語言係劈定義為未知。 其後*該方法係進行至步驟8.0 4,以在介於位置p 0與p 2— 1之間搜尋一語言。此搜尋可以使用定義於第 一圖Μ及第二至第六圖中之該等方法來執行。 其後,一測試806使得決定是否一語言L已經被辨 識出於一位置ρ處。 如果答案是肯定的話則步驟8 0 8係指出是否該舊的 語言與該語言L相同,Μ及是否參數ρ 2之值與該位置ρ 相等。 其後,一測試809係被執行,用來決定是否ρ 2之 值為零。如果不是的話*該方法回到步驟804,同時該 語言係被找尋於介於Ρ〇與ρ2— 1之間。否則,如果ρ 2之值為零的話,則該方法係進行至步驟8 1 0,其中慑 指出該經過檢測之語言係為舊的語言,於位置ρ 2處。 該方法於是移至第t圖之測試7 1 0。 如果測試8 0 6之答案是否定的話,該方法係進行至 一測試8 0 7,用來決定是否該舊的語言係為未知。 如果不是的話,則方法係移至步驟8 1 0,其中係指出該 經過檢測之語言係為舊的語言,在位置ρ 2處,並且指出 一旗號係存在於介於位置ρ 0與位置ρ 2— 1之間,假設 ρ 2不為零的話。否則,如果測試8 0 7的答案是肯定的 話,方法係移至步驟8 1 3,其僅係指出存在一旗號介於 ρ 2與ρ 2 — 1之間,之後方法係移至步驟8 1 5K要求 -32- 本紙張尺度逋用中國國家梂準(CNS ) A4規格(210X:297公釐) (請先閲讀背面之注意事項再填寫本頁) -裝
、1T 經濟部中央標準局員工消費合作社印製 經濟部中夬揉準局員工消費合作杜印製 A7 ___ B7 _ 五、發明説明(3/7) (reQuest)另一個區塊,然後該方法回到步驟8 ◦4K搜尋一語言,在介於p〇與P2—1之間。 藉著參考第七圖,測試7 1 0係用來決定是否該先前 處理過的語言L1係相等於在步驟704中所找到的語言 L2 ’該步驟704係相當於第八圖中之流程圖。 如果測試710之結果是否定的話,則方法係移至步 驟7 1 1 ,其係用來不考應來自位置p 〇與d之資料而從 位置P處啟動該語言L 2之處理。 如果測試7 1 0之结果是肯定的話*方法係移至步驟 7 1 2,其係用來忽略介於p ◦與p之間的資料而繼纘處 理使用語言L1,從對應至p與pi中較小的一個之位置 處。 自動語言辨識方法之施行的一個例子*其中至少施行 第一圖至第八圖之流程圖之一部分,係藉著參考第九A圖 至第九F圖而加K說明。 自動語言辨識方法係被執行於一個開始於位置P 0的 資科區塊,舉例來說,一個1 0 24位元組的區塊。 如果該方法失敗了、其中沒有語言被辨識出來的話, 至少該資料區塊的前端部分係被消除,同時由該資料流中 接下來之位元組取出之適當數目之位元組構成區塊。例如 ,可能可Μ保持該起始區塊之一終端部分,其長度係不超 過1 2 8位元組。該自動語言辨識方法於是被重覆,係使 用一新的源頭位置ρ 〇 *當被增加從起始區塊被消除之位 -33- 本紙張尺度適用中國國家標準(CNS ) Α4見格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁) -裝. 、1Τ 經濟部中央橾準局員工消費合作社印製 A7 B7 五、發明説明(+丨) 元姐數目時。此狀況$能係因一個很長的旗號B之出現之 故,特別是一個較資料區塊為長的旗號出現之時,如第九 Α圖中所顯示一般。如同開始時執行於該區塊b1上之辨 識方法於是再度被執行於區塊b 2上。 如果一個語言L 2被辨識出來的話*則檢査是否該偏 移d2為零,該偏移d 2係為介於在該語言L2被辨識出 之位置p 2處與位置p 0之間之偏移。 如果d 2為零的話,則檢査是否該語言L 2係相同於 該語言L 1。如果是的話,並且如果該偏移d 1亦為零的
I 話,則該辨識方法係被重新開始,回到該處理過程被插斷 處之步驟。此係對應至一種情況:發生一個語言的變換( swi tch)於位置pO處而沒有任何旗號(第九B圖 ),並且在p0之後該語言L1並未被辨識出之情形。 另一方面,如果該偏移d 1並不為零,一個新的語言 L 1之辨識係被証實,同時該處理過程係重新開始,使用 語言L1,從位置pi處,亦即,在從該位置p〇處偏移 d 1位元组之後。此係為K下之情況:一錯誤F已經發生 於介於該位置pO與pi之間(第九C圖),並且該錯誤 係在重新開始處理過程之前被跳過。 當測試710指出該新辨識出來的語言L2係與該先 前的語言L 1不同之時,則處理程序係被重新開始,使用 語言L 2M及從位置ι> 0處。此係為Μ下之情況:已經發 生介於語言L 1與語言L2之間的變換了,但是確沒有一 -34- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁) 丨裝 、1Τ 311997 at Β7 五、發明説明(从) 旗號介於其間(第九D圖)。 當該偏移d2並非為零之時’可K確認是否出現在介 於位置p 0與P 2之間的該等字元係為該語言L 1之特徵 。如果不是的話,處理程序重新開始’係以語言L 2 .,從 位置p 2處*亦即,跳過位在介於位置D 〇與位置D 2之 間的d 2個位兀組。此係為以下之情況::在經過—'個錯誤 FM及一個旗號B之後’已經語言上已經發生了變換。 然而,如果該語言L 1之特徵係在位置p 2的上游找 到的話,使用該語言L 1之處理程序係從位置P 3處繼鑛 ,在該位置p 3之後這些自元係被找到,亦卽,在執行一 偏移d 3以跳過位在p 0至p 3範圍内的字元之後。此係 為Μ下之情況:在一個資料區塊的長度内,已經發生了一 個錯誤F、一個旗號Β,以及一個語言上的變換(第九F 圖)。在該錯誤已經被消除之後,該語言L1之處理程序 應該要繼續,直到一個語法錯誤指出該旗號Β之出現之後 ----1-----ί -批衣------、玎------^ ^ (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印装 -35- 本紙浪尺度適用中國國家標準(CNS ) Α4規格(210X297公釐)

Claims (1)

  1. D8 申請專利範圍 1 •一種自動辨識於其中數位資料被接收到之語言的 方法,該方法包括於被接收到的資料中選擇一資料區塊, 並且在該區塊中搜尋有肋於指出一語言存在或是不存在的 要素,其特徵在於:辨識之執行係藉由以一預先設定之次 序搜尋多數個已知之語言,Μ及藉由對每一語言進行,於 該資料區塊中,至少為一個之該語言之特徵要素之搜尋。 2 ·如申請專利範園第1項中所述之方法,其特徵在 於:該語言搜尋次序係依照辨.識錯誤機率增加之次序來進 行。 3 ·如申請專利範圍第1或2項中所述之方法,其特 徵在於:搜尋係開始於搜尋具有一特殊標記之語言。 4 *如申請專利範圍第3項中所述之方法,其特徵在 於:具有一特殊標記之語言係依照標記長度降低之次序進 行搜尋。 5 ·如申請專利範圍第3項中所述之方法,其特徵在 於:該搜尋於是繼續進行,搜尋具有特.殊關鍵字或是同步 化字元之語言。 經濟部中央標準局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁) 6 ♦如申請專利範圍第3項中所述之方法,其特徵在 於:該搜尋接下來係Κ使用記憶符號之語言繼續進行搜尋 ,其中該等記憶符號ί系由已經決定數目之有效字元所構成 7 ·如申請專利範圍第6項中所述之方法,其特徵在 於:為了在一群語言中自動辨識一個語言,其中該群語言 -1 - 本紙張尺度適用中國國家揉準(CNS ) Α4規格(210Χ297公釐) 311997 A8 B8 C8 D8 々、申請專利範園 係為數個使用由已經決定數目之有效字元所構成的計億符 (請先閲讀背面之注意事項再填寫本頁) 號之語言,此方法包含至少κ下之步驟: 儲存屬於該群語言之記憶符號1其中係包括屬於該群 語言之一者或是一部分語言之區別性記憶符號,Μ及不屬 於該群語言中之其它語言之區別性記憶符號; 將該等被儲存之記憶符號與各组形成該被選擇之區塊 之某部分之字元比較,其中該等字元須具有一長度和該等 被儲存之記憶符號之長度相同.;Κ及 \ 在比較的步驟中,如果一組字元係被檢測出對應至一 ,區別性記憶符號的話,則該區別性記憶符號不屬於之該( 等)語言係被消除。 . 8 ·如申請專利範圍第7項中所述之方法,其^特徵在 於:如果在比較步驟中,一組字元係被檢測出對應至一記 憶符號,且其中該記憶符號只屬於在該群語言中之僅僅單 一之語言中的話,則該單一語言係被認為已經被辨識出。 9,如申請專利範圍第8項中所述之方法,其特徵在 於: 經濟部中央標隼局員工消費合作社印製 對於每一個記憶符號屬於多數個在該群語言中之語言 並且通常其後跟隨著,在一組經過編碼之資料中,預先設 定數目之參數,而其中該等參數對於該等語言之每一涸係 為特定的參數,與每一個語言之記億符號相關連的該等預 先設定數目之參數係被儲存起來;以及 如果在比較步驟的過程中檢測出一組字元,同時該組 -2- 本紙張尺度適用中困國家樑準(CNS ) Α4規格(210X297公釐) 311997 π? C8 D8 六、申請專利範圍 宇元係對應至屬於該多數個在群語言中之語言,並且通常 後面有參數跟隨著或是沒有參數跟随著的話,則在該資料 區塊中跟隨著該被檢測出之記憶符號的參數的數目係被計 數,並且對於關連於各種不同語言之每一個之該計憶符號 ,與其所儲存之該等參數的數目相比較,同時,對於所儲 存之參數的數目與經過計數之參數的數目相等之語言,係 被認為已經被辨識出。 1 0 ·如申請專利範圍第.8項中所述之方法,其特徵 在於:被認為已經被辨識出之該語言,係可K藉著確認, 至少在該區塊從該第一個被有效地檢測出之記憶符號開始 的一部分長度中,該資料區塊未含有對於該語言為錯誤之 參數以及/或是記憶符號,來証實語言之辨識。 1 1 ·如申請專利範圍第1或2項中所述之方法,其 特徵在於:在其中執行語言存在的搜尋之實料區塊或是觀 察視窗的長度係可K變化的。 經濟部中央榇準局員工消費合作社印装 (請先閲讀背面之注意事項再填寫本頁) 1 2,如申請專利範圍第1 1項中.所述之方法,其特 徵在於:該觀察視窗的長度之變化係為用來進行搜尋之語 言類型的函數。 1 3 · —種自動選擇一個用來將被接收到的數位資料 解碼之譯解橫組之方法,此方法包含:從被接收到之資料 中選擇一實科區塊;自動辨識一語言,其係藉著在該實料 區塊中,從多數個可能被用來為該資料寫碼之語言中搜尋, 有肋於指出一持定語言存在或是不存在的要素,Μ及選擇 -3 - 本紙浪尺度適用中國國家梯準(CNS ) Α4規格(210X297公釐) 7 9 9 1 1 3 8888 ABCD 經濟部中央梯準局男工消費合作社印装 、申請專利範国 —對應至該經過辨識之語言的譯解器;此方法之特徵在於 :自動語言辨識之執行係使用申請專利範圍第1至4項中 任一項所述之方法。 1 4 · 一種自動選擇一個用來將被接收到的數位資料 解碼之譯解模組之方法,此方法包含:從被接收到之資料 中選擇一資料區塊;自動辨識一語言,其係藉著在該資料 區塊中’從多數個可能被用來為該資料寫碼之語言中搜尋 有助於指出一特定語言存在或.是不存在的要素,以及選擇 一對應至該經過辨識之語言的譯解器·,此方法之特徵在於 :當一語法錯誤係為該譯解模組被檢測出之時,解碼之進 行係被插斷,同時自動語言辨識方法係被重新開始於下列 步驟之至少一者: a )在被接收到的資料中檢測一錯誤之存在,並且處 理該錯誤; b )在被接收到的資料中檢測一旗號之存在,並且處 理該旗號;Μ及 .、 c )檢測在語言上之一變換,並且選擇對應至該新被 辨識出之語言之譯解模組。 1 5 ·如申請專利範圍第1 4項中所述之方法’其特" 徵在於··自動語言辨識之執行係使用申請專利範園第1至 1 2項中任一項所述之方法。 L 6 .如申請專利範圍第1 4或1 5項中所述之方法‘ ,其特徵在於:一錯誤或是一旗號係被檢測出且可以被處 一 .1 _ --------7 装-- (請先閲讀背面之注意事項再填寫本頁) >11- J A _ ΐ"紙張尺度速用中國國家棵丰(CNS ) Α4ϋ#· ( 210X297公釐) 311997 A8 B8 C8 D8六、申請專利範圍 理,只要是在一語法錯誤被檢測出之後被辨識出之語言係 與先前之語言相同,並且一偏移係存在於該數位資料流中 介於該語法錯誤開始之處與相同的語言被再度辨識出之源 頭之間。 1 7 ·如_申請專利範圍第1 4或1 5項中所述之方法 ,其特徵在於:一個旗號係被檢測出且可Μ被處理,只要 是該經過辨識之語言在一語法錯誤被檢測出之後係不同於 先前之語言,同時一膈移係存.在於該數位資料流中介於該 語法錯誤開始之處與該新的語言被辨識出之源頭之間,並 ,且在確認其間沒有任何語言之後。 1 8 ·如申請專利範圍第1 3至1 5項中任一項所述 之方法的使用,係為用於將一顯示器或列印裝置所接收到 之數位資料解碼。 --------~ 装-- (請先閲讀背面之注意事項再填寫本頁) 訂 J 經濟部中央捸準局員工消費合作社印装 本紙張尺度適用中國國家揉隼(CNS ) Α4規格(210X297公釐)
TW84107070A 1994-08-08 1995-07-08 TW311997B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
NL9409801 1994-08-08

Publications (1)

Publication Number Publication Date
TW311997B true TW311997B (zh) 1997-08-01

Family

ID=51566468

Family Applications (1)

Application Number Title Priority Date Filing Date
TW84107070A TW311997B (zh) 1994-08-08 1995-07-08

Country Status (1)

Country Link
TW (1) TW311997B (zh)

Similar Documents

Publication Publication Date Title
US7836399B2 (en) Detection of lists in vector graphics documents
US5960113A (en) Method of automatically recognizing a language in which digital data is received
JPH05307638A (ja) ビットマップ・イメージ・ドキュメントのコード化データへの変換方法
KR101143650B1 (ko) 분석용 디스플레이 문서 준비 장치
CN110147545B (zh) 文本的结构化输出方法及系统、存储介质和计算机设备
US7200811B1 (en) Form processing apparatus, form processing method, recording medium and program
CN111160188A (zh) 金融票据识别方法、装置、设备及存储介质
CN110807194A (zh) 一种webshell检测方法及装置
CN115019314A (zh) 一种商品价格识别方法、装置、设备及存储介质
US7073122B1 (en) Method and apparatus for extracting structured data from HTML pages
TW311997B (zh)
US6470362B1 (en) Extracting ordered list of words from documents comprising text and code fragments, without interpreting the code fragments
KR100336719B1 (ko) 우편물 배달정보 생성 시스템 및 그 방법
CN114254138A (zh) 多媒体资源分类方法、装置、电子设备和存储介质
WO2002021291A1 (en) Method and apparatus for extracting structured data from html pages
CN108090392B (zh) 基于通用识别功能进行业务处理的方法、系统及移动终端
JPH07168913A (ja) 文字認識システム
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
CN109784082A (zh) 一种基于pdf文件的图文相关鲁棒隐写方法及系统
KR100544375B1 (ko) 문서파일로부터 명함정보를 추출하기 위한 장치와 방법,및 상기 방법을 기록한 기록매체
CN112069311B (zh) 一种文本提取方法、装置、设备及介质
CN115840833A (zh) 一种数据处理方法及装置
JP3720405B2 (ja) 領域識別装置及び方法
KR101025227B1 (ko) 배송분류정보를 생성하는 운송장
WO2002095614A1 (fr) Procede d'identification d'un systeme de code de type langage ou par caracteres

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees