TW311997B

TW311997B -

Info

Publication number: TW311997B
Application number: TW84107070A
Authority: TW
Original assignee: Oce Nederland Bv
Priority date: 1994-08-08
Filing date: 1995-07-08
Publication date: 1997-08-01

Description

311997 A7 B7 經濟部中央標準局員工消費合作社印製五、發明説明（/) 〔發明領域〕本發明係關於自動辨識於其中數位資料被接收到之語言的方法，特别是由一電腦系統之一終端機（t e rm i na1)所接收到之數位資料之自動辨識的方法。本發明之一特定之應用領域係為自動辨識一語言，在該語言中代表一將要被熟行之工作係藉著一顯示器裝置或是藉著一列印装置，譬如像繪画機或是印表機，而被接收到。〔發明背景] 要藉著一繪圖機或是一 £卩_表機再生e p r o du ce)之資訊可M被譯解成為各式各樣之語言或是格式（ format) ’此種語言或是格式係K傳輸自主機電腦 (host computer)之數位資料的形式存在。被接收到的資料必須藉著一針對各別語言之特定譯解模組（interpretat ion module)來譯解或是解碼。譯解係用於將資料轉換（t r a rl s f ο 4 rmat i on)成為一形式，此形式可K被直接用於列印’並且與所使用之語言無關，特別是一個位元應映影像 (bitmap image)之形式（亦即，一個完全由點（dot)所描繪之影像）。 -4 - (請先閱讀背面之注意事項再填寫本頁) 丨裝. 訂線本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐）六、申請專利範圍 A8 B8 C8 D8 曰修孟 1 •一種自動辨識於其中數位資料被接收到之語言的方法，該方法包括於被接收到的資料中選擇一資料區塊，並且在該區塊中搜尋有肋於指出一語言存在或是不存在的要素，其持徵在於：辨識之執行係藉由Μ —預先設定之次序搜尋多數個已知之語言，Μ及藉由對每一語言進行，於該資料區塊中，至少為一個之該語言之特徵要素之搜尋。 2 *如申請專利範圍第1項中所述之方法，其特徵在於：該語言搜尋次序係依照辨識錯誤機率增加之次序來進行。 3 ·如申請專利範圍第1或2項中所述之方法，其特徵在於：搜尋係開始於搜尋具有一特殊標記之語言。 4 ·如申請專利範圍第3項中所述之方法，其特徵在於：具有一特殊標記之語言係依照標記長度降低之次序進行搜尋。 5 ·如申請專利範圍第3項中所述之方法，其特徵在於：該搜尋於是繼續進行，搜尋具有特殊關鍵字或是同步化字元之語言。經濟部中央榇準局負工消費合作社印製 ---------^士衣-- (請先閲讀背面之注意事項再填寫本頁) 訂 6 ·如申請專利範園第3項中所述之方法，其特徵在於：該搜尋接下來係Μ使用記憶符號之語言繼續進行搜尋，其中該等記憶符號ί系由已經決定數目之有效字元所構成〇 7 ·如申請專利範圍第6項中所述之方法，其特徵在ί 於：為了在一群語言中自動辨識一 0語言，其中該群語言本紙張尺度逍用中國國家梯準（CNS ) Α4规格（210 X 297公釐） 311997 A7 _______B7 五、發明説明（t ) 一給定之印表縣置可以接收Μ不同語言編碼而成之數位資料。此係應用於當單一之使用者視將要被執行之工作之不同而選擇使用不同之語言之時，或是當多數個使用不同語吕之使用者透過一網路而利用一共用之印表機之時。為了使得被接收到之資料可以被處理，必須選擇與被使用之寫碼語言相對應之譯解模組。數位資料流（data stream)係被假設成由一糸列之繪圖檔（drawi ng f i 1 es)所構成。每一個繪圖檔利用一個被定義於一個表單（1 i s t )中之語言。如果一繪圖檔未具有一明顯端（exPi i c i t end)的話，則不同的繪圖檔可以被區分，方法是藉著檢測同步化之喪失或是碼之改變。如果一檔案中含有錯誤的話，無論如何，其語言必須要能夠被正確地檢測出，假使其中之錯誤數量尚靥合理的話。使用上述的表單（1 i st)中的語言之檔案中，也可以有文字檔（t extf i 1 es)，它們並未使用語言，在下文中它們將被稱之為”文字（texts) ” 。經濟部中央標準局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁) 圖形可以藉著具有一特殊格式之文字而分開，此種特殊格式在下文中將被稱之為一”旗號（banner) ” 格式。一旗號因而被定義為所有之經過寫碼之數位資料（或是字元），其中並未辨識出任何語言，而該語言係在一預先定義之語言表（1 i st)中。 -5 - 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公漦）經濟部中央標準局員工消費合作社印製 Α7 ,Β7 五、發明説明（$ ) 經過確認之語言可以屬於各種不同之種類：具有標記 (s i gnature)之語言；具有關鍵字（keyw ord)或是同步化字元（synchor i zat i 〇 n character)之語言；使用記憶符號（mn emonics)之語言。一記憶符號可K被視為一組具有預先設定大小，例如，具有兩涸有效字元（signigicant cha r a c t e r s)之長度之經過編碼之數位資料。各種不同之方法已經被提出，來基於被接收到的資料之至少一部分自動辨識一語言。在此處所使用之用語”自動辨識”係指任何方法，不僅要避免任何藉著一使用者來執行選擇於該列表機裝置上之實質介入的需要，也要避免任何增加特別控制指令序列或是頭標（header)到藉由一語言正常產生之資料中之需要。一種已知的方法係在於使用所有譯解模組處理所接收到的數位資料，然後保留產生最少錯誤之模組。此類型之一種方法係描逑於文件EP— A — 0 5 5 6 059中。雖然非常可靠，此種方法在大多數情形中均無法採用* 是因為其所需要的時間Μ及其必須儲存全部之所接收到的貢料。另一種已知的方法，係描述於文件US — Α — 5 2 93 466中，係在於開始時產生使用不同語言來編碼之實料的樣本（s amp I e)，然後K統計學的方法分 -6 - 本紙浪尺度適用中國國家揉準（CNS ) Α4規格（210Χ297公釐） (請先閲讀背面之注意事項再填寫本頁) 裝. 、11 A7 311897 B7 五、發明説明（ψ) 析它們Κ推演出針對每一個語言之特徵（c h a !· a c t eristics)，係M資料群的型式被儲存著。其後 >由該列印裝置所接收到的數位資料之起始部分係被節選出來與該等被儲存之資料群相比較，於是在使用之語言被從其中推演出。此一方法之困難係在於決定適當之特徵K 限制在辨識中之錯誤率。我們也知道，從文件EP — A — 0 5 5 8 8 0 4 中，分析一個被接收到的資料區塊之語法（s yn t a X )，以及，對於每一個語言，在該資料區塊中加以識別” 支持（for) ”K及”否定（against) ”的關鍵，將該等關鍵加以權重計算•然後再所得到的结果加總起來，K在所有的語言中選擇出最適當的候選者。再次的，這是一種相當地冗長的方法，同時也再度會遭遇選擇該等鼷鐽與選擇權重因數Μ使辨識中之錯_誤與不確定性減至最小的難題。 ‘ 〔發明之目的與簡要說明〕本發明的目的之一係為，使得自動語言辨識可以以一種可靠且快速之方式來執行，但是卻僅使用所接收到的資料之一部分。為了達到此項目的，本發明係提供一種自動辨識於其中數位資料被接收到之語言的方法，此方法包含選擇一資 -7- 本紙張尺度適用中國國家標準（CNS ) Α4規格（21 〇 X 297公釐） ---------- 裝-- (請先閲讀背面之注意事項再填寫本頁)

，1T 經濟部中央標準局員工消費合作社印製 A7 B7 經濟部中央標隼局員工消費合作社印裝五、發明説明 ( ) 1 | 料區塊於所接收到的資料中 9 同時在該區塊中搜尋有助於 1 f 1 指出一語言存在或是不存在的要素 ( e 1 e m e η t ) 0 /«—V 1 1 依昭本發明之 — 特性 » 辨識之執行係藉由對於多數個請先閱 1 I 已知的語 —X— 依照一預先設定之次序進行搜尋 * 並且對每背 1 1 Sj 1 一涸語 .V- 9 在該資料區塊中進行至少該語 - 之一個要素特冬 1 I t I 徵之一項搜尋〇事項 I I 最好該語 —Χ-. 搜尋次序係依照辨識錯誤機率增加之次填行因寫裝序來進〇而搜尋可連續地依昭下列之次序來進行頁 N_^ 1 : 先是對具有 — 特定標記之語進行搜尋依照標記長度 1 1 降低之次序再是對包括特定關鐽字或是同步話字元之語 1 1 進行搜尋然後再對使用記憶符 m 之語 ,r.·» 進行搜尋 0 1 訂視將要被找尋之語的類型之不同最好使用不同長 1 度之資料區塊較佳其中該等資料區塊之長度係經過選擇 1 1 9 以將辨識錯誤之機率減至最小〇 1 1 在本發明之一特定之實施例中其係被配置成用來從 U 線一群使用記憶付 σ由之語言中 β 動辨識出個語 —X™. 且該記 1 憶付號係由預先設定數巨之有效字元所構成該方法係包 1 1 含至少 Η 下之各個步驟 1 1 儲存鼷於該群語言之記憶付號 $ 包括屬於該群語言之 1 I 一者或是 -- 部分語言之區別性記憶符號 9 Η 及不靥於該群 1 1 I 語言中之其它語之區別性記憶符 5ίι ， 1 1 將該等被儲存之記憶符 a占 * 與各組形成該被選擇之區塊 1 1 之某部分之字元比較 i 其中該等字元須具有長度和該等 1 | - 8- 1 1 本紙張尺度適用中國國家標準 ( CNS ) A4規格（210X297公嫠〉 A7 311997 _B7 五、發明説明（A ) 被儲存之記憶符號之長度相同；κ及在比較的步驟中，如果一組字元係被檢測出對應至一區別性記憶符號的話，則該區別性記憶符號不靥於之該（等）語言係被消除。因而，該方法之一項特徵係在於•使用一準則（cr i ter i a)而使得在辨識程序的過程中排除一個或是多個語言成為可能。然而，此辨識程序亦包括有肯定的階段（pOS i t ί v e stage) 〇因而，如果在比較步驟中，一組字元係被檢測出對應至一記憶符號，且其中該記憶符號只屬於在該群語言中之僅僅單一之語言中的話，則該軍一語言係被認為已經被辨識出。最好是，對於每一涸記憶符號屬於多數個在該群語言中之語言並且通常其後跟随著，在一組經過編碼之資料中，預先設定數目之參數，而其中該等參數對於該等語言之每一個係為特定的參數，與每一個語言之記憶符號相關連的該等預先設定數目之參數係被儲存起來；Μ及如果在比較步驟的過程中檢測出一組字元，同時該組字元係對應至靥於該多數個在群語言中之語言，並且通常後面有參數跟随著或是沒有參數跟随著的話，則在該資料區塊中跟隨著該被檢測出之記憶符號的參數的數目係被計數（count i ng)，並且對於關連於各種不同語言 -9- 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） ~~ (請先閲讀背面之注意事項再填寫本頁) -裝訂經濟部中央樣準局員工消費合作社印製 87 \1/ 7 /(V 明説明發相數目參數之的數· 數計參過。等經出該與識之目辨存數被儲的經所數已其參為與之認 , 存被號儲係符所，憶於 ^目計對語該，之之時等個同相一，目每較數之比的經濟部中央標準局員工消費合作社印裝 ---------裝-- (請先閲讀背面之注意事項再填寫本頁) t 識有塊辨被區的個料 )一資 e 第該 V 該， i 從中塊度區長該分 ο 在部 P 少一 < 至的定，始肯認開個確號兩著符之藉憶述 K 記所可之上係出 W, 測在中檢形地情效

S 來號符憶記是或 \ 0 及識 M辨數之參 ^15 之語誤.} 錯m 為 r 言 i 語 f. 該 η 於 ο 封 C 有 ί 含實未証用中該其此法藉方 , 碼法解方與 Wbx s 一方供識提辨為言係語的動百自個之一料另資之的明到發收本接所於收 ί 接誤所錯組是模或解號譯旗之之言中語料之資識之辨到過收經接該被至該應在對為一因由會係不料係資 ’ 該到選動自種 1 在 β 性特之。步礙一妨進到更受之而明現發出本之照 } 依 t » 1 此 U 因 a f 中辨用法動被方自能的，，可碼塊個解區數之料多料資從資一，位擇中數選塊之中區到料料收資資接之該被到在於收著用接藉來被係組從其模：，解括 ^5 譯包語一係一擇，識在語存之言識語辨定過特經一該出至指應於對肋一有擇尋選搜及中M 言，語，之素碼要寫的料在資存該不為是來或處係被後 K之可出且測出檢測被檢誤被錯係法號語旗一一在是 ^|日或語誤之錯出 1 識 ’ 辨組被模該解要譯只的， ^15理在言存語係的 } 同 t 相 e 與 S處 f 之 f 始 ο 開 /IV 3K 移錯偏法一語且該並於 , 介同中相流言料語資之位前數先該與於本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐）訂 311997 A7 經濟部中央標準局員工消費合作杜印製 B7__五、發明説明（i7 ) 被再度辨識出之源頭（or i g i η)之間。錯誤與旗號可Μ僅藉著將其忽略來處理；它們也可Κ選擇性地被列印出或是被顯示出。一個旗號也被檢測出且可Μ被處理，當該經過辨識之語言在一語法錯誤被檢測出之後係不同於先前之語言，同時一偏移係存在於該數位資料流中介於該語法錯誤開始之處與該新的語言被辨識出之源頭之間，並且在確認其間沒有任何語言之後。〔圖示之簡要說明] 本發明藉著閲讀Μ下所述之說明*這些說明並非為本發明之限制例，Κ及參考所附隨之圖示而更易於明白，其中：第一圖係為一自動辨識語言的方法之整體流程圖，在該語言中藉著一繪圖機被接收到之數位資料係被編碼；第二圖係為在第一圖中之方法之一個階段之一較詳细之流程圖，係關於標記之搜尋；第三匾係為在第一圖中之方法之一個階段之一較詳细之流程圖，係關於關鍵字之搜尋；第四圖係為在第一圖中之方法之一個階段之一較詳细之流程圖，係關於CALCOMP語言之自動搜尋；第五圖與第六圖係為在第一圖中之方法之一個階段之 -11- (請先閲讀背面之注意事項再填寫本頁) -裝. 訂 i 線本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐）經濟部中央橾準局員工消費合作社印製 A7 B7_五、發明説明（气）一較詳细之流程圖，係關於一個使用記憶符號之語言之自動辨識；第七圖與第八圖係為使用一自動語言辨識之方法之流程圖，其係關於從藉著一繪圖機所接收到之數位資料中自動檢測κ及移除錯誤與旗號之方法；第九A圔至第九F圖顯示數位資料區塊之部分，顯示用來自動檢測與消除錯誤與旗號之方法，特別是在第七圖與第八圖中所顯示之錯誤與旗號；以及第十圖係為一方塊圖，顯示由用於處理一個繪圖機所接收到之數位資料之一單元（uni t)，在該數位資料中係具有用來繪圖之視圖。〔較佳實施例詳细說明〕下列之說明係藉著將本發明應用在關於被一個繪圖機所接收到之數位資料之自動語言辨識與解碼而進行。對於熟悉此技藝之人士而言，立即就可以明白相同之原理可以藉由繪圖機K外之其它裝置而實行，特別是用於印表機，同樣地，也可Μ用於周邊設備（per i phera 1 s )，該等周邊設備係從一主機電腦接收數位資料，或是從一電腦網路，甚或是由單一之電腦（s i ng 1 e co mputer)處接收数位資料。第十圖係為一方塊圖，顯示由用於接收與處理一個繪 -12- (請先聞讀背面之注意事項再填寫本頁) .裝訂 4 本紙張尺度適用中國國家標準（CNS ) A4規格（210 X 297公釐）經濟部中央標準局員工消費合作社印製 A7 _B7___五、發明説明（〜）圖機所接收到之數位資料Μ及用於代表要被再生之圖形資訊之一單元（unit)。進來的資料流係藉著一處理機模組1 〇所接收，該處理機模組10係將資料處理以成為包含基本圖形要素（e 1 ementary graphics primit i v e)之一顯示列之形式：向量、多i形，K及由點（ dot)所描繪之影像（即大家所知之”位元映圖（b i t m a p s ) ”）。基本圖形要素係藉著一模組1 4轉換成一組點，係用於描繪要被列印之影像。一控制器1 6係將該處理器模組1 0連接至一中央單元1 8，特別為了使該處理器模組1 0能夠被一個譯解模組所控制，該譯解模組係為了其中被接收到之資料係被編碼之語言而設置。一顯示板（display pane 1 ) 12 係被連接至該中央單元，同時其係，特別是，用來顯示現在被辨識出之語言之名稱。在該中央單元中係可以有數個譯解模組，同時適當之模組係被選擇，基於接收自一自動語言辨識模組2 0之資料。該模組2 0係被連接至該中央單元 1 8並且接收到進來之資料之至少一部分。 K上所描述之架構（archi tecture)本身即已為大家所熟知，因而無需再做更詳细的說明。一自動語言辨識模組係被設置以從多數個已知之語言 -13- (請先閲讀背面之注意事項再填寫本頁) -裝·

、tT 级本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐）

經濟部中央標準局員工消費合作社印U 311997 A7 B7 五、發明説明（//) 中識別 ( i d e η t i f y ) 出其中資料被接收到之語言 9 以及也識別出被檢测之語 X-. 開始之位置 0 在圖形的領域中 9 已經知道有各種不同的語 —X-. 被使用著 ο 某些藉著向量來定義一條要被繪出之直線 f 其它之語言則藉由點來定義要被繪出之直線〇某些要被再生之責訊 9 特別是文數字字元 ( a 1 P h a η U m e Γ i C C h a r a C t e Γ ) 9 也可以用一種不屬於刖逑兩者範籌任 — 者之特殊語言 ( 文字 ) 來接收〇下列係為向量語 v__ 的例子： // Β G L ( B e η S 0 η G Γ a P h 1 C L a η s U a S e ) 係 K 本受諶人之名義 9 // Η P — G L // 與 // Η P — G L / 2 // ( Η e W 1 e t t Ρ a C k a Γ d G r a P h i C L a η S U a s e ) 屬於 A m e Γ i C a η Η e W 1 e t t P a c k a Γ d 公司 > // V D F // ( V a r i a b 1 e D a t a F 〇 Γ m a t ) 係以受讓人之名義 ! ft C A L C 0 Μ Ρ 9 0 6 / 9 0 7 // 係 K 美國公司 C a 1 c 〇 m P 之名義 >λ 及 tt P 〇 S t S C Γ i Ρ t 係 K A d ο b e S y s t e m 的名義 0 藉由點來定義直線之語 _χ_. 的例子 ( 光域 ( Γ a s t e r ) ” 語言 ) 包括下列之情形 1 -14- (請先閲讀背面之注意事項再填寫本頁) 裝

*1T 本紙張尺度適用中國國家橾準（CNS ) Α4規格（210Χ：297公釐） A7 B7 五、發明説明（k) 經濟部中夬標準局員工消費合作社印製 // Η P R Τ L ✓/ ( G e W 1 e t t P a C k a Γ d R a S t e Γ T Γ a. η S f e Γ L a η g U a g e ) 係 A m e r 1 C a η Η e W 1 e t t Ρ a c k a r d 公司之名義 9 η C A L S // ( C 〇 m Ρ U t e Γ — a 1 d e d A C Q U i S i t 1 〇 η a η d L ο g i s t i c S u P P 〇 r t ) > ft T I F F // ( Τ a g g e d I m a g e F i 1 e F 0 r m a t ) 係 K A 1 d u s 之名義 K 及 // C C R F // ( C a 1 c ο m Ρ R a s t e r F ο Γ m a t ) 美國公司 C a 1 c 0 m Ρ 之名義 0 在其它語言中 9 除了文字外 > 包括下列之語言 // 〇 G R C F // ( O c e G Γ a Ρ h i C s R e m 〇 t e C ο η t Γ o 1 F o Γ m a t ) 係 >λ 受譲人之名義 t 其係可用作為 . 控制語 —y. » 特別是用於建立繪圖 m 之組態 0 g 動語言辨識係用來檢查 ( e X a m i η e ) 一部分被接收到之數位資料並且在該等資料中搜尋一種言出現或是不存在之特徵要素〇該經過檢査之部分係為一位於被接收到之資料流之開端處之可變長度之塊 0 該等一種語言出現或是不存在之特徵要素係可為不同之種類端視語言之種類而定〇 . 有語言使用 __. 標記 9 亦即 > 一預先設定的且為不變 -15- (請先閲讀背面之注意事項再填寫本頁) ‘裝- 本紙張尺度適用中國國家梯準（CNS ) A4規格（210X297公釐）經濟部中央標準局員工消費合作社印製 311997 AV. B7 — I— M.M.—i.—，五、發明説明{A ) 的字元組，其係可M再一頭標，亦即在經由此等語言所寫碼之該等資料組的開始處，中找到。經由檢査來在資料區塊中檢測一標記使得直接辨識相對應之語言成為可能。在上文所述之語言中，表一指出那些具有此種標記之語言，Μ及它們的標記。表一語言標記 w C A L S " s r c d o c i d : "C C R F " &&&&CALC0MP DEVICE CONTROL * CCRFO "0 G R C F " B E GMF "PostScript" 96 \ P S (1) TIFF I I^<N U L > o r MM<NU L>^ 〃 VDF〃 —~ (1) 不一定出現；<NUL> = ASC I I之空字元。其它語言使用關鍵字或是具有特殊字元。因而，對於 # CALCOMP 〃來說，其有用之資料流係開語於一個或是多個同步化字元，視該繪圖機之組態而定。P〇s t -1 6- 本紙張尺度適用中國國家梯準（CNS ) A4規格（210X297公釐） (請先閱讀背面之注意事項再填寫本頁) 311997 A7 B7_ 五、發明説明（/斗）

Sc r i p t使用許多的闞鍵字。辨識於是可K藉由在該受到檢査之資料區塊中搜尋翮鐽字或是同步化字元而執行 0 在其它既未使用標記又不使用關鐽字之語言中，"B G L # 、" Η P — G L " ，Κ 及"Η Ρ - G L / 2 "係使用記憶符號，亦即，被寫碼為一預先設定長度之數位資料組，該長度譬如說是具有兩個有效字元之長度。在一群使用記憶符號之語言中，可能會遭遇下列數種情況：其中存在有區別性（d i scr imi nat i ng )記憶符號，此區別用記憶符號至少係在該等語言中之一者中不存在；其中存在有決定性（det erm i n i ng)記憶符號，此決定性記憶符號僅僅存在於一種語言中；其中存在有共通性（common)記憶符號，此共通性記憶符號存在於許多種語言中。在第一種情形中，在受到檢查之資料區塊中檢測一區別性記憶符號係用來排除一種或是多種語言，藉K限制搜尋之範圍。舉例而言（並非限制例），記憶符號D T係為一區別性記億符號，因為其將"BGL 〃語言排除在外；記憶符號CR係為一區別性記憶符號*因為其將"HP — GL〃語言排除在外；Μ及，記憶符號A P係為一區別性記憶符 -17- 本紙張尺度適用中國國家標準（CNS ) A4規格（2丨OX 297公釐） ---------ί -裝------訂------iix (請先閲讀背面之注意事項再填寫本頁) 經濟部中央樣準局員工消費合作社印製經濟部中央橾準局員工消費合作社印裂 A7 B7_五、發明説明（，ς) 號，因為其將〃 HP — GL/2"語言排除在外。在第二種情形中，在受到檢査之資料區塊中檢測一決定性記憶符號，係使得辨識其相對應之語言成為可能，在其受到可能之確認（ver i f i cat i on)之後。這種情形的例子（並非限制例）係包括記憶符號CH ，其係可用於決定〃 B G L 〃；記憶符號C V，其係可用於決定〃 HP — GL〃；K及記憶符號CF，其係可用於決定"HP - GL/2"。在第三種情形中，為了要執行辨識，必須要檢査一些額外的特徵。在該資料流中，一些記憶符號後面通常跟著一預先設定數目之參數*或是後面通常並未跟著一預先設定數目之參數。此數目可能隨著語言之不同而有不同，因而構成了一個此種額外之特徵。结果，當一共同性記憶符號在此狀況下被檢測出之時，已經足Μ在受到檢査之資料區塊中計數與其相關之跟在後面參數的數目，同時將計數所得之參數的數目與在受到考慮之各種語言中所期望之參數的數目相比較。這種情形的例子（並非限制例）係包括記憶符號CA ，其係為"B G L 〃與"Η Ρ — G L "之共通性記憶符號，其中〃 BGL〃中通常出現的參數的數目為3 ，而〃 Η P — GL 〃中通常出現的參數的數目為1 ;記憶符號DV ，其係為"B G L 〃與〃 Η Ρ — G L / 2 "之共通性記憶符號，其中〃 BGL〃中通常出現的參數的數目為1 *而 -1 8 - (請先閱讀背面之注意事項再填寫本頁) -裝. 訂」 4 本紙張尺度適用中國國家揉準（CNS ) A4規格（210X 297公釐） 311997 經濟部中央樣準局員工消費合作社印製 A 7 B7五、發明説明（4 ) "HP — GL/2〃中通常出現的參數的數目為2。自動語言辨識係被執行於在受到檢査之賁料區塊中，藉著循序地搜尋各種不同之已知語言或是各種不同類型之語言。搜尋的次序係依照語言辨識錯誤機率增加之次序進行〇結果，最好是最先搜尋要被辨識之語言是否具有一標記。如果標記僅有一或二個字元長的話，確認可以被執行。實際上，該標記愈長則發生辨識錯誤之風險愈小。此後，繼績在該等使用關鐽字或是同步化字元的語言中搜尋可能較為合適。最後，在合適之際，繼讀搜尋使用記憶符號的語言，使用以上所逑之方法，譬如說。此外，觀察視窗（observat i on win dow)之長度，亦即，受到檢査之資料區塊的長度，可以視被尋找的語言之類型而改變。當搜尋之進行是基於找尋一個通常可以在被接收到的資料流的開始處找到的標記之時，則該視窗之長度係被選擇成較為短小，且其可K選擇性地（但是不一定必要）較短小於搜尋使用闞鐽字或是同步化字元這些不一定在該資料流之開始處之語言時所使用的長度。因而，當搜尋使用記憶符號之語言時，搜尋視窗的長度可以較長。因此*觀察視窗的長度可Μ隨著辨識錯誤的機率之增加而遞增，亦即，視窗長度可以隨著搜尋 -19- 本紙張尺度適用中國國家標準（CNS ) A4g ( 21〇><297公釐） (請先閲讀背面之注意事項再填寫本頁) -裝· 訂 i 經濟部中央標準局員工消費合作社印裝 A7 B7____五、發明説明（β) 次序而增加。 κ下之表二顯示出對於各種不同語言之最小的觀察視窗之長度。表二語言觀察視窗長度（位元組） C A L S，，，” C C R F，，， 3 2 HP R T L，，，，，F I F F，， 3 2 CALCOMP”， 128 PostScript，，，”VDF” 128 OGRCF” 256 BGL，，，，，HP-GL，，， 10 2 4 HP-GL/2” 1024 (請先閱讀背面之注意事項再填寫本頁) -裝· 訂本發明之利用以上所述原理之自動語言辨識方法之實行現在係藉著參考第一圖至第六圖來當作一個例子說明。辨識係被執行於一個資料區塊上，例如，一個丨〇 2 4位元長度之區塊，但是觀察視窗之長度係可視所尋找之語言的類型而變化。在辨識方法一開始之時（第一圖），搜尋起始於被選擇資料區塊之源頭處，亦即，在位置x = 〇處（步驟1〇〇），同時為繪圖機所使用之用於"CALC0MP "語 -20- 本紙張尺度適用中國國家榇準（CNS ) A4規格（210X297公釐） 311997 B7 經濟部中央標準局員工消費合作社印製五、發明説明 //) 1 1 -V - 的參數係被載入 ( 步驟 1 〇 2 ) 0 1 1 此後在步驟 1 0 4 中對於 —' 語言之標記的搜尋係 1 I 請 1 I 被執行從具有最長的標記之語開始 ( 在本例中係為該先閱 1 I C C R F // 語 ) 0 對於所有具有標記之語 9 此項讀背 1 1 1 搜尋均被執行在本例中是在一個 N 位元组的資料區塊上之注 | 意 I 亦即是介於開始位置與位置 N — 1 之間其中該 Ν 可举項 1 I >1 等於 2 5 6 舉例而言 0 導 ά 寫本第二圖顯示 -* 介於位置 0 與位置 N 一 1 之間之標記搜頁 V—^ 1 I 尋階段之詳细情形〇 1 I 在此階段開始時搜尋起始於所選擇之資料區塊的源 1 1 頭處亦即位置 X 0 處 ( 步驟 2 0 0 ) 0 測試 2 0 1 訂 2 係被執行決定是否現在所觀察的位置 X 處之字元對應 1 | 到一標記的第一個字元 0 如果測試的结果是肯定 ( Ρ 0 S 1 1 ί t ί V e ) 的話這表示在步驟 2 0 6 中已經找到一種 1 1 語、-- 同時此方法係移至第 —^- 圖中整體方法之測試 1 0 6 im 處 0 1 I 如果測試 2 〇 2 或是 2 〇 4 之任一者的结果是否定 ( 1 1 η e g a t 1 V e ) 的話則步驟 2 0 3 係被執行其係 1 1 用來增加位置 X 其後一測試 2 0 5 係被執行 Μ 決定是否 1 | 结果所得之位置 X 較大於或是等於該數字 N 〇只要不是此 1 I 種情形則此方法回到測試 2 0 2 之輸入〇否則如果 X 1 1 較大於或是等於 N 的話則此標記搜尋階段已告结束而 1 ! 程序則回到第 —k 圖之流程 ΓΒΠ 圖中之測試 1 0 6 處 0 1 1 - 21 - 1 1 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐）經濟部中央樣準局員工消费合作社印製 A7 B7_ 五、發明説明（/1) 如果測試1 〇 6指示出一標記已經被找到了的話’則其可Μ下命令结耒該語言辨識方法。在一較特定之實施例中，當一個包含至少三個字元之標記已經在測試1 ◦ 6處被檢測出之時*則相對應之語言係被認為已經被辨識出，且該方法亦被结束。否則*如果一個僅包含兩個字元之標記已經被檢測出的話，則相對應之語言係被選擇出*但是最好是再進行確認*因為對於一涸非常短的標記而言，發生辨識錯誤之機率較大。藉著樣本（example)，確認可Μ是尋找，在該標記之上游處，一個屬於其它語言之指令（c omma nd)存在的可能，其中在該語言中可能會遇到一個與該被檢測之標記同一之組態。對於"VDF〃語言，其係具有兩個字元之標記，下列之表三中係列出其它語言之指令，其中之指令含有相同之標記。表三標記之語言其它語言中可K找到標記之命令 ”VDF” PE，LB，BL， T X，！（ " B G L 〃指令）， % (〃 OGRCF 〃指令）

” PostScript” LB*BL*BP-TX> ! > % ”CALCOMP” DT，SM -22- 本紙張尺度適用中國國家標隼（CNS ) A4規格（210X297公釐） (請先閲讀背面之注意事項再填寫本頁) 裝_ 訂 i A7 B7 經濟部中央樣準局員工消費合作社印製五、發明説明（％) 如果沒有找到此種指令的話，則該標記係被認為是真的，則相對於該被檢測之標記之語言的辯識可K被証實，因而结束該辨識方法。如果此種指令被找到的話，則該標記係被認為是假的，在資料區塊中現在的位置y係被取為源頭：x = y，同時此方法係回到標記搜尋步驟1 04。如果沒有發現標記的話（從測試10 6中得到否定之輸出），則程序移至一關鍵字搜尋階段108*如第三圖中之流程圖所顯示一般。搜尋起始於該資料區塊之源頭： x=〇 (步驟300)，同時一關鍵字搜尋（步驟302 )偽被執行，從位置X至該區塊之第一個N位元組（從X 至N—1)，其中N係等於256，譬如說。在步驟3 0 2中搜尋一關鐽字於位置X處之後，該X 之值係被增加1(unity)(步驟302)，同時一測試304係被執行以決定是否該X之值大於N。如果是的話*該關鍵字搜尋方法係被结束，同時方法回到至測試 1 1〇，以決定是否該"Pos tScr i Dt"語言已經被辨識出。如果測試304之结果是否定的話，一测試305係被執行以決定是否一關鐽字已經被找到。如果答案是否定的話，則該方法回到步驟3 0 2。否則，一關鐽字己經被找到，於是該方法移至一新的階段來搜尋一關鍵字從位置 -2 3- 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） (請先閲讀背面之注意事項再填寫本頁) .裝· 訂經濟部中央標準局員工消費合作社印製 A7 ' B7 五、發明説明（>丨） X，於步驟306處，同時X被增加1於步驟307，在其執行步驟3 0 8M決定是否該X之值大於數目N之前。如果情形是這樣的話，該關鍵字搜尋方法係告结束，而回到該測試1 1 0。否則，如果測試3 0 8之結果是否定的話，則測試3 0 9係被執行K決定是否一關鐽字已經被找到。如果答案是否定的話，則該方法繼續步驟3 0 6 。否則，一翮鐽字已經被找到，於是一指示係被給出於步驟310中’來指出該P〇stScr i pt語言係已經被找到於位置X — 1 ，同時該關鐽字搜尋以及該P 0 s t S c r i p t語言之辨識方法已經结束，藉著回到第一圖中之流程圖的步驟1 1 〇。可K發現到，當一關鍵字被找到於測試3 ◦ 5中之時 ’在嵊於之資料區塊中搜尋另一個關鍵字或是相同之關鍵字（步驟306至步驟309)，使得其可以確認Μ及証實語言之辨識’如果一些其它之關鐽字或是相同之關鍵字被檢測出於步驟3 0 9中的話。如果在第一圖中之測試1 10之结果，其係用來決定是否一字語言譬如像P〇 s t Sc r i p t已經被檢濁！出•給出一肯定的结果的話，則該語言辨識方法係被结束。· 否則’如果測試丄1 〇給出一否定的结果的話，則該方法移至該同步化字元搜尋階段i 1 2，在本例中，此係意味著搜尋"CALC0MP"語言。本紙張尺度逋用中國國家揉準（CNS ) A4規格（2.10X297公釐） (請先閲讀背面之注意事項再填寫本頁) -裝· 訂 311997 A7 B7 五、發明説明（#) 用於搜尋具有一同步化字元之語言，譬如像是"CA LCOMP"語言，之方法係顯示於第四圖之流程圖中。 (請先閲讀背面之注意事項再填寫本頁) 在該方法之起始，一個指標y係被初始化（i n i t i a 1 i ze)至零（步驟400) ，同時一"新參數〃旗號係被初始化為偽（步驟401)。於是作出一要求（request.)在步驟402中，對於"CALC 0ΜΡ 〃參數第y號，同時一測試係被執行以決定是否一同步化字元已經被找到於0至N的範園中。如果此結果是否定的話，該y之值係被增加1 (步驟 404)，同時一測試係被執行以決定〃CALC0MP "第y號參數是否存在。如果是的話，該方法回到至步驟 402。否則，該方法係结束且移至第一圖中之測試4 1 1 ，意味著對於系統已經知道的各種不同組之"C A L C 0ΜΡ〃參數並未找到同步化字元。經濟部中央橾準局員工消費合作社印製如果測試4 0 3之结果在位置p是肯定的，則一測試 4 0 6係被執行Μ決定是否所使用之組態為一新的組態。如果不是的話，參數Β係被指出為一通常性偏差（usu a 1 bias)(步驟408)，其中該偏差在此情形中係為介於該同步化字元與有用的訊息之間的偏移（o f f s e t )。否則，該組態係為新的，因此該參數B係被給定為用於此組態之偏差（步驟407)。在步驟407與步驟408之後，一測試409係被執行以決定是否字元p + 1等於Β。如果是的話，一測試本纸張尺度適用中國國家標準（CNS ) Α4規格（210Χ297公釐）經濟部中央樣準局員工消費合作社印策 A 7 B7_ 五、發明説明（4) 4 1 0係被執行K決定是否該字元P+ 1小於1 27。如果不是的話，此方法结束並且回到測試1 1 4。如果额（試 4 1 0之结果是肯定的話，則在測試4 1 1中，可以指出 B係等於字元p+1，同時，如同當测試409之結果是肯定之時一般，接下來的測試係由測試4 1 2所構成，其中係決定是否字元p + 2較大於或是等於B。如果是的話 ’則該方法结束，同是接下來的步驟是測試1 1 4。如果測試4 1 2之结果是肯定的話，則該方法繼.壤M —測試4 1 3來決定是否該同步化字元之數目等於ικ及是否p較大於3。 · 如果測試4 1 3的结果是否定的話，則該方法繼鑕於步驟4 1 5處，藉著將現有的組態更新，同時該偏差係被更新，然後在步驟4 1 6中，可Μ指出該"CALC0M Ρ"語言已經被找到，同時該方法係结束，藉著移至測試 1 1 4 〇如果测試4 1 3之结果是肯定的話，則確認將被執行 ’從該同步化字元之上游處，Μ瞧瞧是否能找到一個靥於某一其它語言之指令，其亦使用該同步化字元。對於"C ALC0MP 〃而言，此種屬於另一種語言之指令可能是 DT或是SM。因此，一測試4 1 4係被執行以決定是否字元Ρ—2等於* Μ’ 。如果測試414之結果是肯定的話’則該方法直接跳至測試1 4 4。否則，如果測試4 1 4之结果是否定的話，則該方法跳至上述的步驟4 1 5。 _ 2 6 _ 本紙張尺度適用中國國家標準（CNS ) Α4規格（210X297公釐） (請先閲讀背面之注意事項再填寫本頁) ‘裝- 訂經濟部中央橾準局員工消費合作社印製 A7 B7_._ 五、發明説明（外）第—圖之測試114係用來決定是否一同步化字元語言CALCOMP")已經被辨識出。如果此结果是肯定的話，則該辨識方法係被结束。否則，亦即，如果沒有同步化字元被檢測出的話，則該方法進行至一記憶符號語言搜尋步驟1 1 6，此步驟1 1 6係被執行於範圍在0 至N — 1之間的位置。此方法116係被詳细地描述於第五圖與第六圖中。在一起始步驟500中，對應至要被辨識之語言數目 A之值n係被決定，同時該位置X係被起始化至零。在一用於搜尋記憶符號Μ之步驟5 0 1中，與各別語言相闞之一參數之值係被起始化至零。測試50 1 B i s 係在於決定是否La仍然為可辨織（並非稍早由記憶符號語言所決定）。如果答案是肯定的話，對於語言Lc(之記憶符號Μ之搜尋於是被進行於步驟5 0 2中，其詳细的流程圖係被繪於第六圖中。否則（測試50 1 B i s的答案是否定的），此方法係移至步驟503。在步驟5 0 2中，其係有關對於一給定之語言L之記憶符號Μ之搜尋，該方法起始於一測試6 0 1 ，係用於決定是否Μ係為一備註（comment)或是標截（1 a bel)之開頭。如果是的話，在一步驟602中係指出 Μ為一標簸或是一備註，同時此方法直接移至第五圖中之測試505。如果測試60 1之结果是否定的話，該方法進行至一測試6 0 3 Κ決定是否該記憶符號Μ靥於正在考 -2 7- 本紙張尺度適用中國國家標準（CNS ) Α4規格（210X297公釐） (讀先閲讀背面之注意事項再填寫本頁) -裝』、1Τ j 經濟部中央標準局員工消費合作社印裝 A7 ' ____ B7 五、發明説明（豸） ®中之語言L。如果不是如此的話* (一個區別性記憶符號），則在一步驟604中係指出該正在考盧中之記憶符號Μ並非屬於該正在考慮中之語言，該語言於是被消除，同時方法直接移至.第五圖之步驟505。如果測試6 0 3之结果是肯定的話，則該方法移至一測試6 0 5Μ檢査是否該該記憶符號Μ對於語言L係為一決定性記憶符號。如果是的話，則步驟6 1 0顯示出該記憶符號Μ決定語言L，同時該方法移至第五圖之測試5 0 5 〇如果測試605之結果是否定的話，則測試606決定是否必須參數的數目。如果測試6 0 6之结果是否定的話，則測試6 07係指出由該記憶符號Μ無法決定任何語言，同時該方法係移至第五圖之测試5 0 5。如果測試6 0 6之结果是肯定的話，則該方法移至參數計數步驟6 0 8，然後移至測試6 0 9，用來決定是否該等被計數之參數係為正在考慮中的語言L之特徵。如果是這樣的話，該方法移至步驟6 1 0，顯示出該記憶符號決定語言L。否則*方法移至步驟60 7 *顯示出由該記憶符號Μ無法決定任何語言。請再次參考第五圖，測試5 0 5係用來決定是否語言 La已經被濟除於步驟502中（第六圖之流程圖）。如果答案是肯定的，則在一步驟506中，η係被減少1並且指出語言L a已經被消除。該方法於是進行至步驟5 0 3 -2 8 - 本紙張尺度適用中國國家橾隼（CNS ) A4規格（210 X 297公釐） (請先閲讀背面之注意事項再填寫本頁) -裝訂經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明（4) ，在其中α係被增加1 ，然後至步驟504，其係用來決定是否α較大於或是等於Α。如果不是的話，該方法回到步驟502。否則，方法係移至步驟515，其中位置X 係被增加1 ，然後测試5 1 6係被執行，用來決定是否X 較大於或是等於N。如果不是的話，方法係移至測試5 1 7 ，用來決定是否η為零。如果不是的話，該方法回到步驟 50 1 ，否則方法係移至步驟5 1 8，其中係指出該語言並未找到，同時該方法於是回到第一圖中之·測試1 1 8。如果測試5 1 6之结果是肯定的話，則該方法回到測試5 1 9 *其中係用來決定是否η= 1。如果是答案肯定的話，則該方法移至步驟520，其中指出一語言已經被找到，然後方法係移至測試1 1 8。如果測試5 1 9之结果是否定的話，則方法係移至測試521 ，其中係用來決定是否其留存（rema i η) 有一種語言譬如像〃 HP — GL"或是"HP — GL/2 〃。如果答案是肯定的話，則方法係移至步驟522,指出該語言係為"Η P — G L "(否則Η Ρ — G L / 2 " 將非常可能已經被確認出），然後方法係移至步驟5 2 0 ’指出一語言已經被找到。否則方法係移至步驟5 1 8，指出並未找到任何語言。如果在測試5 0 5中發規語言L cx尚未被消除的話，貝(1方法係移至測試507，其中係檢査是否語言La已經被決定。如果答案是肯定的話，則確認係被執行（步驟 -29- 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） (請先閲讀背面之注意事項再填寫本頁) 裝· 訂經濟部中央標準局員工消費合作社印製 311997 at B7 __ 五、發明説明（4) 5〇8)，接下來是一測試509 *用來決定是否該確認係為结論性的（cone 1 us i ve)。如果回答為否定的話，方法係移至步驟503。否則，如果回答是肯定的話，方法係移至步驟5 1 〇 *係指出該語言L α已經被檢測於X處，然後方法係移至第一圖中之步驟1 1 8 °步驟5 0 8之確認可用來檢査跟隨著該被檢測之記憶符號之後的一個預先設定數目之字元，且用來査驗（c h e c k )是否它們對應至記憶符號或是對應至該語言Let之指令 0 如果測試5 0 7之结果是否定的話，則方法係移至測試5 1 1 ，用來決定是否該記憶符號Μ靥於該語言L α。如果答案是否定的話，則方法係移至步驟5 0 3。如果答案是肯定的話，則方法係移至步驟5 1 2，用來決定是否一個標籤或是一個備註已經被找到。如果答案是肯定的話，則方法係移至步驟5 1 3，將X定位於該標蕺或是備註之末端，然後方法係移至步驟503。如果測試5 1 2之结果是否定的話，則方法係移至步驟5 1 4，係指出該記憶符號Μ存在*但是無法用來決定任何事情，在此之後方法係繼讀以上所逑之步驟5 1 5。一個由繪圖機所接收到的資料流可能包括錯誤與旗號，其對於列印之執行沒有意義。錯誤可能係為使用指令產生器之故*這些指令產生器與某些語言之標準編排不相容，並且產生錯誤之指令或是不完整之指令。瑄些指令必須本紙張尺度適用中國國家橾準（CNS ) Α4規格（2丨0>：297公釐） (請先閱讀背面之注意事項再填寫本頁) 裝' '1Τ A7 B7 經濟部中央標準局員工消費合作社印装五、發明説明；Φ 1 I 被忽略掉〇旗係為可由電腦系統所發送出之資料特別 1 1 1 是在一個網路中但是其與要繪之画沒有關係 0 此等旗號 /--S 1 I 必須被檢測出來消除掉 ) 因為若非如此的話 9 解碼器將產請先 1 1 閱 | 生語法錯誤於它們之整個長度之大部分或是小部分中或讀背 | 面 1 是語可能因此而被辨識錯誤〇之注 1 I 意 1 I 白動語 -jfc-. 辨識方法可用於檢測與消除旗號與錯誤 0 事項 1 I —. 個旗係顯示於第七圖與第八随画中 0 再填 1 在使用一個譯解模組來將資料解碼之際 1 且該譯解楔寫本頁裝 1 姐係相對應於個先刖已經被辨識出之語言 L 1 當一個 1 1 語法錯誤被檢測出之時可 K 開始第 t nai 圓中所給的流程圖 1 | 中之方法〇 1 訂假設當 __1 語法錯誤係被檢測出且資料流之位置已 1 I 經到達一位置 P 1 同時該錯誤的源頭將會被找到於一位 1 1 置 Ρ 0 係由該解碼迴路所決定 ( 起始步驟 7 0 0 ) 〇 1 1 介於這些位置間之偏移係為 d 1 — P 1 _ P 0 〇 JL 知4、為回 g*g 懕檢測一語法錯誤譯解該語 L 1 之方法係被 1 I 插斷 ( 步驟 7 0 2 ) 同時一個自動語言辨識方法係被啟 1 1 動 (步驟 7 0 ) 9 其係藉著參考譬如像是第八圖之 1 1 流程圖來加以說明 0 1 | 第八圖之流程圖係關於一過程 8 0 〇 t 用來白動辨 m 1 I 在一個具有 N 個字元 ( 介於位置 P 0 與 N — 1 之間）之區 1 1 塊中之語言〇 1 1 在一起始步驟 8 0 3 中該參數 P 2 係被給定 N 之值 1 1 - 31 - 1 1 本紙張尺度逋用中國國家標準（CNS ) A4規格（21〇Χ：297公釐） A7 311997 _B7_ 五、發明説明（纠），同時先前的語言係劈定義為未知。其後*該方法係進行至步驟8.0 4，以在介於位置p 0與p 2— 1之間搜尋一語言。此搜尋可以使用定義於第一圖Μ及第二至第六圖中之該等方法來執行。其後，一測試806使得決定是否一語言L已經被辨識出於一位置ρ處。如果答案是肯定的話則步驟8 0 8係指出是否該舊的語言與該語言L相同，Μ及是否參數ρ 2之值與該位置ρ 相等。其後，一測試809係被執行，用來決定是否ρ 2之值為零。如果不是的話*該方法回到步驟804，同時該語言係被找尋於介於Ρ〇與ρ2— 1之間。否則，如果ρ 2之值為零的話，則該方法係進行至步驟8 1 0，其中慑指出該經過檢測之語言係為舊的語言，於位置ρ 2處。該方法於是移至第t圖之測試7 1 0。如果測試8 0 6之答案是否定的話，該方法係進行至一測試8 0 7，用來決定是否該舊的語言係為未知。如果不是的話，則方法係移至步驟8 1 0，其中係指出該經過檢測之語言係為舊的語言，在位置ρ 2處，並且指出一旗號係存在於介於位置ρ 0與位置ρ 2— 1之間，假設 ρ 2不為零的話。否則，如果測試8 0 7的答案是肯定的話，方法係移至步驟8 1 3，其僅係指出存在一旗號介於 ρ 2與ρ 2 — 1之間，之後方法係移至步驟8 1 5K要求 -32- 本紙張尺度逋用中國國家梂準（CNS ) A4規格（210X：297公釐） (請先閲讀背面之注意事項再填寫本頁) -裝

、1T 經濟部中央標準局員工消費合作社印製經濟部中夬揉準局員工消費合作杜印製 A7 ___ B7 _ 五、發明説明（3/7) (reQuest)另一個區塊，然後該方法回到步驟8 ◦4K搜尋一語言，在介於p〇與P2—1之間。藉著參考第七圖，測試7 1 0係用來決定是否該先前處理過的語言L1係相等於在步驟704中所找到的語言 L2 ’該步驟704係相當於第八圖中之流程圖。如果測試710之結果是否定的話，則方法係移至步驟7 1 1 ，其係用來不考應來自位置p 〇與d之資料而從位置P處啟動該語言L 2之處理。如果測試7 1 0之结果是肯定的話*方法係移至步驟 7 1 2，其係用來忽略介於p ◦與p之間的資料而繼纘處理使用語言L1，從對應至p與pi中較小的一個之位置處。自動語言辨識方法之施行的一個例子*其中至少施行第一圖至第八圖之流程圖之一部分，係藉著參考第九A圖至第九F圖而加K說明。自動語言辨識方法係被執行於一個開始於位置P 0的資科區塊，舉例來說，一個1 0 24位元組的區塊。如果該方法失敗了、其中沒有語言被辨識出來的話，至少該資料區塊的前端部分係被消除，同時由該資料流中接下來之位元組取出之適當數目之位元組構成區塊。例如，可能可Μ保持該起始區塊之一終端部分，其長度係不超過1 2 8位元組。該自動語言辨識方法於是被重覆，係使用一新的源頭位置ρ 〇 *當被增加從起始區塊被消除之位 -33- 本紙張尺度適用中國國家標準（CNS ) Α4見格（210X297公釐） (請先閱讀背面之注意事項再填寫本頁) -裝. 、1Τ 經濟部中央橾準局員工消費合作社印製 A7 B7 五、發明説明（+丨）元姐數目時。此狀況$能係因一個很長的旗號B之出現之故，特別是一個較資料區塊為長的旗號出現之時，如第九 Α圖中所顯示一般。如同開始時執行於該區塊b1上之辨識方法於是再度被執行於區塊b 2上。如果一個語言L 2被辨識出來的話*則檢査是否該偏移d2為零，該偏移d 2係為介於在該語言L2被辨識出之位置p 2處與位置p 0之間之偏移。如果d 2為零的話，則檢査是否該語言L 2係相同於該語言L 1。如果是的話，並且如果該偏移d 1亦為零的

I 話，則該辨識方法係被重新開始，回到該處理過程被插斷處之步驟。此係對應至一種情況：發生一個語言的變換（ swi tch)於位置pO處而沒有任何旗號（第九B圖 )，並且在p0之後該語言L1並未被辨識出之情形。另一方面，如果該偏移d 1並不為零，一個新的語言 L 1之辨識係被証實，同時該處理過程係重新開始，使用語言L1，從位置pi處，亦即，在從該位置p〇處偏移 d 1位元组之後。此係為K下之情況：一錯誤F已經發生於介於該位置pO與pi之間（第九C圖），並且該錯誤係在重新開始處理過程之前被跳過。當測試710指出該新辨識出來的語言L2係與該先前的語言L 1不同之時，則處理程序係被重新開始，使用語言L 2M及從位置ι> 0處。此係為Μ下之情況：已經發生介於語言L 1與語言L2之間的變換了，但是確沒有一 -34- 本紙張尺度適用中國國家標準（CNS ) Α4規格（210X297公釐） (請先閱讀背面之注意事項再填寫本頁) 丨裝、1Τ 311997 at Β7 五、發明説明（从）旗號介於其間（第九D圖）。當該偏移d2並非為零之時’可K確認是否出現在介於位置p 0與P 2之間的該等字元係為該語言L 1之特徵。如果不是的話，處理程序重新開始’係以語言L 2 .，從位置p 2處*亦即，跳過位在介於位置D 〇與位置D 2之間的d 2個位兀組。此係為以下之情況：：在經過—'個錯誤 FM及一個旗號B之後’已經語言上已經發生了變換。然而，如果該語言L 1之特徵係在位置p 2的上游找到的話，使用該語言L 1之處理程序係從位置P 3處繼鑛，在該位置p 3之後這些自元係被找到，亦卽，在執行一偏移d 3以跳過位在p 0至p 3範圍内的字元之後。此係為Μ下之情況：在一個資料區塊的長度内，已經發生了一個錯誤F、一個旗號Β，以及一個語言上的變換（第九F 圖）。在該錯誤已經被消除之後，該語言L1之處理程序應該要繼續，直到一個語法錯誤指出該旗號Β之出現之後 ----1-----ί -批衣------、玎------^ ^ (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印装 -35- 本紙浪尺度適用中國國家標準（CNS ) Α4規格（210X297公釐）

Claims

D8 申請專利範圍 1 •一種自動辨識於其中數位資料被接收到之語言的方法，該方法包括於被接收到的資料中選擇一資料區塊，並且在該區塊中搜尋有肋於指出一語言存在或是不存在的要素，其特徵在於：辨識之執行係藉由以一預先設定之次序搜尋多數個已知之語言，Μ及藉由對每一語言進行，於該資料區塊中，至少為一個之該語言之特徵要素之搜尋。 2 ·如申請專利範園第1項中所述之方法，其特徵在於：該語言搜尋次序係依照辨.識錯誤機率增加之次序來進行。 3 ·如申請專利範圍第1或2項中所述之方法，其特徵在於：搜尋係開始於搜尋具有一特殊標記之語言。 4 *如申請專利範圍第3項中所述之方法，其特徵在於：具有一特殊標記之語言係依照標記長度降低之次序進行搜尋。 5 ·如申請專利範圍第3項中所述之方法，其特徵在於：該搜尋於是繼續進行，搜尋具有特.殊關鍵字或是同步化字元之語言。經濟部中央標準局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁) 6 ♦如申請專利範圍第3項中所述之方法，其特徵在於：該搜尋接下來係Κ使用記憶符號之語言繼續進行搜尋，其中該等記憶符號ί系由已經決定數目之有效字元所構成 7 ·如申請專利範圍第6項中所述之方法，其特徵在於：為了在一群語言中自動辨識一個語言，其中該群語言 -1 - 本紙張尺度適用中國國家揉準（CNS ) Α4規格（210Χ297公釐） 311997 A8 B8 C8 D8 々、申請專利範園係為數個使用由已經決定數目之有效字元所構成的計億符 (請先閲讀背面之注意事項再填寫本頁) 號之語言，此方法包含至少κ下之步驟：儲存屬於該群語言之記憶符號1其中係包括屬於該群語言之一者或是一部分語言之區別性記憶符號，Μ及不屬於該群語言中之其它語言之區別性記憶符號；將該等被儲存之記憶符號與各组形成該被選擇之區塊之某部分之字元比較，其中該等字元須具有一長度和該等被儲存之記憶符號之長度相同.；Κ及 \ 在比較的步驟中，如果一組字元係被檢測出對應至一，區別性記憶符號的話，則該區別性記憶符號不屬於之該（等）語言係被消除。 . 8 ·如申請專利範圍第7項中所述之方法，其^特徵在於：如果在比較步驟中，一組字元係被檢測出對應至一記憶符號，且其中該記憶符號只屬於在該群語言中之僅僅單一之語言中的話，則該單一語言係被認為已經被辨識出。 9，如申請專利範圍第8項中所述之方法，其特徵在於：經濟部中央標隼局員工消費合作社印製對於每一個記憶符號屬於多數個在該群語言中之語言並且通常其後跟隨著，在一組經過編碼之資料中，預先設定數目之參數，而其中該等參數對於該等語言之每一涸係為特定的參數，與每一個語言之記億符號相關連的該等預先設定數目之參數係被儲存起來；以及如果在比較步驟的過程中檢測出一組字元，同時該組 -2- 本紙張尺度適用中困國家樑準（CNS ) Α4規格（210X297公釐） 311997 π? C8 D8 六、申請專利範圍宇元係對應至屬於該多數個在群語言中之語言，並且通常後面有參數跟隨著或是沒有參數跟随著的話，則在該資料區塊中跟隨著該被檢測出之記憶符號的參數的數目係被計數，並且對於關連於各種不同語言之每一個之該計憶符號，與其所儲存之該等參數的數目相比較，同時，對於所儲存之參數的數目與經過計數之參數的數目相等之語言，係被認為已經被辨識出。 1 0 ·如申請專利範圍第.8項中所述之方法，其特徵在於：被認為已經被辨識出之該語言，係可K藉著確認，至少在該區塊從該第一個被有效地檢測出之記憶符號開始的一部分長度中，該資料區塊未含有對於該語言為錯誤之參數以及/或是記憶符號，來証實語言之辨識。 1 1 ·如申請專利範圍第1或2項中所述之方法，其特徵在於：在其中執行語言存在的搜尋之實料區塊或是觀察視窗的長度係可K變化的。經濟部中央榇準局員工消費合作社印装 (請先閲讀背面之注意事項再填寫本頁) 1 2，如申請專利範圍第1 1項中.所述之方法，其特徵在於：該觀察視窗的長度之變化係為用來進行搜尋之語言類型的函數。 1 3 · —種自動選擇一個用來將被接收到的數位資料解碼之譯解橫組之方法，此方法包含：從被接收到之資料中選擇一實科區塊；自動辨識一語言，其係藉著在該實料區塊中，從多數個可能被用來為該資料寫碼之語言中搜尋, 有肋於指出一持定語言存在或是不存在的要素，Μ及選擇 -3 - 本紙浪尺度適用中國國家梯準（CNS ) Α4規格（210X297公釐） 7 9 9 1 1 3 8888 ABCD 經濟部中央梯準局男工消費合作社印装、申請專利範国 —對應至該經過辨識之語言的譯解器；此方法之特徵在於 :自動語言辨識之執行係使用申請專利範圍第1至4項中任一項所述之方法。 1 4 · 一種自動選擇一個用來將被接收到的數位資料解碼之譯解模組之方法，此方法包含：從被接收到之資料中選擇一資料區塊；自動辨識一語言，其係藉著在該資料區塊中’從多數個可能被用來為該資料寫碼之語言中搜尋有助於指出一特定語言存在或.是不存在的要素，以及選擇一對應至該經過辨識之語言的譯解器·，此方法之特徵在於 :當一語法錯誤係為該譯解模組被檢測出之時，解碼之進行係被插斷，同時自動語言辨識方法係被重新開始於下列步驟之至少一者： a )在被接收到的資料中檢測一錯誤之存在，並且處理該錯誤； b )在被接收到的資料中檢測一旗號之存在，並且處理該旗號；Μ及 .、 c )檢測在語言上之一變換，並且選擇對應至該新被辨識出之語言之譯解模組。 1 5 ·如申請專利範圍第1 4項中所述之方法’其特" 徵在於··自動語言辨識之執行係使用申請專利範園第1至 1 2項中任一項所述之方法。 L 6 .如申請專利範圍第1 4或1 5項中所述之方法‘ ，其特徵在於：一錯誤或是一旗號係被檢測出且可以被處一 .1 _ --------7 装-- (請先閲讀背面之注意事項再填寫本頁) >11- J A _ ΐ"紙張尺度速用中國國家棵丰(CNS ) Α4ϋ#· ( 210X297公釐） 311997 A8 B8 C8 D8六、申請專利範圍理，只要是在一語法錯誤被檢測出之後被辨識出之語言係與先前之語言相同，並且一偏移係存在於該數位資料流中介於該語法錯誤開始之處與相同的語言被再度辨識出之源頭之間。 1 7 ·如_申請專利範圍第1 4或1 5項中所述之方法，其特徵在於：一個旗號係被檢測出且可Μ被處理，只要是該經過辨識之語言在一語法錯誤被檢測出之後係不同於先前之語言，同時一膈移係存.在於該數位資料流中介於該語法錯誤開始之處與該新的語言被辨識出之源頭之間，並，且在確認其間沒有任何語言之後。 1 8 ·如申請專利範圍第1 3至1 5項中任一項所述之方法的使用，係為用於將一顯示器或列印裝置所接收到之數位資料解碼。 --------~ 装-- (請先閲讀背面之注意事項再填寫本頁) 訂 J 經濟部中央捸準局員工消費合作社印装本紙張尺度適用中國國家揉隼（CNS ) Α4規格（210X297公釐）