TW448381B - Automatic segmentation of a text - Google Patents

Automatic segmentation of a text Download PDF

Info

Publication number
TW448381B
TW448381B TW088121572A TW88121572A TW448381B TW 448381 B TW448381 B TW 448381B TW 088121572 A TW088121572 A TW 088121572A TW 88121572 A TW88121572 A TW 88121572A TW 448381 B TW448381 B TW 448381B
Authority
TW
Taiwan
Prior art keywords
word
string
words
tree structure
new
Prior art date
Application number
TW088121572A
Other languages
English (en)
Inventor
Ya-Cherng Chu
Original Assignee
Koninkl Philips Electronics Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninkl Philips Electronics Nv filed Critical Koninkl Philips Electronics Nv
Application granted granted Critical
Publication of TW448381B publication Critical patent/TW448381B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Description

448381 i五、發明說明(π j 本發明係有關於將一連接本文分段成字之一方法,包括 |讀取表示連接本文的一輸入字串的該等步驟;藉者將該輸 |入字串與在一字典的字相比較而識別在輸入字串的至少一 序列單獨字;以及輸出該等至少一識別的字序列。 本發明係進一步有關於用以將一連接本文分段成字之一 |系統;該系統係包括用以讀取表示連接本文的一輸入字串 I之裝置;藉著將該輸入字與在一字典的字相比較而識別在 I輸入字串的至少一序列單獨字之裝置;以及輸出該等至少 一識別字序列之裝置。 逐漸提升的進階自然語言處理技術是使用在資料處理系 統,例如語音處理系統、手寫/光學字元辨識系統、自動 翻譯系統、或文書處理系統的拼字/文法檢查。此系統係 ; 時常使用與個別字或字序列有關的統計資訊。統計資訊可 1藉由分析較大本文主體而獲得。對於分析而言,個別的字 |需要在本文識別。在包括西方語言的許多語言方面,字是 j由邊界符號分開,例如一空白或其他標點符號,容易標示 確認。然而,許多其他的語言在字之間沒有邊界符號。此 語言的範例是例如中文、日文、與韓文拼音的許多亞洲語 言。此語言有時稱為膠著語言。典型上,這些語言是使用 特殊字元r會意文字")撰寫,每一字元表示一或多個音節 !點,而且通常是一觀念或有意義的單元。一字是由這些其 !中一或多個字元所組成。此一語言本文的讀者必須可識別 這些字的邊界,以構成有意義的本文。對於許多應用而 言,只有一序列的字必須被識別。
第5頁 448381 丨五、發明說明(2) j 從美國專利案號5, 448, 474,來自連接中文的中國字單 I獨之方法及系統是已知。在此系統,一字典查詢程序可被 執行,其中一本文的所有部份字串可被識別。對於本文的 每一字元而言,它可檢查字典的每個字是否該字符合在此 |位置開始的本文°如本文” s 〇 f t w a r e"的範例,在位置〇(本 文的第一字元),一符合可找到該等字” so” 、h soft"、與 software” ;在位置1可找到該等字"〇f "與"〇it";在位置 4可找到該等字” w a r ”和11 w a r e";在位置5可找到” a ”與 "a r e";以及在位置6可找到” r e"。對於每個符合而言’一 登錄可在一表格建立。該登錄係包括符合的字、在本文符 合開始的位置、與字的長度。如果發現在一位置上沒有符 合的字,一登錄便可在包括個別字元的表格達成。如此, 所有可能的字與未符合的字元便可加入表格。然後’在表 格的登錄數目便便可基於一字必須在毗連—前字結尾開 始,而且必須在础連下一字的開始結東的標準而減少。如 此,既然重疊字(非®比連)將可移除’所以部份的本文便可 由識別的字所涵覆。一分開恢復程序的執行可基於保持最 長符合重疊字的一標準而更正不想要刪除的重疊字。最 後,再次闡明,將非毗連本文或另外未刪除字的結尾或開 !始的所有字移除。最後的結果可包括數種可能的字序列。 I有關一般本文時常發生的字的資訊可用來選取該等其中一 I序列。例如,既然兩字元字組比單一字元字组更常使用’ 丨所以兩字元中國字組的一序列便可使用由兩單一字元字组 i所表示的兩字元的一相同序列選取。
第6頁 44838 1 五、發明說明(3) | 已知單獨程序是複雜的,並且需要一恢復程序以更正錯 丨誤的刪除" | 本發明的一目的是要提供更有效的方法及系統。 若要符合本發明的目的’該方法的特徵在於識別至少一 j i字序列的步驟係包括以一反復方式在輸入的字串建構表示 丨字序列的一樹狀結構: 將該輸入字串視為工作子串, | 對於一字典的每個字而言: 將該字與工作字串的一開始相比較;以及 如果字符合該工作字串的開始: | 在表示字的樹狀形成一節點; ί 與部份輸入字串的節點有關,該部份係開始於毗連 該字的一結尾位置的緊接位置;以及 ! 形成連結至該節點的一子樹狀,其係藉由使用結合 工作字串部份而表示在與該節點有關部份輸入字串中的字 丨序列。 | 藉由建立一樹狀結構,分析輸入的字串可自動造成識別 :®比連一前字的僅有一些字。原則上,在輸入字串的結尾上 結東的最後字之所有識別的字序列是可能的。如此,不可 :能的(鑑於先前的字)的字不會認為是候選的。此可減少要 I !處理的資料量。而且,刪除字及再引用重疊的複雜程序是 i I不需。根據本發明將取樣字串"s 〇 f t w a r e"分段會造成具兩 丨 :主要分枝的一邏輯樹狀結構,一分枝具有表示"software"
I 字的單一節點,而一分枝具有分別表示、of t"與"waren字
第7頁 448381 五、發明說明(4) !的兩連結節點。結果,只需三個登錄,以取代在先前技藝 丨系統的1 〇個登錄。 在根據本發明如申請專利範圍第2項之具體實施例,如 ;果符合一預定標準,多數新的字便加入不同的長度。藉著 丨將不只是單一字元的字元未知序列加入一資料結構,它變 成能以一簡單的方式而識別多重字元的新字。這使程序適 I合於例如日文的語言,其中許多單一字元不表示一字。此 |外,它允許當作較佳新字的一都重字元的字,其中單一字 :元字組不需要輸入字典。如此,便可避免字典受到單一字 元的’干擾’。在一字典具有許多單一字元登錄會減少將本 文正確分段成字的機會。如一範例,如果單一字元π ΐ"是 :在字典中,本文"thisbook1'便可分段成字M tn 、” his”、與
I 11 book·1 的序歹>J 。 i 在根據本發明的如申請專利範圍第3項之具體實施例, 此標準係基於一字序列是否可藉由使用已存在的字典識別 的一整體決定。如果沒有序列可被識別,新的字便可加
I i入。此測試可藉著先只使用已存在字典的已知字而建立一 I樹狀結構來執行,而且在樹狀建立之後,檢查至少一路徑 :是否表示符合該整體輸入字串的一字序列。只要藉著該樹 狀的第一路徑到達該輸入字串的結尾,該確認便可藉著在 ;設定一參數樹(到達字串結尾)建立樹狀結構期間而能非常 !的簡單。 在如申請專利範圍第4項之具體實施例,該等新字可加 入一或多個路徑末端結尾,該等路徑的對應字序列不符合
第8頁 44838 1 五、發明說明(5) 丨整個輸入字串。此節點可藉著跟隨經由該樹狀的路徑而簡 單地設置,而且如果路徑結尾節點符合輸入字串的結尾, 亦即該等字符合並位在字串,便檢查。此可藉由檢查與該 丨末多節點有關的部份輸入字串是否空白的一簡單方式而檢 |查,表示該等符合的字是否在整個字串找到)。在一較佳 |具體實施例,一整體決定的採行是否要增加新的字(如前 述)。如果增加新的字,該樹狀結構便可重建。在重建樹 狀期間,加入新字的節點可在字典的字沒有符合其餘部份 丨輸入字串(而且還不是整個字串已處理)的樹狀位置找到。 I 在如靠申請專利範圍第5項的具體實施例,可計算有多 少字符合工作字串的開始。如果此數值低於一臨界,那麼 |新的字便可增加。有多少新字可增加係決定在所發現符合 ;字的數目,其申如果發現較少的符合,理想上更多的新字 便可增加。如此,在字序列的另一想要的數目便可建立。 在如申請專利範圍第6項之具體實施例,如一極端情況, 該臨界可以是如果已存在字典沒有單一字符合該工作字串 的開始,結果是新的字可增加。如申請專利範圍第5和6項 丨之具體實施例理想係用於樹狀的區域決定,就某種意義來 |說在樹狀的每個分枝可決定是否要增加(更.多)新的字。 I 在如申請專利範圍第7項之採行區域決定的另一具體實 !施例,已在路徑的新字數目的採用係當作用以決定新的字 !是否需要增加的衡量。在一 ’理想’情況,如果在一路徑的 :平坦時間需要一新的字,只有一或一些新的字可增加,其
I 實質上所有皆可能(從人類讀者的預期)。事實上,每個具
第9頁 44838 1 :五、發明說明(6) |有一不同長度的許多候選需要測試。一些錯誤的候選字會 造成一錯誤排列識別在其餘字串的字。在沒有特殊衡量, I此一錯誤排列會造成進一步增加新的字(可能由進一步新 i的字等跟隨)。例如,藉由允許在一路徑的兩或三個新 i |字,一般可避免樹狀使用由錯誤的新字所造成的許多序列 而擴展。 在如靠申請專利範圍第8項之區域決定的另一具體實施 例,計算該等字序列(藉著樹狀對應路徑)的可能性。如果 可能性降得太低,該路徑便不再延長。如此,包括新字的 !不切實際分段便不可進一考慮。有利地,該臨界是動態建 立,以確保一相對估計。如果已有一或多個序列已識別 (具一計晝的可能),只要序列具有一較高的可能性,其他 ;的序列便可處理。理想上,一新的字具有一相對較低的可 !能性,其中該可能性是決定在新字的長度。如此,一字序 i !列的可能性便可隨著在序列的新字數目而減少,就如申請
I 專利範圍第9項。如此,便可避免一新字(造成其餘的字串 亦錯誤排列,並且需要進一步新的字)的錯誤選擇造成與 !許多新的字持續將樹狀擴展。 根據如申請專利範圍第1 0項之具體實施例,新字的長度 1是限制在K個字元,其中K> 1。理想上,K等於5,對於特別 是具主要短字的亞洲語言而言,確保多數的字可識別,而 i無需過度建立較大的樹狀。 ! 如申請專利範圍第11項之一具體實施例,如果路徑的最 !後一字是與輸入字串的結尾排成一列結束,在樹狀的一路
第10頁 五、發明說明(7) 徑只可認為表示一有效的分段。這可藉由只從樹狀這些結 !尾節點(葉)由原路退回開始而識別有效的序列,其結合的 字是與輸入字串的結尾排列。 I 如申請專利範圍第1 2項之具體實施例,一統計的N字元 |語言模型是用於藉著樹狀而決定一最有可能的路徑。如 i次,一發現的決定便可採行,以便從數種可能的序列選取 一最有可能的序列。此序列的字可被輸出,作為表示分段 丨的本文。理兩上,如果該方法是用於建立語音辨識系統的 一字典(字彙及/或語言模型),理想是使用具N字元語言模 丨型的内.定字典。如果字彙較大(例如超過1 0, 0 0 0個登錄), I理想是使用2或3個字元。 i 若要符合本發明的目的,該系統的特徵為用以識別至少
I 一字序列之裝置在操作上能以反覆方式在輸入字串建立表 丨示字序列的樹狀結構: 將輸入字串視為工作字串; ! 對於一字典的每個字而言: 將該字與該工作字串的一開始相比較;以及 如果字符合該工作字串的開始: i ; 在表示該字的樹狀形成一節點; 與部份輸入字串的節點有關,它是緊接毗連該字的 結尾位置的一位置上開始;以及 丨 形成連結至該節點的一子樹狀,其藉由使用當作工 作字串的部份而表示在與該節點有關的部份輸入字串的字 序列。
第11頁 448381 五、發明說明(8) 一" ~ ....._______ 本發明的這些及其他的觀點將可從 的闡述而更顯然。 巧所示具體實施例 圖1係根據本發明而描述系統的方塊圖, 圖2係顯示一語音辨識系統的方塊圖, 圖3係顯示用以字或次要字單元模型 型, 的隱藏Markvo模 圖4係顯示只使用已知字及新字 式流程圖; 兩步驟方法分段方 圖5係顯示使用已知字分段的— 以及 予刀杈的以樹狀為基礎流程圖’ =6係顯示使用新字分段的一以樹狀為基礎流程圖。 々$ _主4 + 成子的許多範例是以拉丁 文子凡表達的本文。事實上,包枯 —外咕 u 手只上匕括的语言係使用不同的字 7L付唬’例如片假名或平假名。 圖1係根據本發明而顯示系統川的—方塊m统 ,係包括輸入裝置110 ’用以接收表示一連接本文的輸入 該字串可表示一片語、-句子、或多重句子的-較 大本文。在亞洲語言方面,例如 —_ 文或中文句子是由一分 隔子7L分開。對於此語言而古,籽 ^ ν ^ . 。向。較大的本文理想是以一句 子Si又。最後,一較大的太今#。 ^ χ 文要先分段成句子,可使用句 子分隔符號來識別句子,而且 ,^ 〇D _ 1 5亥專個別的句子可使用根據 本明的方法而分段《並利μ 安/ σ ,、工上’該輸入字串可從一本文檔 诸々从* u u »丄科供成—共同的格式,可使用一内 建或外部轉換器。本文亦
J例如错由掃描文件及使用OCR
第12頁 ^ 4S 3 3 ; 五、發明說明(9) 技術f辨識一字串而從—硬拷貝文件取回。 5玄系統係進一步句括辦它丨# 分p +户彻二別裝置】2ϋ,用以將該輸入串起 刀士又成一或多個字序列。並别L & ψ ^ 體實絲 .., I上,邊識別裝置〗2 0是以軟 奴X ’而在例如—個人雷 子人 5¾ , , 斗 包腦的適當處理器或一工作站處 里益上執行。忒識別裝置12〇矽祛田 疼 典)122及亦可是選取^ 2〇係使4用用以分段的-字典(字 100 取性的一語言模型124。一般假嗖絲血 122的字彙與語言模 奴假。又辭典 哕糸社-r + y τ 1 Z4疋基於—特殊語言的分隔字。 。亥系、,克可支挺不同語t的;^曰令备 糸铽沾i , ·, 的不问子某。字彙的大小可隨著該 至少一 Μ別玄成^ 輸出裝置130可用於輸出該等 此)丰床^丨义/ 。在許多情況,理想是只輸出—(或一 ;子/:。夕齡於根據本發明的方法及系統亦可用於痛 右叮二二匕需析例如用於產生一自動索引的數個或所 有可能的候選字。 乂所 病:ί ί上’方法及系統是用於圖案辨·,例如較大字彙遠 …辨識或手寫辨識系統,其中一字彙是用來辨識字連 而且°。5模型可用來改良基本的辨識結果。既然用於 案,識的技術亦可有利地採用於根據本發明的分段’首先 要提供一圖案辨識系統的描述。圖2係描述一連續語音辨 識系統2 0 0 ’該系統係包括一光譜的分析子系統2】〇及—單 几符合子系統2 2 0 [可參考L.Rabi ner, B~H.
Juang, Fundamentals of speech recognition", Prentice Hal 丨 1993,pages 434 t0 454 ] e 在光譜分析 子系統210,該語音輸入信號(SIS)是光譜及/或暫時分 析1以计异.特徵(觀察向量〇 V)的一代表性向量D典型上,
448381 五、發明說明(10) i該語音信號可例如藉由應用預強調而被數位化(例如6. 6 7 |什赫的取樣率.)及預處理。連續的取樣聚集(成區塊)成 框’以符合例如3 2毫秒的語音信號。連續框可部份重疊, 例如1 6毫秒。時常,線性預測編碼(LPC )光譜分析法是用 ;來計算表示特徵(觀察向量)向量的每一框。例如,特徵向 量可具有24、32或63個元件。在單元符合子系統220,該 觀察向量是與語音辨識單元的一目錄相比較。一語音辨識 單元是由聽覺參考序列表示。可使用各種不同形式的語音 辨識單元。如一範例所示,一所有的字或甚至一群字可由 —語音辨識單元表示。一字模型(WM)可提供於在聽覺參考 序列的的一轉錄之一特定字彙的每個字。對於系統而言, ;其=一整個字可由一語音辨識單元表示,一直接關係是存 在字模型與語音辨識單元之間 << 特別是較大字彙系統的其 =系統可用於基於次要字單元語言的語音辨識單元,例如 電話、diphones或音節、及例如fenenes*f "元。對於如此的系統而言,一字模型可由一字了 提供,其描述與字彙的一字有關的次要字單元序列;以及 部份字模型232,其描述包括語音辨識單元的聽覺參考序 丨列。一字模型形成器236可基於部份字模型232與字典234 而組成字模型。圖3A係描述基於等個字語音辨^ ^的一 :系統之字模型300,其中所顯示字的語音辨識單a = i 個聽$參考(301至310)的序列而模型化。圖3“描 i处基於.次要字單元的一系統之字模型32〇,其中所示的字 i是由3個部份字模型(35〇、36〇和37〇)的序列而模型^匕·,子每
第14頁 448381 :五、發明說明(11) i個具有4個聽覺參考(351、352、353、354 ;361至3 64 ; 371至374 )序列。在圖3所示的字模型是基於隱藏Mark〇v模 型,此模型是廣泛使用於猜測模型語音與手寫信號。藉著 此模型的使用,每個辨識單元(字模型或部份字模型)典型 是由HMM提供特徵,其參數可從一序列的資料組估計。對 於包括例如1〇, 0 0 0至60, 0 0 0個字的較大字彙語音辨識系統 I而έ ’既然它需要許多的序列資料來排列較大單元的一 | Η關’所以通常可使用例如4〇的有限次要字單元。一η丽狀 態係符合一聽覺參考(用於語音辨識)或簽字參考(用於手 寫辨識)。各種不同的技術已知是用以模型化一參考,包 括非連續或連續可能性密度。 ! 子如圖2所示一子準位相配系統2 3 0可將觀察向量與語音 1識單元的所有序列比較,並且在該向量與一序列之間提 !仪相配的可能性。如果使用次要字單元,限制便可藉由 :使,字典234而加諸於比較,以限制在字典234中序列的次 I要字早几的可能序列。這可減少字可能序列的結果。一句 i子準位相配系統240係使用一語言模型(LM),以便在比較 | ^做,—步限制3所以搜查的路徑是對應字序列,該等字 j列是如同由語言模型所指定的正確序列。如此,單元相 ::系% 220的結果是-辨識的句子(RS)。在圖案辨識所 盥:的語言模型係包括語言的句子構造及/或語意限制242 |二辛識工作。基於句子構造限制的一語言模型通常係稱 i 文法2 4 4 ^ … x員似的系統是已知為辨識手寫。除此或選擇性指定字序
第15胃
4 4838 1 _ .. — - ——... _________ :五、發明說明(12) 〜手寫辨識系統的語言模型可指定字元序 列之外,用於 I列。 由語言模型所使用的文法2 4 4可提供一字序列W = w2w3. . . Wq的可能性’原則是以下列式子提供: I Ρ(^)=Ρ(νι )P(w2 |ws).PCw3 . . P(wq I w,w2w3 ...wq)·
I I 實際上,既然在一特定語言痛實估計所有字與所有序列 長度的條件字可能性是不可實行,所以N字元模型便玎廣 泛使用。在一N字元模型,項式P (、·丨w] w2w3. _ 说卜〗)是接述 I於P(Wj丨WjN+i. ..wKl)。實際上’使用兩個字元或三個事 元。在三個字元方面’項式IHWj | w]w2w3· . . Wh )接近於 P(wi丨whWm)。自動建立1')字元語言模型的方法是藉由〆 :簡單的相對頻率而估計有條件的可能性P(Wj | Wpw .. Ό :F(w卜叫’其中F是特定本久 序列主體中在飲數的字串發生數目。對於可靠的估計而 |言,. . w卜,wp必須是實質在特定的主體。 | 對於圖案辨識而言’ 一般需要字典與辭典皆基於表杀要 辨識本文的字。這可藉由分析代表性本文而達成,其是甚 於字或字序列頻率而從本文摘錄字及建立一語言模型,槔 丨據本發明的分段可有效地用於摘錄來自連 2二的對 丨於排列-圖案辨識系統的字典或辭典而;接造成 有:二―輸出序列。如果使用在_圖案辨識系統,該分 L統100理想亦包括更新裝置140,用以將輪出字序列
44838 1 i五、發明說明(13) (亦即字不仍然在辭典1 2 2 )的新字結合在辭典1 2 2。理想 |上,語言模型亦可更新,例如反映新的字或字序列的可能 ί性,其包括新的字及已知字或字序列的可能性。 根據本發明,分段是藉由建立表示輸入字串的單獨字序 列的一樹狀結構而執行。原則上,如果字典已包括一要分 段本文的所有字,沒有新的字需要增加。結果,一字序列 丨可或不可包括一或多個新的字。既然如果新的字需要增 力〇,分段便更困難的與複雜,所以理想上先決定本文是否 只能使用已知的字而分段。整個程序是在圖4描述。在步 驟41 0,一輸入字串是從一本文主體42 0取回。如先前的描 述,字串可以表示一月語、一句子、或一多重句子本文。 在步驟43 0,它可檢查整個主體是否已分段。如果如此(該 字串會是空白),程序會在步驟440結束°否則,在步驟 4 50,本文可籍由使用特定的辭典(只有已知的字)分段。 !此理想可藉由建立一樹狀結構而完成,其中在樹狀結構的
I |每個節點係表示一已知的字。藉著不能夠完成(沒有知道 ;的字符合其剩的字串)樹狀(表示一字序列)的路徑完成。 步驟450將會在下面參考圖5而詳細描述。在步驟460,它 可檢查本文是否只使用已知的字分段。這可藉由檢查經由 |該建立樹狀的至少一條路是否完成(亦即對應於一路徑的 !結尾節點符合位在該字串結尾的字串結尾字元)而測試。 ί !最後,經由樹狀的路徑可遵循,直到對應整個字串的一路 !徑發現為止。理想上,當在樹狀建立期間而到達該字串的 1結尾時,此可用於當作一"到達字串尾Π參數儲存。如此, 44838 1 五、發明說明(14) !檢查一路徑完成是否只包括檢查儲存的資訊。如果步驟
I
! 4 6 [)的測試表示本文可分段,該識別的字序列便可在步驟 4 70輸出,而且程序會在步驟41 0持續。如果不是,程序會 丨在步驟4 8 0持續,而且重新將字串分段,但是現在允許增 加新的字。步驟4 8 0將會在下面參考圖6做更詳細描述。事 ί實上,可了解到在步驟4 6 0識別可使用義知字分段的一字 |串亦可使用新的字分段。本文的讀者可能較喜歡包括新字 I的一分段,亦即具這些新字的一字序列比使用已知字的識 別序列更可能出現。此情況將很少發生。然而,若要處理 ;此情況而不始終使用可能的新字將字串分段,一般較喜歡 選擇部份的步驟4 6 0,一已知字序列的可能性可決定(例如 使用Ν -穀粒語言模型),而且如果該可能性超過一特定臨 界,該本文便可認為是使用已知字分段;否則,開始使用 新的字分段D 圖5係顯示只使用已知字開始分段的流程圖。根據本發 明可建立一樹狀結構。原則上,用以建立及表示一樹狀結 構的任何適當技術可使用。在圖5的範例,樹狀可藉著使 用元件(表示樹狀節點)與在該等元件(指標符號)(表示在 |該等節點之間的路徑)之間的清單而表示。在範例,使用 |兩清單=一結尾清單係包括對應一字的該等元件,該字係 丨符合而且是與輸入字串的結尾排列。一等候清單係包括對
I |應一字的該等元件,該字係符合該字串,但是不會與輸入 |字串的結尾排列。每個元件是與字典的一已存在的字有 |關。此關聯性能以任何適當的方式執行(例如將字複製,
第18頁 44838 1 五、發明說明(15) ~
而且將它儲存右+ Μ =£- li'* LJu _JL 失考(m,Λ 資 構或•存在字典的一登錄 > h私付旒或數目))。此外,每個元件是與部份的輸 入子f有關,這些元件會遵循與該元件有關的字。一特殊 7L件是根元件,該根元件是與整個輪入字串有關,但是與 2何的字無關°該根元件使用於結合所有可能的字序列。 實際上,不需要具有一分開的根元件。相反地,對於符合 輸入字串開始的字典的每個字而言,—新的元件便可建 立。該所建立的元件可當作一字序列的第一元件使用。步 驟5 10和511係程序迴路的初始化。在步驟51〇,該根元件 可建立,而且輸入字串是與該根元件有關。在步驟5ιι, 該根元件是放在等候清單。在步驟5丨2,等候清單的一元 件是當作主動元件(結果,該根元件是當作最初主 = 選取)選取。在步驟512,載入工作字串。與等候清單的目 前主動元件有關的字串是當作工作字串使用。如此,既然 該輸入字串是與根元件有關,所以最初整個輪入字串是^ 作工作字串使用,該根元件最初是主動等候清單元件。在 一迴路,在步驟514和516,字典的所有字連續從字典取 回。一下一字的取回是發生在步驟514。在步驟516 /它可 測試一字是否仍取回(不是所有的字皆測試)。如果如此, 在步驟518 ’它可檢查字是否符合工作字串的開始。如果 不是’下一字便可在步驟514取回。如果發生—符合,在 步驟5 2 0,一新的元件便可建立。該元件係連接至字(例如 該字的儲存元件有關),連接至其餘的工作字串(在從工作 字串的開始移除符合的字之後),並且與父元件(亦即與在
第19頁 448381 五、發明說明(16) 輸入字串的引前字有關)連結。對於符合該輸入字串開始 的字而言,該根元件是當作與該等開始字有關的該等元件 之父元件使用。在步驟522 ’它可檢查該輸入字串的結尾 是否已到達(亦即其餘的工作字串是否為空白)。如果如 此,經由樹狀的一路徑便結束,而且一字序列便找到°若 要確保此序列可容易地取回,該元件是在步驟5 2 4儲存在 結尾清單。對於足以確認一字序列(不必然是最有可能的) 的系統而言,只要字串結尾已到達一次,程序便能結束。 如果字串的結尾尚未取回,該元件便可儲存在等候清單 (步驟5 2 6 )〇其餘字串將在稍後分段。在這兩情況,該字 已處理(與工作字串的開始相比較),而且一下一字可在步 驟514取回。對於一工作字串而言,如果字典的所有字已 與字串的開始相比較,迴路便可在步驟5 I 6結束。在步驟 5 2 8,既然該元件已完全處理,所以等候清單的目前所選 取的元件便可從等候清單移除。在一包括的迴路中,尚未 完全處理的所有工作字串可被處理。該等字串的其中每個 是由在等候清單的元件表示。因此,在步驟5 3 0,它便可 檢查該等候清單是否為空白。如果不是空白,該等候清單 的下一元件便可當作在步驟512的目前主動元件選取。如 果等候清單是空白,該最初的輸入字串便已完全分段(直 到只有可能已知的字)。在步驟5 3 4,它可檢查結尾清單是 否包括任何的登錄。如果沒有,在步驟5 3 6,它便可傳迴 只有未成功的已知字的分段。如果結尾清單不是空白,在 結尾清單的該等元件的其中每個表示一字序列。事實上,
第20頁 44838 1 五、發明說明(π) i該等元件是與字序列的最後一字有關1並且與該序列先前 |的字連結°此允許藉由在步驟540的由原路退回而取回字 |序列,該等連結的元件是從在結尾清單上的元件開始。在 步驟538,一或多個字序列是在步驟542選取及傳回,而不 是傳回所有識別的字序列。理想上,該選擇是基於路徑的 可能性。最後,有利的是,一統計Ν字元語言模型是用於 決定一最有可能的字序列。特別是,如果發生分段以改良 一圖案辨識系統的字典及/或語言模型,該已存在的語言 模型便可使用。理想上,一兩字元或三字元語言模型是用 於一較大辭彙圖案辨識系統(例如超過1 〇,0 0 〇個登錄)。 根據本發明,如果符合一預定標準,具不同長度的多數 新字便可加入樹狀結構。在一具體實施例,該等新字是加 入路徑的一或多個結尾節點,而該等路徑的對應字序列不 ί 合整個輸入字串。如圖5所述,該方法可用來建立一基本 的樹狀結構。例如,如果隨出現沒有適當的分段可藉由使 用已知的字找到,需要加入新字的節點便可只藉著經由樹 狀的路徑而可簡單地放置,並且檢查該路徑的結尾節點是 否符合輸入字串(亦即字符合及分段已到達輸入字串的結 !尾)的結尾。藉由使用圖5的技術,一雙連結便可在該等元 件之間維持,一連結是用於將子節點連結至父節點(如先 前所述),而且一額外連結可用於將父節點連結至子節 j點。以此方式,路徑便可從根開始經由該樹狀。對於一路 丨徑的結尾節點而言,它然後可檢查一路徑的結尾節點是否 I是在結尾清單上。如果不存在,新的字便可加入結尾節
448381 ;五、發明說明(18) |點。同樣地,第三清單可引用,而不是經由該樹狀而追蹤 路徑,表示對應結位節點的字串之一路徑結尾節點不是空 I的(亦即沒有已知的字符合其餘輸入字串的開始)。這可藉 由在步驟5 2 8達成檢查至少一符合是否找到。如果沒有, 該元件便可從等候清單放置在表示非完全分段的第三清 單。只要該等節點已放置,新的字便可當作在樹狀的元件 I而建立及表示,將參考圖6而更詳細描述。藉著將械等元 件放置在等候清單,其餘部份的樹狀便能以與圖5所述的 知道字分段相同的方式建立。 圖係顯示將該輸入串起分段的一較佳方法。在此具體 ! 實施例中,已知字的確認及新字的增加能以一在統合的方 式發生。符合圖5的相同項目之項目可由與圖5所使用的相 同數目表示。該等項目不進一步詳細描述。如果在步驟 5 1 6之後,所有的字符合工作字串的開始,在步驟61 0,一 預定標準便可用來決定新的字是否需要增加。如果新的字 需要增加,在步驟6 1 2,新字的一長度便可初始化(在此範 例的初值是1 )設定。在步驟6 1 4,該長度的一字便可藉著 I複製來自字串開始的字元數目而建立。在與步驟520、 5 2 2、5 2 4、和5 2 6所述相同的方式,一對應的元件可在步 1 驟616建立,並且與字、父節點、及其餘的字串有關。該 元件是放置在等候清單(步驟622 )或結尾清單(步驟62 0 ), 其決定在該字串的結尾是否已到達。在步驟624,它可檢 I查多達最大長度κ的所有想要的新字是否已建立,κ是至少
I 1 2。如果未建立,在步驟626,該長度便會增加,而且在步
第22頁 4 483S 1 :五、發明說明(19)
I驟6 1 4的的一新字可建立。如果所有新的字已建立,該程 序便可以在圖5的步驟5 2 8而挎續。對於亞洲的語言而言, K理想值可在3和6之間選取。如果此未造成成功的分段’ K I便可視狀況增加。 i 在根據本發明的一具體實施例中,在步驟6 1 0所測試的 標準是有多少字符合工作字串的開始。這可藉由在步驟 5 2 0增加一計數器而實施,其是以如步驟5 1 2或5 1 3部份而 重置。如果符合字的數目是低於一臨界,那麼新的字便可 增加d有多少新字的加入是決定在發現符合的字數目,其 中如果發現較少的符合,理想更多的新字便可增加。多虧 ί 於臨界可以是1時,造成如果已存在的字典沒有單一字符 !合與該節點有關的工作字串的開始相符合,便可造成新的 字固定在樹狀的一節點。 在另一具體實施例中,該標準是基於在一路徑的新字數 目。這可藉由每次增量一計數器而達成,一新的字可在一 路徑插入,並且該計數器是與該路徑的結尾元件有關。理 想上,如果路徑已包括在一路徑的兩或三個新字,沒有更 多的新字可加入路徑。然而,如果此方法不能成功達成分 j I段,在一路徑所允許新字的數目便可增加。 ! 在另一具體實施例中,該標準是基於字序列(並且經由 樹狀而對應的路徑)的可能性。理想上,每個字序列的可 能性便能以要建立的對應路徑計算。該累積的得儲存是與 !該路徑的結尾元件有關。如果當作步驟6 1 0的部份測試, 可能便會低於一臨界,該路徑便不再延伸:沒有新的字會
第23頁 4 4838 1 五'發明說明(20) 加入到此路徑。有利地,可能的臨界是動態地建立,以確 保一相對的順序。如果已有一或多個序列已識別(具一計 算的可能性),只要序列具有一較高或類似可能,其他序 列便可處理。理想上,一新的字一相對較低的可能,其中 該可能性是決定在新字的長度。以此方式,一字序列的可 能性便能以在序列的新字數目而減少。任何適當的可能性 計算皆可使用。一新字的下列可能得分是較佳的:
Unknown_word_score = penalty + weight * [min_unigram 氺 char_no 氺 un i gr am_weight + Length_prob * length_weight],其中 -pena丨ty是每個新字的一固定不利條件值, -weight是新字得分的一整體加權因素, -min_unigram 是所有已知字的最小發生頻率(單字模 型), -char_no是新字的字元數目, -unigram_weight是單字得分的一區域加權因素, -length_prob是此長度(長度分配可能性)的一字可能性 -length_weight是長度可能性的區域加權因素。 penalty與weight 參數可確保新字獲得比已知字的得分較 低的分數。 在根據本發明的進一步具體實施例,如果在步驟610決
I 1 1 ϊ®ί O:\61\61721.PTD 第24頁 44838 ;五'發明說明(21) 定沒有字符合該工作字串的開始,那麼此便視為在一先前 點上發生一錯誤分段的一表示。例如,一符合已知的字可 存在,然而實際上該等字元是部份的一新字。最後,該樹 狀可由原路退回,理想上,只有一步驟,而且一或多個新 字可加入在由原路退回期間所放置的該等節點。明顯地, 如果該等字已加入,沒有新的字會增加。如果已找到在該 位置上的數個符合的已知字,沒有新的字需要增加。在稍 後的情況,可假設該等字的其中至少一字可導至一成功的 序列。
第25頁

Claims (1)

  1. 六、申請專利範圍 1 . 一種用以將一連接本文分段成字之方法,包括下列步 驟: 一讀取一表示該連接本文的輸入字串; 一藉將該輸入字串與在一字典中的字相比較而識別在 該輸入字串中至少一序列之單獨字;以及 —輸出該等識別字序列中至少一識別字序列; 其特徵為該識別至少一字序列的步驟包括建立一樹狀 結構. 而以下列步驟之反覆方式表示輸入字串中4的字序 列; 以該輸入字串作為一工作字串: 對於一字典的每個字而言,將該字與該工作字串 的一開始相比較;以及 如果該字符合該工作字串的開始時: 在表示該字的樹狀中形成一節點; 將該節點與一最靠近該字末尾位置的一位置上 開始的輸入字串結合;以及 使用該工作字串之結合部份形成一子樹狀結 構,連至該節點1以表示與該節點結合之輸入字串部份的 字列、 2.如申請專利範圍第1項之方法,其中該方法包括下列 步驟: 依據一預定標準,確定新字是否加入該樹狀結構; 如果要加入新字時:
    第26頁 U83S *:、申請專利範圍 在 結合字之後 形 點結合的輸 組成; 為 連至該選取 結合的輸入 3. 如申請 是否至少一 串的字列, 不佳時增加 4. 如申請 結合字中選 鑑別至少一 樹狀結構的 選擇節點。 5. 如申請 一工作字串 確定 如果 限時,決定 在樹 做為在後面 該樹狀結構中選取至少一節點,該樹狀結構的 將有新字; 成複數個新字;每一個新字均符合與該選取節 入字串部份起頭,並且是由不同數目之字元所 每一個形成的新字形成一代表的子樹狀結構, 的節點;每一子樹狀結構表示從該與選取節點 字串部份中各自的新字起頭的字列。 專利範圍第2項之方法,其中該方法包括檢查 經由該樹狀結構之路徑代表一個符合該整個字 其中該字列只包括字典的字;並決定如果結果 新字。 專利範圍第3項之方法,其中於該樹狀結構的 取至少一節點以便在其後跟隨新字的步驟包括 條經由代表一不符合該整個輸入字串之字列之 路徑,並用該已鑑別之路徑的結尾節點做為該 專利範圍第2項之方法,其中該方法包括為每 字典有多少字符合該工作字串的起頭; 符合該工作字串起頭的字典字數少於一預定界 增加新字;以及 狀結構的結合字中,選取與該工作字串之節點 跟隨新字的節點。
    第27頁 44838 ί 六、申請專利範圍 6. 如申請專利範圍第5項之方法,其中該界限是1。 7. 如申請專利範圍第2項之方法,其中該方法包括當建 立該樹狀結構時,為每一字列計數該序列新字的數目,並 於新字計算所得數超過一預定數時’停止沿一表示該字列 之路徑擴張該樹狀結構。 8. 如申請專利範圍第2項之方法,其中該方法包括當建 立該樹狀結構時,計算每一字列的一可能性,並於該對應 字列的可能性低於一預定界限時,停止沿一表示該字列的 路徑擴張該樹狀結構。 9. 如申請專利範圍第8項之方法,其中一字列的可能性 隨字列新字數而減少。 10. 如申請專利範圍第2項之方法,其特徵為該形成新 字的步驟包括形成一為數達Κ之字,其中K>1,每個字從該 工作字串的起頭字母開始,並分別包括該工作字串一個至 K個起頭字母。 11. 如申請專利範圍第1項之方法,其特徵為該輸出該 樹狀結構所表示的字列的至少一序列的該步驟包括經該樹 狀結構選取該等路徑中的一路徑,其中僅有的路徑視為由 一符合該輸入字串結尾的節點表示的一個字。 t 12. 如申請專利範圍第5項之方法,其特徵為該經由該 樹狀結構而選取該等路徑中的一路徑之步驟包括根據一統 j計N字母語言模型而計算每個候選路徑的一可能性,其中 i N22,並且選取一最有可能的路徑。 ί 13. 一種用以將一連接本文分段成字之系統,該系統包
    第28頁 44838 1 :六、申請專利範圍 丨括: I 丨 一用以讀取表示該連接本文的一輸入字串之裝置; —用以藉著將該輸入字串與在一字典中的字相比較 I而識別在該輸入字串中至少一序列的單獨字中之裝置;以 及 —用以輸出該等識別字列中至少一識別字列之裝 置; 其特徵為用以識別至少一字列之裝置,可以操作以 便建立一樹狀結構並以如下之重複方式表示該輸入字串之 字歹1J ‘ 而以下列步驟之反覆方式表示輸入字串中之的字 序列; 將該輸入字串做為一工作字串: 為一字典的每個字而言,將該字與該工作字串 的起頭比較;以及 如果該字符合該工作字串的起頭時: 在表示該字的樹狀中形成一節點; 將該節點與部份的輸入字串結合,該輸入字 串從一緊接該字的一結尾之位置;以及 藉由使用工作字串之結合部份,形成一子樹 狀結構,連至該節點,以表示與該節點結合的部份輸入字 I串中的字列。
    第29頁
TW088121572A 1998-11-30 1999-12-09 Automatic segmentation of a text TW448381B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP98204038 1998-11-30

Publications (1)

Publication Number Publication Date
TW448381B true TW448381B (en) 2001-08-01

Family

ID=8234407

Family Applications (1)

Application Number Title Priority Date Filing Date
TW088121572A TW448381B (en) 1998-11-30 1999-12-09 Automatic segmentation of a text

Country Status (7)

Country Link
US (1) US6374210B1 (zh)
JP (1) JP4302326B2 (zh)
KR (1) KR100749289B1 (zh)
CN (1) CN1143232C (zh)
BE (1) BE1012417A3 (zh)
TW (1) TW448381B (zh)
WO (1) WO2000033211A2 (zh)

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6694055B2 (en) 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7165019B1 (en) 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6678409B1 (en) * 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
US7047493B1 (en) 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
JP2002032770A (ja) * 2000-06-23 2002-01-31 Internatl Business Mach Corp <Ibm> 文書処理方法、文書処理システムおよび媒体
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US7092871B2 (en) * 2000-07-20 2006-08-15 Microsoft Corporation Tokenizer for a natural language processing system
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
DE10200704A1 (de) * 2001-08-24 2003-03-20 Jong Won Park Elektronisches Wörterbuchsystem mit Baumstruktur und dessen Ausgabe
JP4215418B2 (ja) * 2001-08-24 2009-01-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US7136803B2 (en) 2001-09-25 2006-11-14 Apple Computer, Inc. Japanese virtual dictionary
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
AU2002320280A1 (en) * 2002-07-03 2004-01-23 Iotapi., Com, Inc. Text-machine code, system and method
US7003516B2 (en) * 2002-07-03 2006-02-21 Word Data Corp. Text representation and method
US7024408B2 (en) 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
US7181451B2 (en) * 2002-07-03 2007-02-20 Word Data Corp. Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library
US7016895B2 (en) 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
US20040006547A1 (en) * 2002-07-03 2004-01-08 Dehlinger Peter J. Text-processing database
US7386442B2 (en) * 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
US20040006459A1 (en) * 2002-07-05 2004-01-08 Dehlinger Peter J. Text-searching system and method
US20040054520A1 (en) * 2002-07-05 2004-03-18 Dehlinger Peter J. Text-searching code, system and method
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
US6823493B2 (en) * 2003-01-23 2004-11-23 Aurilab, Llc Word recognition consistency check and error correction system and method
US7493251B2 (en) * 2003-05-30 2009-02-17 Microsoft Corporation Using source-channel models for word segmentation
US7890852B2 (en) 2003-06-26 2011-02-15 International Business Machines Corporation Rich text handling for a web application
US20050060150A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Unsupervised training for overlapping ambiguity resolution in word segmentation
US20060101018A1 (en) * 2004-11-08 2006-05-11 Mazzagatti Jane C Method for processing new sequences being recorded into an interlocking trees datastore
US20070162272A1 (en) * 2004-01-16 2007-07-12 Nec Corporation Text-processing method, program, program recording medium, and device thereof
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
US7783476B2 (en) * 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US20060047656A1 (en) * 2004-09-01 2006-03-02 Dehlinger Peter J Code, system, and method for retrieving text material from a library of documents
US7539611B1 (en) * 2004-11-19 2009-05-26 Wyckoff Richard O Method of identifying and highlighting text
CN100530171C (zh) * 2005-01-31 2009-08-19 日电(中国)有限公司 字典学习方法和字典学习装置
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
US7584093B2 (en) * 2005-04-25 2009-09-01 Microsoft Corporation Method and system for generating spelling suggestions
US8170289B1 (en) * 2005-09-21 2012-05-01 Google Inc. Hierarchical alignment of character sequences representing text of same source
US9009046B1 (en) * 2005-09-27 2015-04-14 At&T Intellectual Property Ii, L.P. System and method for disambiguating multiple intents in a natural language dialog system
US20070078644A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Detecting segmentation errors in an annotated corpus
US20070083357A1 (en) * 2005-10-03 2007-04-12 Moore Robert C Weighted linear model
US7957953B2 (en) 2005-10-03 2011-06-07 Microsoft Corporation Weighted linear bilingual word alignment model
US8321220B1 (en) * 2005-11-30 2012-11-27 At&T Intellectual Property Ii, L.P. System and method of semi-supervised learning for spoken language understanding using semantic role labeling
MX2008010554A (es) 2006-02-17 2008-10-29 Lumex As Metodo y sistema para la verificacion de palabras reconocidas de manera incierta en un sistema ocr.
US7831911B2 (en) 2006-03-08 2010-11-09 Microsoft Corporation Spell checking system including a phonetic speller
US9772981B2 (en) * 2006-03-29 2017-09-26 EMC IP Holding Company LLC Combined content indexing and data reduction
CN101075230B (zh) * 2006-05-18 2011-11-16 中国科学院自动化研究所 一种基于语块的中文机构名翻译方法及装置
US20080065370A1 (en) * 2006-09-11 2008-03-13 Takashi Kimoto Support apparatus for object-oriented analysis and design
US8428932B2 (en) * 2006-12-13 2013-04-23 Nathan S. Ross Connected text data stream comprising coordinate logic to identify and validate segmented words in the connected text
JP4446313B2 (ja) * 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
US8631005B2 (en) * 2006-12-28 2014-01-14 Ebay Inc. Header-token driven automatic text segmentation
KR20100029221A (ko) * 2007-06-01 2010-03-16 구글 인코포레이티드 명칭 엔터티와 신규 단어를 검출하는 것
CN101114282B (zh) * 2007-07-12 2010-05-26 华为技术有限公司 一种分词处理方法及设备
US8014604B2 (en) * 2008-04-16 2011-09-06 International Business Machines Corporation OCR of books by word recognition
US8666729B1 (en) * 2010-02-10 2014-03-04 West Corporation Processing natural language grammar
US8738360B2 (en) 2008-06-06 2014-05-27 Apple Inc. Data detection of a character sequence having multiple possible data types
US8311806B2 (en) * 2008-06-06 2012-11-13 Apple Inc. Data detection in a sequence of tokens using decision tree reductions
EP2144189A3 (en) 2008-07-10 2014-03-05 Samsung Electronics Co., Ltd. Method for recognizing and translating characters in camera-based image
KR101588890B1 (ko) * 2008-07-10 2016-01-27 삼성전자주식회사 카메라 기반 영상의 문자 인식 및 번역 방법
US8301437B2 (en) 2008-07-24 2012-10-30 Yahoo! Inc. Tokenization platform
CN101676898B (zh) * 2008-09-17 2011-12-07 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
US20140372119A1 (en) * 2008-09-26 2014-12-18 Google, Inc. Compounded Text Segmentation
US8296125B2 (en) * 2008-10-17 2012-10-23 International Business Machines Corporation Translating source locale input string to target locale output string
CN101430680B (zh) 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
US8527270B2 (en) 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US9576570B2 (en) * 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US8977538B2 (en) 2010-09-13 2015-03-10 Richard Salisbury Constructing and analyzing a word graph
CN102819524B (zh) * 2011-09-08 2015-06-03 金蝶软件(中国)有限公司 基于关键字的字符序列分割方法及装置
US8843845B2 (en) 2012-10-16 2014-09-23 Google Inc. Multi-gesture text input prediction
US8850350B2 (en) 2012-10-16 2014-09-30 Google Inc. Partial gesture text entry
US8819574B2 (en) * 2012-10-22 2014-08-26 Google Inc. Space prediction for text input
CN103870442A (zh) * 2012-12-17 2014-06-18 鸿富锦精密工业(深圳)有限公司 中文简繁体转换系统及方法
US8832589B2 (en) 2013-01-15 2014-09-09 Google Inc. Touch keyboard using language and spatial models
CN104076940A (zh) * 2013-03-27 2014-10-01 北京千橡网景科技发展有限公司 一种辅助输入方法和设备
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
US10216783B2 (en) * 2014-10-02 2019-02-26 Microsoft Technology Licensing, Llc Segmenting data with included separators
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
JP6631930B2 (ja) * 2017-02-07 2020-01-15 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
CN107451127B (zh) * 2017-07-04 2020-11-06 广东小天才科技有限公司 一种基于图像的单词翻译方法及系统、移动设备
US10866928B2 (en) * 2018-09-10 2020-12-15 Netapp, Inc. Methods for optimized variable-size deduplication using two stage content-defined chunking and devices thereof
CN110020422B (zh) * 2018-11-26 2020-08-04 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
US10943143B2 (en) * 2018-12-28 2021-03-09 Paypal, Inc. Algorithm for scoring partial matches between words
CN110069624B (zh) * 2019-04-28 2021-05-04 北京小米智能科技有限公司 文本处理方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5268840A (en) * 1992-04-30 1993-12-07 Industrial Technology Research Institute Method and system for morphologizing text
US5448474A (en) 1993-03-03 1995-09-05 International Business Machines Corporation Method for isolation of Chinese words from connected Chinese text
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
JP2001505330A (ja) * 1996-08-22 2001-04-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ テキストストリーム中の単語の切れ目を与える方法及び装置

Also Published As

Publication number Publication date
KR20010040499A (ko) 2001-05-15
JP2002531892A (ja) 2002-09-24
WO2000033211A3 (en) 2000-09-08
KR100749289B1 (ko) 2007-08-14
BE1012417A3 (nl) 2000-10-03
WO2000033211A2 (en) 2000-06-08
CN1328672A (zh) 2001-12-26
CN1143232C (zh) 2004-03-24
US6374210B1 (en) 2002-04-16
JP4302326B2 (ja) 2009-07-22

Similar Documents

Publication Publication Date Title
TW448381B (en) Automatic segmentation of a text
Nelken et al. Arabic diacritization using weighted finite-state transducers
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
US6311152B1 (en) System for chinese tokenization and named entity recognition
CN111557029A (zh) 用于训练多语言语音识别网络的方法和系统以及用于执行多语言语音识别的语音识别系统
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Inoue et al. Morphosyntactic tagging with pre-trained language models for Arabic and its dialects
JPWO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN112183073A (zh) 一种适用于法律热线语音识别的文本纠错和补全方法
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
Tufiş et al. DIAC+: A professional diacritics recovering system
Naz et al. Urdu part of speech tagging using transformation based error driven learning
KR101072460B1 (ko) 한국어 형태소 분석 방법
KR102204395B1 (ko) 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템
JPH08263478A (ja) 中国語簡繁体字文書変換装置
Zupan et al. How to tag non-standard language: Normalisation versus domain adaptation for slovene historical and user-generated texts
Soumya et al. Development of a POS tagger for Malayalam-an experience
JP3309174B2 (ja) 文字認識方法及び装置
JP4008344B2 (ja) クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
Kang et al. Two approaches for the resolution of word mismatch problem caused by English words and foreign words in Korean information retrieval
Uchimoto et al. Morphological analysis of a large spontaneous speech corpus in Japanese
Mijlad et al. Arabic text diacritization: Overview and solution
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees