TWI496012B - 管理電子形式之中文、日文及韓文語言資料的模組系統與方法 - Google Patents

管理電子形式之中文、日文及韓文語言資料的模組系統與方法 Download PDF

Info

Publication number
TWI496012B
TWI496012B TW097145519A TW97145519A TWI496012B TW I496012 B TWI496012 B TW I496012B TW 097145519 A TW097145519 A TW 097145519A TW 97145519 A TW97145519 A TW 97145519A TW I496012 B TWI496012 B TW I496012B
Authority
TW
Taiwan
Prior art keywords
data
vocabulary
input
word
user
Prior art date
Application number
TW097145519A
Other languages
English (en)
Other versions
TW200945066A (en
Inventor
Warren Daniel Child
Original Assignee
Warren Daniel Child
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Warren Daniel Child filed Critical Warren Daniel Child
Publication of TW200945066A publication Critical patent/TW200945066A/zh
Application granted granted Critical
Publication of TWI496012B publication Critical patent/TWI496012B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • User Interface Of Digital Computer (AREA)
  • Input From Keyboards Or The Like (AREA)

Description

管理電子形式之中文、日文及韓文語言資料的模組系統與方法
本發明之例示實施例大致關係於加強電腦之語言功能及其他電子文字的方法與設備,更明確地說,係有關於管理電子形式之中文,日文、及韓文語言資料的系統與方法。
中文、日文、及韓文(CJK)文字系統各個使用大量的文字,這些文字不是起源於文中就是在外表上模仿中文文字。為了這些理由,各種策略已經加以想出,以使得中文型文字可以使用一具有有限鍵的鍵盤輸入至電腦(或查看)。此等傳統輸入手段典型稱為輸入法。輸入法已經被設計用於各種的輸入裝置,例如鍵盤、電子筆的圖形電腦、及數字按鍵等。
輸入目標文字的鍵盤為主之輸入法的操作典型根據三種主要原理之一:1)鍵入一連串對應於目標文字包含的形狀之按鍵;2)鍵入對應於目標文字的聲音的一連串按鍵;或3)鍵入對應於構成目標文字基本形式之一連串按鍵。一旦鍵入該連串的按鍵,則一名單的候選文字會被顯示,例如在文字應用程式(例如文字處理器或電子辭典)或浮動輸入窗。一使用者然後可以藉由鍵入對應於候選想要的數字選擇想要的候選文字,及文字可以變成被寫入文字的一部份。有時,構詞(morphological)或語法資訊係為傳統系統所使用,以想要減少候選字名單或”猜想”想要的文字。
輸入的其他形式包含:光學文字識別,其中在列印頁中之文字係被掃描並自動解譯;手寫識別,其中輸入電子筆係被手使用來描繪文字,這時點識別軟體自動解譯手寫筆劃並將之轉換為文字;及語音至文字轉換,其中語音資料被轉換為文字。也可以使用適當軟體將文字轉換為語音。
雖然有新的輸入技術發開,但仍有大量的不夠好的處。本發明之一或多數實施例係針對這些在傳統輸入法與其他語言服務中的不足、問題及限制加以進行。
電子字典及輸入法大致並不會給使用者對儲存有文字之詞典的資料源有控制的機會。辭彙資料的缺乏可能使得它很難找到或輸入專有名稱及技術名稱。地名、專有名稱、及技術名詞經常在這些詞典中找不到並可能受挫而不想輸入。
用於輸入法及電子字典之辭彙資料源通常很有限並通常為販實者所預定。以傳統系統或輸入法,不可能組合來自不同販賣者的資料源,也不可能選擇在輸入時所將要顯示的資料類型。同時,傳統系統不能容許具有不同資料結構的辭彙資料源。輸入項典型被原樣呈現顯示為單體正文塊,如同在所鏈結之電子字典或輸入法的原始字典中所包含。
傳統辭彙服務系統也缺乏模組性。明確地說,傳統系統並不能迅速使一個人存取或鏈結至不同類型之第三方語言服務。因此,例如在輸入法與字典,或在語音至文字模組與輸入法間,可能沒有關聯。
傳統系統與方法提供很少甚至沒有手段能快速檢查於輸入時的文字的正確性。部份傳統程式確實表示容易混淆的文字,但所加深文字被預先標示。一人並不能自由容易地存取其選擇的文字或字典,也不能容易地由一辭彙源切換至另一辭彙源,以取得不同資料。
傳統系統通常允許藉由部首或音標發音作文字搜尋。以此方法搜尋文字很笨拙。對傳統文字查看系統與方法的有效替代法係在與本案有相同申請日的由Warren Daniel Child所申請之共同申請專利案”中文型文字及文字偏旁的分類與取回的系統與方法”中加以討論,該案係於此被稱”文字分類與文字查看案”,並被倂入作為參考。
傳統系統與方法可以提供很少或不能容易由文字典型區分輸入候選字。當面對很多同意異義字候選字時,一使用者典型需要經由一長列候選字名單以找出其想要的目標文字。可能不能迅速地區別不類似的文字,因為在不同類型名詞(共用或專有)或語音的不同部份,如此作將對使用者選擇想要文字有很大的助益。
在傳統系統或軟體中的新字(使用者文字)登錄功能通常不好。部份系統可能額定地提供使用者有登錄其本身文字的能力。然而,該程序經常很冗長,並且使用者通常需要手動輸入其文字,並沒有來自系統的幫助。
傳統系統與方法典型對自動剖析及登錄功能提供不夠好的控制。雖然部份系統指明未包含在其字典中的新文字組合,但它們通常並不能由詞區分文字,並且未能使使用者編輯其最後登錄項。結果,冗長的假候選字可能開始使系統混亂,阻礙了文字輸入的容易性。
在搜尋及輸入時,傳統系統與方法在音調標示上提供很少或沒有彈性。中文輸入法的外國使用者經常困擾於搜尋與輸入,因為他們不能確定一字或文字的音調;甚至當地者也因為音調真實性的辯證上的差異而有所困難。然而,不使用音調也有產生太多候選字的問題。例如,美國專利5,594,642案描述輸入法框架,其允許有音調或無音調的輸入,但並未描述如何完成,建議開發者處理該問題。再者,該5,594,642案的說明書也未提供如本發明之一或更多實施例所揭示之一使用部份音調指定的有用方法的映圖。
傳統系統與方法對所用編碼法提供很少甚至沒有控制。同時,傳統系統與方法可以對原始文以外的文字提供很少甚至不能控制。因此,例如,輸入法及字典不能滑鼠經過在螢幕上的一詞並取得其有關的辭彙資訊。結果,雖然相當大量的資料可以被儲存於傳統系統中,但並不能迅速取得有關已經輸入的文字的文字的資訊。此存取性上的缺乏可以是可能資源的一種浪費。
傳統系統與方法可能未提供同質介面,使得外部自然語言處理(NLP)系統可共享辭彙資料。因此,手寫識別、光學文字識別、語音至文字轉換、文字至語音轉換、及鍵盤輸入傳統上均以個別系統加以操作,各個傾向於具有其本身資料儲存。同時,不同於此所述之實施例,傳統系統與方法可能不會提供在OS開發者、辭彙資料提供者、及(輸入法)IM開發者間之營收共享,以合作共享實施合成系統所產生之營收,該合成系統完成來自不同來源的不同形式之辭彙資料的模組化合倂。再者,傳統系統與方法並未提供一階段的實施營收共享系統所需或所想要的資料安全性。
實施例可以容許簡單及複雜資料結構;提供加強資料連接性、整合性及可取用性;防止資料盜竊;協助新字及詞加入辭彙資料源;及加強文字輸入功能。再者,當實施為語言服務中心時,實施例可以與各種第三自然語言處理模組的介面,該模組提供光學文字識別、手寫識別、語音至文字轉換、文字至語音轉換等。營收共享及資料安全實施例可能鼓勵辭彙資料提供者及語音服務模組開發者,令其辭彙資料及服務模組為系統所用,使得辭彙資料提供者、模組開發者、OS提供者、LSC提供者、及使用者可以互蒙其利。一實施例可提供加強的文字輸入功能。
一或更多實施例提供:用以標示辭彙資料分類的手段;用以模型化具有異種資料結構的詞典之手段;將來自分開詞典的資料收集為聚集集合的手段;用以智慧地準備、輸入及內部結構化異種資料源的手段,以作整合目標;收集來自參與使用者的資料之手段;及用於手寫識別、光學文字識別、鍵盤輸入、及文字至語音及語音至文字轉換的特定介面。一或更多實施例可以加入複雜及簡單辭彙資料結構;以智慧方式,整合此等異種資料源;提供對此資料的加強可取用性;改良資料表達;及加強輸入功能。輸入手段可以耦接至本案相同發明人之文字分類與文字查看案的電子實施法,以促成個別文字的查看。一或更多實施例可以包含語言服務中心,其與各種自然語言處理模組作有介面,使得模組的使用者可以利用設在系統中之豐富語言資訊。所得系統顯著地降低當使用電子格式之日文、中文或韓文時所經歷之挫折及不使。
平台及實施法
實施例可以實施於各種平台與作業系統上。實施法或編碼的準確方式可以取決於若干因素,包含所用之軟體開發語言及API。例如,當此寫入時,如果實施Mac OS X上的實施例,則較佳使用C與Objective-C與來自Carbon與Cocoa API的組合。其他平台上,也可能喜好其他語言及使用其他API。藉由使用平台相關語言,例如Java,也有可能,使使用大量相同碼以實施一實施例,使得其可以在一個平台以上工作。解釋實施例所不必之實施法細節已經被省略,因為熟習於平台設計者可以使用適語言及API以各種方式來實施一實施例。因此,以下之說明係針對例示實施例的功能與特性加以描述與顯示。熟習於本技藝者可以在特定平台及作業系統侷限下實施一實施例。軟體碼本身經常為特定平台所用,於此並未顯示,但在此係被解釋及描述與顯示例示實施例的架構與設計細節。
以下將參考圖1至6加以描述各種實施例。以下所述之前五個實施例表示特性包含:1)加入簡單及複雜辭彙資料源的能力;2)加強資料積集及可取用性;3)改良資料顯示性;4)加強資料內容;及5)改良輸入功能。另一實施例組合所有先前置施例的特性與功能成為語言服務中心,其與外部自然語言處理模組作成介面。另一實施例包含營收共享、資料安全特性、及辭彙資料架構以配合其他實施例使用,以使得系統或方法有商業價值。再一實施例則提供導向非CJK(中日韓)語言的語言服務中心實施法。
可以了解的是,各種實施例已經為清楚起見分開表示與說明。較佳地,所有特性被如下所述組合於一系統中。應了解的是,這些實施例係描述用以促進了解並非用以表示每一實施例或實施例之組合。
實施例的操作取決於包含有多數可能語言服務模組被倂入系統中的若干因素。例如,可以期待一基本功能包含有如同電子字典中的查看文字及單字的能力。另外,似乎一輸入法將被加入該系統中。基本語言服務的共同功能為搜尋及回復。
對於如韓文及日文的語言,典型啟始一搜尋的方法為輸入對應於文字或單字的聲音之一順序的字母,然後,在適當時機敲擊空白鍵以呈現候選字。對於中文,職業打字員也可以使用根據文字形狀的特徵輸入法。然而,因為此等方法需要更多訓練,所以主要之使用者均使用聲音為主之輸入法,此輸入法與日文及韓文所用者有相同原理。實施例已經使得我們可以容易地以語音方式輸入文字,為了這理由,在中文中不管使用者係想要經由拼音或注音鍵輸入並沒有什麼關係。此兩方法可以為語言服務中心所容許。
辭彙資料結構的類型
很多在電腦上所提供的傳統輸入法及其他語言服務的主要限制為可用資料的缺乏及對所用之資料源進行控制。因此,一實施例建立一能力以容許來自不同提供者並具有不同資料結構的各種辭彙資料源。為了說明之目的,資料源可以以兩方式分類:簡單(平坦)及複雜(階層)。簡單(或平坦)資料結構每記錄具有固定數量的規則欄位。相反地,複雜(或階層)資料結構,則每記錄展現有各種樣式,在各記錄內的元件重覆不規則次數。
用於文字輸入法的最小架構將為兩鍵欄,一欄包含本字文字(該文字以母語寫入的方式)及另一欄包含使用部份形式之羅馬字化或其他本字系統的對應語音描繪。這將表示基本平坦資料架構的例子。
基本”區塊”資料架構可包含此二最少鍵欄,加上包含有補充辭彙資訊的文字區塊,如同在字典中可看到。不同資料源可以包含兩最少鍵欄,具有已經為資訊分類(如下)所剖析的其他辭彙資訊。再者,複雜資料源將展現在印刷字典中所找到的複雜類型。一實施例可以容許所有資料源,而不管為簡單或複雜,平坦或階層。
辭彙資料分類及分類標示手段
包含在每一字典中之資料可以對於每一輸入項而變化很大。每一輸入項可以記載一或更多文字集(詞類)、一或更多定義、核心意義及子意義、語源資訊、發音導引等等。因此,資料的本質並不能迅速使之加入標準平坦檔中。相反地,準備用於電子內容的資料傾向於有很大限制,採用了基本平坦資料結構的形狀,或對具有完美規則固定模式的擬階層結構有強力附著性。然而,為了能處理任意量的資料結構,有必要分類想要在資料結構中找到的資訊類型。因此,表1列出在CJK文字字典中所常見的資訊的分類,及表2列出共同設在CJK單語及雙語文字字典中的資訊分類。兩表均包含每一分類的附屬縮寫碼,與表示是否每一分類似乎具有該分類的多數(M)或單一(U)例。
準備予以倂入語言服務中心的資料可以使用上述分類標示手段。換句話說,使用上述碼作為各個資料元件的”標籤”,也可能準確描述代表每一單元資料的資料分類。
資料結構標示
因為複雜辭彙資料結構可能迅速加入平坦檔,所以本實施例提供一資料結構標示手段,用以描述複雜資料結構。該資料結構標示手段使得實施例加入來自不同字典及字典資料源的各種資料,使得它們可以同時使用於相同語言服務系統內,並無縫加入相同語言服務系統。
依據結構標示手段,識別兩基本資料類型:單一及多數。單一資料(指示為”U”)為包含單一值的任意變數(用於實施法中之準確資料類型係為不重要,因為其可以為字串、整數、或其他資料類型)。多資料(指示為”M”)為任一輸入值,其具有一個以上之值(其係使用例如陣列、名單、組等之各種二進制資料類型加以實施)。
該模型也認出集合成組的資料。一組係為一對兩或更多類型之共同發生之資訊。例如,在一字的定義後,經常具有顯示字上下文的樣品句或詞。在此時,定義及樣品句將構成一組。再者,任意資料類型可以標示為選用(藉由使用者標頭檔中之星號(如下))。何者為本質上必要及可選係取決於相關字典。
在階層中之每一層可以加入在該層下的分開項的數目。如所示,圖1A顯示在假想中英文文字字典中的資料類型圖。在圖1A中,段落係被大寫,及在一段落內的欄位係以({})加以包圍。在一段落內的單一欄為小寫,及具有多輸入項的欄為大寫,而構成段落。在所示例子中,在階層中之最高層為定根段,最低為文字複合。單一及多屬性係分別為”U”及”M”所表示。
標頭檔及剖析
為了使語言服務中心加入具有變化及複雜結構的不同資料,可以提供一標頭欄,以描述用於予以輸入的詞典中的資料結構。圖1B顯示用於圖1A的資料的樣品標頭說明。如所示,在階層中之每一層係被一數目來表示該層(1為最高),其後有括號包圍的其構成屬性。各個構成屬性係被指定為單一或多數。在實用上,可以指明一實質實施資料類型(例如用於數目的NSInteger,或用於文字的NSString)。再者,實際上提供有一格式標籤,以顯示資料分類係如何標示於原始資料源中。在圖中,實施資料類型及格式標籤並未指明,因為這些將與平台有關,並將取決於資料係被如何原始儲存。再者,段落與構成變數可以被指明為選用(藉由使用星號*)。經常以呈對或成群(例如定義及對應樣品句)來的資料類型的組可以藉由將之包圍在括號內或其他適當手段內加以標示。(組並未示於圖中。)
在內部上,各個U及M資料類型係使用適當資料結構加以儲存,而不管其為字串、整數、實數、二進制大物件、串列陣列、二進位樹等。實施例之由標頭檔解譯資料結構使得該資料被內部模型化於系統內,進一步允許資料被正確剖析,以進入該系統。
最後,在標頭內的表示可以指示辭彙資料源的整個資料結構(簡單/平坦對複雜/階層)。同樣地,詞典的本質(寶庫、雙語字典等等)也可以表示,針對源及目標語言配合表示。用於有關辭彙資料源的此一般資訊的準確發信手段可以變化或靜止;用於實施例中,只要其附著至被各方所黏附的預建立格式即可。
資料準備
為了準備用以加入語言服務中心(LSC)實施例的資料,辭彙資料可以被”標示”,使得LSC系統可以解譯其輸入資料。這使得LSC保持適當剖析之辭彙資料,使得其知道在每一記錄中,代表哪類型的資料分類。例如,簡單”方塊”結構包含本字、讀音及有關字的無差異資訊,各個辭彙記錄將具有以下概念結構:
a.鍵欄1標籤(讀音)
b.鍵欄2標籤(字本身)
c.方塊資料標籤(其他)
對於差異資料,很多欄表示器可以使用如上表所示之碼加以標示。同時,也可以使用替代碼。所用之準確碼形式可以改變,只要它們表示記錄的哪部份正以明確方式被參考即可。
典型地,取決於會計配置如何處理,詞典將為詞典提供者或語言服務中心的提供者所提供。如同上述之標頭欄將典型與資料一起提供,所用之資料媒體係取決於詞典提供者。
資料儲存
一旦詞典被輸入,則資料將使用其標頭檔說明加以解譯,及適當資料儲存手段將被更新,如有必要則建立以收納該資料。適當儲存裝置包含大量儲存裝置(例如磁或光碟)、電子記憶體(例如RAM、快閃等)等。
圖8為用以備製、輸入、及轉移辭彙資料以用於一實施例(例如下述之LSC)的例示方法流程圖。在圖8中,該方法開始並處理進行至步驟802。在步驟802中,辭彙資料被提供為第一格式。辭彙資料可以包含多數記錄,各個記錄具有多數元件。各元件對應於多數辭彙資料類型之一,及各個元件被標示以對應於該格式之辭彙資料類型的詞類標碼。處理進行至步驟804。
在步驟804中,提供用於辭彙資料的標頭段落。標頭段落包含對具有多數資料結構標示碼值的資料結構說明之參考。各個資料結構標示碼值對應於多數詞類標碼之一者,及該結構構成簡單/平坦結構或複雜/階層結構之一。處理進行至步驟806。
在步驟806中,辭彙資料被輸入。處理進行至步驟808。
在步驟808,輸入辭彙資料被由第一格式轉換為第二格式。第二格式與第一格式不同。藉由指定對應於該格式之詞類標碼的資料結構標示碼值指定給輸入辭彙資料的每一元件,該資料係被轉換,使得每一元件的辭彙資料類型可以被認出及元件可以依據其對應資料結構標示碼值加以儲存。處理進行至步驟810。
在步驟810中,被轉換的辭彙資料係被儲存為LSC或其他系統所用。此資料係被儲存為第二格式。在步驟810後,處理結束。可以了解,在圖8所示之步驟可以整個或部份重覆,以完成想出辭彙資料準備、輸入及轉換工作。
另一參考圖2A-2B所述之實施例可以包含上述特性。
資料源的全面控制
圖2A為例示資料結構圖。在此圖中,各個盒狀元件構成一資料庫實體。每一實體具有屬性(等於資料欄)及顯示鏈結至其他實體的關係。
如於圖2A所示,一程式館管理器實體係被設置以追縱在全面層中之資料源。此實體最小化提供一關係給資料源實體,表示其對於資料源具有一對多關係。該資料源實體提供詞典(單語字典、雙語字典、寶藏等)本質的資料,包含其檔案類型(簡單對複雜)、來源語言(日、韓、簡體中文、繁體中文等),及目標語言(使用雙語字典)。例如特殊領域(醫學、電腦等)之其他資訊也可以額外設在分開屬性中。
圖2B顯示一介面,其使得使用者將辭彙資料源加入刪除進出系統,並作動、解作動、及展現辭彙資料源(見如下之資料源作動與解作動)。該介面包含例如按鈕、表、捲軸、等之GUI元件,這些係為現今應用程式所常見。為了執行作動,可能反白對應於想要詞典的列並壓下作動按鈕。一類似程序將會有用於解作動並進入一展現模式。例如名單項目的額外GUI介面也可以設置以完成等效功能。
所有需要以執行在資料模型內之辭彙資料的分配所需之內部處理係當然依實施法而定,並取決於OS平台、所選之語言、及所用資料庫技術。此資料的分配與移除本質上並不會為使用者所考量。
多層資料物件
輸入至語言服務中心並依據標頭檔所剖析之資料及上述資料分類標籤(辭彙或資料結構)係被分配為多種資料物件,其形成多層結構的一部份。在此結構的頂層為主表實體。每一語言有一主表例,其係相關於在該結構中的下一層的物件集合,即WordGroup物件。因為當由鍵盤輸入CJK語言時,實施例提供於WordGroup實體,典型被輸入一讀音,其係對應於同音異義或幾乎同音異義本字表徵。為WordGroup實體所表示的同音異義的準確度係可以取決於語言及想要的準確度加以協調,例如,對於中文可能為無音拼音、或用於日文的標準平假名。在圖2B中,字群的共享同音異義係為屬性commonReading所表示。
本質上,文字群下的下一層為一字。因為來自各種辭彙資料源的大量辭彙資料正被使用,所以,我們可以期待在辭彙資料源中,以所示字表示的大量重疊。為此理由,除了重建重疊包含很多相同鍵欄的記錄外,也可以設通用詞(Generic word)實體。此實體包含基本字資料共享,而不管辭彙資料源,並能與下一層源字實體分開,其包含為特定辭彙源所特有的資料。
通用詞資料可以包含各種屬性,包含布林以表示是否該文字正作動於此系統中,一或更多本字表徵法,實體的詞類的部份指示(文詞類係為指明字的句法或其他行為的特定碼)、字準確讀音、及各種頻率資料,其可以有用於表示字為輸入法的候選字。注意特定讀音為讀音,其使用語音系統更準確讀出或拼出該字。例如,在中文下,屬性可以為總拼音、注音等等表示。
在圖中,源詞實體係被提供作為此母通用詞的子實體。雖然也可以實現其他資料模型同時保有整合標號及階層模型,但此方法只作例示目的。回想辭彙資料源可以維持大量資料類型(簡單/平坦對複雜/階層),源文字記錄的屬性可以表示為其表示的記錄的類型。因此,包含簡單或平坦資料結構的辭彙資料源將在此欄中,其中這些含複雜或階層資料者將於此表示。
最後,取決於源字資料所發起的辭彙資料源的類型,額外資訊將可以儲存於部份形式之資料結構中,取決於所指定結構而定。各種實施法也可能持續、程式語言、及其他正被使用技術。
對抗資料盜竊的保護
理想上,安全特性被提供以防止內部儲存資料的下載或輸出,藉以防止個別資料源貢獻者的著作權(或其他智慧財產權)。此一系統鼓勵第三方語言資料源開發者提供相容語言資料源,而不怕其材料被拷貝或被偷。也可以防止使用者嘗試由個別辭彙資料源貢獻者偷取資料,或試著根據其他方法之工作而建立其資料源。此安全特性可以針對部份語言軟體提供者對將資料集合在一起的反抗。
文字查看
一實施例可以提供一手段,以追縱每一文字的構成文字。為此,提供一通用文字實體。此實體與通用詞具有多對多關係。各種詳細或非如此詳細的架可以在此建立,但在所示例子中,通用文字實體可以有對筆劃、端點計數(見文字分類與文字查看案)、及來自(本字)本身的文字之屬性。其他資料可以設於該實體中或例如根據在源字實體(見圖2A)上的其他實體。此實體使用一並聯概念至源字上,即,其可以用以儲存辭彙資料有關特別是一特定資料源的文字。雖然未示出,但雙語甚至多語資料可以以相同於另一語言資料相關於通用詞例(見逆查看)的方式相關於該文字資料。
藉由連接字與其構成文字至提供在文字分類與文字分類與文字查看案中之資料,使用者可以存取在此等系統中不能迅速使用之豐富資料。此等鏈路可以使用一如同圖2E所示之資料結構加以完成。具有文字分類與文字查看案之鏈結辭彙資料具有提供另一手段以存取文字的明顯優點,只有此時才經過個別文字。這表示使用很多設在文字分類與文字查看案中之查看特性,我們可以找到與一特定文字相關的字。使用者也可以甚至被允許選擇用以作動查看功能的鍵,例如在圖3F中所示之較佳面板GUI。
同時應注意,雖然未於圖中示出,但也可能包含具有文字的筆劃為主的輸入資料。在此時,根據筆劃形狀的輸入法也可以使用於整個語言服務中心。
由操作觀點看來,也可以設定快速鍵或其他快取機制,藉以對文字分類與文字查看案實施例中所述之高效及功能查看法與設備的類型提供存取。為了搜尋文字資訊或找出不同或少用的文字,如果文字分類與文字查看案實施例係有關於一實施例,則快速鍵或選單項的順序可以觸動一面板(palette),以使得使用者可以使用任一在文字分類與文字查看案實施例所述之手段,來查看一文字,包含但並不限藉由部首、非部首元件、部首及非部首組合、藉由筆劃及端點計數。
來自另一語言的逆查看
為本實施例所提供之語言服務的特性為其使得使用者可以由不是目標語言查看一字。因此,例如,針對簡體中文的實施法可以允許使用者輸入英文字並取回候選中文字。為了實現此功能,一逆查看輸入項實體係被設有單一屬性意義。此實體對通用詞實體具有多對一關係。此逆查看輸入項本質上係關係於一特定語言,並因此能收集在逆查看表例中,該逆查看表例可包含逆輸入項的集合(見圖2A)。因此,一系統可以容許各種語言作輸入與逆查看,及對於任一給定另一語言的所有逆查看輸入項係被收集在一集合中。一GUI可以允許使用者以由一標準搜尋或輸入模式切換至經由另一語言搜尋或輸入目標字的模式。
構詞分析
典型上,很多語言服務模組,例如輸入法及文字至語音或語音至文字轉換器加入若干程度的構詞分析。其理由為如果只有字的給定準則形式,則語言服務模組將不會認出引用形式改變所影響變化的主體。理論上,至少兩方法可以用於構詞分析:產生性法及減去法。
在產生性法中,所有引用形式係與其字形變化表(字可以被變化的不同方式)。例如,在日文中,每動詞可以與其所採的各種字形變化結尾一起列出。代名詞將與經常發生時字首(particles)或後置詞(postposition)一起列出。任何名詞將與其本身涉及後置詞列出。雖然此方法可以直接顯現,但這在取回速度上提出一相當大的問題,因為250,000字的基礎詞典可能容易使用此方法而遽增至幾百萬字。為了匹配,輸入文字可以檢查為產生性法所產生的詞形變化詞的名單。此方法理論上可行,但因為所得字彙表的太大規模而似乎不實用。
相反地,在一減去法中,衍生規則係被使用以認出各個字集的字形變化及衍生、決定其詞幹(stem)、並回溯其引用形式。以日文為例,係被認為部份表示名詞的掛名字頭(prefix),及各種口頭變化如、る、 、及將被認為是可能的字尾(suffix)。此時,可能引用形式將藉由自被鍵入之輸入移除可能綴詞(affix)、指明詞幹、及將由詞幹轉換為引用形式加以指明。所衍生引用形式然後將檢查作動字的集合(通用詞例,令其不作動布林(Booleam)設定為真或是)。當具有相同詞類的匹配在作動字的集合中找到,則這些匹配係被轉換回變化形式。在中文中的構詞處理的類似例為認出在字後面所跟隨的”之”(擁有)(的)及表示結果補語(得)而認出字的類型。
在本實施例中,假設足夠文法資訊為有關於所用之詞典,任一構詞法(產生性法或減去法)均可以被使用至該實施例中,以使得來自使用者的輸入可以被共相關至在實施例中所收集的詞素。有關文法資訊可以採兩形式:每一詞素所屬之一或更多詞級的識別,及顯示可以由字幹形成之衍生之衍生規則。在產生性法中,由內部儲存集合詞素所導出之額外表可以被產生,藉以衍生形式係根據引用形式及詞類碼與一組文法可衍生規則加以產生。當減去法時,一組文法規則可以為使用者所剖析來自文字輸入的可能綴詞。可能引用形式可以指明,及以類似於顯示字作為候選字前的適當方式,綴詞係被附加回到基礎。
為了方便,構詞分析(MA)的功能可以被認為由三個分開實體構成:一構詞剖析器(MP),其將一輸入串與語素(morpheme)分隔、一構詞產生器(MG),其將變化加回到詞幹、及一組衍生規則(DR),其描述可以加入至某一級字的字形變化類型。見,圖6。
構詞分析可能不是使用者必須主動考量的特性。字候選可以被簡單地表示為構詞的加入或減去應用的函數,以由系統的詞素集合中衍生引用形式,並然後,在使用者選擇目標字的候選字名單中呈現字形變化候選。應指明因為此能力係設在模組化功能中,所以,根據字形變化的形式,其等效應用至是否使用者正使用系統以輸入文字的字或查看在字典中之字。
多詞輸入的剖析
一實施例可以加入一特性,以認出使用者已經輸入對應於一個以上之字的輸入拼音文字。當使用者輸入一個以上字的等效值時,則該系統需要剖析輸入,以想要搜尋構成字。(實質上,為準確,當提及”字”時表示一詞素,其係將辭彙實體看為一單元。例如,詞或成語(例如中文拼音)有時被以單一單元處理。)在標準構詞分析時,產生性及減去法理論上可能,但以資料儲存效能的觀點,減去法或許較佳。
因此,當使用者使用對應於部份目標文字的文字串時,啟始一搜尋以匹配輸入至該語言的字。如果根據包含在該輸入文字中之讀音,並未經由標準搜尋找出一準確文字匹配,及如果經由語素的減去法並未找出匹配,則可以對輸入文字的子串進行搜尋,以看是否有引用的匹配組合形成或者引用形成有構詞字形變化。因為此步驟更費時,所以,其可能最好在開始上述構詞分析的較便宜步驟後才進行。
如同構詞分析,多詞認出可能不會為使用者所主動想到,而是一種在輸入或搜尋時簡單”發生”的特性。如果使用者輸入等於兩或更多詞的拼音順序,則多詞辨識特性使得輸入法依序指出各字的候選。該程序係為其中如果啟始搜尋並未指明一匹配至整個輸入順序,則對輸入順序的子串進行搜尋。
表示詞典之詞典顏色
另一實施例可以加入上述特性與下述特性的組合。此實施例可以使得使用者色彩編碼辭彙資料源,使得在搜尋或輸入時的候選字資料可以依據其所導出的源資料的辭彙源加以色彩編碼。這可以使得使用者以其來源快速認出正確候選字。此一功能當例如使用者正使用包含字的特殊字典時係特別有用,字典中之同音異義字可以藉由來源辭彙字典而被迅速與目標技術字區分。同樣地,如果來源只包含專有名詞,則其可以如其出現在候選字窗口所迅速認出。
為了使這些功能可用,一分開窗或面板可以作為一手段,以將顏色與各個相關語言有關的辭彙資料源相關(圖3A)。例如,預設一通用辭彙字典型表示黑之顏色,及使用者將可能選擇其他顏色,用於特殊或特定領域的辭彙。此等特殊領域可以包含醫學、電腦科學、生物、語言及或等等,該等可能領域基本上不限。對於不同辭彙源的搜尋結果的比較係以此方法使用表示×之顏色加以完成。為了將一顏色相關於一特定語言資料源,吾人選擇該資料源並使用顏色選擇手段,以一顏色與之相關。圖3A顯示一介面,其提供此選擇手段。
表示詞類之顏色詞類
再者,假設所用語言資料源包含專有領域,一實施例可以允許使用者以類型區分候選文字及字。例如,使用者可以由專有名詞區分常用字,或者語音的不同部份。這些區分法可以以各種方式加以完成,包含但並不限於字型、顏色、粗體、及斜體。有一類型以上之詞素係被顯示為彩色組合,或以類以方法加以區分。完成此類型選擇的例示介面係如圖3B所示。為了將顏色與字類型相關,可以由若干可能分類中選擇,然後,選擇個別分類的顏色。應了解的是,字類型可以因語言而有所不同,在圖中所示者對應於英文較對應於CJK語言之任一較佳,但所示只為了親緣性之原因。
顯示額外辭彙資訊
另外,於一組同音異義匹配使用者注音輸入的位置上,使用者具有由個別辭彙顯示相關字典鏈結的選擇,使得使用者可以在一按鈕的碰觸下,看見輸入目標語言或國外語言的解釋(圖3C)。前一方法使得母語使用者決定哪一複合字有正確上下文與想要意義,而後者方法係有利於語言學習者,其想要讀其母語輸入。因為字典資訊被鏈結至一實施例,但可能為第三方所供給,所以,理論上對於可供給之辭彙細節並沒有數量限制。實際上,取用其他資訊的資訊之選擇應容易實施(如藉由壓下一快速鍵)。再者,如果辭彙源允許此一分別,則在簡單與詳細解釋設定間有一選擇。最後,也可選用一手段,以選擇顯示哪一辭彙分類(資訊領域)。圖3C顯示一介面,其提供使用者額外的語言資訊。實質實施法可能提供較所示於圖中更智慧型資料。
滑鼠經過(mouseover)效應
藉由將輸入模式切換至滑鼠經過模式,辭彙資料的相同集合可以應用至已經被鍵入螢幕上的滑鼠顯示器上,即為目標語言的學生及學習者重大功能。(滑鼠經過表示在螢幕上移動游標於某些事上,通常,可能需要一觸發鍵來作動在滑鼠操作時之資料顯示,但也可不必然如此,因為一功能鍵可以跳動於正常及滑鼠經過游標行為之間。)當被觸動時,一突現窗將具有辭彙資訊,使得使用者可以以容易及相容於螢幕的任何相容文字,並查看字,而不管是否其使用者所輸入。有可能藉由結構化在系統中所集合的辭彙資料,而查看屬於滑鼠經過目標的辭彙資料。例如,也可能藉由逆查看項實體(圖2A)觀看第二語言的翻譯;及藉由鏈結通用文字例至通用詞例,而可能查看相關文字資料。
操作時,為了顯示已經被鍵入文字中之文字有關的資訊,使用者可以簡單地鍵入一順序之快速鍵,或者,選擇一選單項,其執行相關文字俱訊的取回。圖3D顯示突現資訊可能看起來的簡化例,但資料的準確細節係取決於與系統的文字資料相關的辭彙源而定。圖3E顯示一群依據例如部首或核心偏旁之分類特性之同音異義列表。尤其,圖3E顯示以核心偏旁之分群,及以殘留筆劃進行的分群,以數字-字母格輸入作為使用格座標。
以資料源的字的作動與去作動
參考圖2A,可以看出源字實體具有一作動屬性。此布林(Boolean)屬性使得吾人可以擷取(詢問)所有具有特定名稱的字資料,並作動或去作動在一批次中之集合。使用者可以使用如圖2B中之介面,選擇致能或去能在該系統中之辭彙資料源的任意數量。有各種理由使得我們想要如此。例如,在包含很多不同技術資料源的全開發系統中,載入少用的例如醫學字典資訊可能對他無益,因為其職業可能需要他去下載電腦相關文件。
以準則來抑制候選字
因為通用詞及源字例具有各種相關屬性,所以有可能限制候選字的表現為某一類型,或者,在候選表現時抑制某種字類型。因此,如果使用者想要只搜尋或輸入專有名詞,或地名、或人名,他可以使用某類型之GUI以限制該搜尋。這將使得我們可以呈現出非常短的候選字名單。同樣地,為了加強效能,使用者可以簡單地將極少使用的字卸載,指明某一關閉頻度。在技術上,對於可以指明之字類型並沒有限制,全都取決於包含在該名單中之辭彙資料而定。
快速鍵、浮動盤、或選單項均可以作為一工具,以提供使用者限制某一特定字類型的搜尋。任意提供此作用的工具均可以使用。一旦模型化被實施,則此特性為特定資料存取能力實施例之副產物,並且在傳統系統或方法下,可能無法完成。
候選字名單的細分
當使用者鍵入他正尋找的字的讀音時,在CJK語言中,由於有大量同音異義字存在,所以CJK輸入法中常常有大量候選字名單。特別是當使用者想要以注音方式輸入單字時,如果沒有音指定時,在日文中之複合字(多文字字)或中文中之複合字,更是如此。將名單整個捲起可能極端笨拙,因為線上輸入窗口不可避免地一次只能一列資料。典型地,此資料係以頻度順序排列,但對於最常用字例外(其將在名單前面),此等資料對於找出目標字並無益。因為由於其固有資料結構彈性,所以,實施例可以使用額外資料資源,所以,有可能替代使用額外有關文字的資料,以細分字並將之顯示於分開的窗,這些係以使用者的選擇方式加以垂直排列。因此,例如,所有字可能被以字開始文字的部首的順序被安排成列。因為使用者熟悉於部首的大略順序,及因為部首將被顯示,所以,他們的眼光將被對焦在正確部位上。在”部首列”中,字可以以頻度加以排列。雖然使用啟始文字的部首可能為次分長候選字名單的多數邏輯選擇,但也可以使用另一可能準則,其為開始文字的核心偏旁的{stroke.endpoint}值,或者整個文字的stroke.endpoint值、或甚至文字的總筆劃。
候選字名單的細分及再顯示係藉由將辭彙資料再分佈為階層互相關資料實體,例如以平常不會進行之方式將文字資料與複合字相關而加以完成。較佳地,當候選字的數量大於通常顯示在候選窗中的數量(通常約10)時,令此特性自動觸發。再者,也可以提供一手段,使得使用者選擇名單細分的準則。當以部首細分選擇字時,在系統詞素內容的預處理可以藉由交相參考詞素名單與文字名單與其部首分類加以完成。
圖3F顯示以外表再分佈的候選文字例,定義準則係為在同一作者之文字分類與文字查看案中所述之核心偏旁概念。
新字登錄的嚴謹控制
除了上述特性外,實施例可以提供手段以自動追縱在前一文字輸入對話框中所輸入的字,並放棄未經由辭彙搜尋找到之新字,而是個別輸入作為分開文字。為了使用者方便,呈現為候選字供使用者輸入一字典的文字及複合字(形成一字的文字順序)將被以兩欄位的名單呈現給使用者:一為文字,及另一為其注音輸入,使得使用者可以選擇接受部份、所有或全不接受候選字輸入至一使用者補充字典,如有必要修改資料。或者,也可以提供額外欄位,使得使用者可以依據被使用作為補充辭彙的辭彙所建立的結構,輸入部份之語音、定義、外國語言等效、或部份其他辭彙資訊。圖4顯示一介面,其可以用以選擇包含於補充辭彙中之字。因此,新文字組合不只可以追縱,同時也可以隨後列出,使得使用者可以修改或改良它們,或提供相關辭彙資料,藉以正式選擇是否在使用者辭彙中永久包含新穎組合。使用者的此層次的控制有時可以較自動處理更有效,該自動處理會使用錯誤結合事實上不是字的文字。
使用者驅動資料加強
辭彙資料提供者及販賣者很少更新其資料。結果,常常新的字及專有名稱不能為現行使用的專門字典所認出。為了針對在新字形成、專有名稱、及其他名詞及其加入至可接受字典間之時差,此實施例提供能力以將使用者資料集合至一中央位置,藉以允許語言家檢測在其輸入資料中的圖案並更新公用使用者字典。也可以設立一動機,以允許使用者參與該計劃。使用者可以以各種手段,選擇下載或安裝公用使用者資料。也可以自由忽略並不作動公共使用者資料。有關於此資料的嚴格保密性可以被確保。因此,使用者考慮其文字內容被盜用,例如,政府機關或高科技公司使用特殊保密條款,因為它們不想要揭露給公眾,以享有更新其基礎字典的優點,而不會揭露其本身所集合之新字。
在操作中,為了控制同音異義字傳遞於資料結構內以儲存的速度,使用者可以使用如圖3F所示之GUI。為了將輸入項加至使用者定義字典,在輸入對話框的末端中,使用者可以選擇一選擇項或其他觸動,以自動回搜前些字輸入並決定哪些字並不是系統中之詞素集合的一部份。(這些字為逐文字輸入,或使用其他輸入裝置,例如一電子筆,這並對應於詞素集合中之順序)。所得可能新字的名單可以被顯示使得有一選擇手段,用以選擇是否在該名單中包含每一字。指定給輸入項的字係被置放於使用者詞典中,以選擇指定例如語音部、字類型(專有或常用)(未示出)。另外,有可能依據本實施例,拷貝為任一手段(不是為使用者所簡單鍵入)取得之文字,並搜尋未包含在系統的詞典中之字。以相同方式下,此等字可以為使用者所拒絕或接受。
允許使用者資料被檢測的使用者可以令其資料自動上載至一指定網站或其他URL。一旦經收部份量的資料,則語言學家可以尋找常用輸入順序,以形成新字或專有名詞。對於通用可接受的字則然後被載入一公共使用者資料檔,以供多數使用者使用。不想要使用此資料的使用者則選擇停止之。將新詞素加入系統可以自動被作動,及所有其他功能同樣地透通地發生。
音調表示或本字準確度的選擇
以傳統輸入法,使用者通常必須選擇是否以有音調或無音調輸入文字,或者,使用者通常沒有選擇,因為是否作成輸入音調的決定係為開發者所作出。除了將資料收集為詞素聚集外,一實施例也可以根據原始輸入(其包含音調資料)建立額外”遮蔽欄“(見圖5A),其提供各種程度之中文表示法,使得即使音調系統有不完全控制,甚至他鍵入錯誤音調,使用者仍將具有良好機會以找出目標文字。這可以藉由提供包含相同注音構成的其他欄,但刪除不同音節的音調加以完成,使得任一可能組合被認為對該字有效。使用者可以選擇哪程度的音調特殊性他想要鍵入,及其他功能也可以使得使用者可即時改變音調要求。即時功能在當太多候選字被開始選擇時係特別重要。為了完成此功能,陰影表係以部份及沒有音調指定加以建立;完全表示為詞素的收集所維持。一種特別重要特性為有關來自連變音調的常見混亂,其中連續兩個三分之一音調音節將發出相同與第二及第三音調音節的聲音。認出此問題,一實施例可以明確地提供在此三分之一-三分之一及二分之一-三分之一順序中的錯誤邊緣,使得使用者可以了解如果他輸入錯誤音調順序的情形的替代方案,及未找出匹配時,也可以提供提供替代方案。
為了選擇音調指定的程度,吾人可以觸動一選單項、按鈕、或其他GUI,以顯示一對話框或其他手段,其中使用者可以指定想要音表示的程度。圖5A顯示字係如何不使用音調、部份音調、或全音調指定法加以指定。當確保其所認知的音調時,此彈性使得使用者例如使用全音調表示法,因此,最小化候選字名單的大小。但當音調認知不確定時,使用者只可以指明少數全頻譜音調(每一音節有一個音調),藉以仍有很好機會找出該字。此功能係為GUI所提供,經由GUI使用者可以選擇全、部份或無音調指定作中文輸入。無線按鈕(未示出)可以為提供此一介面給使用者的一方法。
指定編碼的能力
選單項、喜好板、或其他選擇手段可以提供,以使得使用者指明予以在現行設定時所用之編碼與語言。因此,對於簡體中文輸入可以使用GB或萬國碼(Unicode);對於繁體中文,可能為選擇Big5或萬國碼。對於日文,則可能選擇於萬國碼或移位JIS之間,或JIS標準之部份其他形式。對於韓文,同樣地,提供在萬國碼與另一標準間之選擇。圖5B顯示一介面,其使得使用者完成此等選擇。為了選擇編碼,使用者可以下拉一有關於輸入手段的選單並選擇予以指定用於該語言的編碼。當實施法中,處理一個以上之東亞為主語言時,對於每一語言設定不同預設值。此特性從未在現今輸入法中提供過。
額外特性
額外特性可以提供在實施例中。例如,較佳提供快速鍵用於輸入,以使得使用者可以指定快速鍵,用以輸入長專有名稱或稀有文字等。同樣地,實施例也可以提供手段,以決定使用者使用該系統或方法時,在同音異義字中之字指明速度。
一模組化語言服務中心實施例可以加入在先前實施例中所述之上述功能與特性的任意組合,施加此等特性及功能至所有四個CJK描述語言程式(除了一特定特性可能無關於該腳本),使之容易在所有三種語言及所有四個描述語言程式間作切換。(注意中文有簡體與繁體輸入文字,這就是為何三種語言有四個描述語言程式)。因為上述概念可以應用至使用中文型文字的任意語言,所以可以使用相同LSC系統,例如,對於說日語者使用中文、或說英語者使用中文、或說中文者使用日文。另外,該等方法與系統可以與其他文字系統或符號圖形系統一起使用。通常,該系統與方法可以與想要該等系統與方法的功能的任意語言一起使用。
額外NLP模組的加入
至此,該等實施例已經針對經由輸入法的文字輸入,這係傳統上以鍵盤輸入加以實現。然而,本實施也可以加入其他自然語言處理(NLP)系統,例如用於語音合成(文字至語音)、語音辨識(語音至文字)、手寫輸入、及光學文字辨識。此結果為一語言服務中心,其整合來自各種NLP系統之資料。因為為這些分開NLP系統所用之資料的本質,所以必須使用分開的介面,以連接至語言服務中心。連接NLP系統至LSC的可能介面係被顯示於下表中:
使用自分開辭彙資料源收集的詞素的收集作為語言服務中比的核心(core kernel)程式的優點為來自系統的其他部份的資料可以被使用以加強其他模組的功能。例如,當使用光學文字辨識軟體以掃描文字時,通常OCR軟體允許使用者編輯可能錯誤的文字解譯的文字部份。資料系統整合允許使用者想要校正OCR錯誤,以使用手寫辨識模組,以找出正確文字,或使用為文字查看模組所提供之筆劃結束點查看策略(見圖6)。或者,使用者可以使用標準文字輸入(經由輸入法模組)同時過濾一特定部語音,或使用其他過濾器。同樣地,如果以手輸入文字,如果手寫辨識軟體並未認出一文字,則也可以使用另一手段以輸入該文字。
語言服務中心也可以有利於資料提供者,因為它們可以使用系統的一部份,以看是否在他們正要發展的模組中,遺失哪一元件。例如,根據各種源的詞素的加總收集將很大,並可能用以指出具有不良辨識能力的文字至語音或語音至文字轉換模組中之不足。因此,本實施例可以提供一手段,以指明在兩分開自然語言處理模組間之匹配與遺失關係。
LSC介面:文字及音素
完成所述彈性模組度的關鍵之一為確保兩介面-單一文字流及詞形變化詞流-被清楚界定並附著至所有參與模組上。因此,在語音至文字轉換模組可能包含其本身字典的字的同時,如果它們簡單提供可以隨後為設在語音服務中心的構詞分析器所解譯的音素流,則會更有效。語音至文字轉換模組的實施細節可以不考量LSC提供者,只要介面規則被清楚界定與附著。
互補觸控板/素描板
最後,理想硬體架構可以藉由加入雙功能觸控板/素描板加以實現,使得當操作於絕對座標模式時,電子筆可以用手加以輸入文字,及當操作於相對座標模式時,觸控板可以作正常游標控制。這使得使用者特別容易使用手寫辨識模組。一鍵盤按鈕或其他手段應被設置,使得在相對與絕緣操作間之切換更快速與容易。
另一種完成同一結果的選擇為放置分開的觸控板在正常集中式觸控板的右及左側。這些外接觸控板將於連接至電子筆時被作動,並將排除於絕對座標模式使用,即使用電子筆輸入文字。
第三方案為設計一觸控板事件回應系統,使得觸控板輸出被取決於事件應答器加以不同地解譯。因此,如果在螢幕上的作動區為在文字查看模組中之文字輸入接收部,電子筆輸入將被解譯為在絕對座標。否則,將解譯為相對座標,即正常游標控制之座標。
無論如何,部份形式之觸控板-素描板輸入將互補輸入法模組的標準鍵盤驅動輸入,藉以使之可能容易地找出文字或字,其中,聚集詞素收集不會具有該字或文字。
在操作時,語言服務中心之提供及在不同自然語言處理模組間的連接操作將參考圖6加以描述。
圖6顯示語言服務中心(LSC)的元件的整體架構。更明確地說,語言系統600包包含具有詞素604、文字查看模組606、構詞剖析器608、衍生規則610及構詞產生器612的LSC602。連接至LSC602的是多數字典(或辭彙資料源)614-618。也連接至LSC602的是光學文字辨識模組620及手寫辨識模組622,兩者均可以被用以使用LSC602產生供查看之單一文字624(例如萬國碼文字)。語音分析器626、輸入法模組628及語音合成器630係被耦接至LSC602並可以用以提供一詞形變化詞(例如一順序的音素)給LSC602。所示部件只用於一語言,當然用於每一語言的LSC也包含相同或類似部件。如圖所示,專有字數的內容(標示為”字典”614-618)係被整合入詞素集合。
對於外部自然語言處理模組有兩主要介面:單一文字(使用通用碼-編碼),及詞形變化詞(在部份音位標記法形式中表示為一連串的音素)。OCR及手寫辨識模組620及622與單一個人文字作有介面,表示它們想要一個一個地指明個別文字。任何需要為這些模組所解譯的校正可以有效地執行,因為直接鏈結文字查看模組之故。模組可以被實施為軟體、硬體或兩者之組合。
其他介面、詞形變化詞完成至語音合成組630及語音分析模組的連接。語音合成係藉由取出文字(未示出)、經由LSC的構詞分析器(更明確地說,剖析器與衍生規則),然後回到合成器作由音素至可聽聲音的轉換。相反地,語音分析模組626將表示順序之音素,剖析器由輸入文字用衍生規則,指明個別引用形式並尋找在系統的詞素集合中之匹配字彙。產生器取得匹配字彙並再變化候選字給使用者看。
系統的優點在於LSC並不具有處理有關語音合成或語音分析的細節,只要對應模組讀音或提供詞形變化詞為一順序之音素。同樣地,LSC並不必要考量本身之用以實現光學文字或手寫辨識的各種演算法或神精網路,只要這些模組提供以順序個別文字順序表示之解譯。假設它們符合如圖所示之界面,則兩組外部模組可以得到為LSC所提供之豐富資料。
圖7顯示用以實施一或更多實施例之例示電腦系統。圖7之電腦系統700包含一處理器702及記憶體704。處理器可以包含單一微處理器,或包含多數微處理器,用以架構電腦系統為多處理器系統。記憶體704部份儲存為處理器702所執行之指令及資料。如果本發明之系統整個或部份實施為軟體,包含電腦程式,則記憶體704可以用以儲存在操作時可執行之碼。記憶體704可以包含動態隨機存記憶體(DRAM)排與高速快取記憶體。
圖7的系統更包含大量儲存裝置706、週邊裝置724、輸入裝置710、攜帶儲存媒體驅動器712、電腦可讀取媒體714、圖形子系統720及顯示器708。為了簡明起見,示於圖7的元件係被描繪經由單一匯流排716加以連接。然而,這些元件也可以經由一或更多資料傳送手段加以連接。例如,處理器702及記憶體704可以經由一本地微處理器匯流排連接,以及大量儲存裝置706、週邊裝置724、攜帶儲存媒體驅動器712、及圖形子系統720可以經由一或多數輸入/輸出(I/O)匯流排加以連接。典型以磁碟機或光碟機實施之大量儲存裝置706係為非揮發儲存裝置,用以儲存為處理器702所用之資料與指令。在另一實施例中,大量儲存裝置706儲存電腦程式,其實施本發明之方法。本發明之方法也可以儲存於處理器702中。
攜帶儲存媒體驅動器712配合攜帶式非揮發儲存媒體一起操作,例如軟碟,或其他電腦可讀取媒體,以輸入及輸出資料及碼進出圖7的電腦系統。在一實施例中,本發明之方法係儲存於此一攜帶媒體中,並經由攜帶儲存媒體驅動器712被輸入至電腦系統700中。週邊裝置724也可以包含任意類型之電腦支援裝置,例如輸入/輸出(I/O)介面,以加入額外功能至電腦系統700。例如,週邊裝724可以包含網路介面卡,用以將電腦系統700聯繫/結合至一網路、數據機等等。
輸入裝置710提供一部份的使用者介面(UI)。輸入裝置710可以包含一字數鍵盤,用以輸入字數及其他鍵資訊,或一指標裝置,例如滑鼠、軌跡球、電子筆或游標方向鍵、或影像捕捉攝影機或OCR。此等裝置提供額外手段,用以聯繫/結合或執行本發明之方法。為了顯示文字及圖形資訊,圖7的電腦系統700包含圖形子系統720及顯示器708。顯示器708可以包含陰極射線管(CRT)顯示器、液晶顯示器(LCD)、其他適當顯示裝置、或用以顯示的手段,以使得使用者可以觀看本發明方法的執行。圖形子系統720接收文字及圖形資訊並處理資訊以輸出至顯示器708。顯示器708可以被用以顯示元件介面與/或顯示為使用者介面的一部份。顯示器708提供本發明方法的實際用途,因為本發明之方法可以直接及實用地經由使用顯示器708及輸入裝置710加以實施。圖7的系統700也包含音訊系統722。在一實施例中,音訊系統722包含聲卡,其接收來自可以在週邊724中找到之麥克風之聲音。另外,圖7的系統包含輸出裝置718。適當的輸出裝置例包含喇叭、印表機等等。
圖7的系統也包含網路介面726,耦接至網路728(例如網際網路)。遠端使用者或系統730可以由網路存取執行於處理器702上的分類與取回方法。
在圖7的電腦系統中所包含的裝置係可典型在通用目的電腦系統找到,並用以表示此等電腦元件的較寬類型,並為此技藝者所知。圖7的系統顯示一平台,其可以用於實際執行本發明之方法。各種的其他平台也可以採用,例如由蘋果電腦公司所購得之麥金塔為主平台,具有不同匯流排架構的平台、網路平台、多處理器平台、其他個人電腦、攜帶式平台(例如手持電子字典、翻譯機等等)、工作站、主機、導航系統等等。
配合電腦系統700的其他實施例更包含使用其他作為監視之顯示手段,例如CRT顯示器、LCD顯示器、投影顯示器等等。同樣地,記憶體704以外之類似類型之記憶體也可以使用。除了元件介面外,其他介面手段也可以使用,包含字數鍵盤、其他鍵資訊或任意指示裝置,例如滑鼠、軌跡球、電子筆、游標或方向鍵。
另一實施例包含一電腦程式產品,其係為儲存媒體,其內儲存有可以用以規劃一電腦進行本發明聯繫/結合方法的指令。該儲存媒體可以包含但並不限於碟片類型,包含軟碟、光碟、DVD、CD ROM、磁光碟、RAM、EPROM、EEPROM、磁或光學卡或任意類型之儲存電子指令之媒體。
儲存於任一電腦可讀取媒體內的有用以控制一般目的/特殊電腦或微處理器的硬體之軟體,用以使得電腦或微處理器與人類使用者或利用本發明結果的其他機制互動。此軟體可以包含但並不限於裝置驅動程式、作業系統、及使用者應用程式。最後,此電腦可讀取媒體更包含軟體,用以執行與本發明聯繫/結合的方法。
用以執行上述電子字典或LSC的方法之使用者裝置或系統可以為攜帶式電子裝置,例如以下之一(或一個以上之組合):網路為主的裝置;無線電腦手機(例如蘋果的iPhone);個人數位助理(PDA),如黑霉機、Palm計算裝置等;手持電腦;攜帶式電子字典;膝上型電腦(或其他類型之攜帶電腦,如平板電腦);智慧電話;例如數位相機或數位攝影機之媒體記錄器;數位媒體播放器,例如iPod、mp3播放器、電子書讀卡機、手持遊戲平台;個人導航裝置;整合裝置等等。使用者裝置可以為桌上型電腦,例如IBM相容個人電腦(PC)或蘋果麥金塔。通常,任何已知或隨後開發明之裝置或裝置組合均可以執行上述功能,並與本發明實施例一起使用。
本發明之軟體實施例可以購買(或取決於應用程式提供者而定免費附送)並經由有線或無線網路下載給一使用者。蘋果的AppStore為下軟體至攜帶式裝置的系統例。
營收共享/資料安全概要
一實施例也可能合倂為不同資料提供者所提供之詞典或辭彙資料庫並包含不同資料結構,以用於模組語言服務系統中。開始時,這將有一困境,通常,不同辭彙資料或NLP模組的提供者為競爭者。為何這些人要把他們的資料或模組集合於一系統中?此問題可以藉由本案實施例的四個特性加以解決,並使市場更活絡。
1)上述之資料描述模型(包含說明碼)及剖析系統(包含標頭檔),以使得具有各種結構的資料被加入一系統中,並加入有對應之應用主機及顯示來自第三方的辭彙資料。
2)經由來自異種源的資料檔的加密及定鎖而完成資料安全;
3)一次購足及展現功能,使得各種辭彙資料源可以為使用者所用;及
4)互利財務-營收共享系統,可以使得LSC實施例財務上吸引LSC系統的授權者及辭彙資料的販售者,使得兩者利用加入此一LSC至OS及使得異種源的辭彙資料可用,而取得各種好處。
這些元件的特有組合,使得輸入法系統的資料共享模型可行。這些主要態樣的三種-即,資料安全、一次購足及展現功能、及互利財務(營收共享)係描述如下。
圖9為具有營收共享及資料安全特性的例示LSC圖。更明確地說,系統900包含LSC602,其除了上述有關圖6的元件外,也包含辭彙資料安全模組902、作動碼模組904、辭彙資料庫存取模組906、一次購足(或電子商務)模組908、及營收共享模組910。也一起連接至LSC602的有具有圖形使用者介面914的使用者系統912。使用者系統可以整合LSC並可以本地連接或為遠端連接。圖形使用者介面可以用以顯示各種上述使用者介面螢幕及元件。連接至LSC的也有OS提供者916及辭彙資料源提供者918,其可以由LSC602的營收共享模組910接收營收共享資訊。各種元件的操作係討論如下。
資料安全
因為來自不同辭彙資料提供者的資料將被取得並為在相同電腦上的使用者所用,所以,基本上,辭彙資料源提供者感到安全,其資料不能被妥協。否則,一字典製作者可能非法將來自另一字典製作者資料加入其本身資料庫。一實施例藉由提供以下之特性而保全資料:
1)在給定電腦上的每一LSC系統具有特有ID,其綁住其所用的電腦上。
2)加入該LSC系統的每一辭彙資料源具有其本身ID及鑰,並與在系統上的其他辭彙資料源有區別。
3)除了使用者字典外(包含使用者本身指明並被加入系統的字),安裝在系統中之辭彙不能被拷貝及使用於另一系統,因為它們的安全鑰將帶至該電腦的LSC特有鑰。
4)當未使用時,所有辭彙資料檔可以例如使用blowfish、two-fish或其他加密演算法加以加密。
5)只要辭彙資料檔為該LSC所用,辭彙資料檔係被鎖定,使得它們不能為外部程式或使用者所觀看。
因此,在任何時間,辭彙資料檔可以被加密(當未使用)或定鎖(被使用時)。再者,它們不能被一電腦拷貝至另一電腦,因為它們只有在提供開始安裝時的特有存取鑰才會工作。此鑰係被第一次展現使用或第一安裝(如果展現選擇未使用)時被提供。
一次購足及展現能力
本來,使用者可能不願意立即花用大量金錢於額外入方法字典上,如果他們沒有感覺增加一詞典將如何改良資料輸入及其他LSC系統功能。在同時,在現行商業實務中,辭彙資料源可能難找,因為它們來自異種源並可能不會一直為電子格式且可取用。
為了針對此可能缺點,”一次購足”能力可以提供,使得所有符合本LSC系統的辭彙資料源可以在一位置找到,例如在跟隨著OS安裝軟體的安裝CD上,或在一專用以提供辭彙資料源下載的網站找到。屬於該使用者想要語言的辭彙源可以被加密格式下載。
如果使用者想要展現辭彙,則提供”結合鑰”給該電腦,表示辭彙檔將不會為另一電腦所使用。隨後,LSC設備解碼該檔案並將之加入辭彙收集中,但用於該詞典的源字係被指定以一去作動日(deactivation date)。一旦去作動日到達,則該詞典不再被使用,其實體被由辭彙集合中移除。如果使用者選擇購買該詞典,則該詞典會給予以一再作動鑰,並由該時點起,其可以永久被用於該電腦上。
任意數量的標準加密演算法均可以用於本方法中,以加強資料安全,該實際實施法將與平台相關。理想上,所有資料庫將具有一分開鑰,使得在不可能事件中,該一鑰會被發現,而其他將不會妥協。然而,可以迅速看到加密可以足夠確保,使得駭客攻擊作為不可能。因此,其很少有關於是否使用blowfish或two-fish演算法,只要提供足夠安全以防止辭彙資料被偷竊即可。因為作動及去作動(後-展現)碼係為安裝資料的電腦所獨有,所以,不可能使人們分享作動或去作動碼。
同時,任意其他類型之NLP模組也可以在一次購足系統中取得。模組必須符合上述LSC介面。因此,各種文字至語音、語音至文字、輸入法、手寫識別、及光學符號識別模組可以以此方式取用。
營收共享
為了使LSC系統的準備與管理滿足OS提供者及辭彙資料提供者,必須準備各種財務配置。然而,較佳地,對於每一辭彙購買者,OS提供者將收到小額權利金百分比,以協助補償授權LSC系統的價格。辭彙提供者將給予小額權利金百分比。LSC系統授權者也可以為該OS提供者所直接付款或接收每一詞典購買的類似權利金百分比。”雙羸”財務或營收共享將提供OS製作者動機,以加入LSC及詞典提供者提供其資料。再者,如果外部NLP模組開發者附著至該介面。
付款方法與付款保證
付款理想上係網際網路上進行,使得他們可以取得用於該詞典的永久作動碼。也可以免費提供暫時展現碼,但它們只提供有限次使用與取用能力,並具有一手段以中斷其有限次使用。理想上,當完成購買時,詞典提供者及OS提供者及LSC系統提供者均被通知,使得其中不會有權利金分配的爭議。
為了安全及確保三方之任一方不會有要詐,當一使用者付款一詞典時,一確認碼可以為所有三方所提供。分開確認碼的使用確保每一方可以在詞典被購買時被通知,因而,確保每一方將知道它們正接收其在利潤上的同意金額比例。
在操作時,使用者由網路或安裝CD下載或安裝詞典模型。然後,選擇展現(如果想要的話)該產品,在其上提供一展現作動鑰。在此點,辭彙資料被”嫁”給系統上的特有LSC。來自下載詞典的字被暫時儲存於系統中的詞素收集處。當展現期到期,則資料被由該收集處移除。
使用者然後可以購買該詞典。於購買時,OS提供者、專利字典提供者、及LSC服務提供者均被通知有購買的情形。一再作動(永久)鑰被提供,及資料被再次加入該詞素收集處。理想上,該再作動鑰係被線上購買,但對於沒有接線者,離線交易也可以。
使用者可以選擇哪些組差異資料被自動取用,而哪些被預設隱藏。對於區塊資料,則沒有此選擇。如果被選擇顯示,則區塊資料被顯示為一單元。
辭彙資料的額外購買遵循相同原理,以如先前實施例所述,資料被加入至系統的詞素收集處。
也可以額外購買NLP模組。假設它們符合上述介面,則它們也可以利用集合在語言服務中心中之辭彙資料。
在另一實施例中,非CJK語言也可以加入語言系統中。雖然上述實施例係針對東亞語言學習者及使用者,但很多語言服務中心(LSC)的特性可以應用至其他語言的使用者與學習者,包含這些文字系統係根據部份形式字數描述語言者。因此,例如,電腦為主及手持電子裝置為主版的LSC可以應用至西方語言。對此,用於系統中之詞素的收集資料將需要在本字上被重排序,以符合該描述語言。
大多數,相同基本框架及資料結構可以應用如同CJK導向LSC系統上。然而,非CJK系統的實施法將需要少許如圖7所示之修改。
手寫辨識模組、光學文字辨識模組及輸入法模組均與文字流聯繫/結合,文字流較佳被以該語言的標準本字法呈現。所感覺的字母順序將為實際本字的構詞剖析器所測試。(此與CJK系統的不同在於該CJK系統使用一羅馬化緩衝器(拼音、羅馬字等)以表示予以被輸入的聲音)。同時,文字至語音及語音至文字模組與CJK版相同類型的注音流類型的聯繫/結合,但只在此時,該表示法幾乎不會實際拼,音而是部份形式之注音或音素表示法。因為同音異義字的音素,所以重要的是此一表示法可以映圖至各個拼出的可能字。(例如,在部份英文方言中,cot及caught聽起來一樣,但有相同注音表示法。因此,注音表示法將表映圖兩字。)為了使這有可能,在系統中之詞素的收集必須不只實際本字也要注音流相等,以能為文字至語音或語音至文字之模組所認出。同樣地,衍生規則將包含表示在標準拼音(語言的本字系統)的變化及衍生及所用於注音流介面中之注音表示法的能力。NLP模組對與LSC的這些介面的關係係顯示於圖7。(注意,如果系統的目標為對說中文者提供英文協助,則也可以包含一文字為主介面,如同在CJK版一般。)
各種通常並未實施於標準輸入法中的特性可以應用至CJK實施例中。例如,藉由追蹤使用者輸入,可能可以取得使用者的字彙使用,並與標準頻率計數作比較。這可以在指示下完成,特別是如果使用者有大量或在字彙上有大間斷(在第二語言學習者常用)。文法或拼音助理也可以即時採用,假定各個字輸入係為構詞剖析器所測試。未匹配任何變化形式的字可能加上旗標供識別,並可能匹配可以立即提供於分開浮動面板或其他GUI。使用者可以立即取用字典,因為部份字典可能為雙語,使用者可以逆向查字,如同CJK版般。簡言之,有大量可能指示優點以應用此一方法至非CJK語言學習者,這在實施CJK導向LSC時所同時取得者。
總結,LSC可以容許輸入法及其他NLP模組用於中文、日文及韓文以外之語言。
應了解的是,上述任意步驟可以整個或部份重覆,以執行語言資料管理工作。再者,應了解的是,上述步驟可以在單一或分散處理器上執行。同時,在上述各實施例圖所示之處理、模組及單元可以分佈於多數電腦或系統中,或可以一起放在單一處理器或系統中。
用於語言資料管理的方法、系統及電腦程式產品(即軟體)的實施例可以實施在一般目的電腦、特殊目的電腦、ASIC或其他積體電路、數位信號處理器、硬體接線電子或邏輯電路,例如分立元件電路、程式邏輯裝置,例如PLD、PLA、FPGA、PAL等等上。通常,能執行於此所述之步驟的程序可以用以實施語言資料管理的方法、系統或電腦程式產品的實施例。
再者,所揭示之用於語言資料管理的方法、系統與電腦程式產品實施例可以迅速部份或整個地實施於軟體,使用例如物件或物件導向軟體開發環境,提供可以用於各種電腦平台上的攜帶式來源碼。或者,所揭示用於語言資料管理的方法、系統與電腦程式產品的實施例可以部份或整個被實施為硬體,例如使用標準邏輯電路或VLSI設計。取決於系統之速度及/或效率要求,也可以使用其他硬體或軟體,利用特定功能,及/或特定軟體或硬體系統、微處理器或微電腦系統。用於語言資料管理的方法、系統與電腦程式產品的實施例可以以硬體及/或軟體,以已知或隨後開發明之系統與結構、裝置及/或軟體,為熟習於此技藝者以於此所述之功能及一般電腦及/或語言學基礎知識加以實施。
再者,所揭示之用於語言資料管理的方法、系統與電腦程式產品可以被實施為執行於一般目的電腦、特殊目的電腦、微處理器等等中的軟體。同時,語言資料管理系統與方法可以實施為內佇於個人電腦上之例如JAVA或CGI描述語言程式的程式,作為在伺服器或圖形工作站上的資源,作為內佇在專用處理系統中之常式等等。該方法與系統可以將語言資料管理的方法實際加入至軟體及/或硬體系統,例如,電腦軟體程式、電子字典及/或翻譯機。
因此,明顯地,本案提供有依據本發明之用以語言資料管理的方法、系統與電腦程式產品。雖然本發明已經配合若干實施例加以說明,但明顯地,各種替代、修改及變化係可以為熟習於本技藝者所知。因此,申請人想要包含所有在本發明精神與範圍內的此等替代、修改與等效變化。
600...語言系統
602...語言服務中心
604...詞素集合
606...文字查看模組
608...構詞剖析器
610...衍生規則
612...構詞產生器
614...字典
616...字典
618...字典
620...光學文字辨識
622...手寫辨識
624...單一文字
626...語音分析器
628...輸入法模組
630...語音合成器
700...電腦系統
702...處理器
704...記憶體
706...大量儲存裝置
708...顯示器
710...輸入裝置
712...攜帶儲存媒體驅動器
714...電腦可讀取媒體
716...單一匯流排
718...輸出裝置
720...圖形子系統
722...音訊系統
724...週邊
726...網路介面
728...網路
730...遠端使用者/系統
900...系統
902...辭彙資料安全模組
904...作動碼模組
906...辭彙資料庫存取模組
908...一次購足模組
910...營收共享模組
912...使用者系統
914...圖形使用者介面
916...OS提供者
918...辭彙資料源提供者
圖1A為辭彙資料的階層模型例;
圖1B為格式標籤如何應用至圖1A的模型,使得來自出版商的原始資料可以準備加入一實施例中;
圖2A顯示例示資料結構;
圖2B顯示允許使用者加入、移除、動作、去動作、及展現辭彙資料進出辭彙服務中心實施例的例示介面;
圖3A顯示用以允許使用者指定來自詞典的資料的詞素所顯示於輸入候選窗的顏色,並表示是否有來自顯示於輸入窗的不同資料源的複製匹配的人類電腦圖型使用者介面;
圖3B顯示允許使用者以文字集作色碼搜尋及輸入候選字的例示人類電腦圖型使用者介面;
圖3C顯示在搜尋或輸入一複合字的例示補充辭彙資料表示圖;
圖3D顯示在用滑鼠時的文字資料的例示表示法;
圖3E顯示依據例如部首或核心元件之分類特性之同音異義名單的例示集合;
圖3F顯示用以設定已用過字傳遞至用以儲存的資料結構的速度之例示介面,及用以控制用於各種有關於輸入法的各功能的鍵盤快速鍵的例示方法;
圖4顯示用以剖析文字及搜尋未包含在任一資料源中之文字的例示介面,其中下部份列出可以選擇以輸入指定詞典或其他資料源之候選文字順序;
圖5A顯示一文字的例示拼音輸入及拼出中文的字之音特殊性的不同相關程度,使得音調資料具有”遮住”欄,其表示各種可能性;
圖5B顯示指定予以被使用的編碼類型的例示操作面板;
圖6顯示例示語言服務系統(或中心)實施例的各種元件圖,包含於各包含於其上的自然語言處理模組間之主要介面及語言服務系統;
圖7為實施一方法或系統之一或多數實施例之例示電腦系統的方塊圖;
圖8為用以準備、輸入及積集辭彙資料的例示方法流程圖;及
圖9為具有營收共享及資料安全特性之LSC的方塊圖。
600...語言系統
602...語言服務中心
604...詞素集合
606...字元查看模組
608...構詞剖析器
610...衍生規則
612...構詞產生器
614...字典
616...字典
618...字典
620...光學字元辨識
622...手寫辨識
624...單一字元
626...語音分析器
628...輸入法模組
630...語音合成器

Claims (26)

  1. 一種準備與輸入辭彙資料的方法,該方法包含:提供第一格式之辭彙資料,該辭彙資料包含多數記錄,各個記錄具有多數部件,每一部件對應多數辭彙資料類型之一,及各個部件係被標示以對應於該部件的該辭彙資料類型的詞類標示碼;提供一標頭部,其包含對具有多數資料結構標示碼值的資料結構說明的一參考值,各個資料結構標示碼值對應於該多數標示碼之一,及該結構構成簡單/平坦結構或複雜/階層結構之一;輸入該辭彙資料;藉由將對應於該部件的該詞類標示碼之該資料結構標示碼值指定給該被輸入辭彙資料的各個部件,而將該辭彙資料由該第一格式轉換為與該第一格式不同的第二格式,使得各個部件的該辭彙資料類型可以被認出,及該部件可以依據其對應資料結構標示碼值被儲存;及依據資料結構標示碼值,儲存該被轉換辭彙資料於該資料結構中,該被轉換辭彙資料係被以第二格式儲存。
  2. 如申請專利範圍第1項所述之方法,其中該辭彙資料包含以下類型之至少一種:筆劃、獨立端點數、部首分類、核心偏旁分類、詞類、字子級、核心意義、子意義、慣用語使用、同音異義字、反義字、樣品句、用法註解、語源資訊、第二語言定義、及第二語言翻譯。
  3. 一種用於搜尋或輸入中文狀字元及字的模組系統, 該系統包含:鏈結控制手段,用以自使用者接收輸入以鏈結或解鏈結多數辭彙資料源的一或更多,各個辭彙資料源具有獨立資料結構;資料結構產生手段,用以產生一或更多資料結構,用以儲存來自該辭彙資料源的一或更多的資料至多數資料儲存部;資料結構指示手段,用以指示在該資料儲存部之一內的該所儲存資料的結構;資料整合手段,用以將在各個資料儲存部中之該儲存資料整合為階層資料結構;聚集手段,用以建立詞素的聚集集合,該集合的詞素包含所有搜尋鍵及在該辭彙資料源中找到的對應資料的聚集,以及,在該等鍵被找到之該辭彙資料源的交叉參考;指定手段,用以回應於使用者的輸入,指定予以使用之辭彙資料的子集;建立手段,用以建立辭彙資料的作動子集,該作動子集包含對應於為該使用者所指定使用的該辭彙資料表的該詞素集合的子集,其中各個記錄對應於注音或音位搜尋鍵,其中所取回值對應於具有本字表徵的字元或字物件及經由起源詞典所提供的額外辭彙資料;取回手段,用以由該辭彙資料源取回辭彙資料的個別記錄,使得所有該源可以當提供搜尋鍵時,貢獻候選字以輸入至該輸入手段; 顯示手段,用以顯示該等候選字,以在字搜尋及文字輸入時為該使用者所選擇;總結表產生手段,用以產生總結表,其包含儲存於該系統中的個別詞典的基礎本質及特徵;及總結顯示手段,用以顯示包含在該總結表中之資訊。
  4. 如申請專利範圍第3項所述之模組系統,更包含:構詞衍生規則表,其描繪在對應於該辭彙資料的語言中所找到的各個類型字級的字形變化及衍生字;構詞剖析器,將由該使用者的文字輸入,使用該衍生規則,指明字詞幹及對應引用形式;及構詞產生器,將候選字由其引用形式轉換為對應於該使用者的該文字輸入的該字形變化形式,其中該系統根據在詞素集合中的匹配及考量為該使用者所輸入的字形變化或衍生字,認出並建議候選字。
  5. 如申請專利範圍第3項所述之模組系統,更包含:第一文字緩衝器,用以保持先前輸入文字;分析模組,自動地分析該輸入文字並由該文字緩衝器移除該輸入文字的對應字的任意部份,該等字的衍生可以根據該衍生規則及在該詞素收集中的該引用形式加以決定;第二文字緩衝器,儲存該輸入文字的剩餘部份作為未指明詞素;第一圖形使用者介面,使得該使用者以選擇以保持哪些剩餘部份並加入至一補充詞典; 第二圖形使用者介面,使得該使用者將辭彙資訊相關至用以儲存於該補充詞典的該等剩餘部份;及儲存手段,用以將作為使用者資料的該新詞素與相關於為該使用者所輸入的該詞素的任一該加入辭彙資料儲存在一起,其中未對應於在該詞素收集中的任意輸入項的字及字元係被指明與儲存隨後使用。
  6. 如申請專利範圍第5項所述之模組系統,其中該加入辭彙資料包含詞素讀音、意義、第二語言翻譯、定義、字形式、字子類型、及語源資料之一或更多。
  7. 如申請專利範圍第3項所述之模組系統,更包含:將使用者資料上載至中央位置的手段;對來自多數使用者的使用者資料執行檢測的手段,以決定該輸入的重覆圖案被加入公共使用者資料詞典;及下載該公共使用者資料詞典以用於該系統的手段,其中該辭彙資料庫可以被連續擴充以包含新字、專有名詞、及其他輸入有關該辭彙資料庫的語言的項。
  8. 如申請專利範圍第3項所述之模組系統,更包含:當該檔案未使用時,加密辭彙資料檔的手段;當該檔案在使用時,解密該辭彙資料庫的手段;及當被解密及在使用時,鎖定該辭彙資料庫的手段,其中該資料檔未被檢測或經由該系統以外之應用程式之探索,及其中專屬辭彙資料係經由該加密及鎖定加以保全。
  9. 如申請專利範圍第3項所述之模組系統,更包含:致能文字輸入候選字予以使用在另一語言中具有相同意義的一字加以查看的手段,其中只要一或更多雙語或多語資料源被加入該系統,則該使用者可以經由該目標輸入語言外的一語言找出字。
  10. 如申請專利範圍第3項所述之模組系統,更包含:過濾手段,用以過濾字搜尋,使得候選搜尋結果係為該使用者所選擇的部份準則所過濾,該準則包含字級、在專有名詞級中之隸屬、在地名級中之隸屬、頻率斷開、及原始技術領域之至少之一,其中該所得過濾候選字名單包含對應於該所用過濾的字元或字。
  11. 如申請專利範圍第3項所述之模組系統,更包含:查看手段,用以使用筆劃端點值對與重現偏旁的組合,查看字元。
  12. 如申請專利範圍第3項所述之模組系統,更包含:顏色表示或依據一準則區分文字輸入候選字的手段,該準則包含字級、字子級、或辭彙資料源起點之一或更多。
  13. 如申請專利範圍第3項所述之模組系統,更包含: 顯示手段,用以當該使用者在滑鼠經過模式中,將游標放置於顯示在該螢幕上的一字或字元時,顯示對應於儲存於該系統中之字或字元的相關辭彙資料。
  14. 如申請專利範圍第3項所述之模組系統,更包含:圖形使用者介面,用以選擇是否藉由部首或核心偏旁群集字元,該等字元係依據該選擇加以分類;快速手段,用以以部首觸發群集;快速手段,用以以核心偏旁觸發群集;顯示手段,用以將在一列的字頭的部首或核心偏旁以粗體或彩色方式顯示,字元或字係為跟隨在列後的該部首或核心偏旁所分類,其中該同音候選字元的名單係依據其構成部首或核心偏旁加以群集,及其中同音候選字的名單係據該候選字的該第一字元的構成部首或核心偏旁加以群集。
  15. 如申請專利範圍第3項所述之模組系統,更包含:一組交替讀音欄,其儲存具有較不準確資料的詞素讀音,包含較不準確音調指定或共同拼字錯誤;指示手段,用以指示使用該系統輸入文字時所需之音調表示或拼字準確的程度,其中當文字輸入時,具有較不安全認知詞素音調的使用者係被提供以較大錯誤邊緣,及文字輸入時,更先進使 用者可以給定較少候選字。
  16. 如申請專利範圍第3項所述之模組系統,更包含:圖形使用者介面,使得該使用者選擇用於輸入的編碼系統的類型。
  17. 一種電子字典,包含:處理器;記憶體耦接至該處理器;多數辭彙資料源,儲存在該記憶體內;辭彙收集;該辭彙收集的作動子集;輸出裝置,用以顯示資訊,該輸出裝置係耦接至該處理器;輸入裝置,用以輸入讀音,在該輸出顯示上完成選擇,及操作該電子字典,該輸入裝置係耦接至該處理器;及字元資料,具有欄位代表構成核心偏旁、部首及其他非核心偏旁、筆劃值、及端點值,其中該字元及偏旁係依據筆劃端點數及重現偏旁加以分類,其中該辭彙資料源被整合為詞素的聚集集合,其中當該一或更多辭彙資料源為使用者所選擇時,該選擇辭彙資料源被有效化以作搜尋,而剩餘被認為去作動,及其中該依據筆劃端點分類之字元資料係被鏈結至包含 在該詞素集合中的字,使得各個複合字的所有構成字元被註解並經由第一鏈結資訊,相關至與個別字元相關的資料,及各個複合字的該頭字元被註解並經由第二鏈結資訊鏈結至個別字元資料。
  18. 如申請專利範圍第17項所述之電子字典,更包含輸入手段,用以將新辭彙資料源輸入至該電子字典的手段,用以加入該詞素集合中。
  19. 一種供使用中文型字元的語言學習者及使用者使用的電腦化字典,該字典包含:處理器;輸入裝置,供使用者提供輸入給該字典,該輸入裝置係耦接至該處理器;顯示裝置,用以觀看選擇與所顯示資料,該顯示裝置係耦接至該處理器;耦接至該處理器的記憶體;鏈結控制手段,用以回應於使用者輸入,鏈結及去鏈結辭彙資料源;表建立手段,用以建立儲存明文或區塊資料源的分開表;資料結構建立手段,用以建立儲存不同資料源的複雜資料結構;儲存於該記憶體中之資料結構旗標,以表示該資料的該結構被儲存,該旗標在明文、區塊或不同資料間作區分; 取回手段,用以由該辭彙資料源取回辭彙資料的個別記錄,使得當已經提供有搜尋鍵時,該等源可以貢獻候選字供輸入;總結表建立手段,用以產生一總結表,其總結儲存於該系統中之個別詞典的基礎本質及特徵;總結顯示手段,用以顯示包含在該總結表中之該資訊;根據多數不同資料源,建立詞素集合的手段,該詞素集合包含:在該個別辭彙資料源中找到之各個搜尋鍵的聚集及找到該等鍵的該辭彙資料源所特有的資料的參考;回應於使用者輸入,指定哪些辭彙資料源予以在給定時間使用的手段;表示該詞素集合的作動子集的手段,該作動子集包含對應於指定為該使用者所使用的該辭彙資料表的該總詞素集合的子集;致能手段,用以當使用者將游標放置在被顯示在該顯示裝置上的字或字元時,使得對應於儲存於該輸入法及設備的字或字元的相關辭彙資料被顯示;及顯示手段,用以如果在滑鼠經過模式中之進行隱含搜尋時找出一個以上之匹配時,顯示由不同詞典發出的資料。
  20. 一種供使用中文型字元語言的學習者及使用者使用的電腦化語言服務中心,該語言服務中心包含:音素順序介面,其使得該語言服務中心與語音輸入/ 輸出模組互動,以提供口說字輸入/輸出法;字元介面,致能該語言服務中心與光學字元辨識模組與手寫辨識輸入模組互動,該光學字元辨識模組,用以將書寫文字轉換為個別字元流,該手寫辨識輸入模組將使用電子筆所輸入的字元轉換為個別字元流;一集合詞素,包含:一至第三方字典中之資料的介面;及聚集來目該第三方字典的資料的聚集手段;一集合詞素,組織成同音異字群集;字元查看模組,允許使用部首、讀音或該字元查看發明的筆劃終點法之一或更多,來查看字元;及構詞分析器,具有字形變化字剖析器、一組衍生規則、及一字形變化字產生器。
  21. 如申請專利範圍第20項所述之語言服務中心,更包含:觸控輸入裝置,其可選擇地操作於相對座標模式及絕對座標模式,使得在其表面上之動作將移動一游標相對距離與對應於該距離的方向,及接觸該觸控板的物件移動在該觸控板的方向操作於相對模式中,並當一物件接觸及移動在操作於該絕對模式中的觸控板上時,將移動該游標絕對或成比例的距離與方向;及選擇手段,用以在絕對座標與相對座標觸控板操作模式間作選擇。
  22. 一種具有資料安全及營收共享的語言服務系統,該系統包含: 多數辭彙資料庫,各個辭彙資料庫具有由辭彙資料源,依據用於字元資料及字資料的階層模型語言所準備及輸入的辭彙資料;辭彙資料安全模組,適用以加密、解密、及鎖定該辭彙資料庫之一或更多;辭彙資料庫存取模組,其邏輯地將該語言服務系統相關至其所儲存的機器;作動碼模組,適用以產生用於該辭彙資料庫之一或更多的特有暫時辭彙資料作動碼,該使用之作動碼暫時作動該辭彙資料庫之一或更多,用以在展現模式中評估;一次購足模組,適用以允許使用者自單一位置存取該辭彙資料庫;圖形使用者介面,用以取得暫時作動碼,以使得該資料被暫時加入該系統之詞素集合;終止手段,用以依據預定時間段,終止該展現模式並由該詞素集合中移除未購買的辭彙資料;取得手段,用以取得該資料的永久作動碼;通知手段,用以通知輸入法提供者、作業系統提供者、及辭彙資料提供者辭彙資料的購買;及營收共享模組,適用以在語言服務系統提供者、作業系統提供者、及一或更多辭彙資料提供間共享營收,該營收係經由使用者的購買辭彙資料而產生。
  23. 如申請專利範圍第3項所述之系統,其中該輸入語言為使用字母為主的寫入系統,而不是使用中文型字元 者。
  24. 如申請專利範圍第17項所述之電子字典,其中該輸入語言為使用字母為主的寫入系統,而不是使用中文型字元者。
  25. 如申請專利範圍第19項所述之電腦化字典,其中該輸入語言為使用字母為主的寫入系統,而不是使用中文型字元者。
  26. 如申請專利範圍第20項所述之語言服務中心,其中該輸入語言為使用字母為主的寫入系統,而不是使用中文型字元者。
TW097145519A 2007-11-26 2008-11-25 管理電子形式之中文、日文及韓文語言資料的模組系統與方法 TWI496012B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US99012307P 2007-11-26 2007-11-26
US99016607P 2007-11-26 2007-11-26
US99101007P 2007-11-29 2007-11-29

Publications (2)

Publication Number Publication Date
TW200945066A TW200945066A (en) 2009-11-01
TWI496012B true TWI496012B (zh) 2015-08-11

Family

ID=40678958

Family Applications (2)

Application Number Title Priority Date Filing Date
TW097145519A TWI496012B (zh) 2007-11-26 2008-11-25 管理電子形式之中文、日文及韓文語言資料的模組系統與方法
TW97145512A TWI468954B (zh) 2007-11-26 2008-11-25 分類及檢索在中文型文字中找到的重現字形偏旁及根據在電子及非電子本文中的重現字形偏旁分類及檢索中文型文字之方法及電子字典

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW97145512A TWI468954B (zh) 2007-11-26 2008-11-25 分類及檢索在中文型文字中找到的重現字形偏旁及根據在電子及非電子本文中的重現字形偏旁分類及檢索中文型文字之方法及電子字典

Country Status (6)

Country Link
US (2) US8433709B2 (zh)
JP (4) JP5666307B2 (zh)
CN (2) CN102016837B (zh)
HK (2) HK1156418A1 (zh)
TW (2) TWI496012B (zh)
WO (2) WO2009070615A1 (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8564544B2 (en) 2006-09-06 2013-10-22 Apple Inc. Touch screen device, method, and graphical user interface for customizing display of content category icons
GB0624571D0 (en) * 2006-12-08 2007-01-17 Cambridge Silicon Radio Ltd Authenticating Devices for Communications
US8689132B2 (en) 2007-01-07 2014-04-01 Apple Inc. Portable electronic device, method, and graphical user interface for displaying electronic documents and lists
CN101286094A (zh) * 2007-04-10 2008-10-15 谷歌股份有限公司 多模式输入法编辑器
US8266514B2 (en) * 2008-06-26 2012-09-11 Microsoft Corporation Map service
US9824071B2 (en) * 2008-12-03 2017-11-21 Microsoft Technology Licensing, Llc Viewing messages and message attachments in different languages
US20120010870A1 (en) * 2010-07-09 2012-01-12 Vladimir Selegey Electronic dictionary and dictionary writing system
US20120038652A1 (en) * 2010-08-12 2012-02-16 Palm, Inc. Accepting motion-based character input on mobile computing devices
JP2012079252A (ja) * 2010-10-06 2012-04-19 Fujitsu Ltd 情報端末装置、文字入力方法および文字入力プログラム
US8914743B2 (en) * 2010-11-12 2014-12-16 Apple Inc. Device, method, and graphical user interface for navigating a list of identifiers
US20120156658A1 (en) * 2010-12-16 2012-06-21 Nicholas Fuzzell Methods for teaching and/or learning chinese, and related systems
WO2012174703A1 (en) * 2011-06-20 2012-12-27 Microsoft Corporation Hover translation of search result captions
JP2013041350A (ja) * 2011-08-12 2013-02-28 Panasonic Corp タッチテーブルシステム
KR101870729B1 (ko) * 2011-09-01 2018-07-20 삼성전자주식회사 휴대용 단말기의 번역 트리구조를 이용한 번역장치 및 방법
KR20130080515A (ko) * 2012-01-05 2013-07-15 삼성전자주식회사 디스플레이 장치 및 그 디스플레이 장치에 표시된 문자 편집 방법.
US9229928B2 (en) * 2012-03-13 2016-01-05 Nulu, Inc. Language learning platform using relevant and contextual content
TWI449000B (zh) * 2012-03-23 2014-08-11 Chinese Foundation For Digitization Technology Multimedia Chinese Character Learning Method
US9274609B2 (en) 2012-07-23 2016-03-01 Mingyan Xie Inputting radical on touch screen device
US20140344670A1 (en) * 2013-05-14 2014-11-20 Pandaworks Inc. Dba Contentpanda Method and system for on-demand delivery of predefined in-context web content
KR20150028627A (ko) * 2013-09-06 2015-03-16 삼성전자주식회사 사용자 필기를 텍스트 정보로 변환하는 방법 및 이를 수행하기 위한 전자 기기
JP2015060095A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
WO2015112250A1 (en) * 2014-01-22 2015-07-30 Speak Agent, Inc. Visual-kinesthetic language construction
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置
TW201530357A (zh) * 2014-01-29 2015-08-01 Chiu-Huei Teng 用於電子裝置之中文輸入法
RU2640322C2 (ru) * 2014-01-30 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов
WO2015167556A1 (en) * 2014-04-30 2015-11-05 Hewlett-Packard Development Company, L.P. Generating color similarity measures
CA2958684A1 (en) * 2014-08-21 2016-02-25 Jobu Productions Lexical dialect analysis system
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
US20160147741A1 (en) * 2014-11-26 2016-05-26 Adobe Systems Incorporated Techniques for providing a user interface incorporating sign language
US9740684B2 (en) * 2015-02-18 2017-08-22 Lenovo (Singapore) Pte. Ltd. Determining homonyms of logogram input
CN106997245A (zh) * 2016-01-24 2017-08-01 杨文韬 一种根据中文语言模型构建输入法词库的方法
US10031949B2 (en) * 2016-03-03 2018-07-24 Tic Talking Holdings Inc. Interest based content distribution
US10176623B2 (en) 2016-05-02 2019-01-08 Tic Talking Holdings Inc. Facilitation of depiction of geographic relationships via a user interface
CN108346426B (zh) * 2018-02-01 2020-12-08 威盛电子(深圳)有限公司 语音识别装置以及语音识别方法
TWI659411B (zh) * 2018-03-01 2019-05-11 大陸商芋頭科技(杭州)有限公司 一種多語言混合語音識別方法
CN109147784B (zh) 2018-09-10 2021-06-08 百度在线网络技术(北京)有限公司 语音交互方法、设备以及存储介质
US11017771B2 (en) * 2019-01-18 2021-05-25 Adobe Inc. Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
US10964322B2 (en) 2019-01-23 2021-03-30 Adobe Inc. Voice interaction tool for voice-assisted application prototypes
TWI725608B (zh) * 2019-11-11 2021-04-21 財團法人資訊工業策進會 語音合成系統、方法及非暫態電腦可讀取媒體
CN111753556B (zh) * 2020-06-24 2022-01-04 掌阅科技股份有限公司 双语对照阅读的方法、终端及计算机存储介质
CN113536005B (zh) * 2021-09-17 2021-12-24 网娱互动科技(北京)股份有限公司 一种相似图片或字体查找方法和系统
WO2023146416A1 (en) * 2022-01-28 2023-08-03 John Chu Character retrieval method and apparatus, electronic device and medium
CN116738966A (zh) * 2022-03-01 2023-09-12 衍利行资产有限公司 一种分析包括中文字文本的方法和系统
US12112128B2 (en) * 2022-09-28 2024-10-08 Korea Electric Power Corporation Apparatus and method for generating word embedding library

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188977B1 (en) * 1997-12-26 2001-02-13 Canon Kabushiki Kaisha Natural language processing apparatus and method for converting word notation grammar description data
US20060031207A1 (en) * 2004-06-12 2006-02-09 Anna Bjarnestam Content search in complex language, such as Japanese
TW200710707A (en) * 2005-09-02 2007-03-16 Charisma Comm Inc Multimedia accessible universal input device

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01114976A (ja) * 1987-10-28 1989-05-08 Sharp Corp 文書処理装置の辞書構造
JPH0540747A (ja) * 1991-08-07 1993-02-19 Matsushita Electric Ind Co Ltd ワードプロセツサー
JPH05151197A (ja) * 1991-11-14 1993-06-18 Chinka Oka コンピユータに漢字を入力する方法
US5257938A (en) * 1992-01-30 1993-11-02 Tien Hsin C Game for encoding of ideographic characters simulating english alphabetic letters
CN1144354A (zh) * 1995-04-25 1997-03-05 齐兰发展股份有限公司 增强的字符录入系统
US5923778A (en) * 1996-06-12 1999-07-13 Industrial Technology Research Institute Hierarchical representation of reference database for an on-line Chinese character recognition system
US7257528B1 (en) * 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
CN1145872C (zh) * 1999-01-13 2004-04-14 国际商业机器公司 手写汉字自动分割和识别方法以及使用该方法的系统
US6625335B1 (en) * 2000-05-11 2003-09-23 Matsushita Electric Industrial Co., Ltd. Method and apparatus for assigning keywords to documents
JP3838857B2 (ja) * 2000-09-19 2006-10-25 沖電気工業株式会社 辞書装置
US20070092326A1 (en) * 2001-01-17 2007-04-26 Kim Min-Kyum Apparatus and method for inputting alphabet characters on keypad
CN1403960A (zh) * 2001-08-27 2003-03-19 无敌科技股份有限公司 通过电脑拼字的方法
US7136805B2 (en) * 2002-06-11 2006-11-14 Fuji Xerox Co., Ltd. System for distinguishing names of organizations in Asian writing systems
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
US8137105B2 (en) * 2003-07-31 2012-03-20 International Business Machines Corporation Chinese/English vocabulary learning tool
JP2005157472A (ja) * 2003-11-20 2005-06-16 Sharp Corp 文字入力装置および文字入力方法
TW200527226A (en) * 2004-02-11 2005-08-16 Cheng-Fu Lee Chinese system for sorting and searching
KR20050092999A (ko) * 2004-03-17 2005-09-23 샤프전자(주) 전자사전에서의 한자검색방법
JP2007087216A (ja) * 2005-09-22 2007-04-05 Toshiba Corp 階層型辞書作成装置、プログラムおよび階層型辞書作成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188977B1 (en) * 1997-12-26 2001-02-13 Canon Kabushiki Kaisha Natural language processing apparatus and method for converting word notation grammar description data
US20060031207A1 (en) * 2004-06-12 2006-02-09 Anna Bjarnestam Content search in complex language, such as Japanese
TW200710707A (en) * 2005-09-02 2007-03-16 Charisma Comm Inc Multimedia accessible universal input device

Also Published As

Publication number Publication date
JP2011505040A (ja) 2011-02-17
TW200945066A (en) 2009-11-01
JP5666307B2 (ja) 2015-02-12
CN102016837A (zh) 2011-04-13
JP2016186805A (ja) 2016-10-27
CN102016837B (zh) 2014-08-20
TWI468954B (zh) 2015-01-11
US20100257173A1 (en) 2010-10-07
US8521738B2 (en) 2013-08-27
CN102016836A (zh) 2011-04-13
US20110320468A1 (en) 2011-12-29
HK1156418A1 (en) 2012-06-08
US8433709B2 (en) 2013-04-30
JP2011509442A (ja) 2011-03-24
WO2009070619A1 (en) 2009-06-04
JP2014142951A (ja) 2014-08-07
CN102016836B (zh) 2013-03-13
HK1156710A1 (zh) 2012-06-15
WO2009070615A1 (en) 2009-06-04
TW200945065A (en) 2009-11-01

Similar Documents

Publication Publication Date Title
TWI496012B (zh) 管理電子形式之中文、日文及韓文語言資料的模組系統與方法
US10380241B2 (en) Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form
Belinkov et al. Analysis methods in neural language processing: A survey
JP2016186805A5 (zh)
Trujillo Translation engines: techniques for machine translation
Baker Glossary of corpus linguistics
KR100643801B1 (ko) 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법
Dash Corpus linguistics and language technology: With reference to Indian languages
US8275781B2 (en) Processing documents by modification relation analysis and embedding related document information
JP5513898B2 (ja) 共有された言語モデル
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
CN103026318A (zh) 输入法编辑器
Mehta et al. Metatation: Annotation as implicit interaction to bridge close and distant reading
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
Saoudi et al. Trends and challenges of Arabic Chatbots: Literature review
Bikaun et al. LexiClean: An annotation tool for rapid multi-task lexical normalisation
Hanser et al. NewsViz: emotional visualization of news stories
Demilie et al. Automated all in one misspelling detection and correction system for Ethiopian languages
Nair et al. Sanskrit Informatics: Informatics for Sanskrit studies and research
CN110162617B (zh) 提取摘要信息的方法、装置、语言处理引擎和介质
Stutz The Linux cookbook: tips and techniques for everyday use
Kamineni et al. Advancements and challenges of using natural language processing in the healthcare sector
Alosaimy Ensemble Morphosyntactic Analyser for Classical Arabic
JP2008134798A (ja) 用語辞書作成補助装置、その方法およびプログラム
JPH0916597A (ja) 文章推敲装置及び方法

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees
MM4A Annulment or lapse of patent due to non-payment of fees