TWI225994B - System, method and machine-readable storage medium for automated sentence annotation - Google Patents

System, method and machine-readable storage medium for automated sentence annotation Download PDF

Info

Publication number
TWI225994B
TWI225994B TW92135509A TW92135509A TWI225994B TW I225994 B TWI225994 B TW I225994B TW 92135509 A TW92135509 A TW 92135509A TW 92135509 A TW92135509 A TW 92135509A TW I225994 B TWI225994 B TW I225994B
Authority
TW
Taiwan
Prior art keywords
words
sentence
conversion
mentioned
word
Prior art date
Application number
TW92135509A
Other languages
English (en)
Other versions
TW200521712A (en
Inventor
Wen-Chih Chen
Lu-Ping Chang
Wen-Tai Hsieh
Shih-Chun Chou
Original Assignee
Inst Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inst Information Industry filed Critical Inst Information Industry
Priority to TW92135509A priority Critical patent/TWI225994B/zh
Application granted granted Critical
Publication of TWI225994B publication Critical patent/TWI225994B/zh
Publication of TW200521712A publication Critical patent/TW200521712A/zh

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

1225994 五、發明說明(1) 發明所屬之技術領域 此發明是一種文件自動標記系統及方法,特別是一種 運用有限狀機(finite state machine)之句子自動標記 系統及方法。 先前技術 由於語言之多詞一義,以及一詞多義的情況,讓傳統 資訊檢索(i n f 〇 r m a t i ο n r e t r i e v a 1 )技術遭遇到一些瓶 頭’因此’許多文件自動標記技術被提出,為一文件加上 共享之語意標記,用以提高精確度(precisi〇n)、完整度 (recall)以及跨領域的延伸性(scaiibiiity)。 傳統之文件自動標記技術,可分為三種··統計基礎 (statistics 一 based)、機器學習(machine learning)以及 探索法則(h e u r i s t i c r u 1 e )。統計基礎技術利用大量語料 庫(thesaurus),進行統計字詞的分析,來擷取資訊,但 其精確度會受到語料庫大小影響。機器學習技術提出一數 學模型讓機器自動學習來辨識資訊,其需有一定訓練時 間,但有時訓練結果不會收斂,會導致精確度不穩定。探 索法則技術簡單易懂,較符合人的理解方式,但需大量人 工手動微調,否則精確率不易再提昇。 雖然,傳統之文件自動標記技術,可適度解決語言多 巧一義’以及讓一詞多義的情況。但是,由於其大多針對 整伤文件(而非句子)來進行標記,所以,其在資訊檢索的 精確度提升上,還是只能停留在文件的層次。除此之外, 在句子中有時會出現異音別詞、同音別詞以及錯誤字詞組
0213.A40162TW(Nl);B9250^;SN〇WBALL.ptd 第5頁 1225994 五、發明說明(2) 合情形,讓 因此, 提高資訊檢 詞、同音別 標記的精確 發明内容 有鑑於 統與方法, 中出現異音 不會降低句 依據上 首先設置儲 入裝置,並 一資料庫系 包含一領域 之多個同義 軟體模 組、同義詞 模組以及錯 體所包含之 理模組、異 根據程式指 行句子自動 顯示到顯示 句子標記的精確度下降。 需要一系統與方法進行文件 索的精確度,除此之外,當 詞以及錯誤字詞組合的情況 度。 此,本發明之目的為提供一 以提高資訊檢索的精確度, 別詞、同音別詞以及錯誤字 子標記的精確度。 述目的,本發明之句子自動 存裝置、中央處理器、記憶 使用匯流排將其連結在一起 統、檔案糸統或其他可儲存 舌司庫(domain thesaurus), 詞、異音別詞及同音別詞。 組架構含有由程式指令碼組 處理模組、同音別詞處理模 誤排列詞處理模組。中央處 句子標記模組、同義詞處理 音別詞處理模組以及錯誤排 令以及使用者藉由輸入裝置 標記功能,並於最佳情況下 裝置上。 中之句子標記,以 句子中出現異音別 ’亦不會降低句子 種句子自動標記系 除此之外,當句子 詞組合的情況,亦 標記系統及方法, 體、顯示裝置、輸 二儲存裝置可以為 資料之裝置,其中 詞庫中紀錄了一詞 成之句子標記模 組、異音別詞處理 理器用以载入記憶 2組、同音別詞處 列詞處理模組, 所輸入之資料,: ,將執行後之結ΐ
1225994 五、發明說明(3) _ 有限狀態機包含數個狀態(stat 定之結束狀態,代表整個句子之扭咅其中,包含一特 限狀態機中’從—狀態進入::::己功能結束。在有 同義詞處理模組用以輸入—詞’::索:轉換詞。 關聯於該詞之同義詞,同義詞係指 。2詞庫^出 同音別詞處理模組用以輸入一詞,檢^思義之不同j。 聯於該詞之同音別詞,而里立’φ 7員域詞庫,輸出關 庫,用以輸出關聯二組則檢索領域詞 及異音別詞係代表句子中字;中,同音別詞以 供別吲。辑$妯幻一 Γ 早子輸入錯誤所出現之 !曰別Ο If涘排列岡處理模組用以輸入一詞 包含的字重新組合,產生並輸出錯誤^ 詞。 甲有可此因早子順序顛倒所出現之錯別 句子標記模組用以輸入有限狀態機,並將豆中之 詞依序輸入同義詞處理模組、同音別詞處理模組、異、 凋處理杈組以及錯誤排列詞處理模組,得到每一轉換詞 同義詞、同音別詞、異音別詞以及錯誤排列詞,形成 義詞集合以及一錯別詞集合。輸入一句子,依序偵測句^ 所存在之轉換詞、同義詞、同音別詞、異音別詞或錯誤 列詞,將兩轉換詞之間之詞,標記出相應之狀態,並儲 成可擴展式標記式語言(XML)訊息、資料庫紀錄或俨 子 錄。 H、、己 實施方式 第1圓係表示依據本發明實施例之句子自動標記系統
1225994 五、發明說明(4) 之系統系構圖。依據本發明實施例之句子自動標記系統i 〇 $括一儲存裝置11、-中央處理器12、-記憶體13、顯示 、置1 4、輸入裝置1 5 ,並使用匯流排丨6將其連結在一起。 L 口儲存!置11、中央處理器i 2、記憶體i 3、_示裝置工4 以及輸入裝置1 5,可并彡4、 ^rr? I , 形成一部大型電腦(mainframe)、 個人電腦、工作站、筆記型電腦或其他電腦設備。 =存裝置11可以為―資料庫系統、槽㈣統或其他可 儲存:貝料之裝置,其中包含一領域詞庫(domain murul),詞庫中紀錄了一詞之多個同義詞、異音別詞 及同曰另1J δ司。例如,》一宋*^5| M L- π j 子θ仃經在領域詞庫中包含兩個 同義詞仃至”、”途經”;兩個同音別詞,,型經"、贫,,· 一個異音別詞”襲經”。 二’ 第2圖係表示依據本發明實施例之句子自 5己1¾體1 3中,含有由鞋^式;{:匕人Λ丄、 l 另田枉氡才日令碼組成之句子標記模έ且 m、同義詞處理模組132、同音別詞處理模組133、:且里立 別詞處理模組134以及錯誤排列詞處理模組央、曰 器12用以載入記憶體13所包含之句子標記模么且 央處理 詞處理模組U2、同音別詞處理模組133、異音別詞广義 組1 34 q及錯誤排列詞處理模組丨35,並根據程式指== 使用者藉由輸入裝置15所輪入之資料,執行句子二 =:並於最佳情況下’將執行後之結果顯示到顯“置 第3圖係表示依據本發明實施例之範例有限狀態機示
1225994 五、發明說明(5) 31ι圖、°Λ限士狀態機3包含五個狀態(state),分別為人名 、::時間322、案發車型323 '案發地: 二Λ,Λ?態331為-特殊狀態,代表整個“ i 在有限狀態機中,從-狀態進入另- 片心、而要轉換詞,在本實施例中,分別為"a卢 丨丨311 、丨丨於n 9、丨m由上 刀〜馬X處分人 杏·,^ 士 駕車號"313、"行經"314以及"崾毯攔 查315 〇有限狀態機3可以表示如下 ,·工吕攔 + {於} +案發時間·Μ駕駛車號}+案發車 + {經警攔查} +結束。 1仃、、Μ +案發地點 同義詞處理模組132用以輸入一詞,檢索 輸出關聯於該詞之同義詞,同義詞係指具相同立2 ’ 詞。同音別詞處理模組133用以輸入一詞,:義不同 輸出關聯於該詞之同音別詞,而異音別詞處、理員=’ 索領域詞庫,用以輸出關聯於該詞之異音別、=則 音:詞以及異音別詞係代表句子中有可能“:妒: 所出現之錯別詞。錯誤排列詞處理模組丨35 則曰。、 :’將該詞中所包含的字重新組合,產生並輪輸入二 调,其中’錯誤排列詞係代表句子中有可能‘:顛 倒所出現之錯別詞。 早子順序顛 句子標記模組1 31用以輸入有限狀態機3, 轉換詞311、312、313、314以及315依序輸並將其中之 模組132、同音別詞處理模組133、異音別詞 二^ 以及錯誤排列詞處理模組丨35,得到每一轉換 、_,、 詞、同音別詞、異音別詞以及錯誤排列詞,、形成之一同同義義詞
1225994 五、發明說明(6) 集=以及一錯別詞集合。第4圖係表示依據本發明實施例 之範例同義詞以及錯別詞集合示意圖,轉換詞3丨^3 1 2、 313、314以及315之同義言司、同音別詞、異音別詞以及錯 誤排列詞,羅列於列471、472、47 3、474以及。於此 必須注意的是任何一轉換詞並不一定需要關聯同義詞、、同 音別詞、異音別詞以及錯誤排列詞,其可以透過 定產生關聯之同義詞、同音別詞、異音別詞或錯誤排列σ 詞0 句子標記模組131輸入如下所示之酒醉駕車 "受處分人吳阿呆於民國九十年十月十三日凌晨零時、:十 *東路-段五三巷巷口.,經警摘檢= = = = = 酒味,以呼氣酒精測試器檢測受處分人 俨 度達每公升〇.五八毫克之事實。接下炎,2 3,酉精濃 機3之轉換,、i日關、鱼夕门装 依^據有限狀態 機3之轉換闺、相關連之同義詞以及錯別㈣ 記’標記出句子中之人名321、案發時間322 ° - 323、案發地點324等狀態,標記過程詳述如下 句子標記模組131偵測到判決文中 轉換詞"於"312,並於偵測到判決文中之"於,時’中:二找 之後之句子中’尋找轉換詞"駕駛車號"31子 中並不存在"駕駛車號”―詞,並且,轉換詞313亦=: 任何之同義詞,因此,在"於"之後 存在 在關聯之錯別詞'…號"或"車號駕駛"之詞偵=否:
1225994 發明說明(7) 詞j德1 了中含有”駛駕車號,,一詞,於是繼續從"駛駕車號Π 一 π 3 1 5。ί測轉換闺行經"3 1 4以及轉換詞,,經警攔查發現 2果,於後之判決文中偵測到轉換詞,,行經,,3丨4之 經i伽=|型經”以及轉換詞"經警攔查發現"315之同義詞" 代:A叹發現Π。當發現,,經警攔查發現” 3 1 5之轉換詞時, 衣進入結束狀態331,不再繼續進行句子標記。 之壯=子標記模組13丨將兩轉換詞之間之詞,標記出相應 期門2,然後產生資料庫紀錄、檔案紀錄。另外,在標記 可以使用諸如停用詞過濾(stop word fUtering) $冊彳除兩轉換詞之間中之不想要的標點符號或字詞。 / 4,丨\之情況下,以可擴充式標記語言(XML)描述如下, <判決文〉 〈人名〉吳阿呆〈/人名〉 發時間〉民國九十年十月十三曰凌晨零時三十=分 吕午</案發時間〉 刀 〈案發車型〉L F C 六八號小客車</案發車型〉 點〉〈案發地點>臺北市長安東路一段五三巷巷口"案發地 </判決文〉 於此必須注意的是若被標記的句子無法進入結束狀態 33 1,代表此句子不符有限狀態機3之句型結構,因此無 標記西出狀態321、322、3 23以及3 24。經過句子標記模 1 3 1標記後之XML訊息,將有助於更精確之資訊檢索。 第5圖係表不依據本發明實施例之句子自動標記方法
0213 · A40162TW( N1); B9250TW; SNOWBALL. p t d
1225994 五、發明說明(8) 之方法流程圖,此方法由程式碼所組成,並可被中央處理 器載入並執行 首先,如步驟S5 1 1,接收一有限狀態機,如第3圖所 示,有限狀態機3包含五個狀態(state),分別為人名 321、案發時間322、案發車型323、案發地點324以及結束 3 3 1。其中,結束狀態3 3 i為一特殊狀態,代表整個句子之 語意標記功能結束。在有限狀態機中,從一狀態進入另一 狀態需要一轉換詞。 ^如步驟S521所示以及步驟S522所示,取得相應於轉換 祠之同義调以及錯別詞,其中,錯別詞包括同音別詞、異 音別$以及錯誤排列詞,結果如第4圖所示。 如步驟S531所示,接收一句子,之後如步驟S541所示 偵測句子中之轉換詞,其偵測方法可比對轉換詞本身、相 應於轉換詞之同義詞或錯別詞。於較佳的情況下,在本步 驟中會先比對轉換詞本身,其次是同義詞,最後為錯 詞。 如步驟S542所示,判斷句子是否結束,是則結束整個 方法;否則執行步驟S543。如步驟S543所示,判斷是否進 如結束狀態,是則執行步驟S551 ;否則回到步驟S54i, 續偵測下一轉換詞。 '
如步驟S551所示,將轉換詞與轉換詞之間之句子, 記上適當之狀態,諸如人名321、案發時間322、案發^ 323、案發地點324 #,並產生—結構化訊息一 f料庫& 錄(record)或一檔案紀錄。於較佳之情況下,此結構化訊
1225994 五、發明說明(9) 息為X M L訊息 再者,本發明提出一種 存-電腦程式,上述電腦程: = =存媒體,用以健 法,此方法會執行如上所述之=見句子自動標記方 第6圖係表示依據本發 之電腦可讀取儲存媒體 只⑪彳之句子自動標記方法 一電腦程式620儲存媒體6〇,用以儲存 式包含六個邏輯,分別Α "子自動軚5己方法。其電腦程 關連於轉換詞之同二有:V大之機邏輯621、取得 別詞邏輯623、接收句+ s a 侍關連於轉換詞之錯 獅以及產生結構偵測句… 法,可2提ΐ ί t 5:所提供之句子自動標記系統及方 現異音㈣、同音別詞以及錯誤字詞 卜:句子中出 降低句子標記的精確度。 、、σ的清況,亦不會 雖然本發明之實施例揭露如上,麸1 發明,任何熟悉此項技藝者,在不脫離:發明:定本 =附午,與潤飾,因此本發明之保; 視後附之申印專利範圍所界定者為準。 圍奮 0213 - Α40162TW( Ν1); B9250TW; SNOWBALL. p t d 第13頁 1225994 圖式簡單說明 為使本發明之上述目的、特徵和優點能更明顯易懂, 下文特舉實施例,並配合所附圖示,進行詳細說明如下: 第1圖係表示依據本發明實施例之句子自動標記系統 之系統架構圖; 第2圖係表示依據本發明實施例之句子自動標記系統 之軟體模組架構圖; 第3圖係表示依據本發明實施例之範例有限狀態機示 意圖, 第4圖係表示依據本發明實施例之範例同義詞以及錯 別詞集合示意圖; 第5圖係表示依據本發明實施例之句子自動標記方法 之方法流程圖; 第6圖係表示依據本發明實施例之句子自動標記方法 之電腦可讀取儲存媒體示意圖。 符號說明 1 0〜句子自動標記系統; 11〜儲存裝置; 1 2〜中央處理器; 1 3〜記憶體; ❿ 1 4〜顯示裝置; 1 5〜輸入裝置; 1 6〜匯流排; 1 3 1〜句子標記模組; 1 3 2〜同義詞處理模組;
0213-A40162TWF(N1);B9250TW;5 ..ptd 第14頁 1225994 圖式簡單說明 1 3 3〜同音別詞處理模組; 134〜異音別詞處理模組; 1 3 5〜錯誤排列詞處理模組; 311 >312.....3 1 5〜轉換詞; 3 2 1〜人名狀態;3 2 2〜案發時間狀態; 3 2 3〜案發車型狀態; 324〜案發地點狀態; 3 3 1〜結束狀態; 4卜轉換詞欄位; 4 2〜同義詞欄位; 4 3〜錯別詞欄位; 4 4〜同音別詞攔位; 4 5〜異音別詞欄位; 4 6〜錯誤排列詞欄位; 4 7 1、4 7 2、…、4 7 5〜轉換詞之同義詞以及錯別詞集合 S511、S521.....S55卜操作步驟; 6 2 0〜句子自動標記電腦程式; 6 2 1〜接收有限狀態機邏輯; 6 2 2〜取得關連於轉換詞之同義詞邏輯; 6 2 3〜取得關連於轉換詞之錯別詞邏輯; 624〜接收句子邏輯; 6 2 5〜偵測句子中之轉換詞邏輯; 6 2 6〜產生結構化資料邏輯。
0213·A40162TWF(N1);B9250TW;SNOWBALL.ptd 第15頁

Claims (1)

1225994 六、申請專利範圍 —-*--- 1 · 一種句子自動標記系統,包括: 具》 句子標記模組,用以接收一句子,依據一包含複數 ^ ;丨員f性狀態之有限狀態機,其中上述兩狀態之間包含一 句換巧1依序偵測上述句子中相應之上述轉換詞,若上述 L子中含有所有具相同順序之上述轉換詞,則將上述句子 之相應兩上述轉換詞間之詞標記成相應之上述狀態以及 產生包含上述狀態以及上述句子中之兩上述轉換詞間之詞 之一結構化資料。 2.如申請專利範圍第1項所述之句子自動標記系統, 其中上述結構化資料為一資料庫紀錄、一檔案紀錄或一可 擴充式標記語言(XML)訊息。 3·如申請專利範圍第1項所述之句子自動標記系統, 更包含一儲存裝置,用以儲存複數相應上述轉換詞之同義 詞0 4 ·如申請專利範圍第3項所述之句子自動標記系統, 於句子標記模組中,檢索相應於上述轉換詞之上述同義 巧’依序偵測上述句子中相應之上述轉換詞以及相應於上 述轉換詞之上述同義詞,若上述句子中含有所有具相同順 序之上述轉換詞以及相應上述轉換詞之上述同義詞中之一
者’則將上述句子中之相應兩上述轉換詞間之詞標記成相 應之上述狀態。 5 ·如申請專利範圍第1項所述之句子自動標記系統, 更包含一儲存裝置,用以儲存複數相應上述轉換詞之錯別 詞。 、
0213-A40162TWF(Nl);B9250,nV;SNOWBALL.ptd 第16頁 1225994 “、申請專利範圍 其中6上t申請專利範圍第5項所述之句子自動標記系統, 詞。述錯別詞為一同音別詞、一異音別詞或一錯誤排列 rj 於句子t申請專利範圍第5項所述之句子自動標記系統, 依^ &冗模組中,檢索上述相應上述轉換詞之錯別詞, 換气、'則上述句子中相應之上述轉換詞以及相應於上述轉 卜、^上述錯別詞’若上述句子中含有所有具相同順序之 目I丨收 、W以及相應上述轉換詞之上述錯別詞中之一者, 則將上iit 4工I 雜。 J于中之相應兩上述轉換詞間之詞標記成上述狀 上述8·如Γ請專利範圍第4項所述之句子自動標記系統, a儲存裝置中,更儲存複數相應上述轉換詞之錯別詞。 於句· t申請專利範圍第8項所述之句子自動標記系統, 以1子^ 1模組中’檢索相應於上述轉換詞之上述同義詞 气、上述錯別詞’依序偵測上述句子中相應之上述轉換 相應於上述轉換詞之上述同義詞以及相應於上述轉換 述^上,錯別詞,若上述句子中含有所有具相同順序之上 捸s換^、相應上述轉換詞之上述同義詞以及相應上述轉 :j之上述錯別詞中之一者,則將上述句子中之相應兩上 述轉換詞間之詞標記成上述狀態。 苴1 0 ·、如申凊專利範圍第g項所述之句子自動標記系統, ^。上述錯別詞為一同音別詞、一異音別詞或一錯誤排列 11· 種句子自動標記方法,被一具有一中央處理器 0213-A40162™F(Nl);B925(mf;SNOWBALL.ptd 第 口 頁 1225994 六、申請專利範圍 之電子製置執行,其方法 接收一句子; 彳步驟: 依據一包含複數具順序 述兩狀態之間包含一棘拖:狀癌之有限狀態機’其中上 上述轉換詞;以& 、s5 ’依序俄測上述句子中相應之 將上ΐ ΐ ί!子中含有所有具相同順序之上述轉換詞,則 述狀ΪΠΙί相應兩上述轉換詞間之詞標記成相應之上 $ V: 生包含上述狀態以及上述句子中之兩上述轉 換$間之詞之一結構化資料。 法 1 2 ·如申胡專利範圍第11項所述之句子自動標記方 其中上述結構化資料為一資料庫紀錄、一檔案紀錄或 擴充式標記語言(XML)訊息。 法 13 ·如申請專利範圍第1 1項所述之句子自動標記方 其方法更包括下列步驟: 檢索相應於上述轉換詞之,同義詞; 依序偵測上述句子中相應之上述轉換詞以及相應於上 述轉換詞之上述同義詞;以及 若上述句子中含有所有具相同順序之上述轉換詞以及 相應上述轉換詞之上述同義詞中之一者,則將上述句子中. 之相應兩上述轉換詞間之詞標記成相應之上述狀態。 1 4 ·如申請專利範圍第1〗項所述之句子自動標記方 法’其方法更包括下列步驟·· 檢索上述相應上述轉換詞之/錯別詞,· 依序偵測上述句子中相應之上述轉換詞以及相應於上
0213 - Α40162TW( Ν1); B9250TW; ί 第18頁 1225994 __ | 六、申請專利範圍 述轉,詞之上述錯別詞;以及 # f·、f ==子中含有所有具相同順序之上述轉換’、 相應上述轉換詞之μ ^ <评供Θ以及 之相靡雨卜、十,# 述錯別詞中 者,則將上述句;丄 1 : \由a轉換詞間之詞標記成上述狀態。 法,:圍第“項?之句子自動標記方 排列詞。 1 5°Ί為-同音別@ ~異音別詞或—錯誤 法,專括利範圍第13項所述之句子自動標記方 法具万法更包括下列步驟: ?索相應上述轉換詞義詞 依序偵測上述句子中知鹿 純祕— I錯別岡; 糾々μ、+· F1兰 中相應之上述轉換岡、相應於上述轉揸 ^ α 5義词以及相應於上述轉換詞之上述錯別詞;以 及 麻卜Ϊ t if 2子中含有所有具相同順序之上述轉換詞、相 ^ "、々之上述同義詞以及相應上述轉換詞之上述錯 詞標記成上述狀i返句子中之相應兩上述轉換詞間之 h 2 φ上電:可、•取儲存媒體,用以儲存-電腦程 二g I! / : Γ ^用以載人至一電腦系統中並且使得該電腦 糸、、·先執订如巾請專利範圍第u⑽項中任—者所述之方 法0 0213-A40162TWF(N1) ;Β925〇πί;5 ..ptd 第19頁
TW92135509A 2003-12-16 2003-12-16 System, method and machine-readable storage medium for automated sentence annotation TWI225994B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW92135509A TWI225994B (en) 2003-12-16 2003-12-16 System, method and machine-readable storage medium for automated sentence annotation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW92135509A TWI225994B (en) 2003-12-16 2003-12-16 System, method and machine-readable storage medium for automated sentence annotation

Publications (2)

Publication Number Publication Date
TWI225994B true TWI225994B (en) 2005-01-01
TW200521712A TW200521712A (en) 2005-07-01

Family

ID=35613502

Family Applications (1)

Application Number Title Priority Date Filing Date
TW92135509A TWI225994B (en) 2003-12-16 2003-12-16 System, method and machine-readable storage medium for automated sentence annotation

Country Status (1)

Country Link
TW (1) TWI225994B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI396983B (zh) * 2010-04-14 2013-05-21 Inst Information Industry 名詞標記裝置、名詞標記方法及其電腦程式產品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI396983B (zh) * 2010-04-14 2013-05-21 Inst Information Industry 名詞標記裝置、名詞標記方法及其電腦程式產品

Also Published As

Publication number Publication date
TW200521712A (en) 2005-07-01

Similar Documents

Publication Publication Date Title
Stec The text of the Targum of Job: an introduction and critical edition
EP2235649A1 (en) Entity, event, and relationship extraction
CN110046350A (zh) 文法错误识别方法、装置、计算机设备及存储介质
CA2726576A1 (en) Financial event and relationship extraction
TW201131402A (en) Enabling faster full-text searching using a structured data store
CN110119510B (zh) 一种基于传递依存关系和结构助词的关系抽取方法及装置
Pham et al. Fixing translation divergences in parallel corpora for neural mt
CN110287286B (zh) 短文本相似度的确定方法、装置及存储介质
Kaplan May I Ask Who's Calling? Named Entity Recognition on Call Center Transcripts for Privacy Law Compliance
Tarride et al. Large-scale genealogical information extraction from handwritten Quebec parish records
CN105550254B (zh) 一种icd信息自动生成icd信息数据库的方法
Moran et al. TeDDi sample: text data diversity sample for language comparison and multilingual NLP
TWI225994B (en) System, method and machine-readable storage medium for automated sentence annotation
Chen et al. Distant supervision for relation extraction with sentence selection and interaction representation
Kang et al. Two approaches for the resolution of word mismatch problem caused by English words and foreign words in Korean information retrieval
CN112231512B (zh) 歌曲标注检测方法、装置和系统及存储介质
CN115617965A (zh) 一种语言结构大数据的快速检索方法
Boudjellal et al. A silver standard biomedical corpus for Arabic language
CN110738041B (zh) 一种语句标注方法、装置、服务器及存储介质
Yeh et al. Condition random fields-based grammatical error detection for Chinese as second language
Ohta et al. Empirical evaluation of CRF-based bibliography extraction from reference strings
JP2014146136A (ja) アイテム情報検索装置、モデル作成装置、アイテム情報検索方法、モデル作成方法、及びプログラム
US20100235163A1 (en) Method and system for encoding chinese words
Schneider Tracking the evolution of vernaculars: Corpus linguistics and earlier Southern US Englishes
CN101539428A (zh) 导航系统中拼音加声调检索的方法及装置

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees