TW491971B - Chinese sentence partitioning method and its system - Google Patents

Chinese sentence partitioning method and its system Download PDF

Info

Publication number
TW491971B
TW491971B TW086118723A TW86118723A TW491971B TW 491971 B TW491971 B TW 491971B TW 086118723 A TW086118723 A TW 086118723A TW 86118723 A TW86118723 A TW 86118723A TW 491971 B TW491971 B TW 491971B
Authority
TW
Taiwan
Prior art keywords
word
segmentation
shortest
chinese sentence
sentence
Prior art date
Application number
TW086118723A
Other languages
English (en)
Inventor
Jing-Sung Jang
Jin-Yu Jang
Yi Yan
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to TW086118723A priority Critical patent/TW491971B/zh
Application granted granted Critical
Publication of TW491971B publication Critical patent/TW491971B/zh

Links

Landscapes

  • Machine Translation (AREA)

Description

491971 A7 B7 五、發明説明(1 ) 本發明係有關於語音處理技術,特別是有關於一種能 對漢語語句切分予以最佳化的方法及其系統,藉以提高漢 語語句經切分後詞語的精準度。 漢語語句切分處理屬語音處理程序預處理險段中相 當重要的一環,係對欲為語音發聲之漢語語句所代表的文 字字串(字串係由若干字符所組成),進行適當地切分。若 經切分後之文字字串越能精確地表達出原語義的話,後續 便可據此表達出此漢語語句的抑揚頓挫,再經語音處理 後,更能接近真人發聲的音效品質。 經濟部中央標準局員工消費合作社印製 (請先閱讀背面之注意参項再填k本頁) 目前,對於漢語語句切分的方法概有:正向最大匹配 法、逆向最大匹配法、雙向最大匹配法、逐詞遍歷匹配法、 以及切割標誌法等數種。其中,正向最大匹配法係自文字 字串的字首開始匹配,每次切分出可匹配之最長詞,再對 剩餘字串重覆此一步驟,直至全般文字字串業經切分止。 逆向最大匹配法係自漢語文字字串字尾開始匹配,每次切 分出可匹配之最長詞,再對剩餘字串重覆此一步驟,直至 全般文字字串業經切分止。雙向最大匹配法為正向最大匹 配法和逆向最大匹配法的聯合運用,係分別執行正向最大 匹配法和逆向最大匹配法,若二者所切分的結果不同,則 需採用別的方法處理。而逐詞遍歷匹配法係對整個文字字 串搜尋出最長詞,經切分出可匹配之最-長詞後,再對剩餘 字串重覆此一步驟,直至全般文字字串業經切分止。切割 標誌法則先分析文字字串中僅能做為詞首或詞尾的字符, 將其做為分詞標誌,據此將字串分割成較短的字串,然後 本紙張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐) 491971 經濟部中央標準局員工消費合作社印製 A7 B7五、發明説明(2 ) 配合其他方法進行切分。 由於正向最大匹配法和逆向最大匹配法,係以單向分 別自字首和字尾起進行匹配,此等方法之時間複雜度係與 語句内含字符數(譬如以自然數η表之)成正比。然而,此 等以既定順序單向進行匹配的方法,並不能確保全般語句 切分的最佳化。譬如,以語句”他說出去一下”為例,若以 正向最大匹配法為之,則經切分後為”他//說出//去//一下//” (按,本說明書皆以”//”做為經切分後各詞語間之間隔符 號);而以語句”他說出去公園的目的”為例,若以逆向最大 匹配法為之,則經切分後為”他//說//出去//公園//的//目的 //”。由此可知,正向最大匹配法和逆向最大匹配法,雖屬 一種局部最佳化的方法,卻無法確保全般語句切分的最佳 化。 至於雙向最大匹配法係兼以正向最大匹配法和逆向最 大匹配法行之,雖能給出一些可能出錯的詞語成分,譬如 以語句”他說出去一下”為例,若以雙向最大匹配法為之, 則經切分後為”他//說出//去//一下//”、”他//說//出去//一下 //’’等兩種,然後配合別的方法另行處理。然而,對於非為 正向最大匹配法或逆向最大匹配法所能切分出的情狀下, 同樣地,也不能確保全般語句經切分後得以最佳化,反倒 時間複雜度較之正向最大匹配法或逆向最大匹配法多出了 一倍0 而逐詞遍歷匹配法不僅不能保證全般語句最佳化,其 時間複雜度卻與語句内含字符數平方(譬如以η2表之)成正 請 閱 讀 背 之 注― 意 項 再― 填 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 491971 Α7 Β7 五、發明説明(3 ) 比、甚或更高,故實際上甚少被採用。至於切割標誌法之 時間複雜度與語句内含字符數(譬如以η表之)成正比,然 因普遍存在的分詞標誌並不多見,故據以將文字字串分割 成較短字串的效果,也相當的有限。 、 因此,本發明之一目的,在於提供一種能將漢語語句 切分的方法及其系統,其經切分後所得之詞語精準度,較 之正向或逆向最大匹配法等單向最大匹配法高出兩個數量 本發明之另一目的,在於提供一種能將漢語語句切分 的方法及其系統,其經切分後所得之詞語精準度,比雙向 最大匹配法高。 本發明之再一目的,在於提供一種能將漢語語句切分 的方法及其系統,其時間複雜度係與語句内含字符數成正 經濟部中央I準局員工消費合作社印製 (請先閱讀背面之注意事項再填寫本頁) 為能獲致上述諸多目的,本發明可藉由提供一種漢語 語句切分的方法來完成。其係先提供一漢語語句的輸入, 此漢語語句係由複數字符所組成之一文字字串。再根據一 詞語庫,對此文字字串進行詞語匹配。接著,判斷經匹配 後之分詞路徑是否唯一;若是,則完成漢語語句切分的方 法;若否,則選擇此等分詞路徑中最短者。然後,判斷此 最短分詞路徑是否唯一;若是,則完成漢語語句切分別方 法;若否,則根據一詞語詞頻庫,計算此等最短分詞路徑 相對應之詞語當量,確定該等最短分詞路徑中最佳者。最 後,將最佳之最短分詞路徑輸出。 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ 297公釐) 491971 A7 B7 五、發明説明(4 ) 請 先 閲 讀 背 之 注一 意 事- 項 再_ 填 寫' 本 頁 再者,本發明亦可藉由提供一種漢語語句切分系統來 完成。其包括:一詞語庫、一詞語詞頻庫、一輸入裝置、 一切分處理器、以及一輸出裝置。詞語庫和詞語詞頻庫, 係分別提供予切分處理時匹配所需詞語及詞頻資料。輸入 裝置則提供一漢語語句之輸入。至於切分處理器係接收此 漢語語句,根據詞語庫提供之詞語資料,依序進行詞語匹 配、選擇最短路徑、以及詞語當量計算等步驟。若於進行 此等詞語匹配、選擇最短路徑、以及詞語當量計算等步驟 中,若所得之分詞路徑已屬唯一時,此即屬一分詞結果。 此分詞結果再經輸出裝置輸出。 為讓本發明之上述和其他目的、特徵、和優點能更明 顯易懂,下文特舉一較佳實施例,並配合所附圖式,作詳 細說明如下: 圖示之簡單說明: 第1圖係顯示根據本發明之漢語語句切分之系統方塊 圖; ” - ' 第2圖係顯示根據本發明之漢語語句切分的方法之方 法流程圖; 經濟部中央標準局員工消費合作社印製 第3圖係顯示應用本發明方法切分一漢語語句”立即 解決戰鬥”的示意圖;以及 第4圖係顯示F(t,N,WX之rr實施例的流程圖。 符號說明: 1_7〜節點;8-9〜分詞路徑;10〜切分處理器;12〜輸 入裝置;14〜詞語庫;16〜詞語詞頻庫;18〜輸出裝置; 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ 297公釐) 491971 A7 B7 五、發明説明(5 ) 20〜漢語語句輸入模組;21〜根據詞語庫進行詞語匹配模 組;22〜判斷分詞路徑是否唯一模組;23〜選擇最短分詞 路徑模組;24〜判斷最短分詞路徑是否唯一模組;25〜選 擇最短分詞路徑中最佳者模組;以及,26〜分詞結果輸出 模組。 實施例: 根據本發明之漢語語句切分的方法,係採用三個主要 的方式:第一為分詞與語義無關原則、第二為最少分詞優 先原則、第三為將詞語可能性予以量化原則。 由於人類於切分語句成詞語時,可藉由對語義知識的 累積,可同時考慮其與全般語句之語義間的關係,但是就 計算機處理器及其相關硬體而言,同時考慮語句與全般語 句之語義,則易陷入互為因果的無窮迴路中。為避免這種 因果循環的現象,本發明採用分詞與需經切分語句之語義 無關原則,其係指在切分語句成詞語時,不考慮其與全般 語句之語義間的關係,而僅就詞語的匹配和排序做考量。 再者,本發明利用最少分詞優先原則,是指對各種可能之 分詞結果中,優先選取詞語數量最少者,換言之,就是選 取最短分詞路徑。另外,將詞語可能性予以量化原則,係 採用詞頻和詞長做為可能性量度之參數,據以計算出分詞 路徑之詞頻加權數值,以此確定出最短分詞路徑中最佳 者。是故無須藉由人類智能之判斷,以一般計算機處理器 及其相關硬體,便能精準地切分漢語語句便得以具體實 現0 本紙張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐) 請 先 閱 讀 背 面 之 注 再 填 本 頁 經濟部中央標準局員工消費合作社印製 491971 Α7 Β7 五、發明説明(6 ) 請 先 閱 讀 背 之 注 意— 事- 項 再- 請參照第1圖,所示為根據本發明之漢語語句切分之 系統方塊圖。此漢語語句切分之系統包括··一切分處理器 10、一輸入裝置12、一詞語庫14、一詞語詞頻庫16、以 及一輸出裝置18等等。第2圖所示為根據本發明之漢語語 句切分的方法之方法流程圖。下文茲就配合第1圖,詳細 說明第2圖根據本發明之漢語語句切分的方法如下。 請參照第2圖,此方法流程開始後,係於步驟20自輸 入裝置12輸入任意漢語語句,並及於切分處理器10做處 理。再進行至步驟21,由切分處理器10根據詞語庫14所 具有之詞語資料進行詞語匹配,此時即遵照前所揭示之” 分詞與語義無關原則”做切分,意指在切分漢語語句成若干 詞語時,並不考慮其與全般語句語義間的關係,而僅就詞 語的匹配和排序做考量,此經詞語匹配後之分詞路徑可能 是唯一,亦或匹配出多種可能的分詞路徑。 經濟部中央標準局員工消費合作社印製 接著,於步驟22判斷經步驟21匹配後之分詞路徑是 否為唯一?若所匹配而得之分詞路徑為唯一時,則逕至步 驟26,將分詞結果經輸出裝置18輸出,完成此漢語語句 切分方法;若所匹配而得之分詞路徑非為唯一時,則進行 至步驟23,根據最少分詞優先原則,對各種匹配而得的分 詞路徑中,判斷何者之詞語數量最少,而據以選取出分詞 路徑最短者。 —.......... 然再進行至步驟24,判斷經步驟23所選取之最短分 詞路徑是否為唯一?若所選取之最短分詞路徑為唯一時, 則逕至步驟26,將分詞結果經輸出裝置18輸出,完成此 本紙張尺度適用中國國家標準(CNS ) Α4規格(210'乂 297公釐) 五、發明説明(7 ) m刀2方法;然若所選取之最短分詞路«μ 2選便進行至步驟25,根據詞語詞頻 分詞路徑中最佳者。此步驟25係根據詞語 :月《=· 1±里化,則’㈣詞頻和詞長做為可能性量度之參 ’據以計算出分詞路徑之詞頻加權數值,據以確定出最 佳=最短分詞路徑1經步驟25選取而得之最佳最短分詞 路徑,及於輸出震置18輸出,完成此漢語語句切分的方 法。 以下便就步驟21分詞與語義無關原則、步驟23最少 分詞優先原則、步驟25將詞語可能性予以量化原則等,舉 其具體實現方法中較佳者做一說明。 全JSA語義無關屈則 經濟部中央標準局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁) 為能實現步驟21進行詞語匹配,本發明之較佳實施例 可定義一函式Ma(t,L,V)行之,係以t為輸入參數,^和v 為輸出參數。其中,t表示漢語語句之文字字串内某字符 前之節點(容後詳述)序號;L表示以該字符起始,所匹配 成功最長4语之詞長;V表示詞長為L之可變匹配向量, 可表為V={V(1),V(2),……,V(L)}簡言之,係以節點t與其 後L個節點間所包含之L個字符,若匹配成功的詞長為 k(k==1,2,······,L),則V(k)=l ,若匹配不成功的詞長為k (k==1,2,......,L),則V(k)=max。例如,以語句,,亂七八糟,, 為例,以字符,,亂,,起始,所能匹配成功最長詞語之詞長為 四,其中,字符,,亂,,可以看做是一單字詞,故V⑴=1 ; ” I七’,無法匹配構成詞語,故V(2)=max ;,,亂七八,,亦無法 本紙張尺度適用中國國家標準(CNS ) A4規格(21〇X 297公羡) 491971 經濟部中央標準局員工消費合作社印製 Α7 Β7 五、發明説明(8 ) 匹配構成詞語,故V(3)=max ;,,亂七八糟,,可匹配構成詞 語,故 V(4)=l。因此,v={i,max,max,1}。 再者,請參照第3圖,所示舉一漢語語句按分詞語義 無關原則切分之圖示。設所需切分之語句具有η個字符, 則節點數為η+1個。如第3圖所示之漢語語句為,,立即解決 戰鬥”,包括六個字符,分別為,,立,,、”即”、,,解”、,,決,,、” 戰”、”鬥”等六字,故節點數為七個,分別以標號1、2、 3 4 5、6、7表之。即如第3圖所示,節點i位於,, 立,,之前,節點2位於,,立,,和,,即,,之間,節點3位於,,即,,和” 解”之間,節點4位於,,解,,和,,決,,之間,節點5位於,,決,,和” 戰”之間,節點6位於,,戰,,和,,鬥,,之間,而節點7位於,,鬥,, 字之後。 如第2圖步驟21所示,由切分處理器1〇根據詞笋 Η所具有之詞語資料進行詞語匹配,輯时詞語義^關 原則做切分。值得-提地,根據本發明之較佳實施例,每 一個字符都可以看做是一單字詞。故經步驟21處理後,可 能:第3圖所示之分詞路徑8,由節點卜節點3一節點$ —即點7 ,切分成,,立即//解決"戰鬥/Γ; 圖所示之分詞路徑9,由節點卜節點3 —節7二7點: —郎點7,切分成”立即//解//決戰//鬥//,,。當然亦可依 1-節點2-節點3-節點4-節點5 —節點6一節點?之 路徑,就每一單字詞切分,即成,,立"即"解"決戰鬥",,,〜 然此種切分結果通常不是最短路徑’故不予以考慮。 然為能清楚說明起見,先行定義幾個名詞。,,段點,,係 10 本紙張尺度適用中國國家榡準(CNS) Μ規格(2丨0χ]97公餐- (請先閱讀背面之注意事項再填爲本頁} I--:dw--- -IT------3----,----- 經濟部中央標準局員工消費合作社印裂 491971 A7 ______B7_____ 五、發明説明(9 ) 指兩節點間依特定方向,自起始節點至末端節點間,依據 分詞與語義無關原則切分後,任一分詞路徑都需經過的節 點稱之。”字段”係指兩相鄰段點間所包括的字串。,,段長” 係指字段所具有之字符數。故如第3圖所示,節點丨、3、 7即為段點,’’立即”和,,解決戰鬥,,分別屬一字段,而此二 子段之段長分別為二和四。 若以Ma(t,L,V)表示第3圖段點、字段、以及段長等概 念。則對於段點1而言,以Ma(1,L,v)函式表示後,其L 等於二。然字符”立,,可以看做是一單字詞,故v(1)=1 ; ” 立即”亦可匹配構成詞語,故V(2)=l,因此V={1,1}。就段 點3而言’以Ma(3,L,V)函式表示後,其l等於四。然字符” 解”可以看做是一單字詞,故V(i)=i ;,,解決,,可匹配構成 詞語’故V(2)=l ;,,解決戰,,亦無法匹配構成詞語,故 V(3)=max ; 解決戰鬥,,可匹配構成詞語,故v(4)=1。因 此’ V={l,l,max,i}。若t為字段的終點,則需滿足以下兩 個條件: ⑴ 執行 Ma(t-1,L,V)後,L=1,V={1};以及 (2) 對任一節點tl,若tl<t,則執行Ma(tl,L,V) 後,tl+L $ t 〇 條件(1)表示字段終點前的字符可以是單字詞,但不能與後 一個字符構成詞語。條件(2)表示字段終點前的字符可以是 詞尾,但不能連同前一字符和後一字符構成詞語。 因此’根據上述方法,便可依據分詞與語義無關原則,實 現步驟21根據詞語庫14進行詞語的匹配。由於根據詞語 本紙張尺度適财關家標iT^NS ) Μ規 (請先閱讀背面之注意篆項再填{方本頁) τ'νι ί\· 、1Τ A7 A7 經濟部中央標準局員工消費合作社印製 Β7 五、發明説明(1〇 庫=分漢語語句成若干詞語時,僅就詞語的匹配和排序 做考量,此㈣語㈣後之分詞路徑可能是唯―,亦或匹 配出多種可能的分詞路徑。如第3圖所示,即呈兩種分詞 路控8和9。 如第2圖所示’於步驟22判斷經步驟21匹配後之分 詞路徑是否為唯-?若所匹配而得之分詞路徑為唯一時, ^至步驟26,將分詞結果經輸出裝置18輸出,完成此 句切分的方法;若所匹配而得之分詞職非為唯一 時’則進行至步驟23,配合最少分詞優先原則,對各種匹 配而得之諸分詞路徑中,優先選取詞語數量最少者,換句 =:Γ最短路徑者。如第3圖所示,因呈兩種分詞 詞耗最短者故進行步驟23 ’以最少分詞優先原則選擇分 本發明所採用之最少分詞優先原則,在於尋求包含η ^相漢語語句时後最短路㈣ ,個段長分別為L1、L2、......、Lk等字段二 路徑問題。是故,譬如可 子奴的最紐 為輸入參數,_二義數 寺玄全由+ Μ 巧勒出參數。其中,ί表示漢語語句 中,N[l]表: = Ϊ^Ν為包含兩個元素的-維數組,其 所含詞語的個數字段長度,Ν[2]表示該字段 _ ^ 係為一個可變長數組,其維數表干| =:::=,組中每,依序二 此步驟之時間複雜度係與語句内含字符數
本紙張尺度適用家標準(( 12 21 〇 X 29^釐)
491971 A7 B7 五、發明説明(11 ) 成正比。 至於F(t,N,W)之一實施例,可如第4圖之流程圖所示。 此流程啟始後,於步驟40將字段節點指向t,並定義參數 I、r、N、buffer等於零,W被賦予初值m。再於步驟 41先將I值增加一,再執行Ma(t+I,L,V),獲致相對應之L 和V值。然後進行至步驟42判斷L值是否等於零,若L=0, 則進行至步驟43將I值減一;若L不等於零,則進行至步 驟44,判斷L是否大於r。若L>r,則進行至步驟45, 令r值與L值相同後,及於步驟46 ;若L S r,則跳過步 驟45逕至步驟46。 在步驟46中,將當前節點(t+I)處最短路徑儲存至 buffer内。然後,於步驟47將r值減一,再於步驟48判斷 r值是否大於零。若!·>0,則回復執行步驟41 ;若I* $ 0, 則進行至步驟49判斷I值是否等於零。步驟49同時亦接 受步驟43之處理結果,若I等於零,則表示此字段非為漢 字段,逕自完成第4圖之流程;若I不等於零,則進行至 步驟49,令N[l]與I值同、N[2]與W(I)相同,並使buffer 内儲值做為W。 經濟部中央標準局員工消費合作社印製 (請先閱讀背面之注意事項再填寫本頁) 若以第3圖所示之語句’’立即解決戰鬥”為例,經過步 驟21後,可以路徑8切分成”立即//解決//戰鬥//”、或以路 徑9切分成”立即//解//決戰//鬥//”。較有爭議之字串”解決 戰鬥”,經執行 F(3,N,W)後,N={4,2},W={2,2}。由 W 參 數包含兩個數組可知,其係屬二維數組,表示”解決戰鬥” 之最短路徑包括兩個詞語,由其第一數組為2和第二數組 13 本紙張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐) 丄 A7 B7 經濟部中央標準局員工消費合作社印製 五、發明説明(12 ) 為2可知,最短路徑為每個詞語之長度皆為2。據此,字 串”解決戰H”之最短路徑係自節點3—節點5—節點7, 故:刀分成”解決"戰鬥",,,而非,,解//決戰//鬥//”。因此’循 路控8切分成”立即"解決//戰鬥//,,是為最短分詞路徑。 經語可能性蚤化原貝^ 、然而,經過步驟23處理後,所選取之最短分詞路徑非 為唯時’例如,語句”乒乓球拍賣完了,,經步驟23處理後, 可切分為,,兵兵球"拍賣"完"了 ",,或”兵兵球拍//賣//完// 了 "較有爭議之字串”乒乓球拍賣,,,在經執行後, 雖然N1等於5、N2等於2、w亦屬二維,但是,冒值 一者為{3,2} ’另一者為{4,1},由此可知,上述二切分方式 均屬最短路徑。因此,必得再經步驟25進行詞頻加權數值 的计算’以確定出最佳的最短分詞路徑。 為實現對最佳的最短分詞路徑的確認,本發明利用詞 浯詞頻庫16,將詞語的可能性予以量化,採用詞頻和詞長 做為可能性量度之參數。假設語句的文字字串s=Xi & & ……Xn,χι、X2、x3、……、xn表示構成語句之n個 子符,右經步驟23處理後,最短分詞路捏a將字串s切 刀為Wi W2 W3 ...... Wk等k個詞語,而這k個詞語的頻度 分別為Pl、p2、p3、......、Pk,其詞長分別為、L2、 Ls、...... " 5 Li+L2+L3+......+Lk=n。據此,定義一詞頻 加權函數g(S,A)如下: g(S5A)=f(L1?P1)+f(L25P2)+f(L35P3)+·.····+f(Lk,Pk)。 此式表示以最短分詞路徑A切分字串S的詞頻加權函數,
I IS !I 5 I
I
項 再 ! 頁I 訂 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) 第86118723號專利說明書修正頁A7 修正日期:88.11.26 B7 五、發明說明( 13 月026 而仰)稱為關於詞頻P和詞長L之詞頻加權函數。根據 本發明方法,詞頻加權函數f(Lp)定義成:f(L,p)=p,若 L=1 ; f(L,P)=CP,若L>1,C係為-常數,較佳而言,是大 於5以上的正整數。因此,只要確定適當的詞頻加權函數 f(L^,P,) f(L2,P2) . f(L3,P3) > 、或叫⑹等,即可計算 出每個切分詞語的詞頻加權數值,再將每個詞語的詞頻加 權數值相加,就可以對各種可能切分結果進行可能性的排 序’據此選擇最短分詞路徑中可能性最高者。因此,步驟 25^艮據詞語詞頻庫選擇最短路徑中最佳者,根據本發明較 佳實施例’就是選擇詞頻當量函式加權函數g(s,A)就每個 詞語的詞頻加權數值相加後最大者。 若以上述語句,,乒乓球拍賣完了,,為例,迭經步驟23 處理後,有兩種切分情況,分別為,,乒乓球//拍賣"完"了 ",, 或兵兵球拍//貝//完// 了 //’’。若詞語’’兵兵球”、,,拍賣,,、” 完”、” 了 ”,則根據統計學理所得之相對應之詞頻分別為 0.00080、0.00019、0.03425、1.81942 等,常數 C 等於 7, 則切分”兵乓球//拍賣"完"了 之詞頻加權數值即為: 經濟部智慧財產局員工消費合作社印製 g卜0.00080 X 7+0.00019 X 7+0.03425+1.81942=1.8606 ; 若詞語”兵兵球拍,,、”賣,,、”完”、,,了,,相對應之詞頻分別為 0·00012、0.01127、0.03425、1.81942 等,常數 c 等於 7, 則切为兵兵球拍//賣//完// 了 //”之詞頻加權數值即為: g2=0.〇〇〇l2 X 7+0.01127+0.03425 + 1.81942=1.86578。 由於g2>gl,故選擇切分結果,,乒乓球拍//賣"完"了 ",,輸 15 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 14 491971 五、發明說明( 出 上述本發明之漢語語句切分的方法,採用分喟 與需經切分語句之語義無關原則、以及最少分難先原 ㈣分所行時間之長短來排序,優先選擇運行 犄間取紐者,尋求最短分詞路徑。若所獲得之最短分詞路 徑非為唯-時,則以詞語的可能性量化原則,採用詞頻和 詞長做為可純量度之參數,計算各個最短分詞路徑之气 頻力曰口權數值,換句話說,就是按照可能性大小排序,選擇 出最k之取短分柯路;^。據此,本發明之漢語語句切分的 方法,同時兼具運行_短、切分詞語精準度高㈣優點。 雖然本發明已以較佳實施例揭露如上,然其並非“ 限=本發明任何熟習此技藝者,在不脫離本發明之精神 f範圍内胃可作更動與潤飾’因此本發明之保護範圍當 視後附之申睛專利範圍所界定者為準。 經濟部智慧財產局員工消費合作社印製

Claims (1)

  1. 第8611 872j说申請專利範圍修正本鑛 D8 H8·1 日1修正
    申請專利範圍 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 1·-種漢語語㈣分的方法,包括下列步驟: ⑷輸入-漢語語句,該漢語語句係由複數字符所組成 之一文字字串; (b)根據-詞語庫,對該文字字串進行詞語匹配; ⑷判斷經匹配後之分詞路徑是否唯_;若是,則完成 該漢語語句切分的方法;(d)選擇該等分詞路徑中最短者;⑷判斷該最短分騎彳^是否唯―;若是,則完成該漢 語語句切分的方法; σ)根據一詞語詞頻庫,選擇該等最短分詞路徑可能性 最高者;以及(g)輸出該可能性最高之最短分詞路徑。 ,2·如申請專利範圍第j項所述之該漢語語句切分的 方法’其步驟⑻是採用m吾與該語句之語義無關原則。 3·如申請專利範圍帛丨韻述之該漢語語句切分的方 其中,步驟(d)是採用最少分詞優先原則。 4·如申請專利範圍第丨項所述之該漢語語句切分的方 ”中,步驟(f)是以詞頻加權數值來決定。 =·如申请專利範圍第4項所述之該漢語語句切分的方 其中,該詞頻加權數值是根據該等最短分詞路徑中, 所匹配而得該等詞語之詞長與詞頻而定。 6·如申凊專利範圍第5項所述之該漢語語句切分的方 閱 貢 參 I I I I I I I訂 綠 法 法 法 本紙張尺錢财目 17 297 公il 491971 A8 B8 C8
    rji >ζ 申請專利範圍 所匹=得該等詞語之詞長 對應之…可5吾為早字詞,該詞頻加權數值僅包含* 包^相:該詞語為非單字詞,則該詞頻加權㈣ 匕3相對應之該詞頻盥一 該詞語長度而定。 積,其中’該常數㈣ 么 如申明專利範圍第12項所述之該漢語語句切分筹 統,其巾,該加權常數為大於5以上之正整數。 (請先閱讀背面之注意事項再填寫本頁) n n n n · -I I n I I I Γ I Jf n n I I I ϋ 經濟部智慧財產局員工消費合作社印製 19 --訂---------線-Λ.^— ^------------------------ 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
TW086118723A 1997-12-11 1997-12-11 Chinese sentence partitioning method and its system TW491971B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW086118723A TW491971B (en) 1997-12-11 1997-12-11 Chinese sentence partitioning method and its system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW086118723A TW491971B (en) 1997-12-11 1997-12-11 Chinese sentence partitioning method and its system

Publications (1)

Publication Number Publication Date
TW491971B true TW491971B (en) 2002-06-21

Family

ID=21627399

Family Applications (1)

Application Number Title Priority Date Filing Date
TW086118723A TW491971B (en) 1997-12-11 1997-12-11 Chinese sentence partitioning method and its system

Country Status (1)

Country Link
TW (1) TW491971B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705261A (zh) * 2019-09-26 2020-01-17 浙江蓝鸽科技有限公司 中文文本分词方法及其系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705261A (zh) * 2019-09-26 2020-01-17 浙江蓝鸽科技有限公司 中文文本分词方法及其系统
CN110705261B (zh) * 2019-09-26 2023-03-24 浙江蓝鸽科技有限公司 中文文本分词方法及其系统

Similar Documents

Publication Publication Date Title
WO2021232746A1 (zh) 一种语音识别方法、装置、设备及存储介质
US8527273B2 (en) Systems and methods for determining the N-best strings
CN110264991A (zh) 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质
CN107180025B (zh) 一种新词的识别方法及装置
CN109062902B (zh) 一种文本语义表达方法及装置
US20230386168A1 (en) Pre-training method, image and text retrieval method for a vision and scene text aggregation model, electronic device, and storage medium
CN107193792A (zh) 基于人工智能的生成文章的方法和装置
CN108510976A (zh) 一种多语言混合语音识别方法
WO2021179701A1 (zh) 多语种语音识别方法、装置及电子设备
CN106294460B (zh) 一种基于字和词混合语言模型的汉语语音关键词检索方法
CN108877782A (zh) 语音识别方法和装置
US20220300708A1 (en) Method and device for presenting prompt information and storage medium
US20160283588A1 (en) Generation apparatus and method
US20230385535A1 (en) Copy generation method and apparatus, and electronic device, storage medium and program
CN109117474A (zh) 语句相似度的计算方法、装置及存储介质
WO2022134164A1 (zh) 翻译方法、装置、设备及存储介质
Riccardi et al. Non-deterministic stochastic language models for speech recognition
TW491971B (en) Chinese sentence partitioning method and its system
JP5766152B2 (ja) 言語モデル生成装置、その方法及びプログラム
CN113850291A (zh) 文本处理及模型训练方法、装置、设备和存储介质
JP2008021139A (ja) 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム
CN112560466B (zh) 链接实体关联方法、装置、电子设备和存储介质
CN110827794B (zh) 语音识别中间结果的质量评测方法和装置
JP4243777B2 (ja) トランスデューサ処理装置、機械翻訳モデル作成装置、音声認識モデル作成装置、トランスデューサ処理方法、トランスデューサ処理プログラム、および、記録媒体
Arens Using Language and Context in the Analysis of Text.

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees