TWI608367B

TWI608367B - 中文文本可讀性計量系統及其方法

Info

Publication number: TWI608367B
Application number: TW101101049A
Authority: TW
Inventors: 宋曜廷; 陳茹玲
Original assignee: 國立臺灣師範大學
Priority date: 2012-01-11
Filing date: 2012-01-11
Publication date: 2017-12-11
Also published as: US20130179169A1; TW201329752A; CN103207854A

Description

中文文本可讀性計量系統及其方法

本發明係關於一種中文文本分析系統及其方法，更詳而言之，係一種提供中文文本可讀性分析與評價之可讀性計量系統及其方法。

近年來隨著學習華語的人數提高，使得華語學習事業蓬勃發展，加上網路資訊的快速成長，學習範圍並不侷限於學校老師，學習者也可透過網路資料、書本、文章等自我學習，無論如何，良好教材與讀本是學好華語之必要條件。

對於教學者與學習者而言，良好的教材與讀本有助於提升教學效能，也可提升學習成效，因而其可讀性高低十分重要。可讀性(readability)是指閱讀材料能夠被讀者理解的程度(Dale & Chall,1949;Klare,1963,2000;McLaughlin,1969)，可讀性較高的文本具備某些特徵，例如內文中有較容易閱讀的字詞彙(常見字、複雜度低、非技術性、意義清楚)；句子中包含較少代名詞與複合詞或結構簡單；內容符合讀者的先備知識，呈現方式適當地重述先前段落；提供相關知識；以及降低無關的干擾訊息等(Klare,1963,2000；van den Broek & Kremer,2000)。由上可知，可讀性高的文本屬於容易被讀者理解的文章，例如採用具體且生活化的詞彙，或選擇使用較短、複雜度較低的句子，以減少讀者的認知負荷。因此，若能針對文本可讀性的進行判斷與分析，即可提供讀者適當的學習教材。

歐美研究學者已建置有成熟的線上文本分析系統(Coh-Metrix)，可客觀且量化分析文本特性，惟其應用於拼音文字，然而中文與拼音文字為兩種迥異的文字系統，因而無法直接適用，再者，對於中文文本分析研究上，先前雖有國內學者發展一系列中文適讀性公式，但年代已久已不符現代文本使用。綜上所述，目前中文可讀性研究中仍有下列限制有待突破：(1)亟待發展符合中文特性與現代語言脈絡的可讀性指標；(2)因過去可讀性公式僅選擇少數、表淺的語言特徵，不夠周延，亟待建立包含更多且較為完整的可讀性指標；(3)亟待發展具有效度的可讀性數學模型。

因此，如何能提供學習者或教育者具有更佳效度的可讀性數學模型來進行文本可讀性分析，此仍屬本領域之技術人員所應努力的目標。

鑒於上述習知技術之缺點，本發明之目的在於提出一種中文文本可讀性計量系統及其方法，透過斷詞(segment)、可讀性指標分析並建立可讀性數學模型，以產生可讀性分析結果。

為達成前述目的及其他目的，本發明提供一種中文文本可讀性計量系統，係應用於資料處理設備中，並透過該資料處理設備予以執行，該中文文本可讀性計量系統包括：斷詞模組、可讀性指標分析模組及智慧型算則模組。斷詞模組係應用於文本資料之斷詞處理，用以將該文本資料與一語料庫進行比對以藉由該文本資料產生複數個斷詞，且產生對應該些斷詞之詞性設定；可讀性指標分析模組係依據該文本資料中預定的可讀性指標，對該些斷詞及該些詞性設定進行分析，以透過計算得到該些可讀性指標之指標數值；而智慧型算則模組係包括一預定之可讀性數學模型，用以將該些指標數值輸入該可讀性數學模型以產生分析結果。

於一實施形態中，該詞性設定之內容係包括該斷詞之詞性標記、以及該斷詞模組對應該些斷詞所產生之斷詞資訊與詞性標記資訊；而該可讀性指標係由詞彙特徵、語意特徵、語法特徵或篇章凝聚性特徵之至少一者所組成。

於另一實施形態中，該可讀性數學模型為一般線性或非線性。再者，該非線性之可讀性數學模型係由支向量機(support vector machine，SVM)或如人工類神經(artificial neural network,ANN)等多種人工智慧分類器整合而成。

另外，本發明復提出一種中文文本可讀性計量分析方法，係應用資料處理裝置中，並透過該資料處理裝置予以執行，該中文文本可讀性計量分析方法包括以下步驟：(1)將文本資料與一語料庫進行比對以藉由該文本資料得到複數個斷詞；(2)對該些斷詞進行詞性設定；(3)將該些斷詞付與詞性設定，並對應至預定的可讀性指標，以透過計算產生該文本資料中該些可讀性指標之指標數值；以及(4)利用一可讀性數學模型，整合該些指標數值得到該文本資料可讀性之分析結果。

相較於習知技術，本發明所述之中文文本可讀性計量系統及其方法，透過先對中文文本進行斷詞分析及詞性設定，接著依據預設的可讀性指標，計算出由該中文文本所產生之複數斷詞之指標數據，最後，套入智慧型算則模組以求得可讀性結果，本發明利用符合中文特性及現代語言之斷詞及可讀性指標，藉此提供更佳可讀性判斷機制。因此，透過中文可讀性自動分析計量，對於文本可讀性研究有相當助益，不僅可提供讀者適性文本的服務，同時亦可協助研究者或教學者客觀且科學化的文本研究及教材發展。

以下藉由特定的具體實施形態說明本發明之技術內容，熟悉此技藝之人士可由本說明書所揭示之內容輕易地瞭解本發明之其他優點與功效。本發明亦可藉由其他不同的具體實施形態加以施行或應用。

請參閱第1圖，係本發明之中文文本可讀性計量系統之系統架構圖。如圖所示，該中文文本可讀性計量系統1提供對文本資料100之斷詞處理及可讀性分析，係包括：斷詞模組10、可讀性指標分析模組11以及智慧型算則模組12。

於此須說明的是，前述中文文本可讀性計量系統1係應用於至少包括處理器、記憶體、儲存單元與作業系統之資料處理設備中，並透過該資料處理設備予以執行，以提供中文文本可讀性之分析判斷，故並無侷限中文文本可讀性計量系統1所處理之中文文本來源，可以來自書本、網路等電子檔案文件，且該資料處理設備亦不限制形式，如電腦、伺服器、雲端伺服器等皆可。

斷詞模組10係應用於文本資料100之斷詞處理，用以將該文本資料100與一語料庫13進行比對以藉由該文本資料100產生複數個斷詞，且產生對應該些斷詞之詞性設定。具體來說，斷詞模組10提供文本資料100的斷詞處理，藉由將一篇或一段完整的中文內容進行斷詞並給予標記，以供後續對該文本資料100的分析。換言之，斷詞(word segmentation)對於文本分析是十分重要的，若斷詞不正確時，將導致後續詞性標記錯誤，使得最後語意解讀偏離原意。此外，前述之語料庫係包括：中央研究院的中文詞庫、漢語平衡語料庫或者是中文句結構樹資料庫等。

待斷詞完成後將產生複數個斷詞，接著該斷詞模組10對該些斷詞提供對應的詞性設定，詳言之，該詞性設定之內容可包括對該些斷詞的詞性標記，以及該斷詞模組對應該些斷詞所產生記載該些斷詞及該些詞性標記的資訊，也就是說，該斷詞模組10具有斷詞、詞性標記、產生斷詞資訊及詞性標記資訊等功能，如第2圖所示，係本發明之斷詞模組對於文本資料之處理示意圖，請搭配第1圖觀看，文本資料100經斷詞功能函數20處理後，將會產生許多斷詞資料，而該些斷詞資料再透過詞性標記功能函數21、斷詞資訊功能函數22或詞性標記資訊功能函數23等處理，以完成斷詞及詞性標記等程序。

可讀性指標分析模組11係依據該文本資料中預定的可讀性指標，對該些斷詞及該些詞性設定進行分析，以透過計算得到該些可讀性指標之指標數值。如前所述，斷詞模組10所產生的該些斷詞及該些詞性設定，將以預先設定的可讀性指標進行分析，經計算後得到該些可讀性指標的指標數值，其中，可讀性指標係由詞彙特徵、語意特徵、語法特徵或篇章凝聚性特徵等之至少一者所組成，該可讀性指標即是文本資料100中的詞、句子、難詞、代名詞、連接詞、否定詞等各種可表徵文本可讀性的特徵。

於具體實施中，前述之可讀性指標大致可劃分五類：(1)如詞彙數量：字數、詞數、段落數等之文章基本描述特徵；(2)如詞彙豐富性、詞彙頻率、詞彙長度等詞彙類特徵；(3)如語意與潛在語意等語意類特徵；(4)如句平均詞數、單句數比率等句法類特徵；以及(5)如指稱詞、連接詞等篇章凝聚性特徵。

在本實施例中，目前已經發展65個指標，於此依據前述五種特徵具體分類指標，亦即中文文本可讀性計量系統1提供詞彙類指標、語意類指標、句法類指標、文章凝聚性指標以及文章基本描述等五類指標判斷，且每一類個別指標均為篇章理解的重要成分，整體指標提供更為精確與周延的可讀性概念，共同表徵文章的可讀程度，以供作為文章可讀性的判斷依據，下面表一係說明目前已開發的各種指標之分類及其概念定義：

表一、各種指標其分類及概念定義

此外，前述的中文文本可讀性指標可視為一預測變項，並將文章的可讀年級設為一效標變項，藉此在上述可讀性指標下，依據不同文章可讀性而提供適當判斷依據。惟，對於可讀性指標的設定可依據需求而改變，本實施例僅為一較佳實施例，但非限制其他可讀性指標的加入或調整。

智慧型算則模組12係用於透過可讀性數學模型，依據該些指標數值產生分析結果200。前述可讀性數學模型可透過一智慧型算則系統(Knowledge-Evaluated Training System，KETS)開發得到，即透過該些可讀性指標建立而成，因而當透過可讀性指標分析模組11計算後得到該些可讀性指標的指標數值，該指標數值可透過智慧型算則整合成適當可讀性數學模型而產生最後分析結果200，即可知悉該文本資料100的可讀性高低。進一步而言，該可讀性數學模型可以一般線性方式產生，或者由非線性方式產生，根據本發明測驗結果，非線性會比一般線性具有較高可讀性預測精確性，故，本實施例將以非線性方式所產生可讀性數學模型作說明。

本實施例所採用非線性可讀性數學模型係由支向量機(Support Vector Machine，SVM)等人工智慧分類器整合而成，其中，該人工智慧分類器復可為人工類神經網路(artificial neural network，ANN)、決策樹(decision tree)、貝氏網路(Bayesian network)或基因歸劃法(genetic programming，GP)之任一者，藉以進行分類，以便對文本資料作精確的分級。支向量機SVM是一種人工智慧學習器，為目前學界用以進行資料分類的演算法之一，係以統計學習理論中結構化風險最小誤差(Structural Risk Minimization，SRM)(Vapnik,1998;Yeh,Chi,& Hsu,2010)作為理論基礎，其中，SVM可利用超平面(hyper-plane)將資料作分類並記憶資料特性，經訓練及學習後，即能進行資料類別的預測。

在SVM訓練模型過程中，係以找到最佳的分割超平面(optimal separating hyper-plane,OSH)用以分類資料。然而，有時資料在現有的維度中無法被一線性的OSH所分類，對於此種資料，SVM可藉由核心函數把資料投射到更高維度的空間或是特徵空間(feature space)，如第3圖所示，該圖左邊的二維座標無法被線性的OSH所分類，故將資料映射到特徵空間，使資料分佈能夠更加分散，例如該圖右邊的三維座標所示，以便找到OSH進行分類，而常用的SVM核心函數可為線性(Linear)、多項式(Polynomial)、半徑基底函數(Radial Basis Function，RBF)、S字形的(Sigmoid)等，惟SVM核心函數並非本發明主要技術內容，故不再詳述(詳細SVM資訊可參考Vapnik(1998)著作)。

綜上所述，本發明透過對文本資料的斷詞及指標分析，進而達到可讀性的判斷。在另一實施例中，亦可將前述之斷詞模組和可讀性指標分析模組結合，成為一文本可讀性指標自動化分析器(Chinese Readability Index Explorer，CRIE)，藉此提供斷詞、詞性標記與可讀性指標數值，再結合一智慧型算則模組，以整合為一中文文本可讀性計量之系統(Text Readability Measuring System)。

為了進一步說明SVM可讀性數學模型的建立方式，現請參閱第4圖，主要說明透過以支向量機(SVM)所建立之數學模型進行文本分類之程序示意圖。惟，下面僅為一具體實施例，並非建立可讀性數學模型唯一方式，且所採用文本數量並非侷限本發明。

於第4圖中，首先準備相關訓練資料，將訓練模型用的341篇文章分成為訓練文章(佔75%，307篇)與測試文章(佔25%，34篇)，接著定義每篇文章所屬的可讀年級與學期，並抽取出每篇文章的可讀性指標。接著，為訓練模型過程，將已經定義好的訓練資料輸入SVM進行模型訓練，由於透過交互驗證(Cross-Validation)方式可使SVM得到較佳效果，因而本實施例採用n-fold Cross-Validation進行(Vapnik,1998)，亦即以試誤法挑選10-fold交互驗證(10-fold Cross-Validation)程序訓練SVM模型。詳細作法如下：先將341筆資料等分為10份，每份34筆。第一次將10等分中的第一等份當作測試資料，其他9等份當作訓練資料，接著第二次將10等份的第二等份當作測試資料，其他9等份當訓練資料，以此類推進行10次循環，便可得到10個精確率，平均10次的精確率求得最後精確率，據此即代表SVM所訓練模型的精確率。因此，透過前述方式可得到本發明所需高精確的可讀性講學模型，有助於中文文本可讀性之分析。

其次配合前述第1圖所示中文文本可讀性計量系統，以下說明本發明之中文文本可讀性計量分析方法之步驟流程圖，如第5圖所示。

於步驟S501中，係將文本資料與一語料庫進行比對以藉由該文本資料得到複數個斷詞。首先將文本資料與一語料庫比對，以藉由該文本資料中得到複數個斷詞，透過適當斷詞可有助於後續分析，進而得到該文本資料的內容訊息。接著進至步驟S502。

於該步驟S502中，係對該些斷詞進行詞性設定。詳細來說，為了使該些斷詞為可分析，故依據預設資料將該些斷詞進行詞性設定，例如對該些斷詞給予詞性標記，或者產生斷詞及詞性標記相對應之斷詞資訊及詞性標記資訊。接著進至步驟S503。

於該步驟S503中，係將該些斷詞及所賦予之該些詞性設定，對應至預定的可讀性指標，以透過計算產生該文本資料中該些可讀性指標之指標數值。為了得到文本資料的可讀性，因而依據步驟S502中的斷詞、詞性標記、斷詞資訊以及詞性標記資訊，參考預先設定數個可讀性指標，計算產生該文本資料中該些可讀性指標的指標數值，相關可讀性指標前面已介紹，於此將不再贅述。接著進至步驟S504。

於該步驟S504中，係利用一可讀性數學模型，以由該些指標數值得到該文本資料可讀性之分析結果。詳細來說，該可讀性數學模型為一般線性或非線性，此步驟係依據步驟S503所得到之指標數值，透過該可讀性數學模型以得到最後分析結果，即文本資料之可讀性判斷。例如，可利用一非線性之可讀性數學模型來進行文本分析，其中，該非線性可讀性數學模型係由人工智慧分類器整合而成，以提供文本資料的精確分級，關於數學模型的建立，本文前面已說明，同樣不再重述。

綜上所述，本發明之中文文本可讀性計量系統及其方法，透過對中文文本的斷詞處理及可讀性指標判斷而計算出該中文文本相關指標數據，最後，利用智慧型算則模組內之可讀性數學模型而得到中文文本可讀性資料。本發明之中文文本可讀性計量分析，符合現有中文及語言的特性，不僅可提供讀者適性中文文本的服務，同時提供中文文本可讀性分析判斷，可讓研究者與教學者客觀且有效的進行文本研究及教材發展。

上述實施形態僅例示性說明本發明之原理及其功效，而非用於限制本發明。任何熟習此項技藝之人士均可在不違背本發明之精神及範疇下，對上述實施形態進行修飾與改變。因此，本發明之權利保護範圍，應如後述之申請專利範圍所列。

1．．．中文文本可讀性計量系統

10．．．斷詞模組

11．．．可讀性指標分析模組

12．．．智慧型算則模組

13．．．語料庫

20．．．斷詞功能函數

21．．．詞性標記功能函數

22．．．斷詞資訊功能函數

23．．．詞性標記資訊功能函數

100．．．文本資料

200．．．分析結果

S501~S504．．．步驟

第1圖係本發明之中文文本可讀性計量系統之架構圖；

第2圖係本發明之斷詞模組對於文本資料之處理示意圖；

第3圖係本發明透過支向量機(SVM)利用核心函數將非線性資料轉換成特徵空間之示意圖；

第4圖係說明透過以支向量機所建立之數學模型進行文本分類之程序示意圖；以及

第5圖係本發明之中文文本可讀性計量分析方法之步驟流程圖。