TW201403354A

TW201403354A - 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法

Info

Publication number: TW201403354A
Application number: TW101123917A
Authority: TW
Inventors: Yao-Ting Sung; Tao-Hsing Chang; Ju-Ling Chen; Yi-Shian Lee
Original assignee: Univ Nat Taiwan Normal
Priority date: 2012-07-03
Filing date: 2012-07-03
Publication date: 2014-01-16
Also published as: US20140012569A1

Abstract

本發明係一種以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法。其中，此中文文本可讀性數學模型包含：對中文文本作斷詞及詞性標記處理之斷詞單元、根據斷詞及詞性標記作文本可讀性指標分析之可讀性指標分析單元、及利用資料降維法及非線性算則所建構中文文本可讀性數學模型之智慧型算則單元。本研究可利用較少文本預測出較準確的中文文本之可讀程度，以提供更合適的中文文本給不同閱讀能力的讀者閱讀。

Description

以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法

本發明係關於中文文本可讀性數學分析之技術領域，採用資料降維法以及非線性算則來建構中文文本可讀性數學模型之系統及其方法。

近年隨著國際情勢的發展，學習中文的人數不斷增加，加上網路資訊的快速成長，學習範圍並不侷限於學校老師，學習者也可以透過網路資料、書本、文章等自我學習。因此，如何為學習者選擇適合的華語教材是教育與研究者關心的重要議題。

由於成功的理解是讀者與文本良好互動的結果，讀者閱讀高可讀性的文章時，會產生較好的理解，以及較佳的學習與學後保留效果。適合讀者閱讀的材料，也有助於提升閱讀動機與閱讀成就。而若以教育角度來看，影響篇章理解的因素裡，文本因素相對於讀者因素容易著力，也更具備教育意義。若能提供適合讀者的高可讀性文本，便可大大提高讀者對文本的理解。

然而，網路和電子書的出現，文本的取得眾多，如何選擇適合的文本更形重要。進行中文文本可讀性的檢索時，若無科學化的方法，不易找到適合閱讀的材料。此外，針對中文文本建構較佳的中文文本可讀性數學模型，也更有效的評估文本的可讀性。在此，可讀性係定義為容易閱讀，能增進讀者理解的文本。

於1920初，西方已藉由分析文章在詞彙與句法方面的特性建立多種可讀性公式進行文本可讀性評估，不過西文的可讀性研究雖然蓬勃發展，卻仍有指標過於表淺，數量少、以及公式的數學模型過於簡單的問題。相較於西方可讀性研究的蓬勃發展，中文的研究較少，且年代久遠。楊孝濚(1971)曾探討影響中文可讀性的重要因子(如單字以及句子等)，也曾建立可讀性公式，但缺乏效度的研究；而荊溪昱(1992)則直接參照拼音文字(如英文字)常用的可讀性指標來建立可讀性公式，且建立常用詞表時，僅以教科書資料庫作依據並未參考其他外部語料庫，其作法並不客觀。

有鑑於拼音文字與中文文字系統的根本差異，有系統地發展適用中文的可讀指標方能真正建立具有效度的中文可讀性公式。然而，中文文本可讀性的研究者多採用：句長、筆劃數、常用字(難字比率)等指標建立公式。其中，筆劃數看似為中文系統特有，但其實即是字元複雜度的表現，相當於文字的詞長特徵。因此，傳統中文文本可讀性研究，在指標的選取上與拼音文字系統常見的指標並無差異，此外，研究者選用的也多為少數、表淺的語言特徵，因而無法有效的評估中文文本的可讀性。

傳統的可讀性模型公式(如，Flesch-Kincaid)已經廣泛地應用在教育領域與各種領域，例如，圖書館學術文章分類、電子書以及商業網站的網頁內容。然而，卻存在不少問題。

整體而言，現有的可讀性公式存在三個問題：第一，公式建立者納入的指標較為少數，未考慮文本多層次特徵的特性；其次，雖然有些研究者試圖將多種指標納入，但仍然無法克服多種指標常彼此相關的問題；第三，現行中文文本可讀性分類模型在技術上多數僅採用簡單且易了解的統計方法，但預測正確率低，因此如何改善目前中文可讀性分類模型的精確性是一個重要的議題。一般而言，建立文本可讀性模型時往往需要大量的資料才能配適出穩定且有效的預測模型，然而即便是西方之可讀性研究亦有模型不穩定，指標不周延等相關問題，尚待研究者進一步的研究並解決。

發明人爰因於此，本於積極發明之精神，亟思一種考量中文文本可讀性概念為多特徵的特性，以及如何克服多特徵之間有線性問題，本研究提出一可整合多個可讀性指標的資料降維法以及非線性算則建構中文文本可讀性數學模型，以透過中文文本的可讀性指標，來建立一個高精確性且可更有效分析之中文文本可讀性數學模型，幾經研究實驗終至完成本發明。

鑑於先前技術中，傳統可讀性預測模型不適合分析中文文本是否具有可讀性、中文文本之分析數量較少的情形下預測效果不佳、以及影響可讀性數學模型因素因彼此相關互相影響而有共線性之問題。本發明透過擷取多個中文文本之可讀性指標(如，字彙、語意、句法、文章結構等)，並利用資料降維法、以及非線性算則來建構一個可利用少量文本來產生高預測精確性、高效率的中文文本可讀性數學模型及其方法。

為達成上述目的，本發明提供了一種以資料降維法及非線性算則建構中文文本可讀性數學模型之方法，包含下列步驟：(A)收集適合某個閱讀能力之中文文本，並與語料庫之中文字詞句特性進行比對，以產生中文文本之複數個斷詞，且對應產生複數個斷詞之詞性標記。其中，每篇中文文本皆具有至少一個可讀性指標；(B)對每篇中文文本之複數個斷詞、及複數個斷詞之詞性標記進行分析，以透過計算產生上述可讀性指標之指標數值；(C)將上述可讀性指標，透過資料降維法找出重要之閱讀理解構面，而上述閱讀理解構面可以被表示成可讀性指標之間的關係，進而降低可讀性指標之間的共線性問題；以及(D)將上述重要的閱讀理解構面透過非線性算則來建構中文文本可讀性數學模型，以作為判斷中文文本是否適合某個閱讀能力閱讀之依據。

此外，本發明於步驟(C)中，資料降維法可用來降低上述可讀性指標彼此之間高度共線性問題，仍可保留為重要閱讀理解構面。

再者，本發明於步驟(D)中，非線性算則可透過廣泛的非線性函數來對重要之閱讀理解構面作轉換，以預測中文文本可讀性數學模型。

再者，本發明於步驟(A)中，語料庫係可包含中央研究院之中文詞庫、漢語平衡語料庫、及中文句結構樹資料庫，以作為中文字詞句特性之比對依據。而上述可讀性指標可包含詞彙指標、語意指標、句法指標、以及文章凝聚指標之指標類別，以據此找出閱讀理解構面。

另外，本發明於步驟(C)中，上述閱讀理解構面可表示透過資料降維法，而歸納同一指標類別之上述可讀性指標，且每個閱讀理解構面均可以被表示成同一指標類別之上述可讀性指標的線性組合。

本發明更提供了一種使用資料降維法以及非線性算則來建構中文文本可讀性數學模型之系統，包含斷詞單元、可讀性指標分析單元、及智慧型算則單元。其中，斷詞單元接收適合某個閱讀能力之中文文本，並與語料庫之中文字詞句特性進行比對，以產生中文文本之複數個斷詞，且對應產生複數個斷詞之詞性標記，其中，每篇中文文本皆有其可讀性指標。可讀性指標分析單元則接收複數個斷詞及複數個斷詞對應之詞性標記，以透過計算產生可讀性指標之數值。而本發明所提之智慧型算則單元則接收上述可讀性指標，以透過資料降維法找出閱讀理解構面，並根據上述閱讀理解構面，透過非線性算則建構中文文本可讀性數學模型，以作為判斷一待測中文文本是否適合某個閱讀能力閱讀之依據。

以上的概述與接下來的詳細說明皆為示範性質，是為了進一步說明本發明的申請專利範圍。而有關本發明的其他目的與優點，將在後續的說明與圖示加以闡述。

首先，請參考圖1，係本發明一較佳實施例之以資料降維法及非線性算則建構中文文本可讀性數學模型100之系統架構圖。如圖1所示，中文文本可讀性數學模型100包含一斷詞單元110、一可讀性指標分析單元130、及一智慧型算則單元140。其中，斷詞單元110接收適合某一年齡層閱讀能力閱讀之多個中文文本10，並與一語料庫120之中文字詞句特性進行比對，以產生中文文本10之複數個斷詞，且對應產生複數個斷詞之詞性標記，其中，每一中文文本10皆具有可讀性指標(圖未示)。

在本實施例中，中文文本10可以來自書本、網路等電子檔案文件，且建構中文文本可讀性數學模型100亦不設限制形式，如電腦、伺服器、雲端伺服器皆可。具體來說，斷詞單元110提供中文文本10的斷詞(word segmentation)處理，以將每一中文文本10之中文內容進行斷詞並給予標記，以供後續對中文文本10的分析。換言之，斷詞對於文本分析是十分重要的，若斷詞不正確時，將導致後續詞性標記錯誤，使得最後語意解讀偏離原意。

此外，語料庫120係可由中央研究院的中文詞庫、漢語平衡語料庫、及中文句結構樹資料庫來來作為中文字詞句特性的比對依據。

請同時參考圖2，係本發明一較佳實施例之斷詞單元示意圖。斷詞單元110包含一斷詞功能函數112、一詞性標記功能函數114、一斷詞資訊功能函數116、一詞性標記資訊功能函數118，以對中文文本10進行斷詞、詞性標記、產生斷詞資訊及詞性標記資訊等功能。其中，斷詞功能函數112接收多個中文文本10，以根據語料庫120比對而對每一中文文本10對應產生複數個斷詞，而複數個斷詞再透過詞性標記功能函數114、斷詞資訊功能函數116、或詞性標記資訊功能函數118等處理，以完成斷詞及詞性標記等程序。

可讀性指標分析單元130係接收每一中文文本10之複數個斷詞及複數個斷詞對應之詞性標記，以透過計算產生至少一可讀性指標之指標數值。其中，可讀性指標係包含詞彙類特徵、語意類特徵、句法類特徵、文章凝聚類特徵等四大類別特徵。

在本實施例中，可讀性指標可分為詞彙類、語意類、語法類、文章凝聚類：(1)詞彙類：如詞彙豐富性、詞彙頻率、詞彙長度等詞彙指標類別；(2)語意類：如語意與潛在語意等語意指標類別；(3)句法類：如句平均詞數、單句數比率等句法指標類別；(4)篇章凝聚類：如指稱詞、連接詞等文章凝聚指標類別。上述之類別均為篇章理解的重要成分，以提供更精確與周延的可讀性指標。本實施例僅為一較佳實施例，但非限制其他可讀性指標的加入或調整。

而智慧型算則單元140則具有資料降維法，以據此找出代表上述可讀性指標之間的關係之閱讀理解構面。更進一步來說，上述閱讀理解構面係表示透過資料降維法，而歸納同一指標類別(如，詞彙類、語意類、句法類、及文章凝聚類)之上述可讀性指標。而此資料降維法可解決傳統的可讀性模型公式在建立模型時，上述可讀性指標之間共線性的問題，意即解決多個可讀性指標彼此之間共線性太高之問題。因此，透過此資料降維法可降低多個可讀性指標之間的共線性，遂可得到如下好處：(1)代表性，保留可讀性指標大部分的解釋量；(2)獨立性，可讀性指標之間共線性減小；(3)精簡性，可利用少量且具有代表性的閱讀理解構面取代繁瑣的可讀性指標以作進一步的判斷分析。

智慧型算則單元140在取得上述至少一閱讀理解構面後，遂透過一個非線性算則來建構中文文本可讀性數學模型100。而在建構完成後，當中文文本可讀性數學模型100接收到一待測中文文本時，將以此中文文本可讀性數學模型100來作為是否適合某一年齡層閱讀之判斷依據，並輸出此待測中文文本適合哪一年齡層之閱讀能力，意即此待測中文文本之可讀性屬於哪一年齡層來閱讀，進而完成本發明得以準確預測中文文本可讀性之目的。

此外，在本實施例中，非線性算則係用以表示利用非線性方式來組合閱讀理解構面之方法。此外，非線性算則係以一試誤法，來作為參數篩選的依據。而此非線性算則法並無資料量大小的限制且亦無傳統線性公式的限制(如要符合常態分配(Normal Distribution))，故在少量資料上也會有良好的預測精確性。

接下來，請同時參考圖3，係本發明一較佳實施例之以資料降維法及非線性算則建構中文文本可讀性數學模型100之方法流程圖。以下中文文本10將以閱讀能力為三、四年級為例來作說明。首先，中文文本可讀性數學模型100接收適合三、四年級閱讀的多個中文文本10，並與一語料庫120之中文字詞句特性進行比對，而可在斷詞單元110中產生每一中文文本10之複數個斷詞，並將複數個斷詞作詞性標記，以作為接下來可讀性指標之判斷依據(步驟S300)。

在此，以下有關可讀性指標之相關描述，將以詞彙指標類別：字數(總字數)、詞數(總詞數)、低筆劃字元數(筆畫介於1~10筆之總字數)，以及句法指標類別：句平均詞數(句子長度)、單句數比率(單句結構比率)兩大類指標類別來作說明。

接下來，中文文本可讀性數學模型100將於可讀性指標分析單元130中，對每一中文文本10之複數個斷詞、及複數個斷詞之詞性進行分析，並透過計算而產生可讀性指標(字數、詞數、低筆劃字元數、句平均詞數、單句數比率)之指標數值。例如某一個三年級中文文本10分析後有100個字數、47個詞數、53個低筆劃字元數、句平均詞數為3個、及單句數比率為35%。在本實施例中，每個可讀性指標之量化單位皆不同，而為了讓每個可讀性指標之間可進一步用來計算估測，遂先行將每個可讀性指標之指標數值正規化，使得每個可讀性指標之指標數值之量化單位一致(步驟S310)。

再來，中文文本可讀性數學模型100將上述可讀性指標，透過資料降維法找出重要的閱讀理解構面，以從眾多可讀性指標中濃縮成幾個重要的閱讀理解構面，且每個閱讀理解構面均可以被表示成同一指標類別之可讀性指標的線性組合。(步驟S320)。

根據本實施例之可讀性指標，將可得到2個重要的閱讀理解構面，分別為代表詞彙指標類別之詞彙理解構面，以及代表句法指標類別之句法理解構面(圖未示)。其中，詞彙理解構面係由字數、詞數、低筆劃字元數線性組合而成。句法理解構面係由句平均詞數、單句數比率線性組合而成。如下所示，詞彙理解構面=a1×(字數)+a2×(詞數)+a3×(低筆劃字元數)；句法理解構面=b1×(句平均詞數)+b2×(單句數比率)；其中，a1、a2、a3分別為代表詞彙指標類別中，字數、詞數、低筆劃字元數之係數，而b1、b2則為代表句法指標類別中，句平均詞數、單句數比率之係數。

由上述可知，智慧型算則單元140將字數、詞數、低筆劃字元數、句平均詞數、及單句數比率之多個可讀性指標歸納分類成詞彙指標類別(包含字數、詞數、低筆劃字元數)、以及句法指標類別(包含句平均詞數、單句數比率)兩個指標類別，並將同一指標類別的可讀性指標作線性組合而分別成為詞彙理解構面、以及句法理解構面之兩個重要的閱讀理解構面。進而從原本眾多且繁複的可讀性指標中，透過資料降維法而得到共線性較小且重要的閱讀理解構面。

最後，同樣於智慧型算則單元140中，再將上述兩個重要的閱讀理解構面透過非線性算則來建構中文文本可讀性數學模型100，以作為未來在判斷中文文本是否適合三，四年級同學之閱讀能力之依據，進而可達到本發明建構高精確性的中文文本可讀性數學模型100之目的(步驟S330)。

在本實施例中，上述的中文文本可讀性數學模型100，可以如下例子來建立中文文本可讀性數學模型100之演算公式：年級=sin(詞彙理解構面)+log(句法理解構面)。

由上述可知，上述演算式乃透過非線性函數(如，sin、log logistic等)來對重要的閱讀理解構面作變數轉換，並採用線性組合的方式來連結每個運算值(如，sin(詞彙理解構面)、log(句法理解構面)等)。而本實施例僅為一較佳實施例，但非限制其他可讀性指標、閱讀理解構面、非線性函數的加入或調整。

因此，當中文文本可讀性數學模型100在接收到一待測中文文本時，將判斷此待測中文文本是否符合三、或四年級的閱讀能力閱讀者來閱讀，而完成本發明準確預測中文文本可讀性之目的。

故由上述可知，本發明利用資料降維法、以及非線性算則來建立一個有效預測中文文本的可讀程度之中文文本可讀性數學模型100。不但可以解決傳統可讀性預測模型不適合分析中文文本的可讀性、中文文本較少的情形下預測效果不佳之問題外，更可降低可讀性指標之間的共線性而取得獨立性更高的閱讀理解特徵來建構中文文本可讀性數學模型100。使得本發明之中文文本可讀性數學模型100可以預測出更準確的中文文本之可讀程度，而提供適合的中文文本給不同的年齡層之閱讀能力來閱讀。

上述實施例僅係為了方便說明而舉例而已，本發明所主張之權利範圍自應以申請專利範圍所述為準，而非僅限於上述實施例。

10‧‧‧中文文本

100‧‧‧中文文本可讀性數學模型

110‧‧‧斷詞單元

120‧‧‧語料庫

130‧‧‧可讀性指標分析單元

140‧‧‧智慧型算則單元

112‧‧‧斷詞功能函數

114‧‧‧詞性標記功能函數

116‧‧‧斷詞資訊功能函數

118‧‧‧詞性標記資訊功能函數

S300、S310、S320、S330、S340‧‧‧步驟

圖1係本發明一較佳實施例之以資料降維法及非線性算則來建構中文文本可讀性數學模型之系統架構圖。

圖2係本發明一較佳實施例之斷詞單元示意圖。

圖3係本發明一較佳實施例之以資料降維法及非線性算則來建構中文文本可讀性數學模型之方法流程圖。