TW201403354A - 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 - Google Patents

以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 Download PDF

Info

Publication number
TW201403354A
TW201403354A TW101123917A TW101123917A TW201403354A TW 201403354 A TW201403354 A TW 201403354A TW 101123917 A TW101123917 A TW 101123917A TW 101123917 A TW101123917 A TW 101123917A TW 201403354 A TW201403354 A TW 201403354A
Authority
TW
Taiwan
Prior art keywords
readability
chinese
indicator
facet
chinese text
Prior art date
Application number
TW101123917A
Other languages
English (en)
Inventor
Yao-Ting Sung
Tao-Hsing Chang
Ju-Ling Chen
Yi-Shian Lee
Original Assignee
Univ Nat Taiwan Normal
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Taiwan Normal filed Critical Univ Nat Taiwan Normal
Priority to TW101123917A priority Critical patent/TW201403354A/zh
Priority to US13/933,248 priority patent/US20140012569A1/en
Publication of TW201403354A publication Critical patent/TW201403354A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本發明係一種以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法。其中,此中文文本可讀性數學模型包含:對中文文本作斷詞及詞性標記處理之斷詞單元、根據斷詞及詞性標記作文本可讀性指標分析之可讀性指標分析單元、及利用資料降維法及非線性算則所建構中文文本可讀性數學模型之智慧型算則單元。本研究可利用較少文本預測出較準確的中文文本之可讀程度,以提供更合適的中文文本給不同閱讀能力的讀者閱讀。

Description

以資料降維法及非線性算則建構中文文本可讀性數學模型 之系統及其方法
本發明係關於中文文本可讀性數學分析之技術領域,採用資料降維法以及非線性算則來建構中文文本可讀性數學模型之系統及其方法。
近年隨著國際情勢的發展,學習中文的人數不斷增加,加上網路資訊的快速成長,學習範圍並不侷限於學校老師,學習者也可以透過網路資料、書本、文章等自我學習。因此,如何為學習者選擇適合的華語教材是教育與研究者關心的重要議題。
由於成功的理解是讀者與文本良好互動的結果,讀者閱讀高可讀性的文章時,會產生較好的理解,以及較佳的學習與學後保留效果。適合讀者閱讀的材料,也有助於提升閱讀動機與閱讀成就。而若以教育角度來看,影響篇章理解的因素裡,文本因素相對於讀者因素容易著力,也更具備教育意義。若能提供適合讀者的高可讀性文本,便可大大提高讀者對文本的理解。
然而,網路和電子書的出現,文本的取得眾多,如何選擇適合的文本更形重要。進行中文文本可讀性的檢索時,若無科學化的方法,不易找到適合閱讀的材料。此外,針對中文文本建構較佳的中文文本可讀性數學模型,也更 有效的評估文本的可讀性。在此,可讀性係定義為容易閱讀,能增進讀者理解的文本。
於1920初,西方已藉由分析文章在詞彙與句法方面的特性建立多種可讀性公式進行文本可讀性評估,不過西文的可讀性研究雖然蓬勃發展,卻仍有指標過於表淺,數量少、以及公式的數學模型過於簡單的問題。相較於西方可讀性研究的蓬勃發展,中文的研究較少,且年代久遠。楊孝濚(1971)曾探討影響中文可讀性的重要因子(如單字以及句子等),也曾建立可讀性公式,但缺乏效度的研究;而荊溪昱(1992)則直接參照拼音文字(如英文字)常用的可讀性指標來建立可讀性公式,且建立常用詞表時,僅以教科書資料庫作依據並未參考其他外部語料庫,其作法並不客觀。
有鑑於拼音文字與中文文字系統的根本差異,有系統地發展適用中文的可讀指標方能真正建立具有效度的中文可讀性公式。然而,中文文本可讀性的研究者多採用:句長、筆劃數、常用字(難字比率)等指標建立公式。其中,筆劃數看似為中文系統特有,但其實即是字元複雜度的表現,相當於文字的詞長特徵。因此,傳統中文文本可讀性研究,在指標的選取上與拼音文字系統常見的指標並無差異,此外,研究者選用的也多為少數、表淺的語言特徵,因而無法有效的評估中文文本的可讀性。
傳統的可讀性模型公式(如,Flesch-Kincaid)已經廣泛地應用在教育領域與各種領域,例如,圖書館學術文章分 類、電子書以及商業網站的網頁內容。然而,卻存在不少問題。
整體而言,現有的可讀性公式存在三個問題:第一,公式建立者納入的指標較為少數,未考慮文本多層次特徵的特性;其次,雖然有些研究者試圖將多種指標納入,但仍然無法克服多種指標常彼此相關的問題;第三,現行中文文本可讀性分類模型在技術上多數僅採用簡單且易了解的統計方法,但預測正確率低,因此如何改善目前中文可讀性分類模型的精確性是一個重要的議題。一般而言,建立文本可讀性模型時往往需要大量的資料才能配適出穩定且有效的預測模型,然而即便是西方之可讀性研究亦有模型不穩定,指標不周延等相關問題,尚待研究者進一步的研究並解決。
發明人爰因於此,本於積極發明之精神,亟思一種考量中文文本可讀性概念為多特徵的特性,以及如何克服多特徵之間有線性問題,本研究提出一可整合多個可讀性指標的資料降維法以及非線性算則建構中文文本可讀性數學模型,以透過中文文本的可讀性指標,來建立一個高精確性且可更有效分析之中文文本可讀性數學模型,幾經研究實驗終至完成本發明。
鑑於先前技術中,傳統可讀性預測模型不適合分析中文文本是否具有可讀性、中文文本之分析數量較少的情形 下預測效果不佳、以及影響可讀性數學模型因素因彼此相關互相影響而有共線性之問題。本發明透過擷取多個中文文本之可讀性指標(如,字彙、語意、句法、文章結構等),並利用資料降維法、以及非線性算則來建構一個可利用少量文本來產生高預測精確性、高效率的中文文本可讀性數學模型及其方法。
為達成上述目的,本發明提供了一種以資料降維法及非線性算則建構中文文本可讀性數學模型之方法,包含下列步驟:(A)收集適合某個閱讀能力之中文文本,並與語料庫之中文字詞句特性進行比對,以產生中文文本之複數個斷詞,且對應產生複數個斷詞之詞性標記。其中,每篇中文文本皆具有至少一個可讀性指標;(B)對每篇中文文本之複數個斷詞、及複數個斷詞之詞性標記進行分析,以透過計算產生上述可讀性指標之指標數值;(C)將上述可讀性指標,透過資料降維法找出重要之閱讀理解構面,而上述閱讀理解構面可以被表示成可讀性指標之間的關係,進而降低可讀性指標之間的共線性問題;以及(D)將上述重要的閱讀理解構面透過非線性算則來建構中文文本可讀性數學模型,以作為判斷中文文本是否適合某個閱讀能力閱讀之依據。
此外,本發明於步驟(C)中,資料降維法可用來降低上述可讀性指標彼此之間高度共線性問題,仍可保留為重要閱讀理解構面。
再者,本發明於步驟(D)中,非線性算則可透過廣泛的非線性函數來對重要之閱讀理解構面作轉換,以預測中文文本可讀性數學模型。
再者,本發明於步驟(A)中,語料庫係可包含中央研究院之中文詞庫、漢語平衡語料庫、及中文句結構樹資料庫,以作為中文字詞句特性之比對依據。而上述可讀性指標可包含詞彙指標、語意指標、句法指標、以及文章凝聚指標之指標類別,以據此找出閱讀理解構面。
另外,本發明於步驟(C)中,上述閱讀理解構面可表示透過資料降維法,而歸納同一指標類別之上述可讀性指標,且每個閱讀理解構面均可以被表示成同一指標類別之上述可讀性指標的線性組合。
本發明更提供了一種使用資料降維法以及非線性算則來建構中文文本可讀性數學模型之系統,包含斷詞單元、可讀性指標分析單元、及智慧型算則單元。其中,斷詞單元接收適合某個閱讀能力之中文文本,並與語料庫之中文字詞句特性進行比對,以產生中文文本之複數個斷詞,且對應產生複數個斷詞之詞性標記,其中,每篇中文文本皆有其可讀性指標。可讀性指標分析單元則接收複數個斷詞及複數個斷詞對應之詞性標記,以透過計算產生可讀性指標之數值。而本發明所提之智慧型算則單元則接收上述可讀性指標,以透過資料降維法找出閱讀理解構面,並根據上述閱讀理解構面,透過非線性算則建構中文文本可讀性 數學模型,以作為判斷一待測中文文本是否適合某個閱讀能力閱讀之依據。
以上的概述與接下來的詳細說明皆為示範性質,是為了進一步說明本發明的申請專利範圍。而有關本發明的其他目的與優點,將在後續的說明與圖示加以闡述。
首先,請參考圖1,係本發明一較佳實施例之以資料降維法及非線性算則建構中文文本可讀性數學模型100之系統架構圖。如圖1所示,中文文本可讀性數學模型100包含一斷詞單元110、一可讀性指標分析單元130、及一智慧型算則單元140。其中,斷詞單元110接收適合某一年齡層閱讀能力閱讀之多個中文文本10,並與一語料庫120之中文字詞句特性進行比對,以產生中文文本10之複數個斷詞,且對應產生複數個斷詞之詞性標記,其中,每一中文文本10皆具有可讀性指標(圖未示)。
在本實施例中,中文文本10可以來自書本、網路等電子檔案文件,且建構中文文本可讀性數學模型100亦不設限制形式,如電腦、伺服器、雲端伺服器皆可。具體來說,斷詞單元110提供中文文本10的斷詞(word segmentation)處理,以將每一中文文本10之中文內容進行斷詞並給予標記,以供後續對中文文本10的分析。換言之,斷詞對於文本分析是十分重要的,若斷詞不正確時,將導致後續詞性標記錯誤,使得最後語意解讀偏離原意。
此外,語料庫120係可由中央研究院的中文詞庫、漢語平衡語料庫、及中文句結構樹資料庫來來作為中文字詞句特性的比對依據。
請同時參考圖2,係本發明一較佳實施例之斷詞單元示意圖。斷詞單元110包含一斷詞功能函數112、一詞性標記功能函數114、一斷詞資訊功能函數116、一詞性標記資訊功能函數118,以對中文文本10進行斷詞、詞性標記、產生斷詞資訊及詞性標記資訊等功能。其中,斷詞功能函數112接收多個中文文本10,以根據語料庫120比對而對每一中文文本10對應產生複數個斷詞,而複數個斷詞再透過詞性標記功能函數114、斷詞資訊功能函數116、或詞性標記資訊功能函數118等處理,以完成斷詞及詞性標記等程序。
可讀性指標分析單元130係接收每一中文文本10之複數個斷詞及複數個斷詞對應之詞性標記,以透過計算產生至少一可讀性指標之指標數值。其中,可讀性指標係包含詞彙類特徵、語意類特徵、句法類特徵、文章凝聚類特徵等四大類別特徵。
在本實施例中,可讀性指標可分為詞彙類、語意類、語法類、文章凝聚類:(1)詞彙類:如詞彙豐富性、詞彙頻率、詞彙長度等詞彙指標類別;(2)語意類:如語意與潛在語意等語意指標類別;(3)句法類:如句平均詞數、單句數比率等句法指標類別;(4)篇章凝聚類:如指稱詞、連接詞等文章凝聚指標類別。上述之類別均為篇章理解的重要成 分,以提供更精確與周延的可讀性指標。本實施例僅為一較佳實施例,但非限制其他可讀性指標的加入或調整。
而智慧型算則單元140則具有資料降維法,以據此找出代表上述可讀性指標之間的關係之閱讀理解構面。更進一步來說,上述閱讀理解構面係表示透過資料降維法,而歸納同一指標類別(如,詞彙類、語意類、句法類、及文章凝聚類)之上述可讀性指標。而此資料降維法可解決傳統的可讀性模型公式在建立模型時,上述可讀性指標之間共線性的問題,意即解決多個可讀性指標彼此之間共線性太高之問題。因此,透過此資料降維法可降低多個可讀性指標之間的共線性,遂可得到如下好處:(1)代表性,保留可讀性指標大部分的解釋量;(2)獨立性,可讀性指標之間共線性減小;(3)精簡性,可利用少量且具有代表性的閱讀理解構面取代繁瑣的可讀性指標以作進一步的判斷分析。
智慧型算則單元140在取得上述至少一閱讀理解構面後,遂透過一個非線性算則來建構中文文本可讀性數學模型100。而在建構完成後,當中文文本可讀性數學模型100接收到一待測中文文本時,將以此中文文本可讀性數學模型100來作為是否適合某一年齡層閱讀之判斷依據,並輸出此待測中文文本適合哪一年齡層之閱讀能力,意即此待測中文文本之可讀性屬於哪一年齡層來閱讀,進而完成本發明得以準確預測中文文本可讀性之目的。
此外,在本實施例中,非線性算則係用以表示利用非線性方式來組合閱讀理解構面之方法。此外,非線性算則 係以一試誤法,來作為參數篩選的依據。而此非線性算則法並無資料量大小的限制且亦無傳統線性公式的限制(如要符合常態分配(Normal Distribution)),故在少量資料上也會有良好的預測精確性。
接下來,請同時參考圖3,係本發明一較佳實施例之以資料降維法及非線性算則建構中文文本可讀性數學模型100之方法流程圖。以下中文文本10將以閱讀能力為三、四年級為例來作說明。首先,中文文本可讀性數學模型100接收適合三、四年級閱讀的多個中文文本10,並與一語料庫120之中文字詞句特性進行比對,而可在斷詞單元110中產生每一中文文本10之複數個斷詞,並將複數個斷詞作詞性標記,以作為接下來可讀性指標之判斷依據(步驟S300)。
在此,以下有關可讀性指標之相關描述,將以詞彙指標類別:字數(總字數)、詞數(總詞數)、低筆劃字元數(筆畫介於1~10筆之總字數),以及句法指標類別:句平均詞數(句子長度)、單句數比率(單句結構比率)兩大類指標類別來作說明。
接下來,中文文本可讀性數學模型100將於可讀性指標分析單元130中,對每一中文文本10之複數個斷詞、及複數個斷詞之詞性進行分析,並透過計算而產生可讀性指標(字數、詞數、低筆劃字元數、句平均詞數、單句數比率)之指標數值。例如某一個三年級中文文本10分析後有100個字數、47個詞數、53個低筆劃字元數、句平均詞數為3個、及單句數比率為35%。在本實施例中,每個可讀性指標之量 化單位皆不同,而為了讓每個可讀性指標之間可進一步用來計算估測,遂先行將每個可讀性指標之指標數值正規化,使得每個可讀性指標之指標數值之量化單位一致(步驟S310)。
再來,中文文本可讀性數學模型100將上述可讀性指標,透過資料降維法找出重要的閱讀理解構面,以從眾多可讀性指標中濃縮成幾個重要的閱讀理解構面,且每個閱讀理解構面均可以被表示成同一指標類別之可讀性指標的線性組合。(步驟S320)。
根據本實施例之可讀性指標,將可得到2個重要的閱讀理解構面,分別為代表詞彙指標類別之詞彙理解構面,以及代表句法指標類別之句法理解構面(圖未示)。其中,詞彙理解構面係由字數、詞數、低筆劃字元數線性組合而成。 句法理解構面係由句平均詞數、單句數比率線性組合而成。如下所示,詞彙理解構面=a1×(字數)+a2×(詞數)+a3×(低筆劃字元數);句法理解構面=b1×(句平均詞數)+b2×(單句數比率);其中,a1、a2、a3分別為代表詞彙指標類別中,字數、詞數、低筆劃字元數之係數,而b1、b2則為代表句法指標類別中,句平均詞數、單句數比率之係數。
由上述可知,智慧型算則單元140將字數、詞數、低筆劃字元數、句平均詞數、及單句數比率之多個可讀性指標歸納分類成詞彙指標類別(包含字數、詞數、低筆劃字元 數)、以及句法指標類別(包含句平均詞數、單句數比率)兩個指標類別,並將同一指標類別的可讀性指標作線性組合而分別成為詞彙理解構面、以及句法理解構面之兩個重要的閱讀理解構面。進而從原本眾多且繁複的可讀性指標中,透過資料降維法而得到共線性較小且重要的閱讀理解構面。
最後,同樣於智慧型算則單元140中,再將上述兩個重要的閱讀理解構面透過非線性算則來建構中文文本可讀性數學模型100,以作為未來在判斷中文文本是否適合三,四年級同學之閱讀能力之依據,進而可達到本發明建構高精確性的中文文本可讀性數學模型100之目的(步驟S330)。
在本實施例中,上述的中文文本可讀性數學模型100,可以如下例子來建立中文文本可讀性數學模型100之演算公式:年級=sin(詞彙理解構面)+log(句法理解構面)。
由上述可知,上述演算式乃透過非線性函數(如,sin、log logistic等)來對重要的閱讀理解構面作變數轉換,並採用線性組合的方式來連結每個運算值(如,sin(詞彙理解構面)、log(句法理解構面)等)。而本實施例僅為一較佳實施例,但非限制其他可讀性指標、閱讀理解構面、非線性函數的加入或調整。
因此,當中文文本可讀性數學模型100在接收到一待測中文文本時,將判斷此待測中文文本是否符合三、或四年級的閱讀能力閱讀者來閱讀,而完成本發明準確預測中文文本可讀性之目的。
故由上述可知,本發明利用資料降維法、以及非線性算則來建立一個有效預測中文文本的可讀程度之中文文本可讀性數學模型100。不但可以解決傳統可讀性預測模型不適合分析中文文本的可讀性、中文文本較少的情形下預測效果不佳之問題外,更可降低可讀性指標之間的共線性而取得獨立性更高的閱讀理解特徵來建構中文文本可讀性數學模型100。使得本發明之中文文本可讀性數學模型100可以預測出更準確的中文文本之可讀程度,而提供適合的中文文本給不同的年齡層之閱讀能力來閱讀。
上述實施例僅係為了方便說明而舉例而已,本發明所主張之權利範圍自應以申請專利範圍所述為準,而非僅限於上述實施例。
10‧‧‧中文文本
100‧‧‧中文文本可讀性數學模型
110‧‧‧斷詞單元
120‧‧‧語料庫
130‧‧‧可讀性指標分析單元
140‧‧‧智慧型算則單元
112‧‧‧斷詞功能函數
114‧‧‧詞性標記功能函數
116‧‧‧斷詞資訊功能函數
118‧‧‧詞性標記資訊功能函數
S300、S310、S320、S330、S340‧‧‧步驟
圖1係本發明一較佳實施例之以資料降維法及非線性算則來建構中文文本可讀性數學模型之系統架構圖。
圖2係本發明一較佳實施例之斷詞單元示意圖。
圖3係本發明一較佳實施例之以資料降維法及非線性算則來建構中文文本可讀性數學模型之方法流程圖。
10‧‧‧中文文本
100‧‧‧中文文本可讀性數學模型
110‧‧‧斷詞單元
120‧‧‧語料庫
130‧‧‧可讀性指標分析單元
140‧‧‧智慧型算則單元

Claims (12)

  1. 一種以資料降維法及非線性算則建構一中文文本可讀性數學模型之方法,該方法包含下列步驟:(A)收集適合某一閱讀能力之至少一中文文本,並與一語料庫之中文字詞句特性進行比對,以產生每一中文文本之複數個斷詞,且對應產生該複數個斷詞之詞性標記,其中,每一中文文本皆具有至少一可讀性指標;(B)對每一中文文本之該複數個斷詞、及該複數個斷詞之詞性標記進行分析,以透過計算產生該至少一可讀性指標之指標數值;(C)將該至少一可讀性指標,透過該資料降維法找出至少一閱讀理解構面,而該至少一閱讀理解構面係代表該至少一可讀性指標之線性組合;以及(D)將該至少一閱讀理解構面透過該非線性算則建構該中文文本可讀性數學模型,以作為判斷一待測中文文本是否適合該某一閱讀能力閱讀之依據。
  2. 如申請專利範圍第1項所述之方法,其中,於該步驟(C)中,該資料降維法係用來代表降低該至少一可讀性指標彼此之間的共線性之方法。
  3. 如申請專利範圍第2項所述之方法,其中,於該步驟(D)中,該非線性算則係用來代表以非線性方式來組合該至少一閱讀理解構面之方法。
  4. 如申請專利範圍第1項所述之方法,其中,於該步驟(A)中,該語料庫係包含中文詞庫、漢語平衡語料庫、及中文句結構樹資料庫,以作為中文字詞句特性之比對依據。
  5. 如申請專利範圍第1項所述之方法,其中,於該步驟(A)中,該至少一可讀性指標係包含詞彙指標、語意指標、句法指標、以及文章凝聚指標之指標類別,以據此找出該閱讀理解構面。
  6. 如申請專利範圍第5項所述之方法,其中,於該步驟(C)中,該至少一閱讀理解構面係表示透過該資料降維法,而歸納同一指標類別之該至少一可讀性指標,且每個閱讀理解構面係被表示成同一指標類別之該至少一可讀性指標的線性組合。
  7. 一種以資料降維法以及非線性算則建構一中文文本可讀性數學模型之系統,包含:一斷詞單元,接收適合某一閱讀能力之至少一中文文本,並與一語料庫之中文字詞句特性進行比對,以產生每一中文文本之複數個斷詞,且對應產生該複數個斷詞之詞性標記,其中,每一中文文本皆具有至少一可讀性指標;一可讀性指標分析單元,接收該複數個斷詞及該複數個斷詞對應之詞性標記,以透過計算產生該至少一可讀性指標之指標數值;一智慧型算則單元,接收該至少一可讀性指標,以透過該資料降維法找出至少一閱讀理解構面,並根據該至少一閱讀理解構面,使用該非線性算則建構該中文文本可讀 性數學模型,以作為判斷一待測中文文本是否適合該某一閱讀能力閱讀之依據,其中,該至少一閱讀理解構面係代表該至少一可讀性指標之線性組合。
  8. 如申請專利範圍第7項所述之系統,其中,該資料降維法係用來代表降低該至少一可讀性指標彼此之間的共線性之方法。
  9. 如申請專利範圍第8項所述之系統,其中,該非線性算則係用來代表以非線性方式來組合該至少一閱讀理解構面之方法。
  10. 如申請專利範圍第7項所述之系統,其中,該語料庫係包含中文詞庫、漢語平衡語料庫、及中文句結構樹資料庫,以作為中文字詞句特性之比對依據。
  11. 如申請專利範圍第7項所述之系統,其中,該至少一可讀性指標係包含詞彙指標、語意指標、句法指標、以及文章凝聚指標之指標類別,以據此找出該閱讀理解構面。
  12. 如申請專利範圍第11項所述之系統,其中,該至少一閱讀理解構面係表示透過該資料降維法,而歸納同一指標類別之該至少一可讀性指標,且每個閱讀理解構面係被表示成同一指標類別之該至少一可讀性指標的線性組合。
TW101123917A 2012-07-03 2012-07-03 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 TW201403354A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW101123917A TW201403354A (zh) 2012-07-03 2012-07-03 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
US13/933,248 US20140012569A1 (en) 2012-07-03 2013-07-02 System and Method Using Data Reduction Approach and Nonlinear Algorithm to Construct Chinese Readability Model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101123917A TW201403354A (zh) 2012-07-03 2012-07-03 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法

Publications (1)

Publication Number Publication Date
TW201403354A true TW201403354A (zh) 2014-01-16

Family

ID=49879182

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101123917A TW201403354A (zh) 2012-07-03 2012-07-03 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法

Country Status (2)

Country Link
US (1) US20140012569A1 (zh)
TW (1) TW201403354A (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598573B (zh) * 2015-01-13 2017-06-16 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及系统
CN108090241B (zh) 2016-11-23 2021-08-17 财团法人工业技术研究院 连续性工艺的趋势变量鉴定方法与系统
CN106844625B (zh) * 2017-01-17 2020-07-28 清华大学 银行运维规章制度变更的合规性查验方法及装置
CN107038152A (zh) * 2017-03-27 2017-08-11 成都优译信息技术股份有限公司 用于图纸排版的文本断句方法及系统
CN107273357B (zh) * 2017-06-14 2020-11-10 北京百度网讯科技有限公司 基于人工智能的分词模型的修正方法、装置、设备和介质
CN107291692B (zh) * 2017-06-14 2020-12-18 北京百度网讯科技有限公司 基于人工智能的分词模型的定制方法、装置、设备和介质
CN107273356B (zh) * 2017-06-14 2020-08-11 北京百度网讯科技有限公司 基于人工智能的分词方法、装置、服务器和存储介质
CN107977362B (zh) * 2017-12-11 2021-05-04 中山大学 一种用于中文文本定级以及计算中文文本难度评分的方法
CN107977449A (zh) * 2017-12-14 2018-05-01 广东外语外贸大学 一种用于简体中文可读性测度的线性模型方法
CN112989974A (zh) * 2021-03-02 2021-06-18 赵宏福 自动分词拼写的文本识别方法及装置、存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7212963B2 (en) * 2002-06-11 2007-05-01 Fuji Xerox Co., Ltd. System for distinguishing names in Asian writing systems
US7684987B2 (en) * 2004-01-21 2010-03-23 Microsoft Corporation Segmental tonal modeling for tonal languages
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US20050289463A1 (en) * 2004-06-23 2005-12-29 Google Inc., A Delaware Corporation Systems and methods for spell correction of non-roman characters and words
US20060048055A1 (en) * 2004-08-25 2006-03-02 Jun Wu Fault-tolerant romanized input method for non-roman characters
TWI258731B (en) * 2004-11-04 2006-07-21 Univ Nat Cheng Kung Chinese speech synthesis unit selection module and method
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
US8731901B2 (en) * 2009-12-02 2014-05-20 Content Savvy, Inc. Context aware back-transliteration and translation of names and common phrases using web resources

Also Published As

Publication number Publication date
US20140012569A1 (en) 2014-01-09

Similar Documents

Publication Publication Date Title
TWI608367B (zh) 中文文本可讀性計量系統及其方法
TW201403354A (zh) 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
US20230196127A1 (en) Method and device for constructing legal knowledge graph based on joint entity and relation extraction
US9779085B2 (en) Multilingual embeddings for natural language processing
CN111104789B (zh) 文本评分方法、装置和系统
Gomaa et al. Arabic short answer scoring with effective feedback for students
Walia et al. An efficient automated answer scoring system for Punjabi language
Dou et al. Improving word embeddings for antonym detection using thesauri and sentiwordnet
CN115357719A (zh) 基于改进bert模型的电力审计文本分类方法及装置
Li et al. Enhanced hybrid neural network for automated essay scoring
Wang et al. A prompt-independent and interpretable automated essay scoring method for Chinese second language writing
Nassiri et al. Approaches, methods, and resources for assessing the readability of arabic texts
Chang et al. Automated Chinese essay scoring based on multilevel linguistic features
Zhao Research and design of automatic scoring algorithm for English composition based on machine learning
CN115859962B (zh) 一种文本可读性评估方法和系统
Duan et al. Automatically build corpora for chinese spelling check based on the input method
Wolk et al. Unsupervised tool for quantification of progress in L2 English phraseological
Xu et al. Using Coh-Metrix to Analyze Chinese ESL Learners’ Writing
Chen et al. Design of exercise grading system based on text similarity computing
Ouyang et al. MOOC opinion mining based on attention alignment
CN116562278B (zh) 一种词语相似性检测方法及系统
Pacol Sentiment Analysis of Students’ Feedback on Faculty Online Teaching Performance Using Machine Learning Techniques
Peng et al. Readability assessment for Chinese L2 sentences: an extended knowledge base and comprehensive evaluation model-based method
CN113657097B (zh) 一种摘要事实一致性的评估验证方法及其系统
Arafat et al. Automated essay grading with recommendation