TWI464700B

TWI464700B - 信用違約預測方法與裝置

Info

Publication number: TWI464700B
Application number: TW100139654A
Authority: TW
Inventors: yang cheng Lu; Jen Nan Chen; yu chen Wei
Original assignee: Univ Ming Chuan
Priority date: 2011-10-31
Filing date: 2011-10-31
Publication date: 2014-12-11
Also published as: TW201317917A; CN103093280A

Description

信用違約預測方法與裝置

本發明係關於一種違約預測方法與裝置，尤指一種信用違約預測方法與裝置。

企業無預警倒閉事件層出不窮，企業財務危機不只是單一層面的問題，更嚴重還會危及整個社會體系的運作，因此，提升企業違約機率預測之準確度已成為財務風險管理領域的重要議題。

信用風險(Credit Risk)是指因交易對手信用品質發生變化，導致銀行持有部位價值的改變，更甚者發生違約(Default)，即交易對手無意願或無法履行契約。而信用評分(Credit Scoring)為提供風險排序之相關資訊，信用評等等級良好的企業，僅係反映其償債能力較強、無法履行債務機率較低，故能有效區分出各公司的信用風險，除協助市場專業人士作融資或授信等財務決策，或使債務發行人及投資人都能更清楚掌握企業的債信狀況，亦能及時偵測出財務危機公司。

關於本領域之先前技術，中華民國新型專利M377655揭露一種具有智慧型企業營運風險評估系統之計算機，中國專利公開說明書CN1928905揭露一種企業危機預警系統主要通過對企業各種經營管理資訊的比較、分析和評價，判別企業目前的經營狀態是否進入危機，以及預測企業的未來是否會發生危機。以上兩篇雖皆以評估企業營運風險，但其並未使用與企業攸關的公開報導，以預測企業信用指標。另外，中華民專利I252987揭露一種可從大量資訊之中自動抽出應注意資訊的技術，其資訊來自於個人Web頁和佈告欄之發言的個人意見。因此，I252987其主要分析之標的為個人意見之公開內容，藉此指定關於該對象之個人評價(好評價/壞評價)，而非評估企業營運風險。過去財務危機預測之相關研究，大多採用財務報表等量化資訊進行研究，然而企業危機事件之徵兆往往隱藏在事件發生前之公開資訊中。然而，投資人普遍認為公開訊息為純雜訊之觀念，不具有內涵價值。

職是之故，發明人鑑於習知技術之缺失，乃經悉心試驗與研究，並一本鍥而不捨之精神，發明出本案「信用違約預測方法與裝置」，以下為本案之簡要說明。

本發明納入新聞資訊內涵做為提升企業信用評等之預測能力，並證實已公開的新聞資訊內涵可增進企業信用風險指標之預測能力本發明之一面向係提供一種預測信用違約的方法，包含下列步驟：利用一第一演算法篩選一文件的複數特徵詞(或特徵字)；利用一第二演算法產生複數經篩選的該等特徵詞(或特徵字)的複數權重；利用該等權重以及一第三演算法產生至少一量化指標；從財務資料以及該量化指標篩選複數變數；以及利用該等變數以及一第四演算法產生一預測信用違約指數。

本發明之另一面向係提供一種預測信用違約的裝置，包含：一計算單元，用以篩選一文件的複數特徵詞(或特徵字)，產生該等特徵詞(或特徵字)的複數權重，產生至少一量化指標，篩選財務資料以及該量化指標的複數變數，以及產生一預測信用違約指數；一輸出單元，輸出由該計算單元所得的該等特徵詞(或特徵字)與一權重表；以及一儲存單元，儲存由該輸出單元而來的該等特徵詞(或特徵字)與該權重表，其中該等特徵詞(或特徵字)與該權重表係由複數演算法篩選而來。

本發明之又一面向係提供一種預測信用違約的方法，包含下列步驟：提供財務資料；提供至少一量化指標；篩選財務資料以及該量化指標的複數變數；以及利用該等變數產生一預測信用違約指數。

本發明之再一面向係提供一種產生一量化指標的方法，包含下列步驟：為一特定目的而取得之一文件提供複數特徵字；為該等特徵字分別賦予複數權重；以及以該等權重為基礎，為該文件產生至少一量化指標。

為了易於說明，本發明得藉由下述之實施例及圖示而得到充分瞭解，並使得熟習本技藝之人士可以據以完成之，然本發明之實施型態並不限制於下列實施例中。

第一圖 為文本量化指標試算之流程圖。首先先進行文本蒐集(步驟11)，並進行前處理(步驟12)，前處理包含結構化處理(步驟121)以及斷詞(步驟122)。接著利用演算法進行特徵詞的篩選(步驟131)或者直接由專家篩選分類特徵詞(步驟132)。由演算法或者專家篩選出的特徵詞接著利用演算法進行特徵詞權重計算(步驟14)，然後彙整不同演算法篩選過的分類特徵詞與權重列表(步驟15)，最後利用演算法進行文本量化指標試算(步驟16)。

第二圖 為信用違約預測之流程圖。首先蒐集文本與建構量化指標(步驟21)以及蒐集其他量化資訊(步驟22)，該等量化資訊可包括但並不限於如財務比率、公司治理、總體經濟或其它。之後篩選納入模型分析之變量(步驟23)，篩選方式可利用經驗法則自行篩選或者利用統計方法篩選。接著利用二元羅吉斯迴歸或者穩健羅吉斯迴歸公式進行信用違約預測(步驟24)，最後進行模型績效評估(步驟25)。

第三圖 為預測信用違約的裝置3，該裝置3包含計算單元31、輸出單元32、及儲存單元33。該計算單元31用以篩選一文件的複數特徵詞，產生該等特徵詞的複數權重，產生複數量化指標，篩選財務資料以及該等量化指標的複數變數，以及產生一預測信用違約指數。輸出單元32輸出由該計算單元所得的該等特徵詞與一權重表。而儲存單元33儲存由該輸出單元而來的該等特徵詞331與該權重表332，其中該等特徵詞與該權重表係由複數演算法篩選而來。

以下開始介紹第一圖與第二圖之詳細步驟及相關之演算法。

一、用演算法進行特徵詞篩選：

用演算法進行特徵詞篩選：特徵詞篩選可應用無母數之卡方獨立性檢定進行，在此係指某一詞彙t對某一類別i之獨立性(正交性)缺乏程度，獨立性缺乏程度愈高，表示此詞彙t對此類別i相當重要。特徵詞的計算方面經由卡方測試所挑選出的語詞比直接計算頻率的效果更好，故為提高分類詞彙之鑑別度，可利用卡方獨立性檢定以過濾不具代表性之詞彙，再經由過濾後所剩下的詞彙，篩選出具代表性之分類特徵詞。卡方獨立性檢定統計量如下：

以下以樂觀與悲觀兩類分類特徵詞，說明卡方獨立性檢定之意涵。其中，i =1代表樂觀文件之類別；i =0代表悲觀文件之類別；A 為類別i 中包含詞彙t 之詞頻；B 為類別i 中不包含詞彙t 之詞頻；C 為不在類別i 中包含詞彙t 之詞頻；D 為不在類別i 中不包含詞彙t 之詞頻；N 為所有詞彙之詞頻加總。每一類別中所有出現的情緒詞，皆須計算其卡方值，最後將低於門檻值的不顯著情緒詞剔除後，留下值高者作為代表樂悲觀情緒詞之擴充詞。

二、應用演算法進行特徵詞權重計算：

(一)　條件機率概念：

特徵詞權重計算利用條件機率計算方程式，計算分類特徵詞之權重，其中分類特徵詞之權重計算方式如下：

以下以樂觀與悲觀兩類分類特徵詞，說明其權重之計算概念。其中，β _ip 代表第i 個情緒詞的樂觀權重；tf _ip 代表第i 個情緒詞在樂觀新聞的詞頻；TF _p 代表樂觀新聞中所有情緒詞的詞頻；Pr (tf _ip |TF _p )代表樂觀新聞中第i 個情緒詞佔所有情緒詞的比率；tf _iA 代表第i 個情緒詞在所有新聞的詞頻；TF _A 代表所有情緒詞的總詞頻；Pr (tf _iA |TF _A )代表所有新聞中第i 個情緒詞佔所有情緒詞的比率。悲觀詞權重計算方式如下：

其中，β _in 代表第i 個情緒詞的悲觀權重；tf _in 代表第i 個情緒詞在悲觀新聞的詞頻；TF _n 代表悲觀新聞中所有情緒詞的詞頻；Pr (tf _in |TF _n )代表悲觀新聞中第i 個情緒詞佔所有情緒詞的比率；tf _iA 代表第i 個情緒詞在所有新聞的詞頻；TF _A 代表所有情緒詞的總詞頻；Pr (tf _iA |TF _A )代表所有新聞中第i 個情緒詞佔所有情緒詞的比率。

(二)熵值(entropy)權重法：

訓練階段：本發明在訓練階段引用計量熵值觀念，熵值可用來估算每一個訊息所隱含之資訊量，並計算出訊息之相對權重，而熵值權重法是引用熵值觀念，來求取各特徵詞間的相對權重。作法為首先經由每一個危機特徵詞對各公司之量測值所求算出的熵值，來說明該特徵詞對分類決策中所能傳遞(transmit)之決策資訊(decision information)的程度。然後再比較各特徵詞的熵值，計算出彼此間的相對重要性，即得到該特徵詞的相對權重值。

由於熵值權重是利用評估矩陣表中的資訊所求得，故屬於客觀權重。熵值權重之計算步驟如下：【步驟一】計算各特徵詞之熵值e_j

k =(1/lnm )

其中，m 為公司數量，p _ij 為第j 個特徵詞在第i 公司發生之機率，e _ij 為第i 家公司在第j 個特徵詞上之熵值。

【步驟二】計算第i家公司在各特徵詞間之相對客觀權重w _ij

W _ij =(1-e _ij )/n -Σe _ij

其中，n 為特徵詞數量。在危機與非危機兩類別樣本中，各特徵詞皆可計算出一相對客觀權重值。

測試階段：將測試期間每一篇文本中之詞彙，分別與兩類特徵詞群相對照，抓取相同特徵詞的相對客觀權重值，並且藉由熵值符合數學上累加原則(可加性)之特性，將所有相對客觀權重值累加，求得權重值與類別的相關強度。

(三)專家篩選與應用演算法篩選之特徵詞之列表：

礙於篇幅考量，僅列出部分特徵詞供參酌。

三、文本量化指標試算方法

(一)訊息揭露程度：

若某特定日期之新聞報導與個股有密切關係，當公司相關報導在特定日期之「新聞標題」或是「內文第一段」出現關鍵字時，即將該日期之虛擬變數標記為1，最後加總估計期內有幾天個股的相關新聞在「新聞標題」或是「內文第一段」出現公司關鍵字作為公開訊息揭露程度之衡量。Media 之計算如下：

其中i 代表股票，t 為時間，Media _it 表示第i 檔股票在第t 天的訊息揭露程度，n=1...N，表示第t 天有幾篇新聞提到該公司的關鍵字，n 篇新聞可能包括不同報社或是不同記者，NEWS _i _, _t _, _n 為第i 檔股票在第t 天中之第n 篇新聞是否有提到公司關鍵字的虛擬變數，當公司在標題或文章的第一段被提及則記為1，若沒有則計為零。

考量新聞報導資訊揭露之可能性，亦可將此變量之建構概念擴充為以下幾種類型：僅考慮公司名稱是否出現在標題與內文第一段，考慮公司名稱是否出現在標題與內文，考慮該公司名稱是否在當天的新聞媒體有曝光(僅考慮是否曝光，不在細分名稱曝光方式)。

(二)　財務危機發生率強度指標：

每一家樣本公司之財務危機發生率強度，係由該樣本公司之財務危機詞發生權值與非財務危機詞發生權值交互比對而來，因此本發明利用財務危機詞權值對非財務危機詞權值之相對重要性，定義出評估該公司文詞語意中的財務危機發生強度之衡量指標，計算方法如下：

其中，為第i 家公司在第j 個財務危機特徵詞上的詞頻；為第j 個財務危機特徵詞的權重；為第i 家公司在第k 個非財務危機特徵詞上的詞頻；為第k 個非財務危機特徵詞的權重，特徵詞權重計算，可搭配使用貝式條件機率權重法或熵值權重法。當危機群之相對財務危機發生率強度指標大於非危機群，即預測此公司發生財務危機之機率大；反之，則預測此公司發生財務危機機率小。

(三)　公開新聞之淨樂觀程度：

本發明建立個股中文公開傳媒報導之淨樂觀程度(NSR )，可定義如下：

若考量特徵詞之權重，則此指標可調整如下：

若不經過斷詞處理，則該指標可調整如下：

其中為第i 間公司在第j 個樂觀詞詞頻數，為第j 個樂觀詞的權重，為第i 間公司在第k 個悲觀詞詞頻數，為第k 個悲觀詞的權重，TF _i 為該篇新聞斷詞後之總詞頻。

四、信用違約預測方法：

(一)　二元羅吉斯迴歸(Binary Logistic Regression,簡稱LR)

Logit模型是處理二元因變數(dichotomous dependent variable)問題的多元量化分析方法，其反應函數呈曲線型態，為S型或倒S型，而反應函數機率值介於0與1之間。

羅吉斯迴歸分析之目的有二，一在求取具有顯著解釋能力之自變數，另一則是透過所建構之模型來預測財務危機發生之機率。本文所使用之二元羅吉斯迴歸模型如下：

其中，y _i 為實際觀測到之反應變數，y _i =1時表示財務危機事件發生，y _i =0時表示財務危機事件未發生；y ^* _i 為無法觀測之隱藏變數(latent variable)；α 為截距項；x _i 為第i 家公司之解釋變數；β 為解釋變數之敏感度參數；D _i 為第i 家公司之虛擬變數(dummy)，D _i =1時表示D _i 屬於第i 家公司，D _i =0時表示D _i 不屬於第i 家公司；γ 為虛擬變數之敏感度參數；ε _i 為第i 家公司解釋(虛擬)變數之隨機誤差項。進一步表達成羅吉斯模型(logit model)，其模型如下所示：

P ( y _i =1| x _i , D _i )= P [ α + βx _i + γD _i + ε _i >0]

= P [ ε _i >-( α + βx _i + γD _i )]

= P [ ε _i α + βx _i + γD _i ]

其中，假設ε _i 服從羅吉斯分配(logit distribution)，其期望值為0，變異數為π² /33.29。

因此，可將其表達如下：

其中P 表示第i 公司發生財務危機的機率測度，其為介於0與1間之實數。

欲估計財務危機事件發生機率，必須先利用最大概似估計法(MLE)求算出估計參數與，而其N 個觀察值的概似函數可寫為：

將概似函數取對數後，可得對數概似函數如下：

透過極大化即可估得參數之最大概似估計值，進而求得財務危機事件發生機率之估計值。

(二)　穩健羅吉斯迴歸(Robust Logistic Regression,RLR)：

為處理極端值的迴歸方法，是將傳統之Logit Model加入一個處理離群值的方法，即Robust Regression，而傳統之Robust Regression方法是將找到的離群值剔除，而本發明以選取誤差值中位數為處理離群值之重點，減低離群值對於估計結果產生重大之影響，進而提升估計準確性。RLR之估計步驟如下：

1.　隨機選取所有樣本資料的80%作為樣本內資料(in sample)，接下來的估計步驟皆針對樣本內資料來進行。

2.　從樣本內資料任意選用k+1(本發明選取所有樣本內資料數的1/3為起始樣本數量)個觀察值，以Logit Model估計得，並以此計算所有N個觀察值的預測值：

接著計算預測觀察值的正確機率p ^(k ⁺ ¹ ⁾ ^, ⁱ ：

對應著正確機率，也可以計算觀察值的錯誤機率e ^(k ⁺ ¹ ⁾ ^, ⁱ (類似殘差的概念)為：

e ⁽ ^k ^+1), ⁱ =1- p ⁽ ^k ^+1), ⁱ

將這些e ^(k ⁺ ^1),i 後，由小排到大：

e ⁽ ^k ^+1),1 < e ⁽ ^k ^+1),2 <...< e ⁽ ^k ^+1), ^N

再取出這些e ^(k ⁺ ^1),i 的中位數，並令其為e ^(k ⁺ ^1),med

3.　進行步進搜尋演算法(Forward Search Algorithm)。多增加一個觀察值，即取用k +2 個觀察值，但這k+2個觀察值是步驟1中e ⁽ ^k ⁺ ¹ ⁾ ^,i 排序後最小的k +2 個觀察值(代表選用殘差最小的k+2的觀察值，等於是排除了離群值)，即e ⁽ ^k ⁺ ¹ ⁾ ^,1 ,e ⁽ ^k ⁺ ¹ ⁾ ^, ² ...e ⁽ ^k ⁺ ¹ ⁾ ^,k ⁺ ² 這k +2 個觀察值，利用這k +2 個觀察值再進行估計，得。重複步驟1中對所有N個觀察值的e ^(k ⁺ ²⁾ ^,i 進行排序，取出中位數，並令其為e ^(k ⁺ ^2),med 。

4.　重複步驟2，再增加一個觀察值，取步驟2中e ⁽ ^k ⁺ ^2),i 排序後最小的k +3 個觀察值(代表選用殘差最小的k+3的觀察值，等於是排除了離群值)，再進行估計而得，同樣地再對所有N個觀察值的e ⁽ ^k ⁺ ^3),i 進行排序，取出中位數，並令其為e ⁽ ^k ⁺ ³ ^),med 。如此逐次加入一個觀察值，直到所有觀察值都被加入為止，如此可再得到，以及每次的e ⁽ ^k ⁺ ^1),i 之中位數e ⁽ ^k ⁺ ^4),med ,e ⁽ ^k ⁺ ^5),med ,...,e ^N,med 。

5.　計算下式：e^*,med =min[e ^(k ⁺ ^1)，med ,e ^(k ⁺ ^2),med ,...e ^N,med ]，e ^* ^,med 所配對的就是我們最後要的。

可重複步驟1至步驟5，但取用不同的k +1 個觀察值。

五、本發明實證分析：

( 一)資料敘述性統計分析：本發明依據2001年至2009年間，財務危機發生前一季至前四季之財務危機公司及非危機公司的公開新聞資訊變數、財務結構變數、公司治理及處理效果變數與總體經濟變數，所作之敘述統計及平均數差異檢定，列於表4至表9。納入公開新聞資訊變數方面，本發明顯示財務危機發生率強度(ITDC)及淨樂觀程度指標(NSR)於各季皆達1%之顯著水準，換言之，透過本發明過程所建立的公開新聞量化指標，可以發現公司之危機訊號。

財務結構變數方面，流動性分析變數之流動比率、速動比率、現金流量比率；償債力分析變數之負債比率、利息保障倍數；經營效能分析變數之總資產週轉率、每股盈餘；且獲利能力分析變數之毛利率、稅前淨利率、總資產報酬率、淨值報酬率等十一項變數，在前一季至前四季中，財務危機公司與非危機公司之間的差異性均達到1%的顯著性，結果顯示這些變數在財務危機公司與非危機公司之間具有差異性。

在公司治理方面，參與管理、調降財測次數、財務主管或會計師連續更換、財報品質以及董監事持股比例等五項變數，在前一季至前四季中，均達1%之顯準水準。

公司治理處理效果方面，董監事持股程度、董監事質押程度、持股比率*持股程度和質押比率*質押程度，在前一季至前四季中也都達1%之顯著水準。

最後，總體經濟變數方面，並無發現任何對於財務危機公司與非危機公司間，具有顯著性結果之變數。

(二)　迴歸模型分析：

模型1：各類公開訊息量化指標

模型2：公開訊息量化指標+流動性分析變數

模型3：公開訊息量化指標+償債力分析變數

模型4：公開訊息量化指標+經營效能分析變數

模型5：公開訊息量化指標+獲利能力分析變數

模型6：公開訊息量化指標+公司治理變數

模型7：公開訊息量化指標+公司治理處理效果變數

模型8：公開訊息量化指標+總體經濟變數

模型9：公開訊息量化指標+「樣本平均數差異性檢定」達5%顯著水準之變數

模型10：公開訊息量化指標+「模型1至模型8中參數檢定」各季同時達5%之顯著變數

上述模型1至模型10其實證結果整理於表10至表19。由各類公開訊息量化指標所構建之模型1，可觀察出財務危機發生強度指標(ITDC)變數及公開訊息淨樂觀程度(NSR)變數，不論在危機發生前哪一季皆至少達5%顯著水準。

由公開訊息量化指標加上流動性分析變數所構建之模型2，其實證結果可觀察出公開訊息量化指標在危機發生前一季到前四季至少達5%顯著水準；流動比率在危機發生前三季和前四季至少達5%顯著水準；現金流量比率在危機發生前一季到前四季至少達5%顯著水準。

由公開訊息量化指標加上償債力分析變數所構建之模型3，其實證結果可觀察出公開訊息量化指標在危機發生前一季到前四季皆達1%顯著水準；而負債比率在危機發生前一季到前四季均達1%之顯著水準。

由公開訊息量化指標加上經營效能分析變數所構建之模型4，其實證結果可觀察出公開訊息量化指標在危機發生前一季到前四季均達1%顯著水準；總資產週轉率、每股盈餘、淨值週轉率等三項變數，在危機發生前一季到前四季各達5%之顯著性。

由公開訊息量化指標加上獲利能力分析變數所構建之模型5，其實證結果可觀察出公開訊息量化指標在危機發生前一季到前四季均達1%顯著水準；淨值報酬率在危機發生前一、三、四季各達10%顯著水準；毛利率在危機發生前第四季達1%顯著水準；營業淨利率在危機發生前一季達10%顯著水準；稅前淨利率在危機發生前二季達10%顯著水準外，其餘變數均未達顯著水準。

由公開訊息量化指標加上公司治理變數所構建之模型6，其實證結果可觀察出公開訊息量化指標不論在哪一季皆至少達1%之顯著水準；解釋變數中，財報資訊品質在前二季和前三季具顯著性；另外，董監事持股比率在前一季到前四季達1%顯著水準，其餘變數均未達顯著水準。

由公開訊息量化指標加上公司治理處理效果變數所構建之模型7，其實證結果可觀察出公開訊息量化指標不論在哪一季皆達1%之顯著水準；在解釋變數中，危機發生前一季到前四季均未達顯著水準。

由公開訊息量化指標加上總體經濟變數所構建之模型8，其實證結果可觀察出公開訊息量化指標不論在哪一季皆至少達1%之顯著水準；總體經濟變數方面，M1B年增率在危機發生前一季及前三季達顯著水準，IPI年增率在危機發生前第一、二季達顯著水準外，其餘解釋變數均未達顯著水準。

模型9為公開訊息量化指標加上樣本平均數差異性檢定均達5%顯著水準之變數所構建的模型，其實證結果可觀察出公開訊息量化指標在危機發生前一、二、四季達5%顯著水準；解釋變數裡，除負債比率在危機發生前一季到前四季均至少達5%之顯著水準；流動比率、速動比率及現金流量比率在前四季皆達5%之顯著水準；毛利率在第四季達10%之顯著水準；總資產報酬率在前三季達10%之顯著水準；董監事持股比率在危機發生前二、三季達10%之顯著水準外，其餘變數則不具有顯著性。

由公開訊息量化指標加上模型1至模型8中參數檢定實證結果中各季同時達5%之顯著變數所建構的模型10，其實證結果可觀察出公開訊息量化指標在危機發生前第一、二、四季達5%之顯著水準。其他變數方面，則以負債比率及董監事持股比率在危機發生不論在哪一季皆至少達5%之顯著水準；現金流量比率在危機發生前四季達5%顯著水準；每股盈餘在危機發生前三季以及前四季達5%顯著水準；其餘變數皆無達到顯著標準。

(三)　財務危機預警效能之驗證與比較：

1.　資料敘述性統計分析：本發明以TCRI指標為基礎，驗證納入公開訊息之資訊內涵，是否能提升TCRI之配適與預測能力。本發明蒐集2001年至2009年間，財務危機發生前一季至前四季之財務危機公司及非危機公司的TCRI指標進行以下分析，平均數差異檢定結果可參見表20。TCRI指標在前一季至前四季中，財務危機公司與非危機公司之間的差異性均達到1%的顯著性，結果顯示TCRI在財務危機公司與非危機公司之間具有差異性。

2.　迴歸模型分析：

模型11：TCRI指標

模型12：公開訊息揭露程度(Media )+TCRI指標

模型13：公開新聞之淨樂觀程度(NSR )+TCRI指標

模型14：財務危機發生率強度指標(ITDC )+TCRI指標

模型15：公開新聞資訊變數(Media 、NSR 與ITDC )+TCRI指標

以下檢測TCRI指標對危機發生與否之解釋能力，並以TCRI為基礎(模型11)，分別納入各類公開訊息量化指標(模型10~模型15)，檢測納入新聞資訊之解釋能力，迴歸分析匯整於表21。模型11檢測TCRI指標之解釋力，檢測發現TCRI指標不論在危機發生前一至四季，解釋力均達1%之顯著水準。由公開訊息揭露程度(Media)加上TCRI指標所構建之模型12，其實證結果可觀察出TCRI指標不論在危機發生前一至四季均達1%之顯著水準。由公開新聞之淨樂觀程度(NSR)加上TCRI指標所構建之模型13，其實證結果可觀察出淨樂觀程度(NSR)和TCRI指標不論危機發生前一至四季均達1%之顯著水準。由財務危機發生率強度指標(ITDC)加上TCRI指標所構建之模型14，其實證結果可觀察出財務危機發生率強度指標(ITDC)和TCRI指標不論在危機發生前一至四季均達1%之顯著水準。由公開訊息量化指標加上TCRI指標所構建之模型15，其實證結果可觀察出TCRI指標仍達1%之顯著水準；財務危機發生率強度指標(ITDC)在危機發生前二季、前三季和前四季至少達5%之顯著水準；淨樂觀程度(NSR)在危機發生前二季達5%之顯著水準，公開訊息揭露程度(Media)在危機發生前四季達5%之顯著水準。

本發明確認具有及時性之公開傳媒新聞報導中，確實隱含未來企業財務危機發生之攸關訊息，可作為投資人或政府單位進行監督及管理之風險評估依據；再者，經由適當的文詞語意探勘技術與不同演算法建立之關鍵詞，構建量化之企業財務危機發生率強度指標，確實有助於提升企業財務危機預警模型之預測效能。

實施例：

1.　一種預測信用違約的方法，包含下列步驟：利用一第一演算法篩選一文件的複數特徵詞；利用一第二演算法產生複數經篩選的該等特徵詞的複數權重；利用該等權重以及一第三演算法產生至少一量化指標；從財務資料以及該量化指標篩選複數變數；以及利用該等變數以及一第四演算法產生一預測信用違約指數。

2.　根據實施例1所述的方法，其中該第一演算法係使用如下公式：

其中t 代表一詞彙，i =1代表該文件的一第一類別，i =0代表該文件的一第二類別，χ ² (t ,i )代表t與i的卡方檢定值，A 為i 中包含該詞彙t 之詞頻，B 為i 中不包含該詞彙t 的詞頻，C 為不在i 中包含該詞彙t 的詞頻，D 為不在i 中不包含該詞彙t 的詞頻，而N 為所有詞彙之詞頻加總。

3.　根據實施例1-2所述的方法，其中該第二演算法係使用如下公式：

其中β _ip 代表第i 個情緒詞之一分類特徵詞的一權重，tf _ip 代表第i 個情緒詞之該分類特徵詞的詞頻，TF _p 代表樂觀新聞中所有情緒詞的詞頻，Pr (tf _ip |TF _p )代表屬於該分類特徵詞之新聞中第i 個情緒詞佔所有情緒詞的比率，tf _iA 代表第i 個情緒詞在所有新聞的詞頻，TF _A 代表所有情緒詞的總詞頻，而Pr (tf _iA |TF _A )代表所有新聞中第i 個情緒詞佔所有情緒詞的比率。

4.　根據實施例1-3所述的方法，其中該量化指標係選自一公開訊息揭露程度(Media )，一財務危機發生率強度指標(ITDC )、以及一淨樂觀程度(NSR )，其中：

i 代表股票，t 代表時間，Media _it 代表第i 檔股票在第t 天的訊息揭露程度，n為第t 天提到一公司的關鍵字的新聞數，NEWS _i _, _t _, _n 為第i 檔股票在第t 天中之第n 篇新聞的一變數，當新聞標題或文章的第一段提及該公司時，該變數為1，而當新聞標題或文章的第一段未提及該公司時，該變數為0；

為第i 家公司在第j 個財務危機特徵詞上的詞頻，為第j 個財務危機特徵詞的權重，為第i 家公司在第k 個非財務危機特徵詞上的詞頻，而為第k 個非財務危機特徵詞的權重；以及

其中為第i 間公司在第j 個樂觀詞詞頻數，為第j 個樂觀詞的權重，為第i 間公司在第k 個悲觀詞詞頻數，為第k 個悲觀詞的權重，而TF _i 為該篇新聞斷詞後之總詞頻。

5.　根據實施例1-4所述，其中該第四演算法係選自二元羅吉斯迴歸公式以及穩健羅吉斯迴歸公式。

6.　一種預測信用違約的裝置，包含：一計算單元，用以篩選一文件的複數特徵詞，產生該等特徵詞的複數權重，產生至少一量化指標，篩選財務資料以及該量化指標的複數變數，以及產生一預測信用違約指數；一輸出單元，輸出由該計算單元所得的該等特徵詞與一權重表；以及一儲存單元，儲存由該輸出單元而來的該等特徵詞與該權重表，其中該等特徵詞與該權重表係由複數演算法篩選而來。

7.　根據實施例6所述的裝置，其中該等特徵詞與該權重表係由一卡方檢定和一條件機率以及該卡方檢定和一熵值權重法計算並篩選。

8.　根據實施例6-7所述的裝置，其中該卡方檢定係使用如下公式：

其中t 代表一詞彙，i =1代表一文件的一第一類別，i =0代表該文件的一第二類別，A 為i 中包含該詞彙t 之詞頻，B 為i 中不包含該詞彙t 的詞頻，C 為不在i 中包含該詞彙t 的詞頻，D 為不在i 中不包含該詞彙t 的詞頻，而N 為所有詞彙之詞頻加總，且其中該條件機率係使用如下公式：

9.　一種預測信用違約的方法，包含下列步驟：提供與企業信用違約相關的量化資訊；提供至少一文本量化指標；篩選量化資訊以及該文本量化指標的複數變數；以及利用該等變數產生一預測信用違約指數。

10.一種產生一量化指標的方法，包含下列步驟：為一特定目的而取得之一文件提供複數特徵字；為該等特徵字分別賦予複數權重；以及以該等權重為基礎，為該文件產生至少一量化指標。

11、12、121、122、131、132、14、15、16、21、22、23、24、25．．．步驟

3．．．預測信用違約的裝置

31．．．計算單元

32．．．輸出單元

33．．．儲存單元

331．．．複數特徵詞

332．．．權重表

第一圖：本發明文本量化指標試算之流程圖。

第二圖：本發明信用違約預測之流程圖。

第三圖：本發明預測信用違約的裝置。