TW201911812A

TW201911812A - 影像串流服務的障礙定位系統及維運方法

Info

Publication number: TW201911812A
Application number: TW106126675A
Authority: TW
Inventors: 王嚴毅; 詹志嘉; 黃志盟; 楊宜澤; 李昀潔
Original assignee: 中華電信股份有限公司
Priority date: 2017-08-08
Filing date: 2017-08-08
Publication date: 2019-03-16
Also published as: TWI662809B

Abstract

本發明係揭露一種影像串流服務的障礙定位系統及維運方法，每當有新的障礙事件區域定位問題待處理，應用事前訓練及優化之模型即可自動產出二元化障礙區域定位資訊，並藉由多種特徵參數集的輸入，提供維運單位可依時效性或精確性需求分別選取所需維護資訊，以進行設備維護修理。另再依據目前與過去之障礙區統計值相比，進行維修優先權方案決策資訊產出，以達維護資源調用之最大效益。

Description

影像串流服務的障礙定位系統及維運方法

本發明屬於一種影像串流服務的障礙定位系統及維運方法，尤指一種利用設備品質量測、用戶申告、修復歷史紀錄、及人工測試等多種網際網路服務供應商(Internet Service Provider，ISP)業者之資料源來組合建立高維度參數數量之分類模型。

隨著網路寬頻服務的普及度提升與用戶的大規模增加，ISP業者之網路結構及元件也隨之大幅成長，造成障礙處理的困難度提升。

相反的為了便於管理調派維護人力，許多ISP業者均朝向扁平化維修體制之方向進行，因此能夠快速判斷障礙區域及調用適切人力物力相關資源加以維護，是ISP業者非常亟需的組織需求。

機器學習之應用，是一個逐漸受ISP業者重視之領域，早期主要是廣泛使用在電子商務領域作為推薦引擎及廣告之用途，近年如醫療科學、氣象預報等諸多領域亦為熱門之應用方式。

伴隨著巨量資料的應用越來越普及，以往ISP(Internet Service Provider)業者監控與管理端對端網路品質的方式，必須由以往的抽樣測試或購買建立監測模組的方式，邁入全域管理及監控的階段。

現行的各種障礙申告系統中，多數仍需由客服人員人工操作，目的在於可以詢問並記錄到詳細故障原因。但相對的缺點是在人工選擇申告原因代碼時，有時仍不免會發生誤選或不精確(如選擇原因設為不明或其他)的情形。此時，原始的障礙申告描述可發揮輔助分類之作用，彌補單純使用客服人員輸入的申告原因代碼資訊不足的部分。

一般而言，ISP的網路服務較常使用的是網狀結構，然而影像串流服務為減少傳輸資料量與反饋資料回報之間隔，通常會改以採用樹狀架構。

由於這種樹狀架構，對於各用戶終端設備來說，其資料傳輸路徑自影像伺服器到終端設備本身是固定的。當用戶在使用影像串流服務發生問題時，障礙點大致上也會落在此路徑之相關設備上。因此，對於單筆申告之障礙點分析，以往已可採用線性迴歸模型分析固定路徑上設備及相關資料，建立初略可信之障礙點判定模型。

然而要達到更高精準度之障礙定位及優先權決策要求，資料源的來源大幅增加後，一般線性迴歸模型不足以滿足ISP業者之維運處理需求，必須使用能處理高維度參數之非線性模型以進行作業。

本案發明人鑑於上述習用方式所衍生的各項缺點，乃亟思加以改良創新，並經多年苦心孤詣潛心研究後，終於成功研發完成本影像串流服務的障礙定位系統及維運方法。

為達上述目的，本發明提出提供一種影像串流服務的障礙定位系統及維運方法，以ISP業者所建立的各類綜合網管資訊，藉由高維度數量的特徵值取出及模型訓練的過程，藉以找出優化過後之最佳模型，並用此模型對於未來發生的障礙客戶根據其當時取得資料加以產生預估之分類處理資訊。另亦可提供調整影音串流服務維護之優先權決策方案，提升有限維護資源運用之效益。

利用ISP業者本身建立的設備及線路品質量測、用戶申告、修復歷史紀錄、及人工測試等各式資料來源，建立多種高維度特徵值組合之分類模型。日後每當有新的障礙事件產生，應用事前訓練過之高特徵值數量可適用非線性迴歸模型，即可依據當下的特徵值資料組合，依維護者時效性或正確性需求選擇該型式模型的預估判定障礙區域資訊，加以處理，並產出可協助調整維護優先權決策計畫方案，所定義之障礙區域係分為歸屬於客戶端(含用戶住家內迴路與終端設備)及歸屬於ISP端設備(含設備間迴路)兩大類，意指該障礙經本發明方法程序分析後可標定位於哪一部分發生障礙，提供ISP業者依其維護組織指派維修方式加以應用。

一種影像串流服務的障礙定位系統，其包括：資料來源模組，是以蒐集判斷障礙定位所需的複數型資訊源，是另包含服務品質管理單元，是包括應用層的服務品質資料，為各影像終端裝置的畫質等級及數值型品質指標；障礙申告管理單元，是包含影像服務之障礙申告相關資料，為申告原因、申告描述文字及人工預檢測後的測試代碼之內容；迴路品質診斷管理單元，是包括實體層的迴路品質測試資料及非標準型用戶迴路施工工法紀錄，為線路電氣特性估計值及最接近用戶端之ISP所屬交換局端設備紀錄與會大幅影響用戶使用距離之特殊工法紀錄如線路耦合(bundling)及光銅混合(G.fast)；寬頻網路監控單元，是包含ISP業者之各節點設備廠牌型號資料、設備告警代碼及告警代碼與內容之資訊。

特徵值抽取模組，是將障礙定位所需的各類型資訊根據其不同之來源系統特性加以抽取，以組成後續機器學習分析模組的輸入特徵參數群，並處理抽取資料來源模組中各單元之特徵值，是另包含服務品質管理特徵值抽取單元，是以取得近日之是否為4K以上高畫質用戶二元旗標值、影像串流服務品質指標、影像串流服務申訴機率；障礙申告管理特徵值抽取單元，是以取得影像串流服務申告原因代碼、申告描述文字筆記、人工診斷預測試代碼，為專業診斷人員進行初步人工測試後，所輸入之障礙原因代碼；迴路品質診斷管理特徵值抽取單元，是以取得數位用戶迴路多工接入設備(Digital Subscriber Line Access Multiplexer，DSLAM)廠牌型號、DSLAM韌體版本、語音音頻波段衰減值、上行SNR(Signal to Noise Ratio)、下行SNR、用戶端及ISP端週期性之品質監控值、是否使用特殊工法如線路耦合(bundling)及光銅混合(G.fast)工法二元旗標值；寬頻網路監控特徵值抽取單元，是以取得影像串流機上盒或家用多功能閘道器之型號、影像串流機上盒或家用多功能閘道器之上下行速率、局端設備類型、局端設備告警指標量化值、告警類型詞頻(term frequency)、告警嚴重性指標值。

機器學習訓練及實作模組，是為接受特徵值抽取模組產出之特徵值，進一步做資料預處理後，以機器學習加以訓練並取得最佳化模型參數，且另包含有一訓練單元及一實作單元，其中訓練單元另包含訓練標的建立單元，是為建立預估模型的判斷標的，作為訓練模型過程中計算損失函數及優化時的基準；類別與缺漏值前處理訓練單元，是對於訓練資料的特徵值加以預處理，並包括將類別型特徵值，展開為二元指示特徵值(binary indicator)，以及，當若數值型特徵值有缺漏值，則以平均值取代，並為部分有缺漏的特徵值新增一個二元缺漏指示特徵值；文字筆記障礙分析訓練單元，是對於訓練資料中每一筆障礙待處理事件，依其文字描述之逐字筆記內容，使用自動斷詞工具與羅吉斯迴歸分析，先行計算出文字描述的障礙相關詞頻組合是屬於客戶端還是ISP端障礙之機率，並將機率並作為後續模型輸入之特徵值之一；高維度特徵值多重組合建立訓練單元，是對於訓練資料每一筆障礙待處理事件，製作一或複數個高維度特徵值集合；最佳化障礙點分類模型建立模組，是利用非線性之梯度提升決策樹(Gradient Boosting Decision Tree，GBDT)為主要推估模型，輸入高維度特徵值多重組合建立訓練單元產出之各型式高維度特徵值組合後，經由最小化損失函數之優化過程找出訓練資料之最佳模型參數，供實際應用時預估每一筆新增之待判斷障礙區間資料。

其中機器學習訓練及實作模組之實作單元，負責進行實際即時資料處理預估，另包含類別與缺漏值前處理單元，是對於實際待預估資料及特徵值的特徵值加以預處理，並包括將類別型特徵值，展開為二元指示特徵值(binary indicator)，以及，當若數值型特徵值有缺漏值，則以平均值取代，並為部分有缺漏的特徵值新增一個二元缺漏指示特徵值；文字筆記障礙分析單元，是對於實際待預估資料及特徵值中每一筆障礙待處理事件，依其文字描述之逐字筆記內容，使用自動斷詞工具與羅吉斯迴歸分析，先行計算出文字描述的障礙相關詞頻組合是屬於客戶端還是ISP端障礙之機率，並將機率並作為後續模型輸入之特徵值之一；高維度特徵值多重組合建立單元，是對於實際待預估資料及特徵值每一筆障礙待處理事件，製作一或複數個高維度特徵值集合；障礙點分類預估產出單元，利用每月更新訓練後之最佳優化GBDT模型參數，計算出每一筆新增待判斷障礙區間案件的障礙區機率大小判斷值。

維護運作資訊產出模組，是為評估不同之輸入特徵值集合，於訓練階段完成優化後之模型錯誤率，產出整合之維運資訊及維護優先權方案分別供維運及管理人員使用。

其維護運作資訊產出模組另包含模型效能指標建立單元，是以一種加權錯誤率之評估，建立一個得以評估預測模型好壞的基準計算模型；模型錯誤率計算單元，是為利用模型效能指標建立單元之加權錯誤率計算公式，計算出機器學習訓練階段完成優化後之各型特徵值集合對應的模型預估錯誤率；維運資訊產出單元，是為整合產出待處理障礙客戶資料、障礙區間判定結果及參考模型錯誤率，以提供維運人員依時效性或正確性的優先次序選擇使用相應之查修建議資訊；維護優先權方案產出單元，是為依據當下至過去一個月之內之障礙區間統計平均值相比，進行組織內於客戶端及ISP端之維修優先權決策方案產出，得以使近期故障區較多之處能獲得優先處理及修復，以達維護資源運用之最大效益。

一種影像串流服務的障礙定位維運方法，其包括：步驟一、資料來源模組經特徵值抽取模組取出高維度之各類型之預估用特徵值；步驟二、經由機器學習訓練及實作模組處理，先以訓練資料訓練出最佳化之預估模型，提供後續實作時根據實際客訴案件的待測特徵值資料估算出多類型特徵值下的相應客戶端與ISP端預估障礙機率；步驟三、最後由維護運作資訊產出模組負責產生維運作業方式選擇及優先權決策資訊；其中步驟二之機器學習訓練及實作模組處理之流程包括：步驟一、是否產生訓練模型，若為是，則先進行第一次模擬訓練，訓練標的建立，若為否，則進行類別與缺漏值前處理；步驟二、當訓練標的建立之後，則進入類別與缺漏值前處理訓練；步驟三、文字筆記障礙分析訓練；步驟四、高維度特徵值多重組合建立訓練；步驟五、最佳化障礙點分類模型建立，並回到類別與缺漏值前處理；步驟六、文字筆記障礙分析；步驟七、高維度特徵值多重組合建立；步驟八、障礙點分類預估產出；步驟九、判斷是否計算下一筆用戶，若為是，則回到是否產生訓練模型，若為否結束。

其中步驟三之維運作業方式之流程包括：步驟一、設計模型效能指標評估，首次設計完成後即不再變更；步驟二、依最近一次訓練階段之預留測試資料，計算模型錯誤率；步驟三、產出要提供給維運人員之維運資訊；步驟四、產出要提供給管理人員之維護優先權方案資訊；步驟五、判斷是否有下一用戶待預估計算，若為是，則回到步驟二，依最近一次訓練階段之預留測試資料，計算模型錯誤率，若為否，則結束。

本發明所提供一種影像串流服務的障礙定位系統及維運方法，與其他習用技術相互比較時，更具備下列優點：

1.可處理高維度之影音串流服務特徵值預測模型建立。

2.可快速二元化分類影音串流服務障礙區域。

3.可讓維護者依時效性或正確性優先需求選擇建議之維護區域方式。

4.可提供動態調整影音串流服務維護之優先權決策方案，達成有限維護資源運用之最大效益。

110‧‧‧資料來源模組

111‧‧‧服務品質管理單元

112‧‧‧障礙申告管理單元

113‧‧‧迴路品質診斷管理單元

114‧‧‧寬頻網路監控單元

120‧‧‧特徵值抽取模組

121‧‧‧服務品質管理特徵值抽取單元

122‧‧‧障礙申告管理特徵值抽取單元

123‧‧‧迴路品質診斷管理特徵值抽取單元

124‧‧‧寬頻網路監控特徵值抽取單元

130‧‧‧機器學習訓練及實作模組

131‧‧‧訓練單元

1311‧‧‧訓練標的建立單元

1312‧‧‧類別與缺漏值前處理訓練單元

1313‧‧‧文字筆記障礙分析訓練單元

1314‧‧‧高維度特徵值多重組合建立訓練單元

1315‧‧‧最佳化障礙點分類模型建立模組

132‧‧‧實作單元

1321‧‧‧類別與缺漏值前處理單元

1322‧‧‧文字筆記障礙分析單元

1323‧‧‧高維度特徵值多重組合建立單元

1324‧‧‧障礙點分類預估產出單元

140‧‧‧維護運作資訊產出模組

141‧‧‧模型效能指標建立單元

142‧‧‧模型錯誤率計算單元

143‧‧‧維運資訊產出單元

144‧‧‧維護優先權方案產出單元

S310~S330‧‧‧流程

S410~S440‧‧‧機器學習訓練及實作模組處理流程

S510~S550‧‧‧維運作業方式流程

請參閱有關本發明之詳細說明及其附圖，將可進一步瞭解本發明之技術內容及其目的功效；有關附圖為：圖1為本發明影像串流服務的障礙定位系統及維運方法之架構圖；圖2為本發明影像串流服務的障礙定位系統及維運方法之機器學習訓練及實作模組架構圖；圖3為本發明影像串流服務的障礙定位系統及維運方法之維護運作資訊產出模組架構圖；圖4為本發明影像串流服務的障礙定位系統及維運方法之流程圖；圖5為本發明影像串流服務的障礙定位系統及維運方法之機器學習訓練及實作模組處理之流程圖；圖6為本發明影像串流服務的障礙定位系統及維運方法之維運作業方式之流程圖。

為了使本發明的目的、技術方案及優點更加清楚明白，下面結合附圖及實施例，對本發明進行進一步詳細說明。應當理解，此處所描述的具體實施例僅用以解釋本發明，但並不用於限定本發明。

以下，結合附圖對本發明進一步說明：請參閱圖1所示，為一種影像串流服務的障礙定位系統及維運方法之架構圖，其包括資料來源模組110，是以蒐集判斷障礙定位所需的複數型資訊源，是另包含服務品質管理單元111，是包括應用層的服務品質資料，為各影像終端裝置的畫質等級(例如高解析度HD、4K或8K)及數值型品質指標；障礙申告管理單元112，是包含影像服務之障礙申告相關資料，為申告原因、申告描述文字及人工預檢測後的測試代碼之內容；迴路品質診斷管理單元113，是包括實體層的迴路品質測試資料及非標準型用戶迴路施工工法紀錄，為線路電氣特性估計值及最接近用戶端之ISP所屬交換局端設備紀錄與會大幅影響用戶使用距離之特殊工法紀錄，例如應用歐姆定律的線路耦合(bundling)工法可大幅延長使用距離，而國際電信聯盟(ITU)提出的光銅混合(G.fast)工法可提升速率但會大幅限縮用戶使用距離；寬頻網路監控單元114，是包含ISP業者之各節點設備廠牌型號資料、設備告警代碼及告警代碼與內容之資訊。

特徵值抽取模組120，是將障礙定位所需的各類型資訊根據其不同之來源系統特性加以抽取，以組成後續機器學習分析模組的輸入特徵參數群，並處理抽取資料來源模組中各單元之特徵值，是另包含服務品質管理特徵值抽取單元121，是以取得近日之是否為4K以上高畫質用戶旗標值(例如旗標值若為True表該用戶為4K以上畫質，反之為False)、影像串流服務品質指標、影像串流服務申訴機率；障礙申告管理特徵值抽取單元122，是以取得影像串流服務申告原因代碼、申告描述文字筆記、人工診斷預測試代碼，為專業診斷人員進行初步人工測試後，所輸入之障礙原因代碼；迴路品質診斷管理特徵值抽取單元123，是以取得數位用戶迴路多工接入設備(Digital Subscriber Line Access Multiplexer，DSLAM)廠牌型號、DSLAM韌體版本、語音音頻波段衰減值、上行SNR(Signal to Noise Ratio)、下行SNR、用戶端及最接近該用戶端之ISP端設備週期性之品質監控值、是否使用特殊工法如線路耦合(bundling)及光銅混合(G.fast)工法二元旗標值，特殊工法的使用會大幅影響障礙判定與距離之關聯性故需預先加以記錄以納入後續的訓練模型使用；寬頻網路監控特徵值抽取單元124，是以取得影像串流機上盒或家用多功能閘道器之型號、影像串流機上盒或家用多功能閘道器之上下行速率、局端設備類型、局端設備告警指標量化值、告警類型詞頻(term frequency)、告警嚴重性指標值。

綜上所述，資料來源模組110作為分析資料源，經特徵值抽取模組120取出各類型之預估用特徵值後，利用機器學習訓練及實作模組130，先將訓練資料集訓練出最佳化之預估模型，以提供後續實作時根據實際待測資料，估算出多類型特徵值下的相應預估機率，最後由維護運作資訊產出模組140，負責產生維運作業及優先權決策所需的整合資訊。

而資料源之蒐集則是來自於蒐集判斷障礙定位所需的各類型資訊，為ISP業者提供影像服務時會使用到之管理及診斷系統，僅在邏輯上加以區分，實體上可以建置於同一主機群或系統內。

而特徵值之抽取則是將障礙定位所需的各類型資訊，根據其不同之來源系統特性加以抽取，以組成後續機器學習分析模組的輸入特徵參數群。其抽取過程均包括獨立性判別篩選流程，輸入資料源間經相關性檢定需不具明顯正相關，或令檢定法之虛無假設為樣本間不具差異性，經檢定後p值小於顯著水準0.05，可拒絕虛無假設者，才納入為特徵值集合之中。

請參閱圖2所示，為本發明影像串流服務的障礙定位系統及維運方法之機器學習訓練及實作模組架構圖，機器學習訓練及實作模組130，是為接受特徵值抽取模組120產出之特徵值，進一步做資料預處理後，以機器學習加以訓練並取得最佳化模型參數，且另包含有一訓練單元131及一實作單元132，其中訓練單元131另包含訓練標的建立單元1311，是為建立預估模型的判斷標的，作為訓練模型過程中計算損失函數及優化時的基準；類別與缺漏值前處理訓練單元1312，是對於訓練資料的特徵值加以預處理，並包括將類別型特徵值，展開為二元指示特徵值(binary indicator)，以及，當若數值型特徵值有缺漏值，則以平均值取代，並為部分有缺漏的特徵值新增一個二元缺漏指示特徵值；文字筆記障礙分析訓練單元1313，是對於訓練資料中每一筆障礙待處理事件，依其文字描述之逐字筆記內容，使用自動斷詞工具與羅吉斯迴歸分析，先行計算出文字描述的障礙相關詞頻組合是屬於客戶端還是ISP端障礙之機率，並將機率並作為後續模型輸入之特徵值之一；高維度特徵值多重組合建立訓練單元1314，是對於訓練資料每一筆障礙待處理事件，製作一或複數個高維度特徵值集合；最佳化障礙點分類模型建立模組1315，是利用非線性之梯度提升決策樹(Gradient Boosting Decision Tree，GBDT)為主要推估模型，輸入高維度特徵值多重組合建立訓練單元產出之各型式高維度特徵值組合後，經由最小化損失函數之優化過程找出訓練資料之最佳模型參數，供實際應用時預估每一筆新增之待判斷障礙區間資料。

機器學習訓練及實作模組130之實作單元132，負責進行實際即時資料處理預估，另包含類別與缺漏值前處理單元1321，是對於實際待預估資料及特徵值的特徵值加以預處理，並包括將類別型特徵值，展開為二元指示特徵值(binary indicator)，以及，當若數值型特徵值有缺漏值，則以平均值取代，並為部分有缺漏的特徵值新增一個二元缺漏指示特徵值；文字筆記障礙分析單元1322，是對於實際待預估資料及特徵值中每一筆障礙待處理事件，依其文字描述之逐字筆記內容，使用自動斷詞工具與羅吉斯迴歸分析，先行計算出文字描述的障礙相關詞頻組合是屬於客戶端還是ISP端障礙之機率，並將機率並作為後續模型輸入之特徵值之一；高維度特徵值多重組合建立單元1323，是對於實際待預估資料及特徵值每一筆障礙待處理事件，製作一或複數個高維度特徵值集合；障礙點分類預估產出單元1324，利用每月更新訓練後之最佳優化GBDT模型參數，計算出每一筆新增待判斷障礙區間案件的障礙區機率大小判斷值。

請參閱圖3所示，為本發明影像串流服務的障礙定位系統及維運方法之維護運作資訊產出模組架構圖，維護運作資訊產出模組140，是為評估不同之輸入特徵值集合，於訓練階段完成優化後之障礙區域預估模型之預估錯誤率，產出整合之維運資訊及維護優先權方案分別供維運及管理人員使用。

其維護運作資訊產出模組140另包含模型效能指標建立單元141，是以一種加權錯誤率之評估方法，建立一個得以評估預測模型好壞的基準計算模型；模型錯誤率計算單元142，是為利用模型效能指標建立單元之加權錯誤率計算公式，計算出機器學習訓練階段完成優化後之各型特徵值集合對應的模型所預估障礙區域之錯誤率；維運資訊產出單元143，是為整合產出待處理障礙客戶資料、障礙區間判定結果及參考模型錯誤率，以提供維運人員依時效性或正確性的優先次序選擇使用相應之查修建議資訊；維護優先權方案產出單元144，是為依據當下至過去一個月之內之障礙區間統計平均值相比，進行組織內於客戶端及ISP端之維修優先權決策方案產出，得以使近期故障區較多之處能獲得優先處理及修復，以達維護資源運用之最大效益。

請參閱圖4所示，為本發明影像串流服務的障礙定位系統及維運方法之流程圖，其包括：步驟一、S310資料來源模組經特徵值抽取模組取出高維度之各類型之預估用特徵值；步驟二、S320經由機器學習訓練及實作模組處理，先以訓練資料訓練出最佳化之預估模型，提供後續實作時根據實際客訴案件的待測特徵值資料估算出多類型特徵值下的相應客戶端與ISP端預估障礙機率；步驟三、S330最後由維護運作資訊產出模組負責產生維運作業方式選擇及優先權決策資訊；其中步驟二S320之機器學習訓練及實作模組處理之流程，請參閱圖5所示，首先依執行時間判斷是否需重新進行模型訓練，例如以一個月周期為運作區間，運作時每隔一月重新以訓練單元進行一次模型訓練(如下步驟一至步驟五)，若在每月內一般運作期間，不需重新進行模型訓練，由實作單元進行運算依程序循序進行(如下步驟一、步驟六至步驟九)，包括：步驟一、S410是否產生訓練模型，若為是，則先進行第一次模擬訓練，S420訓練標的建立，若為否，則進行S430類別與缺漏值前處理；步驟二、當S420訓練標的建立之後，則進入S421類別與缺漏值前處理訓練；步驟三、S422文字筆記障礙分析訓練；步驟四、S423高維度特徵值多重組合建立訓練；步驟五、S424最佳化障礙點分類模型建立，並回到S430類別與缺漏值前處理；步驟六、S431文字筆記障礙分析；步驟七、S432高維度特徵值多重組合建立；步驟八、S433障礙點分類預估產出；步驟九、判斷S440是否計算下一筆用戶，若為是，則回到S410是否產生訓練模型，若為否，則S450結束。

由上述步驟可得知，步驟一之S420訓練標的建立，為了建立障礙點判定模型，我們必須先提供機器學習演算法模型訓練之準確率判斷標的。如我們利用已完成修復之最近一個月內所有影像串流服務障礙處理歷史紀錄資料為此項訓練標的，做法為依維修人員最終填報的障礙原因及修復回報資料，將障礙區域標示為兩類，分別為障礙點較靠近用戶端的客戶端障礙，以及障礙點較靠近彙集與核心網路的ISP端障礙，亦即將障礙點判定問題轉化為一種二元分類問題。此一個月內的障礙處理歷史紀錄資料中，依時間做排序，前70%取出作為模型訓練與優化用資料，後30%則做為後續模型效能指標測試資料。

步驟二之S421類別與缺漏值前處理訓練，對於蒐集的各項特徵值中，若有非數字的類別型特徵值，我們將其展開為二元指示特徵值(binary indicator)，例如可以(1,0)表示男性而(0,1)表示女性。若數值型特徵值有缺漏值，則以平均值取代，並為部分有缺漏的特徵值新增一個二元缺漏指示特徵值。

步驟三之S422文字筆記障礙分析訓練，有鑑於申告描述文字筆記紀錄為一種自由格式之中文字串，無法直接利用。對此，我們提出一種前處理方法，可將文字筆記轉為實數值，代表其與障礙區域為ISP端或客戶端之相關性。首先利用中文斷詞工具，如Jieba應用軟體，對各文字筆記以及申告原因代碼之中文描述進行斷詞，並將結果以詞頻方式表示，例如(上網障礙，2)或(遙控器故障，3)。再以斷詞後的詞頻做為特徵向量，利用線性羅吉斯迴歸(Logistic Regression)分類模型進行訓練，經過訓練過之模型可對於斷詞後的文字筆記紀錄估算障礙點屬於ISP端或客戶端障礙的機率，而此機率估計值將作為後續障礙點預測模型的輸入特徵值之一。另為避免過適問題(overfitting)，此訓練過程另外蒐集獨立的訓練資料，用於此項文字筆記紀錄分析。

步驟四之S423高維度特徵值多重組合建立訓練，在建立訓練模型用高維度之特徵值集合，高維度係指所有特徵參數，包括數值參數及類別參數，完全展開後總計包含300個以上的特徵向量。另外為因應不同特性之維護需求，再分成多種的組合型式如下：

型式一的特徵值輸入集合：包括有服務品質管理系統特徵值抽取單元、障礙申告管理系統特徵值抽取單元、迴路品質診斷管理系統特徵值抽取單元、及寬頻網路監控系統特徵值抽取單元，四個抽取單元所取出的所有特徵值，此型式之特徵值集合因參數完整，準確性較高，但其中障礙申告管理系統特徵值抽取單元中的人工診斷預測試代碼部分特徵值，需另以派工單執行人工測試後才能取得，因此時效性較低。

型式二的特徵值輸入集合：如同型式一的各單元所產出之特徵值，惟需去除障礙申告管理系統特徵值抽取單元中的人工診斷預測試代碼。此型式之特徵值集合因不含人工診斷測試部分，時效性較高，但因人工診斷可提升判斷準確度，因此型式一之準確度較高於型式二。

步驟五之S424最佳化障礙點分類模型建立，在建立一可用之高維度特徵值分類模型，以梯度提升決策樹(GBDT,Gradient Boosting Decision Tree)為選定之預測模型，並以高維度特徵值多重組合建立訓練單元中之多型式特徵值輸入集合，加以訓練出各自之最佳優化模型。

梯度提升決策樹是機器學習領域中常見的分類演算法。相較於許多常見的機器學習方法，梯度提升決策樹有不需特徵值縮放(feature scaling)以及主動學習非線性特徵組合(non-linear feature combination)等優點。本模組利用梯度提升法(gradient boosting)依序建立決策樹模型(decision tree)，優化定義之損失函數，最後輸出所建立之數個最佳決策樹。

由高維度特徵值多重組合建立訓練產出的多種類型特徵值輸入並訓練完成後，GBDT演算法輸出T顆決策樹，其預測函數定義為f_T，日後實作時給定一新的客戶申告案件所有相關特徵值集合資料，令其特徵向量為x_test，我們即可利用下列公式(1)評估該客戶申告案件之障礙點為ISP端(y=1)或客戶端障礙(y=-1)的機率。

而實作單元中步驟五開始之S430類別與缺漏值前處理、S431文字筆記障礙分析、及S432高維度特徵值多重組合建立，功能上分別與訓練單元中的S421類別與缺漏值前處理訓練、S422文字筆記障礙分析訓練、及S423高維度特徵值多重組合建立訓練相同，差別僅在實作單元中處理的不是訓練資料而是真實待處理計算的特徵值資料。

當實作單元依序進行完類別與缺漏值前處理、文字筆記障礙分析及高維度特徵值多重組合建立後，障礙點分類預估產出即可以運用GBDT預測模型，其預測函數定義為f_T，由實際案件的各型特徵值集合資料向量x_test，再次利用上述公式(1)評估並產出障礙點為ISP端(y=1)或客戶端障礙(y=-1)的機率。

其中步驟三S330之維運作業方式之流程，請參閱圖6所示，當預估模型計算出障礙區域預測的數值後，維護運作資訊產出模組將負責產出最後的整合型維護資訊及維護優先權決策資訊，其包括：步驟一、S510設計模型效能指標評估，首次設計完成後即不再變更；步驟二、S520依最近一次訓練階段之預留測試資料，計算模型錯誤率；步驟三、S530產出要提供給維運人員之維運資訊；步驟四、S540產出要提供給管理人員之維護優先權方案資訊；步驟五、S550判斷是否有下一用戶待預估計算，若為是，則回到步驟二，S520依最近一次訓練階段之預留測試資料，計算模型錯誤率，若為否，則結束。

而步驟一之S510設計模型效能指標評估，首次設計完成後即不再變更，是設計模型效能指標評估單元評估各類特徵參數導入機器學習訓練階段之最優化模型之障礙區域預估結果，並以錯誤率表示其模型效能量化數值大小，首次設計完後即不再變更，在此當中係以一加權錯誤率大小來驗證模型效能，模型效能加權錯誤率公式如下。

其中Err為加權錯誤率，w _i為代表預估錯誤嚴重性的權重，依維護難易度經驗，我們將客戶端障礙權重預設為1，ISP端障礙權重則設為大於1之數值，因ISP端的障礙影響之層面較大，故估計錯誤會造成較大之損失。p_i≠y_i 為指示函數，若模型預測類別p_i不等於實際障礙點y_i，則其值為1，反之為0。

例如某訓練測試資料有4個障礙案件故障區域依序為{客戶端、客戶端、ISP端、客戶端}，經模型預估後故障區域依序預估為{客戶端、客戶端、ISP端、ISP端}。本例中最後一項障礙案件預估區域錯誤，未加權錯誤率為25%，若設定客戶端權重=1，ISP端權重=5，則加權後之錯誤率為：Err=(0+0+0+5)/(1+1+1+5)=62.5% 公式(3)

在步驟二之S520依最近一次訓練階段之預留測試資料，計算模型錯誤率，其模型錯誤率計算單元功能為利用上述模型效能指標建立之加權錯誤率計算公式(2)，計算出訓練階段完成優化後之各型特徵值集合對應的預估模型之錯誤率。由前一個月已完成障礙修復之歷史申告資料，依時間做排序，前70%係作為模型訓練與優化用資料，後30%則保留於此作為本模型錯誤率計算單元計算預估模型錯誤率之用。後續之每月效能評估數值皆是以相同方式計算而得出。依最近一次訓練階段之預留30%模型效能指標測試資料，以模型效能指標建立單元之公式計算多種不同輸入特徵值集合之預估模型錯誤率，輸出結果範例可如下：

型式一的特徵值輸入集合：錯誤率2.13%。

型式二的特徵值輸入集合：錯誤率2.26%。

其中型式一與型式二特徵值如高維度特徵值多重組合建立訓練中所述，前者著重正確性，後者著重時效性。

在步驟三之S530產出要提供給維運人員之維運資訊，用來產出給維運人員使用之整合維運資訊，包括該待處理判斷障礙區域門號之基本資料資訊、預估之障礙區域，及模型錯誤率計算單元所計算出之多種型別之錯誤預估機率，輸出結果範例可如下所示：

其中型式一與型式二之差別在於產出預估值所需花費時間及輸入特徵值不同，如高維度特徵值多重組合建立訓練中所述，前者著重正確性，後者著重時效性。一般狀況下維護單位可選擇正確性較高的第一型預估區域加以維修處理，若需要非常快速的維修時，例如該客戶為國防或民生重要客戶或有簽訂嚴格SLA(Service Level Agreement)契約者，則在型式一預估數值尚未計算出前可選擇型二建議區域快速先行前往處理。

而步驟四之S540產出要提供給管理人員之維護優先權方案資訊，要產出給管理人員使用之維運優先權方案決策資訊，包括客戶端與ISP端的維護優先權增減建議量化數值。例如某ISP公司在某六個服務地區都有維護客戶端及ISP設備之兩組維護人員與設備，先以客戶端為例，分別以A與B表示最近30天與上月份全月之客戶端障礙預估件數平均值，且評估A與B差距比值是否過大之門檻值設為T(T>0且T<1)。若T>|(A-B)/B|，即表示最近30天之平均值與上月份之平均值差距絕對值小於T，則此種件數變動不大之狀況下維護優先權以0表示；若|(A-B)/B|>=T，即兩者差距絕對值在T(含)以上，則最近30天障礙增加時(即A>B)維護優先權以1表示，反之障礙減少時(即A<B)維護優先權以-1表示。ISP端之維護優先權數值計算方式與客戶端相同，惟前後差距比較門檻值T可依據公式(2)之模型效能加權錯誤率權重，設定為和客戶端不同。例如ISP端加權錯誤率權重為客戶端5倍時，表示ISP端較為重要，ISP端的差距門檻值T可設為客戶端的1/5。全區合計維護優先權則直接將各地區維護優先權數值相加。數值越高表示近期需要越多處理優先權，適合配置較高級之維修設備與較具經驗之維護人員，或自維修人員、設備過多地區調派之。本維護優先權方案產出單元產出結果範例可如下所示：

本例表示該公司近期以台中服務區為例，建議減少客戶端維護優先權而增加ISP端維護優先權；新竹服務區則兩者均維持現狀即可；整體而言全區則須增加客戶端維護優先權並減少ISP端維護優先權，或將ISP端部分過多的維修設備及資深維護人員轉移給客戶端。

上列詳細說明乃針對本發明之一可行實施例進行具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。

綜上所述，本案不僅於技術思想上確屬創新，並具備習用之傳統方法所不及之上述多項功效，已充分符合新穎性及進步性之法定發明專利要件，爰依法提出申請，懇請貴局核准本件發明專利申請案，以勵發明，至感德便。

Claims

一種影像串流服務的障礙定位系統，其包括：資料來源模組，係以蒐集判斷障礙定位所需的複數型資訊源；特徵值抽取模組，係將障礙定位所需的各類型資訊根據其不同之來源系統特性加以抽取，以組成後續機器學習分析模組的輸入特徵參數群，並處理抽取該資料來源模組中各單元之特徵值；機器學習訓練及實作模組，係為接受該特徵值抽取模組產出之特徵值，進一步做資料預處理後，以機器學習加以訓練並取得最佳化模型參數，且另包含有一訓練單元及一實作單元；維護運作資訊產出模組，係為建立一個可以同時考量客戶端與ISP端障礙區域預估錯誤嚴重性權重之評估方式，評估不同之輸入特徵值集合，於該機器學習模組訓練階段完成優化後之障礙區域預估模型之錯誤率，產出適用不同用戶特性之整合維運資訊及以維護優先權量化數值為依據之維護優先權方案分別供維運及管理人員使用。
如申請專利範圍第1項所述之影像串流服務的障礙定位系統，其中該資料來源模組，係另包含：服務品質管理單元，係包括應用層的畫質等級與服務品質資料；障礙申告管理單元，係包含影像服務之障礙申告相關資料；迴路品質診斷管理單元，係包括實體層的迴路品質測試資料及特殊型用戶迴路施工工法紀錄；寬頻網路監控單元，係包含ISP業者之各節點設備廠牌型號資料、設備告警代碼及告警代碼與內容之資訊。
如申請專利範圍第1項所述之影像串流服務的障礙定位系統，其中該特徵值抽取模組，係另包含：服務品質管理特徵值抽取單元，係以取得是否為4K以上高畫質用戶二元旗標值、近日之影像串流服務品質指標、影像串流服務申訴機率；障礙申告管理特徵值抽取單元，係以取得影像串流服務申告原因代碼、申告描述文字筆記、人工診斷預測試代碼；迴路品質診斷管理特徵值抽取單元，係以取得數位用戶迴路多工接入設備(Digital Subscriber Line Access Multiplexer，DSLAM)廠牌型號、DSLAM韌體版本、語音音頻波段衰減值、上行SNR(Signal to Noise Ratio)、下行SNR、用戶端及ISP端週期性之品質監控值、是否使用特殊工法二元旗標值；寬頻網路監控特徵值抽取單元，係以取得影像串流機上盒或家用多功能閘道器之型號、影像串流機上盒或家用多功能閘道器之上下行速率、局端設備類型、局端設備告警指標量化值、告警類型詞頻(term frequency)、告警嚴重性指標值。
如申請專利範圍第1項所述之影像串流服務的障礙定位系統，其中該機器學習訓練及實作模組之訓練單元，係另包含：訓練標的建立單元，係為建立預估模型的判斷標的，作為訓練模型過程中計算損失函數及優化時的基準；類別與缺漏值前處理訓練單元，係對於訓練資料的特徵值加以預處理，並包括將類別型特徵值，展開為二元指示特徵值(binary indicator)，以及，當若數值型特徵值有缺漏值，則以平均值取代，並為部分有缺漏的特徵值新增一個二元缺漏指示特徵值；文字筆記障礙分析訓練單元，係對於訓練資料中每一筆障礙待處理事件，依其文字描述之逐字筆記內容，使用自動斷詞工具與羅吉斯迴歸分析，先行計算出該文字描述的障礙相關詞頻組合是屬於客戶端還是ISP端障礙之機率，並將該機率並作為後續模型輸入之特徵值之一；高維度特徵值多重組合建立訓練單元，係對於訓練資料每一筆障礙待處理事件，製作一或複數個高維度特徵值集合；最佳化障礙點分類模型建立單元，係利用非線性之梯度提升決策樹(Gradient Boosting Decision Tree，GBDT)為主要推估模型，輸入該高維度特徵值多重組合建立訓練單元產出之各型式高維度特徵值組合後，經由最小化損失函數之優化過程找出訓練資料之最佳模型參數，供實際應用時預估每一筆新增之待判斷障礙區間資料。
如申請專利範圍第1項所述之影像串流服務的障礙定位系統，其中該機器學習訓練及實作模組之實作單元，係負責進行實際即時資料處理預估，另包含：類別與缺漏值前處理單元，係對於實際待預估資料及特徵值的特徵值加以預處理，並包括將類別型特徵值，展開為二元指示特徵值(binary indicator)，以及，當若數值型特徵值有缺漏值，則以平均值取代，並為部分有缺漏的特徵值新增一個二元缺漏指示特徵值；文字筆記障礙分析單元，係對於實際待預估資料及特徵值中每一筆障礙待處理事件，依其文字描述之逐字筆記內容，使用自動斷詞工具與羅吉斯迴歸分析，先行計算出該文字描述的障礙相關詞頻組合是屬於客戶端還是ISP端障礙之機率，並將該機率並作為後續模型輸入之特徵值之一；高維度特徵值多重組合建立單元，係對於實際待預估資料及特徵值每一筆障礙待處理事件，製作一或複數個高維度特徵值集合；障礙點分類預估產出單元，利用每月更新訓練後之最佳優化GBDT模型參數，計算出每一筆新增待判斷障礙區間案件的障礙區機率大小判斷值。
如申請專利範圍第1項所述之影像串流服務的障礙定位系統，其中該維護運作資訊產出模組另包含：模型效能指標建立單元，係以一種加權錯誤率之評估，建立一個得以評估預測模型好壞的基準計算模型；模型錯誤率計算單元，係為利用該模型效能指標建立單元之加權錯誤率計算公式，計算出機器學習訓練階段完成優化後之各型特徵值集合對應的預估模型錯誤率；維運資訊產出單元，係為整合產出待處理障礙客戶資料、障礙區間判定結果及參考模型錯誤率，以提供維運人員依時效性或正確性的優先次序選擇使用相應之查修建議資訊；維護優先權方案產出單元，係為依據最近30天與過去一個月之內之障礙區間統計平均值相比，進行組織內於客戶端及ISP端之維修優先權決策方案產出，得以使近期故障區較多之處能獲得優先處理及修復，以達維護資源運用之最大效益。
如申請專利範圍第2項所述之影像串流服務的障礙定位系統，其中該應用層的服務品質資料，係為各影像終端裝置的畫質等級及數值型品質指標。
如申請專利範圍第2項所述之影像串流服務的障礙定位系統，其中該障礙申告相關資料，係為申告原因、申告描述文字及人工預檢測後的測試代碼之內容。
如申請專利範圍第2項所述之影像串流服務的障礙定位系統，其中該迴路品質測試資料，係為線路耦合(bundling)及光銅混合(G.fast)特殊工法紀錄、線路電氣特性估計值及最接近用戶端之ISP所屬交換局端設備週期性紀錄。
如申請專利範圍第3項所述之影像串流服務的障礙定位系統，其中該人工診斷預測試代碼，係為專業診斷人員進行初步人工測試後，所輸入之障礙原因代碼。
一種影像串流服務的障礙定位維運方法，其包括：步驟一、資料來源模組經特徵值抽取模組取出高維度之各類型之預估用特徵值；步驟二、經由機器學習訓練及實作模組處理，先以訓練資料訓練出最佳化之預估模型，提供後續實作時根據實際客訴案件的待測特徵值資料估算出多類型特徵值下的相應客戶端與ISP端預估障礙機率；步驟三、最後由維護運作資訊產出模組負責產生維運作業方式選擇及優先權決策資訊；
如申請專利範圍第11項所述之影像串流服務的障礙定位維運方法，其中該機器學習訓練及實作模組處理之流程包括：步驟一、是否產生訓練模型，若為是，則先進行第一次模擬訓練，訓練標的建立，若為否，則進行類別與缺漏值前處理；步驟二、當訓練標的建立之後，則進入類別與缺漏值前處理訓練；步驟三、文字筆記障礙分析訓練；步驟四、高維度特徵值多重組合建立訓練；步驟五、最佳化障礙點分類模型建立，並回到類別與缺漏值前處理；步驟六、文字筆記障礙分析；步驟七、高維度特徵值多重組合建立；步驟八、障礙點分類預估產出；步驟九、判斷是否計算下一筆用戶，若為是，則回到是否產生訓練模型，若為否結束。
如申請專利範圍第11項所述之影像串流服務的障礙定位維運方法，其中該維運作業方式之流程包括：步驟一、設計模型效能指標評估，首次設計完成後即不再變更；步驟二、依最近一次訓練階段之預留測試資料，計算模型錯誤率；步驟三、產出要提供給維運人員之維運資訊；步驟四、產出要提供給管理人員之維護優先權方案資訊；步驟五、判斷是否有下一用戶待預估計算，若為是，則回到步驟二，依最近一次訓練階段之預留測試資料，計算模型錯誤率，若為否，則結束。