TWI779738B - 日誌檔案的關鍵字串的檢索系統和檢索方法 - Google Patents
日誌檔案的關鍵字串的檢索系統和檢索方法 Download PDFInfo
- Publication number
- TWI779738B TWI779738B TW110127017A TW110127017A TWI779738B TW I779738 B TWI779738 B TW I779738B TW 110127017 A TW110127017 A TW 110127017A TW 110127017 A TW110127017 A TW 110127017A TW I779738 B TWI779738 B TW I779738B
- Authority
- TW
- Taiwan
- Prior art keywords
- string
- strings
- word
- outlier
- word string
- Prior art date
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
提供一種日誌檔案的關鍵字串的檢索系統和檢索方法。檢索方法包含:自至少一硬體設備接收日誌檔案集合以及設備描述檔案集合,其中日誌檔案集合包含多個字串;對多個字串執行分群演算法以取得離群字串;根據日誌檔案集合以及設備描述檔案集合計算離群字串的權重值;根據權重值產生包含離群字串的關鍵字串報表;以及輸出關鍵字串報表。
Description
本發明是有關於一種日誌檔案(log file;syslog)的關鍵字串的檢索系統和檢索方法。
電信運營商管理眾多網路設備,維運上仰賴其自身產製之日誌來幫助維運人員掌握狀況,其中各式網路設備擁有其專屬的日誌內容,且網路設備因應其原廠設定及調校,隨其不斷更新下,不同時間點同一設備於同一狀況下會產生不一樣的日誌。因此電信運營商需耗費其人力管理及觀察日誌的變化,手動維運及編製其所需要之監測日誌資料,其中透過手動監測中,尚需鎖定特定字串來輔助人員判斷。簡言之,維護網路設備之運行的整體過程中,電信運營商需大量人力於分析設備日誌資料,且隨時間推移下,其分析出需觀察之字串仍需要人力不斷維運及更新。
有鑑於此,如何對應設備及其服務所生成之日誌資料,如何有效率地運用,乃成為電信運營商之主要議題。
本發明提供一種日誌檔案的關鍵字串的檢索系統和檢索方法。本發明的目的為在存在大量日誌檔案且無人工介入的情況下,自動獲取重要或異常的字串。例如當設備更新韌體後,會產生多種之前沒出現過的日誌檔案。透過本發明之機制,可先推薦出一系列之重要或異常的字串以供維運人員參考,藉以減少人力投入的成本,也可防止人工分析時疏漏找到關鍵訊息。再者,藉由本發明提供的關鍵字串報表,維運人員可更快速地掌握設備日誌內容的狀況,以利於研發人員開發網路管理監測系統來輔助維運。
此外,針對設備及其相關服務之日誌檔案,本發明提供一種利用分群概念實作之數值計算方法來挖掘重要或異常之字串資料。
電信運營商管理網路時所需考慮網路設備之外,也包含了其設備本身之介面和與其串接之服務電路,其日誌內容多樣化難以使用特定規則預先判斷。依本發明之判斷機制,將該些日誌內容依照其網路管理相關之組態進行對應後,將日誌內容轉化成個別字串,再分別依照字串之出現頻率等參數計算出一字串的權重值,其權重值代表其字串在設備及其相關服務之日誌資料之重要程度。
利用該些設備及其相關服務之字串的權重值,分別使用分群計算方法找出一個或多個字串,此分析方法目的為找出該些字串特性與其他字串有顯著之數學上差異。簡單來說,乃利用該些字串與其他字串的關聯性來區別是否為關鍵少數之字串。取得該些字串後,再依據字串所屬之來源分別給定權重值。字串可依據權重值由大排至小而產生關鍵字串報表。
本發明的一種日誌檔案的關鍵字串的檢索系統,包含收發器以及處理器。處理器耦接收發器,其中處理器經配置以執行:通過收發器以自至少一硬體設備接收日誌檔案集合以及設備描述檔案集合,其中日誌檔案集合包含多個字串;對多個字串執行分群演算法以取得離群字串;根據日誌檔案集合以及設備描述檔案集合計算離群字串的權重值;根據權重值產生包含離群字串的關鍵字串報表;以及通過收發器輸出關鍵字串報表。
在本發明的一實施例中,上述的處理器根據多個字串中的離群字串的數量計算權重值。
在本發明的一實施例中,上述的日誌檔案集合包含分別對應於多個硬體設備的多個日誌檔案,其中處理器計算多個日誌檔案中包含離群字串的日誌檔案的數量,並且根據數量計算權重值。
在本發明的一實施例中,上述的處理器根據設備描述檔案集合將多個日誌檔案分別關聯於多個硬體設備。
在本發明的一實施例中,上述的多個字串包含第一字串以及第二字串,其中處理器更經配置以執行:產生對應於第一字串的鄰近字串集合;響應於第一字串與第二字串之間的距離小於或等於距離閾值而將第二字串加入鄰近字串集合;響應於鄰近字串集合的元素數量大於或等於數量閾值而建立包含第一字串以及鄰近字串集合的分群;以及根據分群決定離群字串。
在本發明的一實施例中,上述的鄰近字串集合包含第三字串,其中多個字串包含第四字串,其中處理器更經配置以執行:產生對應於第三字串的第二鄰近字串集合;響應於第三字串與第四字串之間的第二距離小於或等於距離閾值而將第四字串加入第二鄰近字串集合;響應於第二鄰近字串集合的第二元素數量大於或等於數量閾值,建立包含第三字串以及第二鄰近字串集合的第二分群,並且產生第三分群,其中第三分群為分群以及第二分群的聯集;以及根據第三分群決定離群字串。
在本發明的一實施例中,上述的處理器更經配置以執行:響應於第二鄰近字串集合的第二元素數量小於數量閾值,建立包含第三字串以及第二鄰近字串集合的第二分群,並且產生第三分群,其中第三分群為第二分群對於分群的差集。
在本發明的一實施例中,上述的距離為歐幾里德距離。
本發明的一種日誌檔案的關鍵字串的檢索方法,包含:自至少一硬體設備接收日誌檔案集合以及設備描述檔案集合,其中日誌檔案集合包含多個字串;對多個字串執行分群演算法以取得離群字串;根據日誌檔案集合以及設備描述檔案集合計算離群字串的權重值;根據權重值產生包含離群字串的關鍵字串報表;以及輸出關鍵字串報表。
基於上述,本發明可因應設備日誌不同變化來選擇出重要或異常字串,尤指當設備日誌資料內容多樣化且數量大的情況下,可透過其日誌資料內容的特性,自動篩選出關鍵字串。
以下藉由特定的具體實施例說明本發明之實施方式,熟悉此技藝之人士可由本說明書所揭示之內容輕易地瞭解本發明之其他優點及功效。
須知,本說明書所附圖式所繪示之結構、比例、大小等,均僅用以配合說明書所揭示之內容,以供熟悉此技藝之人士之瞭解與閱讀,並非用以限定本發明可實施之限定條件,故不具技術上之實質意義,任何結構之修飾、比例關係之改變或大小之調整,在不影響本發明所能產生之功效及所能達成之目的下,均應仍落在本發明所揭示之技術內容得能涵蓋之範圍內。同時,本說明書中所引用之如「前」、「後」及「一」等之用語,亦僅為便於敘述之明瞭,而非用以限定本發明可實施之範圍,其相對關係之改變或調整,在無實質變更技術內容下,當視為本發明可實施之範疇。
本發明可藉由預先設定之演算法,依據過往的日誌檔案變化及形態變化,自動辨識出可疑或重要之新的字串。本發明的原理主要為透過分析字串與字串間關聯性之高低,辨別出特定少見且重要之字串,並依據其字串結果產生出關鍵字串報表供維運人員參考。
此發明目的為自動化從日誌找出可疑或重要之新字串,尤其當設備遇到更新韌體版本後可能會產生多樣且大量之日誌檔案。透過本發明之機制,可預先自動化找出重要或異常之字串,以降低人工分析日誌檔案之成本。
圖1根據本發明的一實施例繪示一種檢索系統100的示意圖。檢索系統100適用於檢索出日誌檔案中的關鍵字串。檢索系統100可包含處理器110、儲存媒體120以及收發器130。
處理器110例如是中央處理單元(central processing unit,CPU),或是其他可程式化之一般用途或特殊用途的微控制單元(micro control unit,MCU)、微處理器(microprocessor)、數位信號處理器(digital signal processor,DSP)、可程式化控制器、特殊應用積體電路(application specific integrated circuit,ASIC)、圖形處理器(graphics processing unit,GPU)、影像訊號處理器(image signal processor,ISP)、影像處理單元(image processing unit,IPU)、算數邏輯單元(arithmetic logic unit,ALU)、複雜可程式邏輯裝置(complex programmable logic device,CPLD)、現場可程式化邏輯閘陣列(field programmable gate array,FPGA)或其他類似元件或上述元件的組合。處理器110可耦接至儲存媒體120以及收發器130,並且存取和執行儲存於儲存媒體120中的多個模組和各種應用程式。
儲存媒體120例如是任何型態的固定式或可移動式的隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)、硬碟(hard disk drive,HDD)、固態硬碟(solid state drive,SSD)或類似元件或上述元件的組合,而用於儲存可由處理器110執行的多個模組或各種應用程式。在本實施例中,儲存媒體120可儲存包含設備維運模組11、資料處理模組12、日誌存取模組13、權重計算模組14、設備模型模組15以及推薦報表模組16等多個模組,其功能將於後續說明。
收發器130以無線或有線的方式傳送及接收訊號。收發器130還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。
設備維運模組11可用於管理一或多個硬體設備。上述的硬體設備的種類可包含網路設備、所述網路設備所附屬之所有介面(以下簡稱為設備介面)或所述網路設備的服務電路(以下簡稱為電路)。設備維運模組11可用以設定、監控(例如:監控設備告警或日誌等資訊)、量測或供裝硬體設備。設備維運模組11可通過收發器130存取一或多個硬體設備以自所述一或多個硬體設備接收資料,其中所述資料可包含設備描述檔案集合。設備描述檔案集合可包含分別對應於多個硬體設備的多個設備描述檔案。設備描述檔案可包含組態資料、效能量測資料或服務障礙改接資料。
組態資料可包含硬體設備之配置、設定或架構等可描述硬體設備之樣態的靜態資料,舉凡電路串接關聯資料、電路屬性、電路供法、電路備緩路徑、電路實體、設備路由表、設備介面(如埠口、卡板、插槽或機架等)繞送規則(routing protocol)、服務品質(quality of service,QoS)設定、隧道(tunnel)設定與對接設備的關聯資料等。
效能量測資料可包含硬體設備在正常運作期間因監測及控管所取得的動態定期產製之資料,舉凡設備介面(如埠口、卡板、插槽或機架等)之封包流量、遺失數、封包錯誤數、循環冗餘檢測碼(cyclic redundancy check)的錯誤計算(error counter)、設備之CPU使用率、硬碟空間或記憶體使用率等。
服務障礙改接資料可包含硬體設備在承載服務期間因維護、維修或查測等因素所產生之維運相關資料,或可包含硬體設備在服務中斷失聯期間進入停止服務狀態而產生之告警資料,舉凡電路改接通知單、電路查修通知單、電路重啟通知單、電路障礙告警單,電路訊務流量不足門檻值告警單、設備查修通知單、設備維修通知單、設備自動重啟告警單、設備CPU使用率超過門檻值告警單、設備硬碟空間超過門檻值告警單、設備記憶體使用率告警單等。
考量到運算效能的極限,設備維運模組11可限制收集資料的期間以避免過量資料影響計算結果。此外,設備維運模組11所收集的效能量測資料或服務障礙改接資料可包含由當前時間起算至過去7天期間自硬體設備所取得之資料。
日誌存取模組13可通過收發器130存取所述一或多個硬體設備以自所述一或多個硬體設備接收資料,其中所述資料可包含日誌檔案集合。日誌檔案集合可包含分別對應於多個硬體設備的多個日誌檔案。日誌檔案可包含原廠設定之硬體設備自動產生之日誌資料,其中該日誌資料可包含硬體設備於特定時間進行特定行為或不特定時間發生之非預期行為之記錄,亦可包含記錄設備當下狀態之記錄。
由於日誌檔案的數量龐大且有時效性,因此收集日誌檔案集合的工作由日誌存取模組13專職執行,而收集設備描述檔案集合的工作則由設備維運模組11執行。換句話說,日誌檔案集合以及設備描述檔案集合的收集工作可分開執行。如此,可確保穩定收集資料而避免遺漏。日誌存取模組13所收集之日誌檔案可包含以量測當天起算至過去3天期間自硬體設備所取得的日誌資料。
日誌檔案集合中的日誌檔案可包含關聯於網路設備、設備介面或電路的日誌資料,其中所述日誌資料可包含多個字串。資料處理模組12可將日誌檔案集合中的日誌檔案與設備描述檔案集合中的設備描述檔案相對應以利後續分析。具體來說,若日誌檔案集合包含對應於路由器的日誌檔案,則資料處理模組12可從設備描述檔案集合中找出對應於所述路由器的設備描述檔案,其中所述設備描述檔案可包含組態資料。資料處理模組12可根據組態資料以將對應於所述路由器的日誌檔案映射至對應於所述路由器的設備描述檔案,藉以建立日誌檔案與設備描述檔案的映射關係。此外,組態資料可包含用於辨識硬體設備的資訊(例如:硬體設備之配置可包含硬體設備的識別符)。資料處理模組12可根據組態資料將日誌檔案映射至與日誌檔案相對應的硬體設備,藉以建立日誌檔案與硬體設備的映射關係。
除了透過組態資料關聯日誌資料以利於辦識日誌資料的屬性外,設備描述檔案所包含的效能量測資料或服務障礙資料可用於查驗對應的日誌檔案是否有誤。資料處理模組12可在判斷日誌檔案有誤後刪除所述日誌檔案以及相應的設備描述檔案,以避免疑似有誤之資料汙染後續資料分析過程及結果。舉例來說,若在特定時間期間,一設備介面的效能量測資料有出現訊務驟降現象,而所述設備介面卻未在該特定時間期間產生相關的日誌資料,並且與所述設備介面相對應的服務電路也未產生相關的日誌資料。如此,則代表此效能量測資料不適合採用。據此,資料處理模組12可將與效能量測資料相對應的資料刪除,以免誤導分析結果。
日誌檔案集合可包含對應於多個硬體設備的多個日誌檔案。日誌檔案的內容以行為單位顯示。資料處理模組12可對日誌檔案的各行進行文字拆解以取得包含於日誌檔案中的多個字串。資料處理模組12還可將多個字串中的部分刪除。舉例來說,資料處理模組12可將停頓詞、冠詞、介係詞、專有名詞、記憶體位置、服務代碼或特定專有名詞等詞彙自所述多個字串中刪除,藉以更新所述多個字串。
在資料處理模組12建立完日誌檔案集合中的日誌檔案與設備描述檔案集合中的設備描述檔案之間的映射關係後,權重計算模組14可根據日誌檔案集合以及設備描述檔案集合為日誌檔案集合中的特定字串計算權重值。具體來說,權重計算模組14可根據日誌檔案集合中的多個字串中的特定字串的數量計算所述特定字串的字串全域出現數(term frequency)x,如方程式(1)所示,其中i為硬體設備的索引,
為硬體設備i的日誌檔案中的字串總數,並且
為硬體設備i的日誌檔案中的特定字串的數量。舉例來說,假設硬體設備i的日誌檔案包含兩個「error」字串,則「error」字串的數量
等於2。
…(1)
另一方面,權重計算模組14可計算日誌檔案集合中包含特定字串的日誌檔案的數量,如方程式(2)所示,其中所述數量又可稱為字串所存在之設備數(inverse document frequency)
y。
…(2)
資料模型模組15可從日誌檔案集合中的多個字串中檢索出關鍵字串,其中關鍵字串為重要或異常的字串。資料模型模組15可對日誌檔案集合中的多個字串執行分群演算法以取得離群字串。離群字串與其他字串之間的相似性不高。資料模型模組15可根據輔以時間要素及離群字串之類型來排序該些離群字串,藉以產生關鍵字串報表。
圖2根據本發明的一實施例繪示分群演算法的流程圖,其中所述分群演算法可由如圖1所示的資料模型模組15實施。假設日誌檔案集合包含共N個字串(N為正整數),a為N個字串中的字串的索引(
),並且a的初始值為1。在步驟S201中,資料模型模組15可判斷索引a是否小於或等於N。若索引a小於或等於N,則進入步驟S202。若索引a大於N,則結束分群演算法的流程。
在步驟S202中,資料模型模組15可判斷字串a是否已被分配至任意的分群(cluster)。若字串a已被分配至某一分群,則進入步驟S212。若字串a未被分配至任何分群,則進入步驟S203。
在步驟S203中,資料模型模組15可產生對應於字串a的鄰近字串集合。初始的字串a的鄰近字串集合為空集合。資料模型模組15可判斷是否將N個字串中除了字串a的其他字串加入字串a的鄰近字串集合中。以N個字串中的字串b(
)為例,資料模型模組15可響應於字串a與字串b之間的距離小於或等於距離閾值而將字串b加入字串a的鄰近字串集合中,其中距離閾值可依應用需求而調整,本發明並不加以限制。上述的距離例如是歐幾里德距離(Euclidean distance),但本發明不限於此。
在步驟S204中,資料模型模組15可判斷字串a的鄰近字串集合的元素數量(即:鄰近字串集合中的字串的數量)是否大於或等於數量閾值,其中數量閾值可依應用需求而調整,本發明並不加以限制。若所述元素數量大於或等於數量閾值,則進入步驟S205。若所述元素數量小於數量閾值,則進入步驟S212。
在步驟S205中,資料模型模組15可建立對應於字串a的分群,其中所述分群是由字串a以及對應於字串a的鄰近字串集合所組成的。字串a可稱為所述分群的分群核心(cluster centroid)。舉例來說,假設字串a的鄰近字串集合是由字串一、字串二以及字串三所組成,則資料模型模組15可產生由字串a、字串一、字串二以及字串三所組成的分群。
假設字串a的鄰近字串集合包含共L個字串(L為小於或等於N的正整數),b為L個字串中的字串的索引(
),並且b的初始值為1。在步驟S206中,資料模型模組15可判斷索引b是否小於或等於L。若索引b小於或等於L,則進入步驟S207。若索引b大於L,則進入步驟S212。
在步驟S207中,資料模型模組15可產生對應於字串b的鄰近字串集合。初始的字串b的鄰近字串集合為空集合。資料模型模組15可判斷是否將N個字串中除了字串b的其他字串加入字串b的鄰近字串集合中。以N個字串中的字串c(
)為例,資料模型模組15可響應於字串b與字串c之間的距離小於或等於距離閾值而將字串c加入字串b的鄰近字串集合中。步驟S207所述的距離閾值可與步驟S203所述的距離閾值相同或相異。
在步驟S208中,資料模型模組15可判斷字串b的鄰近字串集合的元素數量(即:鄰近字串集合中的字串的數量)是否大於或等於數量閾值。若所述元素數量大於或等於數量閾值,則進入步驟S209。若所述元素數量小於數量閾值,則進入步驟S210。步驟S208所述的數量閾值可與步驟S204所述的數量閾值相同或相異。
在步驟S209中,資料模型模組15可建立對應於字串b的分群,其中所述分群是由字串b以及對應於字串b的鄰近字串集合所組成的。字串b可稱為所述分群的分群核心。接著,資料模型模組15可將對應於字串b的分群併入對應於字串a的分群。假設集合A代表在步驟S205所產生的對應於字串a之分群的集合,集合B代表在步驟S209所產生的對應於字串b之分群的集合,並且集合C代表將對應於字串b的分群併入對應於字串a的分群後所產生的集合,則集合A、集合B以及集合C的關係如方程式(4)所示,亦即,集合C可為集合A與集合B的聯集。
…(4)
在步驟S210中,資料模型模組15可建立對應於字串b的分群,其中所述分群是由字串b以及對應於字串b的鄰近字串集合所組成的。字串b可稱為所述分群的分群核心。接著,資料模型模組15可將對應於字串b的分群自對應於字串a的分群中移除。假設集合A代表在步驟S205所產生的對應於字串a之分群的集合,集合B代表在步驟S210所產生的對應於字串b之分群的集合,並且集合D代表將對應於字串b的分群自對應於字串a的分群中移除後所產生的集合,則集合A、集合B以及集合D的關係如方程式(5)所示,亦即,集合D可為集合B對於集合A的差集。
…(5)
在步驟S211中,資料模型模組15可使索引b的值加1。在步驟S212中,資料模型模組15可使索引a的值加1。
在完成如圖2所示的流程後,資料模型模組15可產生對應N個字串的至少一分群。分群可包含作為分群核心的字串以及與分群核心的距離接近的鄰近字串。此外,資料模型模組15還可根據分群的結果產生N個字串中不屬於任何分群的離群字串。
在取得離群字串後,權重計算模組14可根據方程式(1)、(2)和(3)計算出離群字串的權重值
。接著,推薦報表模組16可根據離群字串的權重值
計算離群字串的加權分數。具體來說,假設離群字串包含於硬體設備i的日誌檔案,並且
代表硬體設備i,則離群字串的加權分數S如方程式(6)所示,其中
為網路設備的集合,
為設備介面的集合,並且
為電路的集合。
…(6)
在取得離群字串的加權分數後,推薦報表模組16可根據離群字串的加權分數產生包含離群字串的關鍵字報表。推薦報表模組16可依照加權分數由大至小排序各個離群字串,藉以產生關鍵字報表。具體來說,加權分數較高的離群字串排列在關鍵字報表較前方的位置,加權分數較低的離群字串排列在關鍵字報表較後方的位置。若有多個離群字串具有相同的加權分數,則推薦報表模組16可根據與離群字串相對應的ASCII碼來排序所述多個離群字串。在產生關鍵字報表後,推薦報表模組16可通過收發器130輸出關鍵字報表以供檢索系統100的使用者參考。
圖3根據本發明的一實施例繪示檢索方法的流程圖,其中所述檢索方法可由如圖1所示的檢索系統實施。在步驟SS301中,自至少一硬體設備接收日誌檔案集合以及設備描述檔案集合,其中日誌檔案集合包含多個字串。在步驟SS302中,對多個字串執行分群演算法以取得離群字串。在步驟SS303中,根據日誌檔案集合以及設備描述檔案集合計算離群字串的權重值。在步驟SS304中,根據權重值產生包含離群字串的關鍵字串報表。在步驟SS305中,輸出關鍵字串報表。
[特點及功效]
本發明可在存在大量日誌檔案且於無人工介入的情況下,透過設備及其相關服務產生之日誌檔案的內容特性,自動篩選出重要的關鍵字串。
100:檢索系統
110:處理器
120:儲存媒體
11:設備維運模組
12:資料處理模組
13:日誌存取模組
14:權重計算模組
15:設備模型模組
16:推薦報表模組
130:收發器
S201、S202、S203、S204、S205、S206、S207、S208、S209、S210、S211、S212、S301、S302、S303、S304、S305:步驟
圖1根據本發明的一實施例繪示一種檢索系統的示意圖。
圖2根據本發明的一實施例繪示分群演算法的流程圖。
圖3根據本發明的一實施例繪示檢索方法的流程圖。
S301、S302、S303、S304、S305:步驟
Claims (9)
- 一種日誌檔案的關鍵字串的檢索系統,包括:收發器;以及處理器,耦接所述收發器,其中所述處理器經配置以執行:通過所述收發器以自至少一硬體設備接收日誌檔案集合以及設備描述檔案集合,其中所述日誌檔案集合包括多個字串,而且所述日誌檔案集合分別對應於多個硬體設備的多個日誌檔案;對所述多個字串執行分群演算法以取得離群字串;計算所述多個日誌檔案中包含所述離群字串的日誌檔案的數量,並且根據所述數量以及所述設備描述檔案集合計算所述離群字串的權重值;根據所述權重值產生包含所述離群字串的關鍵字串報表;以及通過所述收發器輸出所述關鍵字串報表。
- 如請求項1所述的檢索系統,其中所述處理器根據所述多個字串中的所述離群字串的數量計算所述權重值。
- 如請求項1所述的檢索系統,其中所述處理器根據所述設備描述檔案集合將所述多個日誌檔案分別關聯於所述多個硬體設備。
- 如請求項1所述的檢索系統,其中所述多個硬體設備的每一者包括下列的其中之一:網路設備、設備介面以及電路。
- 如請求項1所述的檢索系統,其中所述多個字串包括第一字串以及第二字串,其中所述處理器更經配置以執行:產生對應於所述第一字串的鄰近字串集合;響應於所述第一字串與所述第二字串之間的距離小於或等於距離閾值而將所述第二字串加入所述鄰近字串集合;響應於所述鄰近字串集合的元素數量大於或等於數量閾值而建立包含所述第一字串以及所述鄰近字串集合的分群;以及根據所述分群決定所述離群字串。
- 如請求項5所述的檢索系統,其中所述鄰近字串集合包括第三字串,其中所述多個字串包括第四字串,其中所述處理器更經配置以執行:產生對應於所述第三字串的第二鄰近字串集合;響應於所述第三字串與所述第四字串之間的第二距離小於或等於所述距離閾值而將所述第四字串加入所述第二鄰近字串集合;響應於所述第二鄰近字串集合的第二元素數量大於或等於所述數量閾值,建立包含所述第三字串以及所述第二鄰近字串集合的第二分群,並且產生第三分群,其中所述第三分群為所述分群以及所述第二分群的聯集;以及根據所述第三分群決定所述離群字串。
- 如請求項6所述的檢索系統,其中所述處理器更經配置以執行: 響應於所述第二鄰近字串集合的所述第二元素數量小於所述數量閾值,建立包含所述第三字串以及所述第二鄰近字串集合的所述第二分群,並且產生所述第三分群,其中所述第三分群為所述第二分群對於所述分群的差集。
- 如請求項5所述的檢索系統,其中所述距離為歐幾里德距離。
- 一種日誌檔案的關鍵字串的檢索方法,包括:通過所述收發器自至少一硬體設備接收日誌檔案集合以及設備描述檔案集合,其中所述日誌檔案集合包括多個字串,而且所述日誌檔案集合分別對應於多個硬體設備的多個日誌檔案;通過所述處理器對所述多個字串執行分群演算法以取得離群字串;通過所述處理器計算所述多個日誌檔案中包含所述離群字串的日誌檔案的數量,並且根據所述數量以及所述設備描述檔案集合計算所述離群字串的權重值;通過所述處理器根據所述權重值產生包含所述離群字串的關鍵字串報表;以及通過所述收發器輸出所述關鍵字串報表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110127017A TWI779738B (zh) | 2021-07-22 | 2021-07-22 | 日誌檔案的關鍵字串的檢索系統和檢索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110127017A TWI779738B (zh) | 2021-07-22 | 2021-07-22 | 日誌檔案的關鍵字串的檢索系統和檢索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI779738B true TWI779738B (zh) | 2022-10-01 |
TW202305615A TW202305615A (zh) | 2023-02-01 |
Family
ID=85475915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110127017A TWI779738B (zh) | 2021-07-22 | 2021-07-22 | 日誌檔案的關鍵字串的檢索系統和檢索方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI779738B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160306898A1 (en) * | 2015-04-16 | 2016-10-20 | Naver Corporation | Method, system and computer-readable recording medium for recommending query word using domain property |
CN111191430A (zh) * | 2019-12-27 | 2020-05-22 | 中国平安财产保险股份有限公司 | 自动建表方法、装置、计算机设备和存储介质 |
CN112306787A (zh) * | 2019-07-24 | 2021-02-02 | 阿里巴巴集团控股有限公司 | 报错日志处理方法、装置、电子设备和智能音箱 |
-
2021
- 2021-07-22 TW TW110127017A patent/TWI779738B/zh active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160306898A1 (en) * | 2015-04-16 | 2016-10-20 | Naver Corporation | Method, system and computer-readable recording medium for recommending query word using domain property |
CN112306787A (zh) * | 2019-07-24 | 2021-02-02 | 阿里巴巴集团控股有限公司 | 报错日志处理方法、装置、电子设备和智能音箱 |
CN111191430A (zh) * | 2019-12-27 | 2020-05-22 | 中国平安财产保险股份有限公司 | 自动建表方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
TW202305615A (zh) | 2023-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109981326B (zh) | 家庭宽带感知故障定位的方法及装置 | |
CN105630803A (zh) | 文档型数据库建立索引的方法和装置 | |
CN102142983A (zh) | 告警相关性分析方法和装置 | |
CN113486008A (zh) | 数据血缘分析方法、装置、设备及存储介质 | |
EP3823217A1 (en) | Network flow measurement method, network measurement device and control plane device | |
CN111262624B (zh) | 光缆故障的监控方法和装置 | |
CN108833271A (zh) | 一种电网广域控制业务通信路径选择方法及服务器 | |
WO2021135479A1 (zh) | 提示信息处理方法、装置和存储介质 | |
CN102546205B (zh) | 一种故障关系生成及故障确定方法及装置 | |
CN106878038A (zh) | 一种通信网络中故障定位方法及装置 | |
CN112636942A (zh) | 业务主机节点的监测方法及装置 | |
CN109818808B (zh) | 故障诊断方法、装置和电子设备 | |
CN107548087A (zh) | 一种告警关联分析的方法及装置 | |
WO2015182629A1 (ja) | 監視システム、監視装置及び監視プログラム | |
TWI779738B (zh) | 日誌檔案的關鍵字串的檢索系統和檢索方法 | |
CN114553747A (zh) | redis集群的异常检测方法、装置、终端及存储介质 | |
TWI699100B (zh) | 用於異質軟體定義網路的路徑查測裝置及路徑查測方法 | |
WO2023093527A1 (zh) | 告警关联规则生成方法、装置、电子设备和存储介质 | |
CN116455724A (zh) | 一种网络告警相关性大数据智能学习及执行系统 | |
CN114153710B (zh) | 一种基于海量日志的设备状态监控方法、装置及介质 | |
WO2021184588A1 (zh) | 集群优化方法、装置、服务器及介质 | |
CN106161058A (zh) | 一种告警分级方法及装置 | |
Sarkar et al. | On rich clubs of path-based centralities in networks | |
CN115269519A (zh) | 一种日志检测方法、装置及电子设备 | |
WO2020135894A2 (zh) | 限制短路电流的输电线路投切组合方案建立方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent |