TWI573031B

TWI573031B - 資料分類及搜尋方法

Info

Publication number: TWI573031B
Application number: TW104140729A
Authority: TW
Inventors: 陳志偉; 盧曉芬
Original assignee: 英業達股份有限公司
Priority date: 2015-12-04
Filing date: 2015-12-04
Publication date: 2017-03-01
Also published as: TW201721465A

Description

資料分類及搜尋方法

本案係有關於一種分類及搜尋方法，且特別是有關於一種錯誤紀錄之資料分類及搜尋方法。

在電子裝置之測試領域中，測試部門會將電子裝置於測試過程中產生的錯誤紀錄於一資料庫。當使用者欲查詢某一錯誤狀況時，可利用上述資料庫中設計的欄位，以進行錯誤狀況之查詢、瀏覽錯誤列表或產出報表。

然而，當使用者輸入關鍵字以進行錯誤狀況之查詢時，資料庫系統僅會透過儲存順序進行搜尋，而找出具有使用者輸入之關鍵字的對應錯誤紀錄。藉由上述方式找出的錯誤紀錄之錯誤紀錄列表，僅以錯誤記錄在資料庫中的儲存順序為依據，因此，上述錯誤紀錄列表所記載之錯誤紀錄往往不是使用者最關注的錯誤紀錄。

此外，資料庫中儲存之錯誤紀錄均為文字描述，由於每位使用者之用字習慣不一定相同，導致資料庫內的錯誤紀錄有所差異，如此，亦會導致錯誤紀錄列表內的錯誤紀錄並非使用者最關注的錯誤紀錄。

由此可見，上述現有的方式，顯然仍存在不便與缺陷，而有待改進。為了解決上述問題，相關領域莫不費盡心思來謀求解決之道，但長久以來仍未發展出適當的解決方案。

發明內容旨在提供本揭示內容的簡化摘要，以使閱讀者對本揭示內容具備基本的理解。此發明內容並非本揭示內容的完整概述，且其用意並非在指出本案實施例的重要/關鍵元件或界定本案的範圍。

本案內容之一目的是在提供一種資料分類及搜尋方法，藉以改善先前技術的問題。

為達上述目的，本案內容之一技術態樣係關於一種資料分類及搜尋方法，此資料分類及搜尋方法包含：根據複數個紀錄的原因欄位或註記欄位所包含的資料，以對該些紀錄進行分類標記；根據該些紀錄的概要欄位所包含的資料，以產生索引；根據該些紀錄的概要欄位所包含的資料之類別，以對該些紀錄進行權重標記；根據關鍵字由索引搜尋該些紀錄中的複數個對應紀錄；以及根據該些對應紀錄的權重，以由該些對應紀錄中選出複數個相關紀錄，並列出該些相關紀錄的分類。

因此，根據本案之技術內容，本案實施例提供一種資料分類及搜尋方法，藉以改善搜尋方式僅以資料庫中的儲存順序為依據且使用者之用字習慣有所差異，而導致搜尋到的錯誤紀錄並非使用者最關注之錯誤紀錄的問題。

在參閱下文實施方式後，本案所屬技術領域中具有通常知識者當可輕易瞭解本案之基本精神及其他發明目的，以及本案所採用之技術手段與實施態樣。

為了使本揭示內容的敘述更加詳盡與完備，下文針對了本案的實施態樣與具體實施例提出了說明性的描述；但這並非實施或運用本案具體實施例的唯一形式。實施方式中涵蓋了多個具體實施例的特徵以及用以建構與操作這些具體實施例的方法步驟與其順序。然而，亦可利用其他具體實施例來達成相同或均等的功能與步驟順序。

除非本說明書另有定義，此處所用的科學與技術詞彙之含義與本案所屬技術領域中具有通常知識者所理解與慣用的意義相同。此外，在不和上下文衝突的情形下，本說明書所用的單數名詞涵蓋該名詞的複數型；而所用的複數名詞時亦涵蓋該名詞的單數型。

為改善使用者輸入關鍵字以進行錯誤狀況之查詢時，搜尋到的錯誤紀錄列表內之錯誤紀錄往往不是使用者最關注的錯誤紀錄之問題，本案提出一種資料分類及搜尋方法，此方法可將以往測試過程中產生的所有錯誤紀錄進行完整的分類，並製作索引，供使用者透過索引而快速搜尋到相關錯誤紀錄。另外，此方法更可賦予錯誤紀錄相應的權重，因此，使用者搜尋到的錯誤紀錄列表可依照上述權重進行排列，利於使用者找到最關注的錯誤紀錄，詳細說明如後。

第1圖係依照本案一實施方式繪示一種資料分類及搜尋方法之流程圖。如圖所示，資料分類及搜尋方法100包含以下步驟：

步驟110：根據複數個紀錄的原因欄位或註記欄位所包含的資料，以對該些紀錄進行分類標記；

步驟120：根據該些紀錄的概要欄位所包含的資料，以產生索引；

步驟130：根據該些紀錄的概要欄位所包含的資料之類別，以對該些紀錄進行權重標記；

步驟140：根據關鍵字由該索引搜尋該些紀錄中的複數個對應紀錄；

步驟150：根據該些對應紀錄的權重，以由該些對應紀錄中選出複數個相關紀錄，並列出該些相關紀錄的分類；以及

步驟160：統計該些相關紀錄的分類，以列出該些相關紀錄的各種分類之百分比。

為使步驟110之操作方式易於理解，請一併參閱第1圖及第2圖。第2圖係依照本案另一實施例繪示一種錯誤紀錄的示意圖，此錯誤紀錄210是測試部門對電子裝置進行測試時，電子裝置之錯誤狀況的紀錄表，此錯誤紀錄210包含多個欄位，分別紀錄錯誤狀況的各種細節，諸如概要欄位(Synopsis)、操作細節欄位(Detail Description)、註記欄位(Comments/Answer)、原因欄位(Root Cause)等。本案之資料分類及搜尋方法100會根據上述錯誤紀錄210的欄位記載之資料，以對所有過往測試過程中產生的錯誤紀錄進行分類。

請參閱步驟110，本案之方法可根據複數個錯誤紀錄的原因欄位或註記欄位記載的資料，以對這些紀錄進行分類標記。舉例而言，本案之方法可判斷這些紀錄的每一者之原因欄位是否有記載資料，若原因欄位有記載資料，則根據此資料由對照表(mapping table)中取得對應分類，並標記此分類於錯誤紀錄上。例如原因欄位記載BIOS(Basic Input/Output System)、ROM(Read-Only Memory)、ACPI(Advanced Configuration and Power Interface)、SMBIOS(System Management BIOS)等，則根據對照表將上述資料分類為BIOS Error，另外，原因欄位記載iLO(Integrated Ligths-out)、Server Mgmt(Sever Management)、BMC(Baseboard Management Controller)等，則根據對照表將上述資料分類為Mgmt Firmware error，並將上述分類標記於錯誤紀錄上。

反之，若原因欄位未記載資料，則根據註記欄位記載的資料由對照表中取得對應分類，並標記分類於錯誤紀錄上。舉例而言，本案之方法可統計註記欄位記載的複數個註記，以取得這些註記中數量最多的相關註記，例如註記欄位一直出現ROM註記，則ROM即為相關註記。本案之方法根據相關註記ROM由對照表中取得對應分類BIOS error，並標記分類BIOS error於錯誤紀錄上。

此外，若無法由註記欄位取得相關註記，例如註記欄位包含太多註記，且這些註記間的出現次數又太接近，例如註記欄位包含ROM、BIOS、ACPI、Server Mgmt、BMC，且ROM、BIOS、ACPI、Server Mgmt、BMC皆出現3次，則將錯誤紀錄標記為未知(Unknown error)，並產生一警告。當使用者收到警告時，即可採取相關措施以改善錯誤紀錄，例如此錯誤之註記太多，表示可能導致電子裝置錯誤之原因較多，此時可以聚集各類測試部門，一同商討如何解決上述錯誤。

請參閱步驟120，本案之方法可根據複數個錯誤紀錄的概要欄位記載之資料，以產生索引。舉例而言，本案之方法可對所有錯誤紀錄的概要欄位利用一索引工具將所有概要欄位記載之關鍵字作成索引，以利查詢時能快速反查某一關鍵字曾出現在哪些錯誤紀錄的概要欄位中。

請參閱步驟130，本案之方法可根據複數個錯誤紀錄的概要欄位記載的資料之類別，以對這些錯誤紀錄進行權重標記。舉例而言，本案之方法可利用大數據文字處理方式，將系統中所有錯誤紀錄，先對錯誤紀錄之概要欄位記載的關鍵字做預先處理，依據概要欄位出現過的所有關鍵字進行分析，去除與錯誤分析無關的字詞(例如a, an, the, when, system等字詞)，並將概要欄位記載的關鍵字進行類別標記，並根據概要欄位記載的關鍵字之類別，以取得並標記對應權重於錯誤紀錄上，以利將來在查詢比對時可依照每條錯誤紀錄的概要欄位，與欲查詢的概要欄位作一相似度比對，利於找出最相似的錯誤紀錄。在另一實施例中，可採用TF-IDF（term frequency–inverse document frequency）技術來對錯誤紀錄的概要欄位出現過的所有關鍵字進行分析，以取得各個關鍵字之權重，以標記對應權重於錯誤紀錄上。

舉例而言，於概要欄位中所描述者，不外乎是被測元件、測試動作、錯誤現象等，因此，本案之方法可分析概要欄位記載之關鍵字，以將錯誤紀錄歸類為被測元件類別、測試動作類別或錯誤現象類別。依照概要欄位之類別歸類方式，可以將CPU、Memory、Windows、Linux、VMWare等字詞歸類為被測元件類別，將Stress、install、test、diag等歸類為測試動作類別，將power cycle、hang、blue screen、reboot、yellow bang等歸類為錯誤現象類別。

再者，本案之方法可對被測元件類別、測試動作類別及錯誤現象類別進行編碼。例如將概要欄位記載之關鍵字用一個位元(bit)來編碼。如上述實施例所示，被測元件類別有五種元件，測試動作類別有四種動作，錯誤現象類別有五種錯誤現象，因此，每一條錯誤紀錄的概要欄位記載之關鍵字可用14位元進行編碼，如可編碼為「00100：1000：01100」。此外，本案之方法可根據概要欄位記載的資料之類別，以標記上述編碼於錯誤紀錄上。

再者，由於概要欄位記載之關鍵字可用14位元進行編碼，因此，可形成14維的空間向量。本案之方法可根據錯誤紀錄的編碼以計算出第一向量，並根據概要欄位記載之關鍵字的類別，以標記第一向量於錯誤紀錄上。再者，本案之方法可分析使用者輸入之關鍵字，以將關鍵字歸類為被測元件類別、測試動作類別或錯誤現象類別，並根據關鍵字之類別，以標記編碼於關鍵字上，其次，根據關鍵字的編碼以計算第二向量，隨後，計算錯誤紀錄的第一向量與關鍵字的第二向量之向量距離，接著，根據向量距離以選出相關錯誤紀錄，並列出相關錯誤紀錄的分類。需說明的是，向量距離之距離越小代表兩向量越相似，因此，可利用此方式來找出最相似的錯誤紀錄。

在另一實施例中，可採用餘弦相似性(Cosine Similarity)來計算錯誤紀錄的第一向量與關鍵字的第二向量之相似程度。舉例而言，若第一向量為[x1,y1]，第二向量為[x2,y2]，則餘弦相似性之計算公式如下： …公式1

此外，餘弦相似性亦可適用於n維向量，舉例而言，若第一向量與第二向量皆為n維向量，第一向量為[A1,A2,…,An]，第二向量為[B1, B2,…, Bn]，則餘弦相似性之計算公式如下： …公式2

需說明的是，於公式1、2中，若計算出的餘弦值越接近1，表示兩向量之夾角越接近0度，亦即兩向量之相似程度越高。如上所述，概要欄位記載之關鍵字可用14位元進行編碼，而形成14維的空間向量，錯誤紀錄的第一向量與關鍵字的第二向量可採用上述公式2來進行計算。根據計算出的餘弦值即可瞭解兩向量之相似程度，接著，根據相似程度以選出相關錯誤紀錄，並列出相關錯誤紀錄的分類，因此，可利用此方式來找出最相似的錯誤紀錄。

請參閱步驟140，當使用者輸入關鍵字以進行錯誤狀況之查詢時，本案之方法可根據上述關鍵字，以步驟120所製作之索引來搜尋複數個紀錄中的複數個對應紀錄，換言之，可由所有錯誤紀錄中，找出與關鍵字對應的錯誤紀錄。

為使步驟150之操作方式易於理解，請一併參閱第1圖及第3圖。第3圖係依照本案再一實施例繪示一種錯誤紀錄列表及錯誤分類標記的示意圖。於步驟150中，本案之方法可根據複數個對應紀錄的權重，以由這些對應紀錄中選出複數個相關紀錄。需說明的是，與關鍵字對應的錯誤紀錄可能筆數非常多，因此，本案之方法更依據權重進行篩選，以選出最接近的相關紀錄，例如由1000筆對應錯誤紀錄中，篩選出最接近的100筆相關紀錄。

如第3圖所示，錯誤紀錄列表310紀錄了步驟150所搜尋到的複數個相關錯誤紀錄。此外，本案之方法可列出這些相關錯誤紀錄的分類320。舉例而言，錯誤紀錄列表310中編號278039之錯誤紀錄的分類320為BIOS，錯誤紀錄列表310中編號278070之錯誤紀錄的分類320為iLO，以此方式列出所有錯誤紀錄對應的分類320。由於本案之方法可賦予錯誤紀錄相應的權重，因此，使用者搜尋到的錯誤紀錄列表310可依照上述權重進行排列，利於使用者找到最關注的錯誤紀錄，並可得知錯誤紀錄的對應分類320，以讓使用者針對錯誤有效除錯。

為使步驟160之操作方式易於理解，請一併參閱第1圖及第4圖。第4圖係依照本案又一實施例繪示一種錯誤紀錄列表及錯誤分類百分比的示意圖，第4圖之錯誤紀錄列表410及分類420類似於第3圖之錯誤紀錄列表310及分類320。請參閱步驟160，本案之方法可統計複數個相關紀錄的分類，以列出如第4圖所示之相關紀錄的各種分類420之百分比。如第4圖之錯誤分類百分比列表430所示，BIOS的百分比為75%、iLo的百分比為12%、Driver的百分比為10%而HW的百分比為3%，由上述百分比之高低可知，造成此錯誤之相關原因中，最有可能的原因為BIOS，因此，使用者可根據錯誤分類百分比列表430，以得知最有可能造成上述錯誤之原因，以讓使用者針對錯誤有效除錯。

如上所述之資料分類及搜尋方法皆可由軟體、硬體與/或軔體來執行。舉例來說，若以執行速度及精確性為首要考量，則基本上可選用硬體與/或軔體為主；若以設計彈性為首要考量，則基本上可選用軟體為主；或者，可同時採用軟體、硬體及軔體協同作業。應瞭解到，以上所舉的這些例子並沒有所謂孰優孰劣之分，亦並非用以限制本發明，熟習此項技藝者當視當時需要彈性設計之。

所屬技術領域中具有通常知識者當可明白，資料分類及搜尋方法中之各步驟依其執行之功能予以命名，僅係為了讓本案之技術更加明顯易懂，並非用以限定該等步驟。將各步驟予以整合成同一步驟或分拆成多個步驟，或者將任一步驟更換到另一步驟中執行，皆仍屬於本揭示內容之實施方式。

由上述本案實施方式可知，應用本案具有下列優點。本案實施例提供一種資料分類及搜尋方法，藉以改善搜尋方式僅以資料庫中的儲存順序為依據且使用者之用字習慣有所差異，而導致搜尋到的錯誤紀錄並非使用者最關注之錯誤紀錄的問題。

雖然上文實施方式中揭露了本案的具體實施例，然其並非用以限定本案，本案所屬技術領域中具有通常知識者，在不悖離本案之原理與精神的情形下，當可對其進行各種更動與修飾，因此本案之保護範圍當以附隨申請專利範圍所界定者為準。

100‧‧‧方法

110~160‧‧‧步驟

210‧‧‧錯誤紀錄

310‧‧‧錯誤紀錄列表

320‧‧‧分類

410‧‧‧錯誤紀錄列表

420‧‧‧分類

430‧‧‧錯誤分類百分比列表

為讓本案之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1圖係依照本案一實施方式繪示一種資料分類及搜尋方法之流程圖。第2圖係依照本案另一實施例繪示一種錯誤紀錄的示意圖。第3圖係依照本案再一實施例繪示一種錯誤紀錄列表及錯誤分類標記的示意圖。第4圖係依照本案又一實施例繪示一種錯誤紀錄列表及錯誤分類百分比的示意圖。根據慣常的作業方式，圖中各種特徵與元件並未依比例繪製，其繪製方式是為了以最佳的方式呈現與本案相關的具體特徵與元件。此外，在不同圖式間，以相同或相似的元件符號來指稱相似的元件/部件。

100‧‧‧方法

110~160‧‧‧步驟

Claims

一種資料分類及搜尋方法，包含：根據複數個紀錄的原因欄位或註記欄位所包含的資料，以對該些紀錄進行分類標記，其中對該些紀錄進行分類標記包含判斷該些紀錄的每一者之該原因欄位是否包含一第一資料，當該原因欄位包含該第一資料時，根據該第一資料由一對照表中取得對應分類並標記該分類於該紀錄上，而當該原因欄位未包含該第一資料時，根據該註記欄位包含的一第二資料由該對照表中取得對應分類並標記該分類於該紀錄上；根據該些紀錄的概要欄位所包含的資料，以產生一索引；根據該些紀錄的概要欄位所包含的資料之類別，以對該些紀錄進行權重標記；根據一關鍵字由該索引搜尋該些紀錄中的複數個對應紀錄；以及根據該些對應紀錄的權重，以由該些對應紀錄中選出複數個相關紀錄，並列出該些相關紀錄的分類。
如請求項1所述之資料分類及搜尋方法，更包含：統計該些相關紀錄的分類，以列出該些相關紀錄的各種分類之百分比。
如請求項1所述之資料分類及搜尋方法，其中根據該註記欄位包含的該第二資料由該對照表中取得對應分類，並標記該分類於該紀錄上包含：統計該第二資料包含的複數個註記，以取得該些註記中數量最多的相關註記；以及根據該相關註記由該對照表中取得對應分類，並標記該分類於該紀錄上。
如請求項3所述之資料分類及搜尋方法，其中統計該第二資料包含的複數個註記，以取得該些註記中數量最多的相關註記包含：若無法取得該些註記中數量最多的相關註記，則將該紀錄標記為未知，並產生一警告。
如請求項1所述之資料分類及搜尋方法，其中對該些紀錄進行權重標記包含：對該些概要欄位所包含的資料進行類別標記；以及根據該些概要欄位所包含的資料之類別，以取得並標記對應權重於該些紀錄上。
如請求項5所述之資料分類及搜尋方法，其中對該些紀錄的概要欄位所包含的資料進行類別標記包含：分析該些概要欄位所包含的資料，以將該些紀錄歸類為被被測元件類別、測試動作類別或錯誤現象類別。
如請求項6所述之資料分類及搜尋方法，其中根據該些概要欄位所包含的資料之類別，以取得並標記對應權重於該些紀錄上包含：對該被測元件類別、該測試動作類別及該錯誤現象類別進行編碼；以及根據該些概要欄位所包含的資料之類別，以標記該編碼於該些紀錄上。
如請求項7所述之資料分類及搜尋方法，其中根據該些概要欄位所包含的資料之類別，以標記該編碼於該些紀錄上包含：根據該些紀錄的該編碼以計算一第一向量；以及根據該些概要欄位所包含的資料之類別，以標記該第一向量於該些紀錄上。
如請求項8所述之資料分類及搜尋方法，其中根據該些對應紀錄的權重，以由該些對應紀錄中選出該些相關紀錄包含：分析該關鍵字，以將該關鍵字歸類為該被測元件類別、該測試動作類別或該錯誤現象類別；根據該關鍵字之類別，以標記該編碼於該關鍵字上；根據該關鍵字的該編碼以計算一第二向量；計算該第一向量與該第二向量之一向量距離；以及根據該向量距離，以由該些對應紀錄中選出該些相關紀錄，並列出該些相關紀錄的分類。