TWI544348B

TWI544348B - 開端式偵測及文字資料中之字叢集之分類

Info

Publication number: TWI544348B
Application number: TW101141910A
Authority: TW
Inventors: 湯瑪士拉森; 麥茲林德葛蘭
Original assignee: 凱洛斯未來集團公司
Priority date: 2011-11-15
Filing date: 2012-11-09
Publication date: 2016-08-01
Also published as: WO2013072258A1; US9563666B2; US20140297659A1; TW201333727A; EP2595065B1; CN103946840A; EP2595065A1; CN103946840B

Description

開端式偵測及文字資料中之字叢集之分類

本發明係關於資料集之分類。本發明更特定而言係關於一種用於將自若干個不同源獲得之資料集分類之方法、裝置及電腦程式產品。

諸如電子文件、電子論文、網誌(blog)及線上討論論壇中之資料等資料集可存在於各種各樣之不同電腦上。此外，通常公開地提供此等資料集。藉助網際網路之引入，然後可能自事實上任何電腦存取此等資料集。因此，可能自一寬廣範圍之源獲得此等資料集。因此存在可在網際網路上獲得之巨大量資訊。

此豐富資訊用於若干個不同領域中(諸如)以便判定不同社會及消費者趨勢將係關注的。然而，資訊量如此巨大以至於難以自其獲得任何綜合及有用知識。

因此，在對資料集進行組織及分類以使得可對該等資料集執行先進資訊分析中存在一關注。

存在用於組織、結構化及搜尋資料集之若干種技術。

舉例而言，已提出將資料集分級(classify)之各種方法。作為一實例，US 2010/0205525闡述基於一文字中之如一字元瓦片(character shingle)之一品質特性之發生頻率的該文字之自動分級。US 2009/0094021闡述自若干個文件叢集判定若干個主題。US 6094653闡述將字分級成字叢集。

亦存在用以將文件分群之各種方式。舉例而言，EP 2045739確實闡述了在一文件中選擇若干字作為關鍵字及根據關鍵字將文件叢集以產生若干叢集，其中每一叢集對應於一題目。US 6078913闡述將選定文件叢集成一階層式樹結構。US 7809718闡述找出一文件之後設資料(meta data)及若文件中之字亦存在於後設資料中則強調該等字之有效性。US 6778995闡述自一文件提取若干字詞及在一文件集合上建立一概念空間、識別文件之間相關之字詞及用具有歸屬於一特定變異數的一文件空間中之文件角與叢集角之間的差之文件來填充叢集。US 7720848闡述一機率性叢集系統。

此外，在搜尋最佳化之領域已作出努力。舉例而言，US 7483892確實闡述了自表示特定標的物之文件編譯一字詞乘文件矩陣及形成一經加權字詞詞典，該特定標的物表示每文件每一字詞之發生頻率。US 5926812闡述將字叢集分群且組合用於形成一單個字叢集之類似字叢集。

在2010年瑞典隆德大學之工業管理與物流、生產管理系之一碩士論文「Textual Data Mining for Business Intelligence」中，Andreas Ek闡述了如何使用階層式叢集、線性回歸及基於機率之等級排定來獲得資訊。

然而，此領域中仍需要一改良。

因此，本發明係關於提供一資料集集合之一改良之分類。

本發明之一個目標係提供一種用於將自若干個源獲得之資料集分類之方法，該方法簡化定位該等資料集中之有用資訊。

此目標根據透過用於將自若干個源獲得之資料集分類之一方法達成之本發明之一第一變化形式，該等資料集由若干符號組成，該方法包括：判定一第一資料集集合中之符號之出現頻率，判定一第二資料集集合中之符號之出現頻率，基於該第一集合中之該出現頻率及該第二集合中之該出現頻率判定該第二集合之最高有效符號，根據該等最高有效符號在同一資料集中之出現而將該等最高有效符號分群成若干群組，及使用一等級排定方案關於該等符號群組排定該等資料集之等級。

本發明之另一目標係提供一種用於將自若干個源獲得之資料集分類之裝置，該裝置達成定位該等資料集中之有用資訊。

此目標根據透過用於將自若干個源獲得之資料集分類之一裝置達成之本發明之一第二變化形式，該等資料集由若干個符號組成，該裝置包括：一符號頻率判定單元，其經組態以判定一第一資料集集合中之符號之出現頻率且判定一第二資料集集合中之符號之出現頻率，一有效性判定單元，其經組態以基於該第一集合中之該出現頻率及該第二集合中之該出現頻率判定該第二集合之最高有效符號，一分群單元，其經組態以根據該等最高有效符號在同一資料集中之出現而將該等最高有效符號分群成若干群組，及一等級排定單元，其經組態以使用一等級排定方案關於該等符號群組排定該等資料集之等級。

本發明之另一目標係提供一種用於將自若干個源獲得之資料集分類之電腦程式產品，該電腦程式產品簡化定位該等資料集中之有用資訊。

此目標根據透過用於將自若干個源獲得之資料集分類之一電腦程式產品達成之本發明之一第三變化形式，該等資料集由若干個符號組成，該電腦程式產品包括一電腦可讀儲存媒體，該電腦可讀儲存媒體包括致使一電腦執行以下操作之電腦程式碼：判定一第一資料集集合中之符號之出現頻率，判定一第二資料集集合中之符號之出現頻率，基於該第一集合中之該出現頻率及該第二集合中之該出現頻率判定該第二集合之最高有效符號，根據該等最高有效符號在同一資料集中之出現而將該等最高有效符號分群成若干群組，及使用一等級排定方案關於該等符號群組排定該等資料集之等級。

本發明具有諸多優點。其達成定位資料集中之有用資訊。更特定而言，其允許獲得關於何種資料集對於關於該第二資料集集合之符號之各種群組而言係相關之資訊，此可係(舉例而言)在於消費者當中或在社會中分析趨勢時之一工具。以此方式，本發明透過關於各種群組調查資料集之等級排定來達成對資料集之各項態樣之分析。

應強調，術語「包括(comprises/comprising)」在用於本說明書中時經採用以規定所陳述之特徵、整數、步驟或組件之存在，而不排除一或多個其他特徵、整數、步驟、組件或其群組之存在或添加。

現在將關於隨附圖式更詳細地闡述本發明。

出於解釋而非限制之目的，在以下說明中陳述了諸如特定架構、介面、技術等特定細節以便提供對本發明之一透徹理解。然而，熟習此項技術者將顯而易見，可在背離此等特定細節之其他實施例中實踐本發明。在其他例項中，省略眾所周知之裝置、電路及方法之詳細說明以便不因不必要細節而使本發明之說明模糊。

圖1示意性地展示經由一電腦通信網路12連接至若干個電腦14、16、18及20之根據本發明之用於將資料集分類之一裝置10。此處，電腦14、16、18及20係其上提供有資料集之資訊源。此處，電腦通信網路12可通常係網際網路，此意指由各種源提供之資料集可係可免費獲得之源。因此，該等源可係公開的且可由連接至網際網路之任何電腦存取。然而，應意識到，本發明並不限於網際網路而是可關於任何電腦通信網路使用。裝置10有利地提供為具有對網際網路之此存取之一或多個電腦或伺服器。

圖2示意性地展示若干個資料集DS1、DS2、DS3、...DSn。上文所提及之源可各自具備一或多個資料集。在此實例中，資料集係包括原始資料D及後設資料MD之資料檔案或文件。原始資料D由諸如字之符號構成且可因此係(舉例而言)一文字，且後設資料MD係與原始資料D相關聯之資料，諸如一分級CL。一分級可係文字之類型或資料集之題目之一分類，且可包括對作者之指示、文字之一短摘要等。此一後設資料欄位亦可包括指示形成資料集、最後改變資料集或者使資料集可用或使資料集公開之時間之時間資訊T。因此，一資料集之原始資料欄位D可由若干符號構成。此處一第一資料集DS1係展示為包括一第一符號S1之兩個試樣、一第二符號S2之兩個試樣及一第三符號S3之一個試樣。一第二資料集DS2係展示為包括第一符號S1之兩個試樣、第二符號S2之一個試樣、一第三符號S3之一個試樣及一第m個符號之一個試樣。一第三資料集DS3係展示為包括第一符號S1之一個試樣、第三符號S3之一個試樣及第m個符號Sm之一個試樣。最後，一第n個資料集DSn係展示為包括第m個符號Sm之一個項目(item)。

此處，一符號通常係若干個字元(諸如文數字元)，該等字元形成為經由分離字元之一特殊符號(諸如一「空格」字元)而與其他符號分離之一實體。此處已有意限制符號之數目以便提供對本發明之一更清楚理解。通常，每一資料集包括再數個符號(常常係數千個符號)。此處，所展示資料集係包括所有所展示資料集DS1、DS2、DS3及DSn之一資料集集合C。該等資料集進一步劃分成若干部分，其中一個此種部分或子集合SC係指示為包括第一資料集DS1及第二資料集DS2。亦應意識到，一子集合SC或一整個集合C之部分包括再數個資料集。

圖3示意性地展示裝置10之結構之一方塊示意圖。裝置10包括連接至一資料集資料庫23之一資料集收集單元22。亦存在一符號頻率判定單元24。符號頻率判定單元24亦連接至資料集資料庫23以及一符號頻率資料庫25。此外，存在一有效性判定單元26。有效性判定單元26連接至符號頻率資料庫25及一有效性資料庫27。亦存在一分群單元28，分群單元28連接至資料集資料庫23、有效性資料庫27及一群組資料庫29。亦存在連接至資料集資料庫23及群組資料庫29之一等級排定單元30。最後，存在連接至資料集資料庫23之一位置識別符提供單元32。

以與包括執行所有該等單元之功能性之電腦程式碼之程式記憶體相關聯之一或多個處理器之形式有利地提供此等單元。此處亦應提及，作為一替代方案，可省略資料收集單元22及位置識別符提供單元32。

現在將後續接著參考先前所闡述之圖1至圖3以及圖4闡述如由裝置10所提供之本發明，圖4展示根據其來操作本發明之一方法之一流程圖。

當今可能在網際網路上存取巨大數目個不同資料集，諸如電子文件、網誌、論文、聊天論壇等。透過此等資料集提供之資訊係多種多樣的且可涵蓋一寬廣範圍之主旨。

由於可容易地存取此資訊，因此對其進行分析亦可係關注的，(舉例而言)以調查各個領域中之趨勢，如技術趨勢及政治趨勢。

然而，此無法在不以某一方式獲得達成此分析的資料集之一分類之情況下完成。

本發明之目標係處置此一情況，亦即，提供一種使得能夠進行此分析之用以將一資料集結構化並分類之方式。本發明之一項實施例係關於將一資料集集合結構化並分類以使得能夠對該集合之一部分(舉例而言，該集合的成為進行分析之一個所關注區域之一部分)進行一分析。

用於達成此之本發明之操作以資料收集單元22自各種資訊源14、16、18及20收集資料集(步驟34)開始。此處，所收集資料集構成至少一個資料集集合C，至少一個資料集集合C可然後儲存於資料集資料庫23中以供進一步分析。在本發明之一個變化形式中，收集一第一資料集集合及一第二資料集集合。

如上文所提及，資料集包括諸如基於字母或文數字元之字之符號。該等符號亦可包括其他類型之字元(諸如記號，如一井字號、驚嘆號等)。在本發明之某些變化形式中，此等符號可透過與其他符號分離(透過諸如一「空格字元」之一分離字元)之十六進位資料字元之一組合來形成。

為了達成資料集之分類，符號頻率判定單元24存取此資料集資料庫23且調查所有資料集。在此第一實施例中，其調查或判定一整個集合C中之符號之頻率(此處，所有資料集自各種源收集)(步驟36)。此意指判定且暫存每一符號在整個集合C中存在之次數。此外，可在不使用對資料集之任何先前分類之情況下執行該調查。因此，在無資料集分級或分類之情況下判定頻率。因此獲得一分類獨立符號頻率。然後，可將統計資料儲存於符號頻率資料庫25中。若圖2中之集合C係用作一實例，則此意指對於第一符號S1而言存在對此符號在所有資料集DS1至DSn中出現多少次之一判定。

然而，此並非所完成之所有操作。符號頻率判定單元24亦判定資料集集合C之一部分SC中之符號之出現頻率(步驟38)。因此，此部分係整個集合之一子集合。此處，亦可在不使用子集合之資料集之任何先前分類之情況下執行該調查。因此，在無資料集分級或分類之情況下判定頻率。因此獲得一分類獨立符號頻率。此意指判定符號在子集合中出現之次數。對於第一符號S1而言，此意指判定此符號在由第一資料集DS1及第二資料集DS2例示之子集合SC中出現之次數，此次數在圖2中之簡化實例中係三次。

子集合SC可係專用於一特定資訊區域之一子集合，諸如其中已書寫諸如技術、社會科學、運動、親職或健康等主旨之大量文字之一特定區域。子集合SC亦可係此一一般欄位(如美國或瑞典之政治等)之一部分。子集合亦可係根據資料集之類型(諸如網誌、聊天或電子文件)之一子集合。作為又一可能性，子集合SC可基於時間(舉例而言，一特定時間點(如特定一天)或一時間間隔(諸如一週、一月或一年))。可透過資料集之後設資料MD中之一分級設定CL來識別一子集合，此處該後設資料亦可包括開始與資料集相關聯之一時間的一時間T。亦應意識到，一子集合SC可基於(諸如一分級CL(如諸如政治之一分級))此等設定與時間之一組合。

然後，亦可將子集合中之符號之頻率儲存於諸如符號頻率資料庫25之一資料庫中。

一旦此已完成，則有效性判定單元26可能基於上文所提及之兩個頻率(亦即，基於整個集合中之出現頻率及該部分中之出現頻率)判定該部分之最高有效符號(步驟40)。在本發明之一個變化形式中，此可如此完成：由集合C之部分(一子集合SC)內之一符號之頻率除以整個集合中之同一符號之頻率。此處可能的係，最高有效符號係集合之部分中之頻率與整個集合中之頻率之間的比率高於一特定臨限值所針對之彼等符號，其中具有低於此臨限值之一比率之符號被視為較不有效的。亦可能採用機率。鑒於整個集合中之一符號之機率判定子集合中之同一符號之機率。以此方式，鑒於符號在整個集合中之發生，其在子集合中比可能情況更頻繁發生之符號被視為最高有效的。

此亦可用以下方式來數學地表達：

其中n_sc係子集合sc中之所使用符號之數目，w_jsc係符號j已在子集合sc中使用之次數，p_0j係自整個集合取出之一特定符號係符號j之機率，(1-p_0j)係所討論之符號不為符號j之機率，且p_1,jsc(k)係在假定符號j發生之次數遵循具有給定參數之二項式分佈之情況下，符號j在子集合sc中出現k次之機率。

然後，可將鑒於整個集合中之符號之機率子集合sc中之同一符號之機率判定為p_1,jsc(w_jsc)。

此後，可將結果儲存於有效性資料庫27中。

作為一替代方案，可能對第一集合及第二集合執行上文所提及之活動，其中第二集合可係一單獨集合。第二集合然後可與第一集合相關。若(舉例而言)第一集合與以一第一時間間隔(如特定一年)提供之資料集相關，則然後可能第二集合由以與該第一時間間隔具有一關係之一第二時間間隔提供之資料集(諸如在下一年中收集之資料)構成。該第二集合亦可視為(正如在第一實施例中一樣)第一集合之一子集合或子部分。

此後，分群單元28根據最高有效符號在同一資料集中之出現將該等最高有效符號分群成若干群組G(步驟42)。此意指形成符號之群組或叢集。可使用若干種不同類型之技術來形成此等群組。舉例而言，可能使用主分量分析、諸如華德(Ward)叢集之叢集或多維尺度法。亦可透過此等技術中之兩者或兩者以上之一組合來形成該等群組。然後，可將該等群組儲存於一群組資料庫29中。作為一實例，透過第一符號S1及第二符號S2來形成一個此種群組。

當此已完成時，等級排定單元30根據一等級排定方案關於符號群組排定資料集之等級(步驟44)。等級排定方案可基於資料集中的群組之符號之頻率。在第一實施例中所使用之等級排定方案中，包括一群組之較多符號之一資料集具有高於包括同一群組之較少符號之一資料集之一等級。此意指，作為一實例，第一資料集DS1經等級排定為高於第二資料集DS2，此乃因其包括第一符號S1之兩個試樣及第二符號S2之兩個試樣且總共四個此等試樣，而第二資料集DS2包括第一符號S1之兩個試樣及第二符號S2之一個試樣。因此，符號之絕對頻率在第一資料集DS1中比在第二資料集DS2中高。在此等級排定方案之一變化形式中，頻率係相對的且與資料集之大小相關。因此，等級排定方案之此變化形式採用絕對頻率/符號。此等等級排定方案係可使用之等級排定方案之僅幾個實例。應知曉，可能存在其他類型之等級排定方案。

此處，可針對資料庫23中之資料集儲存等級排定。

以此方式，感興趣之使用者可能瞭解一資料集集合C之一部分SC中之何種資料集對於諸如一特定分級之一特定主旨區域而言係最相關的。

此處，亦可能的係，位置識別符提供單元32針對排定為最高等級之資料集提供位置識別符(步驟46)。此可針對與一子集合或整個資料集集合之一部分相關聯之僅一個此種群組或若干個群組來完成。一位置識別符可(舉例而言)係統一資源定位器(URL)或至其上提供有資料集之電腦之某一其他指標。可針對資料集資料庫23中之資料集儲存此資料。因此，期望存取排定為最高等級之資料集之一使用者可具備資料集之位置識別符。

如自先前說明可見，本發明提供開端式偵測及包括符號之資料集中之字叢集之分類，其中該等符號可提供為文字資料。以此方式，可能獲得關於何種資料集對於關於一資料集集合之一特定部分之符號之各種群組而言係相關之資訊，此可係(舉例而言)分析社會中之趨勢時之一工具。因此，可能透過關於各種群組調查資料集之等級排定來分析一特定分類之各項態樣，此係有關一或多個此等態樣之相關資訊之定位中之一顯著改良。

裝置10可(如上文所提及)使用一電腦中之軟體實施。此外，此軟體可以一電腦程式產品之形式提供，舉例而言，在載入至一電腦中且由彼電腦運行時作為載送用於實施分類裝置10之單元之電腦程式碼之一資料載體。在圖5中大體勾畫呈一CD ROM碟之形式之具有電腦程式碼50之一個此種資料載體48之輪廓。一CD ROM碟係一資料載體之僅一項實例。其他資料載體(如記憶體卡以及硬碟)係可行的。

儘管已與當前被視作最實際及較佳之實施例一起闡述本發明，但應理解，本發明並不限於所揭示之實施例，而是相反，本發明意欲涵蓋各種修改及等效配置。因此，本發明將僅由以下申請專利範圍限制。

10‧‧‧裝置/分類裝置

12‧‧‧電腦通信網路

14‧‧‧電腦/資訊源/源

16‧‧‧電腦/資訊源/源

18‧‧‧電腦/資訊源/源

20‧‧‧電腦/資訊源/源

22‧‧‧資料集收集單元/資料收集單元

23‧‧‧資料集資料庫/資料庫

24‧‧‧符號頻率判定單元

25‧‧‧符號頻率資料庫

26‧‧‧有效性判定單元

27‧‧‧有效性資料庫

28‧‧‧分群單元

29‧‧‧群組資料庫

30‧‧‧等級排定單元

32‧‧‧位置識別符提供單元

48‧‧‧資料載體/電腦可讀儲存媒體

50‧‧‧電腦程式碼

C‧‧‧資料集集合/集合/第一資料集集合

CL‧‧‧分級/分級設定

D‧‧‧原始資料/原始資料欄位

DS1‧‧‧第一資料集/資料集

DS2‧‧‧第二資料集/資料集

DS3‧‧‧第三資料集/資料集

DSn‧‧‧第n個資料集/資料集

MD‧‧‧後設資料

S1‧‧‧第一符號/符號/最高有效符號

S2‧‧‧第二符號/符號/最高有效符號

S3‧‧‧第三符號/符號

SC‧‧‧子集合/部分

Sm‧‧‧第m個符號/符號

T‧‧‧時間/時間資訊

圖1示意性地展示用於將資料集分類且經由一資料通信網路連接至若干個電腦之一裝置，圖2示意性地展示一資料集集合，圖3展示用於將資料分類之裝置之一方塊示意圖，圖4示意性地展示由裝置執行之表徵資料集之一方法之一流程圖，且圖5示意性地展示根據本發明之呈包括用於將資料集分類之電腦程式碼之一CD ROM碟之形式之一電腦程式產品。