TWI443539B - 藉由權重字尾樹進行資料分析之方法 - Google Patents
藉由權重字尾樹進行資料分析之方法 Download PDFInfo
- Publication number
- TWI443539B TWI443539B TW101100592A TW101100592A TWI443539B TW I443539 B TWI443539 B TW I443539B TW 101100592 A TW101100592 A TW 101100592A TW 101100592 A TW101100592 A TW 101100592A TW I443539 B TWI443539 B TW I443539B
- Authority
- TW
- Taiwan
- Prior art keywords
- weight
- suffix tree
- nodes
- merged
- original data
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本發明是有關於一種藉由權重字尾樹進行資料分析之方法。
近幾年,社群網路的竄紅正改變著人們社交、消費模式。因此社群網路分析(Social Network Analysis)已成為一個關鍵技術。這是種透過資訊來對映及測量個人或群體的方法,它能利用社交資訊或行為之收集,來分析出不同情境下之個人或社群關係。
在社群網路分析領域中,影響力與訊息傳播等資料關聯性相關之分析為一熱門之新興研究領域。也就是,利用使者訊息在社群網路中傳播行為的關聯性來評估社群之中個別使用者影響力,實用價值高,最常應用在口碑行銷上。
先前技術多半針對影響力路徑進行研究,只著重於挖掘個別使用者間訊息傳播的路徑關聯性。因此,常造成所需探勘之資料量龐大,所分析出之結果較為複雜,不容易被利用。
此外,在天文領域中,各種星體的分類以及分群亦是非常重要得一環。近年來,更是不斷導入各種新型天文觀測及硬體技術,以在短時間內產生更精細完整的天文觀測資料。然而,卻因此使得天文觀測資料之資料亮更為龐大,不容易探勘出可用的資料。
因此,本發明之一態樣是在提供一種藉由權重字尾樹進行資料分析之方法,用以將權重字尾樹中之節點分為多個群組,以進一步藉由合併,整合權重字尾樹中之節點。藉由權重字尾樹進行資料分析之方法可實作為一電腦程式,並儲存於一電腦可讀取記錄媒體。於是,電腦存取上述電腦可讀取紀錄媒體後,可執行藉由權重字尾樹進行資料分析之方法。藉由權重字尾樹進行資料分析之方法包含以下步驟:
(a)接收至少一原始資料序列。其中,原始資料序列具有一原始資料序列識別碼,原始資料序列包含數筆原始資料。
(b)根據原始資料序列之原始資料,建構一權重字尾樹。其中,權重字尾樹包含數個節點,每一節點具有由原始資料序列識別碼所組成之一權重集。
(c)接收一群組資訊,用以將原始資料分為數個群組。
(d)根據群組資料,合併權重字尾樹之節點中屬於相同群組者。
(e)根據合併處理後之權重字尾樹進行資料分析。
應用本發明具有下列優點。可將權重字尾樹中之資訊簡化,並仍能保有各節點之權重集之資訊,可供資料分析。此外,由於應用本發明所產生之權重字尾樹較為簡化,因此可降低電腦根據其進行資料分析之運算複雜度。在本發明之一實施例中,可用社群網路中之影響力路徑作為原始資料序列,而應用本發明之藉由權重字尾樹進行資料分析之方法進行分析。在本發明之另一實施例中,可將天文觀測資料整理為資料序列之形式,並應用本發明之藉由權重字尾樹進行資料分析之方法進行分析。於是,可自複雜的社群網路中之影響力路徑或天文觀測資料,分析出較為簡化之資料關聯性。此外,可將分析出之資料進行輸出或顯示於顯示元件(如螢幕)上,方便使用者使用分析出之資料。另外,將原始資料分為多個群組而進一步進行合併。可使權重字尾樹更加精簡,且可藉由不同之群組分群方式修改群組資訊,而更有彈性的分析資料。
以下將以圖式及詳細說明清楚說明本發明之精神,任何所屬技術領域中具有通常知識者在瞭解本發明之較佳實施例後,當可由本發明所教示之技術,加以改變及修飾,其並不脫離本發明之精神與範圍。
請參照第1圖,其為依照本發明一實施方式的一種藉由權重字尾樹(weighted suffix tree)進行資料分析之方法之流程圖。在藉由權重字尾樹進行資料分析之方法中。將權重字尾樹中之節點分為多個群組,以進一步藉由合併。整合權重字尾樹中之節點。藉由權重字尾樹進行資料分析之方法可實作為一電腦程式,並儲存於一電腦可讀取記錄媒體中,而使電腦讀取此記錄媒體後執行藉由權重字尾樹進行資料分析之方法。電腦可讀取記錄媒體可為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之電腦可讀取記錄媒體。
其中,藉由權重字尾樹進行資料分析之方法包含以下步驟:
在步驟110中,接收至少一原始資料序列。其中,原始資料序列具有一原始資料序列識別碼,原始資料序列包含數筆原始資料。在本發明之一實施例中,原始資料序列由多個具傳播順序之原始資料所組成。參照第2圖,其為根據本發明之一實施方式的原始資料序列表。在第2圖之表中,其儲存有多個原始資料序列識別碼1~6之原始資料序列,可供步驟110接收。舉例來說,在原始資料序列識別碼為1之原始資料序列中,其所包含之多筆原始資料依序為A->B。在本發明之其他實施例中,原始資料序列由具其他類型順序之原始資料所組成,並不限於本揭露。
在步驟120中,根據原始資料序列之原始資料,建構一權重字尾樹。其中,權重字尾樹包含數個節點,每一節點具有由原始資料序列識別碼所組成之一權重集。參照第3圖,其為根據第2圖之原始資料序列所建構出之權重字尾樹。舉例來說,原始資料序列識別碼為1之原始資料序列可形成「A->B」以及「B」兩種字尾,因此其原始資料序列識別碼「1」記錄於節點201、202,以形成「A->B」。此外,原始資料序列識別碼「1」另記錄於節點203,以形成「B」。
在步驟130中,接收一群組資訊,用以將原始資料分為數個群組。在本發明之一實施例中,可將性質相似之多筆原始資料分類於相同群組中。舉例來說,可將A、B分類於C1,C、D分類於C2,E分類於C3。其中,上述分類可由使用者人工輸入而產生,或藉由演算法計算而產生,以供步驟130接收。
於是,在步驟140中,根據群組資料,合併權重字尾樹之節點中屬於相同群組者。其中,可先根據群組資料,將權重字尾樹之節點替換為群組中之對應者。於是,可第3圖之權重字尾樹在進行替換後,將形成第4圖之權重字尾樹。
接下來,可合併權重字尾樹之節點中屬於相同群組者。在本發明之一實施例中,可對權重字尾樹進行左右合併。第5圖為將第4圖之權重字尾樹之節點左右合併之一實施例。其中,可將替換後同為C1且位於相同階級(LEVEL)之相鄰節點204、205左右合併而形成新的合併後節點208,並可將替換後同為C2之相鄰節點206、207左右合併而形成新的合併後節點209。在合併過程中,可根據被合併之節點204、205之權重集「1,3,4,5」、「1,3」,產生合併後節點208之一合併後權重集「1,3,4,5」。此外,可將原先節點之子節點連接至合併後之節點。
在本發明之另一實施例中,可對權重字尾樹進行上下合併。第6圖為將第5圖之權重字尾樹之節點上下合併之一實施例。其中,可將同為C1且位於不同階級(LEVEL)之相連節點208、210上下合併而形成新的合併後節點211。在合併過程中,可根據被合併之節點208、210之權重集「1,3,4,5」、「1,3」,產生合併後節點211之一合併後權重集「1,3,4,5」。此外,可在繼續執行多次相連節點之上下合併或相鄰節點之左右合併後,產生第7圖之權重字尾樹。然而,在其他實施例中,以權重字尾樹之樹根(root)為起點,以其他順序進行上下合併或左右合併,並不限於本揭露。如此一來,可藉由合併減少權重字尾樹之節點樹,並保有權重集中所記錄之資訊。
在步驟150中,根據合併處理後之權重字尾樹進行資料分析。如此一來,可將權重字尾樹中之資訊簡化,並仍能保有各節點之權重集之資訊,可供資料分析。此外,由於應用本發明所產生之權重字尾樹較為簡化,因此可降低根據其進行資料分析之運算複雜度。
在步驟150之一實施例中,根據合併處理後之權重字尾樹之節點之權重集進行資料分析。舉例來說,由第7圖可知,由於C3->C2之序列可出現於原始資料序列識別碼「2」以及「6」之序列(其取自節點216之權重集)。因此,可分析出C3->C2之傳播順序最常出現,具有最高之群組相依關係。
在步驟150之另一實施例中,可根據權重字尾樹之至少一第一層節點之至少一子節點之至少一權重集進行資料分析。舉例來說,第7圖之權重字尾樹具有第一層節點212、213、214。由於節點212之權重集中具有最多之原始資料序列識別碼「1,3,4,5」,因此可分析出C1為可透過最多相異序列傳播資訊出去之群組。
在步驟150之又一實施例中,可根據權重字尾樹之至少一第一層節點之至少一子節點之數目進行資料分析。由於節點212、213、214之相異子節點數目皆為1。因此,視為節點212、213、214能傳播至相似數目之群組數量。
由上可知,應用本發明具有下列優點。可將權重字尾樹中之資訊簡化,並仍能保有各節點之權重集之資訊,可供資料分析。此外,由於應用本發明所產生之權重字尾樹較為簡化,因此可降低電腦根據其進行資料分析之運算複雜度。在本發明之一實施例中,可用社群網路中之影響力路徑作為原始資料序列,而應用本發明之藉由權重字尾樹進行資料分析之方法進行分析。在本發明之另一實施例中,可將天文觀測資料整理為資料序列之形式,並應用本發明之藉由權重字尾樹進行資料分析之方法進行分析。於是,可自複雜的社群網路中之影響力路徑或天文觀測資料,分析出較為簡化之資料關聯性。此外,可將分析出之資料進行輸出或顯示於顯示元件(如螢幕)上,方便使用者使用分析出之資料。另外,將原始資料分為多個群組而進一步進行合併,可使權重字尾樹更加精簡,且可藉由不同之群組分群方式修改群組資訊,而更有彈性的分析資料。
雖然本發明已以實施方式揭露如上,然其並非用以限定本發明,任何熟習此技藝者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
110~150...步驟
201~217...節點
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:
第1圖為依照本發明一實施方式的一種藉由權重字尾樹進行資料分析之方法之流程圖。
第2圖為根據本發明之一實施方式的原始資料序列表。
第3圖為根據第2圖之原始資料序列所建構出之權重字尾樹。
第4圖為根據群組資料進行替換後之權重字尾樹。
第5圖為將第4圖之權重字尾樹之節點左右合併之一實施例。
第6圖為將第5圖之權重字尾樹之節點上下合併之一實施例。
第7圖為將第6圖進一步合併處理後之權重字尾樹。
110~150...步驟
Claims (9)
- 一種藉由權重字尾樹進行資料分析之方法,包含:(a)接收至少一原始資料序列,其中該原始資料序列具有一原始資料序列識別碼,該原始資料序列包含複數筆原始資料;(b)根據該原始資料序列之該些原始資料,建構一權重字尾樹,其中該權重字尾樹包含複數個節點,每一該些節點具有由該原始資料序列識別碼所組成之一權重集;(c)接收一群組資訊,用以將該些原始資料分為複數個群組;(d)根據該群組資料,合併該權重字尾樹之該些節點中屬於相同群組者;以及(e)根據合併處理後之該權重字尾樹進行資料分析。
- 如請求項1所述之藉由權重字尾樹進行資料分析之方法,其中步驟(d)包含:將該權重字尾樹之該些節點替換為該些群組中之對應者;以及將替換後之該權重字尾樹中相鄰節點為相同者合併為至少一合併後節點。
- 如請求項2所述之藉由權重字尾樹進行資料分析之方法,更包含:根據被合併之該些節點之該些權重集,產生該至少一合併後節點之一合併後權重集。
- 如請求項1所述之藉由權重字尾樹進行資料分析之方法,其中步驟(d)包含:將該權重字尾樹之該些節點替換為該些群組中之對應者;以及將替換後之該權重字尾樹中相連節點為相同者合併為至少一合併後節點。
- 如請求項4所述之藉由權重字尾樹進行資料分析之方法,更包含:根據被合併之該些節點之該些權重集,產生該至少一合併後節點之一合併後權重集。
- 如請求項1所述之藉由權重字尾樹進行資料分析之方法,其中步驟(d)包含:將該權重字尾樹之該些節點替換為該些群組中之對應者;以及將替換後之該權重字尾樹中相鄰節點或相連節點為相同者合併為至少一合併後節點。
- 如請求項1所述之藉由權重字尾樹進行資料分析之方法,其中步驟(e)包含:根據合併處理後之該權重字尾樹之該些節點之該些權重集進行資料分析。
- 如請求項1所述之藉由權重字尾樹進行資料分析之方法,其中合併處理後之該權重字尾樹之該些節點包含至少一第一層節點,且步驟(e)包含:根據該至少一第一層節點之至少一子節點之至少一權重集進行資料分析。
- 如請求項1所述之藉由權重字尾樹進行資料分析之方法,其中合併處理後之該權重字尾樹之該些節點包含至少一第一層節點,且步驟(e)包含:根據該至少一第一層節點之至少一子節點之數目進行資料分析。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101100592A TWI443539B (zh) | 2012-01-06 | 2012-01-06 | 藉由權重字尾樹進行資料分析之方法 |
US13/542,679 US8843521B2 (en) | 2012-01-06 | 2012-07-06 | Method for analyzing data utilizing weighted suffix tree |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101100592A TWI443539B (zh) | 2012-01-06 | 2012-01-06 | 藉由權重字尾樹進行資料分析之方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201329754A TW201329754A (zh) | 2013-07-16 |
TWI443539B true TWI443539B (zh) | 2014-07-01 |
Family
ID=48744655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101100592A TWI443539B (zh) | 2012-01-06 | 2012-01-06 | 藉由權重字尾樹進行資料分析之方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8843521B2 (zh) |
TW (1) | TWI443539B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8493249B2 (en) * | 2011-06-03 | 2013-07-23 | Microsoft Corporation | Compression match enumeration |
CN106406833B (zh) * | 2015-07-30 | 2020-09-01 | 北京京东尚科信息技术有限公司 | 一种提供数据的方法和装置 |
CN113670609B (zh) * | 2021-07-21 | 2022-10-04 | 广州大学 | 基于灰狼优化算法的故障检测方法、系统、装置及介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5953006A (en) * | 1992-03-18 | 1999-09-14 | Lucent Technologies Inc. | Methods and apparatus for detecting and displaying similarities in large data sets |
US7418455B2 (en) * | 2003-11-26 | 2008-08-26 | International Business Machines Corporation | System and method for indexing weighted-sequences in large databases |
US7941420B2 (en) * | 2007-08-14 | 2011-05-10 | Yahoo! Inc. | Method for organizing structurally similar web pages from a web site |
US8131722B2 (en) * | 2006-11-20 | 2012-03-06 | Ebay Inc. | Search clustering |
US8676815B2 (en) * | 2008-05-07 | 2014-03-18 | City University Of Hong Kong | Suffix tree similarity measure for document clustering |
WO2011056086A2 (en) * | 2009-11-05 | 2011-05-12 | Google Inc. | Statistical stemming |
-
2012
- 2012-01-06 TW TW101100592A patent/TWI443539B/zh active
- 2012-07-06 US US13/542,679 patent/US8843521B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
TW201329754A (zh) | 2013-07-16 |
US8843521B2 (en) | 2014-09-23 |
US20130179393A1 (en) | 2013-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kosinski et al. | Mining big data to extract patterns and predict real-life outcomes. | |
Low et al. | Trend and impact of international collaboration in clinical medicine papers published in Malaysia | |
Al-Taie et al. | Python for graph and network analysis | |
CN111831802B (zh) | 一种基于lda主题模型的城市领域知识检测系统及方法 | |
JP6247775B2 (ja) | 時系列予測装置、及び時系列予測方法 | |
Bilal et al. | Profiling users’ behavior, and identifying important features of review “helpfulness” | |
Mena et al. | On the Bayesian mixture model and identifiability | |
Basov et al. | Social networks and construction of culture: A socio-semantic analysis of art groups | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN105426392B (zh) | 一种协同过滤推荐方法及系统 | |
Jiang et al. | Understanding Chinese online users and their visits to websites: Application of Zipf's law | |
TWI443539B (zh) | 藉由權重字尾樹進行資料分析之方法 | |
Frieze et al. | Some properties of random Apollonian networks | |
Singgalen | Social Network Analysis and Sentiment Classification of Extended Reality Product Content | |
CN112069227B (zh) | 一种面向事件序列的因果建模方法及装置 | |
Hong | Qualitative chance discovery–Extracting competitive advantages | |
Burns et al. | Towards qualitative geovisual analytics: a case study involving places, people, and mediated experience | |
Marwick | Discovery of emergent issues and controversies in anthropology using text mining, topic modeling, and social network analysis of microblog content | |
Liu et al. | Social network analysis using big data | |
Schindler et al. | The computational turn in online mental health research: A systematic review | |
Hamid et al. | A fast heuristic detection algorithm for visualizing structure of large community | |
Park et al. | Understanding the network fundamentals of news sources associated with a specific topic | |
Yu et al. | Knowledge diffusion trajectories of PageRank: A main path analysis | |
Kanchana et al. | Stress detection using classification algorithm | |
Korkmaz et al. | Approximate contagion model of common knowledge on Facebook |