TW201033823A

TW201033823A - Systems and methods for analyzing electronic text

Info

Publication number: TW201033823A
Application number: TW098140575A
Authority: TW
Inventors: Ying Chen; Larry Proctor; William Scott Spangler
Original assignee: Ibm
Priority date: 2008-12-09
Filing date: 2009-11-27
Publication date: 2010-09-16
Also published as: US8606815B2; US20100145940A1; WO2010066616A1

Description

201033823 六、發明說明：【發明所屬之技術領域】 —本揭露之實施例係料處理領域，舉例而古路之實施例係關於分析電子文字的系統及方法。島【先前技術】 ❹ 大部分的讀認為擁㈣大的品牌是公司的一 f^此’許多企業試圖追縱公眾對其品牌的印象並包八 ^及===名ί著===聲追祕限於新聞 ^ X — 現者世界、，祠、、各與顧客產生媒體(CGM) 口牌印部落格、新聞討論區、訊息板、及網頁/網路，二耳相似f知行航轉變錢過視覺廣告的耳才傳及/或有關品牌的個人刊登及評價的累積。 -八f此丨右不手動對在網際網路上找到複數個個人印象進 ri關ίί，ϊ的分析無法正確地決定品牌的價值。因於I法S 7銷的策略決定及其他品牌相關的決定會受限於,，，、法正確決定Α眾對品牌的印象的能力。【發明内容】本=贿純分析奸文字的_及綠。在一實施歹1本方法包含接收來自複數個來源的電子文字。本方法 ίίΐίίίΐ電子文字中辨識的至少一個相關字囊。本方數^少—個侧字彙的電子文字内辨識複數個置。本方法亦包含針賴數恤置的每餘置，在電 4 201033823 子文件該至少-個相關字彙的位置的周圍，自文字區段建立個片#又。本方法更包含自該片段替該至少一個相關字彙建立多個分類，其巾分類包含至少—個_。本方法亦包含決〜定多個分賴的共同發生性，以決定多個分鮮的不同分類學其類別間的相關性。在此所示的實施例並不限定本發明，而僅提供範例幫助了解本發明。所示實施例係在實施方法中做討論，本揭露的料亦在該部分作描述。本揭露之許多實施例所提供的優勢 ❹ 可透過本說明書而得知。【實施方式】本揭露書的實施例一般係關於資料處理系統的領域。舉例而言，本揭露書的實施例係關於分析電子文字的系統與方法。為了解釋本發明，描述中所提供的許多特定細節，係用來使热此技藝者了解本揭露書。然而，熟此技藝者當知，本揭露書無需某些特定細節亦可實施。在其他範例中，以方塊〇圖的方式顯示習知架構與裝置，係為了避免模糊本揭露書的基本原則。在一實施例中，本系統實施一種分析方法，以找出主要品牌印象的洞悉，而無須任何先前知識。本系統包含具有分析能力的嵌入式套件，可做品牌與名聲分析。分析電子件二 ^法可包含多個從CGM内容產生有用的分類的方法，以及萃選涊知的品牌特徵的方法。此技術的特殊設計在於其可用本身的内容品質問題(例如錯誤拼音、文法等），挖掘部落格以及網路資料。然而，此技術可簡易地適用於其他較好的内 5 201033823 谷來源，例如科學文獻與書刊。建立分類在實知例中’本糸統自大型的（large corpus)網路資料萃取一既定品牌的洞悉。為了瞭解大型的資料，人類通常 =利用不同的分類。分類是以「自的方法，將非結構的 =貝料的類似元件群組化，並將大型文件組合分類的結構。因此自網路資料衍生而出的洞悉可減化為以可增加價值的方式，建立網路資訊的類似元件的群組的問題，即多個分類。。《牌印象分析需要得以決定並建立可幫助了解顧客的品牌印象的正確分類。在—實施例中，需要四個分類有效地自、周路> 訊中找出有用的品牌印象知識其中每個分類具有自己特殊的產生技術。此四個分類包含：文字叢集為主的分類；時間為主的分類；_字分類；以及意見（sentiment) 分類。沒有-個單躺分類或獨自產生此分_方法，係足以了解品牌印象’但是許多料的結合建立-财力的格式，得以自網路資料中以穩定且可重複的方法找出品牌洞悉。以下描述此四個分類。圖1繪示產生並概述分析電子文字的分類的系統1〇〇。本系:統100—般包含片段（snippet)產生模組1〇1、文字叢集核組102、時間為主的分賴組1G3、雜字分類模組 1〇4、意見為主的分類模組1〇5、共同關聯性模組〖％、以及概述模組107。本系統100的片段產生模組1〇1建立電子文字的片段或邛伤供分析之用。電子文字的一個型態，即網站内容，通常 6 201033823 有雜訊。在-文件中，朗容可能涵蓋許多铁 „分析標的相關。為了更精準的分析商業情；中、的文予’電子文件的片段係自吸收後的網路資料產的片段係指特定騎字周_小文字區段。在—實施= 由句子界線所決定。在另-實施例中’文字區段人、由早子數、字讀、或句數決定。舉例而言片段可包 :相關字彙前㈣子、侧字彙後的句子、以及包含相關字謂的相關字彙係指有關特定主題及/或品牌/公司名稱 ❹ 露二t〔蔣一 ΐ而言：片段係建構於相關字彙周圍。雖然本揭二返將文件轉換為#段’但任何電子文件皆可被轉換，其 1¾網頁、部落格、或討論區刊登文章。、、文字叢集為主的分類本系統100的文字叢集模組1〇2建立文件/電子文字的應在—實施例中’使用者可能不知道文件收集哪&分類但在其他實施例巾，㈣者可能以基本 =#由將具有類似文字内容的文件夕*隹文子叢集可將許多文件作一個初步的分解，建立許夕最集。，了促進文字叢集，本發明可在向量空間模型中呈現文旦水主-實ί例巾每個文件可以文件特徵的加權頻率的向 =a曰不。範例文件特徵包含文字、片語、及字元字串。建 J ί日守文子叢集模組102利用正規化（normalized)字 =員二(txn)加權方式’ _文件巾具有高頻率的文字，以正個文件向量，具有單元歐幾里德基準(即每個向量的 7 201033823 舉例而言，建立文件向量時，若文件完全包含句子「我有香蕉，細今天沒有錢」，而字彙字典僅包含二個字彙「香黨」與「今天」，則非正規化文件向量會，二個「香»」與—個「今天」）。向量的正規化版會是[2/ 々圖2繪示文字叢集模組1〇2替文件建立特徵空間（字典）的，例方法200。本方法始於2〇1，模組1〇2透過計數文字中最常出現的字彙’決定哪些文字及片語組成文件特徵。在一實施例中’敎字出現在最多組成電子文字的文件中，則此文字係最常出現的文字。本方法繼續進行到2〇2，模組1〇2 移除不相關的通用字。在-實施例中，模組1〇2利用桿準的「停止文字」清單移除通用字’例如「一個(an，a)」、「以及 (and)」、「但是(but)」與「這個(th勻」。本方法繼續進行到203，移除停止文字後，模袓1〇2保留的最先的N個文字。在-實施例中，N值可根據欲建立的文件長度、文件數量及/或類別數量而改變。在另一實施例中，N可由使用者指定或為系統所儲存的靜態值。在N值可變的範例中，N=2000足夠200個文字的1〇〇〇〇個短文件分成30個類別。本方法繼續進行到204,模組102第二次閱讀電子文字，利用203的最先的N個文字，算出此二文字片語所發生的頻率。在一實施例中，二個文字片語係定義為沒有介入文字的二個連續文字，此介入文字不是停止文字。在另一實施例中，模組102搜尋具有二個文字以上的片語。本方法繼續進行到205 ’模組102接著修整N個常用文字的整體清單 8 201033823 ，204找到的此二個文字片語，以保留片語。N個最當爾古今也，』取㊉用文子與血/一眚A 子/、片語係文件主體的特徵空間（字 i’使用者可根據需求編輯此特徵空間(字片、π H纟集效能’㈣增加制者認騎f的文字斑同義% i 102整合詞幹以建立使用者可編輯的預設 ❹ ❹

在建立特徵空間（字典)後，模 2=)替文件作㈣，以建立文件向量H 文件作索引以成類別的範例方法3〇〇。在：鍵字分類’如下詳彙t J 模組102自所選獨立字彙中選出錮別。使用較前可能不知道相關字彙。因此―你模組102根據凝聚度（cohesi ) 貝也'中，尋到的字彙作優先辩的：方菜’其中凝聚度是利用方程式1算出： cos(centroid (Γ), χ) c〇hesion(T,n) = ^____ 〇) 其中T為包含既定字彙的文件， Π平ΐ向量广η為用來調整。類別大小的變數在一實施例中’ η —般等於〇9。 2 文件向量X與γ之間的餘弦矩離係定義於方程式 CO狀 y) Χ·Υ 丽 (2) 201033823 取得較高分數的字彙係具有❹通用字的 =二子彙。下調η將產生更多—般字彙，具有更大的匹配集口，而上調會有較多特定字彙。方Ϊ繼續進行到303 ’模組102將文字放在每個適當 ’，。在排列字彙的優先順序後，在一實施例中，模組選擇足夠的最具凝聚度的字彙，以分類附g%的資料、。子彙可以凝聚度順序方式作選擇’跳過在清單中不 φ ❹ 作分類的字彙新增許多額外範例的字彙(例如 ΐ姑實施例中’當至少齡°㈣料已被分類且未被刀類的|巳例被放在「雜項」類時，本系統1〇〇暫停選擇。模組102接著對所產生類別中的文件，使用k機制每個二—重複，以修飾3〇4中的類別會員資格(即在取近距心（centroid)的類別，如剛剛所 =資格所計算的結果)。因此，包含不只一：; 體字彙内容的類另J在實施例令’所建立的叢集係利用單一字此字彙係用來建立叢集，因㈣免_的命名問題。’ 此文字叢集為主的分類代表有關特定品牌或品腺隹八 :」。這允許分析師了解顧客^ί :::二最常用的關鍵字或片語的完整範团㈤丨類別=0字3叢建集為外主=:利用時間為主的 ⑽建立關鍵字分類、及/或利用;見為主的 201033823 立思見為主的分類，如下逃。時間為主的分類以時間為主的分類係利用

「依時間先後連續」的類別。^_ ’將文件分為主的__建，為====:寺間J 送’由歡1()3作週期二〇 ❹ 模組⑼接著將模組ι01 = 主^^f續進行到·，下述。’ 生時間為主的分類的方法有很多，如依照行事曆作分區不限ί據可利用人為劃分，其包含但中，〇個類別即足夠。對二實2 依吨天作Λ 橫跨一個月的資料而言，資料可 ^ 區为。仃事曆為主的分區適合使用者卹八出趨別，是資粗~Γ、然有趣的事件可跨越多個類一或多一 Γ固=可以一團一圓（dum_重偏移)的方式分為採樣大小為主的分區等大::::，Jdata :〜ing)，模組⑻可建立相的_。在一實施财，模組103針野預定類別，建 201033823 立索引，料。類別數可獨立於資料。在一範例中，若類別數為十，模組103依照時間先後排列資料，並將資料分為十個大小差不多相同的類別，每個類別具有時間相對相同的資料。採樣大小為主的分區可找到長時間下所產生(或消失)的主題。每個類別可橫跨不同時段，因而導致使用者更難評論。已知事件的分區 ❹ ❹ 及時發生的特定事件可被建立並簡易的辨識，其包含但=限於產品發佈、與公司或品牌相_新聞事件、及/或會議/貿易展。在一實施例中，模組1〇3將資料區分為三個主要 =:事件之前、事件_、與事狀後。此方法可幫助決定時間為主的分區是否與資料串流中某要f事件相關。因此’使用者可視覺化並了解分區及資料’因為僅有三個類別。關鍵字分類在一實施例中，分類可僅根據純粹關鍵字此，關鍵字類別模組104可自許多關鍵字建立分類。=八= 的-範例係與品牌或公μ齡關(例如既定產業的品ς 公司或目標触顧客群）。通常料名_制者所知名稱。在-實施例中’透覽模組搬所建立的字或透過預先設立的方式，皆可找到名稱。于/、、在U例中，品牌/公司名稱分類中的類別數— 等於關鍵子數加-。此二個額外咖為：⑴「勺、含未提及任何品牌或公司的片段(如果有的話）；以及= 係包含提及不只-個品牌冷司名稱的片段。2模，組可以蚊何時發生不同於討論特定品牌或公/的& (例如表不市場性的問題而非公司/品牌特定關題卜 12 201033823 ，了时牌/公司分類之外，其他類型的關鍵字分類可由關，字類別模la ! 〇4 _使用者的領域相關性作開發。舉例而。’魏問題」為主的關鍵字分類可由關鍵字類別模組利用主要顧客不滿_字作定義，其包含但不限於回應 f m務不週等’以建立分區。關鍵字分類可捕捉先前對頁客係，緊的任何問題’雖然關鍵字本身可能需要被修飾， =配資料中所顯示的觀念。在電子文字中，「發燒問題」字彙的發生係要緊的’不管在歸巾其整體普遍性為何。

意見為主的分類意見分析餘得品牌或公司印象洞悉的技術。意見分類可分為正面意見、中立意見、及負面意見。在—實施例中，本系統100的意見類別模組105實施統計意件分析方法以測f每個片段巾的字彙所表達的正面/負©等級。模組105 接著產生數字分數，並根據此分數將片段分為正面/ 面類別。貝為了打分數並區分片段，意見分數係針對片段中的字彙而產生。圖5繪不本系統1〇〇的意見類別模組1〇5替字彙記分’以替片段記分（score)並替片段作分類（categ〇rizen 的範例方法500。本方法始於50卜在一實施例中，模组ι〇5 利用至少一個外部自然語言處理(NLp)資源，建立正面面文字的清單。二個細NLP _包含⑴關者資料^以及(11)文字網。在另-實關m財使_部字典。詢問者資料庫包含大於4000個特殊文字，大部容詞。每個文字定義約二百個布林屬性。有些屬性;= 定此文字大多是用於正面或負面意義。文字網係線上字典^ 201033823 考系統^此系統係由目前人類語詞記憶的心理語言學說設計而成。英文名詞、動詞、及形容詞被整理成同義字集合，每個集合代表一個基本觀念。

一實施例中’模組105根據詢問者決定文字網中的每個字彙，是否其大部份的同義字是正面(或貞面），並接著將原始文字標記為正面(或負面）。在—範例中，本系統建立包含1905個正面字彙與2282個負面字棄的基本清單，替意見記分之用。比較二個NLP資源時(例如19〇5個正面文字清早^ 2282個負面文字清單），模組1〇5可接收先前決定的正面與負面文字清單的結果。在501建立正面與負面意見文字後，模組ι〇5在$的建 ^囊的意見程度。為了測量使収面/負面文字的不同片、=文件之間的意見相對程度’在一實施例中，模組透 ϊίΐίΤΐ找出文字的字典定義’並將該文字的意見分數 .·、、疋發生正面意見文字與負面意見文字之間的不 =。’=將見文字所表達的正面/負面意見的程度特徵 JL白4〜施例中若文子出現不只—次’則此文字本身在二2·^中僅計數一次，而其他正面/負面文字則每次 ^ n找。本發縣進—步的修飾，係僅使用形容詞或名詞疋義，且不考慮其他部分的言詞定義。本發明繼續進行到5〇3，模組奶將此分數除以定義的 i音見3規1匕意見分數。此分數表示每個文字所包含的相 =十三個正面文字。「特赦(__)」具有 .25的正因為五個正面文字中包含其四個定義。 201033823 替原始文字清單中的負面/正面意見文字記分的方法，可用於替文字叢集躺所產生的字典巾的任何文字記分。根，其疋義中的正面與負面文字，每個文字可具有正面及負面 -種影響。目此射紗意見分㈣侧影響，可能比原始正面/負面文字清單中的文字來的小。在一實施例中，文子網（WordNet)内沒有定義的文字會被忽略而不做意見分析。在模組105可存取片段中的字囊或文字的意見分數後，組K)5可將片段記分並作分類，以進行意見分析。圖 6緣不思見綱模組1G5彻記分文字分則段的酬方法 _。本方法始於6(Π，模組105辨識一片段中所有的正面文字。本方法繼續進行到602，模組105接著將片段中所有的正面文字的正面文字意見分數進行加總。於6〇3，模缸1〇5 辨識片段中所有的負面文字。本方法繼續進行到綱，模組 1〇5接著將片段中所有的負面文字的負面文字意見分數進行加總。模組105接著於605決定正面分數的總和與負面分數的總和之_差異，以建立此片段的意見分數。此分數除以此片段的長度的開根號，以在6〇6進行正規化。本方法繼續進行到607，模組105接著排序片段，以將電子文字做分區。在一實施例中，模組1〇5可根據片段 ?分數’⑯片段排序分成五分之一作排序。•组1〇5接著：最底部的五分之一視為負面類別，最頂部的五分之一視正面類別，以及三個中間的五分之一視為中立類別。在另二施例中，片段係分成三分之-、四分之―、或使用者事先決疋的其他分類作排序。 15 201033823 使用分類些類的分後’必須知道每個分類中有哪定不同分類學中2中’系統100的共同關聯性模組決字類別可化㈣A別之間的共同關聯性。舉例而言’關鍵 =二=:的類別有許多重她件或片段。模之間的任何不尋常的H字^：=，以決定字棄與類別 ❹ ❿ 視覺二繼制，(段e到彼此之間及類別距心的距離公 3 所示：制（cosme S1milarity metric ) ’ 如方程式相似性=cos((9) = i^ π、 IMIW (3) 最近i心:文件或片段無須屬於其析類沭埴h lfV7 4 α 貫知例中’糸統100的概 =/條狀圖，㈣助解釋—_⑽包含的個條狀物代細财包含崎_ 3’第一率。此等條狀物伽第-與第二條狀物間的差祕漸減的排 16 201033823 列，使-類別中最要緊的特徵會—在該_ 此，此圖快速地概述一類別中的要緊特徵’此特徵緊性係以圖的大小表示之。在其他實施例中，概要模組ι〇7 了建立其他的視覺工具，例如派形圖、落點圖等等在一實施例中，模組107亦可根據「最典型」 ❹ ❿ 不典型」優先的標準排序文件。以向量空間來說，模^浙係以到類別距心的距離作排序（即最典型為最靠近距、心，不典型表_如最遠）。以最典型_序_ 使用者快速了解此類別，而不用讀取此類別中所有 ^ 閱讀最不典型的文件可幫助使骑了解此_的範圍，以及是否有概念上的減(即文収骑在於其不胁的類別）。在-實施例中，概述模組1〇7亦可幫助決定類的共同發生性以及字典對類別的共同發生性，如下述'。類別/類別共同發生性 ^概述類別時，概述模組107可建立類別對類發生性，以比較不同的分類，找出哪裡有超乎」聯性。在-實施财，此_顧過朗發生㈣表)作視覺化，此列表顯示在二個不同的何分佈於各類別的所有結合。丁貝1•叶疋如何圖7繪示範例_字類別對意見類別共表·。挑戰是決定哪缝字是有意的。舉例的，絲中雜項 /t立的β儲存格數值是大的(49〇)，因此表示可能有要、係。但是’此儲存格亦對制分類中最切類別。因此，、需 17 201033823 字是否比預期中來的大，而不依賴儲存 -個預見與品牌中的儲存格中，會預期找到次S百=等於χ*γ ’其中x為既定意見所發生的 ❹ 個例外的;值為:二為的=牌:發生的次數的百分比。一 it主+ ίΑ於的數值’表示比預期更強的關聯性。段數i皆二母個儲存格皆不同’因為每個意見與品牌的片隸ίί ’模、組107可透過利用卡方測定，替共表中不同的數值找出相關的重要性，例如區分在一儲存格中出現5是否 ^在另-個儲存格中出現1G來的更有意義，卡方測定係計算共表中i存格内看見任__特定數值的可能性的統計測驗。此可能性越小，則此數值越不可能，則在資料探勘的角度來說就越有意義。當儲存格中出現非常低數值的可能性時’則表示原本認為分類間不存在任何關係的假設是不正確的。共同關聯性並不代表類別間一個確定的關係，但可透過表不一區域需要進一步的調查，而幫助揭露一個關係。在一實施例中，模組107可將共表中的儲存格作陰影，以表示替儲存袼中的數值所計算出的可能性。字典/類別共同發生性模組107利用比對片段或文件的分類與文字叢集模組 102在文字叢集期間所建立的文字字典’分析另一種類型的共同發生性’稱做字點對類別的共同發生性。在一實施例 18 201033823 ^二典對細共表包含幾行賴類職制字央文予母的順序排列。圖8繪示範例： =’f別可包含時間、關鍵字、與意見。利用二:類不的儲存格），即可回答許多商業問題，包含：有目k 1. 最近在資射發生哪些要緊關題(時間比字典^ ❿ ❹ 2. 哪些問題係與特定公或品牌細(_字比字典)？ U)，題是對—既定品牌有負面/正面評價（意見比可叢集可，網路中具有意見的較大標題及主題卞内所發生的問題。因此，字典共生性可填補這個2間系統與方法實作的範例電腦架構本上9丨：示實施圖M以及以上揭露書所描述的系統盥方卢理ϋ =腦架構。圖9的範例運算系統包含·· 1)一或多個二二人’ 2)記憶體控制中心(MCH) 902 ;3)系統記憶體 (可〇 3不同類型，例如DDR RAM、EDO RAM等）.α ΓοΓ·入/輸出控财心_”05 ; 6)圖像處理器 (CRT)^；t ，、免日日體(TFT)、液晶顯示器(lcd)、DPL等）；以及一或多個輪入/輸出裝置908。軟體術處理器9G1執行指令，以運作運算系統實施的式。此指令通常涉及對資料的運算作業。資料與知々一者係儲存於系統記憶體9〇3與快取9〇4中。快取卯4 19 201033823 一般的設計係與系統記憶體903相比，具有較短的延遲時間。舉例而言’快取904可整合於與處理器相同的矽晶片及 /或建構有較快的SRAM記憶胞，而系統記憶體903可能建構有較慢的DRAM記憶胞。由於快取904中所儲存的指令及資料比系統記憶體903内的指令與資料更常使用，因而得以改進運算系統的整體效能。

系統s己憶體903在運算系統中可供其他構件使用。舉例而言，自許多運算系統的介面(例如鍵盤與滑鼠、印表機連接槔、LAN連接珲、數據機連接埠等)所收到的資料、或自運算系統内部儲存元件(例如硬碟機)所擷取的資料，通常被一或多個處理器901運作於軟體程式實作前，會先 9〇3。類似地，軟體程·為應自運算系通常會在被傳輸或儲存前，先暫時仵列於= ICH 905係負責確保此資料在算系統介面(以及内部儲存裝置樣设相話）間的正確傳輸。Μ 糸統疋廷 9〇卜介面與内部儲存元件之 =貝管理處理器 903的存取請求。此相互發生對系統記憶體一或多個I/O裝置9〇8亦裝置-般係負責自運算系統(例如f 運mi/o 内大型的非揮發鍺存 )或替運算系統本身與I/O裝置_之間，轉資料。咖905在其门具有雙向點對點鏈結。 20 201033823 參照圖l ’所述系統的不同實施例中的模組可包含軟體、硬體、知體、或任一結合。此等模組可為可供大眾使用的軟體程式、或可供執行專有或公用軟體的特殊或一般目的，理器使用。此軟體亦可為特殊化的程式，此程式係特別為 f名檔建立及整理與重新編輯管理所編寫的程式。舉例而言，本系統的儲存器可包含但不限於硬體(例如磁片、光碟片、CD-R0M、與磁光碟片、ROM、RAM、EPROM、快閃、磁性或光學卡、傳播媒體或其他類型的媒體/機器可讀媒，）、軟，(例如要求硬體儲存單元上的資料賴存的指令) 或任’結合。以件亦可以機11可讀媒_型態實施， j存機&可翻令。鋪可讀雜可包含但祕於磁片、光碟片、CD_R〇M、及磁光碟片、ROM、RAM、EPR〇M、卡、侧媒贼纽_可齡電子指令的媒體/機盗可讀媒體。 7 圖2-6所示的範例方法中，本發明的實施例可包含 ’已如上述。此等程序可實施於機器可執行，^ :般目的或特殊目的處理器運作某些步驟。或 :致 i可體構件運作’此等構件包含運作程序的硬ίϊ 輯’或由程式㈣電腦構件及客製化硬體構件運作之硬k 可瞭有：序，熟此技藝者當程序，或使用在此未程而序不使用在此所述的特定一般 201033823 上述實施例僅係用來描述並露於所示型態。熟此技藝者當對 i不限定本揭而不偏離本發明之精神與範7對實施例作許多潤飾及修改【圖式簡單說明】本發明的此等及其他特徵、面向實施方法伴隨圖式而得知，其中：〃勢將可透過以上圖1綠示產生並概述分析電子文字的分類的系统； ❹ ❹ 圖2繪示由圖i的系統的文字^ 徵空間(字典)的範例方法； U件所建立的特圖3繪示_ 1的祕的文字叢親麵的範财法，· 成圖4繪示目1的祕的時間為主的的分類的範财法；、建立時間為主圖5緣示圖1的系統的意見類聰組將段並分類片段的範例方法；菜。己刀以δ己刀片圖6繪示圖1的系統的意見類職組利用圖記分字彙將片段做分類的範例方法；與意的系統的概述模組所建叫範例關鍵字類別圖8繪示圖i的系統的概賴組所建立的範例字典對共表；圖9繪示實施圖^所述的系統與方法以及例電腦賴。 ^ 22 201033823 【主要元件符號說明】 100系統 101片段產生模組 102文字叢集模組 103時間為主類別模組 104關鍵字類別模組 105意見為主類別模組 106 共同關聯模組

107 概述模組 200 方法 201決定電子文字中哪些文字發生的最頻繁 2〇2移除停止文字 203保留前N個剩餘文字 204保留前N個剩餘文字 205計數二個文字片語的頻率 206將文字清單以及二個文字片語修整為n個字彙的完整清單 3〇〇方法 301 接收各個相關字彙 302自各個字彙建立類別 303 將文件放入適當的類別 304重新修改類別會員 400 方法 401搜尋電子文字的來源的日期 402 將每個文件標記日期 403將片丰又分為時間上順序性的類別 500 方法 501建立正面與負面文字的清單 23 201033823

❹ 502 503 600 601 602 603 604 605 606 607 700 800 901 902 903 904 905 906 907 908 決定建立的清單中字彙的意見程度常化意見分數方法辨識片段中所有的正面文字計算片段巾所有正面文字的正面文字意見分數的總辨識片段中所有的負面文字計算片段中所有負面文字的負和面文字意見分數的總決定整面文字S齡數的總和與貞面的總和之間的差4 又子蒽見刀數常化差異作為片段的意見分數 2據片段意D數排糾触範例關鍵字_對意見類別共表x子作刀£ 字典對類別共表處理器 §己憶體控制中心系統記憶體快取輸入/輸出控制中心圖像處理器顯示器輸入/輸出裝置 24

Claims

201033823 七、申請專利範圍： I. -_統齡析-電子文字的電腦實施方法， . 接收來自複數個來源的該電子文字；匕各· 決定欲在該電子文字t辨識出的至少—相辨識該電子文字内包含該至少一相關個針^複數個位置中的每個位置，在該電子文字内置时至乂-相關字彙周圍，自—文字區段建立—片段； ^ ❹ 自=段替該至少-_衫建立乡個絲，其至少一類別；以及刀顯，定多個分類騎共同發生性，以決定該多個分_ 類的類別間的關聯性。乃 2.如專利申請範圍第1項所述之方法，更包含：決定-單-分類的一類別與該至少一相關字彙之間的共同發生性，以決定該至少一相關字彙的重要性；以及根據重要性排序該至少一相關字彙。〇 3·如專利申請範圍第2項所述之方法，更包含傳送該排序的至少一相關字彙供使用者審查。 ^如專利申請範圍第2項所述之方法，其中該多個分類的每個分類係以下群組中之一組：一文字叢集為主的分類；自相關字彙的該發生性建立的一分類；一意見為主的分類；以及 —時間為主的分類。 25 201033823 5. 如專利申請範圍第4項所述之方法，其中針對每一個決定的共同發士性，自該相關字彙、電子文字與涉及該共同發生性的該電子文字的來源，決定該共同發生性的一意義。 6. 如專利申請範圍第5項所述之方法更包含：自5亥電子文字的該類別，建立複數個類別/相關字彙的要緊性統計；以及自每個類別與該類別/相關字彙統計内，決定每個共同發生性的該要緊性。 ❹ 申請範圍第6項所述之方法，其中該文字叢集係被組態、疋忒電子文子的一聚合字彙，使用一方法編排類別選擇。 ^主如專利申請範圍第2項所述之方法，其中該電子文字係以網路 9 =系統化地分析—電子文字m财統包含： ❹ 接收來自複數個來源的該電子文字之一模組；模組二辨識出的至少―相關字彙之一模組； _電子文字内包含該至少—細字彙的複數個位置之- 至少恤置’在魏子文字⑽該位置的該才目關子彙關，自-文字區段建立—片段之分類自包睛梅咖之—模組，其中該類的分_-不同分 26 201033823 決t利卜範圍第9項所述之系統’更包含： ’、疋單—分類對一字彙特徵空間的共同發生性以決定該至 y-相，字彙的重要性之—模組；以及艮重要性排序該至少一相關字彙之一模組。丨L ^專利申魏圍帛10項所述之系統，更包含傳送該排序的至少一相關字彙供使转錢之—模阻。〇

專利申請範圍第10項所述之系統，其中該多個分類的每個刀類係以下群組中之一組：一文字叢集為主的分類；自^關字彙的該發生性建立的一分類；一意見為主的分類；以及一時間為主的分類。專利中晴範圍第12項所述之系統’其中針對每—個決定共二二ίΪ之該模組，自該相關字彙、電子文字與涉及該共同發生、U電子文字的來源，決定該共同發生性的一意義。 14.如士利申請範圍帛13項所述之系統，更包含：決，=至少一相關字彙在該分類中該電子文字的類別；自"亥电子文子的该類別’建立複數個類別/相關字彙的要緊性 _自的⑽奸衫無_/細找麟，決定每個 ’其中5亥文字叢集係被組使用一方法編排類別選 15.如專利申請範圍第14項所述之系統態以根據選定該電子文字的一聚合字彙， 27 201033823 擇。以網 ==專利申請細第Η)項所叙祕，財該電子文字係品’係包含—電腦可用储存媒體’以儲存依電 ==下ΐ業中當執行於1腦上時，該電腦可讀程式= ❹ 接收來自複數個來源的該電子文字；決定欲在該電子文村辨識出的至少— 字⑽含該至少—侧字㈣概個位置. 至少-相關字彙觸，自—文 ^_趣置的該自刻段替該至少—侧字彙建立多個至少—類別；以及刀頰亥刀類包含朗發錄，⑽定鮮錄_^_ 2该重要性排相至少―_字彙；以及輸出該排序的至少一相關字彙。 18. 類電腦程式產品，其中該多個分文子叢集為主的分類；自^關子彙的該發生性建立的一分類；一意見為主的分類；以及一時間為主的分類。 28 201033823 19. 如專利申請範圍第18項所述之電腦程式產品，其中該文字叢集係被組態以根據選定該電子文字的一聚合字彙，使用一方法編排類別選擇。 20. 如專利申請範圍第17項所述之電腦程式產品，其中該電子文字係以網路為主。

29