TW201033823A - Systems and methods for analyzing electronic text - Google Patents

Systems and methods for analyzing electronic text Download PDF

Info

Publication number
TW201033823A
TW201033823A TW098140575A TW98140575A TW201033823A TW 201033823 A TW201033823 A TW 201033823A TW 098140575 A TW098140575 A TW 098140575A TW 98140575 A TW98140575 A TW 98140575A TW 201033823 A TW201033823 A TW 201033823A
Authority
TW
Taiwan
Prior art keywords
vocabulary
text
electronic text
category
classification
Prior art date
Application number
TW098140575A
Other languages
English (en)
Inventor
Ying Chen
Larry Proctor
William Scott Spangler
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of TW201033823A publication Critical patent/TW201033823A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Description

201033823 六、發明說明: 【發明所屬之技術領域】 —本揭露之實施例係料處理領域,舉例而古 路之實施例係關於分析電子文字的系統及方法。 島 【先前技術】 ❹ 大部分的讀認為擁㈣大的品牌是公司的一 f^此’許多企業試圖追縱公眾對其品牌的印象並包八 ^及===名ί著===聲追祕限於新聞 ^ X — 現者世界、,祠、、各與顧客產生媒體(CGM) 口牌印部落格、新聞討論區、訊息板、及網頁/網路, 二耳相似f知行航轉變錢過視覺廣告的 耳才傳及/或有關品牌的個人刊登及評價的累積。 -八f此丨右不手動對在網際網路上找到複數個個人印象進 ri關ίί,ϊ的分析無法正確地決定品牌的價值。因 於I法S 7銷的策略決定及其他品牌相關的決定會受 限於,,,、法正確決定Α眾對品牌的印象的能力。 【發明内容】 本=贿純分析奸文字的_及綠。在一實施 歹1本方法包含接收來自複數個來源的電子文字。本方法 ίίΐίίίΐ電子文字中辨識的至少一個相關字囊。本方 數^少—個侧字彙的電子文字内辨識複 數個置。本方法亦包含針賴數恤置的每餘置,在電 4 201033823 子文件該至少-個相關字彙的位置的周圍,自文字區段建立 個片#又。本方法更包含自該片段替該至少一個相關字彙建 立多個分類,其巾分類包含至少—個_。本方法亦包含決 〜定多個分賴的共同發生性,以決定多個分鮮的不同分類 學其類別間的相關性。 在此所示的實施例並不限定本發明,而僅提供範例幫助 了解本發明。所示實施例係在實施方法中做討論,本揭露的 料亦在該部分作描述。本揭露之許多實施例所提供的優勢 ❹ 可透過本說明書而得知。 【實施方式】 本揭露書的實施例一般係關於資料處理系統的領域。舉 例而言,本揭露書的實施例係關於分析電子文字的系統與方 法。為了解釋本發明,描述中所提供的許多特定細節,係用 來使热此技藝者了解本揭露書。然而,熟此技藝者當知,本 揭露書無需某些特定細節亦可實施。在其他範例中,以方塊 〇 圖的方式顯示習知架構與裝置,係為了避免模糊本揭露書的 基本原則。 在一實施例中,本系統實施一種分析方法,以找出主要 品牌印象的洞悉,而無須任何先前知識。本系統包含具有分 析能力的嵌入式套件,可做品牌與名聲分析。分析電子件二 ^法可包含多個從CGM内容產生有用的分類的方法,以及 萃選涊知的品牌特徵的方法。此技術的特殊設計在於其可用 本身的内容品質問題(例如錯誤拼音、文法等),挖掘部落格 以及網路資料。然而,此技術可簡易地適用於其他較好的内 5 201033823 谷來源,例如科學文獻與書刊。 建立分類 在實知例中’本糸統自大型的(large corpus)網路資 料萃取一既定品牌的洞悉。為了瞭解大型的資料,人類通常 =利用不同的分類。分類是以「自的方法,將非結構的 =貝料的類似元件群組化,並將大型文件組合分類的結構。因 此自網路資料衍生而出的洞悉可減化為以可增加價值的方 式,建立網路資訊的類似元件的群組的問題,即多個分類。 。《牌印象分析需要得以決定並建立可幫助了解顧客的 品牌印象的正確分類。在—實施例中,需要四個分類有效地 自、周路> 訊中找出有用的品牌印象知識其中每個分類具有 自己特殊的產生技術。此四個分類包含:文字叢集為主的分 類;時間為主的分類;_字分類;以及意見(sentiment) 分類。沒有-個單躺分類或獨自產生此分_方法,係足 以了解品牌印象’但是許多料的結合建立-财力的格 式,得以自網路資料中以穩定且可重複的方法找出品牌洞 悉。以下描述此四個分類。 圖1繪示產生並概述分析電子文字的分類的系統1〇〇。 本系:統100—般包含片段(snippet)產生模組1〇1、文字叢 集核組102、時間為主的分賴組1G3、雜字分類模組 1〇4、意見為主的分類模組1〇5、共同關聯性模組〖%、以及 概述模組107。 本系統100的片段產生模組1〇1建立電子文字的片段或 邛伤供分析之用。電子文字的一個型態,即網站内容,通常 6 201033823 有雜訊。在-文件中,朗容可能涵蓋許多 铁 „分析標的相關。為了更精準的分析商業情;中、的 文予’電子文件的片段係自吸收後的網路資料產 的片段係指特定騎字周_小文字區段。在—實施= 由句子界線所決定。在另-實施例中’文字區段 人、由早子數、字讀、或句數決定。舉例而言片段可包 :相關字彙前㈣子、侧字彙後的句子、以及包含相關字 謂的相關字彙係指有關特定主題及/或品牌/公司名稱 ❹ 露二t〔蔣一 ΐ而言:片段係建構於相關字彙周圍。雖然本揭 二返將文件轉換為#段’但任何電子文件皆可被轉換,其 1¾網頁、部落格、或討論區刊登文章。 、、 文字叢集為主的分類 本系統100的文字叢集模組1〇2建立文件/電子文字的 應在—實施例中’使用者可能不知道文件收集 哪&分類但在其他實施例巾,㈣者可能以基本 =#由將具有類似文字内容的文件 夕*隹文子叢集可將許多文件作一個初步的分解,建立許 夕最集。 ,了促進文字叢集,本發明可在向量空間模型中呈現文 旦水主-實ί例巾每個文件可以文件特徵的加權頻率的向 =a曰不。範例文件特徵包含文字、片語、及字元字串。建 J ί日守文子叢集模組102利用正規化(normalized)字 =員二(txn)加權方式’ _文件巾具有高頻率的文字 ,以正 個文件向量,具有單元歐幾里德基準(即每個向量的 7 201033823 舉例而言,建立文件向量時,若文件完全包含句子「我 有香蕉,細今天沒有錢」,而字彙字典僅包含二個 字彙「香黨」與「今天」,則非正規化文件向量會 ,二個「香»」與—個「今天」)。向量的正規化版會是[2/ 々圖2繪示文字叢集模組1〇2替文件建立特徵空間(字典) 的,例方法200。本方法始於2〇1,模組1〇2透過計數文字 中最常出現的字彙’決定哪些文字及片語組成文件特徵。在 一實施例中’敎字出現在最多組成電子文字的文件中,則 此文字係最常出現的文字。本方法繼續進行到2〇2,模組1〇2 移除不相關的通用字。在-實施例中,模組1〇2利用桿準的 「停止文字」清單移除通用字’例如「一個(an,a)」、「以及 (and)」、「但是(but)」與「這個(th勻」。 本方法繼續進行到203,移除停止文字後,模袓1〇2保 留的最先的N個文字。在-實施例中,N值可根據欲建立的 文件長度、文件數量及/或類別數量而改變。在另一實施例 中,N可由使用者指定或為系統所儲存的靜態值。在N值可 變的範例中,N=2000足夠200個文字的1〇〇〇〇個短文件分 成30個類別。 本方法繼續進行到204,模組102第二次閱讀電子文 字,利用203的最先的N個文字,算出此二文字片語所發 生的頻率。在一實施例中,二個文字片語係定義為沒有介入 文字的二個連續文字,此介入文字不是停止文字。在另一實 施例中,模組102搜尋具有二個文字以上的片語。本方法繼 續進行到205 ’模組102接著修整N個常用文字的整體清單 8 201033823 ,204找到的此二個文字片語,以保留 片語。N個最當爾古今也,』 取㊉用文子與 血/一眚A 子/、片語係文件主體的特徵空間(字 i’使用者可根據需求編輯此特徵空間(字 片、π H纟集效能’㈣增加制者認騎f的文字斑 同義% i 102整合詞幹以建立使用者可編輯的預設 ❹ ❹
在建立特徵空間(字典)後,模 2=)替文件作㈣,以建立文件向量H 文件作索引以成類別的範例方法3〇〇。在: 鍵字分類’如下詳彙t J 模組102自所選獨立字彙中選出錮 別。使用較前可能不知道相關字彙。因此―你 模組102根據凝聚度(cohesi ) 貝也'中, 尋到的字彙作優先辩的:方 菜’其中凝聚度是利用方程式1算出: cos(centroid (Γ), χ) c〇hesion(T,n) = ^____ 〇) 其中T為包含既定字彙的文件 , Π平ΐ向量广η為用來調整。類別大小的變 數在一實施例中’ η —般等於〇9。 2 文件向量X與γ之間的餘弦矩離係定義於方程式 CO狀 y) Χ·Υ 丽 (2) 201033823 取得較高分數的字彙係具有❹通用字的 =二子彙。下調η將產生更多—般字彙,具有更大的 匹配集口,而上調會有較多特定字彙。 方Ϊ繼續進行到303 ’模組102將文字放在每個適當 ’,。在排列字彙的優先順序後,在一實施例中,模組 選擇足夠的最具凝聚度的字彙,以分類附g%的資料、。 子彙可以凝聚度順序方式作選擇’跳過在清單中不 φ ❹ 作分類的字彙新增許多額外範例的字彙(例如 ΐ姑實施例中’當至少齡°㈣料已被分類且 未被刀類的|巳例被放在「雜項」類時,本系統1〇〇暫停選擇。 模組102接著對所產生類別中的文件,使用k機制 每個二—重複,以修飾3〇4中的類別會員資格(即 在取近距心(centroid)的類別,如剛剛所 =資格所計算的結果)。因此,包含不只一:; 體字彙内容的類 另J在實施例令’所建立的叢集係利用單一字 此字彙係用來建立叢集,因㈣免_的命名問題。’ 此文字叢集為主的分類代表有關特定品牌或品腺隹八 :」。這允許分析師了解顧客^ί :::二最常用的關鍵字或片語的完整範团㈤丨 類別=0字3叢建集為外主=:利用時間為主的 ⑽建立關鍵字分類、及/或利用;見為主的 201033823 立思見為主的分類,如下逃。 時間為主的分類 以時間為主的分類係利用
「依時間先後連續」的類別。^_ ’將文件分為 主的__建,為====:寺間J 送’由歡1()3作週期 二 〇 ❹ 模組⑼接著將模組ι01 = 主^^f續進行到·, 下述。’ 生時間為主的分類的方法有很多,如 依照行事曆作分區 不限ί據可利用人為劃分,其包含但 中,〇個類別即足夠。對二實2 依吨天作Λ 橫跨一個月的資料而言,資料可 ^ 區为。仃事曆為主的分區適合使用者卹八出趨 別,是資粗~Γ、 然有趣的事件可跨越多個類 一或多一 Γ固=可以一團一圓(dum_重偏移)的方式分為 採樣大小為主的分區 等大::::,Jdata :〜ing),模組⑻可建立相 的_。在一實施财,模組103針野預定類別,建 201033823 立索引,料。類別數可獨立於資料。在一範例中,若類別數 為十,模組103依照時間先後排列資料,並將資料分為十個 大小差不多相同的類別,每個類別具有時間相對相同的資 料。採樣大小為主的分區可找到長時間下所產生(或消失)的 主題。每個類別可橫跨不同時段,因而導致使用者更難評論。 已知事件的分區 ❹ ❹ 及時發生的特定事件可被建立並簡易的辨識,其包含 但=限於產品發佈、與公司或品牌相_新聞事件、及/或會 議/貿易展。在一實施例中,模組1〇3將資料區分為三個主要 =:事件之前、事件_、與事狀後。此方法可幫助決 定時間為主的分區是否與資料串流中某要f事件相關。因 此’使用者可視覺化並了解分區及資料’因為僅有三個類別。 關鍵字分類 在一實施例中,分類可僅根據純粹關鍵字 此,關鍵字類別模組104可自許多關鍵字建立分類。=八= 的-範例係與品牌或公μ齡關(例如既定產業的品ς 公司或目標触顧客群)。通常料名_制者所知名 稱。在-實施例中’透覽模組搬所建立的字 或透過預先設立的方式,皆可找到名稱。 于/、、 在U例中,品牌/公司名稱分類中的類別數— 等於關鍵子數加-。此二個額外咖為:⑴「 勺、 含未提及任何品牌或公司的片段(如果有的話);以及= 係包含提及不只-個品牌冷司名稱的片段。2模 ,組可以蚊何時發生不同於討論特定品牌或公/的& (例如表不市場性的問題而非公司/品牌特定關題卜 12 201033823 ,了时牌/公司分類之外,其他類型的關鍵字分類可由 關,字類別模la ! 〇4 _使用者的領域相關性作開發。舉例 而。’魏問題」為主的關鍵字分類可由關鍵字類別模組 利用主要顧客不滿_字作定義,其包含但不限於回應 f m務不週等’以建立分區。關鍵字分類可捕捉先前對 頁客係,緊的任何問題’雖然關鍵字本身可能需要被修飾, =配資料中所顯示的觀念。在電子文字中,「發燒問題」 字彙的發生係要緊的’不管在歸巾其整體普遍性為何。
意見為主的分類 意見分析餘得品牌或公司印象洞悉的技術。意見分類 可分為正面意見、中立意見、及負面意見。在—實施例中, 本系統100的意見類別模組105實施統計意件分析方法以 測f每個片段巾的字彙所表達的正面/負©等級。模組105 接著產生數字分數,並根據此分數將片段分為正面/ 面類別。 貝 為了打分數並區分片段,意見分數係針對片段中的字彙 而產生。圖5繪不本系統1〇〇的意見類別模組1〇5替字彙記 分’以替片段記分(score)並替片段作分類(categ〇rizen 的範例方法500。本方法始於50卜在一實施例中,模组ι〇5 利用至少一個外部自然語言處理(NLp)資源,建立正面 面文字的清單。二個細NLP _包含⑴關者資料^以 及(11)文字網。在另-實關m財使_部字典。 詢問者資料庫包含大於4000個特殊文字,大部 容詞。每個文字定義約二百個布林屬性。有些屬性;= 定此文字大多是用於正面或負面意義。文字網係線上字典^ 201033823 考系統^此系統係由目前人類語詞記憶的心理語言學說設計 而成。英文名詞、動詞、及形容詞被整理成同義字集合,每 個集合代表一個基本觀念。
一實施例中’模組105根據詢問者決定文字網中的每 個字彙,是否其大部份的同義字是正面(或貞面),並接著將 原始文字標記為正面(或負面)。在—範例中,本系統建立包 含1905個正面字彙與2282個負面字棄的基本清單,替意見 記分之用。比較二個NLP資源時(例如19〇5個正面文字清 早^ 2282個負面文字清單),模組1〇5可接收先前決定的正 面與負面文字清單的結果。 在501建立正面與負面意見文字後,模組ι〇5在$的建 ^囊的意見程度。為了測量使収面/負面文字的不同片 、=文件之間的意見相對程度’在一實施例中,模組透 ϊίΐίΤΐ找出文字的字典定義’並將該文字的意見分數 .·、、疋發生正面意見文字與負面意見文字之間的不 =。’=將見文字所表達的正面/負面意見的程度特徵 JL白4〜施例中若文子出現不只—次’則此文字本身在 二2·^中僅計數一次,而其他正面/負面文字則每次 ^ n找。本發縣進—步的修飾,係僅使用形容詞或 名詞疋義,且不考慮其他部分的言詞定義。 本發明繼續進行到5〇3,模組奶將此分數除以定義的 i音見3規1匕意見分數。此分數表示每個文字所包含的相 =十三個正面文字。「特赦(__)」具有 .25的正因為五個正面文字中包含其四個定義。 201033823 替原始文字清單中的負面/正面意見文字記分的方法, 可用於替文字叢集躺所產生的字典巾的任何文字記分。根 ,其疋義中的正面與負面文字,每個文字可具有正面及負面 -種影響。目此射紗意見分㈣侧影響,可能比 原始正面/負面文字清單中的文字來的小。在一實施例中, 文子網(WordNet)内沒有定義的文字會被忽略而不做意見 分析。 在模組105可存取片段中的字囊或文字的意見分數 後,組K)5可將片段記分並作分類,以進行意見分析。圖 6緣不思見綱模組1G5彻記分文字分則段的酬方法 _。本方法始於6(Π,模組105辨識一片段中所有的正面 文字。本方法繼續進行到602,模組105接著將片段中所有 的正面文字的正面文字意見分數進行加總。於6〇3,模缸1〇5 辨識片段中所有的負面文字。本方法繼續進行到綱,模組 1〇5接著將片段中所有的負面文字的負面文字意見分數進行 加總。模組105接著於605決定正面分數的總和與負面分數 的總和之_差異,以建立此片段的意見分數。此分數 除以此片段的長度的開根號,以在6〇6進行正規化。 本方法繼續進行到607,模組105接著排序片段,以將 電子文字做分區。在一實施例中,模組1〇5可根據片段 ?分數’⑯片段排序分成五分之一作排序。•组1〇5接著: 最底部的五分之一視為負面類別,最頂部的五分之一視正 面類別,以及三個中間的五分之一視為中立類別。在另二 施例中,片段係分成三分之-、四分之―、或使用者事先決 疋的其他分類作排序。 15 201033823 使用分類 些類的分後’必須知道每個分類中有哪 定不同分類學中2中’系統100的共同關聯性模組決 字類別可化㈣A別之間的共同關聯性。舉例而言’關鍵 =二=:的類別有許多重她件或片段。模 之間的任何不尋常的H字^:=,以決定字棄與類別 ❹ ❿ 視覺二 繼 制,(段e到彼此之間及類別距心的距離公 3 所示: 制(cosme S1milarity metric ) ’ 如方程式 相似性=cos((9) = i^ π、 IMIW (3) 最近i心:文件或片段無須屬於其 析類 沭埴h lfV7 4 α 貫知例中’糸統100的概 =/條狀圖,㈣助解釋—_⑽包含的 個條狀物代細财包含崎_ 3’第一 率。此等條狀物伽第-與第二條狀物間的差祕漸減的排 16 201033823 列,使-類別中最要緊的特徵會—在該_ 此,此圖快速地概述一類別中的要緊特徵’此特徵 緊性係以圖的大小表示之。在其他實施例中,概要模組ι〇7 了建立其他的視覺工具,例如派形圖、落點圖等等 在一實施例中,模組107亦可根據「最典型」 ❹ ❿ 不典型」優先的標準排序文件。以向量空間來說,模^浙 係以到類別距心的距離作排序(即最典型為最靠近距、心, 不典型表_如最遠)。以最典型_序_ 使用者快速了解此類別,而不用讀取此類別中所有 ^ 閱讀最不典型的文件可幫助使骑了解此_的範圍,以及 是否有概念上的減(即文収骑在於其不胁的類別)。 在-實施例中,概述模組1〇7亦可幫助決定類 的共同發生性以及字典對類別的共同發生性,如下述'。 類別/類別共同發生性 ^概述類別時,概述模組107可建立類別對類 發生性,以比較不同的分類,找出哪裡有超乎 」 聯性。在-實施财,此_顧過朗發生㈣ 表)作視覺化,此列表顯示在二個不同的 何 分佈於各類別的所有結合。 丁貝1•叶疋如何 圖7繪示範例_字類別對意見類別共表·。 挑戰是決定哪缝字是有意的。舉例的,絲中雜項 /t立的β儲存格數值是大的(49〇),因此表示可能有要、 係。但是’此儲存格亦對制分類中最切類別。因此,、需 17 201033823 字是否比預期中來的大,而不依賴儲存 -個預見與品牌中的儲存格中,會預期找到 次S百=等於χ*γ ’其中x為既定意見所發生的 ❹ 個例外的;值為:二為的=牌:發生的次數的百分比。一 it主+ ίΑ於的數值’表示比預期更強的關聯性。 段數i皆二母個儲存格皆不同’因為每個意見與品牌的片 隸ίί ’模、組107可透過利用卡方測定,替共表中不同的 數值找出相關的重要性,例如區分在一儲存格中出現5是否 ^在另-個儲存格中出現1G來的更有意義,卡方測定係計 算共表中i存格内看見任__特定數值的可能性的統計測 驗。此可能性越小,則此數值越不可能,則在資料探勘的角 度來說就越有意義。當儲存格中出現非常低數值的可能性 時’則表示原本認為分類間不存在任何關係的假設是不正確 的。共同關聯性並不代表類別間一個確定的關係,但可透過 表不一區域需要進一步的調查,而幫助揭露一個關係。在一 實施例中,模組107可將共表中的儲存格作陰影,以表示替 儲存袼中的數值所計算出的可能性。 字典/類別共同發生性 模組107利用比對片段或文件的分類與文字叢集模組 102在文字叢集期間所建立的文字字典’分析另一種類型的 共同發生性’稱做字點對類別的共同發生性。在一實施例 18 201033823 ^二典對細共表包含幾行賴類職制字 央文予母的順序排列。圖8繪示範例 : =’f別可包含時間、關鍵字、與意見。利用二:類 不的儲存格),即可回答許多商業問題,包含:有目k 1. 最近在資射發生哪些要緊關題(時間比字典^ ❿ ❹ 2. 哪些問題係與特定公或品牌細(_字比字典)? U),題是對—既定品牌有負面/正面評價(意見比 可叢集可,網路中具有意見的較大標題及主題卞 内所發生的問題。因此,字典共生性可填補這個2間 系統與方法實作的範例電腦架構 本上9丨:示實施圖M以及以上揭露書所描述的系統盥方 卢理ϋ =腦架構。圖9的範例運算系統包含·· 1)一或多個 二二人’ 2)記憶體控制中心(MCH) 902 ;3)系統記憶體 (可〇 3不同類型,例如DDR RAM、EDO RAM等).α ΓοΓ·入/輸出控财心_”05 ; 6)圖像處理器 (CRT)^;t , 、免日日體(TFT)、液晶顯示器(lcd)、DPL等);以 及一或多個輪入/輸出裝置908。 軟體術處理器9G1執行指令,以運作運算系統實施的 式。此指令通常涉及對資料的運算作業。資料與 知々一者係儲存於系統記憶體9〇3與快取9〇4中。快取卯4 19 201033823 一般的設計係與系統記憶體903相比,具有較短的延遲時 間。舉例而言’快取904可整合於與處理器相同的矽晶片及 /或建構有較快的SRAM記憶胞,而系統記憶體903可能建 構有較慢的DRAM記憶胞。由於快取904中所儲存的指令 及資料比系統記憶體903内的指令與資料更常使用,因而得 以改進運算系統的整體效能。
系統s己憶體903在運算系統中可供其他構件使用。舉例 而言,自許多運算系統的介面(例如鍵盤與滑鼠、印表機連 接槔、LAN連接珲、數據機連接埠等)所收到的資料、或自 運算系統内部儲存元件(例如硬碟機)所擷取的資料,通常 被一或多個處理器901運作於軟體程式實作前,會先 9〇3。類似地,軟體程·為應自運算系 通常會在被傳輸或儲存前,先暫時仵列於= ICH 905係負責確保此資料在 算系統介面(以及内部儲存裝置 樣设相話)間的正確傳輸。Μ 糸統疋廷 9〇卜介面與内部儲存元件之 =貝管理處理器 903的存取請求。 此相互發生對系統記憶體 一或多個I/O裝置9〇8亦 裝置-般係負責自運算系統(例如f 運mi/o 内大型的非揮發鍺存 )或替運算系統 本身與I/O裝置_之間,轉資料。咖905在其 门具有雙向點對點鏈結。 20 201033823 參照圖l ’所述系統的不同實施例中的模組可包含軟 體、硬體、知體、或任一結合。此等模組可為可供大眾使用 的軟體程式、或可供執行專有或公用軟體的特殊或一般目的 ,理器使用。此軟體亦可為特殊化的程式,此程式係特別為 f名檔建立及整理與重新編輯管理所編寫的程式。舉例而 言,本系統的儲存器可包含但不限於硬體(例如磁片、光碟 片、CD-R0M、與磁光碟片、ROM、RAM、EPROM、快閃、 磁性或光學卡、傳播媒體或其他類型的媒體/機器可讀媒 ,)、軟,(例如要求硬體儲存單元上的資料賴存的指令) 或任’結合。 以件亦可以機11可讀媒_型態實施, j存機&可翻令。鋪可讀雜可包含但祕於磁片、 光碟片、CD_R〇M、及磁光碟片、ROM、RAM、EPR〇M、 卡、侧媒贼纽_可齡電子指令 的媒體/機盗可讀媒體。 7 圖2-6所示的範例方法中,本發明的實施例可包含 ’已如上述。此等程序可實施於機器可執行,^ :般目的或特殊目的處理器運作某些步驟。或 :致 i可體構件運作’此等構件包含運作程序的硬ίϊ 輯’或由程式㈣電腦構件及客製化硬體構件運作之硬k 可瞭有:序,熟此技藝者當 程序,或使用在此未程而序不使用在此所述的特定 一般 201033823 上述實施例僅係用來描述並 露於所示型態。熟此技藝者當對 i不限定本揭 而不偏離本發明之精神與範7對實施例作許多潤飾及修改 【圖式簡單說明】 本發明的此等及其他特徵、面向 實施方法伴隨圖式而得知,其中:〃勢將可透過以上 圖1綠示產生並概述分析電子文字的分類的系统; ❹ ❹ 圖2繪示由圖i的系統的文字^ 徵空間(字典)的範例方法; U件所建立的特 圖3繪示_ 1的祕的文字叢親 麵的範财法,· 成 圖4繪示目1的祕的時間為主的 的分類的範财法; 、建立時間為主 圖5緣示圖1的系統的意見類聰組將 段並分類片段的範例方法; 菜。己刀以δ己刀片 圖6繪示圖1的系統的意見類職組利用圖 記分字彙將片段做分類的範例方法; 與意的系統的概述模組所建叫範例關鍵字類別 圖8繪示圖i的系統的概賴組所建立的範例字典對 共表; 圖9繪示實施圖^所述的系統與方法以及 例電腦賴。 ^ 22 201033823 【主要元件符號說明】 100系統 101片段產生模組 102文字叢集模組 103時間為主類別模組 104關鍵字類別模組 105意見為主類別模組 106 共同關聯模組
107 概述模組 200 方法 201決定電子文字中哪些文字發生的最頻繁 2〇2移除停止文字 203保留前N個剩餘文字 204保留前N個剩餘文字 205計數二個文字片語的頻率 206將文字清單以及二個文字片語修整為n個字彙的完 整清單 3〇〇 方法 301 接收各個相關字彙 302自各個字彙建立類別 303 將文件放入適當的類別 304重新修改類別會員 400 方法 401搜尋電子文字的來源的日期 402 將每個文件標記日期 403將片丰又分為時間上順序性的類別 500 方法 501建立正面與負面文字的清單 23 201033823
❹ 502 503 600 601 602 603 604 605 606 607 700 800 901 902 903 904 905 906 907 908 決定建立的清單中字彙的意見程度 常化意見分數 方法 辨識片段中所有的正面文字 計算片段巾所有正面文字的正面文字意見分數的總 辨識片段中所有的負面文字 計算片段中所有負面文字的負 和 面文字意見分數的總 決定整面文字S齡數的總和與貞面 的總和之間的差4 又子蒽見刀數 常化差異作為片段的意見分數 2據片段意D數排糾触 範例關鍵字_對意見類別共表x子作刀£ 字典對類別共表 處理器 §己憶體控制中心 系統記憶體 快取 輸入/輸出控制中心 圖像處理器 顯示器 輸入/輸出裝置 24

Claims (1)

  1. 201033823 七、申請專利範圍: I. -_統齡析-電子文字的電腦實施方法, . 接收來自複數個來源的該電子文字; 匕各· 決定欲在該電子文字t辨識出的至少—相 辨識該電子文字内包含該至少一相關個 針^複數個位置中的每個位置,在該電子文字内置时 至乂-相關字彙周圍,自—文字區段建立—片段; ^ ❹ 自=段替該至少-_衫建立乡個絲,其 至少一類別;以及 刀顯 ,定多個分類騎共同發生性,以決定該多個分_ 類的類別間的關聯性。 乃 2.如專利申請範圍第1項所述之方法,更包含: 決定-單-分類的一類別與該至少一相關字彙之間的共同發 生性,以決定該至少一相關字彙的重要性;以及 根據重要性排序該至少一相關字彙。 〇 3·如專利申請範圍第2項所述之方法,更包含傳送該排序的至少 一相關字彙供使用者審查。 ^如專利申請範圍第2項所述之方法,其中該多個分類的每個分 類係以下群組中之一組: 一文字叢集為主的分類; 自相關字彙的該發生性建立的一分類; 一意見為主的分類;以及 —時間為主的分類。 25 201033823 5. 如專利申請範圍第4項所述之方法,其中針對每一個決定的共 同發士性,自該相關字彙、電子文字與涉及該共同發生性的該電 子文字的來源,決定該共同發生性的一意義。 6. 如專利申請範圍第5項所述之方法更包含: 自5亥電子文字的該類別,建立複數個類別/相關字彙的要緊性 統計;以及 自每個類別與該類別/相關字彙統計内,決定每個共同發生性 的該要緊性。 ❹ 申請範圍第6項所述之方法,其中該文字叢集係被組態 、疋忒電子文子的一聚合字彙,使用一方法編排類別選擇。 ^主如專利申請範圍第2項所述之方法,其中該電子文字係以網路 9 =系統化地分析—電子文字m财統包含: ❹ 接收來自複數個來源的該電子文字之一模組; 模組 二辨識出的至少―相關字彙之一模組; _電子文字内包含該至少—細字彙的複數個位置之- 至少恤置’在魏子文字⑽該位置的該 才目關子彙關,自-文字區段建立—片段之 分類自包睛梅咖之—模組,其中該 類的分_-不同分 26 201033823 決t利卜範圍第9項所述之系統’更包含: ’、疋單—分類對一字彙特徵空間的共同發生性以決定該至 y-相,字彙的重要性之—模組;以及 艮重要性排序該至少一相關字彙之一模組。 丨L ^專利申魏圍帛10項所述之系統,更包含傳送該排序的至 少一相關字彙供使转錢之—模阻。 〇
    專利申請範圍第10項所述之系統,其中該多個分類的每個 刀類係以下群組中之一組: 一文字叢集為主的分類; 自^關字彙的該發生性建立的一分類; 一意見為主的分類;以及 一時間為主的分類。 專利中晴範圍第12項所述之系統’其中針對每—個決定共 二二ίΪ之該模組,自該相關字彙、電子文字與涉及該共同發生 、U電子文字的來源,決定該共同發生性的一意義。 14.如士利申請範圍帛13項所述之系統,更包含: 決,=至少一相關字彙在該分類中該電子文字的類別; 自"亥电子文子的该類別’建立複數個類別/相關字彙的要緊性 _自的⑽奸衫無_/細找麟,決定每個 ’其中5亥文字叢集係被組 使用一方法編排類別選 15.如專利申請範圍第14項所述之系統 態以根據選定該電子文字的一聚合字彙, 27 201033823 擇。 以網 ==專利申請細第Η)項所叙祕,財該電子文字係 品’係包含—電腦可用储存媒體’以儲存依電 ==下ΐ業中當執行於1腦上時,該電腦可讀程式= ❹ 接收來自複數個來源的該電子文字; 決定欲在該電子文村辨識出的至少— 字⑽含該至少—侧字㈣概個位置. 至少-相關字彙觸,自—文 ^_趣置的該 自刻段替該至少—侧字彙建立多個 至少—類別;以及 刀頰亥刀類包含 朗發錄,⑽定鮮錄_^_ 2该重要性排相至少―_字彙;以及 輸出該排序的至少一相關字彙。 18. 類 電腦程式產品,其中該多個分 文子叢集為主的分類; 自^關子彙的該發生性建立的一分類; 一意見為主的分類;以及 一時間為主的分類。 28 201033823 19. 如專利申請範圍第18項所述之電腦程式產品,其中該文字叢 集係被組態以根據選定該電子文字的一聚合字彙,使用一方法編 排類別選擇。 20. 如專利申請範圍第17項所述之電腦程式產品,其中該電子文 字係以網路為主。
    29
TW098140575A 2008-12-09 2009-11-27 Systems and methods for analyzing electronic text TW201033823A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/331,271 US8606815B2 (en) 2008-12-09 2008-12-09 Systems and methods for analyzing electronic text

Publications (1)

Publication Number Publication Date
TW201033823A true TW201033823A (en) 2010-09-16

Family

ID=42094148

Family Applications (1)

Application Number Title Priority Date Filing Date
TW098140575A TW201033823A (en) 2008-12-09 2009-11-27 Systems and methods for analyzing electronic text

Country Status (3)

Country Link
US (1) US8606815B2 (zh)
TW (1) TW201033823A (zh)
WO (1) WO2010066616A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI659321B (zh) * 2018-01-19 2019-05-11 Yuan Ze University 產業關聯性分析系統與方法
TWI793432B (zh) * 2020-08-07 2023-02-21 國立中央大學 工程專案文件管理方法與系統

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7752043B2 (en) 2006-09-29 2010-07-06 Verint Americas Inc. Multi-pass speech analytics
US20160217488A1 (en) * 2007-05-07 2016-07-28 Miles Ward Systems and methods for consumer-generated media reputation management
US8019742B1 (en) 2007-05-31 2011-09-13 Google Inc. Identifying related queries
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
WO2009052308A1 (en) 2007-10-17 2009-04-23 Roseman Neil S Nlp-based content recommender
US9183323B1 (en) 2008-06-27 2015-11-10 Google Inc. Suggesting alternative query phrases in query results
US8719016B1 (en) 2009-04-07 2014-05-06 Verint Americas Inc. Speech analytics system and system and method for determining structured speech
US8533208B2 (en) 2009-09-28 2013-09-10 Ebay Inc. System and method for topic extraction and opinion mining
US8739032B2 (en) * 2009-10-11 2014-05-27 Patrick Sander Walsh Method and system for document presentation and analysis
US11023675B1 (en) 2009-11-03 2021-06-01 Alphasense OY User interface for use with a search engine for searching financial related documents
US8620906B2 (en) * 2009-11-06 2013-12-31 Ebay Inc. Detecting competitive product reviews
US8356025B2 (en) * 2009-12-09 2013-01-15 International Business Machines Corporation Systems and methods for detecting sentiment-based topics
US8849785B1 (en) 2010-01-15 2014-09-30 Google Inc. Search query reformulation using result term occurrence count
US8620849B2 (en) * 2010-03-10 2013-12-31 Lockheed Martin Corporation Systems and methods for facilitating open source intelligence gathering
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US8838633B2 (en) * 2010-08-11 2014-09-16 Vcvc Iii Llc NLP-based sentiment analysis
US8725739B2 (en) 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
US8423551B1 (en) * 2010-11-05 2013-04-16 Google Inc. Clustering internet resources
US8370328B2 (en) * 2011-01-31 2013-02-05 Comsort, Inc. System and method for creating and maintaining a database of disambiguated entity mentions and relations from a corpus of electronic documents
US10445677B2 (en) 2011-03-28 2019-10-15 International Business Machines Corporation System and method for integrating text analytics driven social metrics into business architecture
US8650198B2 (en) 2011-08-15 2014-02-11 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence
WO2013033385A1 (en) * 2011-08-30 2013-03-07 E-Rewards, Inc. System and method for generating a knowledge metric using qualitative internet data
US9152625B2 (en) * 2011-11-14 2015-10-06 Microsoft Technology Licensing, Llc Microblog summarization
US8812527B2 (en) 2011-11-29 2014-08-19 International Business Machines Corporation Automatically recommending asynchronous discussion forum posts during a real-time collaboration
US9002848B1 (en) 2011-12-27 2015-04-07 Google Inc. Automatic incremental labeling of document clusters
US20130173254A1 (en) * 2011-12-31 2013-07-04 Farrokh Alemi Sentiment Analyzer
US9613323B2 (en) * 2012-01-05 2017-04-04 International Business Machines Corporation Organizational agility determination across multiple computing domains
US9336205B2 (en) * 2012-04-10 2016-05-10 Theysay Limited System and method for analysing natural language
WO2013170344A1 (en) * 2012-05-15 2013-11-21 Whyz Technologies Limited Method and system relating to sentiment analysis of electronic content
US9477704B1 (en) * 2012-12-31 2016-10-25 Teradata Us, Inc. Sentiment expression analysis based on keyword hierarchy
US9760592B2 (en) 2014-02-20 2017-09-12 International Business Machines Corporation Metrics management and monitoring system for service transition and delivery management
US10122666B2 (en) * 2014-03-11 2018-11-06 International Business Machines Corporation Retrieving and reusing stored message content
US20150324481A1 (en) * 2014-05-06 2015-11-12 International Business Machines Corporation Building Entity Relationship Networks from n-ary Relative Neighborhood Trees
EP3167380A1 (en) * 2014-07-07 2017-05-17 Machine Zone, Inc. System and method for identifying and suggesting emoticons
CN104679728B (zh) * 2015-02-06 2018-08-31 中国农业大学 一种文本相似度检测方法
TWI550422B (zh) * 2015-04-08 2016-09-21 雲拓科技有限公司 申請專利範圍之文字歸位方法
KR101741509B1 (ko) * 2015-07-01 2017-06-15 지속가능발전소 주식회사 뉴스의 데이터마이닝을 통한 기업 평판 분석 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
TWI639927B (zh) 2016-05-27 2018-11-01 雲拓科技有限公司 將一申請專利範圍中的申請專利範圍元件名詞所屬元件名詞對應標號予以對應之對應方法
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示系统和展示、生成方法及电子设备
TWI598751B (zh) 2016-12-05 2017-09-11 雲拓科技有限公司 申請專利範圍的電腦自動翻譯裝置
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10831796B2 (en) * 2017-01-15 2020-11-10 International Business Machines Corporation Tone optimization for digital content
US11238519B1 (en) * 2018-08-01 2022-02-01 Amazon Technologies, Inc. Search results based on user-submitted content
WO2020033804A1 (en) 2018-08-09 2020-02-13 Walmart Apollo, Llc System and method for electronic text classification
US10713329B2 (en) * 2018-10-30 2020-07-14 Longsand Limited Deriving links to online resources based on implicit references
US10984388B2 (en) 2018-12-14 2021-04-20 International Business Machines Corporation Identifying complaints from messages
US11487936B2 (en) * 2020-05-27 2022-11-01 Capital One Services, Llc System and method for electronic text analysis and contextual feedback
CN113010669B (zh) * 2020-12-24 2022-06-21 华戎信息产业有限公司 一种新闻分类方法和系统
US11966427B2 (en) * 2021-07-07 2024-04-23 Volvo Car Corporation Keyword-object taxonomy generation and utilization
CN113642323B (zh) * 2021-08-19 2023-09-22 成都理工大学 基于网络结构的研究热点演变趋势检测方法、介质及设备

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374225B1 (en) * 1998-10-09 2002-04-16 Enounce, Incorporated Method and apparatus to prepare listener-interest-filtered works
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
US6952700B2 (en) * 2001-03-22 2005-10-04 International Business Machines Corporation Feature weighting in κ-means clustering
US20030115188A1 (en) * 2001-12-19 2003-06-19 Narayan Srinivasa Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application
US7610190B2 (en) * 2003-10-15 2009-10-27 Fuji Xerox Co., Ltd. Systems and methods for hybrid text summarization
US8200477B2 (en) * 2003-10-22 2012-06-12 International Business Machines Corporation Method and system for extracting opinions from text documents
JP2005202535A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
JP2005251115A (ja) * 2004-03-08 2005-09-15 Shogakukan Inc 連想検索システムおよび連想検索方法
JP4746850B2 (ja) * 2004-06-21 2011-08-10 富士通株式会社 パターン生成プログラム
US7523085B2 (en) * 2004-09-30 2009-04-21 Buzzmetrics, Ltd An Israel Corporation Topical sentiments in electronically stored communications
EP1846815A2 (en) * 2005-01-31 2007-10-24 Textdigger, Inc. Method and system for semantic search and retrieval of electronic documents
US7788087B2 (en) * 2005-03-01 2010-08-31 Microsoft Corporation System for processing sentiment-bearing text
US20060242190A1 (en) * 2005-04-26 2006-10-26 Content Analyst Comapny, Llc Latent semantic taxonomy generation
US7689557B2 (en) * 2005-06-07 2010-03-30 Madan Pandit System and method of textual information analytics
US20070016580A1 (en) * 2005-07-15 2007-01-18 International Business Machines Corporation Extracting information about references to entities rom a plurality of electronic documents
US7912755B2 (en) * 2005-09-23 2011-03-22 Pronto, Inc. Method and system for identifying product-related information on a web page
US20070073745A1 (en) * 2005-09-23 2007-03-29 Applied Linguistics, Llc Similarity metric for semantic profiling
US7596763B2 (en) * 2005-10-24 2009-09-29 International Business Machines Corporation Automatic 3D object generation and deformation for representation of data files based on taxonomy classification
US7685091B2 (en) 2006-02-14 2010-03-23 Accenture Global Services Gmbh System and method for online information analysis
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US7720835B2 (en) * 2006-05-05 2010-05-18 Visible Technologies Llc Systems and methods for consumer-generated media reputation management
US20070294230A1 (en) * 2006-05-31 2007-12-20 Joshua Sinel Dynamic content analysis of collected online discussions
US7774360B2 (en) * 2006-09-08 2010-08-10 Microsoft Corporation Building bridges for web query classification
US20080114755A1 (en) * 2006-11-15 2008-05-15 Collective Intellect, Inc. Identifying sources of media content having a high likelihood of producing on-topic content
US20080195567A1 (en) * 2007-02-13 2008-08-14 International Business Machines Corporation Information mining using domain specific conceptual structures
US20080215607A1 (en) * 2007-03-02 2008-09-04 Umbria, Inc. Tribe or group-based analysis of social media including generating intelligence from a tribe's weblogs or blogs
US8417713B1 (en) * 2007-12-05 2013-04-09 Google Inc. Sentiment detection as a ranking signal for reviewable entities

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI659321B (zh) * 2018-01-19 2019-05-11 Yuan Ze University 產業關聯性分析系統與方法
TWI793432B (zh) * 2020-08-07 2023-02-21 國立中央大學 工程專案文件管理方法與系統

Also Published As

Publication number Publication date
US8606815B2 (en) 2013-12-10
US20100145940A1 (en) 2010-06-10
WO2010066616A1 (en) 2010-06-17

Similar Documents

Publication Publication Date Title
TW201033823A (en) Systems and methods for analyzing electronic text
Zhao et al. Automatic detection of cyberbullying on social networks based on bullying features
US10628472B2 (en) Answering questions via a persona-based natural language processing (NLP) system
Park et al. NewsCube: delivering multiple aspects of news to mitigate media bias
Meng et al. Entity-centric topic-oriented opinion summarization in twitter
Luo et al. Knowledge empowered prominent aspect extraction from product reviews
Moussa et al. A survey on opinion summarization techniques for social media
Aries et al. Automatic text summarization: What has been done and what has to be done
Singh et al. Opinion mining and analysis: A literature review
Chelaru et al. Analyzing, detecting, and exploiting sentiment in web queries
Yu et al. Product review summarization by exploiting phrase properties
Park et al. A computational framework for media bias mitigation
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN109284389A (zh) 一种文本数据的信息处理方法、装置
Papadakis et al. Graph vs. bag representation models for the topic classification of web documents
Joshi et al. Web 2.0 mining: Analyzing social media
Makrynioti et al. PaloPro: a platform for knowledge extraction from big social data and the news
Serigos Applying corpus and computational methods to loanword research: new approaches to Anglicisms in Spanish
Li et al. Why does the president tweet this? Discovering reasons and contexts for politicians’ tweets from news articles
Li et al. Confidence estimation and reputation analysis in aspect extraction
Hamborg Revealing Media Bias in News Articles: NLP Techniques for Automated Frame Analysis
Fernandez de Landa et al. Social analysis of young Basque-speaking communities in twitter
Refaee Sentiment analysis for micro-blogging platforms in Arabic
Mostafa et al. Sentiment analysis of spanish words of arabic origin related to islam: A social network analysis
CN107590163A (zh) 文本特征选择的方法、装置和系统