TW201118589A - Methods, apparatus and software for analyzing the content of micro-blog messages - Google Patents

Methods, apparatus and software for analyzing the content of micro-blog messages Download PDF

Info

Publication number
TW201118589A
TW201118589A TW99118680A TW99118680A TW201118589A TW 201118589 A TW201118589 A TW 201118589A TW 99118680 A TW99118680 A TW 99118680A TW 99118680 A TW99118680 A TW 99118680A TW 201118589 A TW201118589 A TW 201118589A
Authority
TW
Taiwan
Prior art keywords
message
quot
cluster
messages
soft
Prior art date
Application number
TW99118680A
Other languages
English (en)
Inventor
Edward J Bailey
Samuel L Hendel
Jeffrey D Kinsey
Richard J Schiller
Original Assignee
Ebh Entpr Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ebh Entpr Inc filed Critical Ebh Entpr Inc
Publication of TW201118589A publication Critical patent/TW201118589A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

201118589 m 六、發明說明: ‘ [、相關申請案的交互參照] 本申請案主張於2009年6月9曰提出之臨時專利申請 案序號61/185,577,案名為“用於客戶有關的資料傳送和 分析之系統和方法(Systems and Methods for
Customer-Relevant Data Delivery and Analysis),,之利 益,該案之整個内容結合本文作為參考。 [著作權警告] 本專利文件揭示内容之部分資料係受到著作權的保護。 著作權所有人不反對任何一位從事專利文件或專利揭露者 於專利商標局内為了專利申請或記錄而完全真實重現本專 利文件内容,但是除此之外,無論如何都保留所有的著作 權。 【發明所屬之技術領域】 本發明係關於微網認,而尤係關於用於分析微網諸内 容之方法、裝置及軟體。 【先前技術】 於網際網路之歷史中’以前未曾有過開放、可搜尋之 短形式通訊(short-form communication)之方式。微網諸 之前身包含:即時通訊、聊天室、和佈告攔。然而,於此 種背景之短形式通訊總是雙向形式(亦即,一方說一也事 情以回應一些其他事情或關於預定的主題)。反之,微網誌 為一對多短形式之社交通訊,其為雙向往返對話(tw〇_way back-and-forth conversation)之外或者為主題為中心 94909 3 201118589 的線程时論(topic-centric threaded discuss ion)。微網 s志使付人們以“生活串流(Hfe_streaming)”方式通訊。 此種通訊涉及對於人們的現實生活中經驗構成的思想、意 見和觀察於線上設施中分享。 此外’微網誌存在於完全開放之環境中,於此環境中 任何人能夠發現它。開放的資料組促使關於社交重點區域 之對話可能以指數量方式成長。藉由社交網路連接和整合 入多數微網誌平台中之社交共用特徵而進一步提升微網誌、 之此“病毒的”性質。這些工具使得使用者能夠指定接收 那些他們所喜歡的其他使用者的内容(於推特(Twitter)2 情況,此程序稱之為“追隨(f〇ll〇wjng)”)^於微網諸平 台之其他特徵鼓勵使用者共用所希望的内容,擴展它,並 且以使該共用之訊息到達更遠之方式重新分佈訊息。 為何微網誌產生的資訊異常能夠在線上資訊景觀具 有如此大程度之影響,資料組之病毒的性質為最重要的原 因。任何一則微網誌内容具有“從事如病毒般”的能力而 結果如主流新聞故事(mainstreain news dory)相同程度而 影響社交。再者,微網誌為自行表達之可靠的方法,該自 行表達處於調查或面談之外的情況。此情況造成個別的說 帖(posting),和他們分享近似的連續的消費者調查。此 外,微網誌賦予所有的使用者具有“公民記者((:11:1;^11 journalist)之能力,而使得他們能夠經由他們的智慧型 手機(smartphone)或者連接至網際網路之其他裴置而首先 報告發生在他們周遭的事情。概言之,微網誌代表作為無 4 94909 201118589 、 與偏比父集之,肖費者研究(unpara 11 e 1 ed intersection of consumer research)和新興的新聞週期(emerging news-cycle),而因此,為唯一有價值之用於金融服務和其 他專業終端使用者之資料組。 線上社交媒體領域已經達到臨界大量和達到主流認 同。根據Comscore之網路分析師,64%,或者1億9千2 百萬個個別的美國網際網路使用者中之1億2千2百萬個 個人使用者於2009年2月中訪問一個或多個社交網站, 處理讀取、發表、或回應郵件。僅僅於12個月中,偶然的 微網誌網址推特看到其使用者的數目增加1〇85%。社交網 站,其開始流行於大學生,但是現在已普遍跨越使用於所 有年紀族群。證明事實上38%臉書(Facebook)使用者係超 過3 5歲者,平均網誌、者為3 7歲,而推特使用者的中位年 齡(median age)為 31 歲。 在此社交媒體景觀内,微網誌為最顯著和最快速成長 使用者變化的其中之一。而推特是國際間之領先者,有超 過111個微網誌站以許多不同的語言橫跨世界。這些服務 包含谷歌蜂鳴(GooglqBuzz)、Tumblr和噗浪(piurk)。隨 著這些利基社交媒體平台,大的社交網路網址像是臉書、 我的空間(MySpace)、和Linked In具有他們自己的微網誌、 特徵,這些特徵時常稱之為“狀態更新”。發表關於一個 人的生活之想法和更新正漸變成這些較大社交網路平台之 文化中心。 除了是主流和能夠達到深遠之外,推特和微網誌服務 94909 5 201118589 放果之衫響力。舉例而言,據說推 特已I疋k升伊朗選舉之 得能夠彼此即時發表人〜馱者於此^服務使 提出了逸一井试诚刀旱-法,並且收集中心的原因。這 要性和社交能Γ之^和其他的微㈣網址為具有巨大重 場所。菸(〇Utlet)經常為發表資訊首要的公共 的空間7和推輯〉里的線上使用者產生目的地(譬如臉書、我 創造完全新的和in康頭”談話之爆炸性的詞囊已經 包含一#大甲 、使用者回饋迴路(feedback loop) 件藉由傳'統二= 咖和活動傾向。在相關賴^ 些值得注意的傾向出=新聞來源所涵蓋和報導之前,這 種現象最近的例子線上發表收集中。以下是幾則此 •==^^,?始人史1夫約伯的計告 影塑顏果雷 ^ k成線上流言報導而不利地 二m 電腦公司的股價。 •富於2008年5日1〇 時,於中國推特的使St地震襲擊中國新疆省 時報導此們經歷了此地震時即 查在I姻百。在推特報導後三分鐘,美國地質調 至七:鐘,f報導該地震’而在地震開始後大約五 地震。 BC與中國政府經由監視推特而得知該 ^美國般办八 特使用者司客機降落於赫德森(Hudson)時,推 個報告此意外,打敗紐約時報的線 94909 6 201118589 上報導該意外早20分鐘報導。 ‘ 篩選、組織、傳送、和呈現此線上即時展開之巨大和 成長量之使用者發佈資訊之系統能力,於跨越許多範圍將 是相當有利。例如,投資者能夠有極大的利益。市場即時、 所有的時間都在變動。於數位時代,存取立即的和可操作 之投資資訊,可能造成成功和失敗之間之不同。更時常人 們反應於極度衝擊金融市場之新的情況和事件,而非事件 其本身。 【發明内容】 本揭示内容之實施例提供系統、方法、和裝置,用於 影響線上消費者情緒和活動位準演算法以創造高度消費者 有關的B2B和B2C的應用於多個利基市場和頂盛情況。 例示的實施例包含用於分析微網誌訊息之裝置,該裝 置包括:伺服器,用於接收微網誌訊息;群集器,用於群 集已接收之訊息;資料庫,用於儲存分類規則組,並由該 分類規則中之名詞和/或名詞片語而索引;分類器,用於依 照該組之分類規則分類該已群集之訊息,以產生已評分的 訊息組;以及匹配器,用於匹配該已評分的訊息至搜尋請 求。例示之實施例進一步包含知識庫,用於儲存本體 (ontology);以及,分類規則產生器,用於從該知識庫產 生一組分類規則儲存於該資料庫中。 例示的實施例進一步包含藉由檢驗已接收之微網誌 異常活動和當偵測到此種活動時警示使用者而用於警示使 用者至微網誌活動之方法。例示的實施例進一步包含用於 7 94909 201118589 解析微=訊息以形成字和/或片語之向量,並 之 間週期連續地㈣料字和形紅聚集之向 量’分類該已聚集之向量以形成料_ 預測,並且當預測超過預定的位準時警示=。 f實施方式】 万念 第1圖撕實施本發明之環境。如上所提及的,線上 =媒體6相臨界大量。推特報告其制者現在每天廣 fbr〇adcast)大約5千5百萬個“鳴叫α㈣t)”。僅僅 4年甲已㈣積了大約1百億個這些訊息。除了說明之 息=保護外,所有的這些訊息為公開地 、纟特最近宣佈計劃捐出其成果至國會圖查 供應其連續的更新。推特使用者和其他的微網“ =h〇ne和黑莓機應用(Blackberry a卯)1〇表示於第工 =於網際網路上公開可取得的資訊之其 網頁介面20所表示。 +愿係由 本發明使用安全的網頁應用词服器4〇和資料儲存器 巧从處理可從微網認1〇和從網際網路上其他來源2〇可取 二的,息。使用者可以使用各種的桌上型應用8q以存 存於資料儲存器6〇中之資訊。 於實2圖為範例電腦系統2()Q之方塊圖,該電腦系統2〇〇 、=本發明中可以用於提供第!圖之網頁應用伺服 :二6〇之功能。較理想的情況是,電腦系請 _ 列210之簡220、第二陣列23°之 刀-之快取和,己憶體250、第一資料庫26〇、和第二 94909 8 201118589 瓠 -資料庫270。防火牆280位於外部資訊提供者2〇5與第一 陣列210之間;防火牆282位於伺服器之第—陣列21〇與 車歹】230之間,以及防火牆284位於第二陣列之伺服 器與譬如膝上型瀏覽器290、瀏覽器292、和工作站瀏覽器 294之各種使用者裝置之間。如下文中將說明的,有二種 類型之外部資訊提供者205 :微網誌訊息和其他輸入之來 源以及關於特定標題之資訊資料庫之來源。 以例不之方式,該第一和第二陣列之伺服器為虛擬伺 服器之陣列運行於亞瑪遜(Amazon)之EC2系統。第一陣列 之祠服益進一步包括微網誌資料伺服器221、第三方資料 饲服斋222、平行處理伺服器223、和群集(clustering)、 分類和警示伺服器224。第二陣列230之伺服器進一步包 ,發展輪幸田飼服器(sp〇ke server)241和消費者輪輻伺服 益242、243和244。雖然第2圖中僅例示了三組之消費者 輪輻伺服H ’位是將了解到可以使用更多組、或較少組之 '肖費者輪輕飼服器。將了解到各伺服器220、240具有存取 ,各種的A憶體資源(譬如半導體和/或碟蜇記憶體)於此 η、體上儲存了控制伺服器之電腦程式。下文說明某些 這二程式之操作。快取和記憶體250主要使用於平行處理 飼服器223之操作。 貧 &. 〇 〇 λ 〇具有三個主要組件:微網諸資料庫261、 知識庫2 6 2、 、 和分類器規則資料庫263。微網誌資料庫261 、…> 料庫(relational database),該資料庫儲存例 從微周〜和其他的網際網路資源獲得之原始文字訊息之 9 94909 201118589 表格(table),維持使用 維持這些字和片語使用於訊.t:中之=和二之= 和片語使用上之資料表格維持於干 儲存表示各文字訊息之資處理的文字訊息,以及 和η圖提出二:之向量。下文中結合第3至 明關於資料庫261之進 知識庫262為關聯次座丨淦 ,的貝矾。 定標題之本體和分_ ”料庫儲存相關於特 識庫262之進-步資m日合第17圖提出關於知 關聯式資料庫,該類器規則資料庫263為 斷之分類規則。於下文中:4一 = 次祖庙^ . 、、’〇〇第1〇圖敌出關於分類器規則 二用於Μ之一步資訊。為了例示之目的’本發明將說 月用於々析微網遠 、對於安全問題之相關公共和私人實體之 方法、系統和軟體之情況:以及將說明於該情況中之知識 庫和分類n規則。然而’將了解到本發明亦可以應用於大 量其他的情況。 資料庫270為關聯式資料庫用於各消費者輪輕祠服器 242至244。於下文中結合第13和14圖提出關於這些資料 庫之進一步資訊。 此外,由下列提出其操作之討論關於電腦系統2〇〇之 進一步資訊’將是明顯的。 第3圖為描繪於本發明之第一例示實施例中一般資訊 流之流程圖。於輸入步驟31〇期間文字訊息和其他的輸入 被接收於伺服器之陣列21〇;這些訊息於群集步驟32〇被分 類成相關訊息之群組;於步驟325決定對於訊息之情緒值 94909 10 201118589 (sentiment value);以及藉由於分類器步驟33〇主題 儲存於資料庫263中之-組分類器規則而分類訊息。於步 驟340從知識庫262產生該分類器規則。於警示器步驟 藉由使用由一個或多個使用者經由瀏覽器290、292、294 透過輪輻伺服器之陣列230提供之搜尋或警示主題之警示 祠服器224而匹配該分類之訊息。使用者可取得之搜尋或 警示主題從該知識庫衍生出。所導致之匹配由輪輻伺服器 240提供至使用者瀏覽器290、292、294。資訊流亦包含於 步驟380輸入之知識庫,於步驟380載入具有一個或多個 本體和分類之知識庫。 輪入步驟310接收來自一個或多個微網誌平台(譬如, 推特)之訊息,以例示方式藉由存取用於微網誌之應用程式 介面(API),並且擷取公開可取得的訊息。現在,平均每分 鐘產生幾乎40, 000個“鳴叫”。欲處理這些訊息,訊息被 分配於數個伺服器220之間,該等伺服器220實行下列說 明之操作。於鳴叫之情況,各訊息為不超過140個8位元 字元長之文字訊息。除了文字訊息之外’各擷取之訊息包 含元資料(metadata)”(亦即,關於訊息之資訊)’譬如 創造訊息特定時間之時間戳記(time stamp)、訊息之語言 之指示、作者之指示、可從其擷取訊息之平台之指示、°主 釋標籤等。於一些情況,就緯度和經度或者其他的地理指 標而言亦可以獲得和擷取作者之實際位置。其他的微網达 具有不同的格式。此外,輸入步驟310亦可以從一個或多 個網頁攸蟲(web crawler)或其他的第三方接收輸入。下文 94909 11 201118589 中將作更詳細之說明,輸入步驟31〇處理接收自各種Apl 之文子訊息之子成為能夠使用於搜尋之更一致之詞彙和格 式組。 群集步驟320確認其為冗餘的和/或具有少或沒有價 值之訊息,並且群聚那些具有高度的語言相似性的訊息在 一起。群集之訊息被供應至分類器步騍33〇,該分類器步 驟330用分類規則組分析訊息以確認扭現有關的一組預先 特定主題之那些訊息。如上所提及的,從知識庫產生分類 器規則。分類之訊息被提供至警示器步驟35〇。由該警示 器步驟所接收之訊息然後匹配至由使用者所提供,選擇自 於知識庫已知之相同組的主題之間的主題;以及供應該相 關於使用者特定主題之訊息至該使用者。 第4圖為描繪第3圖之輸入步驟310之例示實施例之 流程圖。於步驟410,各輸入文字訊息被指定唯一的識別 號(例不說明’ IG一MSGJD);以及訊息之文字被儲存於由唯 -的識別號所索引之資料庫261中適當表格中。同樣情 況’伴隨著原始訊息之元資料之各項目儲存於亦由指定至 該訊息之唯一的識別號、以及指定至該件元資料之唯一的 識別號所索引之適當的元資料表格中。於步驟4丨〇表徵原 始輸入文字訊息並且於步驟440標準化該所獲致之表徵 (token)。於標準化程序期間,於步驟43〇更新元組/片語 (tuple/phrase)表徵字典;於步驟45〇更新表徵字典;以 及於步驟460更新總反向文件頻率(gl〇bal inverse document frequency,GLOBAL IDF)表格。所有的這些表格 94909 12 201118589 儲存於微網誌資料庫261中。 亦處理元資料。於步驟47〇 ’計算訊息位準情緒,如 另卜下文中說明。以及於步驟48〇,形成文件特徵向量 (d〇CUment feature vect〇r ’ DFV)。步驟 47〇 和 48〇 之結 =儲存於資料庫261。然後儲存於資料庫261之資訊使 传於2集步驟320可取得,其將㈣細說㈣第7圖中。 ^之訊息之字域夠是使用可應用之通訊協定之 二:;送和接收之任何的符號。較佳情況是,能夠使用 8位兀UGS/統-鱗換格<)編顯接收之訊.息之 子疋。UTF-8為可以與128 US-Αςρτ 声全_ ASCII字元向後相容可變長 /又干7L編碼。於是,使用罩—
宝_ 疋災用早位π級來確認128US_ASCII 疋和使用額外齡元組來確科他的字元。 於步驟藉由斷裂該訊息成為一串之元素的單元 碎的非於央文h按空白或其他非單字字元分離之一組連 :^空白字元而表徵化訊息文字。各元素的單元可以稱 化使用種種的規則於表徵化處理具有簡化和標準 的該文子並且清楚地指4表〜㈣和結束之-般目 的。以例示說明,表徵化包括一柄 ρ 的TTDT α括二主要的操作:確認特疋 土要早兀(例如,URL、推牲舳别“ 、,, (^ _ 、員里雜凑標籤(Hash Tag) Q確遇標題事物之協定用‘‘ ,,μ 元h、 # 符號接著字作為單一早 兀)),分割訊息成為空白邊旯·丨、, 孛、A w, 瓊界,从及分割訊息於其他推斷 子邊界(例如,某些標點符 外、办 、 f就、、且合不被第一操作排除在 。錄被指定唯-的識別說並且進入於資料庫 中之字典内。 94909 13 201118589 於步驟430,於該表徵組中之表徵元組(亦即,多個連 續的表徵)和片語(亦即,分塊語法單位)與元組/片語字典 之内容比較,以及某些“高值”新的元組和/或片語被指定 唯一的識別號(例示說明,p.HRASE_ ID)並且進入儲存於資料 庫261中之元組/片語字典内。於應用啟發式詞性標註 (part of Speech tagging)後,藉由使用上下文無關文法 確認片語以偵測於表徵流中之高度可能性名詞(和其他)片 語。上下文無關文法(Context Free Grammmar)為簡單之句 法減少規則組,其僅使用鄰近表徵組之間的局部關係以解 析輸入流。被確認之名詞和其他的片語然後與元組/片語字 典之内容比較,以及添加某些“高值”之新元組和片語至 該字典。 於步驟440形成下列表徵化、標準化版之各表徵。標 準化拼法(spelling),刪除某些領先或尾隨標點符號,以 及首先減少語意相似的表徵至一般的最高頻率同義詞,且 然後修字幹(stem)(或融合)用於情況、時態、聲音和多元 化之結局。用於實施這些功能之多樣的修字幹軟體於此技 術領域中為已知。於一些實施例中’標準化步驟44〇使用 啟發式修字幹軟體,而於其他實施例中,標準化步驟440 使用基於機率之表格的修字幹軟體。提出說明於各種修字 幹處理之額外的資訊,例如,由Croft等人提出之“搜素 引擎資 §孔_取實務(Search Engines Information Retrieval in practice),,(Addison Wesley,2010)第 μ 至96頁’該文件結合本文作為參考。 14 94909 201118589 . 當形成標準化表徵時,他們於步驟450與保持在資料 庫261中之表徵字典之内容比較,以及任何新的表徵被指 定唯一的識別號(例示說明,N0RM_T0KEN D)並且進入該字 jfe 〇 於步驟460,更新總反向文件頻率(GLOBAL IDF)表格。 IDF表確認表徵或一群訊息中元組/片語之罕見性。例示說 明,藉由採取訊息之總數除以其中出現表徵訊息數之對數 而決定表徵之IDF值。於是(參照下列方程式# 1): 方程式【1】IDF(表徵i)=l〇g((訊息數)/(具有表徵i 之訊息數)) 以相似方式決定元組或片語之IDF值。較佳的情況 疋,對於各接收之訊息更新IDF值。於是,對於各接收之 訊息,增加訊息之數目;以及於訊息中之各表徵i,增加 具有表徵1之訊息數目。當計算訊息中表徵之IDF值時, 各值儲存於資料庫中並且關聯於對應之標準化表徵。如其 名稱所建礅,GLOBAL IDF表格儲存該反向文件頻率用於由 系統2 0 0處理之所有訊息中的表徵。於系統之替代例示實 施例中,也許可以允許限制提供朝向創造IDF之訊息之子 集。 欲辅助後續的處理’各訊息於藉由於表徵化步驟420 期間產生之各原來的表徵和於標準化步驟44〇期間產生之 各標準化表徵之表徵化處理期間為反向索引。反向索引為 用語索引(concordance),其列表各表徵每一個訊息,於該 訊息中出現表徵以及,有利地指示於給定之時間間距於訊 94909 15 201118589 現Γ讀。反向索軸存為代表訊息表徵之此 用索引之表格,隨著資料庫視®提供存取對於使用該表 徵之給^的時卩日UUE之訊息之清單和對於出現於間距中訊 心中該表徵之-人數的計數值二者。反向索引儲存於資料庫 261 中。 刀析此夠#估於該訊息中表示意見和/或情感之文字訊 息’通常是很有用處的。此被稱之為“情緒(贈; 以及於步驟470決定之情料認於訊息中之任何情緒化。 例不說明’此使用檢查表格(丨磁,謝6)完成,於此檢 查表中情緒值或價態被指定至該表㈣之—字組;以及於 該訊息中之標準化表徵與表格條目比較以決定他們的情緒 值。舉例而言’正至負情緒可以評分於+ ΐθ至一 1〇之級別。 譬如“心情愉快,,可以額定+心“生氣,,可以額定_8 的表徵。+性絲徵將具有約Q值。忽略讀緒值表格中 未發現之表徵。欲計算訊息㈣情緒,從絲_取於訊 息中關聯於表社情緒值;並且蚊純息巾表徵之平均 情緒值。此平均值被附加至關聯於文字訊息之元資料。於 另一個範例實施例中’❹情緒類之機率測量(例如,訓練 於情緒標記訓練集之支援向量機)。 第5圖中提出描述決定平均情緒值之流程圖。於步驟 510接收標準化表徵。於步驟52〇,使用該等表徵以檢查於 表徵價態表財之情緒或價態值。然後於步驟530使用從 該表格練之料算對於該訊息之平均情緒值1後計算 之情緒值儲存於資料庫261中。 94909 16 201118589 .步驟480從資料庫組合文件特徵向量(d〇cumeni; feature vector,DFV)用於各訊息。該DFV包含: 於包含頻率之訊息(或訊息組)中用於各唯一表徵之 維度(dimension) ’於訊息(或訊息組)時間中表徵之 IDF 值; 用於出現在包含頻率和IDF值之訊息(或訊息組)中 表徵之各標準化版之維度; 用於某高IDF名詞元組/片語之維度; 用於接收自託管平台(hosting pi at form)(例如,作 者、平台、地理的標籤、語言、時間戳、額外的註 解標籤等)之元資料之各點之維度; 出現於原始訊息中參考的URL ; 正情緒值;以及 負情緒值。 於組合用於訊息之DFV後,通知群集步驟320另一個 訊息藉由提供其MSG_ID用於該訊息而準備好用於處理。 群集步驟320連續地操作以群集具有愈來愈長時間週 期接收之共同表徵之訊息。此群集處理平行操作經過不同 的時間週期。其操作示意地顯示於第6圖中。例示說明, 於一分鐘時間週期中接收自特徵組產生器480之所有的訊 息首先群集在一起。於各後續的一分鐘時間週期中接收自 特徵組產生器480之訊息繼續重複此程序。為了容易參 考,此群集於第6圖中確認為層级A群集。此外,與層級 A群集平行’從各5個連續的一分鐘時間週期群集之訊息 17 94909 201118589 群集在一起成為5分鐘群集。 集。以及與層級A和層級圖::::: ==:集之訊息群集在-起成為“ 果I層級C群集),從各3個連 訊息群集在一起成為3〇分鐘:二:週 ;:=°分鐘群集之群集的訊息群集在: J、時群集(層級E群集)。 於是,層級A群隼祜每—# A 一小時之第湖);層級鐘時間間距(或者 距(或者-小時之第=破貫施於各5分鐘時間間 鐘時間間r ,層級C群集破實施於各10分 3 小時之第1/6);層級D群隼被f ^30^|fBiFBlraUE( 群集被貫施於 -小時時間間距 時),以及層級以皮實施於 隼4= 旦文字訊息之第-個-分鐘間距之群 集疋成則立即開始層級 心f 驟710; 1_八_群集1且蛘集之訊息表現於步 則立即開始層級距之第一個5分鐘間距之群集完成 以及等等。、 /、並且群集之訊息表現於步驟710; 此處理亦繼續於較 續的-小時群隼_隹上 關W不說明,四個連 群集被用於形成時群集;以及連續的四小時 時群集被用於形成5 或24小時群集。連續的24小 於形成每月群隼 或7日群集;連續的每週群集被用 半年和一年的及連續的每月群集被用於形成每季、 A至E)群集操料行H’。這些群集操作與較高頻率(層級 94909 18 201118589 於群集處理中的不同層紐 由群集器所實施之步驟本 質上相冋。主要的差異是實 ,、、 , 也群集所經歷的時間週期(或者 桶 i(bucket))。如第 7 圖 Φ & _ ,9Π ^ ΙΑ. Α 丫所不,於輸入步驟710群集器 320接收被群集之訊息,# 及於步驟715累積這些訊息經 過關聯於此群集之層級的時p 工主孤,」,、 叮间週期,於步驟720,使用種 子表徵(seed token)形成耔救| ^ ^ ^ ΡΤ πηΑΤ 軟群集(soft cluster)。種子表 徵為在GLOBAL IDF表格中箱〜^ a ^ + 貝疋的範圍内或者正被更頻繁使 用於現時時間間距之任一種悴 时, 硬11况’或者二種情況之表徵。 藉由關聯於包含該表徵之該時間週期(或桶 量)之所有訊息 之各個種子表徵形成該軟群集。制於文字表徵化處理期 間形成之訊息表絲之反向㈣完成包含特定的表徵之選 擇的訊息以確認該訊息。 用於於本發明之此實施例之實作中選擇表徵之 GLOBAL IDF值之範圍將是大到足夠包含至少數千個表徵。 將遥擇$&圍之邊界而使得祕此群集處理階段之表徵為相 當特殊以便確認可能具有—些重要性而非細瑣之訊息。同 時,使用之表徵將不是如此獨特,他們稀少發生出現於被 監視之訊息中。 出現具有大於在給定之時間間距中期望頻率之那些 表徵藉由組構LOCAL IDF表格用於在該時間間距内該文字 訊息中所有的表徵而被確認。於是(參照方程式【2】): 方程式【2】LOCAL IDK表徵i)= log((於時間間距中訊 息數)/(具有表徵i之訊息數)) 藉由形成表徵之GLOBAL IDF值對其LOCAL IDF值之 19 94909 201118589 比例並且包含於種子表徵之清單中,該等種子表徵具有超 過臨限值之GLOBAL/LOCAL IDF比例,而確認出現具有大於 期望頻率之表徵。較佳的情況是,設定臨限值(threshold) 於充分高於1.0之值,以便消除那些於時間間距中未經歷 任何異常生長之表徵。 指定各軟群集唯一的識別號(例示說明,MSG_SET_ID), 並且儲存於快取記憶體260中。於此階段於群集操作中, 任何訊息可以出現多於一個軟群集中。此外,可能一些訊 息將不是在任何軟群集中,因為他們不包含具有在IDF值 或者更頻繁使用於現時時間間距之IDF值之預定範圍内 值的任何表徵。 於步驟730 楮田进擇於衣不訊忍之最佳全部密度$ 各軟群集中訊息之核心子集,並且從其訊息不出現於最f 的中心區域之軟群集去除,而創造該軟群集之最佳配適 。此藉由對各軟群集構造說明於該軟群集中一 =字=息之相關位置之分佈曲線而完成;以及表示該最; ,度滚度之訊息之子集被選擇作為該軟群集之核心= 2^^#m^*(document feature vector, DFV),, 馮在該核心子集中訊息之DFV之加權平均。 ' 於較佳實施财,藉由關聯各構成的訊息,成對 J ri,se)、該訊息與該軟群集中其他的訊息之間 、目似性,而表示軟群集密度。二噶向旦V1 弦相似性由τ方丨丨认X A 里和V2之餘 由下歹]、·,σ疋(參照下列方程式f j 方程式"】("咖"二3】〜佳 94909 20 201118589 貫施例中,基準(norm)為簡單的歐幾里德 基準 ~ 藉由總和表徵之IDF值之平方而計算餘弦相似性,該 ,表徵於各向量為相同’·相加加權值用於元資料維度,該 等維度,相同,以及藉由相乘V1和V2之基準而標準化結 果於疋’此夠藉由選擇軟群集之子集而選擇最大密度區 域’其中此成對、平均餘弦相似性為最高。 於步驟740,藉由指定存在於多於一個群集之各來自 至f有該“最接近,,附之-個群集而消除剩餘的軟群i 重豐。藉由計算關聯於訊息之DFV與關聯於該訊息存在於 其中=軟群集之DFV之間之餘弦相似性而決定接近度。於 -些貫施财’藉由計算_於訊息之DFV與關聯於群集 中訊息之各DFV之間之平均餘弦相似性而決定接近度。然 後訊息被指定至餘弦相似性(或平均餘弦相似性)為最高: 群集。結果’此步驟指定訊息至其最相似之群集,並二 獨至該群集。 ' 於步驟750 ’凝聚群集被實施於剩餘的群集和任何訊 息,該等訊息因為他們不包含具有在IDF值之選擇之範圍 内的IDF值之表徵而於軟群集步驟72〇中不被群集。若計 算為其DFV之餘弦相似性之二個群集之_轉低於臨限 距離,以及若導致之群集之距離低於稀疏臨限值 threshold),則二個群集合併。個別的訊息被合倂入具有 最近的矩心(centroid)之群集中(亦即,該訊息具有最高平 均餘弦相似性之群集)。所導致的是一組具有高平均餘弦相 94909 21 201118589 似性之訊息。此訊息組被指定唯一的識別號MSG_SETjd , 並且儲存於快取記憶體250中。 於步驟760,計算鄰近情緒值用於關聯於訊息組之高 IDF表徵和片語。此處理之進一步詳細說明提出於第8圖 中。於步驟810,標準化、IDF標籤之訊息從步驟75〇之蛘 集器接收。於步驟820,確認價態字於鄰近的各表徵和片 5吾並且確定這些字之值。於步驟830,決定於鄰近之情緒 值之加權平均。於步驟840,返回該加權平均。作為此種 處理之結果,產生字和片語之清單,該字和片語之清單具 有於該訊息組中最具描述性之字和片語之高IDf值指示, 隨著用於該清單中各字和片語之關聯的鄰近情緒值。 於步驟770’具有最高頻率之產品之字或片語(於訊息 中TF=詞頻,’)和IDF值被表示於知識庫作為用於產生之 分類法(taxonomy)之候用者(candidate)。較低TFxIDF值 之字和片語被表示於知識庫作為候用資產用於此新的候用 主題。 於步驟780’由步驟750產生和由MSG一SET—⑺確認之 群集儲存於資料庫261中訊息組表格胳G一set—tbl中。訊 f組包含於訊息組中文字訊息之表徵、關聯於訊息組中文 字訊息之名㈣和名詞片語、各文字訊息之來源之確認、和 將伴隨文字訊息之其它元資料。藉由提供分類器 MSG—SET—ID用於訊息組而通知分類器該訊息組為有效。 於步驟790,於步驟750產生之群集亦提供至 一 個群集層級群集器之輸入。舉例而言,若步驟75〇之輸出 94909 22 201118589 為產生於-分鐘時間間距(層級A)之群集,則群集被提供 至在層級8群集器之輸入,於層級B將累積和群集5個連 續的一分鐘輸出。 於層級B和於所有其他層級之群集處理跟隨與於層級 A群集處理相同的步驟。於步驟715群集器32〇累積訊息 組用於關聯於該層級之群集之時間週期(或桶量)。於是, 於層級β’群集11累積訊息組用於5分鐘間距。於步驟72〇, 藉由選擇作為那些表徵之種子表徵而形成軟群集,該等表 徵為於IDF表格中預定範圍之值,或者正較通常更頻繁地 使用於5分鐘時間間距,或者為二者情況,然後關聯於包 含該表徵之5分鐘_職(或齡)之所有訊息之各種子 表徵。再者,GLOBAL IDF值與L0CAL IDF值之比值與臨限 值比較以決定更頻繁使用之表徵;但是使用於新的5分鐘 間距中之所有的訊息計算L0CAL IDF值。較佳的情況是, 表徵IDF值之預定的範圍於各處理之層級係相同。然而於 I些實施例中’當時間間距之大小增加時,可以希望改變 範圍。 再者 便用於文子表徵化處理㈣職之訊息表徵之 反向索引完成包含特殊的表徵之選擇的訊息。再者,任何 訊息可以出現於多於-個軟群集中;以及—些訊息將不是 =何軟群集中。㈣實施群集處理之剩餘的步驟,以便 根據較大_關距產生新的訊息組。新的訊息組被給定 唯一的識別號MSG—SETJD’並且亦儲存於訊息組表格 MSG—SET__TBL 中。 94909 23 201118589 以及該處理重複經過愈來愈長持續期間之時間間距。 分類器藉由應用一組分類規則至群集器而分類接收自 該群集器進來的訊息組,以便決定各種文字訊息相關之主 題。該等規則本質上係於此格式中:“若於訊息組中發現 A’則該訊息組以z%之可能性(或關聯性)關係於主題B”。 我們首先說明從儲存於知識庫262中之本體(ontology)* 分類法(taxonomy)說明該等規則之創造。 知識庫262為關於標題之有組織的收集之知識。收集 係以關於類和相關於類彼此之交聯資料之 類(class)”和情況(instance)之形式組成。因為此組織 為本體之結構,因此知識庫262亦稱之為本體。知識庫亦 可以考慮收集資訊主題(或主題群組),其中各主題群組表 示為於知識庫中之節點,具有一組表示為交聯之節點之間 的關係。關於知識節點之特定的資訊(例如,公司名稱)儲 有於主通群組特質袋(Topic Group Property Bag)中。關 於父聯之特定的資訊(例如,二個節點之間的親子關係)儲 子於父聯特質袋(Cross Link Property Bag)中。 軟體之變化性可有效用於控制知識庫之操作。例示說 知識庫262使用網頁本體語言(web Ontology Language, 〇WL) ’尤其第2版已知為〇WL2。關於0WL2之進一步資訊 ^ ^ WWW. W3. org/TR/2009?REC-owll2-primer-20091027 ’兩土止之0WL2網頁本體語言入門獲得,該資料合併於本文中 作為參考。 分類法為於知識庫或本體中二個或更多個節點之間 24 94909 201118589 分層關係(hierarchical relation)之詳細說明。分類法例 示於本系統中為來自於本體之於知識節點之非週期的相關 圖形。因為關係係沿著連接’因此分類法可以被認為是說 明本體之一個方面。終端使用者能夠藉由操縱(navigate) 這些等級關係而觀察知識庫。當創造任何特定的搜尋或警 示準則用於系統200中處理,分類法亦使得可能對於終端 使用者觀察資訊之方面,可以選擇該資訊以快速減少可能 選擇之範圍。 分類法與本體之間的關係描繪於第17圖中,第17圖 說明關係到安全性與其發行者之分類法1810和本體1840 之小部分。分類法1810之例示部分具有6個節點:美國工 業集團股份有限公司(American Industrial Group Inc.) 1820、法老保險公司 SAE(Pharaonic Insurance Co. SAE) 1822、美國國際集團人壽控股有限公司(aig Life holdings US. Inc.)1824、AGC人壽保險公司1826、美國通用資本公 司(American General Capital LLC)1828、和 AGC 人壽保 險公司1830。分類法特定節點之間的等級關係,而尤其是 隸屬於根源關係。此關係藉由各種節點之間的連接1832 而描述。舉例而言,節點1824與節點1820之間的連接1832 表示美國國際集團人壽控股有限公司1824為隸屬於美國 工業集團股份有限公司1820。 本體1840之例示部分具有四個主要主題群組:公司 主題群組1850、股票行情指示主題群組i860、地理主題群 組1870、和人民主題群組1880。在公司主題群組1850内 25 94909 201118589 為主題群組1852用於美國工業集團股份有限公司,而主題 群組1854用於美國國際集團(AIG)人壽控股有限公司。在 股票行情指示主題群組1860内主題群組1862用於美國國 際集團股票。在地理主題群組1870内為主題群組1872用 於美國,主題群組1874用於紐約,和主題群組1876用於 德州。在主題群組1880内為主題群組1882用於Nicholas R. Rasmussan先生和主題群組1884用於John A Graf先生。 與多數的群組相關聯的是各種的特質;而於諸群組之 間為各種的交聯。關聯於例示於第17 _中之各種群組之特 質被包圍在括號内並且於第17圖中連接至與他們相關聯 之群組。舉例而言,關聯於公司主題群組之特質確認附屬 公司之名稱、公司之位置、和其地址與公司狀態。關聯於 股票行情指示主題群組之特質確認公司之股票報價和替代 的行情。關聯於人民主題群組之特質確認他們的稱謂、其 他的特徵,譬如(非除外地),角色、職業、專業知識、和 於各種發佈平台之帳戶名稱。 主題群組1854藉由公司至公司交聯1856而鏈接 (link)至主題群組1852。主題群組1876藉由地理至地理 交聯1877而鏈接至主題群組1872。股票行情指示主題群 組1860藉由股票行情指示至公司交聯1864而鏈接至公司 主題群組1850。地理主題群組1874藉由公司至地理交聯 1878而鏈接至公司主題群組1852。地理主題群組1876藉 由公司至地理交聯1879而鏈接至公司主題群組1854。以 及人民主題群組1882藉由人民至公司交聯1886而鏈接至 26 94909 2〇1118589 '公司主題群組1854。此外,雖然未完全顯示於第17圖中, 隹是關聯於特殊之公司、地理、股票行情指示、和人民之 主題群組以及關聯於其他之公司、地理、股票行情指示、 和人民之主題群組之間亦有交聯。 ,、 分類法藉由在分類法中最終母公司美國國際集團股 份有限公司1820與分類法中美國國際集團股份有限公司 主題群組1852之間之第一鍵接誦,和藉由在分類法中 第一附屬美國國際集團人壽控股有限公司1824與分類法 中與美國國際集團人壽控股有限公司主題群組贿之間 之第二鏈接1892而相關於本體。如將於下文中妹 =之本系統產生之分類法規則使用分類:與本 =之間=係。為了可使使用者詳細指明於由知識庫和分 _器所使用之主題之字彙中之警示和搜尋請求,分類 過各種介面應用程式和API暴露於終端使用者。 使用$ 9和ίο圖之裝置將資訊載人於 置包括觀本體載入器1010、原始資料本體載入号=、 本體/分類法儲存器1040、本八
I體/力類法關聯式資料庫管理 系統(RDBMSM050、增強推理分 —Λ S S 分類器規則萃取器1080。載八„ 、卒取器1〇7〇、和 入應用麵-N和瞧咖包括-純 /* 兵功成為用以從各種資訊來 源(譬如政府機構、^ ^資訊之商務提供者等)獲得資料之 ==載,合來源之介面規格並且了解提 ,者1成為有奴_ 貝訊的組構。然後於人口接收之資訊由 處理器1015和1025A-N組構成標準形式,該標準形式之資 94909 27 201118589 訊能夠加入於知識庫中。 使用者提供之本體和分類資訊被提供為至0WL2本體 載入器1010之輸入。變化之來源提供輸入至原始資料本體 載入器1020。例示說明’對於專用於處理金融資訊之電腦 系統之情況’這些來源可以包含胡佛的(Hoover,s)、湯姆 森路透(Thomson-Reuters)、彭博(Bloomberg)、 LexisNexis、鄧恩和布拉德斯特里特(l)unn & Bradstreet)、 S&P等。來源亦可以包含提供為政府調整結果之資訊,譬 如可透過EDGAR系統取得的季報和年報或者透過商務部取 得的一般商業資訊。 載入器之一般操作為處理到達之資料組以決定他們 對於目前在系統中資料的影響,並且若該資料尚未以此種 格式組構,將該資料轉變成添加(ADD)/删除(DELETL)/改變 (CHANGE)操作(CHANGE操作為dEletL後接著ADD)。雖然傳 入資料組時常以此種格式組構,但是並非所有的資料組是 如此組構;以及變成必須標準化更新。此標準化之更新流 使得可能後續地應用一系列之控制操作至負載表格中(例 示說明,LD_L0AD一INPUTJTBL)。欲決定從一日至次一日什 麼已[改變’則刚一曰之知識庫快照(snapSh〇t)必須與當 日的知識庫快照比較。此情況是需要的,因為系統僅施加 改變至知識庫而需要知道每一個販賣者之改變,以保持重 新分類之衝擊至最小。 較佳情況是,各載入器處理呈現資料至單一 LD_L0AD一INPUT一TBL表格作為關聯表格之攔位,其中於該 2S 94909 201118589 表格中各列為於資料提供者之記錄中資料之行。這些欄位 具有ID、類型、範圍/細目、和說明,而使得提供者之記 錄之各攔位可審核其整個未來的使用。系統資料之審核能 力使得如果以及當資料提供者之輸入要求調整時’對於欲 作更正成為可能。 載入器1010和1020之詳細說明提出於第9圖中。載 入器包括輸入905、910和二個具有相同結構之載入表格 LD一LOAD—INGEST_TBL 和 LD—LOAD_INPUT_TBL。輸入 905 支 援販賣者應用程式介面(API)此種原始資料之每週傳輸。輸 入910支援販賣者平面檔案(flat file)格式,譬如獲得原 始資料每曰檔案之檔案傳輸協定(FTP)。亦可於本發明之實 作中使用其他的輸入。於例示為每日實施之載入操作之開 始,LD_LOAD_INGEST_TBL表格為空的,而 LD—LOAD— INPUT_TBL表格包含表現知識庫之内容的平面檔 案。 資料被載入LD—LOAD_INGEST_TBL表格之前,創造審 核追踪(trail)。創造LOADJD ;供應該資料之資料販售者 之名稱和時間戳記關聯於審核表格中之LOAD_ID ;以及儲 存該審核表格。然後解析來自該販賣者之資料以定位所有 已知之資料攔位’並且此資料被載入LD_LOAD_INGEST_TBL 表格915中。然後於步驟920創造販賣者之資料之當曰之 圖像;以及於步驟925比較此圖像與於LD_LOAD_INPUT_TBL 表格中之内容。若沒有差別’則於步驟930留下 LD_LOAD_INPUT_TBL表格並未改變,並且載入操作終止與 29 94909 201118589 此有關之資料。 如果有差別,則於步㈣0測試是否有任何 變。如上述提及的,改變包括刪除接著添加 的改 則於步驟945逐攔位(fieId_by_field) 有』文變’ 950創造明確的删除記錄,以及於步驟郎5於、於步驟 LD._LOAD_INPUT—TBL表格中創造新的改變記錄。若 確的改變’則於步驟96G亦測試是否有任何未明示^明 變。未明示之改變是-種其中資料已經從前面每日的^ 去除但是沒有通知該絲。若有此種情況,則”驟= 於LD_L0AD_ INPUT一TBL表格中創造明確的删除記錄。 若有改變,則於步驟965測試是否有任何明確的刪 除。若沒有明確的刪除,則於步驟97〇亦測試是否有添力 若有添加’則於步驟975於LD_LOAD_INPUT TBL表格中貪 造新的添加記錄。最後,若有明確的刪除,則於步驟卯〇 於LD_LOAD_INPUT—TBL表格中創造明確的刪除記錄。 於步驟990,於LD_LOAD—INPUT_TBL表格中未處理之 記錄與知識庫結合。如第10圖中所示,知識庫被儲存於本 體/分類法Jena2目標儲存器1040或者本體/分類法RDBms 1050其中任一者中。 增強推理分類器規則萃取器1070和規則萃取器1〇8〇 藉由前進通過本體之節點接著由分類法特定路線而從本體 創造規則。藉由透過分類法一個節點接著一個節點工作、 存取於本體中對應之節點並且帶入關聯於該等節點之所有 的特質於規則中而創造規則於一些小鏈接鄰近之節點。當 94909 30 201118589 處理完成時,藉由他們的關鍵字(本質上,所有的名詞)索 引該等規則,以創造知識庫規則關鍵字索引(Knowledge Base Rule Keyword Index, KBRKI),以及該索引和該等規 則儲存於分類器規則資料庫262中。 分類器規則被考慮為規則組之規則線項目,該規則線 項目群組成區段(section),如於下列例子所表示者。藉由 通過如確認於知識庫規則產生器配置中之確認之本體的各 確認節點而產生分類器規則。因為各知識庫本體節點鏈接 至本體中主題而該主題鏈接至另一個節點,因此可以藉由 檢驗該主題之特質和具有如由交聯確認之1距離之所有之 本體節點而從任何給定之主題之特質萃取規則。各接近的 本體節點之特質獲致規則線項目’該等規則線項目被歸類 成區段,而使得各區段之分數提供至指定至訊息之群集組 之分類的整體得分。於較佳實施例中,用於規則中任何區 段之FACET_INTERSECTION_WEIGHT為可調整,並且被指定 用於對於給定主題之被選擇納入規則之各區段。’因此,當 產生規則其為: •於其分類法之上下文中如此完成; •已知分類規則之包括區段從鏈接到該規則之主題、 或者不同的分類法推斷出,以形成面相交(facet intersection),該面相交具有稱為: FACET—INTERSECTION—WEIGHT 加權之配置的系統, 該 FACET一INTERSECTI0N—WEIGHT 添加到依次由 ACCRUEO運算子表示之規則之區段中; 94909 31 201118589 •若主題關聯於多於一個規則產生器正在運行之分 類法,則結合現有規則;然而,因為用於該交叉之 FACET_ INTERSECT10N_WE IGHT也許不同於已經添加 至規則之先前的加權,因此其主題特質將被複製於 規則組中,但是以不同的加權用於添加之段/規則 線項目。 規則產生處理更完整說明於第11圖中。表示於第11 圖中知識庫為元件111 〇。欲創造規則,係按照分類法進 行。規則產生器之處理開始於步驟1120。於此處理中,使 用二個加權:W1 或 FACET一INTERSECTION—WEIGHT 以及 W2 或 INDEPENDENT_SECTION_WEIGHT。於步驟 1丨25,用於規則 之區段之W1從表格(例示說明, HB_FACET_INTERACTION_TBL 表格)擷取。然後於步驟 113〇 測試是否已經擷取W1用於規則之所有的區段。如果沒有, 則處理返回到步驟1125並且擷取W1用於規則之次一個區 段。當W1已經被擷取用於規則之所有的區段s,則處理計 算W2用於各區段i,其中(參照下列方程式【4】): 方程式【4】W2i = (Wli/(SUM(Wlj對於S中的所有]·))) * (l-MAX(Wik對於S中的所有k)) 規則為真之關聯性或可能性相依於哪個區段之狀況 符合,然後使用公式(參照下列方程式【5】)計算: 方程式【5】%關聯性= MAX(分數ixWli ’對於s中的所 有i)+SUM(分數jxW2j ’對於s中的所有 於是,INDEPENDENT-SECTION—WEIGHT表示各區段可以 94909 32 201118589 • 提供至全部的規則支援之部分,獨立於由其他區段提供之 任何支援’而FACET_INTERSECTION_WEIGHT表示對於一個 或多個區段可以非累積方式提供至該規則之支援之部分。 於步驟1145,測試分類法是否完成。如果沒有完成, 貝1J於步驟115〇處理移動至鏈接至分類法之本體中之次一 個節點’並且返回至步驟1120以創造次一個規則。 若分類法已經完全通過,則於步驟1160載入分類器 操作之快取。產生知識庫規則關鍵字索引(KBRKI)並且於步 驟1165儲存於知識庫262中。如其名稱所建議,KBRKI為 至所有產生之規則之關鍵字索引。例示說明,關鍵字為使 用於規則中之所有的名詞和名詞片語。此外,KBRKI亦包 含各名詞出現於給定規則中計數之次數,以及其出現於其 全部規則組中之次數。於步驟1170產生分類器規則庫並且 儲存於分類器規則資料庫263中。於步驟1175產生並且儲 存可編輯分類器規則庫。於步驟1180使用適當的資料分析 工具以手動地編輯規則庫。 下列分類規則之例子說明加權之規則產生處理。 藉由通過公司-公司(COMPANY-COMPANY)分類法方面 獲得用於AIG(公司)之公司主題節點。從資料庫詢問公司 主題節點之所有的特質,以產生規則區段替代項目,譬如 公司名稱、替代公司名稱、和公司說明。此區段帶有70 之‘面相交加權’造成21之‘獨立供獻’。 地理主題節點對於紐約(NY)、DC被分別獲得,因為他 們從AIG(公司)主題節點的距離=1,並且確認為公司-地 33 94909 201118589 理(COMPANY-GEOGRAPHY)分類法方面之成員。這些被纪成群 組係因為他們有相同的類型並且關聯於公司。 同樣情況,獲得用於AIG(公司)之特質母公司主題節 點,並且確認為公司-公司分類法方面之成員;以此特質母 公司主題節點應用萃取規則之演算法_?L母公司正如同其用 於子公司節點。 獲得用於AIG(AIG美國股票)之股票主題節點,因為 從AIG(公司)主題節點的距離=1,並且確認為股票行情指 示-公司(TICKER-C0MPANY )分類法方面之成員,該分類法方 面帶有20之‘面相交加權’造成6之‘獨立供獻,。 接著獲得從AIG(公司)主題節點的距離=1之人民主 題節點’並且組成群組,係因為他們被確認為人民—公司 (PEOPLE-COMPANY)分類法方面之成員。他們帶有1〇之‘面 相交加權’造成3之‘獨立供獻’。
〜CLASSIFICATION_RULE { /* 公司(100067)分類法規則區 段V 〜TICKER_TG { /股票(AIG)股票主題規則區段 ACCRUE/3 { EXACT/1(MAIG") NEAR/3("AIGn,"US","Equity") NEAR/2("AIG", "US") } }〜TICKER_TG ; FACET—INTERSECTION WEIGHT=20, INDEPENDENT_SECTION_WEIGHT= 6 34 94909 201118589
〜C0MPANY_TG {广公司(100067)公司主題規則區段V Λ在此時間AIG公司名稱本身V
V ACCRUE/2 { NEAR/4C"American"," International", "Group", SYNONYMC'Inc")) ACUM/4("Araer i can"," Internat iona1","Group") }
}〜PRIMARY COMPANY NAME TG WEIGHT=20 OR 〜ALTERNATI VE_COMPANY_NAME_TG {广替代公司 „名稱
V ACCRUE/7 { { /+公司_名稱(1) 一替代名稱V NEAR/3C' AMER"," GENL", SYNONYMC C0RP")) ACUM/3(nAMERM, "GENL") } WEIGHT=15 OR { 广公司_名稱(2)-•替代名稱V NEAR/3("AIGM,"LIFE", "HOLDINGS", "US", SY N0NYM("INC")) 35 94909 201118589 ACUM/3(MAIGV1 LIFE”,"HOLDINGS' "USn ) } WEIGHT=15 OR {
/ #公司_名稱(3)—替代名稱V
NEAR/3C AMERICAN", "GENERAL", SYNONYM ("CORP")) ACUM/3("AMERICAN", "GENERAL")
} WEIGHT=14 OR {
广公司_名稱(4) 一替代名稱V
NEAR/3C1 American","General", SYNONYM ("Corp")) ACUM/3("American","General")
} WEIGHT=14 OR { 广公司_名稱(5)—替代名稱V NEAR/3C AMER", " INTLf,, " GROUP") } WEIGHT=14 OR {
广公司_名稱(6)—替代名稱V 36 94909 201118589 NEAR/3C"AMERICAN"," INTL", "GROUP") } WEIGHT=14 OR {
广公司_名稱(7)—替代名稱V NEAR/3C"AIG","American","Internation al","Group") } WEIGHT=14 } WEIGHT=100
}〜ALTERNATIVE COMPANY NAME TG WEIGHT=35 OR 〜GEOGRAPHY_TG {广地理主題規則區段(由交聯獲得)V ACCRUE/4 { ACCRUE/3 {广操作之地理國家V EXACT/l(n US” NEAR/4C Uni ted", "States", "of", "America") NEAR/4(SYN0NYM("USM)) } WEIGHT=25 { /*公司_地理_國家_IS〇V EXACT/1C “US” ) } WEIGHT=25 ACCRUE/2 {Λ公司_地理__州_住所 EXACT/1("NY") NEAR/2CNew", "York") 37 94909 201118589 } WEIGHT=25 ACCRUE/2 {广公司_地理-州_公司*/ EXACT/1(MDE") NEAR/2CDelaware" ' ) } WEIGHT=25 } WEIGHT=100
}〜GEOGRAPHY TG WEIGHT =5 OR 〜COMPANY_DESC_TG { / *公司(1 〇 〇 〇6 7)公司說明主題規則 區段美國國際集團股份有限公司透過其子公司 於美國和國際間提供保險和相關服務。其操作於 4個部門:一般保險、國内人壽保險和退休服 務、國外人壽保險和退休服務、和金融服務。一 奴俅險邵門提供財產和意外保險,以及各種的個 人保險種類。國内人壽保險和退休服務部門提供 人壽保險產品’該產品包含保護產品之範圍,包 ,個人項目和普遍壽險、以及團體險和健康產 =,支付年金’由整付保f立即年金、結構 :個ΓΓ資金年金構成;以刪退休產品、 務二二和可變年金。國外人壽保險和退休服 人壽:'::投資型產品(譬如终身和期限 外 鏈…、普遍壽險和捐贈、個人意 σ健康產品、和固定和 品(包含J夂年金、以及團體產 3退休金、人壽、和健康)。金融服務部門 94909 38 201118589 從事商用航空和裝備租賃、資本市場操作、消費 信貸、和金融保險保費。美國國際集團亦提供再 保險產品。公司建立於1967年和奠基於紐約 州,紐約。V ACCRUE/3 { ACUM/6("provides","insurance") ACCRUE/1 { ACUM/4("General", " Insurance" ACUM/4("property", "and"," casualty"," insurance") ACUM/2("personal","lines") } WEIGHT=34 ACCRUE/1 { ACUM/7CDomestic", "Life", "Insurance", "an d","Retirement", "Services" ACUM/4("1i fe", "insurance", " products" ACUM/14("range", "of", "protection", "products" ACUM/2(Mindividual", "term") ACUM/3("universal"," life"," ins urance") ACUM/2(Mgroup","life") ACUM/2Chealth", "products") ACUM/3("payout", "annuities") 39 94909 201118589 ACCRUE/l { ACUM/4("single", "premium", "imiediate",” annuities") } ACUM/2(" structured","settlements") ACUM/3C annuities") ACUM/2( products") ACUM/3C annuities") ACUM/2C } .} } terminal","funding", group","retirement", individual", "fixed", variable","annuities") } WEIGHT=33 ACCRUE/l { ACUM/4("Foreign”,nLifen,"Insurance" ACCRUE/l { ACUM/6C"insurance", "and","invest ment","oriented”, "products" ACCRUE/9 { ACUM/2C whole"," life") 40 94909 201118589 ACUM/2(nterm","life”) ACUM/4("investment","1 inked", "universal", "life") ACUM/3(n investment1’,n 1 inked'1 ,"endowments") ACUM/2(n personal11," accident11) ACUM/2C"health","products") ACUM/2C'fixed", " annuities") ACUM/2("variable", "annuities") ACUM/3Cgroup", "products") ACCRUE/3 { EXACT/K" pension") EXACT/lC'life") EXACT/K" health") } WEIGHT=33 } WEIGHT=33 } WEIGHT=33 ACCRUE/3 { ACUM/3("Retirement", "Services" 41 94909 201118589 ACCRUE/l { ACUM/3C"Financial", " Services" ACCRUE/5 { ACUM/3(n commercial”," aircraft11 ,"leasing") ACUM/2("equipment","leasing") ACUM/3C capi tal", " markets", "operations") ACUM/2("consumer", " finance") ACUM/3("insurance", " premium"," financing") ACUM/2C"reinsurance","products") } } WEIGHT=33 ACCRUE/2 { ACUM/3C founded",M in","DATE(" 1967")) ACUM/4C basedn,n inM,SYNONYM(NY),SYNO NYM("NY")) } WEIGHT=33 } }〜COMPANY DESC TG WEIGHT =5 42 94909 201118589 〜PARENT_COMPANY_TG {/*母(218252)公司主題規則區段V 广美國…於此時實在地擁有AIG*/ {广母公司_名稱(0)V ACCRUE/2 { NEAR/4(SYN0NYM("United", " States", " of", "America")) ACUM/4(SYN0NYMC"United", " States", "of", "America")) } WEIGHT=100
}〜PARENT COMPANY NAME TG WEIGHT = 40 OR 〜PARENT—COMPANY_ALT_NAMES_TG { / * 替代公司 _
名稱(1…5)V /*公司_名稱(1)_替代名稱+ / ACCRUE/1 EXACT/1(" USA") } WEIGHT=20 ACCRUE/2 {广公司_名稱(2) —替代名稱V NEAR/3C UNITED","STATES"," OF"," AMERICA") ACUM/4C"UNITED", "STATES",MOF","AMERICA") } WEIGHT=20 ACCRUE/1 {广公司_名稱(3)-替代名稱v WILDCARD/K"**UNITED STATES") 丨 WEIGHT=20 43 94909 201118589 ACCRUE/2 {广公司_名稱(4)一替代名稱V NEAR/3C UNITED"," STATES", ACUM/2(" GOVT" "〇F”) ACUM/4C' UNITED"," STATES"," GOVT"," OF") } WEIGHT=20 ACCRUE/2 {/*公司_名稱(5)~替代名稱V NEAR/4CGovernment", "of","United", "States") ACUM/4("Government"," of"," United", "States") } WEIGHT=20 } WEIGHT=100 }〜PARENT COMPANY ALT NAMES TG WEIGHT= 〜PARENT_COMPANY_GEOGRAPHY_T‘G { / *地理主題規則 區段用於母公司(藉由 交聯獲得)*/ {广母公司—地理—國家—ISO*/ EXACT/K" US") } WEIGHT=70 {广公司_地理_州_住所 ACCRUE/2 { EXACT/1("DC") NEAR/3CDistrict", "of", ''Columbia") } WEIGHT=30 94909 201118589 }〜PARENT COMPANY GEOGRAPHY TG WEIGHT =5 }〜PARENT COMPANY TG WEIGHT =5 }〜COMPANY TG ; FACET_INTERSECTION WEIGHT=70, I NDEPENDENT.SECTION_WEIGHT = 21 〜PEOPLE_TG {广人民主題規則區段V ACCRUE/5 { ACCRUE/3 { ACUM/4 { TITLE("Mr.π),FIRSTNAME(HRobert"), MIDDLEC'H. "), LASTNAMECBenmosche") } ACUM/4("Chief", SYNONYMCExec"), SYNONYM ("Officer")) ACUM/l(SYNONYM(MPresM)) } ACCRUE/2 { ACUM/4 { TITLEC'Mr. "), FIRSTNAMEC" David"), MIDDLEC'L. "), LASTNAMEC Herzog" ) } A CUM/4(SYNONYM("Ch i e f"), SYNONYM(" F i nanc i a1") ,SYNONYMCOfficer" ), SYNONYMCExec."), SYNONYMC VPM)) } ACCRUE/2 {
ACUM/4 {TITLEC'Mr. "),FIRSTNAME ("Kristian"), MIDDLEC'P. "),LASTNAME (MMoor")) 45 94909 201118589 ACUM/4 { ACUM/6(SYN0NYM("Exec. M), SYNONYMC VP"), "of", "Domestic", SYNONYMC"Gen."), "Insurance") ACUM/7(SYN0NYM("Exec. " ), SYNONYMC VP"), "of", "AIG", "Property","Casualty" ,"Group") ACUM/5(SYN0NYM("Pres"), "of", "AIU", "Holdings", "Inc") ACUM/5(SYN0NYM("Pres"), "of","Domestic", "Brokerage") } } ACCRUE/2 { ACUM/4 { TITLE ("Mr."), FIRSTNAMEC Nicholas ”),MIDDLENAMEC"C. "),LASTNAME ("Walsh")) ACUM/2 { ACUM/6(SYNONYMC"Exec."), SYNONYMC VP"), "of", "Foreign", SYNONYMC Gen."), "Insurance")) ACUM/6 (SYNONYMC" Vice"), SYNONYMC Chairman")
,"of","AIU","Holdings", SYNONYM 46 94909 201118589 ("Inc")) ACCRUE/2 { ACUM/5{ TITLEC'Mr." ), FIRSTNAME ("Rodney"), MIDDLENAME("0."),LASTNAME ("Martin" » SUFFIXNAME (SYNONYMC'Jr."))) ACUM/5(SYN0NYM(" Exec." ), SYNONYMC VP"), "of","Life","Insurance")) } } }〜PEOPLE TG ; FACET.INTERSECTION WEIGHT=l〇 , INDEPENDENT—SECT 10N_WEIGHT = 3 } ^CLASSIFICATION RULE WEIGHT^ 100- 20+70+1 n 如第12圖中所示,分類器330實施下列操作。其於 步驟1210接收從群集器傳入之訊息,於步驟1220選擇— 組待應用於各訊息組之分類規則,以及於步驟1230分類各 訊息組。步驟1230典型平行實施遍及大量的分類執行绪 (classification thread)1240a-1240n。於步驟 l25〇i, 於各執行緒124i決定分類規則或諸規則之應用;於步驟 126〇i推出規則;以及於步驟1270i發展可能性(或關聯性) 用於特別的規則’或諸規則,於該規則訊息組相關於特定的 主題。於步驟1280,測試是否於執行緒124i中之分類規 47 94909 201118589 則之結果準備用於與於复 果是,則各種分類執行法、&行緒中計算之結果結合。如 並且於㈣1 之結果以下降之《性次序分等; 並且於步驟1290公佈兮* 6 1里丁 θ βΛδί1息組之等級至警示器步驟340。 用於ΐΓ則於步驟1295修正(refine)或否決(reject) 用於sfl息組之分類。 如上所表示,於步騍1210接收之訊息組包含於訊息 、且中文字Λ息之表徵’和元資料,該元資料包含已經在訊 心、、且内、具有高IDF值之名詞和名詞片語。於步 驟1250i藉由使用於該訊息組中之各表徵而選擇待使用於 刀類息組中之特定的分類規則,以從KBRKI擷取參照該 表徵之規則或諸規則之確認。然後於步驟l26〇i推出於步 驟1250i如此確認之規則或諸規則,以於步驟127〇i決定 關連性’於此關連性下訊息組關係到各種的特定主題。值 得注意的是’並非訊息組之所有的名詞將具有規則,以及 該等名詞不是對具體實施之系統的結果,因為那些名詞從 未導致於有相關的分類。 如上所表示,於步驟1210接收之訊息組包含於訊息 組中文字訊息之表徵,和元資料,該元資料包含已經在訊 息組内經確認並且具有高IDF值之名詞和名詞片語。於步 驟1250i藉由使用於該訊息組中之各表徵而選擇待使用於 分類之訊息組中之特定的分類規則,以從KBRKI擷取參照 該表徵之規則或諸規則之確認。然後於步驟1260i推出於 步驟1250i如此確認之規則或諸規則,以於步驟127〇i决 定關連性,於此關連性下訊息組關係到各種的特定主遞。 94909 48 201118589 第13圖為描繪使用於本發明之實作中使用者介面之 例示實施例之方塊圖。使用者介面包括圖形使用者介面 (GUI) 1310、應用伺服器1320、瀏覽器圖形使用者介面 (GUI)1340、API介面1350、資料庫1380、和中心應用祠 服器1370。 圖形使用者介面1310包括Java API介面1312和舍 含客戶端平台1314。應用伺服器1320包括應用飼服器核 心1322、記憶體資料庫1324、和Stomp連接介面(st〇mp
Connection interface)1326 至關聯式資料庫 1380。 瀏覽器GUI 1340提供瀏覽器存取至使用各種通訊協 定之複數個使用者之GUI 1310。API介面1350包括java API 介面 1352 和 C/C++API 介面 1354。 輪輻資料庫1380包括名稱值成對資料警示資料圖
(alert data map)1382、MySQL 資料庫 1386 和運行於 MySQL 資料庫1386中之Stomp使用者定義的功能1384。警示資 料圖1382使得任意的社交媒介資料被提供至終端使用者。 到達之資料被放置在MySQL資料庫中,從該資料庫該到達 之資料能夠供應至運行於資料庫中之使用者定義的功能。 中心應用伺服器1370包括應用伺服器核心1372、資 料庫1374和警示器1376。 警示和搜尋準則之格式相同。各請求包含有影響 (interest)之主題群組之布林(B〇〇iean)組合、主題群組相 關性類、間距持續期間、請求時間週期、量和情緒臨限值、 和基線類型。準則亦可以包含無文字。藉由中心應用伺服 94909 49 201118589 器1470接收無文字警示請求並且儲存為管理請求於中心 資料庫260中,作為未來的主題群組附加物至本體184〇, 上述說明結合第9、1〇和π圖。例示之用於作成這些請求 之GUI螢幕晝面描繪於第i5D至15L圖中。有影響之主題 群組為以有效的主題之布林組合表示之搜尋或警示標題之 詳細說明。此布林組合由警示請求處理器於147〇於析取範 式(disjunctive normal form,DNF)接收;也就是說,布 林表達式被提出為分離的連結句子。於DNF中布林運算子 被限制於“及(AND)” 、“或(0R)” 、和“非(N〇T)” 。有 效之主題為那些儲存於上述結合第9、1〇和17圖說明之系 統的知識庫(或本體)中者。 主題群組相關性類特定用於將提供回應特定之主題 群組請求之訊息組之最小可接受相關性類。如上說明,相 關性類為由有影響的主題群組所特定之主題正被討論於包 括訊息組之文字訊息之可能性範圍。例示說明,可以特定 4個類: V(非常高主題群組相關性(95至1〇〇%可能性)) Η(高(90 至 95%)) Μ(中(80至90%)),以及 L(低(60 至 80%)) 間距持續期間特定將提供回應於主題群組請求時間 週期(或粒度(granularity))之訊息組,經過此時間週期群 集訊息。對於上述之系、统,此時間週期範圍例示從一分鐘 至一年。 94909 50 201118589 請求之時間週期特定為訊息組將回應 求而被檢查之時間週期。時間 、、轉組言月 為搜尋或警示。對於到現在之任何時間、^群,請求是否 目前或未來之任㈣求為警示。ϋ料為搜尋。 之 量臨限值特枝相_其騎求 預期/基線活動位準之偏離(deviatiQn =_、、且 f線情纽準㈣定將如何計算用於此等 限值之參考基線。舉例而言,他們可以是簡單的移動平 均值。例示朗,從的基線偏離由下财程式決定: 方程式【6】偏離nE2) —(A1 —Ei))^其中 • A2為於現時時間間距之活動量(或情緒量) • A1為於緊接時間間距之活動量(或情緒量) • E2為於現時時間間距之預期活動量(或情 緒量) • E1為於緊接時間間距之預期活動量(或情 緒量),而t為分鐘之時間間距 例示說明,預期值為從最後被測量點之移動年·均值。 例示說明,於量之情況,在1〇至_1〇範圍之偏離被視為關 於主題之對話位準之影響;於+1〇至+25之間範 園之偏離被 視為提升位準之影響;高於+25之偏離被視為病毒位準之 影響;於-10至-25範圍之偏離被視為褪色;以及低於一25 被視為靜音。 回應至主題群組請求包含鏈接回應至製造之請求之 94909 51 201118589 警示Π)、回應涉及之間 群組請求之訊息組之量料情 α =回應至主題 關聯於回應於主題群έ 、值1土線和情緒基線、 群組m綱自其他的主題 組其本身因為他們的量;息。完全的訊息 疋如果需要的話,他們可有效用於檢查。 題群組ID藉由主題群电相 之,、他的主 是列表於某㈣中斷:關— 一.,,T斷以例示說明如60%。# 者;丨面之顯者的特徵為使用者“深入 必:須藉由操縱知識庫已知之‘方面1知識 : ⑽F)布林表達式,,之能力,而當-個:希望 或編#警示/請求準則’時開始該布林表達式正被 建立部分之處理。 下段說明如何幫助使用者產生搜索查詢。使用者總是 開始藉由從第18Α圖中第一層下拉(dr〇p_d〇wn)挑選項 目。月b夠使用API擷取下拉項目:dmTaxonomyGetRequest, 通過於空值用於‘開始分類法節 點(‘startTaxonomyNode’ ) 一旦使用者選擇項目,例如,假設使用者已選擇 CISC’ ,則該值使用 API : dmTaxonomyGetRequest 被送 回到輪輻。API 之回調(dmTaxonomyGetRequestCallBack) 提供相關分類法清單至使用者和面II)用於選擇之分類法, 亦即,“GICS”。回調功能亦提供面群組ID(facetGroupID) 52 94909 201118589 以區分相同的使用者正平行從事使用多個瀏覽器或標籤之 間不同的面減少。使用者能夠從返回清單選擇或者開始鍵 入他的/她的搜尋。當使用者鍵入字符串時,將產生使用目 前鍵入之‘不完全字符串’相關於已經選擇之‘分類法’ 的自動完成清單。 第18B圖顯示使用者不需要任何的鍵入而可取得之初 始清單。然而,第18C圖顯示使用者忽略提供給他的清單 而開始鍵入‘石油’。此下拉開始用‘石油*’之所有的 分類法,並且相關到已經選擇之詞彙“GICS” 。使用於此 之 API 為 dmTaxonomyNodeSearchRequest。其中一種輸入 至此API為先前面ID(priorFacetlD)作為“GICS”之輸 入。使用者亦將能夠提供布林運算子和否定對此要求,使 用特定於圖式中之切換按紐(toggle button)(最右邊之部 分框)。例如,若使用者選擇‘^,和‘空否定(empty negation)’ ,則其意味著他要求匹配〈“石油*,,和 ‘GICS’ >。此API的回調 (dmTaxonomyNodeSearchRequestCal IBack)功能將返回匹 配分類法清單。 立即刖進一段之步驟可以反覆施加至新組並繼續。 使用者亦具有選項選擇先前的面ID,伴隨著哪種新鍵 入的字符串將關聯使用布林運算子以產生新的結果組。舉 例而言,參看第18D圖-此處使用者已經選擇了等級之第^ 層級。目刖他是在選擇第4層級之處理中。除了第4岸級 外,他要選擇相關於他鍵入和使用布林運算子耦接之‘層 94909 53 201118589 級1的面ID’之字符串之所有的分類法。他應該能夠執行 此任務的方法為藉由單擊左(或右)箭號於框中現時鍵入 上’並且與他想要耦接之現時文字之層級對齊。將用 priorFacetID 呼叫 API dmTaxonomyNodeSearchRequest 作為層級1而非層級3之面id。第18E圖顯示於前面步驟 後於使用者行動後框之位置。使用者亦應該能夠完全拉框 至左邊以開始作為新的搜尋,相似於步驟2。 若使用者想要删除選擇之分類法,則他藉由單擊於輸 入框上之刪除按紐(畫X按鈕)即能夠達成任務。此將從包含 該分類法之框清除子樹。第18F圖和第18G圖顯示用於此 之刖和之後步驟。使用API : dmTaxonomyFacetClear完成 上述步驟。 下列諸點討論如何於輪輻後端追踪和使用面減少;創 造具有由下列要素組成之節點之樹: •面ID、分類法節點ID、根源面、左同位面(Left sibling Facet)、右同位面、布林運算子、否 定; 面減少API控制樹中節點之添;^;、去除、和編 輯; •於面減少後一旦使用者已經固定警示搜尋準 則’則作為序列化對向之整個樹被寫入表格 ‘SP_USR_ALRT_TRACK_TBL’ 之 <FACET_GROUP_EXPRESSION,; •樹之葉表示參與使用者搜尋詢問之實際的項目; 54 94909 201118589 •他們使用布林運算子組成群組之方法依於至 少共同原始的子樹布林運算子群組; •第18H圖說明此種群組; •所導致之子樹布林表達式被減少至dNF並被儲 存為 SP_USR—ALERT一TRACK—TBL 表袼中之 ALERT_EXPRESSION ; 第14圖描繪主題群組請求之處理。其操作已經會同 至12圖說明之文子訊息處理系統以示意方式表示為元 °其輸出挺供至擴展器1420、警示快取.1430、馨 不匹配器1440、和警示回應處理器145〇。使用者介面進一 步包括複數個伺服器1460a至1460η,各伺服器包含至少 =個顯示器和各種不同的輸入/輸出裝置’譬如鍵盤、滑鼠 等。伺服器1460之詳細說明提出於第13圖中。諸伺服器 連接至應用飼服器1470,該應用祠服器1470從飼服器 1460a至1460η接收來自使用者於搜尋或警示準則之形式 之輸入。伺服态146〇a至1460η連接至警示回應處理器 W50。應用伺服器1470連接至警示匹配器144〇。關於這 些元件之進一步說明提出於下列他們操作的討論中。 企圖匹配警示請求與分類器輸出之前,首先擴展分類 器輸出。於1420於組合產生器,對於從尚未擴展之分類器 送出之各訊息組,計算主題群組ID之適當的連接組合,該 等主通群組ID關聯於分類之訊息組。一般而言,只要主題 群組之產品之相關性至少60%,則主題群組丨D之該等組 合為適當。然後來自分類器之主題群組和主題群組j j) 94909 55 201118589 之適田的、,且口儲存於資料庫中作為可能的描述符用於訊息 ]於1420於警示集合器,對於在前面組合產生步驟已經 :存之主題群組1£)之各組合,對於―個或訊息組於相同的 ^間桶量、總量、加權平均情緒量、和加權平均相關性值 =亦由各自的量/相關性/和情緒值計算,用於組構由擴 盗1420標記給定的主題群組組合之訊息組。 其人s不匹配器1440從應用伺服器147〇接收源自 個或夕個使用者於一個或多個應用伺服器"咖至 本之主題群組請求。於步驟1450匹配器1440決定是 庫月\夠=1共取1430滿足該請求’或者是否其需要詢問資料 取右’、、4要珣問資料庫,則於步驟1460將結果載入於快 外 步驟1470主題群組請求對著快取内容匹配。此 佟,對於各間距持續期間,計算值用於匹配的結果之量和 緒然後於步驟1480,回應處理器145〇報告匹配至發 展該主題敎請求之伺服器之結果。 介第15L圖描繪使用於系統2〇〇之圖形的使用者 2:『一系:之說明螢幕。尤其是,螢幕顯示於終端290、 的和/或294。該等螢幕具有實質相同的格式,於多數 作^幕上可具有標頭510、警示空間1530、和工 广二間1550 °標頭1510包含軟鍵1512、1514、1516、和 邝18用於存取搜尋(第15G圖)、警示(第15E圖)、歷史(第 圖)、和計數(第15A圖)螢幕,該等螢幕說明於下文·, 二鍵1522用於存取設定螢幕(第15D圖);軟鍵1524用於 '出,以及歡迎線1528,該歡迎線確認簽署於終端顯示螢 56 94909 201118589 幕之個人。 警示空間1530提供連續更新表格1532,該表格综合 使用者也許已經從系統請求之任何的警示。於第15A至15L 圖之例示螢幕中,這些警示被確認於表格之第一行1533 之四列,如“石油卷夾(Oil Portfolio)” 、“藥物卷夾 (Pharma【Pharmaceutical】 Portfolio)” 、“建設卷夾 (Constr【Construction】Portfolio)”、和“石油卷夹(Oil Portfolio)” 。剩餘的行1534至1539特定於各列中情緒 值(向上或向下箭號)以及主題1534用於關聯於在行]1533 中對應列中確認之警示之文字訊息;警示之標題内容 1535、關聯文字訊息之病毒式傳播(Viraiity)i536、關於 警示之註釋(n〇te)1537、文字訊息之關聯性1538、和對於 警示最後更新之日期和時間1539。使用者可在報告中單擊 任何已確認之警示;且額外的資訊將提供在第15J圖所示 之螢幕的形式中。 標頭信息1510和警示空間1530於每一個使用之螢幕 上係相同。工作空間1550之内容隨著螢幕之不同而變化, 如下文中說明。有利的情況是,使用者能夠選擇顯示警示 空間之螢幕。 第15A和15B圖描繪主要帳戶(MainAccounts)和主要 帳戶權利(MainAccountsEntitlement)螢幕。主要帳戶榮幕 使得能夠進入和顯示使用者的名稱、地址、接觸資訊、和 在、碼。其亦關聯使用者與特定的帳戶和用於帳戶之公司名 稱和集團名稱。軟鍵1552提供存取至主要帳戶權利螢幕; 57 94909 201118589 以及軟鍵1553提供於選擇攔位中資訊之刪除。 主要帳戶權利螢幕提供使用者之資料權利之控制。工 作空間1550藉由名稱和帳號而提供使用者之確認。五行 1555至1559和多個列之表格1554综合使用者有關幾個列 表於各列中之資料來源之資料權利。於行1555中之多個列 確認特定的資料來源,譬如“S&PGICS,,。行1556之列 指示使用者是否具有從行1555中相同列確認之資料來源 存取資料。行1557之列指示使用者可以從何處行使該權 利。於行1558中之列指示使用者有關於該資料可以採取什 麼行動(請求、刪除、編輯)。以及於行1559中各列使得使 用者能夠請求支援有關於行1555中於相同列確認之資料 來源。 第15C圖繪示主要登錄(MainLogin)螢幕。於此螢幕 上工作空間1550要求使用者之帳戶和密碼。登錄軟鍵丨516 允命使用者元成登錄處理。我的帳戶(My Account)軟鍵 1562允許使用者存取第15A圖之主要帳戶螢幕。接觸我們 (Contact Us)軟鍵1563允許使用者存取。忘記密碼(L0st Password)軟鍵1564允許使用者存取密碼恢復處理(未顯 示)。標準報告空間1530未使用於主登錄螢幕因為此螢幕 除了登錄於使用者外尚可以顯示於個人。 第15D圖描繪主設定螢幕(MainSetting screen)。用 於此螢幕之工作空間1550包含警示準則選擇框1571和相 關性及臨限值選擇框1575,該等選擇框允許使用者特定警 示準則、相關性、和臨限值。例示說明,可以於警示準則 58 94909 201118589 選擇框1571中從日内(intraday)、日間(interday)、每 週、每季、每半年、或每一年時間週期選擇取樣間距。可 以藉由捲動通過待警示之清單1573和單擊於將應用選擇 之取樣間距之警示而應用不同的取樣間距於不同的卷失。 於選擇框1575中,可以從包含低(60%至80%)、中(8〇% 至90%)、高(90%至95%)、和非常高(95%至100%)之 選擇之組1576中選擇最小的相關性。可以從範圍從非常正 至非常負之七類目1577選擇情緒臨限值;以及可以從距標 準值低、中、或高之不同程度之措詞1578中選擇蜂鳴之位 準。 第15E、15F和15G圖描繪主警示(MainAlert)、主警 示項目編輯(MainAlertEntryEdit)、和主項目(MainEntry) 螢幕。於第15E圖中工作空間1550描繪所有先前發出警示 用於使用者螢慕之表格。表格之六個行1581至1586確認 警示名稱1581、最後修正警示之日期和時間1582、警示之 擁有者1583、關於該警示之註釋1584、共用警示之那些人 1585、和警示之狀態1586。 第15F圖之工作空間1550使得使用者能夠透過操縱 於儲存在資料庫270中之知識庫中之金融分類法而控制進 入警示準則。詳言之,於工作空間1550中左邊行描繪相關 於能量主體GICS分類法之部分。中間行描繪用於整個知識 庫之高位準分類法例示之例子。而右側提供使用第一鍵入 視窗和提交鍵對條目之評論,並且藉由鍵入他們的名字於 第一鍵入視窗而確認電子表格(spreadsheet)之擷取。經由 59 94909 201118589 第二鍵入視窗提供用於上傳之電子表格導致產生一系列之 警示,提供電子表格之格式對應於預定規範之行情清單。 第15G圖之工作空間1550提供搜尋準則之快速登錄, 才示5己了先進的(Advanced)、研究(Research)和幫助(Help) 之軟鍵1591、1592和1593提供存取至額外的資源。第一 捲動鍵1594允許使用者於各種分類法資源(譬如彭博行情 (Bloomberg TickerS)(如所示)、路透行情⑺⑼忧^
Tickers)等)之間捲選;以及捲動棒1596允許使用者於進 入於搜尋框中部分文字之各項建議的延續之間作選擇。 第15H、151和15J圖提供顯示結果。第ι5Η圖之工 作空間1550顯示表格ι61〇,提出對於所有待警示之結果。 此表格之内容與報告空間_之内容相同,然而,顯示於 表格1610中之結果當新的警示回應由g 口 ι接收時被即時更 新,同時報告空間1530之内容表示及時快照。 當使用者單擊於第15H圖之工作空間155〇中表示之 表格1610中特定的警示時’譬如第⑸圖之表格之榮幕表 示關於該選擇之警示之1§ _ •^顯不額外的資訊。例示說明,此資 訊包含圖形1620,該Ha θ Λ圖开> 1620描繪相關於警示主題之訊 心之,變1相關於伴隨著接收他們之日期和時間脱4 之主題之4個訊息之文字1622、和除了該警示主題之外之 分等之主題類目1626 <玻向相關性。繼續顯示情緒位準 1628和病毒式傳播1630。 能夠精由單擊於圖泌 '圖形之右上角之放大鏡1621而放大 第151圖之圖形以產生链 王音如描繪於第15J圖中之螢幕。此 60 94909 201118589 . 螢幕提供與使用者之互動以調整圖形顯示。為了例示之目 的’圖形顯示被分成5分鐘間距。使用者能夠藉由單擊於 工作空間底部之間距鍵1640而改變此情況’其將導致監視 器顯示第15K圖之螢幕。第15K圖顯示間距選擇框i65〇。 能夠藉由單擊於框1650中之不同的間距且然後單擊於工 作二間底部之重繒軟鍵16 5 2而改變間距持續期間。此情況 返回顯示至第15 J圖之螢幕但是具有新的選擇之時間間 距。同樣情況能夠藉由與在放大區域底部之可拖戈捲動棒 互動而改變級別和間距。 為了例不之目的,第15J圖繪示於垂直軸於單位1〇〇〇 之訊息量。能夠藉由單擊於工作空間之底部之級別鍵而改 變此級別,其將導致監視器顯示第15L圖之螢幕。第 圖顯示級別選擇框1660。能夠藉由單擊於框166〇中夕不 同的級別且然後單擊於工作空間底部之重緣軟鍵1662而 改變級別。此情況返回顯示至第15J圖之發幕但是具有新 的選擇之級別。 於第⑸圖之顯示螢幕中兩個垂直棒1632、讓定 義24分鐘時間週期,從該時間週期將繪製文字訊息職 ^於第151圖之讀空間’而經過該時間週期將計算調 =之相關性之量。能夠藉由單擊於這轉和㈣他們而橫 向移動這些棒,以便改變包含在兩個棒内之時間週期。 第15M圖描繪回應於警示請求之例示的電子郵件。標 頭咖確認題目、地址、日期、和發送者。線刪和㈣ 忍警示請求和題目之日期和時間。線1653和1654敘述 94909 201118589 已經反應於高度負情緒和病毒在加速之此請求而價測文字 訊息。如上所表*,使用相似之方程式評估情绪和加速度 改變,該方程式比較現時情緒位準和現時活動位準與較早 之情緒位準和較早之活動位準。線1655提供選擇之概1 字’該概述字從根據代表於根據他們的相關使用頻率之訊 息組中最高詞彙頻率IDF值收集之字之文字訊息而被萃° 錄。取樣之文字訊息提供於1656。最後提供連接於線1657 用於快速存取更多資訊,譬如額外的文字訊息。 [實例] ~ 下列例示於-小時間距期間從到達之訊息形成之 集。圍繞著種子表徵“aig”之軟群集之第 該種子表徵“,,目士 ρ α π x卜表 部成對平均餘弦二有:彻3. _具群集密度(全 餘弦相似性=5166❹ 頻率IDF向4_僅包含處理之訊息之表徵化文字之詞彙 之彼此H„而平均餘弦相似性為給定之訊息與軟集_ 〜之成對平均餘弦相似性): 94909 62 201118589 群集 集團 訊息ID 平均餘弦相 似性 時間戳記 訊息文字 40025 3451385 0.30905000 0210-03-01 00 : 55 : 00 保德信(Prudential)據說購買AIG亞洲單 元 http : //bit. ly/aEPTxe 40025 3382089 0.38859700 2010-03-01 00 : 14 : 00 倫敦:AIG董事會批准$ 355億單元出售給 保德信 http : //www. askbiography. com/ bio/London. html 40025 3071391 0.24216200 2010-03-01 00 : 35 : 00 世界金融:AIG和保德信接近350億美元亞 股交易 http : //ow. ly/16GwRl) 40025 3276788 0.23175700 2010-03-01 00 : 40 : 00 Okays AIG 234億美元販售保德信 httpz7www.finanza24.org/Europa /Okays-aig-C2A3-23-4-bi11ionpin-vend i ta-a-prudent i a1/ 40025 2085773 0.35863700 2010-01-01 00 : 22 : 00 RT @路透社_Biz : AIG董事會批准$ 355億 單元出售給保德信http : link, reuters. com/sew82j 40025 3788286 0.33560500 2010-03-01 00 : 22 : 00 RT @equipment_lease : AIG 董事會批准$ 355億單元出售給保德信:紐約(路透社)〇 美國國際…http : bit. ly/aladMm 40025 2107266 0.24547700 2010-03-01 00 : 04 : 〇〇 親愛的傢伙AIG的運動衫穿在整個飲食廣 場·其應該是在誠刺?如果不是,請問我 能拿回我的錢嗎? 40025 3652838 0.33699100 2010-03-01 00 : 34 : 〇〇 新聞:AIG董事會批准亞州人壽單元 保德信0路透社http : //bit. ly/bCTwgl 40025 3193371 0.21237900 2010-03-01 00 : 16 : 〇〇 Sm bus peo我知道這要作而沒有健康―石运-因為太貴,然後我想到AIG其支付十億元 獎金與我們的救助金 ~ 40025 2444654 0.24451100 2010-03-01 00 : 34 : 〇〇 #the一city AIG 同意出售$ 355 億亞; 產與保德信:保德信已贏得支持…http : //bit.ly/bxLUgn #金融 #新聞 ϋ.*琳 ----- 於此第二重複之重疊消除處理中群集密度增加至 0.52881780 94909 63 201118589 群集 集困 訊息ID 平均餘弦相 似性 時間戳記 訊息文字 40025 2085773 0.570014 2010-03-01 00 : 22 ·· 00 RT @路透社_.Biz : AIG董事會批准$ 355億 單元出售給保德信http : link, reuters. com/sew82j 40025 3382089 0.595946. 2010-03-01 00 : 14 : 00 倫敦:AIG钍事會批准$ 355億單元出售給 保德信-P- http : /Vwww. askbiography. com/ bio/London. html 40025 3451385 0.436637 0210-03-01 00 : 55 : 00 保德信據說購買AIG亞洲單元http :— //bit. ly/aEPTxe 40025 3652838 0.501185 2010-03-01 00 : 34 : 00 新聞:AIG f:事會批准亞州人壽單元出售給 保德信-路透社http : //bit. ly/bCTwfil 40025 3788286 0.33560500 2010-03-01 00 : 22 : 00 RT @equipment_lease : AIG 董事會批准$ 355億單元出售給保德信:紐約(路透杜)_ 美國國際…http : bit. ly/aladMm 下列為選擇自詞彙頻率(TF)x反向文件頻率(idf)向 量用於第二重複群集之例子:
表徵 TF*IDF 保德信: 批准: aig : 單元: 十億: 亞洲= 路透社: 35 : 賣出: 董事會 64 12.41796, 12. 6286, 15.72285 14, 2957, 8.44275, 5. 10776, 7.34145 7,41828 8, 53413 10.01516 94909 201118589 下列為選擇自於一小時間距表徵字典之例子,該一小 時間距為有關於此特殊軟群集表徵字典之子集: 表徵ID 表徵 IDF 1286907 Okays 4.32474 3087516 販售 4.32474 505434 運動衫 3.81017 49870 十億 3.80659 694986 保德信(pru) 3.79602 177640 獎金 3.61878 14669 據說 3.50732 727020 救助 3.46642 76648 資產 3.45347 23841 #金融 3.36530 60366 同意 3.34753 106542 保險(ins) 3.31660 67338 諷刺 3.30406 250816 批准 3. 15715 212971 aig 3.14457 427486 保德信 3.10449 65 94909 201118589 174326 食物 2, 87795 1647 金融 2.84634 64994 十億 2.81425 43857 亞洲 2. 55388 491 購買 2.51720 2004 董事會 2. 50379 27808 穿著 2. 34830 29783 販售 2. 34044 3471 美國 2. 17898 22627 拍賣 2.13354 1616 交易 2. 07188 11189 健康 1.95904 4281 支持 1.89209 937 全部 1,89209 11149 鏈接 1.86923 2056 而沒有 1.86332 1111 人壽 1.27875 66 94909 201118589 915 回 107918 雖然本發明已經參照特定的實施例作了說明,作^ 3亦 能夠對該等實施例施行許多的變化。於輸入步驟31〇 實施許多變化。舉例而言,可以使用不同的表徵化規則和 操作。可以藉由使用停止程序而消除經常使用的字馨如 “該(the)” 、“一個(a、an)” 、“那個(that)” 、和各 種的介詞。可以使用與創造之GLOBAL IDF表不同的程序^ 決定重要的個別字和/或片語。能夠使用其他的安排以 GLOBAL IDF表格;以及甚至能夠使用根據標準字使用、 關語言之靜態GLOBAL IDF表格’雖然靜態表格不那樣^ = 執行以及根據該等字之個人實際上使用於被處理之文 息。如前面所提及的,各種的修字幹軟體能夠使用於標二 化步驟。 去 嘱理綱㈣娜文字訊息 且W施本優點,但是其他的群集處理為已知並 掉結合第7圖以證明很有用處。於-些環境中J 再者,雖熱用 <固或多個群集步驟亦是確實可行的 處理為較理想,、載人知識庫並且從其產生分類規則之 的程序以產生分_ 使用其他Μ人技術和使用其他 分類訊息組。、㈣地可以使用其他的程序用於 之特i的::去雖然結合第i3、u和ΐ5Α至⑽圖說明 方案。"面為較佳,但是亦可以使用許多替代的 94909 67 201118589 θ雖然本發明已經說明有關金融界之特定應用情况,但 發月亦可以實施於各種環境,一些的情況說明如下。 系統架構 般而S ’可以執行本文中説明之系統和方法,
而言,經由也Α 1歹J 面。 女全網際網路(例如,富安全線上網際網路)介 八或者移動式/蜂巢式或連接/裝 i (例如’ i Phone、黑每機) )l面。可以益 料 精由來自第三方販賣表授權資料而即時聚集資 此外’系統和方法之實施例玎以單獨或組合方式利用 可數目之所有權網頁和網頁伺服器API。可以獲得額外 的所有權演算法以增加可能數目之消費者產品。 另外的B2B應用 雖然第一和第二系統目標在零售和機構貿易商,但是 其他的範例B2B頂點可以包含而不限制於: •金融市場(例如,機構貿易商、未來貿易商、 和所有其他的金融領威); •使得能夠量子基金創造客戶化投資模式之 API,如第16圖中步驟1660所示,其中於步 驟1612使用系統Java API : •用於公司之產品發展工具(例如,當計劃產品 創新時為了利用消費者行為導向,確認人們最 感興趣之產品之類型); •投資者關係(例如,監視關於公司的利益之所 有的活動,作為一種手段來預測市場趨勢和公 平交易之意識行為); 68 94909 201118589 •如第16圖中步驟1650所示健康照顧 (Healthcare),其中於步驟1614使用系統 C/C++API ; •資訊技術諮詢服務(IT Advisory Services) (例如,警示IT研究人員接受他們的盡職調 查,產生之公眾建議之相關技術領域之評論; 以及產生其正流行以及相關於那些有關領域 之公眾情緒程度之策略方針); •娛樂工業(例如,監視周圍的電影、電視、音 樂、和音樂會表演之情緒和活動); •如第16圖中步驟1620所示品牌管理工具,其 中於步驟1614使用系統C/C++API(例如,即時 之品牌觀念管理改變); •名人/人材機構(例如,即時管理表演者和運動 員之聲譽); •廣告和公共關係(例如,公關(Ρί〇和廣告產品 之措施效果); •房地產(例如,監視圍繞特定區域和鄰近區之 情緒和活動,結合從這些區域公佈之微小内容 和關於這些區域之公開資訊); •旅遊工業(例如,監視關於各種旅遊目的地和 城市之情緒和活動變化,可能由消費者或旅行 公司使用); •如第16圖中步驟1640所示新聞/網誌/新聞概 69 94909 201118589 念產生工具,其中於步驟1614使用系統 C/C++API (例如,為了產生關於新聞類型内容 產生之概念,得到人們喜歡談論之該新聞類型 之即時感受); •交通運輸工業(例如,監視短期情緒和活動以 較佳計劃資源分配); •研究公司(例如,監視對於不同的人口群體和不 同地區的地理圖形之即時情緒和活動趨勢); •政治選舉工具(例如,監視圍繞候選人話題之 即時情緒和活動變化); •電子商務/商業工具(例如,監視圍繞著產品和 產品發佈之活動;監視產品之“購買證明”); •健康工具(例如,監視流行疾病,當其表示於 線上);以及 •消費者服務/線上公關工具(例如,獨自性負面 情緒左右你的品牌(“ ‘一種憤怒’將要被管 理”)或者正面活動(“一種熱情將要增加”); 篩選所有消費者回饋的情緒變化)。 另外的B2C應用 其他的範例B2C頂點包含而不限制於: • iPhone/移動式應用(例如,當運動事件正產生 異常的高程度的情緒和活動時,使用“按下警 示(push alert)”)通知使用者;提供粉絲(fan) 知道“最佳遊戲現時發生”之方法;解讀“你 70 94909 201118589 . 的週遭之即時心情”作為猜測“人們今天在 你的週遭是快樂或是悲傷”之有趣的工具;描 述使用者所在實際位置之平均心情;可以使用 於此技術已知之情緒演算法搜尋來自此位置 之從鳴叫/文字訊息發出之標籤了地理之使用 者發表資訊; •即時“快樂級別”網址,包含全世界之快樂 “熱圖(heatmap)” ; •即時搜尋引擎,追踪關聯於搜尋條件之項目, 該搜尋條件係最正面於即時情緒和/或關聯之 即時線上活動; •影響股市之十大新聞來源之平台; •用於產品推薦消費者平台,顯示最熱門的商業 項目於即時、使用者產生情緒和/或活動改變 方面; • “消費者觀看”平台其顯示周圍的各種產品 即時之負面情緒和活動; •流行平台其根據即時情緒和活動量顯示什麼 是最熱門之衣服和服裝品牌; •愉樂評估平台(即時爛番茄(Rotten Tomatoes) /Metacritic(評分網站));以及 •今天於網頁上線上新聞/網誌之十件最可愛和 最可恨事情。 另外的大實施例 71 94909 201118589 使用至少一些上述之演算法,參照本揭示内容之一個 或另一個實施例’一些實施例可以包含“每天幸福級別,,, 例如’考慮到情緒遍及所有使用者公佈資訊對於使用者之 國家,和/或相似情況,世界幸福級別。一些實施例可以包 含“每天活動級別”,其顯示日子的異常高線上活動和異 常低線上活動。可以藉由僅舉例之方式使用此“每天活動 級別’於背景情況:(i)大情緒變化(對於國家)以可觀察 方式涵蓋股市參考點,包含但不限於美國的道瓊工業平均 (Dow Industrial Average)和納斯達克(NASDAQ)指數;(i i) 即時敏感的每日列出十大最愛股和十大最恨股;(iii)即時 敏感的列出十大“最拉風(m〇stbuzzedab〇u1;),,公司;(iv) 即時分等列出全世界十大最“快樂,,和“悲傷”國家;或 者(v)即時敏感的列出十個最“活躍行業”。此外,一些實 施例可以提供“建立自己的大傾向(macro trend)”能力, 使用所有可取*的搜尋領域^此情況使得商人能夠設定最 具體於其需要的大工具。 依照一些實施例,各“席位(seat),,(亦即,系統) 二:”狀微網誌平台’透過此平台使用者可以; 透、ft排除和/或改善系統操作和性能之回饋或建言1 能的k繼續精緻使用者介面以符合使用者需要是· 互動對^亦可以創造使用者和系辭理者之間的直; 另外的貫施例類刮 94909 72 201118589 .一些實施例可以包含創造之演算法顯示“意圖購買” 或者購買之行為”如表示於微公佈之資訊内。能夠搜尋 共同關聯於此購買之字或片語,譬如“我真的想要,,和“我 剛剛買了”用於即時和接近於公司名稱和公司的產品。 另外可能的技術頂點包含網路致能的電視平台和互 動電視、數位招牌產品,該數位招牌產品展開和移動於即 時創造大尺度資訊範圍公開位置和真實世界、即時敏感的 投景^產品,包含但不限於戶外投影、體育場投影、室内“海 報狀”投影。 如至少一些實施例提及的,眾所周知的資料探勘演算 法發表的資訊可以使用於一個或多個揭示之實施例。熟悉 此像技術者亦將了解到可以包含和使用其他的特質演算法 用於本揭示内容之一些實施例,以及本揭示内容亦明示或 本質上揭示可以組構至少一些揭示之實施例,或者可以與 個或多個揭示之實施例使用之演算法。 因此’本揭示内容表現了用於決定消費者、集團和/ 或公司等之活動和/或情緒之裝置、系統和方法之範例實施 例。如其他地方提及的,這些說明之實施例僅用於例示之 目的,而非用於限制。其他的實施例為可能和由本文中揭 不之實施例所涵蓋。對於熟悉此項相關技術者而言,根據 遍及揭示内容包含之教示,該等實施例將是明顯的。因此, 揭示之廣度和範圍將不受任何上述之實施例所限制。 【圖式簡單說明】 鑑於以上之詳細說明,對於熟悉此項技術者而言,本 73 94909 201118589 發明之這些和其他目的和優點將是很清楚的,其中: 第1圖描繪實施本發明之環境; 第2圖為本發明之第一範例實施例之方塊圖; 第3至14和16圖為描繪第2圖之實施例之全部操作 之圖式, 第15A至15L圖為用於第2圖之實施例之圖形的使用 者介面上顯示螢幕之描述; 第17圖為說明有助於了解本發明之某些關係之略 圖;以及 第18A至18H圖為圖形的使用者介面之特定應用之描 述。 【主要元件符號說明】 10 微網誌(iPhone和黑莓機應用) 20 網頁介面 40 安全網頁應用伺服器 60 貧料儲存益 80 桌上型應用 200 電腦糸統 205 外部資訊提供者 210 第一陣列 220、 240 、 1460a 至 1460η 伺服器 221 微網誌資料伺服器 222 第三方資料伺服器 223 平行處理伺服器 224 群集、分類和警示伺服器 230 第二陣列 241 發展輪輻伺服器 242、 243、244 消費者輪輻伺服器 250 快取和記憶體 74 94909 201118589 260 第一資料庫(快取記憶體) 知識庫 第二資料庫 膝上型瀏覽器 工作站瀏覽器 261 微網誌資料庫 262 263 分類器規則資料庫270 280、282、284 防火牆 290 292 瀏覽器 294 310、312、314、320、325、330、340、350、360、362、380 410、420、430、440、450、460、470、480、510、520、530 540、710、715、720、730、740、750、760、770、780、790 810、820、830、840、920、925、930、940、945、950、955 960、965、970、975、980、990、1210、1220、1240a…1240η、 1250a··· 1250η、1260、1270、1280、1290、1295、1420、1430、 1450、1460、1470、1480 步驟 905、910 輸入 915 LD—LOAD_INGEST—TBL 表格 1010 OWL2本體載入器 1012A-1012N、1022A-1022N 載入應用 1015、1025A-1025N 處理器 1020 原始資料本體載入器 1040 本體/分類法儲存器(本體/分類法Jena2目標儲 存器) 1050 本體/分類法相關資料庫管理系統(RDBMS) 1070 增強推理分類器規則萃取器 1080 分類器規則萃取器1110 元件 1310 圖形使用者介面(GUI) 75 94909 201118589 1312 Java API 介面 1314 富含客戶端平台 1320 應用伺服器 1322 應用伺服器核心 1324 記憶體資料庫 1326 Stomp連接介面 1340 瀏覽器圖形使用者介面(瀏覽器GUI) 1350 API介面 1352 Java API 介面 1354 C/C++API 介面 1370 t心應用伺服器 1372 應用伺服器核心 1374 ' 1380 資料庫 1376 警示器 1382 警示資料圖 1384 Stomp使用者定義的功能 1386 MySQL資料庫 1410 元件 1420 擴展器 1430 警示快取 1440 警示匹配器 1450 警示回應處理器 1470 中心應用伺服器 1510 標頭 1512、 1514、1516、1518、 1522、1524、1552、1553 1528 歡迎線 1530 警示空間(標準報告空間) 11332 連續更新表格 1533 第一行 1534 主題 1535 警示之標題内容 1536 關聯文字訊息之病毒式傳播 1537 警示之註釋 1538 文字訊息之關聯 1539 對於警示最後更新之曰期和時間 1550 工作空間 1555 至 1559 行 1562 我的帳戶軟鍵 1563 接觸我們軟鍵 1564 忘記密碼軟鍵 1571 警示準則選擇框 76 94909 201118589 . 1573 清單 1575 相關性及臨限值選擇框 1576 選擇之組 1577 類目 1578 措詞 1581 名稱 1582 曰期和時間 1583 擁有者 1584 註釋 1585 共用警示之人 1586 警示之狀態 1810 分類法 1820 美國工業集團股份有限公司(美國國際集團股份 有限公司)(節點) 1822 法老保險公司SAE(節點) 1824 美國國際集團人壽控股有限公司(節點) 1826、1830 AGC人壽保險公司(節點) 1828 美國通用資本公司(節點) 1832 連接 1840 本體 1850 公司主題群組 1852 、 1854 、 1862 、 1872 、 1874 、 1876 、 1882 、 1884 主題群組 1856 公司至公司連接 1860 股票行情指示主題群組 1864 股票行情指示至公司交聯 1870 地理主題群組 1880 人民主題群組 1890 第一鏈接 1892 第二鏈接 77 94909

Claims (1)

  1. 201118589 七、申請專利範圍: 1.種用於警示使用 步驟: 吳㊉被網痣活動之方法,包括下列 :以及 已接收之用於異常活動之微網諸訊息 2測到該異常活動時警示使用者。 2.如申味專利範圍第1 網魏活動之方、去,逸、、於吕不使用者異常微 方法進-步包括下列步驟: 以及 解析該微網魏訊息,以形成字和/或片語之向量; 片注於和’或片語之向量中聚集該等字和/或 片扣,以形成字和/或片語之聚集向量,· 測之接收钱息之該步驟包純照形成預 規則刀類子和/或片語之該聚集向量;以及 當偵測到異常活動時警示 該預測超過預定位準時警示該使用者。。…。括备 請專利範圍第!項所述之方法,進—步包括下列步 語之自微網誌之文字訊息’以形成字和/或片 於字和/或片語之該第—向量中標準化該字和/或 片,以形成標準化字和/或片語之第二向量,· 成用第二向量中之字和/或片語之:緒,以形 成用於該已接收之文字訊息之情緒值; 決定於該第二向量中所確認之字和/或片語之使用 94909 78 201118589 . 頻率,以形成用於該第二向量之該字和/或片語之頻率 值之第三向量; 組合該第一、第二和第三向量以及該情緒值,以形 成該字和/或片語之第四向量。 4. 如申請專利範圍第3項所述之方法,其中,該第四向量 為n+m維度之向量,包括: η維度,表示該文字訊息之表徵和其使用頻率;以 及 m維度,表示關於該文字訊息之元資料,該m維度 包括: 第一維度,表示該訊息之來源; 第二維度,表示該訊息之語言; 第三維度,表示用於該訊息之時間戳記; 第四維度,表示該訊息之地理起源;以及 第五維度,表示該訊息之作者。 5. 如申請專利範圍第4項所述之向量,其中,該文字訊息 之該表徵之使用頻率由反向文件頻率所表示。 6. 如申請專利範圍第1項所述之方法,進一步包括下列步 驟: 收集於第一時間間距中之複數個表徵化之微網誌 訊息; 選擇複數個種子表徵; 形成複數個微網誌訊息之軟群集,其中,於軟群集 中之所有該訊息皆具有相同的種子表徵,各該軟群集具 79 94909 201118589 有不同的種子表徵,且一些該訊息於多於一個的軟群集 中; ’、 藉由消除一些較其他的軟群集有較低密度之軟群 集而減少軟群集之數目; 消除重複之訊息’使得各文字訊息僅發現於一個軟 群集中;以及 凝聚合併該等軟群集,以產生已群集之文字訊息之 第一輸出。 7.如申請專利範㈣6項所述之方法,進一步包括下列步 驟: 收集於包括多個第一時間間距之第二時間間距中 之複數個第一輸出; 選擇複數個種子表徵; 形成複數個文字訊息之軟群集,其中,於軟群集中 之所有該文字m具有相同的種子表徵,各 具有不同的種子表徵,且-些該文字訊息於多於一= 軟群集中; μ 藉由消除-些較其他的軟群集有較低 集而減少軟群集之數目; 軟群 消除重複之文字訊息, 個軟群集中;以及 使得各文字訊息僅發現於一 第:合併該等軟群集’以產生已群集之文字訊息之
    如申請專利範圍第1項所述之方法, 包括下列步驟: 94909 80 201118589 , 於第一時間週期期間接收微網誌訊息流; 於複數個第一群集時間間距期間群集該等訊息,各 第一群集時間間距具有少於該第一時間週期之持續期 間,以產生第一複數個第一已群集之文字訊息;以及 與於複數個第一群集時間間距期間群集之訊息平 行,於複數個第二群集時間間距期間群集該第一已群集 之文字訊息,各第二群集時間間距具有少於該第一時間 週期而多於該第一群集時間間距之持續期間,以產生第 二複數個第二已群集之文字訊息。 9.如申請專利範圍第1項所述之方法,其中,檢驗該已接 收之用於異常活動之微調誌訊息之該步驟包括: 處理該已接收之微網誌訊息,以形成群集之具有名 詞和/或名詞片語之訊息組; 從知識庫產生一組分類規則,該分類規則指定該名 詞和/或名詞片語相關於該知識庫中主題之機率; 產生索引至該分類規則,該分類規則使用為相關於 該知識庫之主題及其關聯規則之名詞和或名詞片語之 該索引之來源; 使用該索引至該分類規則,以確認相關於該微網誌 訊息中該名詞和/或名詞片語之規則; 擷取該已確認之規則; 應用該已確認之規則至該微網誌訊息組中; 收集該規則應用之評分結果作為主題之清單; 當由該分類規則之應用決定時,以該機率之次序分 81 94909 201118589 專該主題之清單結果。 10.如申請專利範圍第9項所述之方法,其t,該已確辦之 規則被平行應用至賴峨訊息組。 n.如申請專利_第1項所述之方法,其中,藉由比較相 關於現時時間間距中第一主 與相關於至少通訊量 網鍵'訊息通訊量而谓測異常活動。x 狀該微 12:ΓΓ範圍第1項所述之方法,其令,藉由比較相 :::::::=,之_訊息通訊中 嗜位丰與相關於至少一個較早時間間距中該第一 13. —種用於礬示使用去 谓劂異爷活動。 步驟:。丁使用者異常微網諸活動之方法,包括下列 從至少一個微網誌平台接收訊息; 解析該等訊息,以形成字和/或片語之向量; 於複數個字和/或片語中連續地聚集 月語,並經過具有不同的持續期間之至少第_和第二 於::=:r該_ 準時警當=;! 一個時間週期之預測超過預定的位 14. 種平行群集文字訊息之方法,包括下列步 94909 82 201118589 於第一時間週期期間接收文字訊息流; 於複數個第一群集時間間距期間群集該文字訊 息,各第一群集時間間距具有少於該第一時間週期之持 續期間,以產生第一複數個第一已群集之文字訊息;以 及 與於該複數個第一群集時間間距期間該文字訊息 之該群集平行,於複數個第二群集時間間距期間群集該 第一已群集之文字訊息,各第二群集之時間間距具有少 於該第一時間週期而多於該第一群集時間間距之持續 期間,以產生第二複數個第二已集群之文字訊息。 15. 如申請專利範圍第14項所述之方法,進一步包括下列 步驟:與於該複數個第一群集時間間距期間該第一已群 集文字訊息之該群集平行,於複數個第三群集時間間距 期間群集該第二已群集之文字訊息,各第三群集之時間 間距具有少於該第一時間週期而多於該第二群集時間 間距之持續期間,以產生第三複數個第三已群集之文字 訊息。 16. —種群集表徵化之文字訊息之方法,包括下列步驟: 收集於第一時間間距之複數個表徵化之文字訊息; 選擇複數個種子表徵; 形成複數個文字訊息之軟群集,其中,於軟群集中 之所有該等文字訊息具有相同的種子表徵,各該軟群集 具有不同的種子表徵,且一些該文字訊息於多於一個的 軟群集中; 83 94909 201118589 藉由消除一些較其他的軟群集有較低密度之軟群 集而減少軟群集之數目; 消除該等軟群集之間重複之文字訊息,使得各文字 訊息僅發現於一個軟群集中;以及 凝聚合併該等軟群集,以產生已群集之文字訊息之 第一輸出。 ΓΛ如申請專利範圍第16項所述之方法,進一步包括下列 步驟: 收集於包括多個第一時間間距之第二時間間距之 複數個第一輸出; 選擇複數個種子表徵; 形成複數個文字訊息之軟群集,其中,於軟群集中 之所有該等文字訊息具有相同的種子表徵,各該軟群集 具有不同的種子表徵,且一些該文字訊息於多於一個的 軟群集中; 藉由消除一些較其他的軟群集有較低密度之軟群 集而減少軟群集之數目; 消除該等軟群集之間重複之文字訊息,使得各文字 訊息僅發現於一個軟群集中;以及 凝聚合併該等軟群集,以產生已群集之文字訊息之 第二輸出。 18. 如申請專利範圍第16項所述之方法,其中,根據該種 子表徵之反向文件頻率選擇該種子表徵。 19. 如申請專利範圍第16項所述之方法,其中,從位於反 84 94909 201118589 , 向文件頻率字典中頻率範圍内的表徵選擇該種子表徵。 20. 如申請專利範圍第19項所述之方法,其中,該反向文 件頻率字典使用經過多個第一時間間距接收之表徵化 文字訊息編輯。 21. 如申請專利範圍第20項所述之方法,其中,較之於在 反向文件頻率字典中,至少一些種子表徵於該第一時間 間距之該訊息中具有較高的反向文件頻率。 22. 如申請專利範圍第16項所述之方法,其中,該軟群集 之密度被決定為軟群集中各訊息與軟群集之矩心之間 的餘弦相似性之函數。 23. 如申請專利範圍第16項所述之方法,其中,藉由僅維 持相同訊息之一個實例而消除該軟群集之間重複的該 相同訊息,且該訊息具有由對其為成員之該軟群集之矩 心之餘弦相似性所決定,較具有對其為成員之該軟群集 之矩心之其他的實例之相似性為大之相似性。 24. 如申請專利範圍第16項所述之方法,其中,根據如藉 由該餘弦相似性所決定之相似性基礎凝聚合併該等軟 群集。 25. —種用於分類微網誌訊息組之方法,包括下列步驟: 處理已接收之微網誌訊息,以形成群集之具有名詞 和/或名詞片語之訊息組; 從知識庫產生一組分類規則,該分類規則指定該名 詞和/或名詞片語群集組相關於該知識庫中主題之機 率; 85 94909 201118589 產生索引至該分類規則,該分類規則使用為於該知 識庫之主題特質及其關聯規則中之所有名詞之索引之 來源; 使用該索引至該分類規則,以確認相關於該名詞和 /或名詞片語之規則; 擷取該確認之規則; 應用該已確認之規則至該微網誌訊息組中; 收集該規則應用之評分結果作為主題之清單; 應用該已確認之規則至微網誌訊息組;以及 當由分類規則之應用決定時,以該機率之次序分等 該主題結果。 26. 如申請專利範圍第25項所述之方法,其中,該已擷取 之規則被平行應用於該微網誌、訊息。 27. —種用於搜尋於訊息組中主題之組合/布林表示,和依 其相關於該主題之機率之次序而分等結果之方法,包括 下列步驟: 指定搜尋準則; 公式化該搜尋準則於析取範式(DNF); 藉由形成主題之組合而擴展標記對於給定的訊息 組之替代主題之清單,其中,於組合中各主題之機率之 成果超過預定的臨限值,藉此產生用於訊息組之替代之 主題組合擴展數目; 比較DNF搜尋準則與用於複數訊息組之替代主題 組合,以定位匹配;以及 86 94909 201118589 , 對於各匹配,報告已經有匹配,並且提供至少一個 被匹配之訊息組。 28. 如申請專利範圍第27項所述之方法,其中,用於各訊 息組之一系列之主題標記被轉換成η元組之主題/相關 性類對,使得相關性之成果超過一些預定之臨限值;以 及 相等的η元組之主題/相關性類對發生在於不同的 訊息組被聚集在一起,以形成量、主題群組合、情緒、 和用於複數個訊息組之相關主題之單一可警示之單元。 29. 如申請專利範圍第27項所述之方法,其中,警示請求 與處理、分類、訊息組之主題標記組匹配;以及訊息組 之該標記組被傳送至請求實體。 30. 如申請專利範圍第27項所述之方法,其中,警示快取 處理器組構主題標記之結合元組之快取;其對應量和情 緒測量被表示為時間序列;以及服務被提供用於結合元 組之加入成為結合元組之析取;以及該等結合之析取與 接收、處理警示請求匹配。 31. 如申請專利範圍第27項所述之方法,其中,當從請求 實體接收時,獨立的警示反應處理器傳送時間序列和基 線、匹配於特定的已處理警示請求之量和情緒資訊。 32. —種用於從知識庫無監督產生分類規則之方法,該知識 庫包括複數個主題群和該等主題群之間的複數個鏈 接,包括下列步驟: 穿越指定節點之間分層關係之分類法,該等節點鏈 87 94909 201118589 接至該知識庫中之主題群; 於分類法中之各節點,從該知識庫擷取主題群及其 特質之說明; 從資料庫擷取用於各規則區段之加權因素; 從該加權因素計算該規則之相關性之評估。 33. —種通知使用者搜尋或警示請求與微網誌訊息之間匹 配之方法,包括下列步驟: 檢驗已接收之用於異常活動之微網誌訊息; 根據對該搜尋或警示請求之相關性而分等該微網 誌、訊息; 通知使用者對於該搜尋或警示請求至少一個具有 最佳匹配之微網誌訊息之内容;以及 通知使用者對於該搜尋或警示請求具有較少匹配 值之額外的微網誌訊息之標題。 34. 如申請專利範圍第33項所述之方法,其中,藉由群集 該等訊息以形成已群集之訊息組,並且依照指定訊息相 關於特定的主題之可能性之分類規則組分類該等訊息 而分等該微網誌訊息。 35. —種用於分析對於異常活動之微網誌訊息之裝置,包 括: 伺服器,用於在第一時間週期期間接收微網誌訊 息; 群集器,用於在第一時間週期内複數個第一時間間 距期間群集已接收之訊息,以產生第一複數個第一已群 88 94909 201118589 集之訊息; 分類器,用於依照第一組之分類規則分類該第一已 群集之訊息,以產生評分訊息組; 資料庫,用於儲存分類規則組,並由該分類規則中 之名詞和/或名詞片語而索引; 知識庫,用於儲存本體; 分類規則產生器,用於從該知識庫產生一組分類規 則儲存於該資料庫中; 匹配器,用於匹配該評分訊息至搜尋請求。 36. 如申請專利範圍第35項所述之裝置,其中,當該群集 器正產生該第一複數個第一已群集之訊息時,該群集器 平行操作,以群集該第一已群集之訊息於該第一時間週 期内之複數個第二時間間距期間,以產生第二複數個第 二已群集之訊息。 37. 如申請專利範圍第35項所述之裝置,其中,該分類器 平行操作,以應用不同的分類規則至該第一已群集之訊 息之該訊息。 38. 如申請專利範圍第35項所述之裝置,進一步包括載入 器,用於載入該知識庫。 39. 如申請專利範圍第35項所述之裝置,其中,該本體包 括節點,該等節點相關於主題和鏈接,該等鏈接相關於 主題之間的關係,該等鏈接選擇自由子至母鏈接、母至 子鏈接、部份鏈接、有部份鏈接(has-part link)、實 例鏈接、子類鏈接及是鏈接(i s-a 1 i nk)所組成之群組。 89 94909 201118589 40.如申請專利範圍第35項所述之裝置,其中,該本體包 括描述金融服務工業之資訊,該金融服務工業之資訊包 含相關於品牌、服務和商標對公司;品牌、服務和商標 對品牌類別;人對公司:公司說明對公司;公司對母公 司;股票行情指示對公司;股票行情指示對公司主要的 股票行情指示;公司對GICS工業規範;公司對NAICS 工業規範;公司對SIC工業規範;公司對IS0_3166地 理;新聞主題對一般主題;以及金融主題對一般主題之 資訊。 90 94909
TW99118680A 2009-06-09 2010-06-09 Methods, apparatus and software for analyzing the content of micro-blog messages TW201118589A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US18557709P 2009-06-09 2009-06-09

Publications (1)

Publication Number Publication Date
TW201118589A true TW201118589A (en) 2011-06-01

Family

ID=43301477

Family Applications (1)

Application Number Title Priority Date Filing Date
TW99118680A TW201118589A (en) 2009-06-09 2010-06-09 Methods, apparatus and software for analyzing the content of micro-blog messages

Country Status (5)

Country Link
US (2) US8719302B2 (zh)
EP (1) EP2441010A4 (zh)
JP (1) JP5879260B2 (zh)
TW (1) TW201118589A (zh)
WO (1) WO2010144618A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI474202B (zh) * 2012-01-20 2015-02-21 Htc Corp 分析文件內容的方法、手持式電子裝置及電腦程式產品
TWI501097B (zh) * 2012-12-22 2015-09-21 Ind Tech Res Inst 文字串流訊息分析系統和方法
TWI569165B (zh) * 2015-09-14 2017-02-01 Chunghwa Telecom Co Ltd The method of grouping external sites through proxy logs
TWI574219B (zh) * 2012-06-13 2017-03-11 優你 嬌美股份有限公司 Recommended product tips system
TWI657687B (zh) * 2018-01-02 2019-04-21 凌群電腦股份有限公司 高效能資料長度可變之訊息組成方法及其系統
TWI677822B (zh) * 2018-04-13 2019-11-21 大陸商深圳富桂精密工業有限公司 網頁介面管理系統、方法及可讀存儲介質

Families Citing this family (269)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036979B1 (en) 2006-10-05 2011-10-11 Experian Information Solutions, Inc. System and method for generating a finance attribute from tradeline data
US8606626B1 (en) 2007-01-31 2013-12-10 Experian Information Solutions, Inc. Systems and methods for providing a direct marketing campaign planning environment
US8606666B1 (en) 2007-01-31 2013-12-10 Experian Information Solutions, Inc. System and method for providing an aggregation tool
US9430566B2 (en) * 2009-07-11 2016-08-30 International Business Machines Corporation Control of web content tagging
US20110010224A1 (en) * 2009-07-13 2011-01-13 Naveen Gupta System and method for user-targeted listings
US8458154B2 (en) 2009-08-14 2013-06-04 Buzzmetrics, Ltd. Methods and apparatus to classify text communications
US10339541B2 (en) 2009-08-19 2019-07-02 Oracle International Corporation Systems and methods for creating and inserting application media content into social media system displays
US9117058B1 (en) * 2010-12-23 2015-08-25 Oracle International Corporation Monitoring services and platform for multiple outlets
US11620660B2 (en) 2009-08-19 2023-04-04 Oracle International Corporation Systems and methods for creating and inserting application media content into social media system displays
US20120011432A1 (en) 2009-08-19 2012-01-12 Vitrue, Inc. Systems and methods for associating social media systems and web pages
US9268815B2 (en) * 2009-08-20 2016-02-23 Hewlett Packard Enterprise Development Lp Map-reduce and parallel processing in databases
US20110106836A1 (en) * 2009-10-30 2011-05-05 International Business Machines Corporation Semantic Link Discovery
KR101664430B1 (ko) * 2009-11-13 2016-10-10 삼성전자주식회사 리모트 ui 서비스 제공 방법 및 장치
US11122009B2 (en) * 2009-12-01 2021-09-14 Apple Inc. Systems and methods for identifying geographic locations of social media content collected over social networks
US11113299B2 (en) 2009-12-01 2021-09-07 Apple Inc. System and method for metadata transfer among search entities
US20130304818A1 (en) * 2009-12-01 2013-11-14 Topsy Labs, Inc. Systems and methods for discovery of related terms for social media content collection over social networks
KR101306667B1 (ko) * 2009-12-09 2013-09-10 한국전자통신연구원 지식 그래프 정제 장치 및 방법
GB0922608D0 (en) 2009-12-23 2010-02-10 Vratskides Alexios Message optimization
US8396874B2 (en) * 2010-02-17 2013-03-12 Yahoo! Inc. System and method for using topic messages to understand media relating to an event
US8620849B2 (en) * 2010-03-10 2013-12-31 Lockheed Martin Corporation Systems and methods for facilitating open source intelligence gathering
NO20100464A1 (no) * 2010-03-29 2011-09-30 Companybook Metode og arrangement for matching av virksomheter og deteksjon av endringer for en virksomhet ved bruk av matematiske modeller
US8666979B2 (en) * 2010-04-09 2014-03-04 Palo Alto Research Center Incorporated Recommending interesting content using messages containing URLs
US8417709B2 (en) * 2010-05-27 2013-04-09 International Business Machines Corporation Automatic refinement of information extraction rules
US8458584B1 (en) * 2010-06-28 2013-06-04 Google Inc. Extraction and analysis of user-generated content
US20120016948A1 (en) * 2010-07-15 2012-01-19 Avaya Inc. Social network activity monitoring and automated reaction
WO2012011496A1 (ja) * 2010-07-21 2012-01-26 楽天株式会社 サーバ装置、投稿情報処理方法、投稿情報処理プログラム及び記録媒体
CN102348171B (zh) * 2010-07-29 2014-10-15 国际商业机器公司 消息处理方法及其系统
US9633113B2 (en) * 2010-08-06 2017-04-25 Yahoo! Inc. Socializing via search
CN102387126A (zh) * 2010-09-01 2012-03-21 腾讯科技(深圳)有限公司 聚合微博单条消息的方法,服务器,客户端和系统
CN102387125B (zh) * 2010-09-02 2015-01-07 腾讯科技(深圳)有限公司 访问微博的方法和系统及微博网站图片发送方法和系统
US9076146B2 (en) * 2010-10-15 2015-07-07 At&T Intellectual Property I, L.P. Personal customer care agent
US8645298B2 (en) * 2010-10-26 2014-02-04 Microsoft Corporation Topic models
KR20120047632A (ko) * 2010-11-04 2012-05-14 한국전자통신연구원 상황 인지 장치 및 방법
US10034034B2 (en) * 2011-07-06 2018-07-24 Symphony Advanced Media Mobile remote media control platform methods
US20120150908A1 (en) * 2010-12-09 2012-06-14 Microsoft Corporation Microblog-based customer support
US9292602B2 (en) * 2010-12-14 2016-03-22 Microsoft Technology Licensing, Llc Interactive search results page
US20120158841A1 (en) * 2010-12-17 2012-06-21 Microsoft Corporation Proxy communications of non-person entities
US9053119B2 (en) * 2010-12-22 2015-06-09 International Business Machines Corporation Navigation of faceted data
US9990114B1 (en) 2010-12-23 2018-06-05 Oracle International Corporation Customizable publication via multiple outlets
JP5460887B2 (ja) * 2011-01-13 2014-04-02 三菱電機株式会社 分類ルール生成装置及び分類ルール生成プログラム
US9208252B1 (en) * 2011-01-31 2015-12-08 Symantec Corporation Reducing multi-source feed reader content redundancy
JP5884740B2 (ja) * 2011-02-15 2016-03-15 日本電気株式会社 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム
US8825679B2 (en) * 2011-02-15 2014-09-02 Microsoft Corporation Aggregated view of content with presentation according to content type
US9588669B2 (en) * 2011-02-17 2017-03-07 T-Mobile Usa, Inc. Sticky messages
GB2502736A (en) 2011-02-23 2013-12-04 Bottlenose Inc System and method for analyzing messages in a network or across networks
US8700629B2 (en) 2011-02-28 2014-04-15 Battelle Memorial Institute Automatic identification of abstract online groups
US8666984B2 (en) * 2011-03-18 2014-03-04 Microsoft Corporation Unsupervised message clustering
US20130073480A1 (en) * 2011-03-22 2013-03-21 Lionel Alberti Real time cross correlation of intensity and sentiment from social media messages
US8682895B1 (en) * 2011-03-31 2014-03-25 Twitter, Inc. Content resonance
US20150046371A1 (en) * 2011-04-29 2015-02-12 Cbs Interactive Inc. System and method for determining sentiment from text content
US9100669B2 (en) * 2011-05-12 2015-08-04 At&T Intellectual Property I, Lp Method and apparatus for associating micro-blogs with media programs
CN102790726B (zh) * 2011-05-18 2015-10-28 腾讯科技(深圳)有限公司 一种基于即时通讯推送信息的方法、装置及系统
US9251021B2 (en) 2011-05-23 2016-02-02 Bradley Gene Calder Asynchronous replication in a distributed storage environment
US9116879B2 (en) * 2011-05-25 2015-08-25 Microsoft Technology Licensing, Llc Dynamic rule reordering for message classification
US10127522B2 (en) * 2011-07-14 2018-11-13 Excalibur Ip, Llc Automatic profiling of social media users
US8447852B1 (en) * 2011-07-20 2013-05-21 Social Yantra, Inc. System and method for brand management using social networks
US9747609B2 (en) 2011-07-20 2017-08-29 ReadyPulse, Inc. System and method for brand management using social networks
US20130035982A1 (en) * 2011-08-04 2013-02-07 Pitney Bowes Inc. Method and system for creating targeted advertising utilizing social media activity
US8650198B2 (en) 2011-08-15 2014-02-11 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence
US20130054711A1 (en) * 2011-08-23 2013-02-28 Martin Kessner Method and apparatus for classifying the communication of an investigated user with at least one other user
EP2757489A4 (en) * 2011-09-13 2015-04-22 Tencent Tech Shenzhen Co Ltd METHOD AND DEVICE FOR DATA MATCHING
US8312056B1 (en) * 2011-09-13 2012-11-13 Xerox Corporation Method and system for identifying a key influencer in social media utilizing topic modeling and social diffusion analysis
US8756500B2 (en) 2011-09-20 2014-06-17 Microsoft Corporation Dynamic content feed filtering
US20130086072A1 (en) * 2011-10-03 2013-04-04 Xerox Corporation Method and system for extracting and classifying geolocation information utilizing electronic social media
US10013152B2 (en) 2011-10-05 2018-07-03 Google Llc Content selection disambiguation
US9305108B2 (en) 2011-10-05 2016-04-05 Google Inc. Semantic selection and purpose facilitation
US8930393B1 (en) * 2011-10-05 2015-01-06 Google Inc. Referent based search suggestions
US8606869B2 (en) * 2011-10-12 2013-12-10 Credibility Corp. Method and system for directly targeting and blasting messages to automatically identified entities on social media
US8825515B1 (en) * 2011-10-27 2014-09-02 PulsePopuli, LLC Sentiment collection and association system
WO2013066302A1 (en) * 2011-10-31 2013-05-10 Hewlett-Packard Development Company, L.P. Email tags
US9131018B2 (en) * 2011-11-02 2015-09-08 Dedo Interactive, Inc. Social media data playback system
US20160241533A1 (en) * 2011-11-07 2016-08-18 Anurag Bist System and Method for Granular Tagging and Searching Multimedia Content Based on User's Reaction
US11064257B2 (en) 2011-11-07 2021-07-13 Monet Networks, Inc. System and method for segment relevance detection for digital content
US10638197B2 (en) 2011-11-07 2020-04-28 Monet Networks, Inc. System and method for segment relevance detection for digital content using multimodal correlations
US9152625B2 (en) * 2011-11-14 2015-10-06 Microsoft Technology Licensing, Llc Microblog summarization
US20130159254A1 (en) * 2011-12-14 2013-06-20 Yahoo! Inc. System and methods for providing content via the internet
US9268769B1 (en) * 2011-12-20 2016-02-23 Persado Intellectual Property Limited System, method, and computer program for identifying message content to send to users based on user language characteristics
CN103176969A (zh) * 2011-12-20 2013-06-26 腾讯科技(深圳)有限公司 一种分享微博消息的方法及装置
US9110984B1 (en) 2011-12-27 2015-08-18 Google Inc. Methods and systems for constructing a taxonomy based on hierarchical clustering
US20130298038A1 (en) * 2012-01-27 2013-11-07 Bottlenose, Inc. Trending of aggregated personalized information streams and multi-dimensional graphical depiction thereof
US8782051B2 (en) * 2012-02-07 2014-07-15 South Eastern Publishers Inc. System and method for text categorization based on ontologies
CA2864076C (en) 2012-02-07 2022-10-04 Social Market Analytics, Inc. Systems and methods of detecting, measuring, and extracting signatures of signals embedded in social media data streams
CN103246670B (zh) 2012-02-09 2016-02-17 深圳市腾讯计算机系统有限公司 微博排序、搜索、展示方法和系统
US8832092B2 (en) * 2012-02-17 2014-09-09 Bottlenose, Inc. Natural language processing optimized for micro content
US9064245B2 (en) 2012-02-22 2015-06-23 Hewlett-Packard Development Company, L.P. Generating a calendar graphical visualization including pixels representing data records containing user feedback
US10372741B2 (en) * 2012-03-02 2019-08-06 Clarabridge, Inc. Apparatus for automatic theme detection from unstructured data
US11416325B2 (en) 2012-03-13 2022-08-16 Servicenow, Inc. Machine-learning and deep-learning techniques for predictive ticketing in information technology systems
US10740692B2 (en) 2017-10-17 2020-08-11 Servicenow, Inc. Machine-learning and deep-learning techniques for predictive ticketing in information technology systems
US10600002B2 (en) 2016-08-04 2020-03-24 Loom Systems LTD. Machine learning techniques for providing enriched root causes based on machine-generated data
US9082154B2 (en) * 2012-03-15 2015-07-14 Sap Se Aggregation and semantic modeling of tagged content
US9135311B2 (en) * 2012-03-20 2015-09-15 Tagboard, Inc. Gathering and contributing content across diverse sources
US20130282417A1 (en) 2012-04-20 2013-10-24 Lithium Technologies, Inc. System and method for providing a social customer care system
US10395270B2 (en) 2012-05-17 2019-08-27 Persado Intellectual Property Limited System and method for recommending a grammar for a message campaign used by a message optimization system
US9678948B2 (en) * 2012-06-26 2017-06-13 International Business Machines Corporation Real-time message sentiment awareness
GB201211853D0 (en) * 2012-07-04 2012-08-15 Qatar Foundation A system and method for event or entity analysis and exploration in microblogs
US9141600B2 (en) * 2012-07-12 2015-09-22 Insite Innovations And Properties B.V. Computer arrangement for and computer implemented method of detecting polarity in a message
US9009126B2 (en) * 2012-07-31 2015-04-14 Bottlenose, Inc. Discovering and ranking trending links about topics
US9286144B1 (en) 2012-08-23 2016-03-15 Google Inc. Handling context data for tagged messages
US9135255B2 (en) * 2012-09-26 2015-09-15 Wal-Mart Stores, Inc. System and method for making gift recommendations using social media data
US20130035983A1 (en) * 2012-10-02 2013-02-07 Toyota Motor Sales, U.S.A., Inc. Validating customer complaints based on social media postings
US9342908B2 (en) * 2012-10-08 2016-05-17 Auckland Uniservices Limited Information retrieval and presentation methods and systems
US20140129544A1 (en) * 2012-11-02 2014-05-08 Google Inc. Using Metadata to Summarize Social Media Content
WO2014074643A2 (en) * 2012-11-06 2014-05-15 Bottlenose, Inc. System and method for dynamically placing and scheduling of promotional items or content based on momentum of activities of a targeted audience in a network environment
US9460083B2 (en) 2012-12-27 2016-10-04 International Business Machines Corporation Interactive dashboard based on real-time sentiment analysis for synchronous communication
US9690775B2 (en) 2012-12-27 2017-06-27 International Business Machines Corporation Real-time sentiment analysis for synchronous communication
US9223831B2 (en) * 2013-01-02 2015-12-29 Codeq Llc System, method and computer program product for searching summaries of mobile apps reviews
US10002371B1 (en) 2013-01-02 2018-06-19 Codeq, Llc System, method, and computer program product for searching summaries of online reviews of products
GB2509773A (en) 2013-01-15 2014-07-16 Ibm Automatic genre determination of web content
CN103095499B (zh) * 2013-01-17 2016-05-04 上海交通大学 一种在微博平台中捕获水军的方法
US8762302B1 (en) 2013-02-22 2014-06-24 Bottlenose, Inc. System and method for revealing correlations between data streams
US9081797B2 (en) * 2013-03-06 2015-07-14 Google Inc. Systems and methods for associating microposts with geographic locations
CN103150374B (zh) * 2013-03-11 2017-02-08 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
US9058376B2 (en) * 2013-03-15 2015-06-16 Alcmeon Scoring of interrelated message elements
IN2013CH01201A (zh) * 2013-03-20 2015-08-14 Infosys Ltd
US10430894B2 (en) 2013-03-21 2019-10-01 Khoros, Llc Gamification for online social communities
US9432325B2 (en) * 2013-04-08 2016-08-30 Avaya Inc. Automatic negative question handling
US9183598B2 (en) 2013-05-29 2015-11-10 International Business Machines Corporation Identifying event-specific social discussion threads
US20140365208A1 (en) * 2013-06-05 2014-12-11 Microsoft Corporation Classification of affective states in social media
US9563847B2 (en) 2013-06-05 2017-02-07 MultiModel Research, LLC Apparatus and method for building and using inference engines based on representations of data that preserve relationships between objects
CN104252424B (zh) * 2013-06-26 2018-04-17 腾讯科技(深圳)有限公司 一种用户原创内容消息的缓存处理方法及装置
US11086905B1 (en) * 2013-07-15 2021-08-10 Twitter, Inc. Method and system for presenting stories
US10162884B2 (en) * 2013-07-23 2018-12-25 Conduent Business Services, Llc System and method for auto-suggesting responses based on social conversational contents in customer care services
US9349135B2 (en) * 2013-07-30 2016-05-24 Intuit Inc. Method and system for clustering similar items
US9262438B2 (en) * 2013-08-06 2016-02-16 International Business Machines Corporation Geotagging unstructured text
CN103458042B (zh) * 2013-09-10 2016-06-01 上海交通大学 一种微博广告用户检测方法
US9715492B2 (en) 2013-09-11 2017-07-25 Avaya Inc. Unspoken sentiment
US20150073958A1 (en) * 2013-09-12 2015-03-12 Bank Of America Corporation RESEARCH REPORT RECOMMENDATION ENGINE ("R+hu 3 +lE")
US20150120788A1 (en) * 2013-10-28 2015-04-30 Xerox Corporation Classification of hashtags in micro-blogs
US9830376B2 (en) * 2013-11-20 2017-11-28 International Business Machines Corporation Language tag management on international data storage
US10453079B2 (en) * 2013-11-20 2019-10-22 At&T Intellectual Property I, L.P. Method, computer-readable storage device, and apparatus for analyzing text messages
US9996529B2 (en) 2013-11-26 2018-06-12 Oracle International Corporation Method and system for generating dynamic themes for social data
US10002187B2 (en) 2013-11-26 2018-06-19 Oracle International Corporation Method and system for performing topic creation for social data
US10249008B2 (en) 2013-12-12 2019-04-02 At&T Intellectual Property I, L.P. Method, computer-readable storage device, and apparatus for addressing a problem in a network using social media
EP3084712A4 (en) * 2013-12-16 2017-06-07 CO Everywhere, Inc. Systems and methods for providing geographically delineated content
US20150169677A1 (en) * 2013-12-18 2015-06-18 Avraham Noiman System for following governmental rules and rulemaking processes
US20150172145A1 (en) * 2013-12-18 2015-06-18 Avaya, Inc. Impact prediction of social media interaction
US20150199609A1 (en) * 2013-12-20 2015-07-16 Xurmo Technologies Pvt. Ltd Self-learning system for determining the sentiment conveyed by an input text
GB2521637A (en) * 2013-12-24 2015-07-01 Ibm Messaging digest
US10262362B1 (en) 2014-02-14 2019-04-16 Experian Information Solutions, Inc. Automatic generation of code for attributes
US9858260B2 (en) * 2014-04-01 2018-01-02 Drumright Group LLP System and method for analyzing items using lexicon analysis and filtering process
US10949753B2 (en) * 2014-04-03 2021-03-16 Adobe Inc. Causal modeling and attribution
EP2953085A1 (en) * 2014-06-05 2015-12-09 Mobli Technologies 2010 Ltd. Web document enhancement
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US10205627B2 (en) 2014-06-24 2019-02-12 Vmware, Inc. Method and system for clustering event messages
US10120928B2 (en) * 2014-06-24 2018-11-06 Vmware, Inc. Method and system for clustering event messages and managing event-message clusters
US9256664B2 (en) * 2014-07-03 2016-02-09 Palantir Technologies Inc. System and method for news events detection and visualization
CN104077407B (zh) * 2014-07-10 2017-06-16 中国工商银行股份有限公司 一种智能数据搜索系统及方法
US10592539B1 (en) 2014-07-11 2020-03-17 Twitter, Inc. Trends in a messaging platform
US10601749B1 (en) 2014-07-11 2020-03-24 Twitter, Inc. Trends in a messaging platform
US10073837B2 (en) 2014-07-31 2018-09-11 Oracle International Corporation Method and system for implementing alerts in semantic analysis technology
US9985919B2 (en) * 2014-09-18 2018-05-29 International Business Machines Corporation Event notification
US9378200B1 (en) 2014-09-30 2016-06-28 Emc Corporation Automated content inference system for unstructured text data
US9672279B1 (en) 2014-09-30 2017-06-06 EMC IP Holding Company LLC Cluster labeling system for documents comprising unstructured text data
US9575952B2 (en) 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
US9852132B2 (en) * 2014-11-25 2017-12-26 Chegg, Inc. Building a topical learning model in a content management system
US10587541B2 (en) * 2014-12-02 2020-03-10 Facebook, Inc. Device, method, and graphical user interface for lightweight messaging
US10924444B2 (en) * 2014-12-02 2021-02-16 Facebook, Inc. Device, method, and graphical user interface for managing customer relationships using a lightweight messaging platform
US11216529B2 (en) 2014-12-08 2022-01-04 Verizon Patent And Licensing Inc. Systems and methods for categorizing, evaluating, and displaying user input with publishing content
US11140115B1 (en) 2014-12-09 2021-10-05 Google Llc Systems and methods of applying semantic features for machine learning of message categories
US20160162467A1 (en) * 2014-12-09 2016-06-09 Idibon, Inc. Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
US10409909B2 (en) 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
US10409910B2 (en) 2014-12-12 2019-09-10 Omni Ai, Inc. Perceptual associative memory for a neuro-linguistic behavior recognition system
US10445152B1 (en) 2014-12-19 2019-10-15 Experian Information Solutions, Inc. Systems and methods for dynamic report generation based on automatic modeling of complex data structures
US20160189057A1 (en) * 2014-12-24 2016-06-30 Xurmo Technologies Pvt. Ltd. Computer implemented system and method for categorizing data
CN104518930B (zh) * 2015-01-09 2017-11-21 哈尔滨工程大学 一种面向微博的异常用户和消息同时检测方法
US9805128B2 (en) 2015-02-18 2017-10-31 Xerox Corporation Methods and systems for predicting psychological types
US9985916B2 (en) * 2015-03-03 2018-05-29 International Business Machines Corporation Moderating online discussion using graphical text analysis
US10127304B1 (en) 2015-03-27 2018-11-13 EMC IP Holding Company LLC Analysis and visualization tool with combined processing of structured and unstructured service event data
US10061977B1 (en) 2015-04-20 2018-08-28 Snap Inc. Determining a mood for a group
US10078651B2 (en) 2015-04-27 2018-09-18 Rovi Guides, Inc. Systems and methods for updating a knowledge graph through user input
TWI650655B (zh) * 2015-05-07 2019-02-11 浚鴻數據開發股份有限公司 網路事件自動蒐集分析方法及系統
US10803399B1 (en) 2015-09-10 2020-10-13 EMC IP Holding Company LLC Topic model based clustering of text data with machine learning utilizing interface feedback
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US20170083817A1 (en) * 2015-09-23 2017-03-23 Isentium, Llc Topic detection in a social media sentiment extraction system
US10504137B1 (en) 2015-10-08 2019-12-10 Persado Intellectual Property Limited System, method, and computer program product for monitoring and responding to the performance of an ad
US10394803B2 (en) * 2015-11-13 2019-08-27 International Business Machines Corporation Method and system for semantic-based queries using word vector representation
US10824660B2 (en) * 2015-11-24 2020-11-03 Adobe Inc. Segmenting topical discussion themes from user-generated posts
US10832283B1 (en) 2015-12-09 2020-11-10 Persado Intellectual Property Limited System, method, and computer program for providing an instance of a promotional message to a user based on a predicted emotional response corresponding to user characteristics
US10540667B2 (en) * 2016-01-29 2020-01-21 Conduent Business Services, Llc Method and system for generating a search query
US10291570B2 (en) * 2016-02-15 2019-05-14 Interactive Intelligence Group, Inc. System and method for detecting relevant messages
US10061845B2 (en) 2016-02-18 2018-08-28 Fmr Llc Analysis of unstructured computer text to generate themes and determine sentiment
EP3331202A4 (en) * 2016-04-15 2018-08-22 Huawei Technologies Co., Ltd. Message presentation method, device, and system
US10504039B2 (en) * 2016-05-05 2019-12-10 Hulu, Llc. Short message classification for video delivery service and normalization
US10685292B1 (en) 2016-05-31 2020-06-16 EMC IP Holding Company LLC Similarity-based retrieval of software investigation log sets for accelerated software deployment
CN105956184B (zh) * 2016-06-01 2017-05-31 西安交通大学 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法
US10372744B2 (en) * 2016-06-03 2019-08-06 International Business Machines Corporation DITA relationship table based on contextual taxonomy density
CN106096022B (zh) 2016-06-22 2020-02-11 杭州迪普科技股份有限公司 多域网包分类规则的划分方法及装置
US10963634B2 (en) * 2016-08-04 2021-03-30 Servicenow, Inc. Cross-platform classification of machine-generated textual data
CN106897346A (zh) 2016-08-04 2017-06-27 阿里巴巴集团控股有限公司 数据处理的方法及装置
US10789119B2 (en) 2016-08-04 2020-09-29 Servicenow, Inc. Determining root-cause of failures based on machine-generated textual data
WO2018056299A1 (ja) 2016-09-26 2018-03-29 日本電気株式会社 情報収集システム、情報収集方法、及び、記録媒体
US10248626B1 (en) * 2016-09-29 2019-04-02 EMC IP Holding Company LLC Method and system for document similarity analysis based on common denominator similarity
US11361003B2 (en) * 2016-10-26 2022-06-14 salesforcecom, inc. Data clustering and visualization with determined group number
EP3549037B1 (en) * 2016-11-09 2024-08-07 Thomson Reuters Enterprise Centre GmbH System and method for detecting geo-locations in social media
FR3059192A1 (fr) * 2016-11-18 2018-05-25 Orange Procede d'organisation d'une pluralite de messages echanges avec un agent conversationnel
US11093494B2 (en) * 2016-12-06 2021-08-17 Microsoft Technology Licensing, Llc Joining tables by leveraging transformations
US10180935B2 (en) * 2016-12-30 2019-01-15 Facebook, Inc. Identifying multiple languages in a content item
US10496949B2 (en) 2017-01-04 2019-12-03 Christopher Zoumalan Compositions and methods for treating cutaneous conditions
US11334836B2 (en) 2017-01-04 2022-05-17 MSM Holdings Pte Ltd System and method for analyzing media for talent discovery
US10397326B2 (en) 2017-01-11 2019-08-27 Sprinklr, Inc. IRC-Infoid data standardization for use in a plurality of mobile applications
CN106874943A (zh) * 2017-01-23 2017-06-20 腾讯科技(深圳)有限公司 业务对象分类方法和系统
US10565311B2 (en) * 2017-02-15 2020-02-18 International Business Machines Corporation Method for updating a knowledge base of a sentiment analysis system
US10614164B2 (en) 2017-02-27 2020-04-07 International Business Machines Corporation Message sentiment based alert
US10679002B2 (en) * 2017-04-13 2020-06-09 International Business Machines Corporation Text analysis of narrative documents
WO2018191471A1 (en) * 2017-04-13 2018-10-18 Flatiron Health, Inc. Systems and methods for model-assisted cohort selection
US11176464B1 (en) 2017-04-25 2021-11-16 EMC IP Holding Company LLC Machine learning-based recommendation system for root cause analysis of service issues
US10902462B2 (en) 2017-04-28 2021-01-26 Khoros, Llc System and method of providing a platform for managing data content campaign on social networks
US10942948B2 (en) * 2017-05-02 2021-03-09 Sap Se Cloud-based pluggable classification system
US11238544B2 (en) 2017-07-07 2022-02-01 Msm Holdings Pte System and method for evaluating the true reach of social media influencers
EP3432155A1 (en) * 2017-07-17 2019-01-23 Siemens Aktiengesellschaft Method and system for automatic discovery of topics and trends over time
CN118551752A (zh) 2017-08-01 2024-08-27 三星电子株式会社 使用人工智能模型提供概述信息的装置和方法
US10999278B2 (en) 2018-10-11 2021-05-04 Spredfast, Inc. Proxied multi-factor authentication using credential and authentication management in scalable data networks
US11570128B2 (en) 2017-10-12 2023-01-31 Spredfast, Inc. Optimizing effectiveness of content in electronic messages among a system of networked computing device
US10785222B2 (en) 2018-10-11 2020-09-22 Spredfast, Inc. Credential and authentication management in scalable data networks
US11470161B2 (en) 2018-10-11 2022-10-11 Spredfast, Inc. Native activity tracking using credential and authentication management in scalable data networks
US10346449B2 (en) 2017-10-12 2019-07-09 Spredfast, Inc. Predicting performance of content and electronic messages among a system of networked computing devices
US11050704B2 (en) 2017-10-12 2021-06-29 Spredfast, Inc. Computerized tools to enhance speed and propagation of content in electronic messages among a system of networked computing devices
US11734096B2 (en) * 2017-10-23 2023-08-22 Vmware, Inc. Disaster prediction recovery: statistical content based filter for software as a service
CN107943835A (zh) * 2017-10-26 2018-04-20 中国南方电网有限责任公司 一种用于电力系统的报送数据自动分析与归类系统
US11182394B2 (en) 2017-10-30 2021-11-23 Bank Of America Corporation Performing database file management using statistics maintenance and column similarity
CN107844553B (zh) * 2017-10-31 2021-07-27 浪潮通用软件有限公司 一种文本分类方法及装置
US10601937B2 (en) * 2017-11-22 2020-03-24 Spredfast, Inc. Responsive action prediction based on electronic messages among a system of networked computing devices
US11061900B2 (en) 2018-01-22 2021-07-13 Spredfast, Inc. Temporal optimization of data operations using distributed search and server management
US10594773B2 (en) 2018-01-22 2020-03-17 Spredfast, Inc. Temporal optimization of data operations using distributed search and server management
US10977670B2 (en) 2018-01-23 2021-04-13 Mass Minority Inc. Method and system for determining and monitoring brand performance based on paid expenditures
US20190244175A1 (en) * 2018-02-06 2019-08-08 Bank Of America Corporation System for Inspecting Messages Using an Interaction Engine
US11023496B1 (en) * 2018-04-04 2021-06-01 Snap Inc. Generating clusters based on messaging system activity
US11010553B2 (en) * 2018-04-18 2021-05-18 International Business Machines Corporation Recommending authors to expand personal lexicon
US11443058B2 (en) * 2018-06-05 2022-09-13 Amazon Technologies, Inc. Processing requests at a remote service to implement local data classification
US11500904B2 (en) 2018-06-05 2022-11-15 Amazon Technologies, Inc. Local data classification based on a remote service interface
CN109213929A (zh) * 2018-07-26 2019-01-15 阿里巴巴集团控股有限公司 网络舆情信息处理方法、装置及服务器
CN110795474A (zh) * 2018-08-03 2020-02-14 上海小渔数据科技有限公司 用于内容生成的数据处理方法及装置
CN109408804A (zh) * 2018-09-03 2019-03-01 平安科技(深圳)有限公司 舆情分析方法、系统、设备和存储介质
US10565403B1 (en) 2018-09-12 2020-02-18 Atlassian Pty Ltd Indicating sentiment of text within a graphical user interface
US11049604B2 (en) * 2018-09-26 2021-06-29 International Business Machines Corporation Cognitive monitoring of online user profiles to detect changes in online behavior
US10855657B2 (en) 2018-10-11 2020-12-01 Spredfast, Inc. Multiplexed data exchange portal interface in scalable data networks
WO2020132852A1 (en) * 2018-12-25 2020-07-02 Microsoft Technology Licensing, Llc Coding information extractor
US10977289B2 (en) 2019-02-11 2021-04-13 Verizon Media Inc. Automatic electronic message content extraction method and apparatus
US11170064B2 (en) 2019-03-05 2021-11-09 Corinne David Method and system to filter out unwanted content from incoming social media data
US10931540B2 (en) 2019-05-15 2021-02-23 Khoros, Llc Continuous data sensing of functional states of networked computing devices to determine efficiency metrics for servicing electronic messages asynchronously
US11120229B2 (en) 2019-09-04 2021-09-14 Optum Technology, Inc. Natural language processing using joint topic-sentiment detection
US11163963B2 (en) 2019-09-10 2021-11-02 Optum Technology, Inc. Natural language processing using hybrid document embedding
US11301630B1 (en) 2019-09-19 2022-04-12 Express Scripts Strategic Development, Inc. Computer-implemented automated authorization system using natural language processing
US11238243B2 (en) 2019-09-27 2022-02-01 Optum Technology, Inc. Extracting joint topic-sentiment models from text inputs
US11068666B2 (en) 2019-10-11 2021-07-20 Optum Technology, Inc. Natural language processing using joint sentiment-topic modeling
US11734360B2 (en) * 2019-12-18 2023-08-22 Catachi Co. Methods and systems for facilitating classification of documents
US11055119B1 (en) * 2020-02-26 2021-07-06 International Business Machines Corporation Feedback responsive interface
US11397755B2 (en) 2020-04-21 2022-07-26 Freshworks, Inc. Incremental clustering
CN113630799B (zh) * 2020-05-08 2023-08-15 中国移动通信集团浙江有限公司 流量调度方法、装置及计算设备
RU2738335C1 (ru) 2020-05-12 2020-12-11 Общество С Ограниченной Ответственностью "Группа Айби" Способ и система классификации и фильтрации запрещенного контента в сети
US11487936B2 (en) * 2020-05-27 2022-11-01 Capital One Services, Llc System and method for electronic text analysis and contextual feedback
US20210406049A1 (en) * 2020-06-30 2021-12-30 Microsoft Technology Licensing, Llc Facilitating message composition based on absent context
US11494565B2 (en) 2020-08-03 2022-11-08 Optum Technology, Inc. Natural language processing techniques using joint sentiment-topic modeling
US11128589B1 (en) 2020-09-18 2021-09-21 Khoros, Llc Gesture-based community moderation
US11438289B2 (en) 2020-09-18 2022-09-06 Khoros, Llc Gesture-based community moderation
CN112309076A (zh) * 2020-10-26 2021-02-02 北京分音塔科技有限公司 低功耗的异常活动监控与预警方法、装置和系统
US11784961B2 (en) * 2020-10-30 2023-10-10 Honda Research Institute Europe Gmbh Social interaction opportunity detection method and system
US11438282B2 (en) 2020-11-06 2022-09-06 Khoros, Llc Synchronicity of electronic messages via a transferred secure messaging channel among a system of various networked computing devices
US11627100B1 (en) 2021-10-27 2023-04-11 Khoros, Llc Automated response engine implementing a universal data space based on communication interactions via an omnichannel electronic data channel
US11924375B2 (en) 2021-10-27 2024-03-05 Khoros, Llc Automated response engine and flow configured to exchange responsive communication data via an omnichannel electronic communication channel independent of data source
US11714629B2 (en) 2020-11-19 2023-08-01 Khoros, Llc Software dependency management
US12008321B2 (en) * 2020-11-23 2024-06-11 Optum Technology, Inc. Natural language processing techniques for sequential topic modeling
US12022371B2 (en) 2020-12-18 2024-06-25 Social Asset Management Inc. Method and system for managing electronic data representing emergency alerts
JP2022137569A (ja) * 2021-03-09 2022-09-22 本田技研工業株式会社 情報管理システム
JP2022137568A (ja) 2021-03-09 2022-09-22 本田技研工業株式会社 情報管理システム
US20220383411A1 (en) * 2021-06-01 2022-12-01 Jpmorgan Chase Bank, N.A. Method and system for assessing social media effects on market trends
CN115688024B (zh) * 2022-09-27 2023-05-30 哈尔滨工程大学 基于用户内容特征和行为特征的网络异常用户预测方法
EP4432182A1 (en) * 2023-03-14 2024-09-18 Tata Consultancy Services Limited Systems and methods for identifying and analyzing risk events from data sources
CN116739656B (zh) * 2023-08-14 2023-10-20 北京数字一百信息技术有限公司 一种客户体验管理方法和系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6121885A (en) * 1998-04-10 2000-09-19 Masone; Reagan Combination smoke detector and severe weather warning device
JP2005339368A (ja) * 2004-05-28 2005-12-08 Ntt Docomo Inc 感情把握システムおよび感情把握方法
WO2006039566A2 (en) * 2004-09-30 2006-04-13 Intelliseek, Inc. Topical sentiments in electronically stored communications
US7574409B2 (en) * 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
US7899769B2 (en) * 2004-11-24 2011-03-01 Overtone, Inc. Method for identifying emerging issues from textual customer feedback
JP4303708B2 (ja) 2005-07-05 2009-07-29 ヤンマー株式会社 旋回作業車
US7912458B2 (en) * 2005-09-14 2011-03-22 Jumptap, Inc. Interaction analysis and prioritization of mobile content
WO2007043322A1 (ja) * 2005-09-30 2007-04-19 Nec Corporation トレンド評価装置と、その方法及びプログラム
US7774363B2 (en) * 2005-12-29 2010-08-10 Nextlabs, Inc. Detecting behavioral patterns and anomalies using information usage data
US8731994B2 (en) * 2006-10-06 2014-05-20 Accenture Global Services Limited Technology event detection, analysis, and reporting system
US20090138415A1 (en) * 2007-11-02 2009-05-28 James Justin Lancaster Automated research systems and methods for researching systems
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
JP5283208B2 (ja) * 2007-08-21 2013-09-04 国立大学法人 東京大学 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法
US8046455B2 (en) * 2008-11-21 2011-10-25 The Invention Science Fund I, Llc Correlating subjective user states with objective occurrences associated with a user

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI474202B (zh) * 2012-01-20 2015-02-21 Htc Corp 分析文件內容的方法、手持式電子裝置及電腦程式產品
US9218083B2 (en) 2012-01-20 2015-12-22 Htc Corporation Methods for parsing content of document, handheld electronic apparatus and computer-readable medium thereof
TWI574219B (zh) * 2012-06-13 2017-03-11 優你 嬌美股份有限公司 Recommended product tips system
TWI501097B (zh) * 2012-12-22 2015-09-21 Ind Tech Res Inst 文字串流訊息分析系統和方法
TWI569165B (zh) * 2015-09-14 2017-02-01 Chunghwa Telecom Co Ltd The method of grouping external sites through proxy logs
TWI657687B (zh) * 2018-01-02 2019-04-21 凌群電腦股份有限公司 高效能資料長度可變之訊息組成方法及其系統
TWI677822B (zh) * 2018-04-13 2019-11-21 大陸商深圳富桂精密工業有限公司 網頁介面管理系統、方法及可讀存儲介質

Also Published As

Publication number Publication date
US20140358929A1 (en) 2014-12-04
US8719302B2 (en) 2014-05-06
US20100312769A1 (en) 2010-12-09
EP2441010A1 (en) 2012-04-18
EP2441010A4 (en) 2016-12-28
JP2012529717A (ja) 2012-11-22
US9323826B2 (en) 2016-04-26
JP5879260B2 (ja) 2016-03-08
WO2010144618A1 (en) 2010-12-16

Similar Documents

Publication Publication Date Title
TW201118589A (en) Methods, apparatus and software for analyzing the content of micro-blog messages
Liu et al. Reuters tracer: Toward automated news production using large scale social media data
US20230325396A1 (en) Real-time content analysis and ranking
US11093568B2 (en) Systems and methods for content management
Effrosynidis et al. The climate change Twitter dataset
Batrinca et al. Social media analytics: a survey of techniques, tools and platforms
Goswami et al. A survey of event detection techniques in online social networks
US20190311312A1 (en) Methods and systems for generating supply chain representations
Nazir et al. Social media signal detection using tweets volume, hashtag, and sentiment analysis
US20150120717A1 (en) Systems and methods for determining influencers in a social data network and ranking data objects based on influencers
US20080208820A1 (en) Systems and methods for performing semantic analysis of information over time and space
Bohlouli et al. Knowledge discovery from social media using big data-provided sentiment analysis (SoMABiT)
US11810007B2 (en) Self-building hierarchically indexed multimedia database
Darwiesh et al. Business intelligence for risk management: A review
US10108723B2 (en) Real-time and adaptive data mining
Anderson et al. Architectural Implications of Social Media Analytics in Support of Crisis Informatics Research.
Chung et al. A computational framework for social-media-based business analytics and knowledge creation: empirical studies of CyTraSS
Mehmood et al. A study of sentiment and trend analysis techniques for social media content
Seilsepour et al. 2016 olympic games on twitter: Sentiment analysis of sports fans tweets using big data framework
Saputra et al. C4. 5 and naive bayes for sentiment analysis Indonesian Tweet on E-Money user during pandemic
US10102257B2 (en) Real-time and adaptive data mining
Zhao et al. A system to manage and mine microblogging data
Jeon et al. Rule-Based Topic Trend Analysis by Using Data Mining Techniques
Wang et al. A framework for semantic connection based topic evolution with DeepWalk
Bohlouli et al. Knowledge Discovery from Social Media using Big Data provided Sentiment Analysis (SoMABiT)