TWI424325B - 使用有機物件資料模型來組織社群智慧資訊的系統及方法 - Google Patents

使用有機物件資料模型來組織社群智慧資訊的系統及方法 Download PDF

Info

Publication number
TWI424325B
TWI424325B TW099131226A TW99131226A TWI424325B TW I424325 B TWI424325 B TW I424325B TW 099131226 A TW099131226 A TW 099131226A TW 99131226 A TW99131226 A TW 99131226A TW I424325 B TWI424325 B TW I424325B
Authority
TW
Taiwan
Prior art keywords
module
opinion
organic
computer
word
Prior art date
Application number
TW099131226A
Other languages
English (en)
Other versions
TW201115371A (en
Inventor
Chu Fei Chang
Chun Wei Lin
Tai Ting Wu
Chia Hao Lo
tao yang Fu
Original Assignee
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ind Tech Res Inst filed Critical Ind Tech Res Inst
Publication of TW201115371A publication Critical patent/TW201115371A/zh
Application granted granted Critical
Publication of TWI424325B publication Critical patent/TWI424325B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

使用有機物件資料模型來組織社群智慧資訊的系統及方法
本揭露案是有關於擷取及分析線上社群智慧資訊(online collective intelligence information)之領域,且更明確而言,是關於用於自線上社群(online social community)收集資料並管理資料,且使用有機物件架構(organic object architecture)來提供高品質搜尋結果的系統及方法。
Web 2.0網站允許其使用者彼此互動以成為網站之內容的提供者,而在有些網站上,使用者被限制於僅能被動地觀看提供給他們的資訊。由於能夠建立及更新內容,所以許多網路作者能夠一起協同創作。舉例而言,在維基百科(wikis)中,使用者可擴充、取消及重作彼此之創作。在部落格中,個人之發貼及評論會隨時間而逐漸累積。
社群智慧(social intelligence,SI)是指分析從一群網際網路使用者中所收集之資料的概念,其使人能夠瞭解社會群體中之意見以及過去及未來的行為。為了使線上搜尋引擎(online search engine)能夠提供回應性的線上搜尋結果(responsive online search result),搜尋系統必須有效地擷取及管理來自各種來源之SI資訊。
Web 2.0網站中關鍵詞搜尋(keyword search)是常用的線上搜尋方法的其中之一。然而,關鍵詞搜尋具有若干缺點。關鍵詞搜尋易於過度搜尋,亦即發現非相關文件;且易於搜尋不足,亦即未發現某些相關文件。而且,關鍵詞搜尋之結果通常並不區分不同上下文內之相同關鍵詞。因此,網際網路使用者可能需要花數分鐘或甚至數小時來掃描搜尋結果,以識別有用資訊。關鍵詞搜尋之此等缺點在處理大量SI資訊時甚至更顯著。
本揭露之實施例是針對藉由使用有機物件資料模型來管理收集到的社群智慧資訊,以促進有效線上搜尋且克服上述之問題中之一個或多個。
在一態樣中,本揭露是針對一種使用有機物件資料模型來擷取及組織線上收集到之資料的方法。所揭露之方法包含:接收含有社群智慧資料的一個或多個網頁;對所述含有社群智慧資料的一個或多個網頁的內容進行斷詞;識別所述一個或多個網頁的經斷詞的內容中的附名實體;識別一個或多個網頁的經斷詞的內容中的主題;識別一個或多個網頁的經斷詞的內容中的意見;整合所識別的附名實體、主題及意見,以建構有機物件資料模型;以及將與所建構之有機物件資料模型相關聯的有機物件資料儲存於有機物件資料庫中。
在另一態樣中,本揭露是針對一種用於擷取及組織線上收集到的社群智慧資料的系統,所述系統由一個或多個電腦處理器實作,所述電腦處理器執行儲存於電腦可讀儲存媒體上的電腦程式。所述系統包括斷詞及整合模組、物件辨識模組、主題分類及辨識模組、意見探勘及情感分析模組以及物件關係建構模組。斷詞及整合模組耦接至訓練資料庫並且用以接收含有社群智慧資料的網頁。物件辨識模組耦接至斷詞及整合模組並且用以識別包含於所接收到之網頁中的附名實體。主題分類及辨識模組耦接至斷詞及整合模組,並且用以識別所接收到之網頁之每一句子及段落的主題。意見探勘及情感分析模組耦接至斷詞及整合模組,並且用以判定接收到之網頁之句子中的意見及與所識別之附名實體相關聯的意見。物件關係建構模組耦接至斷詞及整合模組,並且用以界定附名實體之間的關係。
在又一態樣中,本揭露是針對一種用於擷取及組織線上收集到之社群智慧資料的系統。所述系統可由一個或多個電腦處理器實作,所述電腦處理器執行儲存於電腦可讀儲存媒體上的電腦程式。所述系統包括斷詞及整合模組、物件辨識模組、主題分類及辨識模組、意見探勘及情感分析模組以及物件關係建構模組。斷詞及整合模組耦接至訓練資料庫,並且用以接收含有社群智慧資料的網頁,其中斷詞及整合模組支援包含有機物件的有機物件模型、與所述有機物件相關聯之自產生屬性、與所述有機物件相關聯之領域專用屬性以及與所述有機物件相關聯之社會屬性。物件辨識模組耦接至斷詞及整合模組,並且用以識別包含於所接收到之網頁中的附名實體,其中所判定之附名實體為有機物件。主題分類及辨識模組耦接至斷詞及整合模組,並且用以識別所接收到之網頁之每一句子及段落的主題,其中所識別之主題為與其對應的有機物件相關聯的社會屬性。意見探勘及情感分析模組耦接至斷詞及整合模組,並且用以判定接收到之網頁之句子中的意見及與所識別之附名實體相關聯的意見,其中所識別之意見為與其對應的有機物件相關聯的社會屬性。物件關係建構模組耦接至斷詞及整合模組,並且用以界定有機物件之間的關係。
本揭露之系統及方法擷取並管理收集到的社群智慧資訊,以便提供更快且更準確的線上搜尋結果以回應使用者詢問。本揭露之實施例使用有機物件資料模型來提供一架構以擷取及分析自線上社群網路及其他線上群落以及其他網頁收集到的資訊。有機物件資料模型反映由線上社群網路及群落建立之智慧資訊的異質性質。藉由應用有機物件資料模型,本揭露之資訊擷取及管理系統可高效地將大量資訊分類,並根據請求而呈現搜尋到的資訊。
本揭露之實施例包含軟體模組及資料庫,其可由電腦軟體及硬體組件之各種配置來實作。每一軟體及硬體的配置可以是各種電腦儲存媒體、用以執行某些所揭露之功能的各種電腦、各種第三方軟體應用程式以及實施所揭露之系統功能性的軟體應用程式。
圖1a為繪示線上搜尋引擎(online search engine)70之範例硬體架構的方塊圖。線上搜尋引擎70是指任何用以在接收到使用者之搜尋請求後提供線上內容之搜尋結果的軟體及硬體。線上搜尋引擎之熟知範例為Google搜尋引擎。如圖1a所示,線上搜尋引擎70自網際網路10接收使用者之詢問,諸如搜尋請求。線上搜尋引擎70亦可自線上社群中收集SI資訊。線上搜尋引擎70可藉由使用一個或多個伺服器(諸如由Intel生產的一或多個2×300 MHzDual Pentium II伺服器)來實作。伺服器是指運行伺服器作業系統的電腦,但亦可以是任何能夠提供服務的軟體或專用硬體。
線上搜尋引擎70包含一或多個負載平衡伺服器(load balancing server)20,其可自網際網路10接收搜尋請求,且將所述請求轉發至多個網路伺服器30中的其中之一。網路伺服器30可協調自網際網路10中接收之查詢的執行,格式化從資料搜集伺服器(data gathering server)50中所接收之對應搜尋結果,從廣告伺服器(Ad server)40中擷取廣告清單,且產生搜尋結果以回應於自網際網路10中所接收到之使用者之搜尋請求。廣告伺服器40用以管理與線上搜尋引擎70相關聯的廣告。資料搜集伺服器50用以從網際網路10中收集SI資訊,且藉由為資料編索引或使用各種資料結構來組織收集到的資料。資料搜集伺服器50會將所組織的資料儲存於文件資料庫60中,及從文件資料庫60擷取所組織的資料。在一範例實例中,資料搜集伺服器50可依據有機物件資料模型而託管資訊擷取及管理系統。以下將配合圖1b及圖2來描述有機物件資料模型,並且配合圖3來描述資訊擷取及管理系統。
圖1b為有機物件資料模型100的方塊圖。如圖1b所示,有機物件110可為具有子物件150的附名實體(例如,附名餐館)。子物件150可為繼承其母物件110之特性的附名實體。有機物件110可具有至少三種類型的屬性:自產生屬性(self-producing attribute)120、領域專用屬性(domain-specific attribute)130以及社會屬性(social attribute)140。自產生屬性120包括由物件110本身產生的屬性。領域專用屬性130包括描述物件110之主題領域的屬性。社會屬性140包括由與物件110有關之線上社群所貢獻之經分類的智慧資訊。在一範例實例中,由線上社群貢獻之智慧資訊可為使用者意見,例如關於物件110或其屬性之肯定或否定意見170。經分類之智慧資訊之每一類別可為與一個或多個意見相關聯的主題。主題也可以是社會屬性。
有機物件110包括時間戳記(time stamp)160(TS 160),其可使物件110與時間週期或時刻相關聯。TS 160可指示物件壽命週期,其可為物件110之建立與刪除之間的時間週期,或者為物件110之有效時間週期。在另一範例實例中,TS 160可以是與物件110有關之資訊登錄(entry)的建立時間。如圖1b所示,與物件110相關聯之所有屬性(120、130及140)及子物件(150)亦可具有與其相關聯的時間戳記。
圖2提供有機物件200之範例。如圖2所示,附名餐館210(例如,McDonalds)可為有機物件。餐館210之子物件(圖2中未繪示)例如包括在餐館210中供應的不同類型的食物,例如漢堡、炸薯條等。有機物件餐館210之自產生屬性120包含許多資訊,例如餐館210之地址222、餐館210所設定之價格221以及餐館210之促銷活動223(例如,免費贈品224及折扣225)。餐館210之領域專用屬性130包含餐館210供應之菜肴類型231、餐館210之停車空間232等。餐館210之社會屬性140包含餐館210之使用者評論241以及關於諸如氣氛242、服務243、價格244及食物口味245等主題的使用者意見。使用者意見可為負面的(例如,價格太貴)或正面的(例如,服務極佳)。如圖2所示,屬性可與時間戳記(TS)相關聯,以指示其有效時間。
圖3繪示用於從網際網路擷取資訊且使用有機物件模型來組織所述資訊的資訊擷取及管理系統300。資訊擷取及管理系統300會收集由線上社群網路及其他群落提供的社群智慧資訊,藉由應用有機物件資料模型來分類並儲存所收集到的社群智慧資訊。資訊擷取及管理系統300會接收請求搜尋某一資訊(例如,對特定餐館之餐館評論)的使用者詢問。資訊擷取及管理系統300會藉由擷取依據有機物件模型所擷取及組織的資訊來回應使用者詢問。
資訊擷取及管理系統300包括斷詞及整合模組310、物件辨識模組320、物件關係建構模組(object relation construction module)330、主題分類及辨識模組340以及意見探勘及情感分析模組350。資訊擷取及管理系統300可更包括訓練資料庫360、有機物件資料庫380a及專用名詞詞典(lexicon dictionary)380b。訓練資料庫360儲存資料記錄,例如,NE(附名實體)、主題或主題樣式、意見詞以及意見樣式。訓練資料庫360可為物件辨識模組320、主題分類及辨識模組340、意見探勘及情感分析模組350提供訓練資料集合,以促進機器學習程序。訓練資料庫360可接收來自物件辨識模組320、主題分類及辨識模組340、意見探勘及情感分析模組350的訓練資料,以促進機器學習程序。有機物件資料庫380a可儲存有機物件(例如,圖2中的200)。專用名詞詞典380b儲存所辨識的NE(有機物件)、主題(社會屬性)、主題樣式(社會屬性)、意見(社會屬性)、意見樣式(社會屬性)以及由資訊擷取及管理系統300的一個或多個模組所分類的其他資訊。
斷詞及整合模組310會從網際網路中接收網頁370。網頁370可為自線上社群中所收集之任何含有社群智慧資料的網頁。斷詞及整合模組310更會對網頁370中之內容進行斷詞,且識別每一句子中之專用名詞的邊界。舉例而言,中文與英文之間的一個差異為中文句子中的專用名詞不具有清楚的邊界。因此,在處理來自網頁370之任何中文語言內容之前,斷詞及整合模組310需先對句子中之專用名詞進行斷詞。傳統上,軟體應用程式是藉由含有各種語言樣式/文法規則的外掛(plug-in)模組來進行文本(text)的斷詞。線性鏈式條件隨機域(Conditional Random Field,CRF)演算法是用於對文本進行斷詞的改良演算法的其中之一中,其廣泛用於中文詞的斷詞。
CRF方法的其中一個缺點為其在處理快速改變的輸入資料時效能不佳。然而,線上社群網路及群落提供之社群智慧資訊為快速變化的資料。因此,在本範例實施例中,斷詞及整合模組310是使用改良後的機器學習方法,其受益於其他模組(物件辨識模組320、主題分類及辨識模組340以及意見探勘模組350)之機器學習功能來實施改良後的機器學習及斷詞程序。以下圖4至圖13中進一步揭露改良後的機器學習程序的範例。
在一範例實例中,訓練資料庫360是由物件辨識模組320、主題分類及辨識模組340及意見探勘模組350中的訓練程序來更新,以改善訓練資料的品質。來自訓練資料庫360的高品質訓練資料可改善由斷詞及整合模組310所執行之斷詞的準確性。
圖4繪示物件辨識模組320。物件辨識模組320用以識別NE,分類對所識別的NE,且將所分類的NE儲存於專用名詞詞典380b中。專用名詞詞典380b含有多個附名實體專用名詞,例如,食物NE、餐館NE及地理位置NE。斷詞程序495及物件辨識(Object Recognition,NER)程序496分別地包含兩個程序:學習程序及測試程序。在學習程序期間,資訊擷取及管理系統300之模組(例如訓練模組)會從訓練資料庫(例如,資料庫360)中讀取經標記的資料,並計算用於與機器學習有關之數學模型的參數。在學習程序期間,訓練模組亦可依據所計算出的參數以及與機器學習有關的數學模型來組態分類器。分類器是指依據輸入資料的一個或多個屬性將多組輸入資料映射至多個類別的軟體模組。舉例而言,類別是指主題、意見或任何其他依據輸入資料的一個或多個屬性的分類。之後,資訊擷取及管理系統300之模組(亦即,測試模組)會使用分類器來測試新的資料,此操作可稱為測試程序。在測試程序期間,測試模組會將新讀取之資料標記為不同NE,例如餐館、食物類型或地理位置。訓練資料庫360含有領域專用訓練文件,其可被標記以用於不同NE。
如圖4所示,物件辨識模組320會自專用名詞詞典380b及訓練資料庫360中擷取資料。斷詞程序495包含自動斷詞器訓練資料產生模組(auto segmenter training data producing module)450、以CRF為基礎之斷詞器訓練模組(CRF-based segmenter training module)460以及斷詞器測試模組(segmenter testing module)470。斷詞程序495可實作為斷詞及整合模組310的一部分,或者實作為物件辨識模組320的一部分。當資訊擷取及管理系統300擷取網頁370時,系統300會先執行斷詞程序495以對網頁370之內容進行斷詞。系統300接著會在物件辨識模組320中執行附名物件辨識程序496,以識別內容中的NE。
接下來,物件辨識模組320會使用後處理分類器(post-processing classifier)490來對所辨識之NE進行分類。後處理分類器490會使用NE周圍之句子的上下文來決定NE類別。舉例而言,網頁370可能包含討論在不同地理位置的若干餐館的社群評論。後處理分類器490會將所辨識之NE分類為至少三個實體類:食物、餐館及地理位置。
如圖4所示,斷詞程序495及物件辨識程序496均包含自動訓練資料產生模組(450及452)。自動訓練資料產生模組450與452會自智慧NE過濾模組(intelligent NE filtering module)440中接收所辨識之NE,並且將接收到的NE儲存於訓練資料庫360中。自動訓練資料產生模組450與452亦可存取儲存於訓練資料庫360中之NE,並將所擷取之NE發送至訓練模組460與485。斷詞程序495及物件辨識程序496均包含以CRF為基礎之訓練模組460及485。另外,以CRF為基礎之訓練模組460與485會使用以N字母組(N-gram)為基礎的NE辨識訓練。CRF是指常用於標記或剖析連續資料(例如,自然語言文本或生物序列)的一種區別機率模型。N字母組是指來自給定順序之n個項目(例如字母、音節等)的子序列。
而且,斷詞程序495及物件辨識程序496均可使用來自於訓練資料庫360之訓練資料,來訓練斷詞器訓練模組460及NE辨識訓練模組485以更佳地識別NE。資料庫360中之訓練資料的品質(例如,以及訓練資料集合之完整性與平衡(資料在類別間之平滑分佈)會影響模組310及320(圖3)之效能。訓練資料的品質可藉由由每一模組所達到之精確度(precision)與召回率(recall)值來量測。
在重複訓練程序之後,以CRF為基礎之斷詞或NE辨識可達成高度的精確度(precision)及完整性(recall)。斷詞模組470接著會對網頁370中之內容進行斷詞,且將所斷詞之內容發送至NE辨識(NE recognition,NER)模組480。NE辨識模組480包括並行的辨識子模組。舉例而言,每一辨識子模組可識別一個類之NE。若NE包含三個類之NE(諸如食物、餐館及地理位置),則NE辨識模組480可實作三個子模組來識別每一類之NE(食物名稱、餐館名稱及地理位置)。NE辨識模組480接著會識別NE,且接著將NE發送至後處理分類器490。
若來自於NE辨識模組480之輸出是不明確的,則後處理分類器490會仲裁所述結果。舉例而言,若兩個NE辨識子模組(例如,一個用於食物,一個用於餐館)分別地將一個NE(例如,美式大餛飩)映射至有機物件資料模型中,則後處理分類器490會使用NE周圍之句子上下文來決定其正確的類別(例如,「美式大餛飩」是指食物本身,或是由句子中之餐館供應的一道菜)。後處理分類器490會將NE分類為多個類別(例如,食物名稱、餐館名稱及地理位置),且將所識別之NE發送至智慧NE過濾模組440。
如圖4所示,智慧NE過濾模組440會判定由NE辨識模組480識別的最佳品質物件,且發送欲儲存於訓練資料庫360中的新識別之NE(物件)。智慧NE過濾模組440亦可將新識別之NE加入至專用名詞詞典380b。智慧NE過濾模組440更會將所識別的NE發送至NE辨識模組480中。圖5繪示由智慧NE過濾模組440(包含其與系統300之其他組件的介面)之範例實施方案所執行之程序的方塊圖。
如圖5所示,智慧NE過濾模組440會使用N字母組合併演算法510來識別NE樣式。NE樣式是指NE在各種句子中之置放,包含其詞長度(例如,詞中之字元的數目)以及與鄰近於其之其他詞的相對位置。智慧NE過濾模組440可藉由檢查與NE相關聯之句子中之時間戳記及位置來判定各種NE樣式之頻率(term frequenc,TF)(520)。TF是指NE或NE樣式在一特定時間週期內的出現頻率。如圖5所示,智慧NE過濾模組440會判定每一NE樣式在當前時間週期中(530)及所有時間歷程中(540)的TF,以濾出過時的NE。接下來,依據所計算出的TF,智慧NE過濾模組440可判定哪些NE樣式是正確的(例如,高於臨限值之TF),且發送所選擇之NE樣式以由後續程序作進一步檢查(步驟550)。智慧NE過濾模組440亦可對欲監視之不明確NE樣式(例如,低於臨限值之TF)進行分組(560及575)。智慧NE過濾模組440會接著在其識別出正確的NE樣式時使用此監視結果(575及550)。
為了進一步分析正確的NE樣式(570),智慧NE過濾模組440會計算置信心值(580)、可信賴值(582),並偵測NE樣式之邊界(584)。以下將配合圖6及圖7作進一步描述。智慧NE過濾模組440會接著檢查NE樣式之信心值,且例如若信心值高於臨限值時,則發送欲儲存於專用名詞詞典380b中或欲加入至訓練資料庫360中之NE樣式。智慧NE過濾模組440會類似地檢查NE樣式之可信賴值(582),且將NE樣式發送至自動NER訓練資料產生模組452中,以儲存為存於訓練資料庫360中之訓練資料的一部分。智慧NE過濾模組440亦會判定NE之邊界,並計算NE邊界(584)之信心值,且使用此邊界以在句子中識別正確的NE(496)。智慧NE過濾模組440接著會將所識別之NE發送至後處理分類器490,後處理分類器490又可對NE進行分類,並發送欲儲存於專用名詞詞典380b中的NE。或者,智慧NE過濾模組440亦可將正確的NE直接發送儲存至專用名詞詞典380b(586)。
圖6繪示用於計算可信賴值及信心值的程序600的範例。如圖6所示,智慧NE過濾模組440會識別具有在2個字元與6個字元之間的樣式長度的N字母組樣式(610)。智慧NE過濾模組440會根據NE樣式之長度對所有NE樣式進行排序,且接著更根據在文件中出現的頻率來對結果清單進行排序(620)。智慧NE過濾模組440亦可依據NE樣式之出現頻率來計算NE樣式信心值(見圖6,660)。依據NE樣式之信心值,智慧NE過濾模組440會檢查NE樣式第一次出現的時間戳記,以及其在某一時間週期內的出現頻率。舉例而言,若NE樣式出現過期,則智慧NE過濾模組會將過期的NE自訓練資料庫360刪除,以改善訓練資料的品質。
智慧NE過濾模組440接著會檢查某些NE樣式是否可合併(640)。對於經合併之NE樣式,智慧NE過濾模組440會根據預合併NE之出現頻率來判定可信賴值(640)。圖7繪示NE樣式可信賴值的計算範例,其反映NE辨識在某一時間週期內的可靠性。如圖7所示,為了判定可信賴值,智慧NE過濾模組440會先自NE提取字首碼、字中間碼及字尾碼N字母組特徵(710)。舉例而言,中文NE「意大利麵」具有字首碼「意大」、字中間碼「大利」以及字尾碼「利麵」作為其雙字母組特徵。接下來,智慧NE過濾模組440可判定所提取之特徵是否屬於特定領域(例如,餐飲)之特徵組(720)。之後,智慧NE過濾模組440會依據N字母組特徵之長度及其出現頻率來計算每一所提取之特徵的權重(730)。接下來,智慧NE過濾模組440會根據N字母組特徵之權重來判定可信賴值(740)。另外,藉由計算字首碼、字中間碼及字尾碼之可信賴值,智慧NE過濾模組440亦可判定新NE之邊界。如圖7所示,若特定NE樣式之可信賴值較低,則藉由人工資料處理人員(例如,資料錄入員)來檢視資料並校正N字母組特徵或特徵之出現頻率(750)。
圖8繪示主題分類及辨識模組340的範例方塊圖。主題分類及辨識模組340會分析從斷詞及整合模組310中接收之已斷詞的網頁內容以識別線上社群所討論之主題,用所識別之主題來標記每一句子及段落,並且將所識別並標記之主題發送至斷詞及整合模組310以進一步地分析。如圖8所示,主題分類及辨識模組340會根據儲存於有機物件資料庫380a中之有機物件資料以及專用名詞詞典380b中之主題及意見而從訓練資料庫360中之句子提取主題樣式(810)。接下來,主題分類及辨識模組340可藉由移除通常與句子中所討論之主題無關的停止詞及其他常用詞來減小所提取之主題樣式長度(820)。接下來,主題分類及辨識模組340可藉由人工標記以建立階層式主題樣式分組(步驟830)。舉例而言,請參照圖2,使用者檢視241可為一寬泛主題,其包含更多特定主題:氛圍242、服務243、價格244以及味道245。主題分類及辨識模組340可將氛圍242、服務243、價格244以及味道245分組成四個主題樣式群組。
接下來,主題分類及辨識模組340會計算兩個主題之間的語意相似性(840)。圖9繪示語意相似性計算的範例。如圖9所示,主題i及j可由主題語意向量Vi 及Vj 表示,其中主題i與j之間的語意相似性可界定為:
相似性(Vi ,Vj )=cos(Vi ,Vj )=cos θ
假設dave 為一組主題中之主題之間的平均相似性,則當主題分類及辨識模組340判定主題1與主題n之間的語意相似性dn 大於dave 時,其可確定主題n為新主題。在所揭露之範例中,主題分類及辨識模組340在計算語意相似性(840)之前會對主題樣式進行分組(830),以改善新主題偵測之準確性。
請再參照圖8,在計算語意相似性(840)之後,主題分類及辨識模組340會將主題樣式、主題語意向量以及語意相似性儲存於一個或多個表格中(860)。如圖8所示,主題分類及辨識模組340會將所識別之主題樣式加入至訓練資料庫360中,以用作為訓練資料。
如圖8所示,主題分類器模組870會匹配儲存於主題樣式表格861中之主題樣式,並依據儲存於主題語意向量表格862及語意相似性表格863中之資料來檢查語意相似性,藉此來處理所斷詞的網頁370(由斷詞及整合模組310斷詞)。之後,主題分類器模組870會對網頁370之內容中之主題進行分類,並偵測內容中之新主題。最後,主題分類及辨識模組340會標記並組成與網頁370上之每一句子有關的主題,並依據段落中之句子之主題來判定每一段落之主題(880)。主題分類及辨識模組340會將句子主題及段落主題發送至斷詞及整合模組310中,以作進一步的處理。
圖10繪示由主題分類及辨識模組340實作之用於收集及改善訓練資料集合之品質的程序1000的範例。其他模組,例如物件辨識模組320及意見探勘模組350,可使用類似的程序來改善訓練資料品質。如圖10所示,資訊擷取及管理系統300會以原始訓練資料集合來開始(1010),例如從線上社群網路之網頁收集之較大數目之句子及段落。舉例而言,原始資料集合可包含50,000個句子。接下來,資料擷取及管理系統300會對來自原始資料集合之句子進行取樣(例如,對每10個句子中的其中之一進行取樣)(1020)。例如,人工資料處理人員(例如資料錄入員)會藉由標記5,000個樣本句子中之主題來標記所取樣之資料集合,並將所標記之資料儲存於訓練資料庫360中(1030)。之後,資料擷取及管理系統300會驗證並校正人工標記之資料集合(1040)。
圖11繪示由主題分類及辨識模組340實作之驗證及校正程序1040的範例。資料擷取及管理系統300會接收經人工標記的資料集合1110,其中於每一句子中標記出一個或多個主題。所標記之資料集合1110包括一個或多個經標記之句子。主題分類及辨識模組340接著會識別五組句子,例如,句子組1111至1115。每一句子資料集合(1111至1115)包括一個或多個句子。主題分類及辨識模組340接著會使用四組經標記的資料集合1111至1114作為訓練資料集合1116,且使用第五資料集合1115作為測試資料集合1117。資料擷取及管理系統300會藉由透過支援向量機(Support Vector Machine,SVM)訓練器1120來處理1116中的四個句子資料集合以處理訓練資料集合1116。SVM訓練器1120可使用SVM模型1130。SVM模型1130可為作為空間中之點的資料樣本的呈現,其係映射以使得單獨類別之樣本可由清楚的間隙來區分。接下來,主題分類及辨識模組340會使用根據訓練資料集合1116所計算之SVM參數來組態SVM分類器1140。主題分類及辨識模組340會使用經組態之SVM分類器1140來預測第五資料集合1115中之句子是否關於一個或多個預定之主題。SVM分類器1140會產生預測之句子組1150,其包括資料集合1115中之句子以及針對資料集合1115中之句子所預測之主題。SVM分類器1140會標記針對所預測之組1150中之句子而預測的主題。所預測之組1150包括針對資料集合1115中之句子所預測的一個或多個主題的信賴度評分。
如圖11所示,主題分類及辨識模組340會使用驗證器1160來將測試資料集合1117(其與資料集合1115相同)與所預測之資料集合1150進行比較,以判定經人工標記之第五資料集合1115是否為與所預測之資料集合中之主題相同的主題。驗證器1160將1117中與1150預測答案不同之資料,按照SVM預測之信心值排序,產生一排序集合1170。接下來,人工資料處理人員會檢視並校正經排序之信心值評分之序列中的不一致集合(1180)。亦即,人工資料處理人員會先檢視並校正具有最高信心值評分之錯誤預測的資料點(例如,所預測之主題)。人工資料處理人員接著會將所校正之資料傳回至經標記之資料樣本檔案。標記標記標記
圖11中所描述之程序的範例可在經標記之資料集合1110之各種群組中重複。舉例而言,主題分類及辨識模組340可將經標記之資料集合1111分為五個群組(例如,11111、11112、11113、11114及11115)。主題分類及辨識模組340可使用上述之程序(1120、1130、1149、1150、1160、1170及1180),藉由使用資料集合11111、11112、11113及11114作為訓練資料集合1116,且使用資料集合11115作為測試資料集合1117來交叉證實經標記之資料集合1111,以驗證資料集合1111是否被正確地標記。
返回至圖10,在驗證並校正所標記之資料集合之後,主題分類及辨識模組340會藉由檢查交叉驗證結果(例如,主題預測之校正百分比)以評定SVM預測在與人工標記之樣本資料集合相比時的準確性來評估資料集合之品質(1050)。舉例而言,主題分類及辨識模組340可為交叉驗證校正百分比設定臨限值。當經標記之資料集合與所預測之集合的交叉驗證低於臨限值時,則主題分類及辨識模組340會對更多輸入資料進行取樣(1020)以及重新處理經取樣之資料(1030及1040)。若交叉驗證校正百分比達到給定臨限值時,則主題分類及辨識模組340會將所標記之資料集合1060輸出至訓練資料庫360。因此,藉由上述程序來測試並改善訓練資料的品質。
圖12a繪示由意見探勘及情感分析模組350實作之意見探勘程序1210的範例。意見探勘及情感分析模組350可從斷詞及整合模組310(圖3)中接收經斷詞的文件及句子主題,以供進一步處理。意見探勘及情感分析模組350包括以CRF為基礎之意見詞及樣式探測器模組(CRF-based opinion words and patterns explorer module)1220。意見詞及樣式探測器模組1220會在以CRF為基礎之演算法中使用儲存於專用名詞詞典380b(圖4)中之主題樣式及NE,以在所斷詞之文件中識別意見詞、意見樣式及否定詞/樣式。意見詞及樣式探測器模組1220會將意見詞、意見樣式及否定詞/樣式儲存於表格1222、1224及1226(其可為訓練資料庫360之一部分)中。在每一表格中,意見詞及樣式探測器模組1220更會將詞/樣式分類成:Vi (獨立動詞)、Vd (後面需要跟有意見詞之動詞)、Adj(後面需要跟有意見詞之形容詞)以及Adv(強調或降低強調一意見之)副詞。表格1222、1224及1226亦可儲存由人工資料處理人員所標記之意見、意見樣式/片語之傾向。
如圖12a所示,意見探勘及情感分析模組350會根據儲存於專用名詞詞典380b中之主題樣式、意見詞1222、意見樣式/片語1224以及儲存於資料庫360中之否定詞1226來識別以主題為基礎且以意見為依據的句子。根據所識別之意見詞、意見樣式及否定詞,意見探勘及情感分析模組350可使用意見探勘分類器(opinion mining classifier)1280來判定句子中之意見為正面抑或負面,並根據Vi 、Vd 、Adj及Adv之強度來計算意見決策評分(1260),意見探勘分類器1280包括機器學習分類器1240(例如,實作SVM或Nave Bayes演算法的分類器)以及以文法及規則為基礎之分類器1250。結合圖11之討論所描述的SVM分類器1140為機器分類器1240的其中一個範例。
以規則為基礎之分類器1250會使用含有語言樣式及文法規則(例如,儲存於有機物件資料庫380a及專用名詞詞典380b(圖3)中之語言樣式)之一個或多個外掛模組,以幫助判定意見之傾向。意見探勘分類器1280亦可計算意見詞或意見樣式之信心值。對於具有較低信賴度評分之意見或意見樣式,可藉由人工資料處理人員,來檢視且可能地校正意見之傾向,且將所校正之意見詞或樣式加入至儲存於表格1222、1224及1226中之訓練資料集合中。
接下來,意見探勘及情感分析模組350會根據段落中之每一句子之決策評分(例如,一段落中之句子之平均評分)來計算所述段落之意見決策評分。圖12b繪示由意見探勘及情感分析模組350實作的意見探勘測試程序的範例。測試網頁370會透過斷詞及整合模組310發送至意見探勘分類器(1240及1250)。根據所識別之以主題為基礎且以意見為依據的句子1230,意見探勘分類器1240及1250可判定句子中之意見為肯定抑或否定,且根據Vi 、Vd 、Adj及Adv之強度來計算意見決策評分(1310)。接下來,意見探勘及情感分析模組350會根據段落之每一句子中所識別之意見的決策評分來計算所述段落的意見決策評分(1320)。意見探勘及情感分析模組350會將與句子、段落相關聯之意見以及與有機物件相關聯之意見輸出至斷詞及整合模組310,以供進一步處理。
請再參照圖3,物件關係建構模組(object relationship construction module)330會建構兩種類型的關係:母物件與子物件之間的關係,以及兩個子物件之間的關係。在一範例中,物件關係建構模組330會使用網頁之佈局及內容來確定母物件與子物件之間的關係。物件關係建構模組330亦可使用自然語言剖析器(Parser)來分析兩個子物件之間的關係。
主題分類及辨識模組340(圖8)以及意見探勘及情感分析模組350(圖12a)可藉由使用類似的軟體架構來實作。圖12c提供可用於實作主題分類及辨識模組340以及意見探勘及情感分析模組350的軟體架構的範例。如圖12c所示,主題分類及辨識模組340或意見探勘及情感分析模組350會根據儲存於有機物件資料庫380a及專用名詞詞典380b中之主題樣式及意見詞來提取主題或意見詞。
根據所提取之意見詞及意見樣式,例如,意見探勘分類器1280可藉由匹配儲存於意見詞表格1222或意見樣式表格1224中之意見詞及意見樣式,並且根據儲存於表格1226中之資料檢查否定詞或特殊文法規則,來處理所斷詞的網頁(由斷詞及整合模組310斷詞)。表格1222、1224及1226可為訓練資料庫360的一部分。根據所識別之意見詞、意見樣式及否定詞,意見探勘及情感分析模組350可使用包含機器學習分類器1240(例如,實施SVM或Nave Bayes演算法的分類器)以及以文法及規則為基礎之分類器1250的意見探勘分類器1280,來判定句子中之意見為肯定抑或否定,並根據Vi 、Vd 、Adj及Adv之強度來計算意見決策評分(1260)。以規則為基礎之分類器1250可使用含有語言樣式及文法規則(例如,儲存於有機物件資料庫380a及專用名詞詞典380b(圖3)中之資料)的一個或多個外掛模組來幫助判定意見之傾向。意見探勘分類器1280亦可計算意見詞或意見樣式之信心值。對於具有較低信賴度評分之意見或意見樣式,可藉由人工資料處理人員來檢視且可能地校正意見之傾向,並且可將所校正之意見詞或樣式加入至儲存於表格1222、1224及1226中之訓練資料集合。
根據所提取之主題,主題分類器870可藉由匹配儲存於主題樣式表格861中之主題樣式,並檢查根據儲存於主題語意向量表格862及語意相似性表格863中之資料來檢查語意相似性,以處理所斷詞的網頁(由斷詞及整合模組310斷詞)。表格861、862及863可為訓練資料庫360之一部分。接著,主題分類器模組870會對網頁之內容中之主題進行分類,並偵測內容中之新主題。最後,主題分類及辨識模組340會標記並組成與網頁上之每一句子有關的主題,並根據段落中之句子之主題來判定每一段落之主題(880)。主題分類及辨識模組340會將句子主題及段落主題發送至斷詞及整合模組310,以供進一步處理。
在圖3中,斷詞及整合模組310會接收並處理來自所有其他模組之輸入資料,並將所擷取之有機物件資料儲存於有機物件資料庫380a中。圖13繪示斷詞及整合模組310的範例。
如圖13所示,斷詞及整合模組310會使用專用名詞詞典380b(儲存NE、主題、意見樣式等)作為以CRF為基礎之斷詞器訓練模組460及斷詞器470(見圖4)的外掛程式,以改善斷詞之準確性。專用名詞詞典380b之外掛程式會向斷詞器470提供NE、主題、意見樣式,以幫助斷詞器470辨識樣式。如上所述,專用名詞詞典380b中之內容可由物件辨識模組320、主題分類及辨識模組340以及意見探勘模組350(經由模組介面1330)更新。如圖13所示,此等模組亦可經由模組介面1330將所斷詞之結果、所發現之物件、主題及意見1310發送至斷詞及整合模組310。整合模組1340會監視其他模組之工作狀態(1342),並提供對其他模組之更新(1344)。整合模組1340更將經由模組介面1330自其他模組接收之資料(NE、主題、意見樣式等)整合至有機物件資料模型100中,並將物件資料儲存於專用名詞詞典380b中。
熟習此項技術者將明瞭,可在用於自線上社群及群落擷取社群智慧的系統及方法中作出各種修改及變化。舉例而言,在考慮所揭露之實施例之後,熟習此項技術者將瞭解,可使用資料庫之不同組態來儲存用於有機物件資料模型之訓練資料以及專用名詞詞典。另外,在考慮所揭露之實施例之後,熟習此項技術者將瞭解,可使用各種機器學習演算法來識別在有機物件資料模型中定義之NE、主題及意見。另外,在考慮所揭露之實施例之後,熟習此項技術者亦將瞭解,所揭露之有機物件資料模型可應用於除線上社群智慧之外的資訊(例如,備用資料庫或紙質出版物中之大量資料)。而且,在考慮所揭露之實施例之後,熟習此項技術者將進一步瞭解,可借助各種軟體/硬體組態,藉由使用各種電腦伺服器、電腦儲存媒體以及軟體應用程式來實施所揭露之實施例。因此,雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,故本發明之保護範圍當視後附之申請專利範圍所界定者為準。
10...網際網路
20...負載平衡伺服器
30...網路伺服器
40...廣告伺服器
50...資料搜集伺服器
60...文件資料庫
70...線上搜尋引擎
100...有機物件資料模型
110...有機物件(母物件)
120...自產生屬性
130...領域專用屬性
140...社會屬性
150...子物件
160...時間戳記
170...肯定或否定意見
200...有機物件
210...附名餐館
221...價格
222...地址
223...促銷活動
224...免費禮物
225...折扣
231...菜肴類型
232...停車空間
241...使用者評論
242...氛圍
243...服務
244...價格
245...食物口味
300...資訊擷取及管理系統
310...斷詞及整合模組
320...物件辨識模組
330...物件關係建構模組
340...主題分類及辨識模組
350...意見探勘及情感分析模組
360...訓練資料庫
370...網頁
380a...有機物件資料庫
380b...專用名詞詞典
440...智慧NE過濾模組
450...自動斷詞器訓練資料產生模組
452...自動NER訓練資料產生模組
460...以CRF為基礎之斷詞器訓練模組
470...斷詞模組
480...NE辨識模組
485...以CRF為基礎之NER訓練模組
490...後處理分類器
495...斷詞程序
496...物件辨識程序
861...主題樣式表格
862...主題語意向量表格
863...主題相似性表格
870...主題分類器模組
1010、1020、1030、1040、1050、1060...用於收集及改善訓練資料集合之品質的程序
1110...經人工標記的資料集合
1111...句子組/經標記的資料集合
1112...句子組/經標記的資料集合
1113...句子組/經標記的資料集合
1114...句子組/經標記的資料集合
1115...句子組/經標記的資料集合
1116...訓練資料集合
1117...測試資料集合
1120...SVM訓練器
1130...SVM模型
1140...SVM分類器
1150...句子組/資料集合
1160...驗證器
1210...意見探勘程序
1220...以CRF為基礎之意見詞及樣式探測器模組
1222...表格
1224...表格
1226...表格
1240...機器學習分類器/意見探勘分類器
1250...以文法及規則為基礎之分類器/意見探勘分類器
1260...意見決策評分
1270...意見決策評分
1280...意見探勘分類器
1310...經斷詞之結果、所發現之物件、主題及意見
1330...模組介面
1340...整合模組
圖1a為繪示線上搜尋引擎硬體架構的範例方塊圖。
圖1b為繪示有機物件資料模型的範例方塊圖。
圖2為繪示有機資料物件的範例方塊圖。
圖3為繪示以有機物件資料模型為基礎之資訊擷取及管理系統的範例方塊圖。
圖4為會次圖3所示之資訊擷取及管理系統之物件辨識模組的程序的範例流程圖。
圖5為說明藉由圖3所示之物件辨識模組來應用N字母組合並演算法的程序的範例流程圖。
圖6為繪示應用N字母組合併演算法的程序的範例示意圖。
圖7為繪示物件辨識模組中所使用之信賴值之計算的範例示意圖。
圖8為繪示圖3所示之主題分類及辨識模組的範例方塊圖。
圖9為繪示主題分類及辨識模組所應用之語意相似性的計算的範例。
圖10為繪示由主題分類及辨識模組實施之用於收集及改良訓練資料之品質的程序的範例流程圖。
圖11為繪示由主題分類及辨識模組實施之用於收集及改善訓練資料之品質的程序的更詳細之範例方塊圖。
圖12a為繪示圖3所示之意見探勘及情感分析模組的範例方塊圖。
圖12b為說明由意見探勘及情感分析模組實施之測試程序的範例方塊圖。
圖12c為繪示可用於實施主題分類及辨識模組以及意見探勘及情感分析模組的架構的範例方塊圖。
圖13為繪示圖3所示之斷詞及整合模組的範例方塊圖。
300...資訊擷取及管理系統
310...斷詞及整合模組
320...物件辨識模組
330...物件關係建構模組
340...主題分類及辨識模組
350...意見探勘及情感分析模組
360...訓練資料庫
370...網頁
380a...有機物件資料庫
380b...專用名詞詞典

Claims (21)

  1. 一種用於使用有機物件資料模型來擷取及組織線上收集之社群智慧資料的方法,所述方法包括:藉由用以擷取及管理社群智慧資訊的一電腦來接收含有社群智慧資料的一個或多個網頁;藉由所述電腦來對含有社群智慧資料的所述一個或多個網頁的內容進行斷詞;藉由所述電腦來識別所述一個或多個網頁之所斷詞的所述內容中的附名實體;藉由所述電腦來識別所述一個或多個網頁之所斷詞的所述內容中的主題;藉由所述電腦來識別所述一個或多個網頁之所斷詞的所述內容中的意見;藉由所述電腦來整合所識別的所述附名實體、所述主題及所述意見,以建構一有機物件資料模型,其中所述有機物件資料模型包含一有機物件且所述有機物件包括子物件的附名實體,且所述子物件為繼承作為母物件的所有物件之特性的附名實體;以及藉由所述電腦來將與所建構的所述有機物件資料模型相關聯的有機物件資料儲存於一有機物件資料庫中。
  2. 如申請專利範圍第1項所述之方法,其中所述識別所述附名實體的步驟更包括:藉由所述電腦,使用一以條件隨機域為基礎之演算法來訓練一物件辨識模組。
  3. 如申請專利範圍第2項所述之方法,其中所述識別所述附名實體的步驟更包括:藉由所述電腦,根據一預定標準來對所識別之所述附名實體進行分類,並將所分類之所述附名實體儲存於一專用名詞詞典中。
  4. 如申請專利範圍第3項所述之方法,其中所述識別所述主題的步驟更包括:藉由所述電腦,根據主題之間的語意相似性與以機器為基礎之分類來訓練一主題分類及辨識模組。
  5. 如申請專利範圍第4項所述之方法,其中所述識別所述主題的步驟更包括:藉由所述電腦,根據儲存於所述專用名詞詞典中之主題樣式與語意相似性來對所識別之所述主題進行分類。
  6. 如申請專利範圍第5項所述之方法,其中所述識別所述意見的步驟更包括:藉由所述電腦,根據一以機器學習為基礎的演算法來訓練一意見探勘模組,其中該以機器學習為基礎的演算法包括一支援向量機。
  7. 如申請專利範圍第6項所述之方法,其中所述識別所述意見的步驟更包括:藉由所述電腦,使用含有語言樣式或文法規則之一外掛模組來對所識別之所述意見進行分類。
  8. 如申請專利範圍第1項所述之方法,其中所述識別所述附名實體的步驟包括: 藉由所述電腦,使用一以條件隨機域為基礎之演算法來訓練一物件辨識模組;以及藉由所述電腦,根據一預定標準來對所識別之所述附名實體進行分類,並將所分類之所述附名實體儲存於一專用名詞詞典中。
  9. 如申請專利範圍第8項所述之方法,其中所述識別所述附名實體的步驟更包括:藉由所述電腦來選擇在一特定時間週期內出現頻率高於一臨限值的附名實體。
  10. 如申請專利範圍第1項所述之方法,其中所述識別所述主題的步驟包括:藉由所述電腦,根據主題之間的語意相似性來訓練一主題分類及辨識模組。
  11. 如申請專利範圍第10項所述之方法,其中所述識別所述主題的步驟更包括:藉由所述電腦,根據儲存於所述專用名詞詞典中之主題樣式及語意相似性來對所識別之所述主題進行分類。
  12. 如申請專利範圍第1項所述之方法,其中所述識別所述意見的步驟包括:藉由所述電腦,根據一以機器學習為基礎的演算法來訓練一意見探勘模組,其中所述以機器學習為基礎的演算法包括一支援向量機。
  13. 如申請專利範圍第12項所述之方法,其中所述識別所述意見更包括: 藉由所述電腦,使用含有語言樣式或文法規則之外掛模組來對所識別之所述意見進行分類。
  14. 一種用於使用有機物件資料模型來擷取及組織線上收集之社群智慧資料的系統,所述系統由一個或多個電腦處理器實施,所述一個或多個電腦處理器執行儲存於電腦可讀儲存媒體上的電腦程式,所述系統包括:一斷詞及整合模組,耦接至一訓練資料庫,所述斷詞及整合模組用以接收含有社群智慧資料的網頁;一物件辨識模組,耦接至所述斷詞及整合模組,所述物件辨識模組用以識別包含於所接收到之所述網頁中的經分類的附名實體;一主題分類及辨識模組,耦接至所述斷詞及整合模組,所述主題分類及辨識模組用以識別所接收到之所述網頁之每一句子及段落的主題;一意見探勘及情感分析模組,耦接至所述斷詞及整合模組,所述意見探勘及情感分析模組用以判定所接收到之所述網頁之句子中的意見及與所識別之所述附名實體或所識別之所述主題相關聯的意見;以及一物件關係建構模組,耦接至所述斷詞及整合模組,所述物件關係建構模組用以界定附名實體之間的關係,其中所述斷詞及整合模組更用以整合從所述物件辨識模組中接收到之所識別的所述附名實體、從所述主題分類及辨識模組中接收到之所識別的所述主題以及從所述意見探勘及情感分析模組接收到之所識別的所述意見,以建 立一有機物件模型,其中所述有機物件模型包含一有機物件且所述有機物件包括子物件的附名實體,且所述子物件為繼承作為母物件的所有物件之特性的附名實體。
  15. 如申請專利範圍第14項所述之系統,其中所識別之所述附名實體為有機物件,且所識別之所述主題及意見為與其對應的物件相關聯的社會屬性。
  16. 如申請專利範圍第14項所述之系統,所述物件辨識模組包括:一附名實體辨識模組,用以根據一以條件隨機域為基礎之機器學習程序來識別附名實體;一後處理分類器模組,用以根據一預定標準對所識別之所述附名實體進行分類;以及一智慧附名實體過濾模組,用以更新一專用名詞詞典及所述訓練資料庫。
  17. 如申請專利範圍第14項所述之系統,所述主題分類及辨識模組包括:一訓練模組,用以應用以語意向量為基礎之機器學習方法來訓練一主題分類器,以識別主題樣式及新的主題。
  18. 如申請專利範圍第14項所述之系統,所述意見探勘及情感分析模組包括:一意見探勘分類器,用以實施一機器學習演算法,且從含有文法規則或語言樣式之一外掛模組中擷取資料,以判定所述意見。
  19. 如申請專利範圍第14項所述之系統,所述斷詞及 整合模組包括:一斷詞模組,用以根據一以條件隨機域為基礎之演算法及從一專用名詞詞典中擷取之資料來對所接收到之所述網頁的內容進行斷詞;以及一整合模組,用以整合從所述物件辨識模組中接收到之所識別的所述附名實體、從所述主題分類及辨識模組中接收到之所識別的所述主題以及從所述意見探勘及情感分析模組接收到之所識別的所述意見,以建立所述有機物件資料模型。
  20. 如申請專利範圍第19項所述之系統,其中所述有機物件模型更包含與所述有機物件相關聯的自產生屬性、與所述有機物件相關聯的領域專用屬性以及與所述有機物件相關聯的社會屬性。
  21. 一種用於擷取及組織線上收集之社群智慧資料的系統,所述系統由一個或多個電腦處理器實施,所述一個或多個電腦處理器執行儲存於電腦可讀儲存媒體上的電腦程式,所述系統包括:一斷詞及整合模組,耦接至一訓練資料庫,所述斷詞及整合模組用以接收含有社群智慧資料的網頁,並支援一有機物件模型,其中該有機物件模型包含一有機物件、與所述有機物件相關聯之自產生屬性、與所述有機物件相關聯之領域專用屬性以及與所述有機物件相關聯之社會屬性;一物件辨識模組,耦接至所述斷詞及整合模組,所述物件辨識模組用以識別包含於所接收到之所述網頁中的附 名實體,其中所判定之所述附名實體為有機物件;一主題分類及辨識模組,其耦接至所述斷詞及整合模組,所述主題分類及辨識模組用以識別所接收到之所述網頁之每一句子及段落的主題,其中所識別之所述主題為與其對應的有機物件相關聯的社會屬性;一意見探勘及情感分析模組,耦接至所述斷詞及整合模組,所述意見探勘及情感分析模組用以判定所接收到之所述網頁之句子中的意見及與所識別之附名實體相關聯的意見,其中所識別之所述意見為與其對應的有機物件相關聯的社會屬性;以及一物件關係建構模組,耦接至所述斷詞及整合模組,所述物件關係建構模組用以界定有機物件之間的關係,其中所述所述有機物件模型是藉由整合從所述物件辨識模組中接收到之所識別的所述附名實體、從所述主題分類及辨識模組中接收到之所識別的所述主題以及從所述意見探勘及情感分析模組接收到之所識別的所述意見來建立,其中所述有機物件模型中的所述有機物件包括子物件的附名實體,且所述子物件為繼承作為母物件的所有物件之特性的附名實體。
TW099131226A 2009-10-28 2010-09-15 使用有機物件資料模型來組織社群智慧資訊的系統及方法 TWI424325B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25549409P 2009-10-28 2009-10-28
US12/801,777 US20110112995A1 (en) 2009-10-28 2010-06-24 Systems and methods for organizing collective social intelligence information using an organic object data model

Publications (2)

Publication Number Publication Date
TW201115371A TW201115371A (en) 2011-05-01
TWI424325B true TWI424325B (zh) 2014-01-21

Family

ID=43899230

Family Applications (2)

Application Number Title Priority Date Filing Date
TW099129892A TWI438637B (zh) 2009-10-28 2010-09-03 用於擷取及管理社群智慧資訊的系統及方法
TW099131226A TWI424325B (zh) 2009-10-28 2010-09-15 使用有機物件資料模型來組織社群智慧資訊的系統及方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW099129892A TWI438637B (zh) 2009-10-28 2010-09-03 用於擷取及管理社群智慧資訊的系統及方法

Country Status (3)

Country Link
US (2) US20110099133A1 (zh)
CN (1) CN102054016B (zh)
TW (2) TWI438637B (zh)

Families Citing this family (257)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ569107A (en) 2005-11-16 2011-09-30 Evri Inc Extending keyword searching to syntactically and semantically annotated data
US10878646B2 (en) 2005-12-08 2020-12-29 Smartdrive Systems, Inc. Vehicle event recorder systems
US20070150138A1 (en) 2005-12-08 2007-06-28 James Plante Memory management in event recording systems
US9201842B2 (en) 2006-03-16 2015-12-01 Smartdrive Systems, Inc. Vehicle event recorder systems and networks having integrated cellular wireless communications systems
US8996240B2 (en) 2006-03-16 2015-03-31 Smartdrive Systems, Inc. Vehicle event recorders with integrated web server
US8269617B2 (en) 2009-01-26 2012-09-18 Drivecam, Inc. Method and system for tuning the effect of vehicle characteristics on risk prediction
US8849501B2 (en) 2009-01-26 2014-09-30 Lytx, Inc. Driver risk assessment system and method employing selectively automatic event scoring
US8508353B2 (en) * 2009-01-26 2013-08-13 Drivecam, Inc. Driver risk assessment system and method having calibrating automatic event scoring
US8649933B2 (en) 2006-11-07 2014-02-11 Smartdrive Systems Inc. Power management systems for automotive video event recorders
US8989959B2 (en) 2006-11-07 2015-03-24 Smartdrive Systems, Inc. Vehicle operator performance history recording, scoring and reporting systems
US8868288B2 (en) 2006-11-09 2014-10-21 Smartdrive Systems, Inc. Vehicle exception event management systems
US7962495B2 (en) 2006-11-20 2011-06-14 Palantir Technologies, Inc. Creating data in a data store using a dynamic ontology
US8515912B2 (en) 2010-07-15 2013-08-20 Palantir Technologies, Inc. Sharing and deconflicting data changes in a multimaster database system
US8688749B1 (en) 2011-03-31 2014-04-01 Palantir Technologies, Inc. Cross-ontology multi-master replication
US8930331B2 (en) 2007-02-21 2015-01-06 Palantir Technologies Providing unique views of data based on changes or rules
US8239092B2 (en) 2007-05-08 2012-08-07 Smartdrive Systems Inc. Distributed vehicle event recorder systems having a portable memory data transfer system
US8275681B2 (en) 2007-06-12 2012-09-25 Media Forum, Inc. Desktop extension for readily-sharable and accessible media playlist and media
EP2212772A4 (en) 2007-10-17 2017-04-05 VCVC lll LLC Nlp-based content recommender
US8554719B2 (en) 2007-10-18 2013-10-08 Palantir Technologies, Inc. Resolving database entity information
US10747952B2 (en) 2008-09-15 2020-08-18 Palantir Technologies, Inc. Automatic creation and server push of multiple distinct drafts
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
MX2011006094A (es) 2008-12-08 2011-11-29 Gilead Connecticut Inc Inhibidores de imidazopirazina syk.
PT2373169E (pt) 2008-12-08 2015-10-05 Gilead Connecticut Inc Inibidores de imidazopirazina da syk
US8854199B2 (en) 2009-01-26 2014-10-07 Lytx, Inc. Driver risk assessment system and method employing automated driver log
US9104695B1 (en) 2009-07-27 2015-08-11 Palantir Technologies, Inc. Geotagging structured data
CN102598038B (zh) * 2009-10-30 2015-02-18 乐天株式会社 特有内容数据判定装置、特有内容数据判定方法、内容数据生成装置以及关联内容数据插入装置
US9201863B2 (en) * 2009-12-24 2015-12-01 Woodwire, Inc. Sentiment analysis from social media content
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US8838633B2 (en) * 2010-08-11 2014-09-16 Vcvc Iii Llc NLP-based sentiment analysis
US8725739B2 (en) 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
GB201101875D0 (en) * 2011-02-03 2011-03-23 Roke Manor Research A method and apparatus for communications analysis
US9672555B1 (en) 2011-03-18 2017-06-06 Amazon Technologies, Inc. Extracting quotes from customer reviews
US8554701B1 (en) * 2011-03-18 2013-10-08 Amazon Technologies, Inc. Determining sentiment of sentences from customer reviews
US20130073480A1 (en) * 2011-03-22 2013-03-21 Lionel Alberti Real time cross correlation of intensity and sentiment from social media messages
US9965470B1 (en) 2011-04-29 2018-05-08 Amazon Technologies, Inc. Extracting quotes from customer reviews of collections of items
US20120296735A1 (en) * 2011-05-20 2012-11-22 Yahoo! Inc. Unified metric in advertising campaign performance evaluation
US8700480B1 (en) 2011-06-20 2014-04-15 Amazon Technologies, Inc. Extracting quotes from customer reviews regarding collections of items
US8799240B2 (en) 2011-06-23 2014-08-05 Palantir Technologies, Inc. System and method for investigating large amounts of data
US9547693B1 (en) 2011-06-23 2017-01-17 Palantir Technologies Inc. Periodic database search manager for multiple data sources
US10311113B2 (en) * 2011-07-11 2019-06-04 Lexxe Pty Ltd. System and method of sentiment data use
US8473498B2 (en) 2011-08-02 2013-06-25 Tom H. C. Anderson Natural language text analytics
US8862577B2 (en) * 2011-08-15 2014-10-14 Hewlett-Packard Development Company, L.P. Visualizing sentiment results with visual indicators representing user sentiment and level of uncertainty
US8732574B2 (en) 2011-08-25 2014-05-20 Palantir Technologies, Inc. System and method for parameterizing documents for automatic workflow generation
US9275041B2 (en) * 2011-10-24 2016-03-01 Hewlett Packard Enterprise Development Lp Performing sentiment analysis on microblogging data, including identifying a new opinion term therein
CN103092857A (zh) * 2011-11-01 2013-05-08 腾讯科技(深圳)有限公司 历史记录的整理方法和装置
US11587172B1 (en) 2011-11-14 2023-02-21 Economic Alchemy Inc. Methods and systems to quantify and index sentiment risk in financial markets and risk management contracts thereon
US20130159219A1 (en) * 2011-12-14 2013-06-20 Microsoft Corporation Predicting the Likelihood of Digital Communication Responses
US8782004B2 (en) 2012-01-23 2014-07-15 Palantir Technologies, Inc. Cross-ACL multi-master replication
US8856130B2 (en) * 2012-02-09 2014-10-07 Kenshoo Ltd. System, a method and a computer program product for performance assessment
US20130227429A1 (en) * 2012-02-27 2013-08-29 Kulangara Sivadas Method and tool for data collection, processing, search and display
CN104137107A (zh) * 2012-03-06 2014-11-05 福斯分析有限公司 用于为化学计量分析形成预测模型的方法、软件和图形用户界面
CN103425648B (zh) * 2012-05-15 2016-04-13 腾讯科技(深圳)有限公司 关系圈的处理方法和系统
US9728228B2 (en) 2012-08-10 2017-08-08 Smartdrive Systems, Inc. Vehicle event playback apparatus and methods
US9798768B2 (en) 2012-09-10 2017-10-24 Palantir Technologies, Inc. Search around visual queries
US20140074620A1 (en) * 2012-09-12 2014-03-13 Andrew G. Bosworth Advertisement selection based on user selected affiliation with brands in a social networking system
US9348677B2 (en) 2012-10-22 2016-05-24 Palantir Technologies Inc. System and method for batch evaluation programs
US9081975B2 (en) 2012-10-22 2015-07-14 Palantir Technologies, Inc. Sharing information between nexuses that use different classification schemes for information access control
US9501761B2 (en) 2012-11-05 2016-11-22 Palantir Technologies, Inc. System and method for sharing investigation results
US8983828B2 (en) * 2012-11-06 2015-03-17 Palo Alto Research Center Incorporated System and method for extracting and reusing metadata to analyze message content
US9134215B1 (en) 2012-11-09 2015-09-15 Jive Software, Inc. Sentiment analysis of content items
KR20140078312A (ko) * 2012-12-17 2014-06-25 한국전자통신연구원 텍스트 기반 감성 분석 결과를 제공하기 위한 장치, 시스템 및 그 방법
FR3000251B1 (fr) * 2012-12-20 2015-02-06 Vincent Susplugas Procede de structuration de donnees se presentant sous forme alphanumerique
US9501507B1 (en) 2012-12-27 2016-11-22 Palantir Technologies Inc. Geo-temporal indexing and searching
US10140664B2 (en) * 2013-03-14 2018-11-27 Palantir Technologies Inc. Resolving similar entities from a transaction database
US8924388B2 (en) 2013-03-15 2014-12-30 Palantir Technologies Inc. Computer-implemented systems and methods for comparing and associating objects
US8909656B2 (en) 2013-03-15 2014-12-09 Palantir Technologies Inc. Filter chains with associated multipath views for exploring large data sets
US10275778B1 (en) 2013-03-15 2019-04-30 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive investigation based on automatic malfeasance clustering of related data in various data structures
US8903717B2 (en) 2013-03-15 2014-12-02 Palantir Technologies Inc. Method and system for generating a parser and parsing complex data
US8868486B2 (en) 2013-03-15 2014-10-21 Palantir Technologies Inc. Time-sensitive cube
US9477777B2 (en) * 2013-03-15 2016-10-25 Rakuten, Inc. Method for analyzing and categorizing semi-structured data
US8799799B1 (en) 2013-05-07 2014-08-05 Palantir Technologies Inc. Interactive geospatial map
US9405822B2 (en) * 2013-06-06 2016-08-02 Sheer Data, LLC Queries of a topic-based-source-specific search system
TWI575391B (zh) 2013-06-18 2017-03-21 財團法人資訊工業策進會 社群資料篩選系統、方法及其非揮發性電腦可讀取紀錄媒體
US8886601B1 (en) 2013-06-20 2014-11-11 Palantir Technologies, Inc. System and method for incrementally replicating investigative analysis data
US8601326B1 (en) 2013-07-05 2013-12-03 Palantir Technologies, Inc. Data quality monitors
US9565152B2 (en) 2013-08-08 2017-02-07 Palantir Technologies Inc. Cable reader labeling
US9785317B2 (en) 2013-09-24 2017-10-10 Palantir Technologies Inc. Presentation and analysis of user interaction data
US8938686B1 (en) 2013-10-03 2015-01-20 Palantir Technologies Inc. Systems and methods for analyzing performance of an entity
US8812960B1 (en) 2013-10-07 2014-08-19 Palantir Technologies Inc. Cohort-based presentation of user interaction data
US9501878B2 (en) 2013-10-16 2016-11-22 Smartdrive Systems, Inc. Vehicle event playback apparatus and methods
US9116975B2 (en) 2013-10-18 2015-08-25 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive simultaneous querying of multiple data stores
US9610955B2 (en) 2013-11-11 2017-04-04 Smartdrive Systems, Inc. Vehicle fuel consumption monitor and feedback systems
US9105000B1 (en) 2013-12-10 2015-08-11 Palantir Technologies Inc. Aggregating data from a plurality of data sources
US9734217B2 (en) 2013-12-16 2017-08-15 Palantir Technologies Inc. Methods and systems for analyzing entity performance
US10579647B1 (en) 2013-12-16 2020-03-03 Palantir Technologies Inc. Methods and systems for analyzing entity performance
US10356032B2 (en) 2013-12-26 2019-07-16 Palantir Technologies Inc. System and method for detecting confidential information emails
US8832832B1 (en) 2014-01-03 2014-09-09 Palantir Technologies Inc. IP reputation
US8892310B1 (en) 2014-02-21 2014-11-18 Smartdrive Systems, Inc. System and method to detect execution of driving maneuvers
US8935201B1 (en) 2014-03-18 2015-01-13 Palantir Technologies Inc. Determining and extracting changed data from a data source
US9836580B2 (en) 2014-03-21 2017-12-05 Palantir Technologies Inc. Provider portal
US10013470B2 (en) * 2014-06-19 2018-07-03 International Business Machines Corporation Automatic detection of claims with respect to a topic
US11113471B2 (en) * 2014-06-19 2021-09-07 International Business Machines Corporation Automatic detection of claims with respect to a topic
JP6211722B2 (ja) 2014-06-26 2017-10-11 グーグル インコーポレイテッド 最適化されたブラウザレンダリング処理
CN105446977B (zh) * 2014-06-26 2019-03-29 联想(北京)有限公司 一种信息处理方法及电子设备
WO2015196410A1 (en) 2014-06-26 2015-12-30 Google Inc. Optimized browser render process
EP3161668B1 (en) 2014-06-26 2020-08-05 Google LLC Batch-optimized render and fetch architecture
US9129219B1 (en) 2014-06-30 2015-09-08 Palantir Technologies, Inc. Crime risk forecasting
US9619557B2 (en) 2014-06-30 2017-04-11 Palantir Technologies, Inc. Systems and methods for key phrase characterization of documents
US9535974B1 (en) 2014-06-30 2017-01-03 Palantir Technologies Inc. Systems and methods for identifying key phrase clusters within documents
US9256664B2 (en) 2014-07-03 2016-02-09 Palantir Technologies Inc. System and method for news events detection and visualization
US20160026923A1 (en) 2014-07-22 2016-01-28 Palantir Technologies Inc. System and method for determining a propensity of entity to take a specified action
US9454281B2 (en) 2014-09-03 2016-09-27 Palantir Technologies Inc. System for providing dynamic linked panels in user interface
US9390086B2 (en) 2014-09-11 2016-07-12 Palantir Technologies Inc. Classification system with methodology for efficient verification
US9501851B2 (en) 2014-10-03 2016-11-22 Palantir Technologies Inc. Time-series analysis system
US9767172B2 (en) 2014-10-03 2017-09-19 Palantir Technologies Inc. Data aggregation and analysis system
US9785328B2 (en) 2014-10-06 2017-10-10 Palantir Technologies Inc. Presentation of multivariate data on a graphical user interface of a computing system
US9984133B2 (en) 2014-10-16 2018-05-29 Palantir Technologies Inc. Schematic and database linking system
US9663127B2 (en) 2014-10-28 2017-05-30 Smartdrive Systems, Inc. Rail vehicle event detection and recording system
US9229952B1 (en) 2014-11-05 2016-01-05 Palantir Technologies, Inc. History preserving data pipeline system and method
US9043894B1 (en) 2014-11-06 2015-05-26 Palantir Technologies Inc. Malicious software detection in a computing system
US11069257B2 (en) 2014-11-13 2021-07-20 Smartdrive Systems, Inc. System and method for detecting a vehicle event and generating review criteria
EP3032441A2 (en) 2014-12-08 2016-06-15 Palantir Technologies, Inc. Distributed acoustic sensing data analysis system
US9965458B2 (en) * 2014-12-09 2018-05-08 Sansa AI Inc. Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
US9483546B2 (en) 2014-12-15 2016-11-01 Palantir Technologies Inc. System and method for associating related records to common entities across multiple lists
US10552994B2 (en) 2014-12-22 2020-02-04 Palantir Technologies Inc. Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items
US9348920B1 (en) 2014-12-22 2016-05-24 Palantir Technologies Inc. Concept indexing among database of documents using machine learning techniques
US10362133B1 (en) 2014-12-22 2019-07-23 Palantir Technologies Inc. Communication data processing architecture
US10452651B1 (en) 2014-12-23 2019-10-22 Palantir Technologies Inc. Searching charts
US9817563B1 (en) 2014-12-29 2017-11-14 Palantir Technologies Inc. System and method of generating data points from one or more data stores of data items for chart creation and manipulation
US9335911B1 (en) 2014-12-29 2016-05-10 Palantir Technologies Inc. Interactive user interface for dynamic data analysis exploration and query processing
US11302426B1 (en) 2015-01-02 2022-04-12 Palantir Technologies Inc. Unified data interface and system
US10803106B1 (en) 2015-02-24 2020-10-13 Palantir Technologies Inc. System with methodology for dynamic modular ontology
US9727560B2 (en) 2015-02-25 2017-08-08 Palantir Technologies Inc. Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags
US9891808B2 (en) 2015-03-16 2018-02-13 Palantir Technologies Inc. Interactive user interfaces for location-based data analysis
US9886467B2 (en) 2015-03-19 2018-02-06 Plantir Technologies Inc. System and method for comparing and visualizing data entities and data entity series
US9679420B2 (en) 2015-04-01 2017-06-13 Smartdrive Systems, Inc. Vehicle event recording system and method
US9348880B1 (en) 2015-04-01 2016-05-24 Palantir Technologies, Inc. Federated search of multiple sources with conflict resolution
US9722957B2 (en) * 2015-05-04 2017-08-01 Conduent Business Services, Llc Method and system for assisting contact center agents in composing electronic mail replies
US10103953B1 (en) 2015-05-12 2018-10-16 Palantir Technologies Inc. Methods and systems for analyzing entity performance
US10628834B1 (en) 2015-06-16 2020-04-21 Palantir Technologies Inc. Fraud lead detection system for efficiently processing database-stored data and automatically generating natural language explanatory information of system results for display in interactive user interfaces
US9418337B1 (en) 2015-07-21 2016-08-16 Palantir Technologies Inc. Systems and models for data analytics
US9392008B1 (en) 2015-07-23 2016-07-12 Palantir Technologies Inc. Systems and methods for identifying information related to payment card breaches
US9996595B2 (en) 2015-08-03 2018-06-12 Palantir Technologies, Inc. Providing full data provenance visualization for versioned datasets
US9456000B1 (en) 2015-08-06 2016-09-27 Palantir Technologies Inc. Systems, methods, user interfaces, and computer-readable media for investigating potential malicious communications
KR101755227B1 (ko) * 2015-08-10 2017-07-06 숭실대학교산학협력단 제품 유형 분류 장치 및 방법
US9600146B2 (en) 2015-08-17 2017-03-21 Palantir Technologies Inc. Interactive geospatial map
US10127289B2 (en) 2015-08-19 2018-11-13 Palantir Technologies Inc. Systems and methods for automatic clustering and canonical designation of related data in various data structures
US9671776B1 (en) 2015-08-20 2017-06-06 Palantir Technologies Inc. Quantifying, tracking, and anticipating risk at a manufacturing facility, taking deviation type and staffing conditions into account
CN105095498A (zh) * 2015-08-24 2015-11-25 北京旷视科技有限公司 信息处理方法和信息处理装置
US11150917B2 (en) 2015-08-26 2021-10-19 Palantir Technologies Inc. System for data aggregation and analysis of data from a plurality of data sources
US9485265B1 (en) 2015-08-28 2016-11-01 Palantir Technologies Inc. Malicious activity detection system capable of efficiently processing data accessed from databases and generating alerts for display in interactive user interfaces
US11497988B2 (en) * 2015-08-31 2022-11-15 Omniscience Corporation Event categorization and key prospect identification from storylines
US10706434B1 (en) 2015-09-01 2020-07-07 Palantir Technologies Inc. Methods and systems for determining location information
US9984428B2 (en) 2015-09-04 2018-05-29 Palantir Technologies Inc. Systems and methods for structuring data from unstructured electronic data files
US9639580B1 (en) 2015-09-04 2017-05-02 Palantir Technologies, Inc. Computer-implemented systems and methods for data management and visualization
US9576015B1 (en) 2015-09-09 2017-02-21 Palantir Technologies, Inc. Domain-specific language for dataset transformations
US10410136B2 (en) 2015-09-16 2019-09-10 Microsoft Technology Licensing, Llc Model-based classification of content items
US10437837B2 (en) * 2015-10-09 2019-10-08 Fujitsu Limited Generating descriptive topic labels
US9424669B1 (en) 2015-10-21 2016-08-23 Palantir Technologies Inc. Generating graphical representations of event participation flow
US10223429B2 (en) 2015-12-01 2019-03-05 Palantir Technologies Inc. Entity data attribution using disparate data sets
US10706056B1 (en) 2015-12-02 2020-07-07 Palantir Technologies Inc. Audit log report generator
US9760556B1 (en) 2015-12-11 2017-09-12 Palantir Technologies Inc. Systems and methods for annotating and linking electronic documents
US9514414B1 (en) 2015-12-11 2016-12-06 Palantir Technologies Inc. Systems and methods for identifying and categorizing electronic documents through machine learning
US10114884B1 (en) 2015-12-16 2018-10-30 Palantir Technologies Inc. Systems and methods for attribute analysis of one or more databases
US9542446B1 (en) 2015-12-17 2017-01-10 Palantir Technologies, Inc. Automatic generation of composite datasets based on hierarchical fields
US10373099B1 (en) 2015-12-18 2019-08-06 Palantir Technologies Inc. Misalignment detection system for efficiently processing database-stored data and automatically generating misalignment information for display in interactive user interfaces
US10089289B2 (en) 2015-12-29 2018-10-02 Palantir Technologies Inc. Real-time document annotation
US9996236B1 (en) 2015-12-29 2018-06-12 Palantir Technologies Inc. Simplified frontend processing and visualization of large datasets
US10871878B1 (en) 2015-12-29 2020-12-22 Palantir Technologies Inc. System log analysis and object user interaction correlation system
US9792020B1 (en) 2015-12-30 2017-10-17 Palantir Technologies Inc. Systems for collecting, aggregating, and storing data, generating interactive user interfaces for analyzing data, and generating alerts based upon collected data
US11816701B2 (en) 2016-02-10 2023-11-14 Adobe Inc. Techniques for targeting a user based on a psychographic profile
US10248722B2 (en) 2016-02-22 2019-04-02 Palantir Technologies Inc. Multi-language support for dynamic ontology
US10878433B2 (en) * 2016-03-15 2020-12-29 Adobe Inc. Techniques for generating a psychographic profile
US10867216B2 (en) 2016-03-15 2020-12-15 Canon Kabushiki Kaisha Devices, systems, and methods for detecting unknown objects
US10698938B2 (en) 2016-03-18 2020-06-30 Palantir Technologies Inc. Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags
US9652139B1 (en) 2016-04-06 2017-05-16 Palantir Technologies Inc. Graphical representation of an output
KR101687169B1 (ko) * 2016-04-06 2016-12-16 한전원자력연료 주식회사 반복 교차검증을 이용한 상관식 공차한계 설정시스템 및 그 방법
US10068199B1 (en) 2016-05-13 2018-09-04 Palantir Technologies Inc. System to catalogue tracking data
TWI582627B (zh) * 2016-05-13 2017-05-11 國立雲林科技大學 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體
US10007674B2 (en) 2016-06-13 2018-06-26 Palantir Technologies Inc. Data revision control in large-scale data analytic systems
US10545975B1 (en) 2016-06-22 2020-01-28 Palantir Technologies Inc. Visual analysis of data using sequenced dataset reduction
US10909130B1 (en) 2016-07-01 2021-02-02 Palantir Technologies Inc. Graphical user interface for a database system
US10719188B2 (en) 2016-07-21 2020-07-21 Palantir Technologies Inc. Cached database and synchronization system for providing dynamic linked panels in user interface
US10324609B2 (en) 2016-07-21 2019-06-18 Palantir Technologies Inc. System for providing dynamic linked panels in user interface
US11106692B1 (en) 2016-08-04 2021-08-31 Palantir Technologies Inc. Data record resolution and correlation system
US10552002B1 (en) 2016-09-27 2020-02-04 Palantir Technologies Inc. User interface based variable machine modeling
US10133588B1 (en) 2016-10-20 2018-11-20 Palantir Technologies Inc. Transforming instructions for collaborative updates
US10726507B1 (en) 2016-11-11 2020-07-28 Palantir Technologies Inc. Graphical representation of a complex task
US10318630B1 (en) 2016-11-21 2019-06-11 Palantir Technologies Inc. Analysis of large bodies of textual data
US9842338B1 (en) 2016-11-21 2017-12-12 Palantir Technologies Inc. System to identify vulnerable card readers
US11250425B1 (en) 2016-11-30 2022-02-15 Palantir Technologies Inc. Generating a statistic using electronic transaction data
GB201621434D0 (en) 2016-12-16 2017-02-01 Palantir Technologies Inc Processing sensor logs
US9886525B1 (en) 2016-12-16 2018-02-06 Palantir Technologies Inc. Data item aggregate probability analysis system
US10044836B2 (en) 2016-12-19 2018-08-07 Palantir Technologies Inc. Conducting investigations under limited connectivity
US10249033B1 (en) 2016-12-20 2019-04-02 Palantir Technologies Inc. User interface for managing defects
US10728262B1 (en) 2016-12-21 2020-07-28 Palantir Technologies Inc. Context-aware network-based malicious activity warning systems
US11373752B2 (en) 2016-12-22 2022-06-28 Palantir Technologies Inc. Detection of misuse of a benefit system
US10360238B1 (en) 2016-12-22 2019-07-23 Palantir Technologies Inc. Database systems and user interfaces for interactive data association, analysis, and presentation
CN106777236B (zh) * 2016-12-27 2020-11-03 北京百度网讯科技有限公司 基于深度问答的查询结果的展现方法和装置
US10721262B2 (en) 2016-12-28 2020-07-21 Palantir Technologies Inc. Resource-centric network cyber attack warning system
US10216811B1 (en) 2017-01-05 2019-02-26 Palantir Technologies Inc. Collaborating using different object models
US10762471B1 (en) 2017-01-09 2020-09-01 Palantir Technologies Inc. Automating management of integrated workflows based on disparate subsidiary data sources
US10133621B1 (en) 2017-01-18 2018-11-20 Palantir Technologies Inc. Data analysis system to facilitate investigative process
US10509844B1 (en) 2017-01-19 2019-12-17 Palantir Technologies Inc. Network graph parser
US10515109B2 (en) 2017-02-15 2019-12-24 Palantir Technologies Inc. Real-time auditing of industrial equipment condition
US10866936B1 (en) 2017-03-29 2020-12-15 Palantir Technologies Inc. Model object management and storage system
US10581954B2 (en) 2017-03-29 2020-03-03 Palantir Technologies Inc. Metric collection and aggregation for distributed software services
US10599771B2 (en) 2017-04-10 2020-03-24 International Business Machines Corporation Negation scope analysis for negation detection
US10133783B2 (en) 2017-04-11 2018-11-20 Palantir Technologies Inc. Systems and methods for constraint driven database searching
US11074277B1 (en) 2017-05-01 2021-07-27 Palantir Technologies Inc. Secure resolution of canonical entities
US10563990B1 (en) 2017-05-09 2020-02-18 Palantir Technologies Inc. Event-based route planning
US10606872B1 (en) 2017-05-22 2020-03-31 Palantir Technologies Inc. Graphical user interface for a database system
US10795749B1 (en) 2017-05-31 2020-10-06 Palantir Technologies Inc. Systems and methods for providing fault analysis user interface
US10956406B2 (en) 2017-06-12 2021-03-23 Palantir Technologies Inc. Propagated deletion of database records and derived data
US11216762B1 (en) 2017-07-13 2022-01-04 Palantir Technologies Inc. Automated risk visualization using customer-centric data analysis
US10942947B2 (en) 2017-07-17 2021-03-09 Palantir Technologies Inc. Systems and methods for determining relationships between datasets
US10430444B1 (en) 2017-07-24 2019-10-01 Palantir Technologies Inc. Interactive geospatial map and geospatial visualization systems
CN110998589B (zh) * 2017-07-31 2023-06-27 北京嘀嘀无限科技发展有限公司 用于分割文本的系统和方法
JP6594500B2 (ja) * 2017-09-18 2019-10-23 タタ コンサルタンシー サービシズ リミテッド 推論データマイニングのための方法およびシステム
US10956508B2 (en) 2017-11-10 2021-03-23 Palantir Technologies Inc. Systems and methods for creating and managing a data integration workspace containing automatically updated data models
US10235533B1 (en) 2017-12-01 2019-03-19 Palantir Technologies Inc. Multi-user access controls in electronic simultaneously editable document editor
US11281726B2 (en) 2017-12-01 2022-03-22 Palantir Technologies Inc. System and methods for faster processor comparisons of visual graph features
US10769171B1 (en) 2017-12-07 2020-09-08 Palantir Technologies Inc. Relationship analysis and mapping for interrelated multi-layered datasets
US11314721B1 (en) 2017-12-07 2022-04-26 Palantir Technologies Inc. User-interactive defect analysis for root cause
US10877984B1 (en) 2017-12-07 2020-12-29 Palantir Technologies Inc. Systems and methods for filtering and visualizing large scale datasets
US10783162B1 (en) 2017-12-07 2020-09-22 Palantir Technologies Inc. Workflow assistant
US11061874B1 (en) 2017-12-14 2021-07-13 Palantir Technologies Inc. Systems and methods for resolving entity data across various data structures
US10838987B1 (en) 2017-12-20 2020-11-17 Palantir Technologies Inc. Adaptive and transparent entity screening
US10853352B1 (en) 2017-12-21 2020-12-01 Palantir Technologies Inc. Structured data collection, presentation, validation and workflow management
US11263382B1 (en) 2017-12-22 2022-03-01 Palantir Technologies Inc. Data normalization and irregularity detection system
WO2019140384A2 (en) * 2018-01-12 2019-07-18 Gamalon, Inc. Probabilistic modeling system and method
GB201800595D0 (en) 2018-01-15 2018-02-28 Palantir Technologies Inc Management of software bugs in a data processing system
CN108399194A (zh) * 2018-01-29 2018-08-14 中国科学院信息工程研究所 一种网络威胁情报生成方法及系统
CN111712841A (zh) * 2018-02-27 2020-09-25 国立大学法人九州工业大学 标签收集装置、标签收集方法以及标签收集程序
JP6969443B2 (ja) * 2018-02-27 2021-11-24 日本電信電話株式会社 学習品質推定装置、方法、及びプログラム
US11599369B1 (en) 2018-03-08 2023-03-07 Palantir Technologies Inc. Graphical user interface configuration system
US10877654B1 (en) 2018-04-03 2020-12-29 Palantir Technologies Inc. Graphical user interfaces for optimizations
US10754822B1 (en) 2018-04-18 2020-08-25 Palantir Technologies Inc. Systems and methods for ontology migration
US10832001B2 (en) * 2018-04-26 2020-11-10 Google Llc Machine learning to identify opinions in documents
US10885021B1 (en) 2018-05-02 2021-01-05 Palantir Technologies Inc. Interactive interpreter and graphical user interface
US10754946B1 (en) 2018-05-08 2020-08-25 Palantir Technologies Inc. Systems and methods for implementing a machine learning approach to modeling entity behavior
US11061542B1 (en) 2018-06-01 2021-07-13 Palantir Technologies Inc. Systems and methods for determining and displaying optimal associations of data items
US10795909B1 (en) 2018-06-14 2020-10-06 Palantir Technologies Inc. Minimized and collapsed resource dependency path
US11119630B1 (en) 2018-06-19 2021-09-14 Palantir Technologies Inc. Artificial intelligence assisted evaluations and user interface for same
WO2020031243A1 (ja) * 2018-08-06 2020-02-13 株式会社島津製作所 教師ラベル画像修正方法、学習済みモデルの作成方法および画像解析装置
US11126638B1 (en) 2018-09-13 2021-09-21 Palantir Technologies Inc. Data visualization and parsing system
US10872236B1 (en) 2018-09-28 2020-12-22 Amazon Technologies, Inc. Layout-agnostic clustering-based classification of document keys and values
US11294928B1 (en) 2018-10-12 2022-04-05 Palantir Technologies Inc. System architecture for relating and linking data objects
TWI710922B (zh) * 2018-10-29 2020-11-21 安碁資訊股份有限公司 行為標記模型訓練系統及方法
CN111177802B (zh) * 2018-11-09 2022-09-13 安碁资讯股份有限公司 行为标记模型训练系统及方法
US11257006B1 (en) 2018-11-20 2022-02-22 Amazon Technologies, Inc. Auto-annotation techniques for text localization
US10949661B2 (en) * 2018-11-21 2021-03-16 Amazon Technologies, Inc. Layout-agnostic complex document processing system
US11216892B1 (en) * 2018-12-06 2022-01-04 Meta Platforms, Inc. Classifying and upgrading a content item to a life event item
CN109614538A (zh) * 2018-12-17 2019-04-12 广东工业大学 一种农产品价格数据的提取方法、装置及设备
CA3127484A1 (en) 2019-01-25 2020-07-30 Otonexus Medical Technologies, Inc. Machine learning for otitis media diagnosis
CN109919014B (zh) * 2019-01-28 2023-11-03 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
US11170017B2 (en) 2019-02-22 2021-11-09 Robert Michael DESSAU Method of facilitating queries of a topic-based-source-specific search system using entity mention filters and search tools
KR20210131372A (ko) 2019-02-22 2021-11-02 크로노스 바이오, 인코포레이티드 Syk 억제제로서의 축합된 피라진의 고체 형태
US11558339B2 (en) 2019-05-21 2023-01-17 International Business Machines Corporation Stepwise relationship cadence management
US11593673B2 (en) * 2019-10-07 2023-02-28 Servicenow Canada Inc. Systems and methods for identifying influential training data points
EP3812974A1 (en) * 2019-10-25 2021-04-28 Onfido Ltd Machine learning inference system
US11295328B2 (en) 2020-05-01 2022-04-05 Accenture Global Solutions Limited Intelligent prospect assessment
MX2022014708A (es) * 2020-06-18 2022-12-16 Home Depot Int Inc Clasificacion del sentimiento del usuario basada en el aprendizaje automatico.
CN111523314B (zh) * 2020-07-03 2020-09-25 支付宝(杭州)信息技术有限公司 模型对抗训练、命名实体识别方法及装置
CN113379169B (zh) * 2021-08-12 2021-11-23 北京中科闻歌科技股份有限公司 信息处理方法、装置、设备及介质
TWI805008B (zh) * 2021-10-04 2023-06-11 中華電信股份有限公司 客製化意圖評選系統、方法及電腦可讀媒介
CN117137450B (zh) * 2023-08-30 2024-05-10 哈尔滨海鸿基业科技发展有限公司 一种基于皮瓣血运评估的皮瓣移植术成像方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133515A1 (en) * 2006-12-01 2008-06-05 Industrial Technology Research Institute Method and system for executing correlative services
TW200828139A (en) * 2006-12-18 2008-07-01 Webgenie Information Ltd Method for generating generic title
TW200830125A (en) * 2007-01-15 2008-07-16 Hon Hai Prec Ind Co Ltd System and method for searching information
TW200928798A (en) * 2007-12-31 2009-07-01 Aletheia University Method for analyzing technology document

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
CN101441636A (zh) * 2007-11-21 2009-05-27 中国科学院自动化研究所 一种基于知识库的医院信息搜索引擎及系统
CN101261629A (zh) * 2008-04-21 2008-09-10 上海大学 基于自动分类技术的特定信息搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133515A1 (en) * 2006-12-01 2008-06-05 Industrial Technology Research Institute Method and system for executing correlative services
TW200828139A (en) * 2006-12-18 2008-07-01 Webgenie Information Ltd Method for generating generic title
TW200830125A (en) * 2007-01-15 2008-07-16 Hon Hai Prec Ind Co Ltd System and method for searching information
TW200928798A (en) * 2007-12-31 2009-07-01 Aletheia University Method for analyzing technology document

Also Published As

Publication number Publication date
TW201115371A (en) 2011-05-01
CN102054016B (zh) 2016-01-20
CN102054016A (zh) 2011-05-11
US20110112995A1 (en) 2011-05-12
TW201115370A (en) 2011-05-01
US20110099133A1 (en) 2011-04-28
TWI438637B (zh) 2014-05-21

Similar Documents

Publication Publication Date Title
TWI424325B (zh) 使用有機物件資料模型來組織社群智慧資訊的系統及方法
CN102054015B (zh) 使用有机物件数据模型来组织社群智能信息的系统及方法
CN110516067B (zh) 基于话题检测的舆情监控方法、系统及存储介质
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
Boididou et al. Verifying information with multimedia content on twitter: a comparative study of automated approaches
Hoffart et al. Discovering emerging entities with ambiguous names
US8676730B2 (en) Sentiment classifiers based on feature extraction
US8843490B2 (en) Method and system for automatically extracting data from web sites
CN110232149B (zh) 一种热点事件检测方法和系统
Srinath et al. Privacy at scale: Introducing the PrivaSeer corpus of web privacy policies
CN105378731A (zh) 从被回答问题关联语料库/语料值
CN111625659A (zh) 知识图谱处理方法、装置、服务器及存储介质
US20160170993A1 (en) System and method for ranking news feeds
CN115329085A (zh) 一种社交机器人分类方法及系统
Dutta et al. PNRank: Unsupervised ranking of person name entities from noisy OCR text
CN113157871B (zh) 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN111259223A (zh) 基于情感分析模型的新闻推荐和文本分类方法
WO2007011714A9 (en) Method and system for automatically extracting data from web sites
WO2020111329A1 (ko) 유사 사용자 매칭을 이용한 자동 답변 방법 및 시스템
Xu et al. Estimating similarity of rich internet pages using visual information
KR102180329B1 (ko) 가짜 뉴스 판단 시스템
KR102625347B1 (ko) 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템
Xue et al. A content-aware trust index for online review spam detection
CN116739641B (zh) 一种跨境电商知识图谱分析方法及系统
Sushmitha et al. Fake News Detection Using Machine Learning