TWI553573B - 面向口碑分析與檢視系統、裝置及方法 - Google Patents

面向口碑分析與檢視系統、裝置及方法 Download PDF

Info

Publication number
TWI553573B
TWI553573B TW103117177A TW103117177A TWI553573B TW I553573 B TWI553573 B TW I553573B TW 103117177 A TW103117177 A TW 103117177A TW 103117177 A TW103117177 A TW 103117177A TW I553573 B TWI553573 B TW I553573B
Authority
TW
Taiwan
Prior art keywords
word
mouth
vocabulary
oriented
query
Prior art date
Application number
TW103117177A
Other languages
English (en)
Other versions
TW201543393A (zh
Inventor
李青憲
張俊盛
吳鑑城
Original Assignee
財團法人工業技術研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人工業技術研究院 filed Critical 財團法人工業技術研究院
Priority to TW103117177A priority Critical patent/TWI553573B/zh
Priority to CN201410211001.0A priority patent/CN105095302B/zh
Publication of TW201543393A publication Critical patent/TW201543393A/zh
Application granted granted Critical
Publication of TWI553573B publication Critical patent/TWI553573B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

面向口碑分析與檢視系統、裝置及方法
本發明是有關於一種分析與檢視系統,特別是有關一種面向口碑分析與檢視系統。
隨著各種網路服務發展,網路使用者產生內容(User generated content,UGC)資料量大且變化快速,而其內容多數屬於主觀性評論,例如產品評論、餐廳意見等,因此想要發展UGC資料加值應用服務,如電子商務產品推薦、網路產品口碑監控、智慧型對話系統以及政府施政民意調查等。
在美國專利申請公開案(US Patent Appl.No.20090193328)所提出一種面向為主的口碑摘要方法(Aspect-Based Sentiment Summarization),提出一種先擷取口碑詞再進行口碑極性分數計算的方法。中國專利CN103049435 A提出一種文本细粒度情感分析方法及装置,也是先擷取口碑詞再進行口碑極性分數計算;面向用語則是先擷取面向詞,再進行面向分類。台灣專利TW 201115370提出一種擷取及管理社群智慧資訊的系統與方法,先擷取口碑詞再進行口碑極性分類;面向用語則是先經過斷詞後,再進行面向分類。美國專利申請公開案(US Patent Appl.No.20120278064 A1)提出一種從文件內容決定口碑的系統與方法!(System and method for determining sentiment from text content),也是採用先透過詞庫比對擷取口碑詞,再進行口碑極性分數計算;面向用語則先經過詞彙擷取後,再進行面向分類比對。
本發明多個實施例其中之一,提供一種面向口碑分析與檢視系統,包括一詞彙擷取與分類模組以及一詞彙關聯模組。此面向口碑分析與檢視系統至少包括詞彙擷取與分類模組與詞彙關聯模組。詞彙擷取與分類模組用以接收一使用者產生內容資料,並據以對所述使用者產生內容資料進行一面向口碑詞彙擷取分類流程,並產生多個面向詞彙與多個口碑詞彙。詞彙關聯模組用以取得所述面向詞彙與口碑詞彙,進行面向口碑關聯處理流程,其中面向口碑的關聯處理流程用以判斷這些面向詞彙與口碑詞彙之間的對應關係,並輸出多個面向口碑關聯資料。此面向口碑的關聯處理流程根據多個面向口碑關聯對進行判斷並取得一面向口碑連結資訊據以產生面向口碑關聯資料,其中面向口碑關聯對數量由一面向口碑連結分類器調整。
本發明多個實施例其中之一,提供一種面向口碑分析與檢視系統,更包括一面向口碑檢視模組系統,用以根據一查詢取得對應該查詢的該些面向口碑關聯資料,並將取得之對應該查詢的該些面向口碑關聯資料依照一領域分類架構提供一多層次面向口碑資訊。
本發明多個實施例其中之一,提供一種面向口碑檢視裝置,包括一處理裝置以及一顯示裝置。處理裝置設定用以執行一詞彙擷取與分類流程、一詞彙關聯流程、以及一多層次面向口碑檢視流程。詞彙擷取與分類流程用以接收使用者產生內容資料,並據以對使用者產生內容資料進行一面向口碑詞彙擷取分類流程,並產生多個面向詞彙與多個口碑詞彙。詞彙關聯流程用以取得這些口碑詞彙與該些面向詞彙,進行一面向口碑關聯處理流程,其中面向口碑的關聯處理流程用以判斷這些面向詞彙與口碑詞彙之間的對應關係,並輸出多個面向口碑關聯資料。此面向口碑的關聯處理流程根據多個面向口碑關聯對進行判斷,並取得一面向口碑連結資訊據以產生面向口碑關聯資料,其中面向口碑關 聯對數量由一面向口碑連結分類器調整。而面向口碑檢視模組用以根據一查詢取得對應查詢的面向口碑關聯資料,並將取得之對應此查詢的多個面向口碑關聯資料依照一領域分類架構提供一多層次面向口碑資訊,並依照領域分類架構在顯示裝置上顯示多層次面向口碑資訊。
本發明多個實施例其中之一,提供一種面向口碑檢視裝置,包括一處理裝置、一顯示裝置以及一連接裝置。此處理裝置設定用以執行一多層次面向口碑檢視流程,其中多層次面向口碑檢視流程根據一查詢取得對應此查詢的多個面向口碑關聯資料以及一領域分類架構資料,根據此領域分類架構資料在該顯示裝置上顯示一多層次面向口碑資訊。此處理裝置根據此查詢透過連接裝置對位於一網路終端的面向口碑知識資料庫與領域分類架構資料庫進行查詢與存取後得到這些面向口碑關聯資料以及領域分類架構資料,而這些面向口碑關聯資料是經過對一使用者產生內容資料進行一面向口碑詞彙擷取分類流程,產生多個面向詞彙與多個口碑詞彙,並對多個面向詞彙與口碑詞彙進行一面向口碑關聯處理流程,以判斷這些面向詞彙與口碑詞彙之間的對應關係,並產生多個面向口碑關聯資料。此面向口碑的關聯處理流程根據多個面向口碑關聯對進行判斷並取得一面向口碑連結資訊據以產生面向口碑關聯資料,其中面向口碑關聯對數量由一面向口碑連結分類器調整。
本發明多個實施例其中之一,提供一種面向口碑分析與檢視方法,包括對一使用者產生內容資料進行一面向口碑詞彙擷取分類流程,並產生多個面向詞彙與多個口碑詞彙。對這些面向詞彙與口碑詞彙進行一面向口碑關聯處理流程,用以判斷面向詞彙與口碑詞彙之間的對應關係,並輸出多個面向口碑關聯資料。此面向口碑的關聯處理流程根據多個面向口碑關聯對進行判斷並取得一面向口碑連結資訊據以產生面向口碑關聯資料,其中面向口碑關聯對數量由一面向口碑連結分類器調整。
本發明多個實施例其中之一,提供一種面向口碑分析與檢視方法,更包括執行一面向口碑檢視流程,根據一查詢取得對應此查詢的面向口碑關聯資料,並將取得對應此查詢的多個面向口碑關聯資料依照一領域分類架構提供一多層次面向口碑資訊。
100‧‧‧面向口碑分析與檢視系統
102‧‧‧面向口碑分析系統
104‧‧‧面向口碑檢視系統
110‧‧‧使用者產生內容資料
120‧‧‧詞彙擷取與分類模組
130‧‧‧詞彙關聯模組
140‧‧‧面向口碑知識資料庫
150‧‧‧多層次面向口碑檢視模組
152‧‧‧面向口碑多層次彙整模組
154‧‧‧接收模組
160‧‧‧領域分類架構資料庫
200‧‧‧面向口碑分析與檢視系統
202‧‧‧面向口碑分析系統
204‧‧‧面向口碑檢視系統
240‧‧‧使用者產生內容資料庫
250‧‧‧巨量語料資料庫
260‧‧‧面向口碑知識資料庫
270‧‧‧領域分類架構資料庫
S210~S230‧‧‧面向口碑分析與檢視流程
S310~S340‧‧‧面向口碑詞彙擷取分類流程
W1~W5‧‧‧詞彙(視窗)
X‧‧‧特徵
Y‧‧‧代表名稱或是別名標記
510‧‧‧面向口碑關聯對(Pair)資料庫
520‧‧‧面向口碑查詢資料庫
530‧‧‧面向口碑標記文件資料庫
540‧‧‧訓練片段(Snippets)資料
550‧‧‧正面範例資料
552‧‧‧反面範例資料
S511~S557‧‧‧面向口碑詞彙分類流程步驟
S642~S648‧‧‧特定領域的面向口碑分析與檢視系統流程
600‧‧‧面向口碑分析與檢視系統
610‧‧‧使用者產生內容(UGC)資料
620‧‧‧面向口碑知識資料庫
630‧‧‧領域分類架構資料庫
701‧‧‧使用者
710‧‧‧接收需求模組
712‧‧‧知識搜尋技術
714‧‧‧意圖理解技術
720‧‧‧結構化資料
730‧‧‧多層次面向口碑資料
732‧‧‧特定領域面向口碑資訊
734‧‧‧評論資訊
742‧‧‧地區
743‧‧‧類型資訊
745‧‧‧影片
750‧‧‧多層次面向口碑資訊
801‧‧‧使用者
810‧‧‧接收需求模組
812‧‧‧知識搜尋技術
814‧‧‧意圖理解技術
820‧‧‧結構化資料
830‧‧‧多層次面向口碑資料
832‧‧‧特定領域面向口碑資訊
834‧‧‧用語資訊
900‧‧‧系統終端
901‧‧‧系統建構終端
902‧‧‧面向口碑分析系統
904‧‧‧面向口碑檢視系統
910‧‧‧處理裝置
920‧‧‧儲存裝置
921‧‧‧使用者產生內容資料庫
922‧‧‧巨量語料資料庫
923‧‧‧面向口碑知識資料庫
924‧‧‧領域分類架構資料庫
930‧‧‧連接裝置
940‧‧‧使用者終端
941‧‧‧處理裝置
943‧‧‧儲存裝置
945‧‧‧顯示裝置
947‧‧‧連接裝置
950‧‧‧網路
960‧‧‧網路終端
962‧‧‧面向口碑知識資料庫
964‧‧‧領域分類架構資料庫
圖1為說明本發明一實施例的一種特定領域的面向口碑分析與檢視系統功能方塊示意圖。
圖2為說明本發明一實施例的面向口碑分析與檢視系統流程示意圖。
圖3A-3E為說明本發明一實施例的一種面向口碑分析中,關於面向口碑詞彙擷取分類流程示意圖。
圖4為說明本發明一實施例的面向口碑分析中,關於面向口碑詞彙擷取分類的一個實施範例的圖形化模組示意圖。
圖5為說明本發明一實施例的一種面向口碑分析中,關於面向口碑詞彙關連分類流程中分類器建構與訓練的功能方塊示意圖。
圖6為說明本發明一實施例的一種特定領域的面向口碑分析與檢視系統流程示意圖。
圖7A與7B為說明本發明一實施例的一種特定領域的面向口碑檢視流程的一應用範例的示意圖。
圖8為說明本發明一實施例的一種特定領域的面向口碑檢視流程的另一應用範例的示意圖。
圖9A與圖9B分別為說明本發明一實施例的一種特定領域的面向口碑分析與檢視系統應用範例的系統架構示意圖。
本說明書中「一實施例」或類似表達方式的引用是指結合該具體實施例所述的特定特色、結構、或特性係包括在本發明的至少一具體實施例中。因此,在本說明書中,「在一具體實施例中」及類似表達方式之用語的出現未必指相同的具體實施例。
熟此技藝者當知,本發明可實施為電腦系統、方法或作為電腦程式產品之電腦可讀媒體。因此,本發明可以實施為各種形式,例如完全的硬體實施例、完全的軟體實施例(包含韌體、常駐軟體、微程式碼等),或者亦可實施為軟體與硬體的實施形式,在以下會被稱為「電路」、「模組」或「系統」。此外,本發明亦可以任何有形的媒體形式實施為電腦程式產品,其具有電腦可使用程式碼儲存於其上。
一個或更多個電腦可使用或可讀取媒體的組合都可以利用。舉例來說,電腦可使用或可讀取媒體可以是(但並不限於)電子的、磁的、光學的、電磁的、紅外線的或半導體的系統、裝置、設備或傳播媒體。更具體的電腦可讀取媒體實施例可以包括下列所示(非限定的例示):由一個或多個連接線所組成的電氣連接、可攜式的電腦磁片、硬碟機、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、可攜式光碟片(CD-ROM)、光學儲存裝置、傳輸媒體(例如網際網路(Internet)或內部網路(intranet)之基礎連接)、或磁儲存裝置。需注意的是,電腦可使用或可讀取媒體更可以為紙張或任何可用於將程式列印於其上而使得該程式可以再度被電子化之適當媒體,例如藉由光學掃描該紙張或其他媒體,然後再編譯、解譯或其他合適的必要處理方式,然後可再度被儲存於電腦記憶 體中。在本文中,電腦可使用或可讀取媒體可以是任何用於保持、儲存、傳送、傳播或傳輸程式碼的媒體,以供與其相連接的指令執行系統、裝置或設備來處理。電腦可使用媒體可包括其中儲存有電腦可使用程式碼的傳播資料訊號,不論是以基頻(baseband)或是部分載波的型態。電腦可使用程式碼之傳輸可以使用任何適體的媒體,包括(但並不限於)無線、有線、光纖纜線、射頻(RF)等。
用於執行本發明操作的電腦程式碼可以使用一種或多種程式語言的組合來撰寫,包括物件導向程式語言(例如Java、Smalltalk、C++或其他類似者)以及傳統程序程式語言(例如C程式語言或其他類似的程式語言)。
於本發明的相關敘述會參照依據本發明具體實施例之系統、裝置、方法及電腦程式產品之流程圖及/或方塊圖來進行說明。當可理解每一個流程圖及/或方塊圖中的每一個方塊,以及流程圖及/或方塊圖中方塊的任何組合,可以使用電腦程式指令來實施。這些電腦程式指令可供通用型電腦或特殊電腦的處理器或其他可程式化資料處理裝置所組成的機器來執行,而指令經由電腦或其他可程式化資料處理裝置處理以便實施流程圖及/或方塊圖中所說明之功能或操作。
這些電腦程式指令亦可被儲存在電腦可讀取媒體上,以便指示電腦或其他可程式化資料處理裝置來進行特定的功能,而這些儲存在電腦可讀取媒體上的指令構成一製成品,其內包括之指令可實施流程圖及/或方塊圖中所說明之功能或操作。
電腦程式指令亦可被載入到電腦上或其他可程式化資料處理裝置,以便於電腦或其他可程式化裝置上進行一系統操作步驟,而於該電腦或其他可程式化裝置上執行該指令時產生電腦實施程序以達成流程圖及/或方塊圖中所說明之功能或操作。
本發明提出一種特定領域的面向口碑分析與檢視系統,其中包含面向口碑處理流程與線上即時查詢流程。面向口碑 處理流程主要負責網路使用者產生內容(User generated content,UGC)資料的取回,根據不同領域,擷取相關口碑詞彙並進行口碑極性分析,掌握其所屬正負評價,進一步擷取面向詞彙與其對應的面向類別。並分析口碑與面向詞彙對應關係,之後根據不同領域所屬的分類架構,將口碑面向分析結果與分類架構進一步整合起來,以提供使用者不同層次的查詢需求。
以餐廳為例,可以訂出五大面向(氣氛、食物、服務、價格、一般),並根據網路使用者產生內容(UGC)資料,擷取與餐廳有關的口碑詞彙並進行口碑極性分析,掌握其所屬正負評價,進一步擷取與餐廳有關的面向詞彙與其對應的面向類別。並分析口碑與面向詞彙對應關係,之後根據與餐廳有關的分類架構,將口碑面向分析結果與分類架構進一步整合起來,以提供使用者進行與餐廳有關的不同層次的查詢需求。
在一個實施例中,此特定領域面向口碑分析與檢視系統,包含一面向口碑分析系統以及一面向口碑檢視系統。面向口碑分析系統例如包括詞彙擷取分類模組、面向口碑關連模組、以及一口碑多層次彙整模組。
詞彙擷取分類模組包括一口碑詞彙擷取分類模組與一面向詞彙擷取分類模組。口碑詞彙擷取分類模組從資料庫中擷取口碑詞並進行極性分析,其中口碑詞彙擷取分類係由機率式聯合擷取與分類(Probabilistic Joint Extraction and Classification)方式達成。面向詞彙擷取分類模組從資料庫中擷取面向詞並進行面向類別分析。其中面向詞彙擷取分類係由機率式聯合擷取與分類方式達成。面向口碑關連模組用以判斷特定領域面向與口碑詞彙對應關係。其中係透過自我學習方式(bootstrap),逐步擴充可能的訓練資料,最後利用此訓練資訊,可以訓練面向口碑連結分類器,利用該分類器所得的面向口碑連結資訊,可用以判斷面向與口碑詞的關聯。
上述面向口碑分析系統更包括一UGC資料處理模組。UGC資料處理模組針對使用者產生內容(UGC)資料,經過斷詞、詞性標註,儲存至資料庫。
上述面向口碑檢視系統在一個實施例中包括接收模組、面向口碑多層次彙整模組與多層次面向口碑檢視模組。
接收模組用以接收使用者查詢詞彙或點擊。透過面向口碑多層次彙整模組,將特定領域面向、口碑與領域分類架構資訊進一步整合後,提供使用者多層次的查詢。例如面向口碑多層次彙整模組接收到使用者查詢或點擊後,透過面向口碑多層次檢視,進行查詢。此架構是指領域的分類架構,例如電影會有動作片、劇情片等分類架構。多層次面向口碑檢視模組則針對使用者查詢詞彙或點擊,進行查詢以得到適當層次面向口碑詞彙資訊。
底下將配合圖示說明本發明多個實施例其中之一或部分的特定領域的面向口碑分析與檢視系統。
請參照圖1,圖1為說明本發明一實施例的一種特定領域的面向口碑分析與檢視系統功能方塊示意圖。此面向口碑分析與檢視系統100在一實施例中包含面向口碑分析系統102與面向口碑檢視系統104,其中面向口碑檢視系統104用以做為線上即時查詢使用。
本發明所提出特定領域的面向口碑分析系統102至少包括詞彙擷取與分類模組120與詞彙關聯模組130。詞彙擷取與分類模組120用以執行進行口碑詞彙擷取分類流程以及面向詞彙擷取分類流程。此口碑詞彙擷取分類流程從資料庫中取得使用者產生內容(UGC)資訊110後擷取其中的口碑詞與進行極性分析。其中口碑詞彙擷取分類流程可以由機率式聯合擷取與分類方式達成。此面向詞彙擷取分類流程,是從資料庫中取得使用者產生內容資訊110並擷取其中的面向詞與進行面向類別分析。面向詞彙擷取分類流程可以使用機率式聯合擷取與分類方式達成。而上述的口碑詞彙擷取分類流程與面向詞彙擷取分類流程可以在詞彙擷 取與分類模組120的同一個模組同步進行或是先後分別進行,或是分為兩個子模組(口碑詞彙擷取分類模組與面向詞彙擷取分類模組)同步進行或是先後分別進行,並不受限制。而經過詞彙擷取與分類模組120處理後輸出經過分類的口碑面向詞彙。
詞彙關聯模組130取得經過分類的口碑面向詞彙以及來自面向口碑知識庫的資料,用以進行面向口碑的關聯處理流程。面向口碑的關聯處理流程用以判斷特定領域面向與口碑詞彙之間的對應關係,並輸出面向口碑關聯資料。而得到的面向口碑關聯資料則回傳到面向口碑知識資料庫140中儲存或更新。
面向口碑檢視系統104包括多層次面向口碑檢視模組150、面向口碑多層次彙整模組152、以及接收模組154。多層次面向口碑檢視模組150用以根據來自接收模組154所接收的查詢需求,例如使用者查詢或點擊後,透過面向口碑多層次彙整模組152存取面向口碑知識資料庫140與領域分類架構資料庫160的資訊,進行對應的面向口碑資訊顯示。此架構是指領域的分類架構,例如電影會有動作片、劇情片等分類架構。多層次面向口碑檢視模組150則針對使用者查詢詞彙或點擊,進行查詢以得到適當層次面向口碑詞彙資訊。
在一實施例可以運用於線上即時查詢系統或應用程式。線上即時查詢系統包含接收模組154,從使用者端接收一個描述用語,並透過面向口碑多層次彙整模組152的彙整後,由多層次資訊檢視模組150提供適當層次的面向及口碑資訊讓使用者參考與選擇。上述的接收模組154可以內建於面向口碑檢視系統104,或是建於如使用者所使用的線上即時查詢系統或應用程式,並不以此為限制。面向口碑多層次彙整模組152取得查詢需求後即可進行對應的面向口碑資訊顯示。在一實施例中,面向口碑檢視系統104也可以包括一個顯示裝置,用以顯示對應的多層次的面向及口碑資訊,也可以將對應於此查詢需求的多層次的面向及口碑資訊傳回給使用者的顯示裝置,據以顯示對應的資訊,並非 以此為限制。
透過面向口碑檢視系統104的多層次面向口碑檢視模組150與面向口碑多層次彙整模組152,將特定領域面向、口碑與領域分類架構的資訊彙整成為多層次面向口碑檢視資訊。
依據本實施例的上述系統可實施以及執行於硬體、韌體或安裝在硬體如處理器或微處理器的軟體或電腦程式碼。機器可執行的程式碼儲存於記錄媒介如光碟、隨機存取記憶體、軟碟、硬碟或磁性光學碟,或可於網路下載原先被儲存於遠端記錄媒介或非暫存式機器可讀取媒介且將儲存於區域的記錄媒介,使得此處所敘述的系統可使用一般用途的電腦或特殊處理器或可程式化的或專用硬體作為儲存於記錄媒介的軟體,例如特殊功能積體電路(ASIC)或可程式化邏輯閘陣列(FPGA)。如同本實施例技術領域中的通常知識,當電腦、處理器或硬體實施此處所屬的處理方法所存取以及執行的軟體或電腦程式碼時,電腦、處理器、微處理器控制器或可程式化硬體包括記憶體元件如隨機存取記憶體(RAM)、唯讀記憶體(ROM)、快閃記憶體、隨身碟等等,可能儲存或接收軟體或電腦程式碼。
本發明一實施例所提出的面向口碑分析與檢視系統用以執行例如網路下載流程、UGC資料庫、口碑詞彙擷取分類流程、面向詞彙擷取分類流程、面向口碑關聯處理流程、以及多層次面向口碑檢視流程等等。底下將以一實施範例進行說明,請參照圖2,圖2為說明本發明一實施例的面向口碑分析與檢視系統所執行的方法流程示意圖。面向口碑分析與檢視系統200至少包括面向口碑分析系統202與面向口碑檢視系統204。
在此實施例中,面向口碑分析系統202可以包括例如步驟S224的面向口碑詞彙擷取與分類方法以及步驟S226的面向口碑詞彙連結方法。面向口碑檢視系統204包括例如步驟S230的多層次面向口碑資訊檢視步驟。在一實施例中,可以運用於線上即時查詢系統或應用程式。線上即時查詢系統包含接收需求模 組,從使用者端接收一個描述用語,並透過多層次面向口碑檢視模組提供適當層次的面向及口碑資訊讓使用者參考與選擇。
步驟S224的面向口碑詞彙擷取與分類方法所處理的多元詞彙資料在此實施例中是經過步驟S220與S222的處理。步驟S220與S222可以包括在面向口碑分析系統202中,或是經由外部系統處理,並非以此為限制。經過步驟S220的中文斷詞(CWS,Chinese Word Segmentation)與詞性標記(POS Tagging,Part of Speech Tagging)方法處理UGC資料後得到中文斷詞與詞性標記資料。底下將配合實施範例進行詳細說明。
步驟S210,從任何形式的來源經過資料抓取(Data Crawler)步驟而取得使用者產生內容(User generated content,UGC)資料。在一實施例中可以透過網際網路(Internet)下載網路UGC資料。並且儲存在使用者產生內容資料庫240中。
步驟S220,從使用者產生內容資料庫240中讀取UGC資料,並經過中文斷詞與詞性標記方式處理UGC資料後,得到中文斷詞與詞性標記資料。底下以UGC資料為評論一部電影的描述語料為例進行說明,例如UGC資料為“…屬於黑色幽默類型的片子,剪接手法也挺創新,值得推薦…”。此語料經過步驟S220處理之後得到的中文斷詞與詞性標記資料例如“…屬於(V)/黑色(Na)/幽默(A)/類型(Na)/的(DE)/片子(Na)/,(COMMA)/剪接(V)/手法(Na)/也(D)/挺(D)/創新(A)/,(COMMA)/值得(V)/推薦(V)…”。上述對於UGC語料斷詞後所標示的標記,在一實施例中,例如”屬於”、“黑色“、“幽默“、“類型“、“的“、“片子“、“,“、“剪接“、“手法“、“也“、“挺“、“創新“、“值得“、“推薦”等等都是屬於可能的中文斷詞。詞性標記,例如“V(動詞)”、“Na(普通名詞)”、“A(形容詞)”、“DE(的)”、“COMMA(標點符號中的逗號)”、“D(副詞)”等都是屬於可能的詞性標記。
步驟S222,進行口碑詞彙擷取分類流程,從使用者 產生內容資料庫240中擷取口碑詞並進行極性分析。其中口碑詞彙擷取分類流程可以由機率式聯合擷取與分類方式達成。面向詞彙擷取分類流程,是從使用者產生內容資料庫240中擷取面向詞並進行面向類別分析。面向詞彙擷取分類流程可以使用機率式聯合擷取與分類方式達成。其中機率式聯合擷取與分類,先將詞彙資訊與分類資訊同時表達在標記資訊中,再透過序列學習方式例如條件隨機場(Conditional random fields),利用前後詞彙與分類標記之間的關係,學習最佳標記模型。而上述的口碑詞彙擷取分類流程與面向詞彙擷取分類流程可以在同一個模組中同步進行或是先後分別進行,並不受限制。以先前描述的語料為例,轉換為例如“黑色幽默(文藝作品類型Genres)”、“剪接手法(視覺聽覺)”、“推薦(正面)“、“創新(正面)”等等。在一實施例中,例如黑色幽默(文藝作品類型Genres)”、“剪接手法(視覺聽覺)等為面向,“推薦(正面)“、“創新(正面)“等為口碑。
步驟S224,進行面向口碑的關聯處理步驟。面向口碑關聯步驟S224接收步驟S222所輸出經過分類的口碑面向詞彙,用以判斷特定領域面向與口碑詞彙之間的對應關係,並輸出面向口碑關聯資料。而得到的面向口碑關聯資料則輸出到面向口碑知識資料庫260中儲存。
此對應關係可以透過自我學習方式(Bootstrap)逐步擴充訓練語料,並利用該語料進行連結關係分類器訓練。
在面向口碑檢視系統204中,至少包括多層次面向口碑檢視步驟S230用以根據接收的查詢需求232,存取面向口碑知識資料庫260與領域分類架構資料庫270的資訊,進行對應的面向口碑資訊顯示。在一實施例中,可以運用於線上即時查詢系統或應用程式。線上即時查詢系統包含需求接收模組,從使用者端接收一個描述用語,轉為此查詢需求232,並透過多層次面向口碑檢視步驟S230提供適當層次的面向及口碑資訊讓使用者參考與選擇。透過多層次面向口碑檢視步驟,根據得到的查詢對面向口 碑知識資料庫260的面向口碑關聯資料以及領域分類架構270的分類資訊進行存取。透過面向口碑檢視系統204,將特定領域面向與口碑知識,根據領域分類架構整合成為多層次面向口碑檢視流程,提供對應使用者輸入的查詢顯示適當的面向及口碑資訊。此面向口碑檢視系統在一實施例中包含線上即時查詢。線上即時查詢流程,包含接收需求模組,從使用者端接收一個描述用語(例如:三星Note3、台系手機、少年Pie、黑色幽默類電影)。透過多層次面向口碑檢視模組,提供適當層次的面向及口碑資訊。
請參照圖3A-3E,圖3A-3E為說明本發明一實施例的一種面向口碑分析中,關於面向口碑詞彙擷取分類流程示意圖。針對圖3A的流程步驟搭配圖3B-3D內容進行說明。
請參照圖3A,面向口碑詞彙擷取分類流程包括步驟S310-S340。首先,步驟S310中,對多元詞組進行標記(Label),例如針對領域收集的語料“不錯的愛情片~值得一看”為例,經過人工標記後,得到標記化的資料(Labeled data),如圖3B所示的詞彙(或稱為視窗)W1~W5,分別為“不錯”、“的”、“愛情片”、“~”、以及“值得一看”,這些詞彙分別給予不同的標記例如“<正面>”(Positive)、“其他”(Other)、“<A-類型>”(A-Type)、“其他”(Other)、以及“<正面>”(Positive)。上述的標記是根據不同領域加以定義,例如以圖3C為例說明,根據電影相關領域的標記包含例如七大類資訊(<正面>、<負面>、<A-類型>、<A-劇情>、<A-人物角色>、<A-效果>、A-一般)分別代表電影的正面評價、負面評價、類型、劇情、人物角色、聲光效果、一般,但不限於七類,可依據需求而調整標記數量。
接著,如步驟S320,進行特徵建構步驟,所用的特徵集合例如圖3D所述,包含前後詞、前後詞性標記(POS)、前後詞綴、詞的長度、以及同義詞。前後詞例如為前後視窗(W-2~W2)所構成的詞,也就是包括前兩個字到後兩個字的視窗所構成的詞的組合。前後詞性標記(POS)為例如前後視窗(W-3~W3)所構成的詞 性,也就是包括前三個字到後三個字的視窗所構成的詞的組合。前後詞綴例如由前綴(Prefix)與後綴(Suffix)組成的詞。
根據步驟S320的特徵建構步驟所得到的特徵進行步驟S330產生特徵功能。此特徵功能例如針對特徵集合進行特徵函數的產生,此函數除了可以是布林函數,也可以是連續數值函數。根據特徵集合所得到的資訊如圖3E所示,針對語料“不錯的愛情片~值得一看”得到的特徵詞彙W1~W5(“不錯”、“的”、“愛情片”、“~”、以及“值得一看”)分別有對應的標記(“<正面>”、“其他”、“<A-類型>”、“其他”、“<正面>”),特徵詞性標記(POS)分別為(“VA(形容詞)”、“DEC(的)”、“NN(名詞)”、“PU(符號)”、“VV(動詞)”),特徵前綴為(“不”、“的”、“愛情”、“~”、“值得”)與後綴為(“錯”、“的”、“情片”、“~”、“一看”),特徵詞長為(“2”、“1”、“3”、“1”、“4”)以及特徵同義詞為(“美好”、“NA”、“NA”、“NA”、“NA”),其中”NA”代表無特徵同義詞。在一個實施範例中,特徵函數可以函數一、函數二、函數三等等不同的函數其中之一或其組合,但並不以這些特徵函數為限制,可以包括由不同特徵集合組合所成的函數,且函數值除了0與1之外也可以是連續型數值。
底下以多個函數加以列舉說明,但並非以此為限制:函數一:如果現在特徵詞彙(Wcurrent)=“愛情片”,並且標記=“<A-類型>”,則函數值為1,否則為0。
函數二:如果現在特徵詞彙(Wcurrent)=“愛情片”,前一個特徵詞彙(Wprevious)=“的”,並且標記=<A-類型>,則函數值為1,否則為0。
函數三:如果現在特徵詞彙(Wcurrent)=“愛情片”,前一個特徵詞彙(Wprevious)=“的”,下一個特徵詞彙(Wnext)=“~”,並且標記=<A-類型>,則函數值為1,否則為0。
函數四:如果現在特徵詞彙(Wcurrent)=“愛情 片”,特徵詞性標記(POS)=“NN”,並且標記=<A-類型>,則函數值為1,否則為0。
最後,如步驟S340,進行標註模組訓練(Tagging Model Training),訓練完成後的標註模型,可用來標註面向、口碑詞彙以及對應的面向類別與口碑類別。其中標註模型是基於序列學習模型(Sequence Learning Based Approach)。如隱馬爾可夫模型(Hidden Markov Model)、最大熵馬爾可夫模型(Maximum Entropy Markov models)、條件隨機場(Conditional Random Fields)等,但不限於此。
請參照圖4,為說明本發明所提出面向口碑分析中,關於面向口碑的關聯處理步驟的一個實施範例的圖形化模組示意圖。在此圖形化模組示意圖中,X代表特徵,也就是可以看見的特徵詞彙。Y代表隱藏在後與特徵關聯的面向詞、口碑詞、面向類別和口碑標記類別。而X(特徵)與Y(面向詞、口碑詞、面向類別和口碑標記類別)之間條件機率為P(y|x),計算式如下:
λ k 為特徵權重,f k 為特徵函式
y t 為目前的標記,y t-1為前一個標記,x t 則為目前的特徵
根據上述的目標函式,我們透過對數線性模式(Log-linear model),計算最佳特徵權重參數值λ k
l(θ)為log-likelihoodλ k 為特徵權重,N為訓練句子數,TToken
對數線性模式(Log-linear model)是一種數學模式,是採用一個具有此模式多個參數的第一階多項式演繹法則運算而使得線性迴歸(linear regression)可實現的函式。一般具有底下的形式: 其中fi(x)變數X的函式的值,一般採用向量的值,而c跟Wi的值是代表此模式的參數。
f k 為特徵函式,Z為正規化變數,為regularization變數。
本實施例所提出的實施方法就口碑詞彙擷取分類、面相詞彙擷取分類與面相口碑關連分析方面而言,相較於美國專利申請公開案(US Patent Appl.No.20090193328)所提出在口碑詞擷取方面,其利用文法規則法例如形容詞片語,而口碑類別,則是先定義一組種子詞彙,再透過語言知識庫例如wordnet,所含上下位關係,進行口碑詞類別傳遞,例如美麗、漂亮在wordnet屬於同義詞,如果美麗屬於正面,則漂亮也為正面。其作法屬於二階段作法,而本實施例所提出的方法則是在同一階段,連同口碑詞擷取與口碑類別分類一起進行。其面向詞則是透過判斷是否與口碑詞接近的高頻N元(n-grams)詞彙,若是則為面向詞,然而該公開前案並沒有提及針對面向詞彙進行分類的動作,本實施例則是透過序列學習機制,同時學習擷取面向詞與面向分類。
相較於公開專利(CN103049435 A,浙江工商大学),其中口碑詞擷取其雖然透過序列學習方式,但其口碑類別卻是口碑辭典計算,例如計算詞彙在情緒辭典中正負面的頻率為權重,正 負加總得到詞彙的極性。因此屬於兩階段方式,而本實施例則是一階段,上述公開專利是採用面向詞擷取透過序列學習方式,但是其面向類別則是先人工定義種子詞彙,透過自我學習(Boostrap)方式,決定面向類別,因此還是屬於兩階段,而本方法則是一階段。
相較於台灣公開專利(TW 201115370),其在口碑詞擷取分類是兩階段,採取序列學習方式擷取口碑詞彙,其口碑類別則透過分類器,並沒有利用序列學習方式同時處理口碑詞擷取與分類。至於此專利申請案在面向詞擷取與類別分類上,則是沒有特別處理面向詞擷取,直接將每個詞彙進行分類。
相較於美國專利申請公開案(US Patent Appl.No.20120278064 A1),其在口碑詞擷取分類是兩階段,先利用詞彙列表,決定口碑詞彙,再透過口碑辭典進行口碑詞彙分數計算,再根據分數決定正負類別。而面向詞彙擷取與分類,則是固定的詞彙列表與分類,進行字串比對。與實施例所提出的方式差異甚大。
請參照圖5,圖5為說明本發明一實施例的一種面向口碑分析中,關於面向口碑詞彙關連的實施方法。
在此分類器建構與訓練的功能方塊示意圖中,包括已連結的面向口碑關聯對(Pair)資料庫510、面向口碑查詢資料庫520、面向口碑標記文件資料庫530、訓練片段(Snippets)資料540、正面範例資料550以及反面範例資料552。根據上述的資料所執行的流程步驟包括步驟S511~S557,底下將配合圖5說明。
首先,已連結的面向口碑對(Pair)資料庫510包括已產生連結的面向口碑關聯對(Pair)當成種子連結關係資料庫,可以透過人工建立少量或由先前所產生可靠度高之種子連結關係資料庫。這些面向口碑關聯對例如是(情節,老套)、(場面,壯觀)等。在步驟S511中,透過面向口碑查詢產生模組(Aspect-Sentiment Query Generation Model)產生相關面向口碑查詢語句,例如:情節NEAR老套,而此“Near”例如為一般查詢的靠近或是接近的意 思。或是例如:場面NEAR壯觀。
由於先前已經透過面向及口碑標記模組將蒐集所得的UGC資料進行面向及口碑詞彙標記,並且建置為一個面向口碑標記文件資料庫530,例如:標記文件為“…好人壞人的情節太過於老套且過程拍得很….鋼鐵人2不但劇情更為緊湊、戰鬥場面更為壯觀,笑點更超越首集…”等等,其中包含已經完成標記的面向口碑標記的片段(Snippets)或句子。因此將利用步驟S511所得查詢語句,查詢此面向口碑標記文件資料庫530,將所查到的片段(Snippets)解離或擷取出來,如步驟S521。例如透過查詢,查詢包含有面向、口碑的片段(Snippets)而獲得片段或句子為例如“…是一部不錯的片子,雖然情節老套,但是畫面精美…”這樣的片段。
接著,利用所擷取出來的訓練片段(Snippets)資料540,進行步驟S541的產生自動化訓練樣本(Automatic Training Sample)。以前述的例子為例,可獲得正面範例(情節,老套)、(場面,壯觀),也可自動獲得反面範例(情節,不錯的)、(情節,精美)、(畫面,老套)等等。所獲得的正面(Positive)範例以及反面(Negative)範例訓練資料之後,其中,正面範例為已在面向口碑對(Pair)資料庫510的面向口碑關聯對,反面範例則為不在面向口碑對(Pair)資料庫510的面向口碑關聯對,經過對這些正面或反面範例進行步驟S551的特徵解出(Feature Extraction)流程後,進行步驟S553,對面向口碑關聯分類器進行訓練,即可得到一個面向口碑關聯分類器(Linking Classifier),如步驟S555。上述的特徵解出流程中所述的特徵可包含面向口碑組合之間的文字、詞性、符號等等。上述步驟S553的訓練可以採用例如取得正面範例和負面範例之後,可以訓練一個兩類的分類器,其中分類器可以是SVM、貝氏分類器等等。而在步驟S557,利用訓練好的面向口碑關連分類器,對於面向口碑標記文件資料庫530的語料進行預測,將新得到的結果重新更新至S510。訓練後的資料應會儲存至面向口碑對(Pair)資料庫510。
藉由得到的分類器,可以對已建置的面向口碑標記文件資料庫530內的面向口碑標記文件中任意的面向口碑關聯對(Pair)進行分類(Positive or Negative),並進而得到新的面向口碑關聯對(Pair),並進一步增加訓練的資料,接著重複前述步驟S511~S557的步驟,重新訓練模組,提昇模組準確度。
圖5所說明本發明實施例的面向口碑詞彙分類流程中分類器建構與訓練的實施方法,相較於相較於美國專利申請公開案(US Patent Appl.No.20090193328)所提出傳統監督式方式,需要人工大量標記,才可進行面向口碑詞彙連結分類器訓練,本實施例是採用遠程監督(Distant supervision)技術,透過面向口碑詞彙擷取與分析步驟所得結果,搭配自動產生訓練資料經驗法則,自動產生訓練語料,即可進行面向口碑詞彙連結分類器訓練。而相較於美國專利申請公開案(US Patent Appl.No.20120278064A1)僅僅利用文法分析與距離進行面向口碑詞彙連結分析,本實施例是使用以分類器為基礎的作法,將可得到較高的涵蓋率。
而遠程監督(Distant supervision)技術使用方面,如Mike Mintz(“Distant Supervision for Relation Extraction Without Labeled Data”,Mike Mintz,etc.al.2009)等方法用於實體關係擷取方面,其中使用大規模知識庫如freebase,自動建構出訓練語料,與本實施例相較之下,本實施例不需要仰賴大規模知識庫,產生大量訓練資料。本實施例根據經驗法則:句子中除了面向口碑正面範例之外的,其餘都轉為反面範例。
Alec go(Twitter Sentiment Classification using Distant Supervision,Alec go,etc al.2009),M Purver(Experimenting with Distant Supervision for Emotion Classification,M Purver,2012)相關論文中,運用遠程監督(Distant supervision)技術於Twitter情緒分類,其中透過Twitter資料中特有的表情符號(emoticons,例如,)及主題標記(hashtag,例如#ANGRY,#HAPPY),來產生訓練資料的情緒分類之用。而本實施例方法,不需要使用特殊的符 號資訊,使用少量的人工標記種子資料,搭配上述自動產生訓練範例資訊的經驗法則,自動產生初始訓練資料後,再利用自我學習即可獲得所需面向口碑連結分類。
請參照圖6,圖6為說明本發明一實施例的一種特定領域的面向口碑分析與檢視系統流程示意圖。在此面向口碑分析與檢視系統600中,首先,步驟S642,透過各種管道取得使用者產生內容(UGC)資料並儲存在使用者產生內容(UGC)資料庫610,並擷取並取得實體名稱(Entity Name)。例如取得電影名稱“少年Pi的奇幻漂流”名稱。而後步驟S644,針對可能的別名進行偵測,與電影名稱“少年Pi的奇幻漂流”名稱可能是別名等其他名稱,例如可能為“奇幻漂流”或是“少年Pi”等等別名。接著如步驟S646進行實體面向口碑彙整,此彙整的步驟例如包括圖2所進行的面向口碑分析方法202中的各步驟等等。
而後如步驟S648,進行多層次面向口碑檢視。根據查詢需求,存取面向口碑知識資料庫620與領域分類架構資料庫630的資訊,進行對應的面向口碑資訊顯示,可以運用於線上即時查詢系統或應用程式。透過多層次面向口碑檢視步驟,根據得到的查詢對面向口碑知識資料庫620的面向口碑關聯資料以及領域分類架構630的分類資訊進行存取。透過多層次面向口碑資訊檢視步驟S648將特定領域面向與口碑知識,根據領域分類架構整合,提供對應使用者輸入的查詢顯示適當的面向及口碑資訊。例如使用者端接收一個描述用語(例如:少年Pi的劇情)。透過多層次面向口碑檢視模組,提供適當層次的面向及口碑資訊。
請參照圖7A與7B,圖7A與7B說明本發明一實施例的一種特定領域的面向口碑檢視流程之一應用範例的示意圖。請先參照圖7A,首先,根據使用者701的描述語言或是查詢的內容,例如“有關海上3D特效片”、“推薦我最近劇情節奏緊湊不無聊的電影片?”或是“有深度的功夫片?”等等查詢的內容,由線上即時查詢系統的接收需求模組710進行分析,包括運用知識 搜尋技術712與意圖理解技術714進行搜尋。而此接收需求模組710則是將查詢需求傳送到本發明實施範例的多層次面向口碑檢視模組。多層次面向口碑檢視模組則是對口碑知識資料庫的面向口碑關聯資料以及領域分類架構的分類資訊進行存取,找出對應的結構化資料720與多層次面向口碑資料730。
結構化資料720屬一般的結構化分類資訊,例如若以電影資訊為例,可能包括電影名稱、類型(科幻、武俠等)、地區或是上映時間。這些資訊可以從相關公開資訊取得。多層次面向口碑資料730則是經由本發明多個實施例其中之一的特定領域的面向口碑分析流程所建構的資訊。例如以電影資訊的特定領域為例,本發明實施例將電影相關領域的標記包含例如七大類資訊(<正面>、<負面>、<A-類型>、<A-劇情>、<A-人物角色>、<A-效果>、A-一般)分別代表電影的正面評價、負面評價、類型、劇情、人物角色、聲光效果、一般,但不限於七類。如多層次面向口碑資料730包括特定領域面向口碑多層次資訊732例如角色、類型、視聽、劇情、一般,另外還加上相關的評論資訊734。在此實施例中,特定領域面向口碑多層次資訊732為面向,評論資訊734為口碑,因此藉由多層次面向口碑檢視模組提供適當層次的面向及口碑資訊讓使用者參考與選擇。
請參照圖7B,上述多層次面向口碑檢視模組提供適當層次的面向及口碑資訊讓使用者參考與選擇,例如包括結構化資料的地區742下一層次的各地區資料(美國、台灣等等),以及包括類型資訊743的動作片、劇情片、歌舞片等等,以提供使用者選擇不同的影片745。除此之外,更提供多層次面向口碑資訊750,包括人物角色、劇情、聲光效果、類型、一般等等資訊,這樣建構出不同層次與不同維度(Dimensions)的資訊展現,讓使用者可以有多種的參考與選擇。
請參照圖8,圖8為說明本發明一實施例的一種特定領域的面向口碑檢視流程之另一應用範例的示意圖。首先,根據 使用者801的描述語言或是查詢的內容,例如“新竹市哪一家餐廳有好喝的馬丁尼酒?”或是“新竹市中低價位的拉麵店?”等等查詢的內容,由線上即時查詢系統的接收需求模組810進行分析,包括運用知識搜尋技術812與意圖理解技術814進行搜尋。而此接收需求模組810則是將查詢需求傳送到本發明實施範例的多層次面向口碑檢視模組。多層次面向口碑檢視模組則是對口碑知識資料庫的面向口碑關聯資料以及領域分類架構的分類資訊進行存取,找出對應的結構化資料820與多層次面向口碑資料830。
結構化資料820屬一般的結構化分類資訊,例如若以餐廳結構化資料為例,則是包括餐廳名稱、類型、地址等。這些資訊可以從相關公開資訊取得。多層次面向口碑資料830則是經由本發明多個實施例其中之一的特定領域的面向口碑分析流程所建構的資訊。例如以餐廳資訊的特定領域為例,本發明實施例將餐廳相關領域的標記包含例如食物、氣氛、服務、價格等等特定領域面向口碑資訊832,但不限於此,另外還加上相關的用語資訊834。因此藉由多層次面向口碑檢視模組提供適當層次的面向及口碑資訊讓使用者參考與選擇。這樣建構出不同層次與不同維度(Dimensions)的資訊展現,讓使用者可以有多種的參考與選擇。
本發明提出一種特定領域的面向口碑分析與檢視系統,用以執行包括面向口碑處理流程與線上即時查詢流程。面向口碑處理流程主要負責網路使用者產生內容(User generated content,UGC)資料的取回,根據不同領域,擷取相關口碑詞彙並進行口碑極性分析,掌握其所屬正負評價,進一步擷取面向詞彙與其對應的面向類別。並分析其口碑與面向詞彙對應關係,之後根據不同領域所屬的分類架構,將口碑面向分析結果與分類架構進一步整合起來,以提供使用者不同層次的查詢需求。上述本發明所提出特定領域的面向口碑分析與特定領域的面向口碑檢視系統,運用在同一終端主機中,也可以透過網路(有線或是無線網路)運用在不同的終端主機中,例如特定領域的面向口碑分析運用在 一終端,而特定領域的面向口碑檢視系統運用在另一終端。
在另一實施範例中,也可以透過一系統建構終端進行面向口碑處理流程,而將得到的資料,例如多層次面向及口碑資訊放置在一儲存裝置,例如雲端儲存空間中。而特定領域的面向口碑檢視系統的則是運用在另一終端或是任何具有瀏覽功能的手持式裝置中。透過手持式裝置具有瀏覽功能的瀏覽器,線上即時查詢系統或是運用程式(APP)則可分析使用者所選擇或是輸入的查詢需求而對應的存取位於網路另一端的多層次面向及口碑資訊,並在此手持式裝置中顯示此多層次面向及口碑資訊。
上述的實施範例請參照圖9A與圖9B,圖9A與圖9B說明本發明一實施例的一種特定領域的面向口碑分析與檢視系統應用範例的系統架構示意圖。
請參照圖9A,本實施例中的系統終端900配置有例如處理裝置910、儲存裝置920與連接裝置930。此儲存裝置920儲存包括使用者產生內容資料庫921、巨量語料資料庫922、面向口碑知識資料庫923與領域分類架構資料庫924等等,但並非以為限制。使用者產生內容資料庫921、巨量語料資料庫922、面向口碑知識資料庫923與領域分類架構資料庫924也可以儲存到外部裝置的記憶空間中,而藉由連接裝置930與外部裝置構成通聯而進行存取。而處理裝置910可以是中央處理電路,根據本實施例技術領域中的通常知識,當電腦、處理器或硬體實施此處所屬的處理方法所存取以及執行的軟體或電腦程式碼時,電腦、處理器、微處理器控制器或可程式化硬體包括記憶體元件如隨機存取記憶體(RAM)、唯讀記憶體(ROM)、快閃記憶體、隨身碟等等,可能儲存或接收軟體或電腦程式碼。
處理裝置910設定用以執行面向口碑分析與檢視系統。在一實施例中,面向口碑分析與檢視系統包含面向口碑分析系統902與面向口碑檢視系統904。面向口碑分析系統902包括詞彙擷取與分類模組與詞彙關聯模組。面向口碑檢視系統904包括 多層次面向口碑檢視模組、面向口碑多層次彙整模組、以及接收模組。處理裝置910可用以執行上述各模組之流程,各模組流程可參考前述實施例,在此不加贅述。
另外的一使用者終端940包括處理裝置941、儲存裝置943、顯示裝置945與連接裝置947。本實施例中的多層次面向及口碑資訊放置在系統終端900的儲存裝置920中。而使用者終端940則可以配置特定領域的面向口碑檢視系統的一部分或是全部。透過使用者終端940具有瀏覽功能的瀏覽器,線上即時查詢系統可分析使用者所選擇或是輸入的查詢需求而經由網路950對應的存取位於儲存裝置920的多層次面向及口碑資訊,並在此使用者終端940中顯示此多層次面向及口碑資訊,並在顯示裝置945中顯示,以提供不同層次與不同維度的資訊展現,讓使用者可以有多種的參考與選擇。在另一實施例也可以將本發明實施例所提出的特定領域的面向口碑檢視系統配置在系統終端900中,而使用者終端940單純地將使用者所提出的查詢需求經由網路950取得多層次面向及口碑資訊,並在使用者終端940的顯示裝置945中顯示。
請參照圖9B,本實施例中的系統建構終端901配置有例如處理裝置941、儲存裝置943與連接裝置930。此系統建構終端901透過網路950存取位於網路終端960的面向口碑知識資料庫962與領域分類架構資料庫964等等,但並非以為限制。並完成本發明實施例中的特定領域的面向口碑分析流程,並更新位於網路終端960的面向口碑知識資料庫962與領域分類架構資料庫964。而另外的一使用者終端940則可透過網路950進行存取位於網路終端960的面向口碑知識資料庫962與領域分類架構資料庫964,以便取得多層次面向及口碑資訊,並在使用者終端940的顯示裝置945中顯示。
100‧‧‧面向口碑分析與檢視系統
102‧‧‧面向口碑分析系統
104‧‧‧面向口碑檢視系統
110‧‧‧使用者產生內容資料
120‧‧‧詞彙擷取與分類模組
130‧‧‧詞彙關聯模組
140‧‧‧面向口碑知識資料庫
150‧‧‧多層次面向口碑檢視模組
152‧‧‧面向口碑多層次彙整模組
154‧‧‧接收模組
160‧‧‧領域分類架構資料庫

Claims (34)

  1. 一種面向口碑分析與檢視系統,包括:一詞彙擷取與分類模組,用以接收一使用者產生內容資料,並據以對該使用者產生內容資料進行一面向口碑詞彙擷取分類流程,並產生多個面向詞彙與多個口碑詞彙;以及一詞彙關聯模組,用以取得該些面向詞彙與該些口碑詞彙,進行一面向口碑關聯處理流程,其中該面向口碑關聯處理流程用以判斷該些面向詞彙與該些口碑詞彙之間的對應關係,並輸出多個面向口碑關聯資料,其中,該面向口碑的關聯處理流程根據多個面向口碑關聯對進行判斷並取得一面向口碑連結資訊據以產生該些面向口碑關聯資料,其中該些面向口碑關聯對數量由一面向口碑連結分類器調整。
  2. 如申請專利範圍第1項所述的面向口碑分析與檢視系統,更包括:一資料處理模組,用以對該使用者產生內容(UGC)資料進行斷詞、詞性標註以得到一中文斷詞與詞性標記資料,據以產生該些面向詞彙與該些口碑詞彙。
  3. 如申請專利範圍第1項所述的面向口碑分析與檢視系統,其中該詞彙擷取與分類模組包括一口碑詞彙擷取分類模組與一面向詞彙擷取分類模組,其中,該口碑詞彙擷取分類模組從該使用者產生內容資料擷取該些口碑詞彙進行極性分析,其中該口碑詞彙擷取分類模組是採用機率式聯合擷取與分類(Probabilistic Joint Extraction and Classification)方式進行,該面向詞彙擷取分類模組從該使用者產生內容資料擷取該些面向詞彙並進行面向類別分析,其中該面向詞彙擷取分類模組採用機率式聯合擷取與分類方式進行。
  4. 如申請專利範圍第1項所述的面向口碑分析與檢視系統,其中該詞彙擷取與分類模組所進行的該面向口碑詞彙擷取分類流程 包括:對該使用者產生內容資料的多個詞組進行標記;根據一特徵集合對該些詞組進行特徵建構,以取得該些詞組對應的多個特徵;產生至少一特徵功能,其中該特徵功能是針對該特徵集合進行至少一或多個特徵函數的產生;根據該特徵函數或該些特徵函數的組合而進行標註模組訓練(Tagging Model Training),以建立一標註模型,用以由該詞彙擷取與分類模組根據該標註模型對該使用者產生內容資料進行擷取以得到該些面向詞彙與該些口碑詞彙。
  5. 如申請專利範圍第4項所述的面向口碑分析與檢視系統,其中對該使用者產生內容資料的該些詞組進行標記是根據一使用領域的多個標記定義對該些詞組加以標記。
  6. 如申請專利範圍第4項所述的面向口碑分析與檢視系統,其中該特徵集合包括該些詞組的前後詞、前後詞性標記(POS)、前後詞綴、詞的長度、以及同義詞。
  7. 如申請專利範圍第4項所述的面向口碑分析與檢視系統,其中該特徵函數是由該特徵集合與該些詞組的標記產生。
  8. 如申請專利範圍第4項所述的面向口碑分析與檢視系統,其中該標註模組訓練建立該標註模型是採用序列學習模型(Sequence Learning Based Approach),建立該標註模型。
  9. 如申請專利範圍第1項所述的面向口碑分析與檢視系統,其中該詞彙關聯模組使用該面向口碑連結分類器得到該面向口碑連結資訊,用以判斷該些面向詞彙與該些口碑詞彙之間的對應關係,並輸出該些面向口碑關聯資料,並將該些面向口碑關聯資料輸出儲存到一面向口碑知識資料庫。
  10. 如申請專利範圍第9項所述的面向口碑分析與檢視系統,其中該面向口碑連結分類器使用一自我學習方式(Bootstrap)擴充多個訓練語料,並利用該些訓練語料進行該面向口碑連結分類器的訓練。
  11. 如申請專利範圍第10項所述的面向口碑分析與檢視系統,其中該面向口碑連結分類器利用一種子連結關係資料庫取得該些面向口碑關聯對,並根據該些面向口碑關聯對經由一面向口碑查詢產生模組產生多個相關面向口碑查詢語句,根據該些相關面向口碑查詢語句產生多個訓練樣本,訓練該面向口碑連結分類器。
  12. 如申請專利範圍第11項所述的面向口碑分析與檢視系統,其中藉由透過一面向口碑標記文件資料庫取得多筆片段,與經由該面向口碑查詢產生模組產生的該些相關面向口碑查詢語句比對後取得該些訓練樣本。
  13. 如申請專利範圍第9項所述的面向口碑分析與檢視系統,其中該面向口碑連結分類器是採用一自我學習法(Bootstrap),從該詞彙擷取與分類模組所產生的該些面向詞彙與該些口碑詞彙,以及儲存在該面向口碑知識資料庫的該些面向口碑關聯資料訓練該面向口碑連結分類器。
  14. 如申請專利範圍第1項所述的面向口碑分析與檢視系統,更包括:一面向口碑檢視模組,用以根據一查詢取得對應該查詢的該些面向口碑關聯資料,並將取得之對應該查詢的該些面向口碑關聯資料依照一領域分類架構提供一多層次面向口碑資訊。
  15. 如申請專利範圍第14項所述的面向口碑分析與檢視系統,其中,該詞彙關聯模組使用一面向口碑連結分類器,用以判斷該些面向詞彙與該些口碑詞彙之間的對應關係,並產生該些面向口碑關聯資料,並將該些面向口碑關聯資料輸出儲存到一面向口碑知識資料庫,該面向口碑檢視模組根據該查詢對面向口碑知識資料庫進行搜尋而取得對應該查詢的該些面向口碑關聯資料。
  16. 如申請專利範圍第15項所述的面向口碑分析與檢視系統,其中該面向口碑檢視模組包括:一接收模組,用以接收該查詢;以及 一展示模組,用以分析該查詢並得到一查詢需求,並根據該查詢需求透過該面向口碑檢視模組進行搜尋以取得到對應該查詢需求的該些面向口碑關聯資料。
  17. 一種面向口碑檢視裝置,包括一處理裝置;以及一顯示裝置;其中,該處理裝置設定用以執行一詞彙擷取與分類流程、一詞彙關聯流程、以及一多層次面向口碑檢視流程,其中,該詞彙擷取與分類流程用以接收一使用者產生內容資料,並據以對該使用者產生內容資料進行一面向口碑詞彙擷取分類流程,並產生多個面向詞彙與多個口碑詞彙,該詞彙關聯流程用以取得該些口碑詞彙與該些面向詞彙,進行一面向口碑關聯處理流程,其中該面向口碑關聯處理流程用以判斷該些面向詞彙與該些口碑詞彙之間的對應關係,並輸出多個面向口碑關聯資料,其中,該面向口碑的關聯處理流程根據多個面向口碑關聯對進行判斷並取得一面向口碑連結資訊據以產生該些面向口碑關聯資料,其中該些面向口碑關聯對數量由一面向口碑連結分類器調整,該多層次面向口碑檢視流程用以根據一查詢取得對應該查詢的該些面向口碑關聯資料,並將取得之對應該查詢的該些面向口碑關聯資料依照一領域分類架構提供一多層次面向口碑資訊,並依照該領域分類架構在該顯示裝置上顯示該多層次面向口碑資訊。
  18. 如申請專利範圍第17項所述的面向口碑檢視裝置,其中該處理裝置更進一步設定用以執行一接收流程,用以接收該查詢後進行該多層次面向口碑檢視流程。
  19. 一種面向口碑檢視裝置,包括一處理裝置;一顯示裝置;以及一連接裝置, 其中,該處理裝置設定用以執行一多層次面向口碑檢視流程,其中該多層次面向口碑檢視流程根據一查詢取得對應該查詢的多個面向口碑關聯資料以及一領域分類架構資料,根據該領域分類架構資料在該顯示裝置上顯示一多層次面向口碑資訊,其中,該處理裝置根據該查詢透過該連接裝置對位於一網路終端的面向口碑知識資料庫與領域分類架構資料庫進行查詢與存取後得到該些面向口碑關聯資料以及該領域分類架構資料,而該些面向口碑關聯資料是經過對一使用者產生內容資料進行一面向口碑詞彙擷取分類流程,產生多個面向詞彙與多個口碑詞彙,並對該些面向詞彙與該些口碑詞彙進行一面向口碑關聯處理流程,以判斷該些面向詞彙與該些口碑詞彙之間的對應關係,並產生該些面向口碑關聯資料,其中,該面向口碑的關聯處理流程根據多個面向口碑關聯對進行判斷並取得一面向口碑連結資訊據以產生該些面向口碑關聯資料,其中該些面向口碑關聯對數量由一面向口碑連結分類器調整。
  20. 一種面向口碑分析與檢視方法,包括:使用一面向口碑檢視裝置,對一使用者產生內容資料進行一面向口碑詞彙擷取分類流程,並產生多個面向詞彙與多個口碑詞彙;以及使用該面向口碑檢視裝置,對該些面向詞彙與該些口碑詞彙進行一面向口碑關聯處理流程,用以判斷該些面向詞彙與該些口碑詞彙之間的對應關係,並輸出多個面向口碑關聯資料,其中,該面向口碑關聯處理流程根據多個面向口碑關聯對進行判斷並取得一面向口碑連結資訊據以產生該些面向口碑關聯資料,其中該些面向口碑關聯對數量由一面向口碑連結分類器調整。
  21. 如申請專利範圍第20項所述的面向口碑分析與檢視方法,更包括:對該使用者產生內容(UGC)資料進行斷詞、詞性標註得到一中文斷詞與詞性標記資料,並據以產生該些面向詞彙與該些口碑詞彙。
  22. 如申請專利範圍第20項所述的面向口碑分析與檢視方法,其中面向口碑詞彙擷取分類流程包括;從該使用者產生內容資料中擷取該些口碑詞彙進行極性分析,其中該口碑詞彙擷取分類模組是採用機率式聯合擷取與分類方式進行,該面向詞彙擷取分類模組從該使用者產生內容資料擷取該些面向詞彙並進行面向類別分析,其中該面向詞彙擷取分類模組採用機率式聯合擷取與分類方式進行。
  23. 如申請專利範圍第20項所述的面向口碑分析與檢視方法,其中該面向口碑詞彙擷取分類流程包括:對該使用者產生內容資料的多個詞組進行標記;根據一特徵集合對該些詞組進行特徵建構,以取得該些詞組對應的多個特徵;產生至少一特徵功能,其中該特徵功能是針對該特徵集合進行至少一或多個特徵函數的產生;根據該特徵函數或該些特徵函數的組合而進行標註模組訓練(Tagging Model Training),以建立一標註模型,用以根據該標註模型對該使用者產生內容資料進行擷取以得到該些面向詞彙與該些口碑詞彙。
  24. 如申請專利範圍第23項所述的面向口碑分析與檢視方法,其中對該使用者產生內容資料的該些詞組進行標記是根據一使用領域的多個標記定義對該些詞組加以標記。
  25. 如申請專利範圍第24項所述的面向口碑分析與檢視方法,其中該特徵集合包括該些詞組的前後詞、前後詞性標記(POS)、前後詞綴、詞的長度、以及同義詞。
  26. 如申請專利範圍第24項所述的面向口碑分析與檢視方法,其中該特徵函數是由該特徵集合與該些詞組的標記產生。
  27. 如申請專利範圍第24項所述的面向口碑分析與檢視方法,其中該標註模組訓練建立該標註模型是採用機率圖論之序列學習模型(Sequence Learning Based Approach),建立該標註模型。
  28. 如申請專利範圍第20項所述的面向口碑分析與檢視方法,其中該面向口碑關聯處理流程更包括使用一面向口碑連結分類器,用以判斷該些面向詞彙與該些口碑詞彙之間的對應關係,並產生該些面向口碑關聯資料,並將該些面向口碑關聯資料輸出儲存到一面向口碑知識資料庫。
  29. 如申請專利範圍第20項所述的面向口碑分析與檢視方法,其中藉由詞彙關聯模組使用一面向口碑連結分類器,利用該面向口碑連結分類器得到面向口碑連結資訊,用以判斷該些面向詞彙與該些口碑詞彙之間的對應關係,並輸出該些面向口碑關聯資料,並將該些面向口碑關聯資料輸出儲存到一面向口碑知識資料庫。
  30. 如申請專利範圍第29項所述的面向口碑分析與檢視方法,其中該面向口碑連結分類器使用一自我學習方式(Bootstrap)擴充多個訓練語料,並利用該些訓練語料進行該面向口碑連結分類器的訓練。
  31. 如申請專利範圍第30項所述的面向口碑分析與檢視方法,其中該面向口碑連結分類器利用一種子連結關係資料庫取得該些面向口碑關聯對,並根據該些面向口碑關聯對經由一面向口碑查詢產生模組產生多個相關面向口碑查詢語句,根據該些相關面向口碑查詢語句產生多個訓練樣本,訓練該面向口碑連結分類器。
  32. 如申請專利範圍第31項所述的面向口碑分析與檢視方法,其中藉由透過一面向口碑標記文件資料庫取得多筆片段,與經由該面向口碑查詢產生模組產生的該些相關面向口碑查詢語句比對後取得該些訓練樣本。
  33. 如申請專利範圍第20項所述的面向口碑分析與檢視方法,更包括執行一面向口碑檢視流程,根據一查詢取得對應該查詢的該些面向口碑關聯資料,並將取得對應該查詢的該些面向口碑關聯資料依照一領域分類架構提供一多層次面向口碑資訊。
  34. 如申請專利範圍第33項所述的面向口碑分析與檢視方法, 其中該面向口碑檢視流程包括:接收該查詢;分析該查詢並得到一查詢需求,根據該查詢需求進行搜尋以取得到對應該查詢需求的該些面向口碑關聯資料。
TW103117177A 2014-05-15 2014-05-15 面向口碑分析與檢視系統、裝置及方法 TWI553573B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW103117177A TWI553573B (zh) 2014-05-15 2014-05-15 面向口碑分析與檢視系統、裝置及方法
CN201410211001.0A CN105095302B (zh) 2014-05-15 2014-05-19 面向口碑分析与检视系统、装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW103117177A TWI553573B (zh) 2014-05-15 2014-05-15 面向口碑分析與檢視系統、裝置及方法

Publications (2)

Publication Number Publication Date
TW201543393A TW201543393A (zh) 2015-11-16
TWI553573B true TWI553573B (zh) 2016-10-11

Family

ID=54575752

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103117177A TWI553573B (zh) 2014-05-15 2014-05-15 面向口碑分析與檢視系統、裝置及方法

Country Status (2)

Country Link
CN (1) CN105095302B (zh)
TW (1) TWI553573B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI818999B (zh) * 2018-08-03 2023-10-21 開曼群島商創新先進技術有限公司 針對新場景的預測模型訓練方法及裝置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255803B (zh) * 2016-12-29 2022-03-01 北京国双科技有限公司 文档情感的判断方法和装置
WO2018205178A1 (zh) * 2017-05-10 2018-11-15 曹修源 文字探勘衡量系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
US20090193328A1 (en) * 2008-01-25 2009-07-30 George Reis Aspect-Based Sentiment Summarization
US20110252036A1 (en) * 2007-08-23 2011-10-13 Neylon Tyler J Domain-Specific Sentiment Classification
TW201137632A (en) * 2010-04-22 2011-11-01 Univ Nat Taiwan Document analyzing system and document analyzing method thereof in reader and writer emotion analysis
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
JP4622589B2 (ja) * 2005-03-08 2011-02-02 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其系统
CN102054015B (zh) * 2009-10-28 2014-05-07 财团法人工业技术研究院 使用有机物件数据模型来组织社群智能信息的系统及方法
TWI480742B (zh) * 2011-03-18 2015-04-11 Ind Tech Res Inst 基於動態語言模型之推薦方法與推薦系統
CN103049435B (zh) * 2013-01-04 2015-10-14 浙江工商大学 文本细粒度情感分析方法及装置
CN103631961B (zh) * 2013-12-17 2017-01-18 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
US20110252036A1 (en) * 2007-08-23 2011-10-13 Neylon Tyler J Domain-Specific Sentiment Classification
US20090193328A1 (en) * 2008-01-25 2009-07-30 George Reis Aspect-Based Sentiment Summarization
TW201137632A (en) * 2010-04-22 2011-11-01 Univ Nat Taiwan Document analyzing system and document analyzing method thereof in reader and writer emotion analysis
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI818999B (zh) * 2018-08-03 2023-10-21 開曼群島商創新先進技術有限公司 針對新場景的預測模型訓練方法及裝置

Also Published As

Publication number Publication date
CN105095302B (zh) 2019-05-17
CN105095302A (zh) 2015-11-25
TW201543393A (zh) 2015-11-16

Similar Documents

Publication Publication Date Title
US10832008B2 (en) Computerized system and method for automatically transforming and providing domain specific chatbot responses
US11500917B2 (en) Providing a summary of a multimedia document in a session
CN109408622B (zh) 语句处理方法及其装置、设备和存储介质
US20210168098A1 (en) Providing local service information in automated chatting
CN114072832A (zh) 用于助理系统的基于记忆的对话推理和问答
US20200137001A1 (en) Generating responses in automated chatting
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
US11295071B2 (en) Graphical systems and methods for human-in-the-loop machine intelligence
WO2019071599A1 (en) PROVIDING AN ANSWER IN A SESSION
WO2019100319A1 (en) Providing a response in a session
US20220012296A1 (en) Systems and methods to automatically categorize social media posts and recommend social media posts
CN106462640B (zh) 对多媒体内容进行的场境搜索
US20160180247A1 (en) Latency-Efficient Multi-Stage Tagging Mechanism
CN103853824A (zh) 一种基于深度语义挖掘的内文广告发布方法与系统
Wang et al. A hybrid model of sentimental entity recognition on mobile social media
Arumugam et al. Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications
Park et al. Systematic review on chatbot techniques and applications
Ahmad et al. Review on sentiment analysis of Indian languages with a special focus on code mixed Indian languages
Nasim et al. ABSA toolkit: An open source tool for aspect based sentiment analysis
TWI553573B (zh) 面向口碑分析與檢視系統、裝置及方法
Ibrohim et al. Sentiment analysis for the natural environment: A systematic review
CN113392195A (zh) 舆情监测方法及装置、电子设备及存储介质
Li et al. Mining implicit intention using attention-based rnn encoder-decoder model
Abdulwahab Deep Learning Models for Paraphrases Identification
Li et al. Twitter sentiment analysis of the 2016 US Presidential Election using an emoji training heuristic