TWI592812B - 文章之意見單元識別方法,及其相關裝置與電腦程式產品 - Google Patents
文章之意見單元識別方法,及其相關裝置與電腦程式產品 Download PDFInfo
- Publication number
- TWI592812B TWI592812B TW102118213A TW102118213A TWI592812B TW I592812 B TWI592812 B TW I592812B TW 102118213 A TW102118213 A TW 102118213A TW 102118213 A TW102118213 A TW 102118213A TW I592812 B TWI592812 B TW I592812B
- Authority
- TW
- Taiwan
- Prior art keywords
- opinion
- article
- unit
- word
- sentence
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000011156 evaluation Methods 0.000 claims description 79
- 238000012549 training Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 description 14
- 101100297738 Danio rerio plekho1a gene Proteins 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本發明係有關於一種文章之意見單元識別方法及其相關裝置,且特別有關於一種可以判定網路文章所擷取出之意見單元是否為正確組合之方法及其相關裝置。
近年來,隨著各式各樣具有網路連接能力之電子裝置,如電腦、筆記型電腦、平板電腦、及智慧型手機的問市,使用者可以隨時隨地的利用電子裝置來連接網路,以瀏覽網際網路,且透過網路進行相關應用與服務。由於網路及這些裝置及其功能所帶來的便利,也使得這些裝置成為現代人的必備品之一,並隨時隨地的在生活中頻繁使用這些功能。
同時,隨著網際網路的發展,網路經營者積極地開發各式各樣的網路應用給使用者使用。舉例來說,使用者可以透過電子佈告欄系統(BBS)來瀏覽文章與發表評論。使用者也可以透過特定網站或是自行架設網頁來發表文章。目前,網際網路上正盛行的是部落格(Blog)的應用。每一個使用者可以建立自己的部落格,在自己在部落格中發表文章。
情感分析,又稱為意見探勘(Opinion Mining),是指透過分析具有主觀情感或具有正負情感傾向的主觀性文章,尋找其中的觀點或評價資訊,以更直觀和簡潔的形式呈現。在任一種類型的中文網路社群文章,如部落格文章內容中,文章通常會有一至多個在描述或談論的物件,此物件包含但不限於人物、事件、時間、地點、物品…等,如果文章作者對於物件本身在文章中寫出對於物件本身的意見或評價性評論描述文字,此段文字即認定為主觀性意見評論。在評價語句中,意見詞與其所修飾的評價對象之間的配對,是為一評價語句的正負面情感傾向的評判關鍵,意見詞
的正負面情感傾向不僅取決於意見詞本身,也取決於意見詞所評價的對象,例如:「價錢很高」、「螢幕的解析度很高」,這兩句話中的「高」所表現出來的正負面情感不同,因此,正確抽取意見詞與其修飾的評價對象組合,為情感分析中重要的工作。
一般來說,情緒分析領域的相關技術之目的皆是期望能瞭解文章作者在文章中的意見或評價等。習知地,在意見單元的識別部分,Kobayashi et al.(2007)可以透過將語句中的字詞逐一與詞庫比對,以抽取意見單元定義的各元素。Kobayashi et al.(2007)的比對效率係非常差的。Hu & Liu(2004)使用WordNet做為其詞庫來源,對評論語句的字詞加以標注,並針對詞頻、詞性及相似詞集合等進行分析,以找出與意見相關的組合,做為產品意見傾向推論之用。然而,各領域通用的詞庫係非常難以建立的,且意見單元的準確率也可能會受到詞庫侷限。其中,Hu & Liu(2004)取得語句中的各個字詞的詞性後,在個別抽取特定詞性,作為意見單元的各個元素。Hu & Liu(2004)的方法雖然通用性高,但由於僅討論字詞的詞性,忽略了字詞本身的意義,在識別評價對象或意見詞時,可能發生識別錯誤,進而導致意見單元的準確率不佳。再者,趙妍妍等人(2011)透過自動化抽取句法樹中評價對象與意見詞的路徑,作為其中一組句法路徑,接著透過統計句法路徑出現的次數,建立句法路徑模式庫,透過句法路徑對語句的句法樹進行模式比對,從中抽取出意見單元。該方法在英文語料的實驗結果,意見單元抽取的準確率達到85%,但由於該方法忽略了語句中字詞本身的資訊及語句的結構資訊,使得該方法應用於長句較多且結構複雜的中文語料,對於錯誤的意見單元組合的識別能力不足。
由於趙妍妍等人(2011)基於句法路徑的意見單元抽取方法忽略了字詞本身的意義,若面對長句較多且結構複雜的中文語句,因為評價對象與意見詞的數目較多,若有一評價語句中含有m個評價對象、n個意見詞,則會產生m * n條意見單元。透過句法路徑能夠將這些意見單元都識別出來,然而,在這m * n條意見單元組合中,並非所有組合都是正確的評價對象與意見詞搭配。舉例來說,「iPhone 5不僅螢幕的畫質細膩且色彩準確」。其中,這句話包含兩個評價對象「畫質」及「色彩」,與兩個意見詞「細膩」及「準確」。透過排列組合可以產生以下4個意見單元搭配:
(畫質,細膩)、(色彩,準確)、(畫質,準確)、(色彩,細膩),而在這4種意見單元搭配中,只有(畫質,細膩)與(色彩,準確),這兩個搭配是為正確的意見單元。
此外,因為中文「一字多義」、「一詞多義」的現象,導致有些意見詞,雖然存在於意見詞典,但這些字詞可能在某一語句中出現時,不作為意見詞的意義使用。這些字詞在此情況發生時,不能與評價對象搭配以構成意見單元。然而,在自動構建句法路徑模式時,這些字詞也會被標示成意見詞並與評價對象搭配,從而產生了錯誤的意見單元。舉例來說,「爸爸說好要買一隻智慧型手機給我」。這句話中的「好」,就不作為意見詞的意義使用,不應與評價對象的「智慧型手機」搭配。
有鑑於此,本發明提供文章之意見單元識別方法及其相關裝置,其中,電子裝置可以判定網路文章所擷取出之意見單元是否為正確組合。
本發明實施例之一種文章之意見單元識別方法。首先,取得一文章語句。依據字詞之詞性特性取得文章語句中之至少一評價對象及至少一意見詞,並將評價對象及意見詞組合成一意見單元。接著,將文章語句轉換為一句法樹,並依據句法樹取得相應之一句法路徑。之後,依據文章語句之語句結構及句法路徑產生複數特徵之特徵值,且將特徵值輸入一意見單元識別模型,從而得到相應之一識別結果。其中,識別結果表示意見單元是否為一正確組合。
本發明實施例之一種文章之意見單元識別裝置至少包括一儲存單元、與一處理單元。儲存單元具有一文章語句、與一意見單元識別模型。處理單元依據字詞之詞性特性取得文章語句中之至少一評價對象及至少一意見詞,並將評價對象及意見詞組合成一意見單元。處理單元將文章語句轉換為一句法樹,並依據句法樹取得相應之一句法路徑。之後,處理單元依據文章語句之語句結構及句法路徑產生複數特徵之特徵值,且將特徵值輸入一意見單元識別模型,從而得到相應之一識別結果。其中,識別結果表示意見單元是否為一正確組合。
在一些實施例中,文章語句中詞性為名詞的字被識別為評價對象,且詞性為不及物動詞的字被識別為意見詞。
在一些實施例中,特徵包括文章語句之長度、評價對象與意見詞於文章語句中之距離、文章語句中評價對象之前一個詞的詞性、文章語句中評價對象之後一個詞的詞性、句法路徑中意見詞位於評價對象之前或之後、句法路徑中子節點指向父節點的方向數目、句法路徑中父節點指向子節點的方向數目、與/或句法路徑中所有節點的數目。
在一些實施例中,意見單元識別模型係依據複數訓練語句產生。其中,每一訓練語句被剖析以取得訓練語句中之至少一評價對象及至少一意見詞,並將評價對象及意見詞組合成一意見單元。此外,將訓練語句轉換為一句法樹,並依據句法樹取得相應意見單元之一句法路徑。依據訓練語句之一語句結構及句法路徑產生複數特徵之特徵值,且接收相意此意見單元之一識別結果,並將相應訓練語句之特徵值及識別結果輸入一類神經網路,以訓練類神經網路從而產生意見單元識別模型。
在一些實施例中,識別結果用以表示意見單元為一正確組合、或表示意見單元為一錯誤組合。
本發明實施例之一種文章之意見單元識別方法,用以產生一意見單元識別模型。首先,取得複數文章語句。依據字詞之詞性特性取得每一文章語句中之至少一評價對象及至少一意見詞,並將評價對象及意見詞組合成一意見單元。接著,將每一文章語句轉換為一句法樹,並依據句法樹取得相應意見單元之一句法路徑。之後,依據每一文章語句之一語句結構及句法路徑產生複數特徵之特徵值。接著,接收相應每一意見單元之一識別結果,其中識別結果表示意見單元係一正確組合或一錯誤組合。將特徵值及識別結果輸入一類神經網路,從而進行相應意見單元識別模型之訓練作業。
本發明之文章之意見單元識別方法及其相關裝置可以對於網路文章之意見單元進行識別,從而增加文章中擷取之意見單元的正確性。
本發明上述方法可以透過程式碼方式存在。當程式碼被機器載入且執行時,機器變成用以實行本發明之裝置。
為使本發明之上述目的、特徵和優點能更明顯易懂,下文
特舉實施例,並配合所附圖示,詳細說明如下。
100‧‧‧文章之意見單元識別裝置
110‧‧‧儲存單元
111‧‧‧文章語句
112‧‧‧意見單元識別模型
120‧‧‧處理單元
F1、F2、F3‧‧‧特徵值
R‧‧‧識別結果
S310、S320、…、S370‧‧‧步驟
S410、S420、…、S460‧‧‧步驟
第1圖為一示意圖係顯示依據本發明實施例之文章之意見單元識別裝置。
第2圖為一示意圖係顯示依據本發明實施例之意見單元識別模型。
第3圖為一流程圖係顯示依據本發明實施例之意見單元識別模型訓練方法。
第4圖為一流程圖係顯示依據本發明實施例之文章之意見單元識別方法。
第1圖顯示依據本發明實施例之文章之意見單元識別裝置。如第1圖所示,依據本發明實施例之文章之意見單元識別裝置100可以適用於一電子裝置,如電腦。文章之意見單元識別裝置100可以至少包括一儲存單元110與一處理單元120。
儲存單元110可以包括至少一文章語句111、與一意見單元識別模型112。值得注意的是,在一些實施例中,文章之意見單元識別裝置100可以更包括一網路連接單元(第1圖未顯示),用以連接至一網路,如有線網路、電信網路、與無線網路等。藉由網路連接單元,文章之意見單元識別裝置100可以具有一網路接取能力,以連接至網路以取得一網路文章。在一些實施例中,文章語句111可以係網路文章中之一語句。相關於文章語句與/或文章語句中意見單元之特徵進行正規化之特徵值(F1、F2、F3)可以輸入至意見單元識別模型112,從而產生相應意見單元之識別結果R,如第2圖所示。其中,意見單元識別模型112可以係由相關訓練資料所訓練出,用以識別意見單元是否為正確組合之模型,相應意見單元識別模型112之訓練將於後進行說明。處理單元120係用以執行依據本案之文章之意見單元識別方法,其細節將於後進行說明。
第3圖顯示依據本發明實施例之意見單元識別模型訓練方
法。
首先,如步驟S310,取得複數文章語句。值得注意的是,在一些實施例中,可以以網路爬蟲方式自動取得符合相關領域及關鍵字的文章內容,並將其儲存於資料庫中。在一些實施例中,文章語句可以係文章內容中之一語句。以「智慧型手機」類型產品為例,透過網路爬蟲於無名小站、痞客邦、天空部落等部落格及Mobile01論壇,自動擷取符合「智慧型手機」類型產品相關關鍵字的評論文章250篇。其中,250篇相關「智慧型手機」之文章中可以取得462條同時含有評價對象與意見詞的評價文章語句。值得注意的是,在一些實施例中,單一語句的評價對象與意見詞的數量不限。如步驟S320,依據字詞之詞性特性取得每一文章語句中之至少一評價對象及至少一意見詞。值得注意的是,在一些實施例中,文章語句中詞性為名詞的字可以被識別為評價對象,且詞性為不及物動詞的字可以被識別為意見詞。接著,如步驟S330,將由文章語句中識別得到之至少一評價對象及至少一意見詞組合為至少一意見單元。之候,如步驟S340,將每一文章語句轉換為一句法樹,並依據句法樹取得相應意見單元之一句法路徑。值得注意的是,在一些實施例中,文章語句與句法樹間之轉換可以使用中央研究院CKIP中文剖析系統進行。其中,CKIP中文剖析系統可以將文章語句轉換成句法樹的格式,並自動化解析此語句的句法樹,以取得評價對象與意見詞節點之間(意見單元)的有向路徑作為此文章語句的一條句法路徑。舉例來說,當文章語句係「質感看起來真的超優」時,CKIP中文剖析系統產生之句法樹係:S(theme:NP(Head:Nad:質感)|time:Dbc:看起來|evaluation:Dbb:真的|Head:VJ1:超|complement:VH11:優),且相應意見單元之句法路徑係:質感↑Nad↑NP↑S↓VH11↓優。如步驟S350,依據每一文章語句之一語句結構及句法路徑產生相應複數特徵之特徵值。值得注意的是,在一些實施例中,前述相應語句結構之特徵可以包括文章語句之長度,其中相應特徵正規化後之特徵值可以係大於0。在一些實施例中,前述相應語句結構之特徵可以包括評價對象與意見詞於文章語句中之距離,其中相應特徵正規化後之特徵值可以係大於0。在一些實施例中,前述相應語句結構之特徵可以包括文章語句中評價對象之前一個詞的詞性,其中相應特徵正規化後之特徵值可以係大於等於0。在一些實施例中,前述相應語句結構之
特徵可以包括文章語句中評價對象之後一個詞的詞性,其中相應特徵正規化後之特徵值可以係大於等於0。在一些實施例中,前述相應句法路徑之特徵可以包括句法路徑中意見詞位於評價對象之前或之後,其中相應特徵正規化後之特徵值可以係1或0。在一些實施例中,前述相應句法路徑之特徵可以包括句法路徑中子節點指向父節點的方向數目,其中相應特徵正規化後之特徵值可以係大於0。在一些實施例中,前述相應句法路徑之特徵可以包括句法路徑中父節點指向子節點的方向數目,其中相應特徵正規化後之特徵值可以係大於0。在一些實施例中,前述相應句法路徑之特徵可以包括句法路徑中所有節點的數目,其中相應特徵正規化後之特徵值可以係大於0。必須說明的是,前述特徵及其特徵值皆為本案之例子,本案並不限定於此。任何足以依據語句結構及句法路徑產生之特徵皆可應用至本案中。如步驟S360,接收相應每一意見單元之一識別結果,其中識別結果表示意見單元係一正確組合或一錯誤組合。提醒的是,由於每一文章語句均含有一至多條評價對象與意見詞的組合,在前述例子中可以從462條評價文章語句中自動化抽取出1,128條意見單元的句法路徑。其中,這當中包含了正確及錯誤的意見單元搭配,因此前述訓練方法中可以接收相應正確及錯誤的意見單元搭配。在此例子中,462條評價文章語句中可以隨機抽取100條評價語句,其中共包含289條意見單元搭配,同時,透過自動化解析句法樹,共取得289條句法路徑。此例子中將其作為測試資料,並使用另外362條評價語句包含的839條意見單元(句法路徑)作為訓練資料。之後,如步驟S370,將特徵值及識別結果輸入一類神經網路,從而進行相應意見單元識別模型之訓練作業。值得注意的是,在一些實施例中,前述類神經網路可以係一監督式學習網路的倒傳遞類神經網路演算法。在一些實施例中,此倒傳遞類神經網路的輸入可以係相應前述特徵之特徵值,且其資料類型為離散。而此倒傳遞類神經網路的輸出可以係前述識別結果{0,1}。此外,此類神經網路所使用之其他參數可以包括隱藏層數目:1、隱藏層神經元數目:11、轉換函數:Sigmoid函數、及效能函數(Performance function):均方差(Means Squared Error,MSE)。
第4圖顯示依據本發明實施例之文章之意見單元識別方法。依據本發明實施例之文章之意見單元識別方法適用於一電子裝置,如電腦。
首先,如步驟S410,取得一文章語句。值得注意的是,在一些實施例中,可以以網路爬蟲方式自動取得符合相關領域及關鍵字之一網路文章,接著,將文章進行語句層級的斷句,以取得文章語句。如步驟S420,依據字詞之詞性特性取得文章語句中之至少一評價對象及至少一意見詞。類似地,在一些實施例中,文章語句中詞性為名詞的字可以被識別為評價對象,且詞性為不及物動詞的字可以被識別為意見詞。接著,如步驟S430,將由文章語句中識別得到之至少一評價對象及至少一意見詞組合為至少一意見單元。之候,如步驟S440,將每一文章語句轉換為一句法樹,並依據句法樹取得相應意見單元之一句法路徑。類似地,在一些實施例中,文章語句與句法樹間之轉換可以使用中央研究院CKIP中文剖析系統進行。其中,CKIP中文剖析系統可以將文章語句轉換成句法樹的格式,並自動化解析此語句的句法樹,以取得評價對象與意見詞節點之間(意見單元)的有向路徑作為此文章語句的一條句法路徑。如步驟S450,依據文章語句之一語句結構及句法路徑產生相應複數特徵之特徵值。類似地,在一些實施例中,前述相應語句結構之特徵可以包括文章語句之長度,其中相應特徵正規化後之特徵值可以係大於0。在一些實施例中,前述相應語句結構之特徵可以包括評價對象與意見詞於文章語句中之距離,其中相應特徵正規化後之特徵值可以係大於0。在一些實施例中,前述相應語句結構之特徵可以包括文章語句中評價對象之前一個詞的詞性,其中相應特徵正規化後之特徵值可以係大於等於0。在一些實施例中,前述相應語句結構之特徵可以包括文章語句中評價對象之後一個詞的詞性,其中相應特徵正規化後之特徵值可以係大於等於0。在一些實施例中,前述相應句法路徑之特徵可以包括句法路徑中意見詞位於評價對象之前或之後,其中相應特徵正規化後之特徵值可以係1或0。在一些實施例中,前述相應句法路徑之特徵可以包括句法路徑中子節點指向父節點的方向數目,其中相應特徵正規化後之特徵值可以係大於0。在一些實施例中,前述相應句法路徑之特徵可以包括句法路徑中父節點指向子節點的方向數目,其中相應特徵正規化後之特徵值可以係大於0。在一些實施例中,前述相應句法路徑之特徵可以包括句法路徑中所有節點的數目,其中相應特徵正規化後之特徵值可以係大於0。相同地,前述特徵及其特徵值皆為本案之例子,本案並不限定於此。任何足以依據語句結
構及句法路徑產生之特徵皆可應用至本案中。如步驟S460,將特徵值輸入一意見單元識別模型,從而得到相應意見單元之一識別結果。提醒的是,識別結果可以表示此意見單元是否為一正確組合或一錯誤組合。提醒的是,意見單元識別模型可以依據第3圖之方法進行訓練,在此不再贅述。
在本案中,文章中語句經過字詞的詞性特性分析,自動化抽取文章中語句的評價對象與意見詞,從而組成意見單元,並解析此文章語句的句法樹中此意見單元的組成路徑,接著透過自動化方式將此語句的語句結構及句法結構轉換成相關特徵值。最後,將特徵值輸入本案建立的意見單元識別模型,便可自動識別出此意見單元是否為正確的意見單元,亦即判斷評價對象與意見詞的搭配是否正確。舉例來說,透過字詞的詞性特性,「iPhone不僅畫質細膩且色彩準確」可以抽取出名詞與不及物動詞間的搭配作為可能的意見單元搭配。本例句包含6種意見單元可能的搭配:(iPhone,細膩)、((iPhone,準確)、(畫質,細膩)、(畫質,準確)、(色彩,細膩)、(色彩,準確)。以(畫質,細膩)的意見單元搭配為例,透過自動化方式產生如前述的特徵值,並將這些特徵值輸入本案的意見單元識別模型,即可產生識別結果R為1,代表(畫質,細膩)的評價對象與意見詞搭配,在本例句中為正確組成意見單元的搭配。
因此,透過本案之文章之意見單元識別方法及其相關裝置可以對於網路文章之意見單元進行識別,從而增加文章中擷取之意見單元的正確性,並減少電子裝置因應相關處理之系統資源浪費。
本發明之方法,或特定型態或其部份,可以以程式碼的型態存在。程式碼可以包含於實體媒體,如軟碟、光碟片、硬碟、或是任何其他機器可讀取(如電腦可讀取)儲存媒體,亦或不限於外在形式之電腦程式產品,其中,當程式碼被機器,如電腦載入且執行時,此機器變成用以參與本發明之裝置。程式碼也可以透過一些傳送媒體,如電線或電纜、光纖、或是任何傳輸型態進行傳送,其中,當程式碼被機器,如電腦接收、載入且執行時,此機器變成用以參與本發明之裝置。當在一般用途處理單元實作時,程式碼結合處理單元提供一操作類似於應用特定邏輯電路之獨特裝置。
雖然本發明已以較佳實施例揭露如上,然其並非用以限定
本發明,任何熟悉此項技藝者,在不脫離本發明之精神和範圍內,當可做些許更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
S410、S420、…、S460‧‧‧步驟
Claims (10)
- 一種文章之意見單元識別方法,適用於一電子裝置,包括下列步驟:取得一文章語句;依據字詞之詞性特性取得該文章語句中之至少一第一評價對象及至少一第一意見詞,並將該第一評價對象及該第一意見詞組合成一第一意見單元;將該文章語句轉換為一第一句法樹,並依據該第一句法樹取得相應該第一意見單元之一第一句法路徑;依據該文章語句之一第一語句結構及該第一句法路徑產生複數第一特徵之第一特徵值;將該等第一特徵值輸入一意見單元識別模型,從而得到相應該第一意見單元之一第一識別結果,其中該第一識別結果表示該第一意見單元是否為一正確組合,其中該意見單元識別模型係依據複數訓練語句產生,其中每一該等訓練語句被剖析以取得該訓練語句中之至少一第二評價對象及至少一第二意見詞,並將該第二評價對象及該第二意見詞組合成一第二意見單元,將該訓練語句轉換為一第二句法樹,並依據該第二句法樹取得相應該第二意見單元之一第二句法路徑,依據該訓練語句之一第二語句結構及該第二句法路徑產生複數第二特徵之第二特徵值,接收相應該第二意見單元之一第二識別結果,且將相應該訓練語句之該等第二特徵值及該第二識別結果輸入一類神經網路,以訓練該類神經網路從而產生該意見單元識別模型。
- 根據申請專利範圍第1項之文章之意見單元識別方法,其中該文章語句中詞性為名詞的字被識別為該第一評價對象,且詞性為不及物動詞的字被識別為該第一意見詞。
- 根據申請專利範圍第1項之文章之意見單元識別方法,其中該等第一特徵包括該文章語句之長度、該第一評價對象與該第一意見詞於該文章語句中之距離、該文章語句中該第一評價對象之前一個詞的詞性、該文章語句中該第一評價對象之後一個詞的詞性、該第一句法路徑中該第一意見詞位於該第一評價對象之前或之後、該第一句法路徑中子節點指向父節點的方向數目、該第一句法路徑中父節點指向子節點的方向數目、或該第一句法路徑中所有節點的數目。
- 根據申請專利範圍第1項之文章之意見單元識別方法,其中該第二識別結果表示該第二意見單元為一正確組合、或表示該第二意見單元為一錯誤組合。
- 一種文章之意見單元識別裝置,至少包括:一儲存單元,包括一文章語句、與一意見單元識別模型;以及一處理單元,用以依據字詞之詞性特性取得該文章語句中之至少一第一評價對象及至少一第一意見詞,並將該第一評價對象及該第一意見詞組合成一第一意見單元,將該文章語句轉換為一第一句法樹,並依據該第一句法樹取得相應該第一意見單元之一第一句法路徑,依據該文章語句之一第一語句結構及該第一句法路徑產生複數第一特徵之第 一特徵值,將該等第一特徵值輸入該意見單元識別模型,從而得到相應該第一意見單元之一第一識別結果,其中該第一識別結果表示該第一意見單元是否為一正確組合,其中該意見單元識別模型係依據複數訓練語句產生,其中每一該等訓練語句被剖析以取得該訓練語句中之至少一第二評價對象及至少一第二意見詞,並將該第二評價對象及該第二意見詞組合成一第二意見單元,將該訓練語句轉換為一第二句法樹,並依據該第二句法樹取得相應該第二意見單元之一第二句法路徑,依據該訓練語句之一第二語句結構及該第二句法路徑產生複數第二特徵之第二特徵值,接收相應該第二意見單元之一第二識別結果,且將相應該訓練語句之該等第二特徵值及該第二識別結果輸入一類神經網路,以訓練該類神經網路從而產生該意見單元識別模型。
- 根據申請專利範圍第5項之文章之意見單元識別裝置,其中該處理單元將該文章語句中詞性為名詞的字識別為該第一評價對象,且將詞性為不及物動詞的字識別為該第一意見詞。
- 根據申請專利範圍第5項之文章之意見單元識別裝置,其中該等第一特徵包括該文章語句之長度、該第一評價對象與該第一意見詞於該文章語句中之距離、該文章語句中該第一評價對象之前一個詞的詞性、該文章語句中該第一評價對象之後一個詞的詞性、該第一句法路徑中該第一意見詞位於該第一評價對象之前或之後、該第一句法路徑中子 節點指向父節點的方向數目、該第一句法路徑中父節點指向子節點的方向數目、或該第一句法路徑中所有節點的數目。
- 根據申請專利範圍第5項之文章之意見單元識別裝置,其中該第二識別結果表示該第二意見單元為一正確組合、或表示該第二意見單元為一錯誤組合。
- 一種文章之意見單元識別方法,適用於一電子裝置,用以產生一意見單元識別模型,其中該方法包括下列步驟:取得複數文章語句;依據字詞之詞性特性取得每一該等文章語句中之至少一評價對象及至少一意見詞,並將該評價對象及該意見詞組合成一意見單元;將每一該等文章語句轉換為一句法樹,並依據該句法樹取得相應該意見單元之一句法路徑;依據每一該等文章語句之一語句結構及該句法路徑產生複數特徵之特徵值;接收相應每一該意見單元之一識別結果,其中該識別結果表示該意見單元係一正確組合或一錯誤組合;將該等特徵值及該識別結果輸入一類神經網路,從而進行相應該意見單元識別模型之訓練作業。
- 一種電腦程式產品,用以被一機器載入且執行一文章之意見單元識別方法,用以產生一意見單元識別模型,該電腦程式產品包括: 一第一程式碼,用以依據字詞之詞性特性取得複數文章語句中之每一者中之至少一評價對象及至少一意見詞,並將該評價對象及該意見詞組合成一意見單元;一第二程式碼,用以將每一該等文章語句轉換為一句法樹,並依據該句法樹取得相應該意見單元之一句法路徑;一第三程式碼,用以依據每一該等文章語句之一語句結構及該句法路徑產生複數特徵之特徵值;一第四程式碼,用以接收相應每一該意見單元之一識別結果,其中該識別結果表示該意見單元係一正確組合或一錯誤組合;以及一第五程式碼,用以將該等特徵值及該識別結果輸入一類神經網路,從而進行相應該意見單元識別模型之訓練作業。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW102118213A TWI592812B (zh) | 2013-05-23 | 2013-05-23 | 文章之意見單元識別方法,及其相關裝置與電腦程式產品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW102118213A TWI592812B (zh) | 2013-05-23 | 2013-05-23 | 文章之意見單元識別方法,及其相關裝置與電腦程式產品 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201445334A TW201445334A (zh) | 2014-12-01 |
TWI592812B true TWI592812B (zh) | 2017-07-21 |
Family
ID=52707056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW102118213A TWI592812B (zh) | 2013-05-23 | 2013-05-23 | 文章之意見單元識別方法,及其相關裝置與電腦程式產品 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI592812B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI716824B (zh) * | 2018-05-31 | 2021-01-21 | 開曼群島商創新先進技術有限公司 | 一種智慧寫作方法和裝置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738056B (zh) * | 2018-07-03 | 2023-12-19 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
-
2013
- 2013-05-23 TW TW102118213A patent/TWI592812B/zh not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI716824B (zh) * | 2018-05-31 | 2021-01-21 | 開曼群島商創新先進技術有限公司 | 一種智慧寫作方法和裝置 |
Also Published As
Publication number | Publication date |
---|---|
TW201445334A (zh) | 2014-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gehrmann et al. | Repairing the cracked foundation: A survey of obstacles in evaluation practices for generated text | |
Aisopos et al. | Content vs. context for sentiment analysis: a comparative analysis over microblogs | |
US8452772B1 (en) | Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere | |
Aisopos et al. | Sentiment analysis of social media content using n-gram graphs | |
Castellanos et al. | LCI: a social channel analysis platform for live customer intelligence | |
US20160098645A1 (en) | High-precision limited supervision relationship extractor | |
Ofek et al. | Unsupervised commonsense knowledge enrichment for domain-specific sentiment analysis | |
Rodrigo-Ginés et al. | A systematic review on media bias detection: What is media bias, how it is expressed, and how to detect it | |
Li et al. | A joint model of conversational discourse and latent topics on microblogs | |
Cui et al. | A barrage sentiment analysis scheme based on expression and tone | |
Gangemi et al. | Identifying motifs for evaluating open knowledge extraction on the Web | |
Riesener et al. | Application of natural language processing for systematic requirement management in model‐based systems engineering | |
Kasmuri et al. | Subjectivity analysis in opinion mining—a systematic literature review | |
US10614100B2 (en) | Semantic merge of arguments | |
Bhargava et al. | Lithium nlp: A system for rich information extraction from noisy user generated text on social media | |
Bertaglia et al. | InstaSynth: Opportunities and Challenges in Generating Synthetic Instagram Data with ChatGPT for Sponsored Content Detection | |
TWI592812B (zh) | 文章之意見單元識別方法,及其相關裝置與電腦程式產品 | |
Cattle et al. | Effects of semantic relatedness between setups and punchlines in twitter hashtag games | |
CN117521813A (zh) | 基于知识图谱的剧本生成方法、装置、设备及芯片 | |
Asgari-Bidhendi et al. | PERLEX: A Bilingual Persian‐English Gold Dataset for Relation Extraction | |
Adriyendi | A rapid review of image captioning | |
Jiang et al. | Users’ comment mining for app software’s Quality-in-Use | |
Kang et al. | Semisupervised learning of author‐specific emotions in micro‐blogs | |
Reiter-Haas et al. | The Framing Loop: Do Users Repeatedly Read Similar Framed News Online? | |
Ploeger et al. | Extracting activist events from news articles using existing NLP tools and services |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |