TW202121398A - 基於類神經網路之語音或文字文件摘要系統及方法 - Google Patents

基於類神經網路之語音或文字文件摘要系統及方法 Download PDF

Info

Publication number
TW202121398A
TW202121398A TW108142553A TW108142553A TW202121398A TW 202121398 A TW202121398 A TW 202121398A TW 108142553 A TW108142553 A TW 108142553A TW 108142553 A TW108142553 A TW 108142553A TW 202121398 A TW202121398 A TW 202121398A
Authority
TW
Taiwan
Prior art keywords
sentence
neural network
document
vector representation
voice
Prior art date
Application number
TW108142553A
Other languages
English (en)
Other versions
TWI724644B (zh
Inventor
張國韋
陳保清
陸婉珍
劉慈恩
劉士弘
陳柏琳
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW108142553A priority Critical patent/TWI724644B/zh
Application granted granted Critical
Publication of TWI724644B publication Critical patent/TWI724644B/zh
Publication of TW202121398A publication Critical patent/TW202121398A/zh

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本發明揭露一種基於類神經網路之語音或文字文件摘要系統及方法。首先,由句子編碼器之第一類神經網路將語音或文字文件中不同長度的複數語句投影至相同的向量空間而得到固定長度的複數語句向量表示。接著,由文件編碼器之第二類神經網路讀入複數語句向量表示而構成語句向量表示序列,再於語句向量表示序列中加入聲學與音韻特徵而產生文件向量表示。然後,由解碼器之第三類神經網路讀入語句向量表示作為輸入,且對每一語句輸出相對應的重要性分數,再依據重要性分數對複數語句進行排序,以選取出分數較高的至少一個或前幾個語句來組合成摘要或摘要集成。

Description

基於類神經網路之語音或文字文件摘要系統及方法
本發明是關於一種語音或文字文件摘要技術,特別是指一種基於類神經網路之語音或文字文件摘要系統及方法。
隨著社群網路及線上文字客服的興起,伴隨巨量的訊息文件,如何有效地摘要出重要的語句內容,已成為一項重要課題與技術研發方向。
在一現有技術中,提出一種有效評估文章整體權重的方法及其系統,用以評估文章的整體權重。此方法包括:分析並將文章表示為複數個句矩陣,其中每一句矩陣由複數個詞向量組成;對每一句矩陣中的複數個詞向量依序地進行第一摺積運算至第N摺積運算,並於每次進行摺積運算後產生複數個映射特徵,其中N為大於或等於1的整數;從每次進行摺積運算後產生的複數個映射特徵中提取最大映射特徵,並將所有最大映射特徵組成輸出向量,其中每一輸出向量依序地對應於每一句矩陣;對複數個輸出向量進行特徵保留運算,以產生對應於文章的文向量;以及根據 文章的文向量評估文章的整體權重。
然而,此現有技術雖能計算文章的整體特徵,但目的是為了計算出文章的情緒、激烈程度等權重,而非求出語音或文字文件之摘要。
因此,如何提供一種新穎或創新之語音或文字文件之摘要技術,實已成為本領域技術人員之一大研究課題。
本發明提供一種新穎或創新之基於類神經網路之語音或文字文件摘要系統及方法,能同時適用於文字或語音文件,以利掌握文件中的重要資訊。
本發明中基於類神經網路之語音或文字文件摘要系統包括:一句子編碼器,係具有一第一類神經網路,以將語音或文字文件中不同長度的複數語句投影至相同的向量空間而得到固定長度的複數語句向量表示;一文件編碼器,係具有一第二類神經網路,以從句子編碼器中讀入語音或文字文件之複數語句向量表示而構成語句向量表示序列,再於語句向量表示序列中加入聲學與音韻特徵而產生用於提供語音或文字文件之重要資訊的文件向量表示;以及一解碼器,係具有一第三類神經網路,以從句子編碼器中讀入語音或文字文件之複數語句向量表示作為輸入,且對語音或文字文件之每一語句輸出相對應的重要性分數,再依據所輸出的重要性分數對語音或文字文件之複數語句進行排序,以選取出分數較高的至少一個或前幾個語句來組合成摘要或摘要集成。
本發明中基於類神經網路之語音或文字文件摘要方法包 括:由一句子編碼器之一第一類神經網路將語音或文字文件中不同長度的複數語句投影至相同的向量空間而得到固定長度的複數語句向量表示;由一文件編碼器之一第二類神經網路從句子編碼器中讀入語音或文字文件之複數語句向量表示而構成語句向量表示序列,再於語句向量表示序列中加入聲學與音韻特徵而產生用於提供語音或文字文件之重要資訊的文件向量表示;以及由一解碼器之一第三類神經網路從句子編碼器中讀入語音或文字文件之複數語句向量表示作為輸入,且對語音或文字文件之每一語句輸出相對應的重要性分數,再依據所輸出的重要性分數對語音或文字文件之複數語句進行排序,以選取出分數較高的至少一個或前幾個語句來組合成摘要或摘要集成。
為讓本發明之上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明。在以下描述內容中將部分闡述本發明之額外特徵及優點,且此等特徵及優點將部分自所述描述內容可得而知,或可藉由對本發明之實踐習得。本發明之特徵及優點借助於在申請專利範圍中特別指出的元件及組合來認識到並達到。應理解,前文一般描述與以下詳細描述兩者均僅為例示性及解釋性的,且不欲約束本發明所欲主張之範圍。
1‧‧‧基於類神經網路之語音或文字文件摘要系統
10‧‧‧句子編碼器
20‧‧‧文件編碼器
21‧‧‧聲學與音韻特徵
30‧‧‧解碼器
31‧‧‧加權閘道
a1至a4‧‧‧聲學與音韻特徵
g(.)‧‧‧前饋式類神經網路
h1至h4‧‧‧隱藏層輸出的表示
o1至o4‧‧‧隱藏層表示
S11至S12‧‧‧步驟
S21至S23‧‧‧步驟
s1至s4‧‧‧句子或口說句子
w1至w6‧‧‧詞向量
y1至y4‧‧‧是/否為摘要
第1圖為本發明中基於類神經網路之語音或文字文件摘要系統之架構示意圖;
第2圖為本發明中整合聲學與音韻特徵於階層式類神經網路架構內之方法;以及
第3圖為本發明中基於類神經網路之語音或文字文件摘要方法之流程示意圖。
以下藉由特定的具體實施形態說明本發明之實施方式,熟悉此技術之人士可由本說明書所揭示之內容了解本發明之其他優點與功效,亦可因而藉由其他不同的具體等同實施形態加以施行或應用。
為了幫助人們理解口說語音文件或瀏覽文字文件的內容,本發明研究如何有效結合使用詞彙以外的多重特徵(聲學與音韻特徵),以提供基於類神經網路之語音或文字文件摘要系統及方法。藉此,本發明能產生語音文件或文字文件之重要語句,並透過篩選文件中具指示性(Indicative)之內容分數,最終組成文件摘要以涵蓋相關文件的重要資訊。
本發明主要提出階層式類神經網路架構、指示性語句產生與篩選、語句向量表示擴增以及調整、自動摘要方法組成模型的訓練方式。同時,本發明可以使用詞彙以外的多重特徵(聲學與音韻特徵)來直接擴增語句向量表示,並結合深度學習之注意力機制來調整語句向量表示。
第1圖為本發明中基於類神經網路之語音或文字文件摘要系統1之架構示意圖。如圖所示,本發明中基於類神經網路之語音或文字文件摘要系統1可為階層式類神經網路架構,即採用二階段式編碼器結合一解碼器30之運算方式,且二階段式編碼器包括第一階段之句子編碼器 (Sentence Encoder)10與第二階段之文件編碼器(Document Encoder)20。在第1圖中,w1至w6為詞或詞向量(w為word之縮寫),y1至y4為是/否為摘要(y為yes之縮寫),且文件可為語音文件或文字文件。
句子編碼器10可具有一例如為摺積式類神經網路(Convolutional Neural Network;CNN)之第一類神經網路,可將語音或文字文件中不同長度的語句投影至向量空間而得到固定長度的語句向量表示(Representation)。此第一類神經網路(如摺積式類神經網路CNN)使用複數不同寬度(可自由設定)的摺積核(Kernel)作用在語音或文字文件之語句中接連出現的詞彙的向量表示以得到複數特徵圖(Feature Map),並對各個特徵圖沿著時序使用最大池化(Max-Pooling)以從特徵圖中的最大值取出合成的特徵。又,為了能找到更好的特徵,第一類神經網路(如摺積式類神經網路CNN)可使用多種寬度的摺積核,且每種寬度具有複數不同的摺積核,再將所得到的特徵串接在一起即形成語句向量表示。
文件編碼器20可具有一例如為遞迴式類神經網路(Recurrent Neural Networks;RNN)之第二類神經網路,可用反序方式從句子編碼器10中讀入語音或文字文件之語句向量表示以產生文件向量表示。
解碼器30可具有一例如為遞迴式類神經網路(RNN)之第三類神經網路,以依正序方式從句子編碼器10中讀入語音或文字文件之複數語句(如所有語句)的向量表示作為輸入,並將來自文件編碼器20之文件向量表示作為輸入(初始輸入),且對語音或文字文件之每一語句輸出相對應的重要性分數,再依據所輸出的重要性分數對語音或文字文件之複數語句(如所有語句)進行排序,以選取出分數較高的至少一個或前幾個語句來組 合成摘要或摘要集成。
具體而言,句子編碼器10可具有第一類神經網路(如摺積式類神經網路CNN),以將語音或文字文件中不同長度的複數語句投影至相同的向量空間而得到固定長度的複數語句向量表示。為此,句子編碼器10之第一類神經網路(如摺積式類神經網路CNN)可使用1-D摺積與設定摺積核(Kernel)寬度為h(即每次看h個連續詞彙的向量表示)以得到相對應的特徵圖。然後,句子編碼器10(第一類神經網路)對每個特徵圖沿著時序使用最大池化,以將特徵圖中的最大值視為語句特徵。為了能找到涵蓋更多元的特徵,句子編碼器10(第一類神經網路)可以使用多種寬度的摺積核,且每種寬度具有複數不同的摺積核,再將所得到的特徵串接在一起以形成語句向量表示。
文件編碼器20可具有第二類神經網路(如具有長短期記憶(Long Short Term Memory;LSTM)機制之遞迴式類神經網路RNN)來消除梯度消失的問題,亦即文件編碼器20之第二類神經網路可以從句子編碼器10中讀入語音或文字文件之複數語句向量表示而構成一個語句向量表示序列,再於語句向量表示序列中加入聲學與音韻特徵而產生一個用於提供語音或文字文件之重要資訊的文件向量表示。又,由於大多數文件的開頭幾語句通常會相對重要,故文件編碼器20(第二類神經網路)可將文件的語句向量表示序列以倒序的方式作為輸入。
解碼器30可具有第三類神經網路(如具有長短期記憶(LSTM)機制之遞迴式類神經網路RNN)和softmax功能,以依序量化摘要的口語文件(Spoken Document)中的每個句子。解碼器30的輸入是從句子編碼器 10的口說句子表示建構而來,且輸入句子的順序沿著與文件編碼器20不同的方向。解碼器30可串接以句子為單位之語音特徵,並使用此語音特徵來幫助選取摘要的句子。因此,解碼器30設計或具有一加權閘道(sGatei)31之機制,且解碼器30可將口語句子的向量表示乘上加權閘道(sGatei)31以形成新向量表示,再用新向量表示替換解碼器30內原來的向量表示。
再者,本發明之擴增和調整方式能增進自動文件摘要之準確性,除了使用詞彙的向量表示來產生語句和文件向量表示以進行重要語句選取外,亦可在文件編碼器20或第二類神經網路(如遞迴式類神經網路RNN)產生文件向量的過程中,對於輸入的語句向量表示進行特徵擴增,以加入詞彙以外的多重特徵(如聲學與音韻特徵21)來表示語句;或者,文件編碼器20或第二類神經網路也可提供或結合注意力機制(Attention Mechanism)以對輸入的語句向量表示進行調整。
第2圖為本發明中基於類神經網路之語音或文字文件摘要及方法之基本運作流程。首先,在第2圖之步驟S21中,將口語文件經第1圖之階層式類神經網路架構或摘要模型之運算處理以產生摘要指示分數(Summarization Score Indicator)。接著,在第2圖之步驟S22中,再由解碼器30將前列句子(Top M Sentences)聚合以進行最終之摘要集成。
另外,本發明中整合聲學與音韻特徵於階層式類神經網路架構內之方法,可包括下列所述[1]指示性語句篩選、[2]語句向量表示擴增調整、[3]自動摘要方法組成類神經網路模型的訓練方法等內容。
[1]指示性語句篩選:解碼器30使用第三類神經網路(如遞迴式類神經網路RNN),以文件本身的向量表示作為輸入,並依序輸入文件 的語句向量表示至第三類神經網路,且對每一語句輸出相對應的重要性分數(摘要指示分數)。然後,解碼器30採取前列句子(Top M Sentences)之聚合方式,對所有語句進行排序以選取分數較高的至少一個或前幾個語句來組合成摘要或摘要集成。
[2]語句向量表示擴增調整:本發明可透過下列三種方式(a)至(c)對語句向量表示擴增和調整,且此擴增和調整方式能增進自動文件摘要之準確性。(a)句子編碼器10使用第一類神經網路(如摺積式類神經網路CNN)結合文件編碼器20使用第二類神經網路(如遞迴式類神經網路RNN),可在產生文件向量的過程中,對於輸入的語句向量表示進行擴增,以加入詞彙以外的多重特徵(如聲學與音韻特徵21)或語句在文件中的相對位置、絕對位置、語句的長度、語句的詞彙數量、語句與標題的相似度,如聲學(acoustic)與音韻特徵21(以a4,a3,a2,a1表示)。(b)解碼器30透過第三類神經網路(如遞迴式類神經網路RNN)計算每一語句之重要性分數時,可對於輸入的語句向量表示進行擴增並加入詞彙以外的多重特徵(如聲學與音韻特徵21),且聲學與音韻特徵21可以ai(如a4,a3,a2,a1)作為語音特徵或語句向量表示。(c)文件編碼器20或第二類神經網路可提供或結合注意力機制以對輸入的語句向量表示進行調整。
[3]自動摘要方法組成類神經網路模型的訓練方法:係包括下列二個步驟(a)及(b)。在步驟(a)中,基於訓練文件集中每一篇文件與相對應之摘要語句標記資訊進行最大化相似度估測(Maximum Likelihood Estimation;MLE);以及在步驟(b)中,基於訓練文件集中每一篇文件與相對應之摘要語句標記資訊和不同自動摘要任務的效能評估準則進行強化學 習(Reinforcement Learning)。
又,在本發明之具體實施例中,假設已知複數循序之口語文件D={s1,s2,...,sn},從口語文件D中選取M個句子的子集以串接成摘要。對每一口說句子(sentence)si
Figure 108142553-A0101-12-0009-9
D,從口說句子si預估一個摘要指示分數P(yi|si,D,θ),其中yi
Figure 108142553-A0101-12-0009-10
{0,1},0表示口說句子si不需要被包括在摘要中,1表示口說句子si需要被包括在摘要中。於預估每一口說句子的分數後進行分數排序,然後取前M個句子產生最終之摘要。
在基於類神經網路之語音或文字文件摘要系統1中,階層式編碼器(encoder)被設計為具有兩個編碼級別:第一個是範圍較小的句子編碼器10,第二個是範圍較大的文件編碼器20。
句子編碼器10之第一類神經網路(如摺積式類神經網路CNN)能處理可變長度的文本句子,並將可變長度的文本句子投影至向量空間(如低維向量空間)中以獲得固定長度的語句向量表示,例如對每一口語文件使用第一類神經網路(如摺積式類神經網路CNN)來產生固定長度表示。而且,第一類神經網路(如摺積式類神經網路CNN)可將具有寬度N的摺積核濾波器的一維時間摺積連續地應用於口說句子si中的N個單詞的窗口上以形成新的特徵圖。這種依序捕獲N個單詞的文本跨度的概念與應用於以短跨度方式捕獲連續字的共同發生和相近訊息的傳統N-gram語言模型具有一些相似性。又,在第一類神經網路產生特徵圖後,隨著時間的推移,最大池化將依序應用於這些特徵圖,以獲取這些特徵圖之各自元素的最大值,這些元素共同形成口語句子s的固定長度特徵向量表示。
文件編碼器20可使用詞彙與其它多重特徵以擴增語句的編 碼表示,例如結合聲學與音韻特徵和辭典讓語音文件中語句的編碼表示及文件本身的編碼表示以具有代表性。同時,文件編碼器20可處理文件句子序列,以整體方式產生固定長度的文件表示。前述聲學與音韻特徵可為下列表1所示[1]語句對應語音訊號的音高、[2]音高交互峰值正規化、[3]語句中詞彙對應語音訊號的能量、[4]語句中詞彙對應語音訊號的持續時間、[5]語句對應語音訊號的第一共振峰、[6]語句對應語音訊號的第二共振峰、[7]語句對應語音訊號的第三共振峰。
表1:
Figure 108142553-A0101-12-0010-1
文件編碼器20可採用具有長短期記憶(LSTM)之遞迴式神經網路(RNN),且當使用長序列輸入訓練遞迴式經網路(RNN)時,長短期記憶(LSTM)可以幫助減輕消失梯度問題。又,基於一般實際可行作法,本發明顛倒了要送入文件編碼器20的句子的順序,此作法使遞迴式神經網路(RNN)可以封裝更多位於文件開頭句子的信息,因為預測主要句子通常將包括文件的更突出的語義內容。因此,本發明可使用下列公式(1)及公式(2)來獲得文件表示,其中,d為文件表示,f(.)為LSTM函數,h1為第一時戳的隱藏(hidden)層輸出的表示,i為正整數,si為句子。
hi=f(hi+1,si)...........................(1)
d=h1...........................(2)
解碼器30可配備有另一具有長短期記憶(LSTM)之遞迴式神經網路(RNN)和softmax功能,以供解碼器30依序量化摘要的口語文件中的每個句子si,每個句子si之分數以P(yi|si,D,θ)表示,且句子si之分數從0開始,0表示與文件無關,1表示與文件高度相關。解碼器30的輸入是從句子編碼器10的口說句子表示建構而來,且輸入句子的順序沿著與文件編碼器20不同的方向。本發明可使用以下公式(3)及公式(4)來獲得解碼器30的隱藏層輸出的表示,其中,d為文件表示,f(.)為LSTM函數,i為正整數,o0為LSTM函數、初始時戳處的隱藏層表示,oi為LSTM函數、時戳i處的隱藏層表示,si為句子。
oi=f(oi-1,si)...........................(3)
o0=d...........................(4)
傳統基於實際句子標記最大化機率乘積模型近似於方程式
Figure 108142553-A0101-12-0012-8
所訓練出的摘要模型,基於此方程式所訓練的摘要模型旨在對具有產生摘要標籤的最大似然條件的句子進行排名,而在測試階段使用交叉熵損失(cross-entropy loss)將明顯導致摘要模型的訓練和測試之間存在不一致性,因為在訓練目標函數中沒有考慮評估度量的方式。
有鑑於此,本發明使用強化學習(Reinforcement Learning)方式重新構建類神經摘要模型的訓練方法,以緩解摘要模型的訓練和測試之間的不一致性。透過強化學習方式將所謂的獎勵函數r引入到摘要模型的訓練目標函數中,這將使目標函數更接近於提取語音文件摘要的最終評估度量方式。因此,本發明將獎勵函數r置入ROUGE(Recall-oriented Understudy for Gisting Evaluation;召回率導向的要點評估)評估度量指標以量測變異的平均分數,俾藉由強化學習的訓練目標函數以最小化負預期獎勵(the negative expected reward),如下列公式(5)所示,其中,P θ為p(.|D,θ)於已知訓練文件所有摘要標記句子之分佈機率,
Figure 108142553-A0101-12-0012-11
,,,
Figure 108142553-A0101-12-0012-12
為文件依序所預測之摘要標記。
Figure 108142553-A0101-12-0012-2
在估算中,由於獎勵函數是不可微分的,因此本發明改寫訓練目標函數的梯度演算法如下列公式(6),其中,i與n為正整數,r為獎勵函數。
Figure 108142553-A0101-12-0012-3
本發明在集結語音特徵於階層式類神經網路架構的作法 上,可在文件編碼器20內串聯以句子為單位如虛線內之語音特徵a i (如a1至a4),文件表示式為h i =f(h i+1,[s i ;a i ]),然後在解碼器30串接以句子為單位之語音特徵a i ,例如公式o i =f(o i-1,[s i ;a i ]),俾由解碼器30使用此語音特徵a i 來幫助選取摘要的句子。
解碼器30可具有加權閘道(sGatei)31之機制,例如 s Gate i =g(W s [h i ;a i ]+b),其中hi為隱藏層表示,g(.)為例如3層式前饋式類神經網路,sGatei之值介於0至1。而且,解碼器30可將口語句子的向量表示si乘上加權閘道(sGatei)31以形成新向量表示s i ’= s Gate i .s i ,然後將新向量表示s i ’替換原來解碼器30內的向量表示si,如o i =f(o i-1 ,s i ’)所示。藉此,本發明能獲得較佳之摘要結果。
又如第1圖所示,本發明中基於類神經網路之語音或文字文件摘要方法可包括下列[1]語句編碼、[2]文件編碼、[3]指示性語句篩選、[4]語句向量表示擴增調整、[5]自動摘要方法組成模型的訓練方法等內容。
[1]語句編碼:第1圖所示句子編碼器10(如為摺積式類神經網路CNN之第一類神經網路)將語音或文字文件進行斷詞與詞向量之抽取後,可產生語音或文字文件的語句向量表示,例如句子編碼器10可選用詞彙以外的多重特徵來直接擴增語句向量表示。若原始之語音或文字文件包括語音,則句子編碼器10可抽取語音或文字文件中為聲學與音韻特徵之語音特徵,且將語句向量表示的維度增加,以將各語音特徵放置於增加的維度中。前述聲學與音韻特徵之內容可包括語句對應語音訊號的音高、音高交互峰值正規化、語句中詞彙對應語音訊號的能量、語句中詞彙對應語音訊號的持續時間、語句對應語音訊號的第一共振峰、語句對應語音訊號的 第二共振峰、語句對應語音訊號的第三共振峰。
[2]文件編碼:將上述[1]中語句向量串接成文件輸入向量,以透過文件編碼器20(如為遞迴式類神經網路RNN之第二類神經網路)產生文件整體的向量表示。
[3]指示性語句篩選:解碼器30將文件本身的向量表示輸入到如為遞迴式類神經網路RNN之第三類神經網路,同時依序輸入文件的語句向量表示到第三類神經網路(如遞迴式類神經網路RNN)以產生每一語句的重要性分數,再使用重要句子指示分數之加權閘道機制以選取重要語句來組合成摘要。
[4]語句向量表示擴增調整:可使用詞彙以外的多重特徵來調整語句向量表示,且詞彙以外的多重特徵包括聲學與音韻特徵、或語句在語音或文字文件中的相對位置、絕對位置、語句的長度、語句的詞彙數量、語句與標題的相似度。然後,計算每一語句之摘要指示分數或重要性分數再結合注意力機制來擴增調整語句向量表示。
[5]自動摘要方法組成模型的訓練方法:先給定正確的摘要標記,而進行模型訓練時,可採用(a)基於訓練文件集中每一篇文件與相對應之摘要語句標記資訊進行最大化相似度估測(MLE);以及(b)基於訓練文件集中每一篇文件與相對應之摘要語句標記資訊以及不同自動摘要任務的效能評估準則,將ROUGE評估度量指標安排到訓練目標函數中以進行強化學習,且訓練目標函數能採用可微分方式。
第3圖為本發明中基於類神經網路之語音或文字文件摘要方法之流程示意圖,且一併參閱第1圖予以說明。同時,第3圖之主要技術 內容如下,其餘技術內容相同於上述第1圖至第2圖之詳細說明,於此不再重覆敘述。
在第3圖之步驟S21中,由一句子編碼器10之一第一類神經網路將語音或文字文件中不同長度的複數語句投影至相同的向量空間而得到固定長度的複數語句向量表示。
在第3圖之步驟S22中,由一文件編碼器20之一第二類神經網路從句子編碼器10中讀入語音或文字文件之複數語句向量表示而構成語句向量表示序列,再於語句向量表示序列中加入聲學與音韻特徵而產生用於提供語音或文字文件之重要資訊的文件向量表示。
在第3圖之步驟S23中,由一解碼器30之一第三類神經網路從句子編碼器10中讀入語音或文字文件之複數語句向量表示作為輸入,且對語音或文字文件之每一語句輸出相對應的重要性分數,再依據所輸出的重要性分數對語音或文字文件之複數語句進行排序,以選取出分數較高的至少一個或前幾個語句來組合成摘要或摘要集成。
綜上,本發明中基於類神經網路之語音或文字文件摘要系統及方法可至少具有下列特色、優點或技術功效。
一、本發明可同時適用於文字或語音文件,能讓使用者透過摘要或摘要集成快速掌握文件中的重要資訊。
二、本發明能使用詞彙與其它多重特徵以擴增語句的編碼表示,例如結合聲學與音韻特徵和辭典,讓語音文件中語句的編碼表示和文件本身的編碼表示更具摘要代表性。
三、本發明能將ROUGE(召回率導向的要點評估)之評估度 量指標安排到訓練目標函數中,且訓練目標函數可透過強化學習進行優化以得到較佳之摘要結果。
四、本發明可能應用之產業為例如社群網路、智慧客服、資訊檢索等,而可能應用之產品為例如社群網路文件摘要、客服對話文件摘要、文章分類解析與相似文件搜尋等。
上述實施形態僅例示性說明本發明之原理、特點及其功效,並非用以限制本發明之可實施範疇,任何熟習此項技藝之人士均可在不違背本發明之精神及範疇下,對上述實施形態進行修飾與改變。任何運用本發明所揭示內容而完成之等效改變及修飾,均仍應為申請專利範圍所涵蓋。因此,本發明之權利保護範圍,應如申請專利範圍所列。
1‧‧‧基於類神經網路之語音或文字文件摘要系統
10‧‧‧句子編碼器
20‧‧‧文件編碼器
21‧‧‧聲學與音韻特徵
30‧‧‧解碼器
31‧‧‧加權閘道
a1至a4‧‧‧聲學與音韻特徵
g(.)‧‧‧前饋式類神經網路
h1至h4‧‧‧隱藏層輸出的表示
o1至o4‧‧‧隱藏層表示
s1至s4‧‧‧句子或口說句子
w1至w6‧‧‧詞向量
y1至y4‧‧‧是/否為摘要

Claims (15)

  1. 一種基於類神經網路之語音或文字文件摘要系統,包括:
    一句子編碼器,係具有一第一類神經網路,以將語音或文字文件中不同長度的複數語句投影至相同的向量空間而得到固定長度的複數語句向量表示;
    一文件編碼器,係具有一第二類神經網路,以從該句子編碼器中讀入該語音或文字文件之該複數語句向量表示而構成語句向量表示序列,再於該語句向量表示序列中加入聲學與音韻特徵而產生用於提供該語音或文字文件之重要資訊的文件向量表示;以及
    一解碼器,係具有一第三類神經網路,以從該句子編碼器中讀入該語音或文字文件之該複數語句向量表示作為輸入,且對該語音或文字文件之每一語句輸出相對應的重要性分數,再依據所輸出的重要性分數對該語音或文字文件之複數語句進行排序,以選取出分數較高的至少一個或前幾個語句來組合成摘要或摘要集成。
  2. 如申請專利範圍第1項所述之系統,其中,該第一類神經網路、第二類神經網路與第三類神經網路係分別為一摺積式類神經網路(CNN)、一遞迴式類神經網路(RNN)與另一遞迴式類神經網路(RNN)。
  3. 如申請專利範圍第1項所述之系統,其中,該第一類神經網路使用複數不同寬度的摺積核來作用在該語音或文字文件之語句中接連出現的詞彙的向量表示以得到複數特徵圖,並對各該特徵圖沿著時序使用最大池化以從該特徵圖中的最大值取出合成的特徵。
  4. 如申請專利範圍第1項所述之系統,其中,該文件編碼器之該第二類神經網路係用反序方式從該句子編碼器中讀入該語音或文字文件之該語句向量表示以產生該文件向量表示。
  5. 如申請專利範圍第1項所述之系統,其中,該解碼器之該第三類神經網路係依正序方式從該句子編碼器中讀入該語音或文字文件之複數語句的向量表示作為輸入,並將來自該文件編碼器之該文件向量表示作為輸入,且對該語音或文字文件之每一語句輸出相對應的重要性分數,再依據所輸出的重要性分數對該語音或文字文件之複數語句進行排序,以選取出分數較高的至少一個或前幾個語句來組合成該摘要或摘要集成。
  6. 如申請專利範圍第1項所述之系統,其中,該解碼器係具有該第三類神經網路與softmax功能以依序量化該摘要的口語文件中的每個句子。
  7. 如申請專利範圍第1項所述之系統,其中,該解碼器係具有一加權閘道之機制,且該解碼器將口語句子的向量表示乘上該加權閘道以形成新向量表示,再用該新向量表示替換該解碼器內原來的向量表示。
  8. 如申請專利範圍第1項所述之系統,其中,該文件編碼器在產生文件向量的過程中,對於輸入的該語句向量表示進行特徵擴增以加入詞彙以外的多重特徵來表示語句,或者提供注意力機制以對輸入的該語句向量表示進行調整。
  9. 一種基於類神經網路之語音或文字文件摘要方法,包括:
    由一句子編碼器之一第一類神經網路將語音或文字文件中不同長度的複數語句投影至相同的向量空間而得到固定長度的複數語句向量表示;
    由一文件編碼器之一第二類神經網路從該句子編碼器中讀入該語音或文字文件之該複數語句向量表示而構成語句向量表示序列,再於該語句向量表示序列中加入聲學與音韻特徵而產生用於提供該語音或文字文件之重要資訊的文件向量表示;以及
    由一解碼器之一第三類神經網路從該句子編碼器中讀入該語音或文字文件之該複數語句向量表示作為輸入,且對該語音或文字文件之每一語句輸出相對應的重要性分數,再依據所輸出的重要性分數對該語音或文字文件之複數語句進行排序,以選取出分數較高的至少一個或前幾個語句來組合成摘要或摘要集成。
  10. 如申請專利範圍第9項所述之方法,更包括透過強化學習方式將獎勵函數引入到摘要模型的訓練目標函數中,且將該獎勵函數置入ROUGE(召回率導向的要點評估)評估度量指標以量測變異的平均分數,俾藉由強化學習的該訓練目標函數以最小化負預期獎勵。
  11. 如申請專利範圍第9項所述之方法,更包括由該句子編碼器將該語音或文字文件進行斷詞與詞向量之抽取以產生該語音或文字文件的語句向量表示,且該句子編碼器選用詞彙以外的多重特徵來擴增該語句向量表示。
  12. 如申請專利範圍第9項所述之方法,其中,若原始之該語音或文字文件包括語音,則該句子編碼器抽取該語音或文字文件中為該聲學與音韻特徵之語音特徵,且將該語句向量表示的維度增加,以將該語音特徵放置於增加的維度中。
  13. 如申請專利範圍第9項所述之方法,更包括由該文件編碼器使用詞彙與多重特徵以擴增該語句的編碼表示,且該多重特徵包括該聲學與音韻特徵,其中,該聲學與音韻特徵為語句對應語音訊號的音高、音高交互峰值正規化、語句中詞彙對應語音訊號的能量、語句中詞彙對應語音訊號的持續時間、語句對應語音訊號的第一共振峰、語句對應語音訊號的第二共振峰與語句對應語音訊號的第三共振峰之至少一者。
  14. 如申請專利範圍第9項所述之方法,更包括使用詞彙以外的多重特徵來調整該語句向量表示,且該詞彙以外的多重特徵包括該聲學與音韻特徵、或者該語句在該語音或文字文件中的相對位置、絕對位置、語句的長度、語句的詞彙數量、語句與標題的相似度。
  15. 如申請專利範圍第9項所述之方法,更包括在組成類神經網路模型的訓練方法上,基於訓練文件集中每一篇文件與相對應之摘要語句標記資訊進行最大化相似度估測(MLE),且基於該訓練文件集中每一篇文件與相對應之摘要語句標記資訊和不同自動摘要任務的效能評估準則進行強化學習。
TW108142553A 2019-11-22 2019-11-22 基於類神經網路之語音或文字文件摘要系統及方法 TWI724644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW108142553A TWI724644B (zh) 2019-11-22 2019-11-22 基於類神經網路之語音或文字文件摘要系統及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108142553A TWI724644B (zh) 2019-11-22 2019-11-22 基於類神經網路之語音或文字文件摘要系統及方法

Publications (2)

Publication Number Publication Date
TWI724644B TWI724644B (zh) 2021-04-11
TW202121398A true TW202121398A (zh) 2021-06-01

Family

ID=76604898

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108142553A TWI724644B (zh) 2019-11-22 2019-11-22 基於類神經網路之語音或文字文件摘要系統及方法

Country Status (1)

Country Link
TW (1) TWI724644B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11984110B2 (en) * 2022-03-07 2024-05-14 Mediatek Singapore Pte. Ltd. Heterogeneous computing for hybrid acoustic echo cancellation
TWI826031B (zh) * 2022-10-05 2023-12-11 中華電信股份有限公司 基於歷史對話內容執行語音辨識的電子裝置及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI354904B (en) * 2008-01-25 2011-12-21 Yun Ken Method of classifying documents automatically, com
CN108021549B (zh) * 2016-11-04 2019-08-13 华为技术有限公司 序列转换方法及装置
TWI612488B (zh) * 2016-12-05 2018-01-21 財團法人資訊工業策進會 用於預測商品的市場需求的計算機裝置與方法
US20180373844A1 (en) * 2017-06-23 2018-12-27 Nuance Communications, Inc. Computer assisted coding systems and methods

Also Published As

Publication number Publication date
TWI724644B (zh) 2021-04-11

Similar Documents

Publication Publication Date Title
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN108319666B (zh) 一种基于多模态舆情分析的供电服务评估方法
CN109284506A (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN107391614A (zh) 一种基于wmd的中文问答匹配方法
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
CN109598586B (zh) 一种基于注意力模型的推荐方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN107818084B (zh) 一种融合点评配图的情感分析方法
CN111241816A (zh) 一种新闻标题自动生成方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN111723196B (zh) 基于多任务学习的单文档摘要生成模型构建方法及装置
CN107247703A (zh) 基于卷积神经网络和集成学习的微博情感分析方法
CN111985612B (zh) 一种提高视频文本描述准确性的编码器网络模型设计方法
CN112559730B (zh) 基于全局性特征提取的文本摘要自动生成方法及系统
TWI724644B (zh) 基於類神經網路之語音或文字文件摘要系統及方法
CN111178053A (zh) 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN114386417A (zh) 一种融入词边界信息的中文嵌套命名实体识别方法
CN110009025A (zh) 一种用于语音测谎的半监督加性噪声自编码器
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN113836891A (zh) 基于多元标注策略的结构化信息抽取方法和装置
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN113011174B (zh) 一种基于文本分析的围标串标识别方法
CN112905793A (zh) 一种基于Bilstm+Attention文本分类的案例推荐方法及系统