TWI823815B - 摘要產生方法及系統與電腦程式產品 - Google Patents
摘要產生方法及系統與電腦程式產品 Download PDFInfo
- Publication number
- TWI823815B TWI823815B TW112117305A TW112117305A TWI823815B TW I823815 B TWI823815 B TW I823815B TW 112117305 A TW112117305 A TW 112117305A TW 112117305 A TW112117305 A TW 112117305A TW I823815 B TWI823815 B TW I823815B
- Authority
- TW
- Taiwan
- Prior art keywords
- text data
- language model
- original text
- end language
- processing unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000004590 computer program Methods 0.000 title claims description 8
- 238000012545 processing Methods 0.000 claims abstract description 114
- 230000011218 segmentation Effects 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims description 21
- 238000010801 machine learning Methods 0.000 claims description 8
- 241000282414 Homo sapiens Species 0.000 claims description 2
- 238000003672 processing method Methods 0.000 abstract description 8
- 239000000463 material Substances 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 2
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005674 electromagnetic induction Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Abstract
一種由摘要產生系統實施的摘要產生方法,包含對一原始文本資料進行分詞以獲得多個分詞結果,並在判斷出該等分詞結果的數量大於等於一預定門檻值的情況下,利用一前端語言模型以生成式處理方式根據該原始文本資料執行一摘要化預處理,以獲得一以自然語言形式呈現且字元數量小於該原始文本資料的預處理文本資料,再利用一後端語言模型以生成式處理方式根據該預處理文本資料執行一摘要生成處理,以獲得一以自然語言形式呈現且字元數量小於該預處理文本資料的摘要結果,以及將該摘要結果提供至一使用者端輸出。
Description
本發明是有關於一種摘要產生方法,特別是指一種適合應用在文本資料的摘要產生方法。本發明還有關於一種適合應用在文本資料的摘要產生系統,以及一種電腦程式產品。
自然語言是人類溝通時表達思想的主要途徑,因此,自然語言處理的應用範圍相當廣泛,舉例來說,舉凡語音識別、機器翻譯、文本分類及問答系統等特定應用,皆與自然語言處理技術密切相關。
隨著機器學習技術的發展,自然語言處理已成為人工智慧領域的熱門研究方向,因此,近年的語言模型(Language Model)不但在種類上愈加豐富,性能也不斷得到提升。然而,語言模型的性能發揮程度與其被使用的方式息息相關,所以,如何更有效地應用語言模型來提升其實用效益,便成為一個嶄新的研究方向。有鑑於此,本案所欲探討的議題,便在於如何更好地利用語言模型將文本的原始內容精簡化而得到摘要結果。
因此,本發明的其中一目的,便在於提供一種能將文本原始內容摘要化的摘要產生方法。
本發明摘要產生方法由一摘要產生系統實施,該摘要產生系統適用於與一使用者端電連接,且儲存有以機器學習技術實現的一前端語言模型及一後端語言模型;該摘要產生方法包含:(A)對一原始文本資料進行分詞以獲得多個分詞結果,並判斷該等分詞結果的數量是否大於等於一預定門檻值;(B)在判斷出該等分詞結果的數量大於等於該預定門檻值的情況下,利用該前端語言模型以生成式處理方式根據該原始文本資料執行一摘要化預處理,以獲得一以自然語言形式呈現且字元數量小於該原始文本資料的預處理文本資料,再利用該後端語言模型以生成式處理方式根據該預處理文本資料執行一摘要生成處理,以獲得一以自然語言形式呈現且字元數量小於該預處理文本資料的摘要結果,以及將該摘要結果提供至該使用者端輸出;(C)在判斷出該等分詞結果的數量未大於等於該預定門檻值的情況下,利用該後端語言模型以生成式處理方式根據該原始文本資料執行該摘要生成處理,以獲得另一以自然語言形式呈現且字元數量小於該原始文本資料的摘要結果,以及將該另一摘要結果提供至該使用者端輸出。
在本發明摘要產生方法的一些實施態樣中,在步驟(B)中,該摘要產生系統利用該前端語言模型獲得該預處理文本資料的方式,包含將該原始文本資料以及一由一語言模型所預測出的軟性提示輸入該前端語言模型,其中,該軟性提示是用於使該前端語言模型根據該原始文本資料執行該摘要化預處理。
在本發明摘要產生方法的一些實施態樣中,該摘要產生方法還包含在步驟(A)之前的:(D)接收一來自該使用者端的音訊資料,並根據該音訊資料所呈現出的語音產生該原始文本資料。
在本發明摘要產生方法的一些實施態樣中,在步驟(D)中,該摘要產生系統還判斷該音訊資料是屬於一僅呈現出單一說話者之語音的單人發言類型,還是一呈現出多個說話者之語音的多人發言類型,並且,在判定該音訊資料屬於該多人發言類型的情況下,該摘要產生系統產生該原始文本資料的方式,包含將該原始文本資料所包含的一群文字拆分成多個各自對應於該等說話者之其中一說話者的發言部分;在步驟(B)中,若該音訊資料是屬於該單人發言類型,該摘要產生系統輸入該前端語言模型的該軟性提示為一對應於該單人發言類型的第一軟性提示,若該音訊資料是屬於該多人發言類型,該摘要產生系統輸入該前端語言模型的該軟性提示為一對應於該多人發言類型且與該第一軟性提示不同的第二軟性提示。
本發明的另一目的,在於提供一種能將文本原始內容摘要化的摘要產生系統。
本發明摘要產生系統適用於與一使用者端配合,該摘要產生系統包含一適用於與該使用者端電連接的處理單元,以及一電連接該處理單元的儲存單元,且該儲存單元儲存有以機器學習技術實現的一前端語言模型及一後端語言模型。該處理單元用於:對一原始文本資料進行分詞以獲得多個分詞結果,並判斷該等分詞結果的數量是否大於等於一預定門檻值;在判斷出該等分詞結果的數量大於等於該預定門檻值的情況下,利用該前端語言模型以生成式處理方式根據該原始文本資料執行一摘要化預處理,以獲得一以自然語言形式呈現且字元數量小於該原始文本資料的預處理文本資料,再利用該後端語言模型以生成式處理方式根據該預處理文本資料執行一摘要生成處理,以獲得一以自然語言形式呈現且字元數量小於該預處理文本資料的摘要結果,以及將該摘要結果提供至該使用者端輸出;在判斷出該等分詞結果的數量未大於等於該預定門檻值的情況下,利用該後端語言模型以生成式處理方式根據該原始文本資料執行該摘要生成處理,以獲得另一以自然語言形式呈現且字元數量小於該原始文本資料的摘要結果,以及將該另一摘要結果提供至該使用者端輸出。
在本發明摘要產生系統的一些實施態樣中,該處理單元利用該前端語言模型獲得該預處理文本資料的方式,包含將該原始文本資料以及一由一語言模型所預測出的軟性提示輸入該前端語言模型,其中,該軟性提示是用於使該前端語言模型根據該原始文本資料執行該摘要化預處理。
在本發明摘要產生系統的一些實施態樣中,該處理單元還用於接收一來自該使用者端的音訊資料,並根據該音訊資料所呈現出的語音產生該原始文本資料。
在本發明摘要產生系統的一些實施態樣中,該處理單元還用於判斷該音訊資料是屬於一僅呈現出單一說話者之語音的單人發言類型,還是一呈現出多個說話者之語音的多人發言類型,並且,在判定該音訊資料屬於該多人發言類型的情況下,該處理單元產生該原始文本資料的方式,包含將該原始文本資料所包含的一群文字拆分成多個各自對應於該等說話者之其中一說話者的發言部分。若該音訊資料是屬於該單人發言類型,該處理單元輸入該前端語言模型的該軟性提示為一對應於該單人發言類型的第一軟性提示,若該音訊資料是屬於該多人發言類型,該處理單元輸入該前端語言模型的該軟性提示為一對應於該多人發言類型且與該第一軟性提示不同的第二軟性提示。
本發明的再一目的,在於提供一種能使電腦設備實施前述摘要產生方法的電腦程式產品。
本發明電腦程式產品包含一軟體程式,並且,當該軟體程式被一電腦系統載入並執行時,能使該電腦系統利用以機器學習技術實現的一前端語言模型及一後端語言模型執行如前述任一實施態樣中所述的摘要產生方法。
本發明之功效在於:該摘要產生系統能在該等分詞結果的數量大於等於該預定門檻值的情況下,先利用該前端語言模型以生成式處理方式執行該摘要化預處理來產生字數少於原始文本資料的該預處理文本資料,再利用該後端語言模型根據該預處理文本資料來產生要被提供至該使用者端的摘要結果,如此一來,若該後端語言模型存在單次輸入字元數量的限制,本實施例能有助於提升該後端語言模型的應用彈性,進而提供泛用性更佳的自動摘要生成功能。另一方面,由於該前端語言模型是以生成式處理方式來產生該預處理文本資料,因此,若該原始文本資料中存在較多的重複性內容,相對於萃取式的處理方式,該摘要產生系統能更好地將該原始文本資料內容進行濃縮,從而產生資訊密度更高的預處理文本資料來作為該後端語言模型的輸入。
在本發明被詳細描述之前應當注意:在未特別定義的情況下,本專利說明書中所述的「電連接(electrically connected)」是用來描述電腦硬體(例如電子系統、設備、裝置、單元、元件)之間的「耦接(coupled)」關係,且泛指複數電腦硬體之間透過導體/半導體材料彼此實體相連而實現的「有線電連接」,以及利用無線通訊技術(例如但不限於無線網路、藍芽及電磁感應等)而實現無線資料傳輸的「無線電連接」。另一方面,在未特別定義的情況下,本專利說明書中所述的「電連接」也泛指複數電腦硬體之間彼此直接耦接而實現的「直接電連接」,以及複數電腦硬體之間是透過其他電腦硬體間接耦接而實現的「間接電連接」。
參閱圖1,本發明摘要產生系統1的一實施例適用於供多個使用者端5(圖1僅示出其中一者)透過網路電連接。其中,每一使用者端5可以是用於供使用者操作的一台手機、平板電腦、筆記型電腦或者桌上型電腦,並且,為了便於理解,以下的描述中僅利用圖1所示出的該使用者端5對本實施例進行說明。
在本實施例中,該摘要產生系統1是一台伺服設備,而且,該摘要產生系統1包含一處理單元11,以及一電連接該處理單元11的儲存單元12,其中,該處理單元11適用於供該使用者端5透過網路電連接。
更具體地說,在本實施例中,該處理單元11是一個以積體電路實現且具有指令收發及資料運算功能的處理器,該儲存單元12則是一個用於儲存數位資料的資料儲存裝置(例如硬碟、硬碟陣列,或者是其他種類的電腦可讀取記錄媒體)。然而,在類似的實施態樣中,該處理單元11也可以是一包括有處理器的處理電路,而該儲存單元12也可以是多個相同或相異種類之儲存裝置的集合。進一步地,在其他實施例中,該摘要產生系統1也可被實施為多台彼此電連接的伺服設備,在此情況下,該處理單元11可被實施為該等伺服設備所分別具有之多個處理器/處理電路的集合,而該儲存單元12則可被實施為該等伺服設備所分別具有之多個/多組儲存裝置的集合。所以,應當理解的是,該摘要產生系統1在電腦硬體方面的實際實施態樣並不以本實施例為限。
該儲存單元12儲存有一語音處理模型M0、一前端語言模型LM1以及一後端語言模型LM2。
該語音處理模型M0是以語音資料(例如具有單人及多人語音的一群錄音檔)作為訓練資料而利用機器學習技術被實現。並且,對於呈現出語音的音訊輸入,該語音處理模型M0能判斷音訊輸入係呈現出單一人的語音,還是呈現出多個人的語音。進一步地,在音訊輸入呈現出多個人的語音的情況下,該語音處理模型M0能進一步利用基於聲紋識別的語者分離(Speaker separation)技術而將音訊輸入中的語音按照不同的多個說話者進行分群,藉此從音訊輸入的多人語音中區別出每一說話者的發言內容。另一方面,該語音處理模型M0亦能利用語音轉文字(Speech-to-text)技術而將音訊輸入中的語音轉換為對應的文字資料。補充說明的是,該語音處理模型M0的訓練方式能以現有技術達成,且此部分並非本專利說明書之技術重點,故在此不詳述其細節。
該前端語言模型LM1及該後端語言模型LM2皆是以文本資料(例如但不限於一群文章與對話的文字紀錄)作為訓練資料,而利用機器學習技術實現的預訓練語言模型(Pre-trained language model),藉此,該前端語言模型LM1及該後端語言模型LM2皆能根據被作為輸入資料的文本進行生成式的自然語言處理。更明確地說,在本實施例的一種較佳實施態樣中,該前端語言模型LM1是被實施為BLOOMZ,然而,在其他的實施態樣中,該前端語言模型LM1也可例如被實施為BLOOM、MT0、GPT-2或T5等其他具備自然語言文本生成功能的預訓練語言模型。另一方面,在本實施例的該種較佳實施態樣中,該後端語言模型LM2被實施為GPT-3,然而,在其他的實施態樣中,該後端語言模型LM2也可例如被實施為GPT-4、GPT-3.5或GPT-2等其他具備自然語言文本生成功能的預訓練語言模型。
補充說明的是,本專利說明書所述的「生成式」亦稱作「抽象式」,英文為「Abstractive」,是用來表示語言模型對輸入文本進行處理進而產生輸出文本的一種自然語言生成方式。並且,如同本發明技術領域中具有通常知識者的普遍共識,本專利說明書所述的「生成式」是指語言模型在對輸入文本進行語意理解後,會以重新撰寫的方式進行自然語言生成以產生輸出文本,所以,輸出文本中通常會包含輸入文本中不存在的內容,例如,語言模型能以不存在於輸入文本中的語句來描述輸入文本中的內容、將輸入文本中的內容以更加精簡的方式敘述,或者是將輸入文本中的內容歸納成條列式甚至表格的形式。基於上述,應當理解的是,本專利說明書所述的「生成式」處理方式,與另一種只從輸入文本中擷取部分內容來拼湊成輸出文本的「萃取式」(亦稱抽取式或節錄式,英文為「Extractive」)處理方式完全不同。
進一步參閱圖2A及圖2B,以下示例性地詳細說明本實施例的該摘要產生系統1如何實施一摘要產生方法。
首先,在步驟S1中,該處理單元11接收一來自於該使用者端5的音訊資料。具體而言,該音訊資料例如是由該使用者端5根據使用者的操作而透過網路傳送至該處理單元11(亦即上傳至本實施例的摘要產生系統1),而且,該音訊資料可例如是一段有聲影片(例如演說或者訪談的影片)中的音訊部分,也可例如是一個錄音檔(例如單人語音或多人會議的錄音)。接著,流程進行至步驟S2。
在步驟S2中,該處理單元11利用該語音處理模型M0對該音訊資料所呈現出的語音進行分析,並判斷該音訊資料是屬於一僅呈現出單一說話者之語音的單人發言類型,還是一呈現出多個說話者之語音的多人發言類型。若該處理單元11判定該音訊資料是屬於該單人發言類型,流程進行至步驟S3。另一方面,若該處理單元11判定該音訊資料是屬於該多人發言類型,流程則進行至步驟S11。
在接續於步驟S2之後的步驟S3中,在判定該音訊資料屬於該單人發言類型的情況下,該處理單元11利用語音轉文字技術根據該音訊資料所呈現出的語音產生一具有一群文字的原始文本資料(在此將其作為本實施例的一第一原始文本資料)。更明確地說,該第一原始文本資料係以文字呈現出該音訊資料的語音內容,而相當於該音訊資料的逐字稿。在該處理單元11產生該第一原始文本資料之後,流程進行至步驟S4。
在步驟S4中,該處理單元11對該第一原始文本資料進行分詞(Tokenize),以獲得多個分詞結果。在本實施例中,每一個分詞結果是從該原始文本資料中被擷取出的單一個字元或是多個字元的組合,也就是一個Token。並且,該處理單元例如是根據一個被預先儲存好的分詞清單(也可稱作Token表)來進行分詞。舉例來說,該處理單元11例如會根據該分詞清單而將「自然語言」分詞為「自然」及「語言」等兩個分詞結果。然而,在其他實施例中,該處理單元也可以是直接將該原始文本資料的每一個字元作為一個分詞結果,例如將「自然語言」分詞為「自」、「然」、「語」、「言」等四個分詞結果,因此,該處理單元的分詞方式並不以本實施例為限。在該處理單元11獲得該等分詞結果之後,流程進行至步驟S5。
在步驟S5中,該處理單元11判斷該等分詞結果的數量是否大於等於一被預先設定好的預定門檻值。其中,該預定門檻值可例如被設定為2000,然而,該預定門檻值可根據不同的應用情境及需求而被自由設定與調整,而並不以本實施例為限。若該處理單元11的判斷結果為是,流程進行至步驟S6。另一方面,若該處理單元11的判斷結果為否,流程則進行至步驟S9。
在接續於步驟S5之後的S6中,一旦判斷出該等分詞結果的數量大於等於該預定門檻值,代表該第一原始文本資料的文本長度相對較長。在此情況下,該處理單元11利用該前端語言模型LM1以生成式處理方式根據該第一原始文本資料執行一摘要化預處理,以獲得一個以自然語言形式呈現且字元數量小於該第一原始文本資料的預處理文本資料。其中,該預處理文本資料是該前端語言模型LM1根據該第一原始文本資料執行該摘要化預處理的處理結果,而相當於該第一原始文本資料的生成式摘要。
在本實施例中,該處理單元11利用該前端語言模型LM1獲得該預處理文本資料的方式,包含將該第一原始文本資料以及一個特定的軟性提示(亦稱「連續提示」,英文為「Soft prompt」或「Continuous prompt」)輸入該前端語言模型LM1。其中,該軟性提示可以是以向量形式呈現,或者是以其他非自然語言的數值形式呈現,而且,該軟性提示例如是由該前端語言模型LM1透過提示工程(Prompt engineering)中的提示學習(Prompt learning)技術所事先預測出的。其中,所述的提示學習技術可例如但不限於是前綴調整(Prefix Tuning)、使用離散提示的初始化調整(Tuning initialized with discrete prompts),或者是軟、硬性提示的混合式調整(Hard-soft prompt hybrid tuning)。
該軟性提示是被作為本實施例中對應於該單人發言類型的一個第一軟性提示,而用於使該前端語言模型LM1據以根據呈現單人發言內容的該第一原始文本資料執行該摘要化預處理。更明確地說,該第一軟性提示是專門用來讓該前端語言模型LM1針對「單人」的發言內容產生摘要,而且,藉由該第一軟性提示,該前端語言模型LM1執行該摘要化預處理的方式,是被配置為先完整掃描輸入文本資料(此處為該第一原始文本資料)以對其內文主軸進行理解,再利用其本身的注意力(Attention)機制針對輸入文本資料中與內文主軸關聯性高的部分來撰寫摘要(相當於忽略輸入文本資料中與內文主軸關聯性低以及無關聯性的部分),其中,所述的注意力機制例如是在該前端語言模型LM1的訓練階段利用梯度下降法進行學習所實現,惟,此部分屬於現有技術,故在此不詳述其細節。
如此,藉由執行該摘要化預處理,該前端語言模型LM1能夠排除該第一原始文本資料中與全文重點關聯性相對較低的內容,並針對該第一原始文本資料中與全文重點關聯性相對較高的內容撰寫摘要來產生該預處理文本資料,所以,本實施例能在該第一原始文本資料的文本長度相對較長的情況下,達成將該第一原始文本資料精簡化的效果。而且,由於該前端語言模型LM1是以生成式處理方式來產生該預處理文本資料,因此,若該第一原始文本資料中存在較多的重複性內容,相較於萃取式的處理方式,本實施例能更好地將該第一原始文本資料內容進行濃縮,從而產生資訊密度更高的預處理文本資料來作為該後端語言模型LM2的輸入。
在該處理單元11獲得該預處理文本資料之後,流程進行至步驟S7。
在步驟S7中,該處理單元11將該預處理文本資料輸入該後端語言模型LM2,而利用該後端語言模型LM2以生成式處理方式根據該預處理文本資料執行一摘要生成處理,以獲得一以自然語言形式呈現且字元數量小於該預處理文本資料的摘要結果(在此將其作為本實施例中的一個第一摘要結果)。其中,該第一摘要結果是該後端語言模型LM2根據該預處理文本資料執行該摘要生成處理的處理結果,而相當於該預處理文本資料的生成式摘要。
補充說明的是,該後端語言模型LM2在本實施例中例如是根據一由該處理單元11所自動輸入的硬性提示(亦稱「離散提示」,英文為「Hard prompt」或「Discrete prompt」)來執行該摘要生成處理。並且,相較於該前端語言模型LM1所執行的摘要化預處理,該後端語言模型LM2所執行的摘要生成處理被配置為更著重在輸出文本的文字流暢度,因此,該後端語言模型LM2所輸出的該第一摘要結果,相較於該前端語言模型LM1所輸出的該預處理文本資料會具有更佳的可讀性。
在該處理單元11獲得該第一摘要結果之後,流程進行至步驟S8。
在步驟S8中,該處理單元11將該第一摘要結果傳送至該使用者端5,以致該使用者端5將該第一摘要結果以顯示的方式輸出供使用者參考。
在接續於步驟S5之後的步驟S9中,一旦判斷出該等分詞結果的數量並未大於等於該預定門檻值,代表該第一原始文本資料的文本長度相對較短。在此情況下,該處理單元11將該第一原始文本資料輸入該後端語言模型LM2,而利用該後端語言模型LM2以生成式處理方式根據該第一原始文本資料執行該摘要生成處理,以獲得另一個以自然語言形式呈現且字元數量小於該第一原始文本資料的摘要結果(在此將其作為本實施例中的一個第二摘要結果)。換句話說,在該等分詞結果的數量小於該預定門檻值的情況下,該處理單元11是直接利用該後端語言模型LM2來產生該第二摘要結果,而不會利用該前端語言模型LM1來對該第一原始文本資料執行該摘要化預處理。其中,該第二摘要結果是該後端語言模型LM2根據該第一原始文本資料執行該摘要生成處理的處理結果,而相當於該第一原始文本資料的生成式摘要。
在該處理單元11獲得該第二摘要結果之後,流程進行至步驟S10。
在步驟S10中,該處理單元11將該第二摘要結果傳送至該使用者端5,以致該使用者端5將該第二摘要結果以顯示的方式輸出供使用者參考。
在接續於步驟S2之後的步驟S11中,在判定該音訊資料屬於該多人發言類型的情況下,該處理單元11利用語音轉文字技術而根據該音訊資料所呈現出的語音產生一具有一群文字的原始文本資料(在此將其作為本實施例的一第二原始文本資料)。
類似於該第一原始文本資料的是,該第二原始文本資料同樣是以文字呈現出該音訊資料的語音內容,而相當於該音訊資料的逐字稿。然而,不同於該第一原始文本資料的是,該處理單元11產生該第二原始文本資料的方式,包含根據該語音處理模型M0對於該音訊資料的語音分析結果,利用語者分離技術將該第二原始文本資料所包含的該群文字拆分成多個被包含於該第二原始文本資料的發言部分,而且,每一個發言部分是對應於多個說話者中的其中一個說話者。更明確地說,該處理單元11所拆分出的每一發言部分是以文字呈現出對應之說話者所說出的一句話或一段話,換言之,每一個發言部分相當於該處理單元11對該群文字中某個說話者的單次發言內容進行標記的結果。所以,與該第一原始文本資料不同的是,該第二原始文本資料例如能透過被該處理單元11加入的多個說話者標籤而呈現出每一個發言部分是對應於哪一個說話者,亦即呈現出所有說話者的發言順序及各自的發言內容。
在該處理單元11產生該第二原始文本資料之後,流程進行至步驟S12。
在步驟S12中,類似於步驟S4地,該處理單元11對該第二原始文本資料進行分詞,以獲得另外多個分詞結果。接著,流程進行至步驟S13。
在步驟S13中,該處理單元11判斷另外該等分詞結果的數量是否大於等於該預定門檻值。若該處理單元11的判斷結果為是,流程進行至步驟S14。另一方面,若該處理單元11的判斷結果為否,流程則進行至步驟S17。
在接續於步驟S13之後的步驟S14中,一旦判斷出另外該等分詞結果的數量大於等於該預定門檻值,代表該第二原始文本資料的文本長度相對較長。在此情況下,該處理單元11利用該前端語言模型LM1以生成式處理方式根據該第二原始文本資料執行另一摘要化預處理,以獲得另一以自然語言形式呈現且字元數量小於該第二原始文本資料的預處理文本資料。其中,該另一預處理文本資料是該前端語言模型LM1根據該第二原始文本資料執行該另一摘要化預處理的處理結果,而相當於該第二原始文本資料的生成式摘要。
與步驟S6類似的是,該處理單元11利用該前端語言模型LM1獲得該另一預處理文本資料的方式,包含將該第二原始文本資料以及另一個以向量形式呈現且特定的軟性提示輸入該前端語言模型LM1,而且,該另一軟性提示例如亦是由該前端語言模型LM1透過提示學習技術所事先預測出的。然而,與步驟S6不同的是,該另一軟性提示是被作為本實施例中對應於該多人發言類型的一個第二軟性提示,而用於使該前端語言模型LM1據以根據呈現多人發言內容的該第二原始文本資料執行該另一摘要化預處理。更明確地說,與該第一軟性提示不同的是,該第二軟性提示是專門用來讓該前端語言模型LM1針對「多人」的發言內容產生摘要,因此,作為該第二軟性提示的向量會與作為該第一軟性提示的向量不同。
此外,值得說明的是,軟性提示可以有效避免使用硬性提示時,僅因輸入的微小差異就造成語言模型輸出結果截然不同的情形,換句話說,軟性提示能使語言模型的表現(performance)更加穩定及可靠。所以,對於呈現單人發言內容的第一原始文本資料與呈現多人發言內容的第二原始文本資料,若要使該前端語言模型LM1能因應單人發言與多人發言的差異而使用不同的摘要化策略,利用相異的軟性提示來觸發該前端語言模型LM1執行摘要化預處理,其效果會優於利用相異的硬性提示來對該前端語言模型LM1進行觸發。
在該處理單元11獲得該另一預處理文本資料之後,流程進行至步驟S15。
在步驟S15中,該處理單元11將該另一預處理文本資料輸入該後端語言模型LM2,而利用該後端語言模型LM2以生成式處理方式根據該預處理文本資料執行另一摘要生成處理,以獲得再一以自然語言形式呈現且字元數量小於該另一預處理文本資料的摘要結果(在此將其作為本實施例中的一個第三摘要結果)。其中,該第三摘要結果是該後端語言模型LM2根據該預處理文本資料執行該另一摘要生成處理的處理結果,而相當於該另一預處理文本資料的生成式摘要。
在該處理單元11獲得該第三摘要結果之後,流程進行至步驟S16。
在步驟S16中,該處理單元11將該第三摘要結果傳送至該使用者端5,以致該使用者端5將該第三摘要結果以顯示的方式輸出供使用者參考。
在接續於步驟S13之後的步驟S17中,一旦判斷出該等分詞結果的數量並未大於等於該預定門檻值,代表該第二原始文本資料的文本長度相對較短。在此情況下,該處理單元11將該第二原始文本資料輸入該後端語言模型LM2,而利用該後端語言模型LM2以生成式處理方式根據該第二原始文本資料執行該另一摘要生成處理,以獲得又一以自然語言形式呈現且字元數量小於該第二原始文本資料的摘要結果(在此將其作為本實施例中的一個第四摘要結果)。其中,該第四摘要結果是該後端語言模型LM2根據該第二原始文本資料執行該另一摘要生成處理的處理結果,而相當於該第二原始文本資料的生成式摘要。
在該處理單元11獲得該第四摘要結果之後,流程進行至步驟S18。
在步驟S18中,該處理單元11將該第四摘要結果傳送至該使用者端5,以致該使用者端5將該第四摘要結果以顯示的方式輸出供使用者參考。
以上即為本實施例之摘要產生系統1如何實施該摘要產生方法的示例說明。
特別說明的是,本實施例的步驟S1至步驟S18及圖2A、2B的流程圖僅是用於示例說明本發明摘要產生方法的其中一種可實施方式。舉例來說,在另一種實施例中,該摘要產生方法可例如包含本實施例的步驟S4~S10,但不包含步驟S1~S2及步驟S11~S18,而在又一種實施例中,該摘要產生方法可例如包含本實施例的步驟S12~S18,但不包含步驟S1~S11。此外,應當理解,即便將步驟S1至步驟S18進行合併、拆分或順序調整,若合併、拆分或順序調整之後的流程與本實施例相比係以實質相同的方式達成實質相同的功效,便仍屬於本發明摘要產生方法的可實施態樣,因此,本實施例的步驟S1至步驟S18及圖2A、2B的流程圖並非用於限制本發明的可實施範圍。
本發明還提供一種電腦程式產品的一實施例。該電腦程式產品包含一軟體程式,而且,在本實施例中,該軟體程式可選地包括該前端語言模型LM1、該後端語言模型LM2及該語音處理模型M0。其中,當一電腦系統(例如一台電腦設備或伺服設備,或者多台電腦/伺服設備的組合)載入並執行該電腦程式產品的軟體程式時,本實施例的該軟體程式能使該電腦系統被作為該摘要產生系統1而實施該摘要產生方法。補充說明的是,在另一種實施例中,該前端語言模型LM1、該後端語言模型LM2及該語音處理模型M0是被儲存於一遠端伺服系統,而該軟體程式是被配置為使該電腦系統透過網路與該遠端伺服系統通訊電連接,進而在實施該摘要產生方法的過程中存取該遠端伺服系統所儲存的前端語言模型LM1、後端語言模型LM2及語音處理模型M0。因此,該前端語言模型LM1、該後端語言模型LM2及該語音處理模型M0不必然要被包含在該軟體程式中。
綜上所述,藉由實施該摘要產生方法,該摘要產生系統1能在原始文本資料(即該第一或第二原始文本資料)的文本長度相對較長的情況下,先利用該前端語言模型LM1以生成式處理方式執行摘要化預處理來產生字數少於原始文本資料的預處理文本資料,再利用該後端語言模型LM2根據預處理文本資料來產生要被提供至該使用者端5的摘要結果,如此一來,若該後端語言模型LM2存在單次輸入字元數量的限制,本實施例能有助於提升該後端語言模型LM2的應用彈性,進而提供泛用性更佳的自動摘要生成功能。另一方面,由於該前端語言模型LM1是以生成式處理方式來產生該預處理文本資料,因此,若該第一或第二原始文本資料中存在較多的重複性內容,相對於萃取式的處理方式,該摘要產生系統1能更好地將該第一原始文本資料內容進行濃縮,從而產生資訊密度更高的預處理文本資料來作為該後端語言模型LM2的輸入。綜合上述,本實施例利用了兩個生成式的語言模型實現了高泛用性的摘要產生系統1,而且能利用該前端語言模型LM1對原始文本資料進行預處理來提升該後端語言模型LM2產生摘要結果的表現,故確實能達成本發明之目的。
惟以上所述者,僅為本發明之實施例而已,當不能以此限定本發明實施之範圍,凡是依本發明申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾,皆仍屬本發明專利涵蓋之範圍內。
1:摘要產生系統
11:處理單元
12:儲存單元
M0:語音處理模型
LM1:前端語言模型
LM2:後端語言模型
5:使用者端
S1~S18:步驟
本發明之其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中:
圖1是一方塊示意圖,示例性地表示本發明摘要產生系統的一實施例,以及一適合與該實施例配合應用的使用者端;及
圖2A是一流程圖的其中一部分,用於示例性地說明該實施例如何實施一摘要產生方法的步驟S1至步驟S10;及
圖2B是該流程圖的另一部分,用於示例性地說明該實施例如何實施該摘要產生方法的步驟S11至步驟S18。
S1~S10:步驟
Claims (3)
- 一種摘要產生方法,由一摘要產生系統實施,該摘要產生系統適用於與一使用者端電連接,且儲存有以機器學習技術實現的一前端語言模型及一後端語言模型;該摘要產生方法包含:(A)接收一來自該使用者端的音訊資料,判斷該音訊資料是屬於一僅呈現出單一說話者之語音的單人發言類型,還是一呈現出多個說話者之語音的多人發言類型,並根據該音訊資料所呈現出的語音產生一原始文本資料,其中,在判定該音訊資料屬於該多人發言類型的情況下,該摘要產生系統產生該原始文本資料的方式,包含將該原始文本資料所包含的一群文字拆分成多個各自對應於該等說話者之其中一說話者的發言部分;(B)對該原始文本資料進行分詞以獲得多個分詞結果,並判斷該等分詞結果的數量是否大於等於一預定門檻值;(C)在判斷出該等分詞結果的數量大於等於該預定門檻值的情況下,利用該前端語言模型以生成式處理方式根據該原始文本資料執行一摘要化預處理,以獲得一以自然語言形式呈現且字元數量小於該原始文本資料的預處理文本資料,再利用該後端語言模型以生成式處理方式根據該預處理文本資料執行一摘要生成處理,以獲得一以自然語言形式呈現且字元數量小於該預處理文本資料的摘要結果,以及將該摘要結果提供至該使用者端輸出,其中, 該摘要產生系統利用該前端語言模型獲得該預處理文本資料的方式,包含將該原始文本資料以及一由一語言模型所預測出的軟性提示輸入該前端語言模型,該軟性提示是用於使該前端語言模型根據該原始文本資料執行該摘要化預處理,若該音訊資料是屬於該單人發言類型,該摘要產生系統輸入該前端語言模型的該軟性提示為一對應於該單人發言類型的第一軟性提示,若該音訊資料是屬於該多人發言類型,該摘要產生系統輸入該前端語言模型的該軟性提示為一對應於該多人發言類型且與該第一軟性提示不同的第二軟性提示;及(D)在判斷出該等分詞結果的數量未大於等於該預定門檻值的情況下,利用該後端語言模型以生成式處理方式根據該原始文本資料執行該摘要生成處理,以獲得另一以自然語言形式呈現且字元數量小於該原始文本資料的摘要結果,以及將該另一摘要結果提供至該使用者端輸出。
- 一種摘要產生系統,適用於與一使用者端配合;該摘要產生系統包含:一處理單元,適用於與該使用者端電連接;及一儲存單元,電連接該處理單元,且儲存有以機器學習技術實現的一前端語言模型及一後端語言模型;其中,該處理單元用於:接收一來自該使用者端的音訊資料,判斷該音訊資料是屬於一僅呈現出單一說話者之語音的單人發言類型,還是一呈現出多個說話者之語音的多人發言類型,並根據該 音訊資料所呈現出的語音產生一原始文本資料,其中,在判定該音訊資料屬於該多人發言類型的情況下,該處理單元產生該原始文本資料的方式,包含將該原始文本資料所包含的一群文字拆分成多個各自對應於該等說話者之其中一說話者的發言部分;對一原始文本資料進行分詞以獲得多個分詞結果,並判斷該等分詞結果的數量是否大於等於一預定門檻值;在判斷出該等分詞結果的數量大於等於該預定門檻值的情況下,利用該前端語言模型以生成式處理方式根據該原始文本資料執行一摘要化預處理,以獲得一以自然語言形式呈現且字元數量小於該原始文本資料的預處理文本資料,再利用該後端語言模型以生成式處理方式根據該預處理文本資料執行一摘要生成處理,以獲得一以自然語言形式呈現且字元數量小於該預處理文本資料的摘要結果,以及將該摘要結果提供至該使用者端輸出,其中,該處理單元利用該前端語言模型獲得該預處理文本資料的方式,包含將該原始文本資料以及一由一語言模型所預測出的軟性提示輸入該前端語言模型,該軟性提示是用於使該前端語言模型根據該原始文本資料執行該摘要化預處理,若該音訊資料是屬於該單人發言類型,該處理單元輸入該前端語言模型的該軟性提示為一對應於該單人發言類型的第一軟性提示,若該音訊資料是屬於該多人發言類型,該處理單元輸入該前端語言模型的該軟性提示為一對應於該多人發言類型且與該第一軟性提示不同的第二軟 性提示;在判斷出該等分詞結果的數量未大於等於該預定門檻值的情況下,利用該後端語言模型以生成式處理方式根據該原始文本資料執行該摘要生成處理,以獲得另一以自然語言形式呈現且字元數量小於該原始文本資料的摘要結果,以及將該另一摘要結果提供至該使用者端輸出。
- 一種電腦程式產品,包含一軟體程式,並且,當該軟體程式被一電腦系統載入並執行時,能使該電腦系統利用以機器學習技術實現的一前端語言模型及一後端語言模型執行如請求項1所述的摘要產生方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW112117305A TWI823815B (zh) | 2023-05-10 | 2023-05-10 | 摘要產生方法及系統與電腦程式產品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW112117305A TWI823815B (zh) | 2023-05-10 | 2023-05-10 | 摘要產生方法及系統與電腦程式產品 |
Publications (1)
Publication Number | Publication Date |
---|---|
TWI823815B true TWI823815B (zh) | 2023-11-21 |
Family
ID=89722877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112117305A TWI823815B (zh) | 2023-05-10 | 2023-05-10 | 摘要產生方法及系統與電腦程式產品 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI823815B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI493363B (zh) * | 2011-12-28 | 2015-07-21 | Intel Corp | 資料流之即時自然語言處理 |
CN109920409A (zh) * | 2019-02-19 | 2019-06-21 | 标贝(深圳)科技有限公司 | 一种声音检索方法、装置、系统及存储介质 |
TW202207109A (zh) * | 2020-08-07 | 2022-02-16 | 國立中央大學 | 工程專案文件管理方法與系統 |
CN114461852A (zh) * | 2022-02-16 | 2022-05-10 | 中国平安人寿保险股份有限公司 | 音视频摘要提取方法、装置、设备及存储介质 |
-
2023
- 2023-05-10 TW TW112117305A patent/TWI823815B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI493363B (zh) * | 2011-12-28 | 2015-07-21 | Intel Corp | 資料流之即時自然語言處理 |
CN109920409A (zh) * | 2019-02-19 | 2019-06-21 | 标贝(深圳)科技有限公司 | 一种声音检索方法、装置、系统及存储介质 |
TW202207109A (zh) * | 2020-08-07 | 2022-02-16 | 國立中央大學 | 工程專案文件管理方法與系統 |
CN114461852A (zh) * | 2022-02-16 | 2022-05-10 | 中国平安人寿保险股份有限公司 | 音视频摘要提取方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176804B2 (en) | Analyzing textual data | |
US11823678B2 (en) | Proactive command framework | |
CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
WO2015062482A1 (en) | System and method for automatic question answering | |
WO2022078146A1 (zh) | 语音识别方法、装置、设备以及存储介质 | |
US9154629B2 (en) | System and method for generating personalized tag recommendations for tagging audio content | |
CN110164435A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
US11093110B1 (en) | Messaging feedback mechanism | |
JP2019061662A (ja) | 情報を抽出する方法及び装置 | |
US11455472B2 (en) | Method, device and computer readable storage medium for presenting emotion | |
CN109543021B (zh) | 一种面向智能机器人的故事数据处理方法及系统 | |
US20170270701A1 (en) | Image processing device, animation display method and computer readable medium | |
KR20200027331A (ko) | 음성 합성 장치 | |
CN112738557A (zh) | 视频处理方法及装置 | |
JP2019185737A (ja) | 検索方法及びそれを用いた電子機器 | |
CN113314104B (zh) | 交互对象驱动和音素处理方法、装置、设备以及存储介质 | |
Luitel et al. | Audio Sentiment Analysis using Spectrogram and Bag-of-Visual-Words | |
CN113268593A (zh) | 意图分类和模型的训练方法、装置、终端及存储介质 | |
TWI823815B (zh) | 摘要產生方法及系統與電腦程式產品 | |
Deena et al. | Exploring the use of acoustic embeddings in neural machine translation | |
WO2020004401A1 (ja) | 回答文選択装置、方法、およびプログラム | |
CN110942775B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
KR102624790B1 (ko) | 다중 의도 발화의 의도 분석 및 처리를 위한 자연어 처리 장치, 프로그램 및 그것의 제어 방법 | |
JP7287459B2 (ja) | 発話画像化装置、発話画像化方法及びプログラム | |
US20230410787A1 (en) | Speech processing system with encoder-decoder model and corresponding methods for synthesizing speech containing desired speaker identity and emotional style |