TWI812070B

TWI812070B - 錄音檔轉文字稿方法及系統

Info

Publication number: TWI812070B
Application number: TW111109463A
Authority: TW
Inventors: 林品銓; 陳陪蓉; 蔡宗憲; 蔡岳洋
Original assignee: 宏碁股份有限公司
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2023-08-11
Also published as: TW202338787A

Abstract

一種錄音檔轉文字稿方法及系統。此方法包括下列步驟：將錄音檔切分為多個音訊片段；利用語音辨識模型將音訊片段轉換為對應的多個原始文字串；對原始文字串進行文字校正而獲取多個經校正文字串；以及將經校正文字串輸入至機器學習模型而產生對應的多個目標文字串，以根據目標文字串產生錄音檔的文字稿，其中各目標文字串具有至少一標點符號。

Description

錄音檔轉文字稿方法及系統

本揭露是有關於一種語音辨識技術，且特別是有關於一種錄音檔轉文字稿方法及系統。

近幾年來，使用線上會議已成為企業界與教育界的新常態，線上會議可以大幅節省人員的移動時間，讓居於世界各地的人們可隨時隨地進行線上會議。但是，若企圖將長達數小時的錄音檔整理成文字稿大多還是需要仰賴人力，這樣的過程相當耗時，且無法在會後即時提供完整的會議細節紀錄給與會者參考。現有絕大部分的語音辨識模型具有語音輸入長度的限制，大多著重在短語句的識別，難以處理長達數小時的語音檔。

此外，標點符號在中文的閱讀上有相當程度的重要性，是識別講者欲傳達意涵的關鍵，但講者在說話的過程當中並不會把標點符號唸出來。在此情況下，語音識別技術僅能單純將講者說出的語句轉換為不具備標點符號的文字串，如此產生的文稿讓人難以閱讀且不易理解講者的欲傳達意涵。

有鑑於此，本發明提出一種錄音檔轉文字稿方法及系統，可將冗長的錄音檔轉換為適於閱讀的文字稿。

本揭露一實施例提供一種錄音檔轉文字稿方法。此方法包括下列步驟：將錄音檔切分為多個音訊片段；利用語音辨識模型將音訊片段轉換為對應的多個原始文字串；對原始文字串進行文字校正而獲取多個經校正文字串；以及將經校正文字串輸入至機器學習模型而產生對應的多個目標文字串，以根據目標文字串產生錄音檔的文字稿，其中各目標文字串具有至少一標點符號。

本揭露一實施例提供一種錄音檔轉文字稿系統，其包括儲存裝置及處理器。儲存裝置耦接處理器，並記錄有多個指令。處理器經配置執行前述指令以：將錄音檔切分為多個音訊片段；利用語音辨識模型將音訊片段轉換為對應的多個原始文字串；對原始文字串進行文字校正而獲取多個經校正文字串；以及將經校正文字串輸入至機器學習模型而產生對應的多個目標文字串，以根據目標文字串產生錄音檔的文字稿，其中各目標文字串具有至少一標點符號。

為讓本揭露能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

本發明的部份實施例接下來將會配合附圖來詳細描述，以下的描述所引用的元件符號，當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份，並未揭示所有本發明的可實施方式。更確切的說，這些實施例只是本發明的專利申請範圍中的系統與方法的範例。

圖1是根據本發明一實施例所繪示的錄音檔轉文字稿系統的方塊圖。請參照圖1，本發明實施例的錄音檔轉文字稿系統10包括儲存裝置110與處理器120。儲存裝置110耦接處理器120。錄音檔轉文字稿系統10可實作成具有運算能力的筆記型電腦、桌上型電腦、伺服器、工作站等計算機裝置。

儲存裝置110用以儲存資料與供處理器120存取的軟體模組（例如作業系統、應用程式、驅動程式）等資料，其可以例如是任意型式的固定式或可移動式隨機存取記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、快閃記憶體（flash memory）、硬碟或其組合。

處理器120例如是中央處理單元（central processing unit，CPU）、應用處理器（application processor，AP），或是其他可程式化之一般用途或特殊用途的微處理器（microprocessor）、數位訊號處理器（digital signal processor，DSP）、影像訊號處理器（image signal processor，ISP）、圖形處理器（graphics processing unit，GPU）或其他類似裝置、積體電路及其組合。處理器120可存取並執行記錄在儲存裝置110中的軟體模組，以實現本發明實施例中的錄音檔轉文字稿方法。上述軟體模組可廣泛地解釋為意謂指令、指令集、代碼、程式碼、程式、應用程式、軟體套件、執行緒、程序、功能等，而不管其是被稱作軟體、韌體、中間軟體、微碼、硬體描述語言亦或其他者。

詳細而言，圖2是依照本發明一實施例所繪示的錄音檔轉文字稿方法的流程圖。請同時參照圖1及圖2，本實施例的方法適用於上述的錄音檔轉文字稿系統10。以下即搭配錄音檔轉文字稿系統10的各項元件說明本實施例的錄音檔轉文字稿方法的詳細步驟。

需說明的是，於一些實施例中，當處理器120執行一線上會議，處理器120可對線上會議進行錄音而獲取一錄音檔。處理器120可以利用線上會議軟體內建的錄音功能對線上會議進行錄音。或者，處理器120也可利用Windows作業系統內建的音訊錄製軟體對線上會議進行錄音。於其他實施例中，處理器120可經由網路介面或任何資料傳輸介面接收其他電子裝置傳遞而來的錄音檔。於一些實施例中，錄音檔可以是線上會議或線上教學的錄音檔，但本發明不限制於此。

在步驟S210中，由處理器120將錄音檔切分為多個音訊片段。換言之，錄音檔的時域音頻訊號會被處理器120切割成多個音訊片段。基於人類說話時需要換氣的需求，且換氣的時機點大多落在句子與句子之間，處理器120可根據錄音檔的音頻訊號的震幅強度將錄音檔切分為多個音訊片段。

舉例而言，圖3是依照本發明一實施例所繪示的音訊切割的流程圖。請參照圖3，於步驟S301，由處理器120對錄音檔的音頻訊號進行一平滑處理而獲取平滑化音頻訊號。

詳細而言，於一些實施例中，由於錄音檔的音頻訊號的取樣頻率基本上皆大於8k Hz，即一秒取多於8000個樣本點，因此前述音頻訊號之時域樣本點之間的震幅強度變化很大。於是，處理器120可先對錄音檔的音頻訊號進行平滑處理來平滑音頻訊號，以降低雜訊干擾而確保找到適當的目標切分點。

於一些實施例中，處理器120可基於一取樣窗長度對錄音檔的音頻訊號進行統計運算而獲取多筆音頻運算值，而獲取包括前述音頻運算值的平滑化音頻訊號。取樣窗長度可以是音頻訊號的取樣頻率乘上一預設比例。例如，假設錄音檔的取樣頻率為8k Hz，取樣窗長度可設定為0.01乘上8000而等於80，但本發明不限制於此，取樣窗長度可視實際應用而彈性設置。於是，假設取樣窗長度等於80個樣本點，處理器120可利用取樣窗對錄音檔的音頻訊號一次取80個原始樣本點進行統計運算而獲取對應的一筆音頻運算值。如此一來，藉由移動取樣窗對錄音檔的音頻訊號重複進行取樣以及對取樣窗內的原始樣本點所對應的震幅強度執行統計運算，處理器120可獲取由多筆音頻運算值組成的平滑化音頻訊號。前述的統計運算可以包括計算平均值或取中位數等等。舉例而言，利用取樣窗取80個取樣點之後，處理器120可計算這80的取樣點的震幅強度的平均而獲取一筆音頻運算值。

接著，於步驟S302，由處理器120於平滑化音頻訊號中尋找震幅強度小於閾值的多個候選切分點。詳細而言，多筆音頻運算值是音頻訊號之原始樣本點所對應的震幅強度的統計運算值，而處理器120將逐一判斷組成平滑化音頻訊號的多筆音頻運算值是否小於閾值。換言之，透過比對閾值與組成平滑化音頻訊號的多筆音頻運算值，處理器120可尋找出音頻訊號中震幅強度較弱的低強度區間。

更詳細而言，於一些實施例中，處理器120可判斷平滑化音頻訊號的各筆音頻運算值是否小於閾值。若平滑化音頻訊號的某一筆音頻運算值小於閾值，處理器120可將小於閾值的該筆音頻運算值判定為一個候選切分點。基於此，處理器120可決定出平滑化音頻訊號的多個候選切分點。需說明的是，前述閾值可為對錄音檔的音頻訊號的震幅強度進行統計運算而決定。舉例而言，處理器120可以取平滑化音頻訊號的多筆音頻運算值的百分位數作為閾值，但本發明不限制於此。由於不同錄音檔的音訊強度是具有差異性的，因此同一閾值可能不適合不同錄音檔。於本發明一實施例中，基於錄音檔的音頻訊號的震幅強度決定閾值可避免因為固定閾值挑選到不適合的候選切分點。

之後，於步驟S303，由處理器120根據一最小音訊片段長度要求自候選切分點尋找多個目標切分點，以根據目標切分點將錄音檔切分為音訊片段。詳細來說，若講者講話方式容易結巴或同一句子中間有多次停頓，前一步驟所獲取之候選切分點之間的間隔可能會很近。若直接使用間隔很近的候選切分點切割錄音檔，錄音檔將被切分得過於破碎。於是，於一些實施例中，處理器120可設定一個最小音訊片段長度要求，此最小音訊片段長度要求可依據實際要求而設置，本發明對此不限制。藉由設置最小音訊片段長度要求而自候選切分點挑選出多個目標切分點，可確保音訊片段的長度大於最小音訊片段長度。

更詳細而言，於一些實施例中，在將候選切分點其中之一確定為目標切分點其中之一之後，處理器120判斷目標切分點其中之一與候選切分點其中之另一（即下一個候選切分點）之間的間隔是否大於最小音訊片段長度要求。若目標切分點其中之一與候選切分點其中之另一（即下一個候選切分點）之間的間隔大於最小音訊片段長度要求，處理器120將候選切分點其中之另一判定為目標切分點其中之另一。若目標切分點其中之一與候選切分點其中之另一（即下一個候選切分點）之間的間隔未大於最小音訊片段長度要求，處理器120繼續判斷目標切分點其中之一與候選切分點其中之又一（即再下一個候選切分點）之間的間隔是否大於最小音訊片段長度要求。如此一來，任兩個相鄰的目標切分點之間的間隔會大於最小音訊片段長度要求，以避免錄音檔被切割的過於破碎。補充說明的是，本揭露之間隔代表時間間隔。

舉例而言，圖4是依照本發明一實施例所繪示的音訊切割的範例。請參照圖4，在對錄音檔的音頻訊號Au1進行平滑處理後，處理器120可獲取多個候選切分點（如圖4之虛線標示處）。接著，在處理器120將候選切分點CP1確定為目標切分點TP1之後，處理器120判斷下一個候選切分點CP2與目標切分點TP1之間的間隔是否大於最小音訊片段長度要求。由於候選切分點CP2與目標切分點TP1之間的間隔並未大於最小音訊片段長度要求，因此候選切分點CP2未被確認為目標切分點，並且處理器120繼續判斷目標切分點TP1與下一個候選切分點CP3之間的間隔是否大於最小音訊片段長度要求。於圖4的範例中，於低強度區段Z1中，目標切分點TP1與其他候選切分點之間的間隔都未大於最小音訊片段長度要求。之後，處理器120判斷候選切分點CP4與目標切分點TP1之間的間隔是否大於最小音訊片段長度要求。由於候選切分點CP4與目標切分點TP1之間的間隔大於最小音訊片段長度要求，因此候選切分點CP4被處理器120確認為目標切分點TP2。依此類推，在獲取目標切分點TP2與TP3之後，錄音檔的音頻訊號Au1可被處理器120分割為三個音訊片段Seg1~Seg3。

回到圖2，在步驟S220中，由處理器120利用一語音辨識模型將多個音訊片段轉換為對應的多個原始文字串。上述語音辨識模型可以是任何具備將人類語言轉換為文字輸出之能力的機器學習模型，可包括隱式馬爾可夫模型、高斯混合模型、深層神經網路模型、n元語法模型及其他統計模型，本發明對此不限制。於本發明一實施例中，處理器120可使用預先訓練好的Citrinet模型來進行語音辨識。

在步驟S230中，由處理器120對原始文字串進行文字校正而獲取多個經校正文字串。詳細而言，基於講者的口音、腔調或發音不正確等原因，前述步驟中的語音辨識模型可能輸出錯字。於是，於一些實施例中，處理器120可利用預先訓練好的掩碼語言模型（Masked Language Model，MLM）與搭配中文注音符號的特性來對原始文字串進行文字校正而獲取多個經校正文字串。更進一步來說，針對原始文字串中任意挖空文字，處理器120可利用蒙面語言模型搜尋符合原始文字串的前後文的語義的候選字。之後，處理器120可基於中文注音符號的特性從這些候選字中篩選出發音較相似的字作為校正後文字，以獲取對應於原始文字串的經校正文字串。需說明的是，這些經校正文字串並不具備任何標點符號。基於處理器120尋找切分點的前述說明可知，這些經校正文字串可分別視為不具備標點符號的句子。

在步驟S240中，由處理器120將經校正文字串輸入至一機器學習模型而產生對應的多個目標文字串，以根據目標文字串產生錄音檔的文字稿。前述各目標文字串具有至少一標點符號。機器學習模型已經預先訓練完成，且機器學習模型的模型參數儲存於儲存裝置110中。

圖5是依照本發明一實施例所繪示的加入標點符號的範例。請參照圖5，用以添加標點符號的機器學習模型可包括一序列到序列（Seq2Seq）模型50，Seq2Seq模型50可根據一個輸入序列來生成另一個輸出序列。於本實施例中，處理器120將各個經校正文字串CStr_1~CStr_N逐一輸入至Seq2Seq模型50，而使Seq2Seq模型50分別輸出具有標點符號的目標文字串TStr_1~TStr_N。藉此，處理器120可結合目標文字串TStr_1~TStr_N而產生錄音檔的文字稿。舉例而言，假設經校正文字串CStr_1可以是「你好我叫查理」，Seq2Seq模型50輸出的對應目標文字串TStr_1可以是「你好!我叫查理。」。上述的Seq2Seq模型50的訓練資料可包括多筆不具備標點符號的句子以及多筆具備標點符號的正確句子。經過大量訓練資料的訓練，此Seq2Seq模型50可根據句子的語義自動判斷於哪個地方該放入哪個合適的標點符號。

於一些實施例中，Seq2Seq模型50具有Transformer架構而具備一編碼器與一解碼器。透過大量未標示標點符號的句子以及具有正確標點符號的句子的訓練，具有Transformer架構的Seq2Seq模型50可以預先訓練好並儲存於儲存裝置110中。舉例而言，Seq2Seq模型50可以是BART（Bidirectional and Auto-Regressive Transformers）模型。BART模型是一種兼具上下文語義資訊和自回歸特性的Transformer。BART模型的編碼器是一種雙向編碼器，而BART模型的解碼器是一種從左至右解碼器。於一實施例中，BART模型的編碼器可以是BERT（Bidirectional Encoder Representations from Transformers）模型，而BART模型的解碼器可以是GPT（Generative Pre-training）模型。詳細而言，透過大量未標示標點符號的句子以及具有正確標點符號的句子的訓練，BART模型可以學習到要在什麼位置插入適當的標點符號。

圖6A至圖6C是依照本發明一實施例所繪示的BART模型的範例。請先參照圖6A，假設輸入至BART模型的經校正文字串CStr_1是「你好我叫查理」。BART模型的編碼器61可理解經校正文字串CStr_1的整段語義並據以輸出代表句子語義的代表向量v1。BART模型的解碼器62可根據編碼器61提供的代表向量v1與先前預測前文來預測出目前字元，先前預測前文可視為現階段語義的理解。換言之，BART模型學習可根據整段語義的理解加上現階段語義的理解，來輸出下一個位置合適的字元。如圖6A所示，當解碼時間標籤為3（decoding time step=3），BART模型的解碼器62可根據編碼器61提供的代表向量v1與先前預測的前文「您好」來預測當前輸出字元「!」。

接著，請參照圖6B，當解碼時間標籤為4（decoding time step=4），BART模型的解碼器62可根據編碼器61提供的代表向量v1與先前預測的前文「您好!」來預測當前輸出字元「我」。之後，請參照圖6C，當解碼時間標籤為8（decoding time step=8），BART模型的解碼器62可根據編碼器61提供的代表向量v1與先前預測的前文「您好!我叫查理」來預測當前輸出字元「。」。最終，BART模型所產生之具有標點符號目標文字串TStr_1即為「你好!我叫查理。」。由此可知，透過預先訓練好的BART模型，處理器120可將標點符號添加至各個音訊片段對應的經校正文字串而產生目標文字串。

此外，於一些實施例中，處理器120還可辨識音訊片段的聲音特徵，以對不同講者說出的音訊片段進行區分。聲音特徵可以是頻域上的頻譜特徵、音頻高低或說話速度等等。也就是說，處理器120可分析這些音訊片段的聲音特徵，並根據各音訊片段的聲音特徵而將各音訊片段分類為對應至多位講者其中之一。如此一來，處理器120可利用第一視覺效果將對應至某一位講者的一些音訊片段的一些目標文字串呈現於錄音檔的文字稿中，並利用第二視覺效果將對應至另一位講者的一些音訊片段的一些目標文字串呈現於錄音檔的文字稿中。前述的第一視覺效果與第二視覺效果例如是不同的字體顏色、字型或字體粗細等等。藉此，閱讀者可透過閱讀錄音檔的文字稿而更加快速理解線上會議的開會狀況。

綜上所述，於本發明實施例中，可尋找出適當的切分點來將錄音檔切割為多個音訊片段，並對這些音訊片段的語音辨識結果進行文字校正與標點符號添加的相關操作，因而可將長達數小時的會議錄音檔快速轉為適於閱讀的文字稿。如此一來，不僅可以在會後即時提供逐字稿給與會者參考，也能省去記錄人員打字的時間，便於進行後續的呈現與報告。

雖然本揭露已以實施例揭露如上，然其並非用以限定本揭露，任何所屬技術領域中具有通常知識者，在不脫離本揭露的精神和範圍內，當可作些許的更動與潤飾，故本揭露的保護範圍當視後附的申請專利範圍及其均等範圍所界定者為準。

10:錄音檔轉文字稿系統 110:儲存裝置 120:處理器 Au1:音頻訊號 CP1~CP4:候選切分點 TP1~TP3:目標切分點 Seg1~Seg3:音訊片段 Z1:低強度區段 50:Seq2Seq:模型 CStr_1~CStr_N:經校正文字串 TStr_1~TStr_N:目標文字串 61:編碼器 62:解碼器 v1:代表向量 S210~S240, S301~S303:步驟

圖1是根據本發明一實施例所繪示的錄音檔轉文字稿系統的方塊圖。圖2是依照本發明一實施例所繪示的錄音檔轉文字稿方法的流程圖。圖3是依照本發明一實施例所繪示的音訊切割的流程圖。圖4是依照本發明一實施例所繪示的音訊切割的範例。圖5是依照本發明一實施例所繪示的加入標點符號的範例。圖6A至圖6C是依照本發明一實施例所繪示的BART模型的範例。

S210~S240:步驟

Claims

一種錄音檔轉文字稿方法，所述方法包括下列步驟：將一錄音檔切分為多個音訊片段，步驟包括：對所述錄音檔的音頻訊號進行一平滑處理而獲取平滑化音頻訊號；於所述平滑化音頻訊號中尋找震幅強度小於一閾值的多個候選切分點；以及根據一最小音訊片段長度要求自所述候選切分點尋找多個目標切分點，以根據所述目標切分點將所述錄音檔切分為所述音訊片段；利用一語音辨識模型將所述音訊片段轉換為對應的多個原始文字串；對所述原始文字串進行文字校正而獲取多個經校正文字串；以及將所述經校正文字串輸入至一機器學習模型而產生對應的多個目標文字串，以根據所述目標文字串產生所述錄音檔的文字稿，其中各所述目標文字串經所述機器學習模型訓練後具有至少一標點符號。
如請求項1所述的錄音檔轉文字稿方法，其中對所述錄音檔的音頻訊號進行所述平滑處理而獲取平滑化音頻訊號的步驟包括：基於一取樣窗長度對所述錄音檔的音頻訊號進行統計運算而獲取多筆音頻運算值，而獲取包括所述音頻運算值的所述平滑化音頻訊號。
如請求項2所述的錄音檔轉文字稿方法，其中於所述平滑化音頻訊號中尋找震幅強度小於所述閾值的所述候選切分點的步驟包括：判斷所述平滑化音頻訊號的所述音頻運算值是否小於所述閾值；以及若是，將小於所述閾值的音頻運算值判定為所述候選切分點。
如請求項3所述的錄音檔轉文字稿方法，其中所述閾值為對所述錄音檔的音頻訊號的震幅強度進行統計運算而決定。
如請求項1所述的錄音檔轉文字稿方法，其中根據所述最小音訊片段長度要求自所述候選切分點尋找所述目標切分點，以根據所述目標切分點將所述錄音檔切分為所述音訊片段的步驟包括：在將所述候選切分點其中之一確定為所述目標切分點其中之一之後，判斷所述目標切分點其中之一與所述候選切分點其中之另一之間的間隔是否大於所述最小音訊片段長度要求；以及若是，將所述候選切分點其中之另一判定為所述目標切分點其中之另一；以及若否，繼續判斷所述目標切分點其中之一與所述候選切分點其中之又一之間的間隔是否大於所述最小音訊片段長度要求。
如請求項1所述的錄音檔轉文字稿方法，其中所述機器學習模型包括一序列到序列(Seq2Seq)模型。
如請求項6所述的錄音檔轉文字稿方法，其中所述Seq2Seq模型具有Transformer架構而具備一編碼器與一解碼器。
如請求項1所述的錄音檔轉文字稿方法，所述方法更包括：當執行一線上會議，對所述線上會議進行錄音而獲取所述錄音檔。
一種錄音檔轉文字稿系統，包括：儲存裝置，紀錄有多個指令；以及處理裝置，連接所述儲存裝置，經配置執行所述指令以：將一錄音檔切分為多個音訊片段，步驟包括：對所述錄音檔的音頻訊號進行一平滑處理而獲取平滑化音頻訊號；於所述平滑化音頻訊號中尋找震幅強度小於一閾值的多個候選切分點；以及根據一最小音訊片段長度要求自所述候選切分點尋找多個目標切分點，以根據所述目標切分點將所述錄音檔切分為所述音訊片段；利用一語音辨識模型將所述音訊片段轉換為對應的多個原始文字串；對所述原始文字串進行文字校正而獲取多個經校正文字串；以及將所述經校正文字串輸入至一機器學習模型而產生對應的多個目標文字串，以根據所述目標文字串產生所述錄音檔的文字稿，其中各所述目標文字串經所述機器學習模型訓練後具有至少一標點符號。