TWI764328B

TWI764328B - 一種具有發言自動書記之智慧型會議室系統

Info

Publication number: TWI764328B
Application number: TW109136196A
Authority: TW
Inventors: 陳永承; 陳聖言; 謝佳彣; 游伊薇; 戴君翰; 葉佳龍; 湯士堅
Original assignee: 國家中山科學研究院
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2022-05-11
Also published as: TW202217796A

Abstract

一種具有發言自動書記之智慧型會議室系統，包括：前置單元係用於接收複數使用者提供的複數預約資訊，並根據該複數預約資訊進行排列從而獲得每一筆該預約資訊的報到資訊，該報到資訊則傳遞給複數與會人員；操作單元係電性連接該前置單元，當該複數與會人員根據該報到資訊進行報到，該操作單元根據該報到資訊進行每一位與會人員的身分識別判斷，從而產生每一位與會人員的基本資訊；以及處理單元係電性連接該操作單元，該處理單元用於統計複數會議人員所發表的內容，並進行處理從而產生複數會議資訊，並將複數會議資訊提供每一位與會人員。

Description

一種具有發言自動書記之智慧型會議室系統

本發明係關於一種會議室系統，特別是關於一種具有發言自動書記之智慧型會議室系統。

傳統會議室開會作業中，安排會議室及會議時間、通知與會人員、準備會議相關資料和會議紀錄的方法均主要以人工方式，尤其會議紀錄是於會議現場即時撰寫會議紀錄稿；隨著電腦技術的躍進，漸漸於會議室中增加硬體設備，如環景攝影機、指向性麥克風、情境照明等，和軟體設備，如會議線上預約、管理及廣播系統等，以改善會議繁雜的前置作業須處理的事務，並增加會議安排的彈性。

現今會議室具有會議智慧預約、以影像辨識發言人身分、語音辨識功能並可即時於線上翻譯多語言之語音內容及抽取式(僅摘錄文章內詞句)之會議摘要之功能，以及透過智能錄音筆雖具有語音辨識與即時翻譯功能，但未發展語者辨識、會議摘要等功能，不足以滿足智慧型會議室之需求；另外，還有提出的技術其包含會議紀錄裝置、影像擷取模組以及聲音擷取模組，影像擷取模組可將會議空間的環景影像傳送至會議紀錄裝置進行人臉辨識，並且聲音擷取模組亦可以將聲音訊號同步傳送至會議紀錄裝置，使會議紀錄裝置可透過語音及影像辨識出發言人身分，並進一步將其談話內容編碼成文字形式的會議紀錄檔案。

然而，由於傳統會議紀錄方式以人工方式為主，此方式容易因打字人員漏聽訊息，造成會議紀錄不完整，因此，採取人工方式的會議紀錄之方法，通常打字人員會搭配錄音設備，於會議結束後，聽取錄音檔案並打出會議逐字稿，這個做法容易因為不同發言人之語調過於相似，而造成打字人員無法識別出誰是真正的發言人，因此也會造成會議紀錄錯誤或是不完整；另外，智能會議記錄系統以人臉影像識別發言人位置以分辨身分，則可能因影像串流造成需要大量的網路傳輸，所要負荷的網路流量較大，若單用影像辨識發言者，有時也可能因多人同時發言而導致辨識錯誤，以及在語音辨識模型中，在多人對話的情況下字錯誤率達22.3%，若是遇到特定相關領域的關鍵詞容易辨識錯誤，因此智能會議記錄系統中則無特別描述具語音辨識能力；而在會議摘要中，智能會議記錄系統也無特別描述會議摘要之能力，只說明係透過自動文件摘要技術已抽取式文件摘要方法，並抽取會議紀錄中的重要句子組成摘要，所組成的摘要語意較不通順，導致產出的會議紀錄仍需以人工方式校閱，具此，目前應用在會議紀錄編輯的技術，仍無法提供完善的解決方法。

鑒於上述習知技術之缺點，本發明提出使用具有發言自動書記之智慧型會議室系統，可透過在語者辨識中本技術以聲紋特徵辨識發言人身分，相對於用影像辨識方法，不需大量的網路傳輸，在語音辨識中，音源採多軌同時輸入，故多人對話的情況下不需分離，且本技術能針對特定領域關鍵詞進行學習，提高特定領域會議逐字稿的準確率，在會議摘要中，使用生成式文件摘要方法，重新撰寫生成摘要，以提高摘要之流暢性來解決上述的缺點。

為了達到上述目的，根據本發明所提出之一種具有發言自動書記之智慧型會議室系統，其中包括：一前置單元，係用於接收複數使用者提供的複數預約資訊，並根據該複數預約資訊進行排列從而獲得每一筆該預約資訊的一報到資訊，該報到資訊則傳遞給複數與會人員；一操作單元，係電性連接該前置單元，當該複數與會人員根據該報到資訊進行報到，該操作單元根據該報到資訊進行每一位與會人員的一身分識別判斷，從而產生每一位與會人員的一基本資訊；以及一處理單元，係電性連接該操作單元，該處理單元用於統計複數會議人員所演說的內容，並進行處理從而產生複數會議資訊，並將複數會議資訊提供每一位與會人員。

本發明的該具有發言自動書記之智慧型會議室系統，其中該前置單元包括：一預約單元，該預約單元接收複數使用者提供的複數預約資訊，當該複數預約資訊中的每一筆該預約資訊都為一確認預約資訊時該預約單元將複數預約資訊進行排列從而獲得每一筆該預約資訊的該報到資訊，若該複數預約資訊中的有一筆該預約資訊若為一取消預約資訊時該預約單元將該筆預約資訊取消而後一筆的預約資訊往前遞補並進行排列從而獲得每一筆該預約資訊的該報到資訊；以及一回饋單元，該回饋單元將該會議報到資訊則傳遞給複數與會人員。

本發明的該具有發言自動書記之智慧型會議室系統，其中該操作單元包括：一報到單元，當該複數與會人員根據該報到資訊進行報到，該報到單元根據該報到資訊進行每一位與會人員的該身分識別判斷，從而產生每一位與會人員的該基本資訊；一引導顯示單元，該引導顯示單元根據該基本資訊進行每一位與會人員的引導，並透過一顯示裝置顯示每一位與會人員的該基本資訊；以及一儲存單元，該儲存單元用於儲存每一位與會人員的該報到資訊與該基本資訊。

本發明的該具有發言自動書記之智慧型會議室系統，其中該基本資訊包含與會人員的名字、與會人員的位置圖與逃生路線標示。

本發明的該具有發言自動書記之智慧型會議室系統，其中該身分識別判斷包含識別證身分辨識、臉部辨識判斷與語音識別判斷。

本發明的該具有發言自動書記之智慧型會議室系統，其中該處理單元包括：一前處理單元，該前處理單元先將該複數會議人員進行一語音擷取從而產生出每一位會議人員對應的一語音對應訊號，以及該前處理單元將該複數會議人員所發表的內容進行前處理進而獲得一語音音訊；一語音辨識單元，該語音辨識單元將該語音音訊進行一語音辨識處理從而產生一語音辨識資訊；一摘要生成單元，該摘要生成單元將該語音辨識資訊與語音音訊進行辨識處理從而產生一摘要資訊；一語者辨識單元，該語者辨識單元將該語音音訊進行一語者辨識處理從而產生一語者辨識資訊；以及一整合單元，該整合單元將該摘要資訊與該語者辨識資訊進行一整合處理從而產生該複數會議資訊，並將複數會議資訊提供每一位與會人員。

本發明的該具有發言自動書記之智慧型會議室系統，其中該語音辨識處理係將該語音音訊先進行語音切割並產生複數段音訊，接著透過一第一判斷模組將該複數段音訊進行分析並產生複數判斷資訊，再接著將該複數判斷資訊進行組合從而產生該語音辨識資訊。

本發明的該具有發言自動書記之智慧型會議室系統，其中該語者辨識處理係將該語音音訊進行一語音轉化並產生一語音頻譜圖，接著將該語音頻譜圖進行一特徵提取從而產生複數特徵資訊，再接著透過一第二判斷模組將該複數特徵資訊進行特徵向量聚合而產生一特徵向量，接著將該特徵向量進行一正規化處理從而產生正規化資訊，再接著將該正規化資訊與該語音對應訊號進行辨識從而產生該語者辨識資訊。

本發明的該具有發言自動書記之智慧型會議室系統，其中該整合處理係將該摘要資訊與該語者辨識資訊透過一整合模組進行整合從而產生該複數會議資訊，並將複數會議資訊提供每一位與會人員。

本發明的該具有發言自動書記之智慧型會議室系統，其中該語音擷取係將該每一位會議人員進行語音錄音從而產生出每一位會議人員對應的該語音對應訊號。

以上之概述與接下來的詳細說明及附圖，皆是為了能進一步說明本創作達到預定目的所採取的方式、手段及功效。而有關本創作的其他目的及優點，將在後續的說明及圖式中加以闡述。

1:前置單元

2:操作單元

3:處理單元

11:預約單元

12:回饋單元

21:報到單元

22:引導顯示單元

23:儲存單元

31:前處理單元

32:語音辨識單元

33:摘要生成單元

34:語者辨識單元

35:整合單元

4:語音頻譜圖

5:第二判斷模組

6:特徵向量

第一圖係為本發明具有發言自動書記之智慧型會議室系統之示意圖；第二圖係為本發明語者辨識之示意圖。

以下係藉由特定的具體實例說明本創作之實施方式，熟悉此技藝之人士可由本說明書所揭示之內容輕易地了解本創作之優點及功效。

請參閱第一圖所示，本發明具有發言自動書記之智慧型會議室系統之示意圖。如圖一所示，智慧型會議室系統係由前置單元1、操作單元2與處理單元3所組成，該前置單元1係用於接收複數使用者提供的複數預約資訊，並根據該複數預約資訊進行排列從而獲得每一筆該預約資訊的一報到資訊，該報到資訊則傳遞給複數與會人員；該操作單元2，係電性連接該前置單元1，當該複數與會人員根據該報到資訊進行報到，該操作單元2根據該報到資訊進行每一位與會人員的一身分識別判斷，從而產生每一位與會人員的一基本資訊；以及一處理單元3係電性連接該操作單元2，該處理單元3用於統計複數會議人員所演說的內容，並進行處理從而產生複數會議資訊，並將複數會議資訊提供每一位與會人員，其中該基本資訊包含與會人員的名字、與會人員的位置圖與逃生路線標示，以及該身分識別判斷包含識別證身分辨識、臉部辨識判斷與語音識別判斷，而上述所述該基本資訊與該身分識別判斷不應本次實施例而有所限定。

再一較佳實施例中，該前置單元1係由該預約單元11與回饋單元12所組成，該預約單元11接收複數使用者提供的複數預約資訊，當該複數預約資訊中的每一筆該預約資訊都為一確認預約資訊時該預約單元11將複數預約資訊進行排列從而獲得每一筆該預約資訊的該報到資訊，若該複數預約資訊中的有一筆該預約資訊若為一取消預約資訊時該預約單元11將該筆預約資訊取消而後一筆的預約資訊往前遞補並進行排列從而獲得每一筆該預約資訊的該報到資訊；以及該回饋單元12將該會議報到資訊則傳遞給複數與會人員。

再另一較佳實施例中，該操作單元2係由該報到單元21、引導顯示單元22與儲存單元23所組成，當該複數與會人員根據該報到資訊進行報到，該報到單元21根據該報到資訊進行每一位與會人員的該身分識別判斷，從而產生每一位與會人員的該基本資訊；該引導顯示單元22根據該基本資訊進行每一位與會人員的引導，並透過一顯示裝置顯示每一位與會人員的該基本資訊；以及該儲存單元23用於儲存每一位與會人員的該報到資訊與該基本資訊。

再一較佳實施例中，該處理單元3係由該前處理單元31、語音辨識單元32、摘要生成單元33、語者辨識單元34與整合單元35所組成，該前處理單元31先將該複數會議人員進行一語音擷取從而產生出每一位會議人員對應的一語音對應訊號，以及該前處理單元3將該複數會議人員所發表的內容進行前處理進而獲得一語音音訊；該語音辨識單元32將該語音音訊進行一語音辨識處理從而產生一語音辨識資訊；該摘要生成單元33將該語音辨識資訊與語音音訊進行辨識處理從而產生一摘要資訊；該語者辨識單元34將該語音音訊進行一語者辨識處理從而產生一語者辨識資訊；以及該整合單元35將該摘要資訊與該語者辨識資訊進行一整合處理從而產生該複數會議資訊，並將複數會議資訊提供每一位與會人員；該整合處理係將該摘要資訊與該語者辨識資訊透過一整合模組進行整合從而產生該複數會議資訊，並將複數會議資訊提供每一位與會人員，以及該語音擷取係將該每一位會議人員進行語音錄音從而產生出每一位會議人員對應的該語音對應訊號。

該語音辨識處理係將該語音音訊先進行語音切割並產生複數段音訊，接著透過第一判斷模組將該複數段音訊進行分析並產生複數判斷資訊，再接著將該複數判斷資訊進行組合從而產生該語音辨識資訊；再一較佳實施例中，將該語音音訊先進行語音切割並產生複數段音訊，接著透過第一判斷模組將該切割後的複數段音訊進行判斷分析進而產生出每個字的機率，並將該每個字的機率排列出複數個排列資訊，接著將複數個排列資訊進行組合從而產生該語音辨識資訊。

請參閱第二圖所示，而第二圖是根據第一圖為具有發言自動書記之智慧型會議室系統再進一步說明本發明語者辨識之示意圖；該語者辨識處理係將該語音音訊進行一語音轉化並產生一語音頻譜圖4，接著將該語音頻譜圖4進行一特徵提取從而產生複數特徵資訊，再接著透過一第二判斷模組5將該複數特徵資訊進行特徵向量聚合而產生一特徵向量 6，接著將該特徵向量6進行一正規化處理從而產生正規化資訊，再接著將該正規化資訊與該語音對應訊號進行辨識從而產生該語者辨識資訊；再一較佳實施例中，該語者辨識處理係將該語音音訊利用短時距傅立葉轉換(Short-time Fourier Transform,STFT)，將一維的語音訊號由時域轉為頻域進行產生一語音頻譜圖4，該語音頻譜圖4係為一種描述波動的各頻率成分隨時間變化的圖；接著將該語音頻譜圖4透過卷積神經網路提取頻譜中的特徵從而產生複數特徵資訊，再接著將該複數特徵資訊利用該第二判斷模組5進行特徵向量聚合而產生一特徵向量6，其中該特徵向量6係為一種固定長度的特徵向量，可以視為區分性聚類，其中每個幀級的特徵向量將被分配給不同的聚類，並且將殘差編碼為輸出特徵；接著將該特徵向量6進行一正規化處理從而產生正規化資訊，再接著將該正規化資訊與該語音對應訊號進行辨識從而產生該語者辨識資訊。

需陳明者，以上所述僅為本案之較佳實施例，並非用以限制本創作，若依本創作之構想所作之改變，在不脫離本創作精神範圍內，例如：對於構型或佈置型態加以變換，對於各種變化，修飾與應用，所產生等效作用，均應包含於本案之權利範圍內，合予陳明。