TWM594323U

TWM594323U - 智能會議記錄系統

Info

Publication number: TWM594323U
Application number: TW108213858U
Authority: TW
Inventors: 薛樂山
Original assignee: 大陸商南京深視光點科技有限公司
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-04-21

Abstract

一種智能會議記錄系統，其包含有一會議記錄裝置一影像擷取模組及一聲音擷取模組，影將擷取模組可將會議空間的一環景影像傳送至會議記錄裝置進行人臉辨識，並且聲音擷取模組亦可以將聲音訊號同步傳送至會議記錄裝置，使會議記錄裝置可透過語音及影像辨識出發言人身份，並進一步將其談話內容編碼為文字形式的一會議紀錄檔案。

Description

智能會議記錄系統

本創作為一種智能會議記錄系統，尤指透過一影像擷取模組及一聲音擷取模組辨識出會議中發言人位置後，並將其聲音資訊編碼為文字的會議紀錄檔案。

過去會議記錄方式主要以人工方式，於會議現場即時編輯出文字形式的會議紀錄稿，然而，此方式容易因打字人員聽漏信息，而造成會議記錄不完整，因此，採取人工方式的會議記錄手段者，通常打字人員會搭配錄音設備，於會議結束後，聽取錄音檔案並打出逐字稿，這個作法容易因不同發言人語調過於近似，而造成打字人員無法識別出誰是真正的發言人，因此也會造成會議記錄錯誤或不完整，拜電腦應用程式便捷之賜，已有應用程式透過語音轉文字識別（Speech To Text ,STT）技術，將語音檔案編碼為文字檔案，以省去會議中打字人員不必要的人力支援，然而，目前語音轉文字識別技術仍無法自動辨識出發言人身份，最後產出的會議紀錄仍需以人工方式校閱，以及在每一段談話開頭標註發言人身份，具此，目前應用在會議記錄編輯的技術，仍無法提供完善的解決方案。

有鑑於上述的問題，本創作人係依據多年來從事相關行業的經驗，針對會議記錄系統進行研發；緣此，本創作之主要目的在於提供一種可透過語音及影像雙重確認發言人身份的智能會議記錄系統。

為達上述的目的，本創作之智能會議記錄系統，其包含有一會議記錄裝置一影像擷取模組及一聲音擷取模組，前述的裝置系設置於會議環境之中，啟動智能會議記錄系統，所述的聲音擷取模組可辨識數筆不同方向擷取到的聲音訊號，從多筆聲音訊號中識別出一第一音源和一第二音源，其中第一音源為背景雜訊、第二音源為發言人談話內容，又，影像擷取模組將一環景影像傳送至會議記錄裝置進行人臉辨識後，會議記錄裝置透過第二音源及人臉辨識雙重確認發言人身份後，會議記錄裝置即可將第二音源編碼為文字記載形式的會議紀錄檔案，據此，本創作透過影像及音訊進行發言人身份的雙重比對，使會議紀錄檔案中所記錄的每一段談話內容，都可以對應到正確的發言人身份，並且，會議記錄裝置僅需編碼第二音訊的內容，可大幅降低會議記錄裝置的運算負擔、及提高會議記錄的完整性與正確性。

為使貴審查委員得以清楚了解本創作之目的、技術特徵及其實施後之功效，茲以下列說明搭配圖示進行說明，敬請參閱。

請參閱「第1圖」，圖中所示為本創作之系統組成示意圖，如圖，本創作之智能會議記錄系統10，其包含有：一會議紀錄處理裝置101、一影像擷取模組102及一聲音擷取裝置103，所述的會議紀錄處理裝置101與影像擷取模組102及聲音擷取裝置103完成資訊連接，其中，會議紀錄處理裝置101可控制影像擷取模組102及聲音擷取裝置103，又，會議紀錄處理裝置101可對一具有深度資訊的環景影像進行分析，以對環景影像進行人臉辨識及標註，並且會議紀錄處理裝置101可擷取發言人員的一聲音訊號，將聲音訊號經過語音辨識技術轉化為一文字紀錄資訊，並對文字紀錄資訊進行標註及編輯為一會議紀錄檔案，進而將發言人員姓名可標註於每一段講稿上以供查詢；所述的影像擷取模組102設置於會議環境之中，其可以為環景攝影機，包含有數個不同攝像方向的攝像鏡頭1021，並且可進一步將各個攝像鏡頭1021所擷取到的影像合成為環景影像，使環景影像的影像範圍可涵蓋整個會議環境，再者，影像擷取模組102所擷取的環景影像更包含有一深度資訊；所述的聲音擷取裝置103設置於會議環境之中，其可以為陣列式麥克風，聲音擷取裝置103包含有數個不同收音方向的麥克風單元1031，各該麥克風單元1031可擷取不同方向的一聲音訊號，再者，聲音擷取裝置103可偵測各筆聲音訊號的強度，依據強度判斷為一第一音源或一第二音源，其中，所述的第一音源為一背景雜訊，所述的第二音源為一人聲音訊，人聲音訊特別係指發言人員的聲音訊息，其中，聲音擷取裝置103可依據一音量強度或一音頻範圍作為判斷，再者，當聲音擷取裝置103判斷出第二音源時，可進一步過濾或屏蔽第一音源，即調整被判定為第一音源的麥克風訊號，使第二音源可不受第一音源干擾，並且聲音擷取裝置103亦可將運算資源集中在處理第二音源，再者，被判定為第一音源的麥克風設備仍有擷取到第二音源，因此聲音擷取裝置103過濾或屏蔽第一音源時，接收第一音源的麥克風設備仍正常運行並持續擷取聲音訊號；又，影像擷取模組102及聲音擷取裝置103亦可以組設於會議紀錄處理裝置101，使影像擷取模組102及聲音擷取裝置103可於同一位置，同步擷取環景影像及聲音訊號。

請參閱「第2圖」，圖中所示為會議紀錄處理裝置組成示意圖，如圖，本創作之會議紀錄處理裝置101，具有一中央處理模組1011，另有一資料儲存模組1012、一空間識別模組1013、一影像處理模組1014、一語音處理模組1015與中央處理模組1011完成資訊連接，其中: (1) 所述的中央處理模組1011，供以運行會議紀錄處理裝置101及驅動上述各模組之作動，並具備邏輯運算、暫存運算結果、保存執行指令位置等功能，且其可為一中央處理器(Central Processing Unit, CPU)或一微控制器(Microcontroller Unit, MCU)； (2) 所述的資料儲存模組1012為資料儲存元件，例如半導體記憶體等的固態記憶體、一硬碟機 (Hard Disk Drive, HDD)或一固態硬碟機 (Solid State Drive, SSD)等可儲存電子資料之裝置，再者，資料儲存模組1012更包含有一人臉辨識資料庫10121、一人員資料庫10122、一會議紀錄資料庫10123和一影音資料庫10124，其中，所述的人臉辨識資料庫10121可供以儲存至少一筆人臉識別資訊，所述的人臉識別資訊可對應於與會人員，包含有臉部輪廓資料，其可以透過使用者預先載入與更新；所述的人員資料庫10122儲存有至少一人員資訊，且每一筆人員資訊可分別與其中一筆人臉識別資訊相對應，使每一位與會人員皆儲存有一筆相關聯的人員資訊與人臉識別資訊，再者，人員資訊可包含有姓名、頭銜、年齡或聯絡資料之其中一種或其組合，其可以透過使用者預先載入與更新；所述的會議紀錄資料庫10123可供以一會議紀錄檔案；所述的影音資料庫10124供以儲存或暫存環景影像、標註資訊、及聲音訊號； (3) 所述的空間識別模組1013可基於環景影像的深度資訊產生一三維座標資訊，於三維座標中可定位出各個與會者的位置及第二音源的方位； (4) 所述的影像處理模組1014具有一人臉辨識單元10141，所述的人臉辨識單元10141可從環景影像中進行人臉辨識程序，捕捉環景影像中的一人臉影像，並將人臉影像與人臉識別資訊進行比對，進而辨識出各個與會者身份，其中，所述的人臉辨識作業可透過機器學習或深度學習進行影像比對，例如人臉辨識單元10141可基於卷積神經網路(Convolutional Neural Network，CNN)進行人臉辨識訓練，更進一步例如使用Faster RCNN(Faster Region-based Convolutional Neural Network)的卷積神經網路進行人臉辨識訓練，並且可通過隨機梯度下降演算法(Stochastic Gradient Descent，SGD)進行疊代訓練，又，完成人臉辨識作業後，影像處理模組1014可以在所辨識出的各個人臉影像周圍區域進行標註，其中，影像處理模組1014係可將人員資訊標註於影像畫面，其中，標註的資訊係可以為一文字、一圖像和一條碼其中一種或其組合，更進一步說明，影像處理模組1014可於影像中產生至少一標註區塊，影像處理模組1014可於標註區塊加入標註的資訊，又，影像處理模組1014更可以基於第二音源之位置(即發言人位置)，比對環景影像的三維座標資訊，藉此以辨識及所定發言人員，並於發言人員的標註區塊中標註為發言人員； (5) 所述的語音處理模組1015可將聲音訊號轉換為文字紀錄資訊，特別指聲音擷取裝置103判斷為第二音源的聲音訊號，其中，語音處理模組1015具有一語音資料庫10151，語音資料庫10151儲存有至少一筆語音分析資料，語音處理模組1015可擷取一段聲音訊號，並比對於語音分析資料，使語音處理模組1015可將聲音訊號編碼為文字紀錄資訊，其中，語音處理模組1015係以語音轉文字識別（Speech To Text ,STT）技術、語意分析（semantic analysis）技術達成，此外，語音處理模組1015更可以透過語意分析（semantic analysis）技術修正轉化後的文字，又，語音處理模組1015並可以對文字紀錄資訊進行標註，將第二音源相對應的人員資訊(例如發言人姓名)標註於文字紀錄資訊，語音處理模組1015可再進一步將完成標記的文字紀錄資訊編輯為會議紀錄檔案，使用者調閱會議紀錄檔案時，即可比對發言對象及發言內容。

請參閱「第3圖」，圖中所示為本創作之實施示意圖(一)，請搭配參閱「第2圖」，如圖，本創作之智能會議記錄系統10，實施時，使用者可於會議進行前啟動智能會議記錄系統10，使會議紀錄處理裝置101可驅動影像擷取模組102及聲音擷取裝置103，當會議進行時，影像擷取模組102可擷取一包含有深度資訊的環景影像D1，並將環景影像D1傳送至會議紀錄處理裝置101，又，聲音擷取裝置103的各麥克風單元1031分別擷取一聲音訊號D2後，聲音擷取裝置103依據各筆聲音訊號D2的強度，識別各筆聲音訊號D2為一第一音源(背景雜訊)或一第二音源D21(發言人聲源)，再者，聲音擷取裝置103過濾掉第一音源後，可將第二音源D21傳送至會議紀錄處理裝置101，又，會議紀錄處理裝置101可進一步將接收到的環景影像D1、第二音源D21暫存於影音資料庫10124。

請參閱「第4圖」，圖中所示為本創作之實施示意圖(二)，請搭配參閱「第2圖」~「第3圖」，如圖，人臉辨識單元10141從影音資料庫10124中擷取環景影像D1，人臉辨識單元10141可對環景影像D1進行人臉辨識程序，從環景影像D1捕捉出至少一人臉影像D11，並且將各人臉影像D11比對儲存於人臉辨識資料庫10121的人臉識別資訊，進而識別出各個人臉影像D11的身份，完成人臉辨識作業後，空間識別模組1013可基於三維座標資訊比對第二音源D21的位置，並藉此辨識出第二音源D21的方位，以確認出發言人員的位置，再者，影像處理模組1014可基於第二音源D21，於其對應位置的人臉影像D11進行一人員資訊的標註作業，又，影像處理模組1014係可以進一步於發言人員的人臉影像D11周圍區域嵌入有一標註區塊D12，所述的標註區塊D12可供輸入人員資訊，例如，發言人員的頭銜、姓名或聯絡資訊等，本實施例中標註區塊D12僅標註頭銜與姓名，在其他實施例中，亦可以依據需求增列其他資訊，並不以此為限，特先陳明。

請參閱「第5圖」，圖中所示為本創作之實施示意圖(三)，請搭配參閱「第4圖」，如圖，當影像處理模組1014判斷出發言人員位置及標註發言人員後，語音處理模組1015可從影音資料庫10124中擷取第二音源D21，並透過比對語音分析資料，使語音處理模組1015可將聲音訊號編碼為一文字紀錄資訊D3，又，語音處理模組1015並可以對文字紀錄資訊D3進行標註，將第二音源D21相對應的一人員資訊D4(例如發言人姓名)標註於文字紀錄資訊D3，使用者調閱文字紀錄資訊D3時，即可比對發言對象及發言內容，再者，完成標註的文字紀錄資訊D3，語音處理模組1015可將文字紀錄資訊D3、人員資訊D4全部匯入於一會議紀錄檔案D5之中，並將會議紀錄檔案D5儲存於會議紀錄資料庫10123以供備查。

承「第5圖」，當同一時間內有多組發言人時，語音處理模組1015係可以查詢各筆文字紀錄資訊D3的人員資訊D4，按照不同的人員資訊進行識別，按照時間序列規則匯入於會議紀錄檔案D5，當使用者從會議紀錄處理裝置101調閱會議紀錄檔案D5時，使用者即可清楚的對應每一位發言人員的文字稿內容。

請參閱「第6圖」，圖中所示為本創作之另一實施例(一)，如圖，聲音擷取裝置103亦可以數支行動式麥克風1032組成，其中，各行動式麥克風1032分別具有一定位單元1033，可供定位各行動式麥克風1032並產生一麥克風定位資訊，當聲音擷取裝置103篩選出第二音源時，聲音擷取裝置103可將第二音源及其麥克風定位資訊傳送至會議紀錄處理裝置101，再者，空間識別模組1013可以麥克風定位資訊快速定位於三維座標資訊，其中，所述的定位單元1033係可以為全球定位系統(Global Positioning System, GPS)技術或藍芽定位技術實現；據此，本創作除定置式麥克風設備外，亦可以透過行動式麥克風設備實現會議記錄手段。

請參閱「第7圖」，圖中所示為本創作之另一實施例(二)，請搭配參閱「第4圖」如圖，人臉辨識單元10141完成人臉辨識作業後，可進一步產生一會議名單資訊D6，人臉辨識單元10141可依據比對結果，將可辨識出的人臉識別資訊羅列於會議名單資訊D6之中，例如，人臉辨識單元10141完成辨人臉識作業後，人臉辨識單元10141可從人臉識別資訊中擷取全部或部分資訊，將資訊匯入於會議名單資訊D6，並匯入於會議紀錄檔案內，以供使用者存取該筆會議名單資訊D6。

請參閱「第8圖」，圖中所示為本創作之另一實施例(三)，如圖，影像處理模組1014更包含有一影像監控單元10142，所述的影像監控單元10142可對環景影像中的各人臉影像進行監控，其中，影像監控單元10142可透過開源計算機視覺庫OpenCV(Open Source Computer Vision Library)技術實現影像動態追蹤，追蹤各人臉影像的一嘴部區域，透過追蹤人臉影像的嘴部區域，使影像處理模組1014可進一步透過辨識嘴部區域，更加精準的判斷出第二音源的位置(即發言人位置)。

請參閱「第9圖」，圖中所示為本創作之另一實施例(四)，如圖，會議紀錄處理裝置101更包含有一資訊連接模組1016，所述的資訊連接模組1016與中央處理模組1011完成資訊連接，並且一行動資訊裝置可透過無線傳輸技術與資訊連接模組1016完成資訊連接，實施時，使用者可透過行動資訊裝置連接至會議紀錄處理裝置101，並且從會議紀錄處理裝置101下載或調閱會議紀錄檔案，其中，資訊連接模組1016係可以為藍芽、WIFI模組。

綜上可知，智能會議記錄系統，其包含有一會議記錄裝置一影像擷取模組及一聲音擷取模組，前述的裝置系設置於會議環境之中，啟動智能會議記錄系統，所述的聲音擷取模組可辨識數筆不同方向擷取到的聲音訊號，從多筆聲音訊號中識別出一第二音源，另外，影像擷取模組將一環景影像傳送至會議記錄裝置進行人臉辨識後，會議記錄裝置透過第二音源及人臉辨識雙重確認發言人身份後，會議記錄裝置即可將第二音源編碼為文字記載形式的會議紀錄檔案；依此，本創作其據以實施後，確實可達到提供一種可透過語音及影像雙重確認發言人身份的智能會議記錄系統之目的。

以上所述者，僅為本創作之較佳之實施例而已，並非用以限定本創作實施之範圍；任何熟習此技藝者，在不脫離本創作之精神與範圍下所作之均等變化與修飾，皆應涵蓋於本創作之專利範圍內。

綜上所述，本創作係具有「產業利用性」、「新穎性」與「進步性」等專利要件；申請人爰依專利法之規定，向　鈞局提起新型專利之申請。

10:智能會議記錄系統 101:會議紀錄處理裝置 1011:中央處理模組 1012:資料儲存模組 10121:人臉辨識資料庫 10122:人員資料庫 10123:會議紀錄資料庫 10124:影音資料庫 1013:空間識別模組 1014:影像處理模組 10141:人臉辨識單元 10142:影像監控單元 1015:語音處理模組 1016:資訊連接模組 10151:語音資料庫 102:影像擷取模組 1021:攝像鏡頭 103:聲音擷取裝置 1031:麥克風單元 1032:行動式麥克風 1033:定位單元 D1:環景影像 D2:聲音訊號 D11:人臉影像 D21:第二音源 D12:標註區塊 D3:文字紀錄資訊 D4:人員資訊 D5:會議紀錄檔案 D6:會議名單資訊

第1圖，為本創作之系統組成示意圖。第2圖，為會議紀錄處理裝置組成示意圖。第3圖，為本創作之實施示意圖(一)。第4圖，為本創作之實施示意圖(二)。第5圖，為本創作之實施示意圖(三)。第6圖，為本創作之另一實施例(一)。第7圖，為本創作之另一實施例(二)。第8圖，為本創作之另一實施例(三)。第9圖，為本創作之另一實施例(四)。

10:智能會議記錄系統

101:會議紀錄處理裝置

102:影像擷取模組

1021:攝像鏡頭

103:聲音擷取裝置

1031:麥克風單元

Claims

一種智能會議記錄系統，供以產生一會議紀錄檔案，其包含：一影像擷取模組，該影像擷取模組供以擷取一具有深度資訊的環景影像；一聲音擷取裝置，可擷取不同方向的數筆聲音訊號，判斷出一第一音源與一第二音源；以及一會議紀錄處理裝置，分別與該影像擷取模組及該聲音擷取裝置完成資訊連接，該會議紀錄處理裝置基於一人臉識別資訊比對該環景影像，於該環景影像中辨識出至少一人臉影像，並基於一三維座標資訊定位該第二音源後，判斷該第二音源位置的該人臉影像為發言人員並標註有一人員資訊，再將該第二音源編碼為至少一筆文字紀錄資訊，並將該人員資訊匯入於文字紀錄資訊，以產生該會議紀錄檔案。
如申請專利範圍第1項所述的智能會議記錄系統，其中，該會議紀錄處理裝置，包含有一中央處理模組，另有一影像處理模組及一語音處理模組與該中央處理模組完成資訊連接，該中央處理模組供以運行該會議紀錄處理裝置，該影像處理模組供以對該環景影像進行該人臉影像之識別及標註，該語音處理模組供以產生該會議紀錄檔案。
如申請專利範圍第2項所述的智能會議記錄系統，其中，一資料儲存模組與該中央處理模組完成資訊連接，該資料儲存模組供儲存數該人臉識別資訊。
如申請專利範圍第3項所述的智能會議記錄系統，其中，該資料儲存模組具有一人臉辨識資料庫，供以儲存該人臉識別資訊。
如申請專利範圍第3項所述的智能會議記錄系統，其中，該資料儲存模組具有一會議紀錄資料庫，供以儲存該會議紀錄檔案。
如申請專利範圍第3項所述的智能會議記錄系統，其中，該資料儲存模組具有一人員資料庫，該人員資料庫儲存有至少一該人員資訊。
如申請專利範圍第2項所述的智能會議記錄系統，其中，一空間識別模組與該中央處理模組完成資訊連接，該空間識別模組基於該環景影像的該深度資訊產生該三維座標資訊，以該三維座標資訊定位該第二音源的位置。
如申請專利範圍第2項的智能會議記錄系統，其中，該影像處理模組包含一影像監控單元，該影像監控單元基於該發言人員臉部影像進行監控，對該發言人員臉部影像進行標記。
如申請專利範圍第2項所述的智能會議記錄系統，其中，該影像處理模組具有一人臉辨識單元，該人臉辨識單元透過深度學習演算法進行人臉辨識作業。
如申請專利範圍第1項所述的智能會議記錄系統，其中，該影像擷取模組包含有數個不同攝像方向的攝像鏡頭，並且將各該攝像鏡頭所擷取到的影像合成為該環景影像。
如申請專利範圍第1項所述的智能會議記錄系統，其中，該聲音擷取裝置判斷出該第二音源時，過濾掉該第一音源。
如申請專利範圍第1項所述的智能會議記錄系統，其中，該會議紀錄處理裝置完成該人臉影像識別後，可基於該人員資訊產生一會議名單資訊。
如申請專利範圍第1項所述的智能會議記錄系統，其中，該聲音擷取裝置包含有數個不同收音方向的麥克風單元。
如申請專利範圍第1項所述的智能會議記錄系統，其中，該聲音擷取裝置為數個行動式麥克風組成，各該行動式麥克風分別包含一定位單元，供以產生一麥克風定位資訊。
如申請專利範圍第14項所述的智能會議記錄系統，其中，該定位單元為全球定位系統技術或藍芽定位技術其中一種或其組合。
如申請專利範圍第8項所述的智能會議記錄系統，其中，該影像監控單元可追蹤各該人臉影像的一嘴部區域，使該影像處理模組透過辨識該嘴部區域判斷該第二音源的位置。
如申請專利範圍第1項所述的智能會議記錄系統，其中，該影像擷取模組及該聲音擷取裝置係組設於該會議紀錄處理裝置。
如申請專利範圍第2項所述的智能會議記錄系統，其中，一資訊連接模組與該中央處理模組完成資訊連接，另透過無線傳輸技術資訊連接至一行動資訊裝置，使該行動資訊裝置可從該會議紀錄處理裝置下載或調閱該會議紀錄檔案。
如申請專利範圍第18項所述的智能會議記錄系統，其中，該資訊連接模組為藍芽和WIFI模組其中一種或其組合。
如申請專利範圍第1項所述的智能會議記錄系統，其中，該會議紀錄處理裝置所標註的內容為一文字、一圖像和一條碼其中一種或其組合。