TWM594202U

TWM594202U - 發言人員音訊追蹤系統

Info

Publication number: TWM594202U
Application number: TW108213859U
Authority: TW
Inventors: 薛樂山
Original assignee: 大陸商南京深視光點科技有限公司
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-04-21

Abstract

一種發言人員音訊追蹤系統，其主要設於例如一會議室的開放空間中，並包括一控制主機、一環景影像擷取裝置以及一麥克風陣列裝置，其中，控制主機係與環景影像擷取裝置以及麥克風陣列裝置形成資訊連結，且控制主機的一資料庫係預先載入數筆臉部動作特徵資訊，當會議室進行會議時，環景影像擷取裝置可依據資料庫的數筆臉部動作資訊辨識出會議中正在開口發言的發言者，並分析出發言者的三維空間位址資訊後，透過三維空間位址資訊驅動麥克風陣列裝置進行精準收音及排除噪音，以供其他與會者可清楚聆聽發言人的發言內容。

Description

發言人員音訊追蹤系統

一種發言人員音訊追蹤系統，尤指一種可清楚辨識會議中發言人的聲音的音訊收音系統。

傳統視訊會議系統利用三個以上的攝影機來拍攝參與會議的人，同時使用麥克風陣列來進行發言者的定位，並且將所定位之發言者放大於視訊會議影像中，然而，傳統作法僅執行聲音定位來判斷音源位置，並且認為該音源位置即是發言者的位置，進而將該位置的影像放大於視訊會議影像中，因此，上述傳統方法會因為環境噪音而導致準確度不足，無法精準地判斷發言者的位置，又，一般傳統式單收音麥克風系統具有下列缺點：（1）收音方向性限制，講話的人沒有對著麥克風的收音效果很差。（2）於會議環境使用時，當換人發言時，需轉交麥克風于下一發言人。（3）於家用智能家電設備使用時，收音效率極低。

而傳統式麥克風陣列收音會議系統雖然因為採用全向性麥克風陣列收音，有效提高了對使用環境內所有發言者的收音品質，但無法鑑別聲音源是信號還是噪音，對背景噪音源收音也一併提高。

有鑑於上述的問題，本創作人係依據多年來從事會議視訊收音相關行業的經驗，針對視訊中發言人的音源定位進行研究及分析；緣此，本創作之主要目的在於提供一種可清楚擷取會議中發言人的聲音的發言人員音訊追蹤系統。

為達上述的目的，本創作之發言人員音訊追蹤系統，其主要包括一控制主機、一環景影像擷取裝置以及一麥克風陣列裝置，其中，控制主機的一資料庫係預先載入數筆臉部動作特徵資訊，當會議室進行會議時，環景影像擷取裝置可依據資料庫的數筆臉部動作資訊辨識出會議中正在開口發言的發言者，並分析出該發言者的三維空間位址資訊後，透過三維空間位址資訊驅動麥克風陣列裝置進行精準收音及排除噪音，以供其他與會者可清楚得知目前發言人的發言內容。

為使貴審查委員得以清楚了解本創作之目的、技術特徵及其實施後之功效，茲以下列說明搭配圖示進行說明，敬請參閱。

請參閱「第1圖」，圖中所示為本創作之系統組成示意圖，如圖中所示的發言人員音訊追蹤系統10，其主要包括一控制主機101、一環景影像擷取裝置102以及一麥克風陣列裝置103，其中，控制主機101可例如為一實體伺服器或雲端主機，且控制主機101具有一中央處理模組1011，所述的中央處理模組1011用以驅動各模組作動，並與一資料庫1012、一資訊接收發送模組1013以及一投影模組1014形成資訊連結，且資料庫1012中預先儲存有數筆臉部動作特徵資訊F，所述的臉部動作特徵資訊F可例如為嘴部張開講話時臉部肌肉的動作資訊等，而資訊接收發送模組1013用以接收或傳送電子資訊；環景影像擷取裝置102主要設置於例如會議室的一開放空間之中，其設有一影像分析模組1021，且影像分析模組1021中具有一臉部辨識單元1022，環景影像擷取裝置102可例如為環景攝影機或是深度攝影機(Depth Camera，亦可稱為立體相機)等，環景影像擷取裝置102可擷取不同方向的影像資訊，並且可進一步將各個影像資訊合成為環景影像，使環景影像的影像範圍可涵蓋整個會議環境，且影像分析模組1021的臉部辨識單元1022可依據資料庫1012中的數筆臉部動作特徵資訊F，辨識出開放空間內正在發言的一發言人，並擷取及分析出該發言人的一臉部影像資訊F1以及一三維空間位址資訊F2，所述的臉部影像資訊F1主要為該發言人的臉部特寫影像資訊，所述的人臉動作辨識作業可透過機器學習或深度學習進行影像比對，例如可基於卷積神經網路(Convolutional Neural Network，CNN)進行人臉辨識訓練，更進一步例如使用Faster RCNN(Faster Region-based Convolutional Neural Network)的卷積神經網路進行人臉辨識訓練，並且可通過隨機梯度下降演算法(Stochastic Gradient Descent，SGD)進行疊代訓練，而三維空間位址資訊F2為該發言人在開放空間中的三維空間位址資訊F2，可定位出發言人的位置，又，為進一步便於環景影像擷取裝置102進行現場環境的影像擷取作業，可進一步在環景影像擷取裝置102的底部加裝一轉動基座(例如一萬向轉動基座)，便於環景影像擷取裝置102可以360度取景；麥克風陣列裝置103，具有一聲源過濾模組1031，可設置於例如會議室的開放空間中，其可以為陣列式麥克風（Array Microphone），所述的麥克風陣列裝置103具有數個麥克風收音單元，可擷取數個不同方向的環境音訊N，所述的環境音訊N中主要為一人聲音源資訊N1以及一環境噪音資訊N2所組成，聲源過濾模組1031可預先設定過濾參數，以將環境噪音資訊N2過濾後只留下人聲音源資訊N1；又，環景影像擷取裝置102及麥克風陣列裝置103亦可以組設於控制主機101中，使環景影像擷取裝置102及麥克風陣列裝置103，同步擷取環景影像及聲音訊號。

請參閱「第2圖」，圖中所示為本創作之實施示意圖（一），請搭配參閱「第1圖」，本創作於實施時，係預先將環景影像擷取裝置102以及麥克風陣列裝置103架設於一適當位置，例如一會議室12的一開放空間13中，常態下會議室12中所有與會人員的臉部表情均受到環景影像擷取裝置102的聚焦監控，當有人進行發言時，例如圖中所示的一發言人A，環景影像擷取裝置102會依據資料庫1012中的數筆臉部動作特徵資訊F，進一步針對發言人A的臉部表情進行辨識，以確定該人員是否正在發言，若是，則擷取及分析出該發言人的一臉部影像資訊F1以及一三維空間位址資訊F2(例如三維座標)，並進一步傳送至控制主機101的資料庫1012儲存；再請搭配參閱「第3圖」，圖中所示為本創作之實施示意圖（二），承「第2圖」所述，中央處理模組1011係進一步透過資訊接收發送模組1013將三維空間位址資訊F2傳送至麥克風陣列裝置103，使麥克風陣列裝置103可依據三維空間位址資訊F2屏蔽或關閉其他方向的麥克風收音單元，僅開啟該位址方向的麥克風單元，以聚焦接收該方向的環境音訊N，並透過聲源過濾模組1031將環境音訊N過濾出人聲音源資訊N1，並進一步傳送至控制主機101，而控制主機101再進一步透過資訊接收發送模組1013將人聲音源資訊N1發送至一外部音訊設備，例如喇叭等，藉此，透過本創作的實施，可清楚辨識會議中發言人A的聲音，以確保其他與會者可清楚聽取目前發言人的發言內容。

再請搭配參閱「第4圖」，圖中所示為本創作之另一實施例（一），如圖中所示的控制主機101，其係具有一投影模組1014；再請搭配參閱「第5圖」，圖中所示係為實施例（一）之實施示意圖，請搭配參閱「第1圖」，控制主機101可進一步將發言人A的臉部影像資訊F1透過投影模組1014投影至會議室12的一顯示幕11上，以供會議室12的與會人員可透過投影幕11得知目前發言人的臉部影像，再將人聲音源資訊N1透過資訊接收發送模組1013發送至外部音訊設備，例如喇叭等，藉此，透過本創作的實施，可清楚辨識會議中發言人A的聲音以及影像，以確保其他與會者可清楚得知目前發言人的影像以及其發言內容。

請參閱「第6圖」，圖中所示為本創作之另一實施例（二），本創作可進一步在資料庫1012中預先儲存有數筆身份辨識資訊B，所述的數筆身份辨識資訊B可為臉部特徵資訊、名字等身份資訊，而投影模組1014中具有一標註單元1015，所述的標註單元1015可將數筆身份辨識資訊B標註於影像中的人物；再請搭配參閱「第7圖」，圖中所示為本創作之實施例（二）實施示意圖，承「第5圖」所述，請搭配參閱「第1圖」，當環景影像擷取裝置102擷取發言人A的臉部影像資訊F1並進行影像投放時，環景影像擷取裝置102亦可進一步將臉部影像資訊F1與資料庫1012中儲存的數筆身份辨識資訊B進行比對辨識，以取得對應發言人A的正確身份辨識資訊B，而完成比對後，控制主機101即可進一步透過投影模組1014的標註單元1015，將對應於發言人A的正確身份辨識資訊B標註於投影幕11的發言人A頭部影像上，以供與會人員可得知發言人A的身份。

由上所述可知，本創作之發言人員音訊追蹤系統，其主要包括一控制主機、一環景影像擷取裝置以及一麥克風陣列裝置，其中，控制主機的一資料庫係預先載入數筆臉部動作特徵資訊，當會議室進行會議時，環景影像擷取裝置可依據資料庫的數筆臉部動作資訊辨識出會議中正在開口發言的發言者，並分析出該發言者的三維空間位址資訊後，透過三維空間位址資訊驅動麥克風陣列裝置進行精準收音及排除噪音，使本創作可達到提供其他與會者可清楚得知目前的發言人的發言內容之目的。

唯，以上所述者，僅為本創作之較佳之實施例而已，並非用以限定本創作實施之範圍；任何熟習此技藝者，在不脫離本創作之精神與範圍下所作之均等變化與修飾，皆應涵蓋於本創作之專利範圍內。

綜上所述，本創作之功效，係具有創作之「產業可利用性」、「新穎性」與「進步性」等專利要件；申請人爰依專利法之規定，向　鈞局提起新型專利之申請。

10:發言人員音訊追蹤系統 101:控制主機 102:環景影像擷取裝置 1011:中央處理模組 1021:影像分析模組 1012:資料庫 1022:臉部辨識單元 1013:資訊接收發送模組 1014:投影模組 1015:標註單元 103:麥克風陣列裝置 1031:聲源過濾模組 11:顯示幕 12:會議室 13:開放空間 A:發言人 B:身份辨識資訊 F:臉部動作特徵資訊 F1:臉部影像資訊 F2:三維空間位址資訊 N:環境音訊 N1:人聲音源資訊 N2:環境噪音資訊

第1圖，為本創作之系統組成示意圖。第2圖，為本創作之實施示意圖（一）。第3圖，為本創作之實施示意圖（二）。第4圖，為本創作之另一實施例（一）。第5圖，為實施例（一）之實施示意圖。第6圖，為本創作之另一實施例（二）。第7圖，為本創作之實施例（二）實施示意圖。

10:發言人員音訊追蹤系統

101:控制主機

102:環景影像擷取裝置

1011:中央處理模組

1021:影像分析模組

1012:資料庫

1022:臉部辨識單元

1013:資訊接收發送模組

103:麥克風陣列裝置

1031:聲源過濾模組

F:臉部動作特徵資訊

F1:臉部影像資訊

F2:三維空間位址資訊

N:環境音訊

N1:人聲音源資訊

N2:環境噪音資訊

Claims

一種發言人員音訊追蹤系統，可設於一開放空間中，其包括：一控制主機，具有一中央處理模組，該中央處理模組分別與一資料庫、一資訊接收發送模組形成資訊連結，其中，該資料庫預先儲存有數筆臉部動作特徵資訊；一環景影像擷取裝置，與該控制主機形成資訊連結，該環景影像擷取裝置可依據該資料庫中的數筆該臉部動作特徵資訊，辨識出該開放空間內正在發言的一發言人，並擷取及分析出該發言人的一臉部影像資訊以及一三維空間位址資訊，而該臉部影像資訊以及該三維空間位址資訊可分別經過該資訊接收發送模組傳送至該資料庫儲存；一麥克風陣列裝置，與該控制主機形成資訊連結，可供以接收該三維空間位址資訊，使該麥克風陣列裝置可依據該三維空間位址資訊擷取一環境音訊，並過濾及分析出該環境音訊中的一人聲音源資訊；以及該人聲音源資訊可進一步傳送至該控制主機，並透過該資訊接收發送模組發送至一外部音訊設備。
如申請專利範圍第1項所述之發言人員音訊追蹤系統，其中，該環景影像擷取裝置設有一轉動基座。
如申請專利範圍第1項所述之發言人員音訊追蹤系統，其中，該環景影像擷取裝置設有一影像分析模組。
如申請專利範圍第3項所述之發言人員音訊追蹤系統，其中，該影像分析模組中設有一臉部辨識單元。
如申請專利範圍第1項所述之發言人員音訊追蹤系統，其中，該麥克風陣列裝置設有一聲源過濾模組。
如申請專利範圍第1項所述之發言人員音訊追蹤系統，其中，該資訊接收發送模組可將該臉部影像資訊傳送至一視訊畫面中。
如申請專利範圍第1項所述之發言人員音訊追蹤系統，其中，該環境音訊包括該人聲音源資訊以及一環境噪音資訊。
如申請專利範圍第1項所述之發言人員音訊追蹤系統，其中，該臉部影像資訊為該發言人的一臉部特寫影像資訊。
如申請專利範圍第1項所述之發言人員音訊追蹤系統，其中，該環景影像擷取裝置及該麥克風陣列裝置係設於該控制主機內。