TW202326515A

TW202326515A - 廣角視訊設備及其控制方法

Info

Publication number: TW202326515A
Application number: TW110149475A
Authority: TW
Inventors: 陳昀聲; 張鴻銘; 陳冠儒
Original assignee: 宏碁股份有限公司
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2023-07-01
Also published as: TWI817301B

Abstract

一種廣角視訊設備及其之控制方法。廣角視訊設備之控制方法包括以下步驟。以一影像擷取裝置擷取一廣角影像。以一收音裝置進行收音。若收音裝置之總音量大於臨界值，則分析出收音裝置中對應於最高音量之一第一麥克風及對應於次高音量之一第二麥克風。於廣角影像之一局部範圍搜尋至少一人臉。局部範圍對應於第一麥克風及第二麥克風之間。依據人臉之一嘴型，辨識一嘴型字串。依據第一麥克風之一第一聲音訊號，辨識一語音字串。若嘴型字串與語音字串之相似度高於一門檻值，則控制廣角影像之一切割範圍，以使一視訊畫面對應於人臉。

Description

廣角視訊設備及其控制方法

本揭露是有關於一種視訊設備及其控制方法，且特別是有關於一種廣角視訊設備及其控制方法。

現在視訊會議大都使用筆電的相機鏡頭或外接式平面的相機鏡頭。當主講者需要使用白板或在台上簡報的話，就無法切換鏡頭到主講者身上，也無法切換鏡頭到白板上。如果使用廣角攝影機，即可順利切換視訊畫面到主講者或白板。

在另一應用中，可以把廣角攝影機設置在會議室的中央，讓廣角攝影機拍攝到會議室中的多個與會者，如此即可將視訊畫面切換到特定與會者。

然而，在開會過程中，視訊畫面必須透過手動的方式去切換到發言的與會者。視訊畫面的切換相當耗時且會影響會議的進行。研究人員正致力研發一種廣角視訊設備之控制方法，以提高會議進行的順暢度。

本揭露係有關於一種廣角視訊設備及其控制方法，其利用人工智慧技術自動分析出正在談話之近端與會者，並據以進行控制，以使視訊畫面能夠自動對應於正在談話之近端與會者。如此一來，讓視訊畫面能夠快速切換且讓視訊會議的進行更加順暢。

根據本揭露之一方面，提出一種廣角視訊設備之控制方法。廣角視訊設備之控制方法包括以下步驟。以一影像擷取裝置，用以擷取一廣角影像。以一收音裝置進行收音。判斷收音裝置之一總音量是否大於一臨界值。若收音裝置之總音量大於臨界值，則分析出收音裝置中對應於最高音量之一第一麥克風及對應於次高音量之一第二麥克風。於廣角影像之一局部範圍搜尋至少一人臉。局部範圍對應於第一麥克風及第二麥克風之間。依據人臉之一嘴型，辨識一嘴型字串。依據第一麥克風之一第一聲音訊號，辨識一語音字串。比對嘴型字串與語音字串，以獲得一相似度。判斷相似度是否高於一門檻值。若相似度高於門檻值，則控制廣角影像之切割範圍，以使一視訊畫面對應於人臉。

根據本揭露之另一方面，提出一種廣角視訊設備。廣角視訊設備包括一收音裝置、一音訊處理裝置、一影像擷取裝置、一影像處理裝置及一控制裝置。收音裝置用以進行收音。音訊處理裝置包括一音量分析單元及一語音辨識單元。音量分析單元用以判斷收音裝置之一總音量是否大於一臨界值。若收音裝置之總音量大於臨界值，則音量分析單元分析出收音裝置中對應於最高音量之一第一麥克風及對應於次高音量之一第二麥克風。語音辨識單元用以依據第一麥克風之一第一聲音訊號，辨識一語音字串。影像擷取裝置用以擷取一廣角影像。影像處理裝置包括一切割單元、一人臉辨識單元及一嘴型辨識單元。切割單元係以一切割範圍切割廣角影像，以作為一視訊畫面。人臉辨識單元用以於廣角影像之一局部範圍搜尋至少一人臉。局部範圍對應於第一麥克風及第二麥克風之間。嘴型辨識單元用以依據人臉之一嘴型，辨識一嘴型字串。控制裝置用以比對嘴型字串與語音字串，以獲得一相似度，並判斷相似度是否高於一門檻值。若相似度高於門檻值，則控制裝置控制廣角影像之切割範圍，以使視訊畫面對應於人臉。

為了對本揭露之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

請參照第1圖，其繪示根據一實施例之廣角視訊設備100的示意圖。如第1圖所示，多個近端與會者900圍著會議桌進行視訊會議，投影機700投影出遠端與會者800的視訊畫面VS8及正在談話之近端與會者900的視訊畫面VS9。廣角視訊設備100可以透過一收音裝置110進行收音，並透過一影像擷取裝置120擷取一廣角影像WVD（標示於第4圖）。

舉例來說，請參照第2A圖，其繪示根據一實施例之收音裝置110A之配置圖。收音裝置110A由四個麥克風111所組成。四個麥克風111可以平均地分布於360度方位（例如是0度、90度、180度、270度）。

或者，請參照第2B圖，其繪示根據另一實施例之收音裝置110B之配置圖。收音裝置110B由四個麥克風所組成。四個麥克風111可以不平均地分布於360度方位（例如是0度、135度、180度、225度）。

或者，請參照第2C圖，其繪示根據另一實施例之收音裝置110C之配置圖。收音裝置110C由三個麥克風111所組成。三個麥克風111可以平均地分布於360度方位（例如是0度、135度、225度）。

或者，請參照第2D圖，其繪示根據另一實施例之收音裝置110D之配置圖。收音裝置110D由四個麥克風111所組成。四個麥克風111可以平均地分布於180度方位（例如是90度、150度、210度、270度）。

這些麥克風111可以平均地或不平均地分布於某一預定角度範圍內。這些麥克風111的數量至少為三，任兩個相鄰之麥克風111的方位夾角小於180度。當某一與會者正在談話時，其中之一麥克風111會採收到最大聲量，鄰近之另一麥克風則會收到次大聲量。

請參照第3A圖，其繪示根據一實施例之影像擷取裝置120A之配置圖。影像擷取裝置120A由五個鏡頭121所組成。五個鏡頭121可以平均地分布於360度方位（例如是0度、72度、144度、216度、288度）。

或者，請參照第3B圖，其繪示根據另一實施例之影像擷取裝置120B之配置圖。影像擷取裝置120B由三個鏡頭121所組成。三個鏡頭121可以平均地分布於180度方位（例如是135度、180度、225度）。

這些鏡頭121可以平均地或不平均地分布於某一預定角度範圍內。任兩個相鄰之鏡頭121的視野範圍（Field of View, FoV）重疊。所有鏡頭121所擷取之影像可以拼接成某一預定角度範圍（例如是360度、270度、180度）之廣角影像WVD（標示於第4圖）。

如第1圖所示，某一進端與會者談話時，廣角視訊設備100會自動以一切割範圍對廣角影像WVD（標示於第4圖）進行切割，以作為視訊畫面VS9，並且讓視訊畫面VS9對應於談話的近端與會者900。

請參照第4圖，其繪示根據一實施例之廣角視訊設備100之方塊圖。廣角視訊設備100包括收音裝置110、影像擷取裝置120、一音訊處理裝置130、一影像處理裝置140、一控制裝置150及一傳輸裝置160。收音裝置110用以進行收音。收音裝置110係由數個喇叭111所組成，例如是前述之收音裝置110A～110D。

影像擷取裝置120用以擷取廣角影像WVD。影像擷取裝置120包括多個鏡頭121及一合併單元122。影像擷取裝置120例如前述之影像擷取裝置120A、120B。

音訊處理裝置130用以進行聲音訊號的處理。音訊處理裝置130包括一音量分析單元131及一語音辨識單元132。音訊處理裝置130例如是一晶片、一電路板、一電路、一電腦程式產品或電腦可讀取記錄媒體。

影像處理裝置140用以進行影像訊號的處理。影像處理裝置140包括一切割單元141、一人臉辨識單元142及一嘴型辨識單元143。影像處理裝置140例如是一晶片、一電路板、一電路、一電腦程式產品或電腦可讀取記錄媒體。

控制裝置150用以進行運算程序、控制程序，例如是一晶片、一電路板、一電路、一電腦程式產品或電腦可讀取記錄媒體。

傳輸裝置160用以傳輸資料，例如是一無線網路模組、一有線網路模組、一藍芽傳輸模組、一LTE傳輸模組。

在本實施例中，音訊處理裝置130及影像處理裝置140利用人工智慧技術自動分析出正在談話之近端與會者900，並據以進行控制，以使視訊畫面VS9能夠自動對應於正在談話之近端與會者900。以下更搭配一流程圖詳細說明各項元件之運作。

請參照第5圖，其繪示根據一實施例之廣角視訊設備100之控制方法的流程圖。在步驟S101中，影像擷取裝置120之鏡頭111擷取數張影像VDj。

接著，請參照第6圖，其示例說明步驟S102。在步驟S102中，影像擷取裝置120之合併單元122合併這些影像VDj為廣角影像WVD。廣角影像WVD例如是涵蓋0度～360度的範圍，所有的近端與會者900都能夠被涵蓋到。

然後，在步驟S103中，以收音裝置110進行收音，以獲得數個聲音訊號SDi。這些聲音訊號SDi傳輸至音訊處理裝置130及傳輸裝置160。

接著，在步驟S104中，音訊處理裝置130之音量分析單元131判斷收音裝置110之一總音量是否大於一臨界值。臨界值例如是50、60、70分貝。若總音量大於臨界值，則進入步驟S105；若總音量不大於臨界值，則回至步驟S101。

在步驟S105中，音訊處理裝置130之音量分析單元131分析出收音裝置110中對應於最高音量之一第一麥克風M1（標示於第4圖）及對應於次高音量之一第二麥克風M2（標示於第4圖）。舉例來說，請參照第7圖，其繪示四個麥克風111之示意圖。當談話之與會者900位於250度的方位時，第一麥克風M1即為位於270度之麥克風111，第二麥克風M2即為位於180度之麥克風111。

接著，請參照第8圖，其示例說明步驟S106。在步驟S106中，影像處理裝置140之切割單元141從廣角影像WVD取出對應於第一麥克風M1（位於270度之麥克風111）及第二麥克風M2（位於180度之麥克風111）之間的局部範圍PR。由於第一麥克風M1為位於270度之麥克風111，第二麥克風M2為位於180度之麥克風111，故局部範圍PR為180度～270度之範圍。

然後，如第8圖所示，在步驟S107中，影像處理裝置140之人臉辨識單元142於局部範圍PR搜尋至少一人臉。如第8圖所是，在局部範圍PR中，可以發現兩個人臉F1、F2。以下步驟假設先針對人臉F1進行處理。

然後，請參照第9圖，其示例說明步驟S108。在步驟S108中，影像處理裝置140之人臉辨識單元142依據人臉F1之一嘴型，辨識一嘴型字串ST11。在此步驟中，人臉辨識單元142例如是利用卷積神經網路（Convolutional Neural Networks, CNN）演算法及長短期記憶（Long Short-Term Memory, LSTM）演算法進行分析。

接著，請參照第10圖，其示例說明步驟S109。在步驟S109，音訊處理裝置130之語音辨識單元132依據第一麥克風M1之一第一聲音訊號SD1，辨識一語音字串ST2。在此步驟中，語音辨識單元132更先篩選出一人聲語音，在針對人聲語音進行辨識。語音辨識單元132例如是利用長短期記憶（LSTM）演算法進行分析。

上述步驟S108及步驟S109係同步週期性執行。舉例來說，控制裝置150提供一同步時脈訊號CLK至嘴型辨識單元143及語音辨識單元132。嘴型辨識單元143及語音辨識單元132可採用上緣觸發之方式在同一時間啟動語音辨識與嘴型辨識。

然後，在步驟S110中，控制裝置150比對嘴型字串ST11與語音字串ST2之一相似度，並判斷相似度是否高於一門檻值。門檻值例如是80%。以第8圖之人臉F1為例，該近端語會者並沒有發言，故辨識出的嘴型字串ST11與語音字串ST2有相當大的差異，故流程將回至步驟S107。

在步驟S107中，人臉辨識單元142取得另一人臉F2，並進入步驟S108，以取得另一嘴型字串ST12。在步驟S110中，控制裝置150可以發現嘴型字串ST12與語音字串ST2相當接近，故流程將進入步驟S111。

在步驟S111中，控制裝置150控制廣角影像WVD之切割範圍，以使從廣角影像WVD切割出來的視訊畫面VS9能夠對應於正在談話之近端與會者900的人臉F2。

根據上述實施例，音訊處理裝置130及影像處理裝置140利用人工智慧技術自動分析出正在談話之近端與會者900，並據以進行控制，以使視訊畫面VS9能夠自動對應於正在談話之近端與會者900。如此一來，不僅能夠快速切換視訊畫面VS9，也能夠讓視訊會議的進行更加順暢。

綜上所述，雖然本揭露已以實施例揭露如上，然其並非用以限定本揭露。本揭露所屬技術領域中具有通常知識者，在不脫離本揭露之精神和範圍內，當可作各種之更動與潤飾。因此，本揭露之保護範圍當視後附之申請專利範圍所界定者為準。

100:廣角視訊設備 110,110A,110B,110C,110D:收音裝置 111:麥克風 120,120A,120B:影像擷取裝置 121:鏡頭 122:合併單元 130:音訊處理裝置 131:音量分析單元 132:語音辨識單元 140:影像處理裝置 141:切割單元 142:人臉辨識單元 143:嘴型辨識單元 150:控制裝置 160:傳輸裝置 700:投影機 800:遠端與會者 900:近端與會者 CLK:同步時脈訊號 F1,F2:人臉 M1:第一麥克風 M2:第二麥克風 PR:局部範圍 S101,S102,S103,S104,S105,S106,S107,S108,S109,S110,S111:步驟 SDi:聲音訊號 SD1:第一聲音訊號 ST11,ST12:嘴型字串 ST2:語音字串 WVD:廣角影像 VDj:影像 VS8,VS9:視訊畫面

第1圖繪示根據一實施例之廣角視訊設備的示意圖。第2A圖繪示根據一實施例之收音裝置之配置圖。第2B圖繪示根據另一實施例之收音裝置之配置圖。第2C圖繪示根據另一實施例之收音裝置之配置圖。第2D圖繪示根據另一實施例之收音裝置之配置圖。第3A圖繪示根據一實施例之影像擷取裝置之配置圖。第3B圖繪示根據另一實施例之影像擷取裝置之配置圖。第4圖繪示根據一實施例之廣角視訊設備之方塊圖。第5圖繪示根據一實施例之廣角視訊設備之控制方法的流程圖。第6圖示例說明步驟S102。第7圖繪示四個麥克風之示意圖。第8圖示例說明步驟S106。第9圖示例說明步驟S108。第10圖示例說明步驟S109。

S101,S102,S103,S104,S105,S106,S107,S108,S109,S110,S111:步驟

Claims

一種廣角視訊設備之控制方法，包括：以一影像擷取裝置擷取一廣角影像；以一收音裝置進行收音；判斷該收音裝置之一總音量是否大於一臨界值；若該收音裝置之該總音量大於該臨界值，則分析出該收音裝置中對應於最高音量之一第一麥克風及對應於次高音量之一第二麥克風；於該廣角影像之一局部範圍搜尋至少一人臉，該局部範圍對應於該第一麥克風及該第二麥克風之間；依據該人臉之一嘴型，辨識一嘴型字串；依據該第一麥克風之一第一聲音訊號，辨識一語音字串；比對該嘴型字串與該語音字串，以獲得一相似度；判斷該相似度是否高於一門檻值；以及若該相似度高於該門檻值，則控制該廣角影像之一切割範圍，以使一視訊畫面對應於該人臉。
如請求項1所述之廣角視訊設備之控制方法，其中該收音裝置包括至少三個麥克風。
如請求項1所述之廣角視訊設備之控制方法，其中該臨界值係為70分貝。
如請求項1所述之廣角視訊設備之控制方法，其中辨識該嘴型字串之步驟與辨識該語音字串之步驟係同步週期性執行。
如請求項1所述之廣角視訊設備之控制方法，其中在辨識該語音字串之步驟中，更篩選出一人聲語音。
如請求項1所述之廣角視訊設備之控制方法，其中該門檻值係為80%。
一種廣角視訊設備，包括：一收音裝置，用以進行收音；一音訊處理裝置，包括：一音量分析單元，用以判斷該收音裝置之一總音量是否大於一臨界值，若該收音裝置之該總音量大於該臨界值，則該音量分析單元分析出該收音裝置中對應於最高音量之一第一麥克風及對應於次高音量之一第二麥克風；及一語音辨識單元，用以依據該第一麥克風之一第一聲音訊號，辨識一語音字串；一影像擷取裝置，用以擷取一廣角影像；一影像處理裝置，包括：一切割單元，係以一切割範圍切割該廣角影像，以作為一視訊畫面；一人臉辨識單元，用以於該廣角影像之一局部範圍搜尋至少一人臉，該局部範圍對應於該第一麥克風及該第二麥克風之間；及一嘴型辨識單元，用以依據該人臉之一嘴型，辨識一嘴型字串；以及一控制裝置，用以比對該嘴型字串與該語音字串，以獲得一相似度，並判斷該相似度是否高於一門檻值，若該相似度高於該門檻值，則該控制裝置控制該切割範圍，以使該視訊畫面對應於該人臉。
如請求項7所述之廣角視訊設備，其中該收音裝置包括至少三個麥克風。
如請求項7所述之廣角視訊設備，其中該臨界值係為70分貝。
如請求項7所述之廣角視訊設備，其中該嘴型辨識單元及該語音辨識單元係同步執行辨識該嘴型字串之動作及辨識該語音字串之動作。
如請求項7所述之廣角視訊設備，其中該語音辨識單元更篩選出一人聲語音。
如請求項7所述之廣角視訊設備，其中該門檻值係為80%。