TWI810798B

TWI810798B - 視訊畫面構成方法以及電子裝置

Info

Publication number: TWI810798B
Application number: TW111103019A
Authority: TW
Inventors: 陳彥州; 邱垂邦; 何哲嘉
Original assignee: 瑞軒科技股份有限公司
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2023-08-01
Also published as: US20230237838A1; CN116524554A; TW202332248A

Abstract

本揭示文件的視訊畫面構成方法包含下列步驟。取得優先級列表，其中優先級列表包含複數個人員身分的複數個優先級。接收複數個視訊串流。辨識該些視訊串流中複數個臉部圖框所對應的複數個身分標記。依據該些身分標記以及優先級列表取得對應於該些臉部圖框的複數個顯示優先級。偵測該些臉部圖框是否發言。根據該些臉部圖框是否發言以及該些顯示優先級，產生由該些臉部圖框中至少一者構成視訊畫面的主要顯示區域。

Description

視訊畫面構成方法以及電子裝置

本案係關於一種視訊畫面構成方法，特別係關於一種視訊畫面構成方法以及電子裝置。

在目前視訊會議的技術中，若要請與會人員發言，通常直接透過聲音說出名字，但在多人會議中，因眾多交談聲音，與會人員容易因為會議上的各種狀況而忽略，進而導致會議中斷。進一步而言，在多人會議中主講者在發言時也可能被忽略。另外視訊會議的影像，通常無法在人員被點名發言的第一時間，將鏡頭對準被提問者，必須等待被提問者開始發言之後，才能視角調整至被提問者。

因此，如何改善主講者在發言或指定與會人員發言時被忽略是本領域的重要議題。

本揭示文件提供一種視訊畫面構成方法，包含下列步驟。取得優先級列表，其中優先級列表包含複數個人員身分的複數個優先級。接收複數個視訊串流。辨識該些視訊串流中複數個臉部圖框所對應的複數個身分標記。依據該些身分標記以及優先級列表以取得對應於該些臉部圖框的複數個顯示優先級。偵測該些臉部圖框是否發言。根據該些臉部圖框是否發言以及該些顯示優先級，產生由該些臉部圖框中至少一者構成視訊畫面的主要顯示區域。

本揭示文件提供一種電子裝置。電子裝置包含儲存裝置以及處理電路。處理電路用以執行下列步驟。取得優先級列表，其中優先級列表包含複數個人員身分的複數個優先級。接收複數個視訊串流。辨識該些視訊串流中複數個臉部圖框所對應的複數個身分標記。依據該些身分標記以及該優先級列表以舉得對應於該些臉部圖框的複數個顯示優先級。偵測該些臉部圖框是否發言。根據該些臉部圖框是否發言以及該些顯示優先級，產生由該些臉部圖框中至少一者構成視訊畫面的主要顯示區域。

綜上所述，本揭示文件在視訊會議中透過臉部辨識判斷具有高顯示優先級的主講者，並根據該些臉部圖框是否發言以及該些顯示優先級，決定由該些臉部圖框中至少一者構成視訊畫面的主要顯示區域，從而使與會人員更清楚並能注意到主講者的訊息。

下列係舉實施例配合所附圖示做詳細說明，但所提供之實施例並非用以限制本揭露所涵蓋的範圍，而結構運作之描述非用以限制其執行順序，任何由元件重新組合之結構，所產生具有均等功效的裝置，皆為本揭露所涵蓋的範圍。另外，圖示僅以說明為目的，並未依照原尺寸作圖。為使便於理解，下述說明中相同元件或相似元件將以相同之符號標示來說明。

在全篇說明書與申請專利範圍所使用之用詞(terms)，除有特別註明除外，通常具有每個用詞使用在此領域中、在此揭露之內容中與特殊內容中的平常意義。

此外，在本文中所使用的用詞『包含』、『包括』、『具有』、『含有』等等，均為開放性的用語，即意指『包含但不限於』。此外，本文中所使用之『及／或』，包含相關列舉項目中一或多個項目的任意一個以及其所有組合。

於本文中，當一元件被稱為『耦接』或『耦接』時，可指『電性耦接』或『電性耦接』。『耦接』或『耦接』亦可用以表示二或多個元件間相互搭配操作或互動。此外，雖然本文中使用『第一』、『第二』、…等用語描述不同元件，該用語僅是用以區別以相同技術用語描述的元件或操作。

請參閱第1圖，第1圖為本揭露一實施例之電子裝置100的示意圖。如第1圖所示，電子裝置100包含顯示螢幕110、處理電路102以及儲存裝置104。在一些實施例中，電子裝置100可以由電腦、筆電、平板或其他可接收或傳輸視訊串流的裝置實施。處理電路102可以由處理器、微控制器等具有類似功能的元件/組件實施。儲存裝置104可以由記憶體、快取、硬碟或具有類似功能的元件/組件實施。

電子裝置100利用收音裝置106進行錄音或判斷音源方向。電子裝置100利用攝影裝置108進行攝影以產生視訊串流。電子裝置100透過顯示螢幕110顯示視訊畫面。在其他實施例中，電子裝置100亦可利用外部的投影裝置進行影像/畫面顯示。在一些實施例中，電子裝置100包含收音裝置以及攝影裝置。因此，收音裝置106以及攝影裝置108與電子裝置100之間相對的配置方式，不以此為限。

為了更加理解本揭示實施例，請參閱第1、2A~2C以及3~7圖。第2A圖為本揭露一實施例之視訊畫面構成方法S100的流程圖。第2B圖為本揭露一實施例之第2圖中的步驟S170的流程圖。第2C圖為本揭露一實施例之第2圖中的步驟S140的流程圖。視訊畫面構成方法S100包含步驟S110~S180。步驟S170包含步驟S172~S179。步驟S140包含步驟S142~146。步驟S110~S180、S142~S149以及步驟S172~S179皆可由電子裝置100中的處理電路102執行。

第3圖為本揭露一實施例之電子裝置100a~100d以及視訊串流210、220、230以及240的示意圖。第4圖為本揭露一實施例之在一時間點的視訊串流210、220、230以及240的示意圖。第5圖為本揭露一實施例之在與第4圖相同的時間點下電子裝置100的顯示螢幕110的示意圖。第6圖為本揭露一實施例之在另一時間點的視訊串流210、220、230以及240的示意圖。第7圖為本揭露一實施例之在與第6圖相同的時間點下電子裝置100的顯示螢幕110的示意圖。

在步驟S110中，開始會議。此時，來自不同地區/空間欲參加會議的與會人員分別開啟電子裝置100a~100d中的視訊會議軟體。第3圖中的電子裝置100a~100d可以由第1圖中的電子裝置100實施，故在此不再贅述。電子裝置100a~100d分別利用收音裝置及攝影裝置拍攝及錄製各個會場的畫面及音訊，從而產生視訊串流210、220、230以及240。在另一實施例中，開始時。參加會議的所有與會人員可在同一會議室/空間中，且電子裝置100包含多個攝影裝置108與收音裝置106，以拍攝及錄製該會議視/空間，從而產生多個視訊串流210、220、230以及240。

在步驟S120中，取得優先順序列表。優先級列表包含多個人員身分的多個優先級。舉例而言，電子裝置100a~100d可由資料庫/儲存裝置104讀取/提取公司/學校的人員列表。在公司內部的會議可依據職位設定人員身分的優先級，例如，新進員工、資深員工、部門主管、經理、總經理以及董事長會可以具有不同優先級。在校園的遠距教學中，可將老師設為較高優先級，將學生設定為較低優先級。

值得注意的是，前述人員身分的優先級可在註冊時進行臉部辨識，將臉部特徵與人員的職位/身分以及稱謂(名字)一併記錄在資料庫中，在會議開始以後不需依賴會議帳號即可透過臉部辨識得知與會人員的身分。在一些實施例中，與會人員的身分的優先級可依據職位設定。在另一些實施例中，與會人員的身分的優先級可依本場會議內容調整。

在步驟S130中，接收複數個視訊串流。電子裝置100a~100d各自產生的視訊串流210、220、230以及240透過網路200進行傳輸，使每一個電子裝置100a~100d都能接收到視訊串流210、220、230以及240，從而產生視訊畫面，藉此開始進行視訊會議的一般模式。

在步驟S140中，辨識該些視訊串流中複數個臉部圖框所對應的複數個身分標記。請參閱第2C圖，步驟S140包含步驟S142~S146。

在步驟S142中，分析本地影像。並且，在步驟S144中，人臉辨識建立與會名單。電子裝置100a~100d可以對在一般模式下視訊串流210、220、230以及240所產生的畫面分別進行臉部辨識的運算。換言之，電子裝置100a~100d可以分別將自視訊串流210、220、230以及240中擷取的各個臉部圖框與前述資料庫中人員的臉部特徵進行比對，從而得到多個本地與會名單。本地與會名單包含與會人員的身分(例如，名字與職位)以及依據與會人員的身分所設定的優先級。

在步驟S146中，取得會議各方人員名單。在一些實施例中，電子裝置100a~100d可將在步驟S142中各自運算的本地與會名單相互傳送，進而得到本視訊會議中各地(亦即，不同的視訊空間)與會人員的身分，並且透過各地的電子裝置100a~100d對當地的視訊畫面進行運算可以節省運算成本。在另一些實例中，電子裝置100a~100d每一者亦可先接收全部的視訊串流210、220、230以及240，並對全部的視訊串流210、220、230以及240的畫面進行臉部辨識以取得與會名單。因此，本案不以此為限。

在步驟S150中，依據該些身分標記以及優先列表取得對應於該些臉部圖框的複數個顯示優先級。在一些實施例中，可依據該些身分標記查找於步驟S120中取得的優先級列表以決定該些臉部圖框的複數個顯示優先級。在另一些實施例中，亦可在會議開始前直接設定與會成員的優先級。因此，本案不以此為限。

在步驟S160中，偵測該些臉部圖框是否發言。在多人會議中，當與會人員都熱烈在相同時間討論議題時，可能會造成視訊會議的音頻混雜無法聽清。因此，接續步驟S170，根據該些臉部圖框是否正在發言以及該些顯示優先級，產生由該些臉部圖框中至少一者構成視訊畫面的主要顯示區域。如此，可以將顯示視訊畫面的主要顯示區域MA切換為正在發言且為與會成員中具有最高優先級者，藉此提醒與會眾人，視訊會議中的主管、老師或主講者正在進行發言。

步驟 S170包含步驟S172~S179。請參閱第2B圖。在步驟S172中，在單人模式下，在正在發言的該些臉部圖框中，判斷具有該些顯示優先級中之最高者的第一身分標記的第一臉部圖框。具體而言，電子裝置100可利用二維陣列式的收音裝置106接收會場中的從不同位置所產生的聲音並判斷這些聲源的方向，再將聲源方向與視訊畫面比對，從而判斷是哪些臉部圖框在進行發言。接著，在單人模式下，電子裝置100在正在發言的臉部圖框中，選擇具有最高顯示優先級者。

舉例而言，在第4圖所示視訊串流210、220、230以及240中，電子裝置100偵測到第一臉部圖框212正在發言，且在發言的臉部圖框中，第一臉部圖框212所對應的第一身分標記具有顯示優先級中之最高者，並將第一臉部圖框212配置於視訊畫面的主要顯示區域MA，如第5圖所示。

在一些實施例中，攝影裝置108可調變焦距，電子裝置100可控制攝影裝置108的焦距以產生解析度更高的第一臉部圖框212，並以此作為輸出的視訊串流210。在另一些實施例中，若攝影裝置108不具備可調變焦距，電子裝置100可自視訊串流210中擷取第一臉部圖框212，並將第一臉部圖框212放大作為輸出的視訊串流210。

在第5圖所示的實施例中，在單人模式下，視訊畫面包含主要顯示區域MA以及子顯示區域SA1~SA3。子顯示區域SA1~SA3分別用以配置視訊串流220、230以及240。在另一些實施例中，在單人模式下的視訊畫面可不具有子顯示區域SA1~SA3，視訊畫面可以僅由主要顯示區域MA構成，藉此可以更加清楚地看到正在發言的主講者、主管或老師。

在步驟S174中，對應於第一身分標記的人員指定第二身分標記的人員。在本揭示文件的實施例中，可以由前述具有第一身分標記的人員指定具有第二身分標記的人員。

在本揭示的一些實施例中，前述對應於第一身分標記的人員的指定可由收音裝置106接收對應於第一身分標記的人員的聲源訊號，所述的聲源訊號包含第二身分標記(例如，被指定人員的稱謂或名字)以及問答模式的起始關鍵字。舉例而言，收音裝置106自對應於第一身分標記的第一臉部圖框212的聲源方向在預期時間內所接收到的聲源訊號，經電子裝置100辨識後得到的詞彙有「回答」以及「Elsa」，藉此，第一身分標記的人員可由聲控或由電子裝置100的輸入介面點選被指定人員的頭像(例如，顯示螢幕110所呈現的與會頭像列表302)，或直接點選視訊畫面中與會人員的臉部，以指定第二身分標記的人員。接續進行步驟S176。

在步驟S176中，將主要顯示區域(如第5圖所示的主要顯示區域MA)拆解為第一分割畫面(如第5圖所示的第一分割畫面SC1)以及第二分割畫面SC2(如第5圖所示的第二分割畫面SC2)並開始問答模式，如第7圖所示。

在步驟S178中，在問答模式下，將第一臉部圖框212配置於第一分割畫面SC1，並且將第二臉部圖框232配置於第二分割畫面SC2。如此，在視訊會議的問答過程可縮短搜尋主講人、被指定人員的時間，並且及時切換視訊畫面亦可提醒被指定人員回答問題。在一些實施例中，當處理電路102接收到指定第二身分標記人員的指令，被指定的第二身分標記人員所在的電子裝置100的顯示螢幕110的邊緣區域可以閃爍提示，進而促進會議流程。

舉例而言，在第6圖所示視訊串流210、220、230以及240中，電子裝置100偵測到對應於第一臉部圖框212的第一身分標記的人員正指定第二身分標記(例如，Elsa)的人員。在第7圖所示的視訊畫面中，第一臉部圖框212經配置在第一分割畫面SC1，對應於第二身分標記(例如，Elsa)的第二臉部圖框232經配置在第二分割畫面SC2。

類似地，第二臉部圖框232可由電子裝置100控制攝影裝置108的焦距而感測，或者由電子裝置100自視訊串流230中擷取放大並輸出。

在步驟S179中，響應於問答模式結束，將視訊畫面自問答模式切換回單人模式。具體而言，響應於問答模式結束，將問答模式切換回單人模式以合併第一分割畫面SC1以及第二分割畫面SC2為該主要顯示區域MA，並且將第一身分標記對應的第一臉部圖框212配置於主要顯示區域MA。接續步驟S174，以指定另一與會者繼續進行問答模式，或進行S180，會議結束。

第8圖為本揭露一實施例之電子裝置100的顯示螢幕110的示意圖。第9圖為本揭露一實施例之電子裝置100的顯示螢幕110的示意圖。相較於第5圖以及第7圖，在同一會場的多個與會者使用同一套音訊設備，在第8圖以及第9圖中，在視訊串流輸出的畫面是單人的情況下，可直接偵測有聲音的視訊串流，再判斷其中有誰具有最高的顯示優先級，以切換至第8圖所示的單人模式或第9圖所示的問答模式。在第8圖以及第9圖中的實施例的其餘操作方式皆類似於前述第5圖以及第7圖的實施例，故亦可由步驟S110~S180進行操作。

綜上所述，本揭示的實施例透過預先註冊人員身分以及對應的臉部特徵，從而在視訊會議中的單人模式透過臉部辨識判斷具有高顯示優先級的主講者，並在主講者發言時將其臉部圖框配置於視訊畫面的主要顯示區域MA，從而使與會人員更清楚並能注意到主講者的重要訊息。進一步而言，當具有高顯示優先級的主講者指定與會人員進行問答時，電子裝置100可直接響應於主講者的指定而將視訊畫面切換至問答模式，藉此同時顯示主講者(提問人)以及被指定人的臉部訊框，使視訊會議流程更順暢，透過會議畫面的切換，可避免與會者需要由音色判斷主講人或被指定人是誰的情況，讓每一位與會者可以同步會議進程。

雖然本揭露已以實施方式揭露如上，然其並非用以限定本揭露，任何本領域通具通常知識者，在不脫離本揭露之精神和範圍內，當可作各種之更動與潤飾，因此本揭露之保護範圍當視後附之申請專利範圍所界定者為準。

為使本揭露之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附符號之說明如下： 100,100a,100b,100c,100d:電子裝置 102:處理電路 104:儲存裝置 106:收音裝置 108:攝影裝置 110:顯示螢幕 200:網路 210,220,230,240:視訊串流 212:第一臉部圖框 232:第二臉部圖框 302:與會頭像列表 MA:主要顯示區域 SC1:第一分割畫面 SC2:第二分割畫面 SA1,SA2,SA3:子顯示區域 S100:視訊畫面構成方法 S110,S120,S130,S140,S142,S144,S146,S150,S160,S170,S172,S174,S176,S178,S179,S180步驟

為使本揭露之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1圖為本揭露一實施例之電子裝置的示意圖。第2A圖為本揭露一實施例之視訊畫面構成方法的流程圖。第2B圖為本揭露一實施例之第2圖中的步驟S170的流程圖。第2C圖為本揭露一實施例之第2圖中的步驟S140的流程圖。第3圖為本揭露一實施例之電子裝置以及視訊串流的示意圖。第4圖為本揭露一實施例之在一時間點的視訊串流的示意圖。第5圖為本揭露一實施例之在與第4圖相同的時間點下電子裝置的顯示螢幕的示意圖。第6圖為本揭露一實施例之在另一時間點的視訊串流的示意圖。第7圖為本揭露一實施例之在與第6圖相同的時間點下電子裝置的顯示螢幕的示意圖。第8圖為本揭露一實施例之電子裝置的顯示螢幕的示意圖。第9圖為本揭露一實施例之電子裝置的顯示螢幕的示意圖。

國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無

100:電子裝置 102:處理電路 104:儲存裝置 106:收音裝置 108:攝影裝置 110:顯示螢幕

Claims

一種視訊畫面構成方法，包含：取得一優先級列表，其中該優先級列表包含複數個人員身分的複數個優先級；接收來自複數個會議空間的複數個視訊串流；辨識該些視訊串流中複數個臉部圖框所對應的複數個身分標記；依據該些身分標記以及該優先級列表以取得對應於該些臉部圖框的複數個顯示優先級；偵測該些臉部圖框是否發言；以及根據該些臉部圖框是否發言以及該些顯示優先級，產生由該些臉部圖框中至少一者構成一視訊畫面的一主要顯示區域；以及配置該些視訊串流的影像於該視訊畫面的複數個子顯示區域。
如請求項1所述的視訊畫面構成方法，包含：在一單人模式下，在正在發言的該些臉部圖框中，判斷具有該些顯示優先級中之最高者的一第一身分標記的一第一臉部圖框；以及在該單人模式下，將該第一臉部圖框配置於該視訊畫面時的該主要顯示區域。
如請求項2所述的視訊畫面構成方法，包含：對應於該第一身分標記的人員指定一第二身分標記的人員響應於來自該第一身分標記的人員的該指定，將該主要顯示區域拆解為一第一分割畫面以及一第二分割畫面並開始一問答模式；以及在該問答模式下，將該第一臉部圖框配置於該第一分割畫面，並且將該第二身分標記對應的該些臉部圖框中的一第二臉部圖框配置於該第二分割畫面。
如請求項3所述的視訊畫面構成方法，包含：響應於該問答模式結束，將該問答模式切換回該單人模式以合併該第一分割畫面以及一第二分割畫面為該主要顯示區域，並且將該第一臉部圖框配置於該主要顯示區域。
如請求項3所述的視訊畫面構成方法，其中對應於該第一身分標記的人員的該指定是由收音裝置接收對應於該第一身分標記的人員的一聲源訊號，其中該聲源訊號包含該第二身分標記以及該問答模式的關鍵字。
一種電子裝置，包含：一儲存裝置；以及一處理電路，用以：取得一優先級列表，其中該優先級列表包含複數個人員身分的複數個優先級；接收來自複數個會議空間的複數個視訊串流；辨識該些視訊串流中複數個臉部圖框所對應的複數個身分標記；依據該些身分標記以及該優先級列表以取得對應於該些臉部圖框的複數個顯示優先級；偵測該些臉部圖框是否發言；以及根據該些臉部圖框是否發言以及該些顯示優先級，產生由該些臉部圖框中至少一者構成一視訊畫面的一主要顯示區域；以及配置該些視訊串流的影像於該視訊畫面的複數個子顯示區域。
如請求項6所述的電子裝置，其中該處理電路更用以：在一單人模式下，在正在發言的該些臉部圖框中，判斷具有該些顯示優先級中之最高者的一第一身分標記的一第一臉部圖框；以及在該單人模式下，將該第一臉部圖框配置於該視訊畫面時的該主要顯示區域。
如請求項7所述的電子裝置，其中該處理電路更用以：對應於該第一身分標記的人員指定一第二身分標記的人員；響應於來自該第一身分標記的人員的該指定，將該主要顯示區域拆解為一第一分割畫面以及一第二分割畫面並開始一問答模式；以及在該問答模式下，將該第一臉部圖框配置於該第一分割畫面，並且將該第二身分標記對應的該些臉部圖框中的一第二臉部圖框配置於該第二分割畫面。
如請求項8所述的電子裝置，其中該處理電路更用以：響應於該問答模式結束，將該問答模式切換回該單人模式以合併該第一分割畫面以及一第二分割畫面為該主要顯示區域，並且將該第一臉部圖框配置於該主要顯示區域。
如請求項8所述的電子裝置，其中對應於該第一身分標記的人員的該指定是由收音裝置接收對應於該第一身分標記的人員的一聲源訊號，其中該聲源訊號包含該第二身分標記以及該問答模式的關鍵字。