TW202332248A - 視訊畫面構成方法以及電子裝置 - Google Patents

視訊畫面構成方法以及電子裝置 Download PDF

Info

Publication number
TW202332248A
TW202332248A TW111103019A TW111103019A TW202332248A TW 202332248 A TW202332248 A TW 202332248A TW 111103019 A TW111103019 A TW 111103019A TW 111103019 A TW111103019 A TW 111103019A TW 202332248 A TW202332248 A TW 202332248A
Authority
TW
Taiwan
Prior art keywords
person
video
frames
mode
face
Prior art date
Application number
TW111103019A
Other languages
English (en)
Other versions
TWI810798B (zh
Inventor
陳彥州
邱垂邦
何哲嘉
Original Assignee
瑞軒科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 瑞軒科技股份有限公司 filed Critical 瑞軒科技股份有限公司
Priority to TW111103019A priority Critical patent/TWI810798B/zh
Priority to US17/804,100 priority patent/US20230237838A1/en
Priority to CN202210660465.4A priority patent/CN116524554A/zh
Application granted granted Critical
Publication of TW202332248A publication Critical patent/TW202332248A/zh
Publication of TWI810798B publication Critical patent/TWI810798B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)
  • Telephone Function (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本揭示文件的視訊畫面構成方法包含下列步驟。取得優先級列表,其中優先級列表包含複數個人員身分的複數個優先級。接收複數個視訊串流。辨識該些視訊串流中複數個臉部圖框所對應的複數個身分標記。依據該些身分標記以及優先級列表取得對應於該些臉部圖框的複數個顯示優先級。偵測該些臉部圖框是否發言。根據該些臉部圖框是否發言以及該些顯示優先級,產生由該些臉部圖框中至少一者構成視訊畫面的主要顯示區域。

Description

視訊畫面構成方法以及電子裝置
本案係關於一種視訊畫面構成方法,特別係關於一種視訊畫面構成方法以及電子裝置。
在目前視訊會議的技術中,若要請與會人員發言,通常直接透過聲音說出名字,但在多人會議中,因眾多交談聲音,與會人員容易因為會議上的各種狀況而忽略,進而導致會議中斷。進一步而言,在多人會議中主講者在發言時也可能被忽略。另外視訊會議的影像,通常無法在人員被點名發言的第一時間,將鏡頭對準被提問者,必須等待被提問者開始發言之後,才能視角調整至被提問者。
因此,如何改善主講者在發言或指定與會人員發言時被忽略是本領域的重要議題。
本揭示文件提供一種視訊畫面構成方法,包含下列步驟。取得優先級列表,其中優先級列表包含複數個人員身分的複數個優先級。接收複數個視訊串流。辨識該些視訊串流中複數個臉部圖框所對應的複數個身分標記。依據該些身分標記以及優先級列表以取得對應於該些臉部圖框的複數個顯示優先級。偵測該些臉部圖框是否發言。根據該些臉部圖框是否發言以及該些顯示優先級,產生由該些臉部圖框中至少一者構成視訊畫面的主要顯示區域。
本揭示文件提供一種電子裝置。電子裝置包含儲存裝置以及處理電路。處理電路用以執行下列步驟。取得優先級列表,其中優先級列表包含複數個人員身分的複數個優先級。接收複數個視訊串流。辨識該些視訊串流中複數個臉部圖框所對應的複數個身分標記。依據該些身分標記以及該優先級列表以舉得對應於該些臉部圖框的複數個顯示優先級。偵測該些臉部圖框是否發言。根據該些臉部圖框是否發言以及該些顯示優先級,產生由該些臉部圖框中至少一者構成視訊畫面的主要顯示區域。
綜上所述,本揭示文件在視訊會議中透過臉部辨識判斷具有高顯示優先級的主講者,並根據該些臉部圖框是否發言以及該些顯示優先級,決定由該些臉部圖框中至少一者構成視訊畫面的主要顯示區域,從而使與會人員更清楚並能注意到主講者的訊息。
下列係舉實施例配合所附圖示做詳細說明,但所提供之實施例並非用以限制本揭露所涵蓋的範圍,而結構運作之描述非用以限制其執行順序,任何由元件重新組合之結構,所產生具有均等功效的裝置,皆為本揭露所涵蓋的範圍。另外,圖示僅以說明為目的,並未依照原尺寸作圖。為使便於理解,下述說明中相同元件或相似元件將以相同之符號標示來說明。
在全篇說明書與申請專利範圍所使用之用詞(terms),除有特別註明除外,通常具有每個用詞使用在此領域中、在此揭露之內容中與特殊內容中的平常意義。
此外,在本文中所使用的用詞『包含』、『包括』、『具有』、『含有』等等,均為開放性的用語,即意指『包含但不限於』。此外,本文中所使用之『及/或』,包含相關列舉項目中一或多個項目的任意一個以及其所有組合。
於本文中,當一元件被稱為『耦接』或『耦接』時,可指『電性耦接』或『電性耦接』。『耦接』或『耦接』亦可用以表示二或多個元件間相互搭配操作或互動。此外,雖然本文中使用『第一』、『第二』、…等用語描述不同元件,該用語僅是用以區別以相同技術用語描述的元件或操作。
請參閱第1圖,第1圖為本揭露一實施例之電子裝置100的示意圖。如第1圖所示,電子裝置100包含顯示螢幕110、處理電路102以及儲存裝置104。在一些實施例中,電子裝置100可以由電腦、筆電、平板或其他可接收或傳輸視訊串流的裝置實施。處理電路102可以由處理器、微控制器等具有類似功能的元件/組件實施。儲存裝置104可以由記憶體、快取、硬碟或具有類似功能的元件/組件實施。
電子裝置100利用收音裝置106進行錄音或判斷音源方向。電子裝置100利用攝影裝置108進行攝影以產生視訊串流。電子裝置100透過顯示螢幕110顯示視訊畫面。在其他實施例中,電子裝置100亦可利用外部的投影裝置進行影像/畫面顯示。在一些實施例中,電子裝置100包含收音裝置以及攝影裝置。因此,收音裝置106以及攝影裝置108與電子裝置100之間相對的配置方式,不以此為限。
為了更加理解本揭示實施例,請參閱第1、2A~2C以及3~7圖。第2A圖為本揭露一實施例之視訊畫面構成方法S100的流程圖。第2B圖為本揭露一實施例之第2圖中的步驟S170的流程圖。第2C圖為本揭露一實施例之第2圖中的步驟S140的流程圖。視訊畫面構成方法S100包含步驟S110~S180。步驟S170包含步驟S172~S179。步驟S140包含步驟S142~146。步驟S110~S180、S142~S149以及步驟S172~S179皆可由電子裝置100中的處理電路102執行。
第3圖為本揭露一實施例之電子裝置100a~100d以及視訊串流210、220、230以及240的示意圖。第4圖為本揭露一實施例之在一時間點的視訊串流210、220、230以及240的示意圖。第5圖為本揭露一實施例之在與第4圖相同的時間點下電子裝置100的顯示螢幕110的示意圖。第6圖為本揭露一實施例之在另一時間點的視訊串流210、220、230以及240的示意圖。第7圖為本揭露一實施例之在與第6圖相同的時間點下電子裝置100的顯示螢幕110的示意圖。
在步驟S110中,開始會議。此時,來自不同地區/空間欲參加會議的與會人員分別開啟電子裝置100a~100d中的視訊會議軟體。第3圖中的電子裝置100a~100d可以由第1圖中的電子裝置100實施,故在此不再贅述。電子裝置100a~100d分別利用收音裝置及攝影裝置拍攝及錄製各個會場的畫面及音訊,從而產生視訊串流210、220、230以及240。在另一實施例中,開始時。參加會議的所有與會人員可在同一會議室/空間中,且電子裝置100包含多個攝影裝置108與收音裝置106,以拍攝及錄製該會議視/空間,從而產生多個視訊串流210、220、230以及240。
在步驟S120中,取得優先順序列表。優先級列表包含多個人員身分的多個優先級。舉例而言,電子裝置100a~100d可由資料庫/儲存裝置104讀取/提取公司/學校的人員列表。在公司內部的會議可依據職位設定人員身分的優先級,例如,新進員工、資深員工、部門主管、經理、總經理以及董事長會可以具有不同優先級。在校園的遠距教學中,可將老師設為較高優先級,將學生設定為較低優先級。
值得注意的是,前述人員身分的優先級可在註冊時進行臉部辨識,將臉部特徵與人員的職位/身分以及稱謂(名字)一併記錄在資料庫中,在會議開始以後不需依賴會議帳號即可透過臉部辨識得知與會人員的身分。在一些實施例中,與會人員的身分的優先級可依據職位設定。在另一些實施例中,與會人員的身分的優先級可依本場會議內容調整。
在步驟S130中,接收複數個視訊串流。電子裝置100a~100d各自產生的視訊串流210、220、230以及240透過網路200進行傳輸,使每一個電子裝置100a~100d都能接收到視訊串流210、220、230以及240,從而產生視訊畫面,藉此開始進行視訊會議的一般模式。
在步驟S140中,辨識該些視訊串流中複數個臉部圖框所對應的複數個身分標記。請參閱第2C圖,步驟S140包含步驟S142~S146。
在步驟S142中,分析本地影像。並且,在步驟S144中,人臉辨識建立與會名單。電子裝置100a~100d可以對在一般模式下視訊串流210、220、230以及240所產生的畫面分別進行臉部辨識的運算。換言之,電子裝置100a~100d可以分別將自視訊串流210、220、230以及240中擷取的各個臉部圖框與前述資料庫中人員的臉部特徵進行比對,從而得到多個本地與會名單。本地與會名單包含與會人員的身分(例如,名字與職位)以及依據與會人員的身分所設定的優先級。
在步驟S146中,取得會議各方人員名單。在一些實施例中,電子裝置100a~100d可將在步驟S142中各自運算的本地與會名單相互傳送,進而得到本視訊會議中各地(亦即,不同的視訊空間)與會人員的身分,並且透過各地的電子裝置100a~100d對當地的視訊畫面進行運算可以節省運算成本。在另一些實例中,電子裝置100a~100d每一者亦可先接收全部的視訊串流210、220、230以及240,並對全部的視訊串流210、220、230以及240的畫面進行臉部辨識以取得與會名單。因此,本案不以此為限。
在步驟S150中,依據該些身分標記以及優先列表取得對應於該些臉部圖框的複數個顯示優先級。在一些實施例中,可依據該些身分標記查找於步驟S120中取得的優先級列表以決定該些臉部圖框的複數個顯示優先級。在另一些實施例中,亦可在會議開始前直接設定與會成員的優先級。因此,本案不以此為限。
在步驟S160中,偵測該些臉部圖框是否發言。在多人會議中,當與會人員都熱烈在相同時間討論議題時,可能會造成視訊會議的音頻混雜無法聽清。因此,接續步驟S170,根據該些臉部圖框是否正在發言以及該些顯示優先級,產生由該些臉部圖框中至少一者構成視訊畫面的主要顯示區域。如此,可以將顯示視訊畫面的主要顯示區域MA切換為正在發言且為與會成員中具有最高優先級者,藉此提醒與會眾人,視訊會議中的主管、老師或主講者正在進行發言。
步驟 S170包含步驟S172~S179。請參閱第2B圖。在步驟S172中,在單人模式下,在正在發言的該些臉部圖框中,判斷具有該些顯示優先級中之最高者的第一身分標記的第一臉部圖框。具體而言,電子裝置100可利用二維陣列式的收音裝置106接收會場中的從不同位置所產生的聲音並判斷這些聲源的方向,再將聲源方向與視訊畫面比對,從而判斷是哪些臉部圖框在進行發言。接著,在單人模式下,電子裝置100在正在發言的臉部圖框中,選擇具有最高顯示優先級者。
舉例而言,在第4圖所示視訊串流210、220、230以及240中,電子裝置100偵測到第一臉部圖框212正在發言,且在發言的臉部圖框中,第一臉部圖框212所對應的第一身分標記具有顯示優先級中之最高者,並將第一臉部圖框212配置於視訊畫面的主要顯示區域MA,如第5圖所示。
在一些實施例中,攝影裝置108可調變焦距,電子裝置100可控制攝影裝置108的焦距以產生解析度更高的第一臉部圖框212,並以此作為輸出的視訊串流210。在另一些實施例中,若攝影裝置108不具備可調變焦距,電子裝置100可自視訊串流210中擷取第一臉部圖框212,並將第一臉部圖框212放大作為輸出的視訊串流210。
在第5圖所示的實施例中,在單人模式下,視訊畫面包含主要顯示區域MA以及子顯示區域SA1~SA3。子顯示區域SA1~SA3分別用以配置視訊串流220、230以及240。在另一些實施例中,在單人模式下的視訊畫面可不具有子顯示區域SA1~SA3,視訊畫面可以僅由主要顯示區域MA構成,藉此可以更加清楚地看到正在發言的主講者、主管或老師。
在步驟S174中,對應於第一身分標記的人員指定第二身分標記的人員。在本揭示文件的實施例中,可以由前述具有第一身分標記的人員指定具有第二身分標記的人員。
在本揭示的一些實施例中,前述對應於第一身分標記的人員的指定可由收音裝置106接收對應於第一身分標記的人員的聲源訊號,所述的聲源訊號包含第二身分標記(例如,被指定人員的稱謂或名字)以及問答模式的起始關鍵字。舉例而言,收音裝置106自對應於第一身分標記的第一臉部圖框212的聲源方向在預期時間內所接收到的聲源訊號,經電子裝置100辨識後得到的詞彙有「回答」以及「Elsa」,藉此,第一身分標記的人員可由聲控或由電子裝置100的輸入介面點選被指定人員的頭像(例如,顯示螢幕110所呈現的與會頭像列表302),或直接點選視訊畫面中與會人員的臉部,以指定第二身分標記的人員。接續進行步驟S176。
在步驟S176中,將主要顯示區域(如第5圖所示的主要顯示區域MA)拆解為第一分割畫面(如第5圖所示的第一分割畫面SC1)以及第二分割畫面SC2(如第5圖所示的第二分割畫面SC2)並開始問答模式,如第7圖所示。
在步驟S178中,在問答模式下,將第一臉部圖框212配置於第一分割畫面SC1,並且將第二臉部圖框232配置於第二分割畫面SC2。如此,在視訊會議的問答過程可縮短搜尋主講人、被指定人員的時間,並且及時切換視訊畫面亦可提醒被指定人員回答問題。在一些實施例中,當處理電路102接收到指定第二身分標記人員的指令,被指定的第二身分標記人員所在的電子裝置100的顯示螢幕110的邊緣區域可以閃爍提示,進而促進會議流程。
舉例而言,在第6圖所示視訊串流210、220、230以及240中,電子裝置100偵測到對應於第一臉部圖框212的第一身分標記的人員正指定第二身分標記(例如,Elsa)的人員。在第7圖所示的視訊畫面中,第一臉部圖框212經配置在第一分割畫面SC1,對應於第二身分標記(例如,Elsa)的第二臉部圖框232經配置在第二分割畫面SC2。
類似地,第二臉部圖框232可由電子裝置100控制攝影裝置108的焦距而感測,或者由電子裝置100自視訊串流230中擷取放大並輸出。
在步驟S179中,響應於問答模式結束,將視訊畫面自問答模式切換回單人模式。具體而言,響應於問答模式結束,將問答模式切換回單人模式以合併第一分割畫面SC1以及第二分割畫面SC2為該主要顯示區域MA,並且將第一身分標記對應的第一臉部圖框212配置於主要顯示區域MA。接續步驟S174,以指定另一與會者繼續進行問答模式,或進行S180,會議結束。
第8圖為本揭露一實施例之電子裝置100的顯示螢幕110的示意圖。第9圖為本揭露一實施例之電子裝置100的顯示螢幕110的示意圖。相較於第5圖以及第7圖,在同一會場的多個與會者使用同一套音訊設備,在第8圖以及第9圖中,在視訊串流輸出的畫面是單人的情況下,可直接偵測有聲音的視訊串流,再判斷其中有誰具有最高的顯示優先級,以切換至第8圖所示的單人模式或第9圖所示的問答模式。在第8圖以及第9圖中的實施例的其餘操作方式皆類似於前述第5圖以及第7圖的實施例,故亦可由步驟S110~S180進行操作。
綜上所述,本揭示的實施例透過預先註冊人員身分以及對應的臉部特徵,從而在視訊會議中的單人模式透過臉部辨識判斷具有高顯示優先級的主講者,並在主講者發言時將其臉部圖框配置於視訊畫面的主要顯示區域MA,從而使與會人員更清楚並能注意到主講者的重要訊息。進一步而言,當具有高顯示優先級的主講者指定與會人員進行問答時,電子裝置100可直接響應於主講者的指定而將視訊畫面切換至問答模式,藉此同時顯示主講者(提問人)以及被指定人的臉部訊框,使視訊會議流程更順暢,透過會議畫面的切換,可避免與會者需要由音色判斷主講人或被指定人是誰的情況,讓每一位與會者可以同步會議進程。
雖然本揭露已以實施方式揭露如上,然其並非用以限定本揭露,任何本領域通具通常知識者,在不脫離本揭露之精神和範圍內,當可作各種之更動與潤飾,因此本揭露之保護範圍當視後附之申請專利範圍所界定者為準。
為使本揭露之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附符號之說明如下: 100,100a,100b,100c,100d:電子裝置 102:處理電路 104:儲存裝置 106:收音裝置 108:攝影裝置 110:顯示螢幕 200:網路 210,220,230,240:視訊串流 212:第一臉部圖框 232:第二臉部圖框 302:與會頭像列表 MA:主要顯示區域 SC1:第一分割畫面 SC2:第二分割畫面 SA1,SA2,SA3:子顯示區域 S100:視訊畫面構成方法 S110,S120,S130,S140,S142,S144,S146,S150,S160,S170,S172,S174,S176,S178,S179,S180:步驟
為使本揭露之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下: 第1圖為本揭露一實施例之電子裝置的示意圖。 第2A圖為本揭露一實施例之視訊畫面構成方法的流程圖。 第2B圖為本揭露一實施例之第2圖中的步驟S170的流程圖。 第2C圖為本揭露一實施例之第2圖中的步驟S140的流程圖。 第3圖為本揭露一實施例之電子裝置以及視訊串流的示意圖。 第4圖為本揭露一實施例之在一時間點的視訊串流的示意圖。 第5圖為本揭露一實施例之在與第4圖相同的時間點下電子裝置的顯示螢幕的示意圖。 第6圖為本揭露一實施例之在另一時間點的視訊串流的示意圖。 第7圖為本揭露一實施例之在與第6圖相同的時間點下電子裝置的顯示螢幕的示意圖。 第8圖為本揭露一實施例之電子裝置的顯示螢幕的示意圖。 第9圖為本揭露一實施例之電子裝置的顯示螢幕的示意圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無 國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無
100:電子裝置
102:處理電路
104:儲存裝置
106:收音裝置
108:攝影裝置
110:顯示螢幕

Claims (10)

  1. 一種視訊畫面構成方法,包含: 取得一優先級列表,其中該優先級列表包含複數個人員身分的複數個優先級; 接收複數個視訊串流; 辨識該些視訊串流中複數個臉部圖框所對應的複數個身分標記; 依據該些身分標記以及該優先級列表以取得對應於該些臉部圖框的複數個顯示優先級; 偵測該些臉部圖框是否發言;以及 根據該些臉部圖框是否發言以及該些顯示優先級,產生由該些臉部圖框中至少一者構成一視訊畫面的一主要顯示區域。
  2. 如請求項1所述的視訊畫面構成方法,包含: 在一單人模式下,在正在發言的該些臉部圖框中,判斷具有該些顯示優先級中之最高者的一第一身分標記的一第一臉部圖框;以及 在該單人模式下,將該第一臉部圖框配置於該視訊畫面時的該主要顯示區域。
  3. 如請求項2所述的視訊畫面構成方法,包含: 對應於該第一身分標記的人員指定一第二身分標記的人員響應於來自該第一身分標記的人員的該指定,將該主要顯示區域拆解為一第一分割畫面以及一第二分割畫面並開始一問答模式;以及 在該問答模式下,將該第一臉部圖框配置於該第一分割畫面,並且將該第二身分標記對應的該些臉部圖框中的一第二臉部圖框配置於該第二分割畫面。
  4. 如請求項3所述的視訊畫面構成方法,包含: 響應於該問答模式結束,將該問答模式切換回該單人模式以合併該第一分割畫面以及一第二分割畫面為該主要顯示區域,並且將該第一臉部圖框配置於該主要顯示區域。
  5. 如請求項3所述的視訊畫面構成方法,其中對應於該第一身分標記的人員的該指定是由收音裝置接收對應於該第一身分標記的人員的一聲源訊號,其中該聲源訊號包含該第二身分標記以及該問答模式的關鍵字。
  6. 一種電子裝置,包含: 一儲存裝置;以及 一處理電路,用以: 取得一優先級列表,其中該優先級列表包含複數個人員身分的複數個優先級; 接收複數個視訊串流; 辨識該些視訊串流中複數個臉部圖框所對應的複數個身分標記; 依據該些身分標記以及該優先級列表以取得對應於該些臉部圖框的複數個顯示優先級; 偵測該些臉部圖框是否發言;以及 根據該些臉部圖框是否發言以及該些顯示優先級,產生由該些臉部圖框中至少一者構成一視訊畫面的一主要顯示區域。
  7. 如請求項6所述的電子裝置,其中該處理電路更用以: 在一單人模式下,在正在發言的該些臉部圖框中,判斷具有該些顯示優先級中之最高者的一第一身分標記的一第一臉部圖框;以及 在該單人模式下,將該第一臉部圖框配置於該視訊畫面時的該主要顯示區域。
  8. 如請求項7所述的電子裝置,其中該處理電路更用以: 對應於該第一身分標記的人員指定一第二身分標記的人員; 響應於來自該第一身分標記的人員的該指定,將該主要顯示區域拆解為一第一分割畫面以及一第二分割畫面並開始一問答模式;以及 在該問答模式下,將該第一臉部圖框配置於該第一分割畫面,並且將該第二身分標記對應的該些臉部圖框中的一第二臉部圖框配置於該第二分割畫面。
  9. 如請求項8所述的電子裝置,其中該處理電路更用以: 響應於該問答模式結束,將該問答模式切換回該單人模式以合併該第一分割畫面以及一第二分割畫面為該主要顯示區域,並且將該第一臉部圖框配置於該主要顯示區域。
  10. 如請求項8所述的電子裝置,其中對應於該第一身分標記的人員的該指定是由收音裝置接收對應於該第一身分標記的人員的一聲源訊號,其中該聲源訊號包含該第二身分標記以及該問答模式的關鍵字。
TW111103019A 2022-01-24 2022-01-24 視訊畫面構成方法以及電子裝置 TWI810798B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW111103019A TWI810798B (zh) 2022-01-24 2022-01-24 視訊畫面構成方法以及電子裝置
US17/804,100 US20230237838A1 (en) 2022-01-24 2022-05-26 Video image composition method and electronic device
CN202210660465.4A CN116524554A (zh) 2022-01-24 2022-06-13 视频画面构成方法以及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111103019A TWI810798B (zh) 2022-01-24 2022-01-24 視訊畫面構成方法以及電子裝置

Publications (2)

Publication Number Publication Date
TW202332248A true TW202332248A (zh) 2023-08-01
TWI810798B TWI810798B (zh) 2023-08-01

Family

ID=87314309

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111103019A TWI810798B (zh) 2022-01-24 2022-01-24 視訊畫面構成方法以及電子裝置

Country Status (3)

Country Link
US (1) US20230237838A1 (zh)
CN (1) CN116524554A (zh)
TW (1) TWI810798B (zh)

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US20150189233A1 (en) * 2012-04-30 2015-07-02 Goggle Inc. Facilitating user interaction in a video conference
US10304458B1 (en) * 2014-03-06 2019-05-28 Board of Trustees of the University of Alabama and the University of Alabama in Huntsville Systems and methods for transcribing videos using speaker identification
US9704020B2 (en) * 2015-06-16 2017-07-11 Microsoft Technology Licensing, Llc Automatic recognition of entities in media-captured events
US9807341B2 (en) * 2016-02-19 2017-10-31 Microsoft Technology Licensing, Llc Communication event
US10949463B2 (en) * 2017-03-02 2021-03-16 Ricoh Company, Ltd. Behavioral measurements in a video stream focalized on keywords
TW201901527A (zh) * 2017-05-26 2019-01-01 和碩聯合科技股份有限公司 視訊會議裝置與視訊會議管理方法
US10477148B2 (en) * 2017-06-23 2019-11-12 Cisco Technology, Inc. Speaker anticipation
CN109413359B (zh) * 2017-08-16 2020-07-28 华为技术有限公司 摄像跟踪方法、装置及设备
US11290686B2 (en) * 2017-09-11 2022-03-29 Michael H Peters Architecture for scalable video conference management
CN109819195B (zh) * 2017-11-22 2021-01-29 重庆晋才富熙科技有限公司 智慧会议系统
US10951947B2 (en) * 2018-01-17 2021-03-16 Microsoft Technology Licensing, Llc Dynamic configuration of a user interface for bringing focus to target events
US10623657B2 (en) * 2018-06-12 2020-04-14 Cisco Technology, Inc. Audio assisted auto exposure
US11356488B2 (en) * 2019-04-24 2022-06-07 Cisco Technology, Inc. Frame synchronous rendering of remote participant identities
US11606220B2 (en) * 2020-06-20 2023-03-14 Science House LLC Systems, methods, and apparatus for meeting management

Also Published As

Publication number Publication date
US20230237838A1 (en) 2023-07-27
TWI810798B (zh) 2023-08-01
CN116524554A (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
US9466222B2 (en) System and method for hybrid course instruction
Licoppe et al. Video-in-interaction:“Talking heads” and the multimodal organization of mobile and Skype video calls
US8791977B2 (en) Method and system for presenting metadata during a videoconference
Massimi et al. Moving from talking heads to newlyweds: exploring video chat use during major life events
TWI294598B (en) Remote education system, and method for attendance confirmation and computer readable recording media
US11444982B1 (en) Method and apparatus for repositioning meeting participants within a gallery view in an online meeting user interface based on gestures made by the meeting participants
US20150049162A1 (en) Panoramic Meeting Room Video Conferencing With Automatic Directionless Heuristic Point Of Interest Activity Detection And Management
JP5079686B2 (ja) 会議参加者を電話呼と関連付ける方法およびシステム
Friesen Telepresence and tele-absence: A phenomenology of the (in) visible alien online
JPWO2013077000A1 (ja) ボイスリンクシステム
KR20150040981A (ko) 조직화 모델들을 구현하는 화상 회의 시스템들
US20120259924A1 (en) Method and apparatus for providing summary information in a live media session
US11546385B1 (en) Method and apparatus for self-selection by participant to display a mirrored or unmirrored video feed of the participant in a videoconferencing platform
US11621979B1 (en) Method and apparatus for repositioning meeting participants within a virtual space view in an online meeting user interface based on gestures made by the meeting participants
TWI222042B (en) Method of providing education services for free talk services
O’Meara Like movies for radio’: Media convergence and the Serial podcast sensation
Inoue et al. Learning from TV programs: Application of TV presentation to a videoconferencing system
TWI810798B (zh) 視訊畫面構成方法以及電子裝置
Boon Playing the doctor, playing the patient: The performance of health identities in live medical television, 1958
JP2007221437A (ja) 遠隔会議システム
Starr et al. Cellphilming as a feminist tool
US11949727B2 (en) Organic conversations in a virtual group setting
US12041347B2 (en) Autonomous video conferencing system with virtual director assistance
WO2015131520A1 (zh) 一种在网真会议系统中显示布局的方法及装置
Fayard The virtual stage: video-mediated behaviors and presentation of self in a video-mediated environment