TWI828583B

TWI828583B - 用於遠端視訊會議的操作方法、遠端視訊會議系統及遠端裝置

Info

Publication number: TWI828583B
Application number: TW112117579A
Authority: TW
Inventors: 余俊彥; 吳庭瑋; 劉顓瑜
Original assignee: 仁寶電腦工業股份有限公司
Priority date: 2022-06-15
Filing date: 2023-05-11
Publication date: 2024-01-01
Also published as: TW202402045A

Abstract

本發明提供一種用於遠端視訊會議的操作方法、遠端視訊會議系統及遠端裝置。取得第一用戶影像及多媒體內容。將第一用戶影像進行鏡像處理，以產生第一鏡像用戶影像。將第一鏡像用戶影像與多媒體內容分配至虛擬空間中的不同深度，以產生合成影像，使第一鏡像用戶影像位於合成影像所呈現的虛擬空間中的前景及背景中的一者，並使多媒體內容位於前景及背景中的另一者。合成影像用於顯示於遠端裝置或本地裝置的顯示器。藉此，可提升互動效果。

Description

用於遠端視訊會議的操作方法、遠端視訊會議系統及遠端裝置

本發明是有關於一種視訊處理技術，且特別是有關於一種用於遠端視訊會議的操作方法、遠端視訊會議系統及遠端裝置。

遠端視訊會議可讓位於兩地的人不僅能通訊還是見到彼此。然而，遠端視訊技術仍有待改進。例如，雖然市面上的遠端視訊系統的資訊分享機制有提供同步顯示，但僅限於分享檔案的一方可控制調整檔案，讓視訊會議無法有效率地雙向溝通。此外，視訊通話介面分別呈現分享資訊的視窗和即時影像，使視訊會議無法兼顧表情觀察與資訊閱讀。此外，在傳統的簡報過程中，用戶需要在多個應用程式或視窗之間頻繁切換內容，使簡報過程缺乏一致性。

有鑑於此，本發明實施例提供一種遠端視訊會議的操作方法、遠端視訊會議系統及遠端裝置，可整合簡報及即時影像，並可讓分享資訊提供給雙方互動。

本發明實施例的用於遠端視訊會議的操作方法包括(但不僅限於)下列步驟：取得第一用戶影像及多媒體內容。將第一用戶影像進行鏡像(mirror)處理，以產生第一鏡像用戶影像。將第一鏡像用戶影像與多媒體內容分配至虛擬空間中的不同深度，以產生合成影像，使第一鏡像用戶影像位於合成影像所呈現的虛擬空間中的前景及背景中的一者，並使多媒體內容位於前景及背景中的另一者。輸出合成影像。合成影像用於顯示於遠端裝置或本地裝置的顯示器。

本發明實施例的遠端視訊會議系統包括(但不僅限於)運算裝置。運算裝置包括通訊收發器及處理器。通訊收發器用以接收來自本地裝置及遠端裝裝置中的一者的第一用戶影像。處理器耦接通訊收發器，並經配置用以：將第一用戶影像進行鏡像處理以產生第一鏡像用戶影像，將第一鏡像用戶影像與多媒體內容分配至虛擬空間中的不同深度以產生合成影像，使第一鏡像用戶影像位於合成影像所呈現的虛擬空間中的前景及背景中的一者，並使多媒體內容位於前景及背景中的另一者，透過通訊收發器輸出合成影像。合成影像用於顯示於遠端裝置及本地裝置中的另一者的顯示器。

本發明實施例的遠端裝置包括(但不僅限於)通訊收發器、顯示器及處理器。通訊收發器用以接收合成影像。第一鏡像用戶影像位於合成影像所呈現的虛擬空間中的前景及背景中的一者。多媒體內容位於前景及背景中的另一者。第一鏡像用戶影像是對第一用戶影像進行鏡像處理所產生的。顯示器用以顯示影像。處理器耦接通訊收發器及顯示器。處理器經配置用以透過顯示器顯示合成影像。

基於上述，依據本發明實施例的遠端視訊會議的操作方法、遠端視訊會議系統及遠端裝置，將鏡像的用戶影像與多媒體內容分別安排在虛擬空間中的前景及背景，以選擇性地凸顯用戶影像或多媒體內容。藉此，可簡化操作流程，並可提供更直覺且有效率的視訊互動。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是依據本發明一實施例的遠端視訊會議系統1的元件方塊圖。遠端視訊會議系統1包括(但不僅限於)本地裝置10、遠端裝置20及運算裝置30。

本地裝置10及遠端裝置20可以是桌上型電腦、筆記型電腦、智慧型手機、平板電腦、穿戴式裝置、智能助理裝置、智能家電、車載系統或其他電子裝置。

本地裝置10包括(但不僅限於)影像擷取裝置11、麥克風12、喇叭13、顯示器14、通訊收發器15及處理器16。

影像擷取裝置11可以是相機、攝影機、監視器、智慧型手機或具備影像擷取功能的電路。在一實施例中，影像擷取裝置11用以擷取指定視野(Field of View，FOV)內的影像。

麥克風12可以是動圈式(dynamic)、電容式(Condenser)、或駐極體電容(Electret Condenser)等類型的麥克風，麥克風12也可以是其他可接收聲波(例如，人聲、環境聲、機器運作聲等)而轉換為聲音訊號的電子元件、類比至數位轉換器、濾波器、及音訊處理器之組合。

喇叭13可以是揚聲器或擴音器。在一實施例中，喇叭13用以發出聲音。

顯示器14可以是液晶顯示器(Liquid-Crystal Display，LCD)、發光二極體(Light-Emitting Diode，LED)顯示器、有機發光二極體(Organic Light-Emitting Diode，OLED)顯示器或其他顯示器。在一實施例中，顯示器14用以播放影像。

通訊收發器15可以支援諸如藍芽、Wi-Fi、USB、行動網路、光纖網路或其他通訊技術的通訊收發電路。在一實施例中，通訊收發器15用以接收來自外部裝置(例如，運算裝置30或遠端裝置20)的訊號或傳送訊號至外部裝置。

處理器16耦接影像擷取裝置11、麥克風12、喇叭13、顯示器14及通訊收發器15。處理器16可以是中央處理單元(Central Processing Unit，CPU)、圖形處理單元(Graphic Processing unit，GPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)、神經網路加速器或其他類似元件或上述元件的組合。在一實施例中，處理器16用以執行本地裝置10的所有或部份作業，可載入並執行程式碼、軟體模組、檔案及資料，並據以執行本發明實施例的操作方法。在一些實施例中，處理器16的功能可透過軟體或晶片實現。

遠端裝置20包括(但不僅限於)影像擷取裝置21、麥克風22、喇叭23、顯示器24、通訊收發器25及處理器26。影像擷取裝置21、麥克風22、喇叭23、顯示器24、通訊收發器25及處理器26的實施態樣及功能可分別參照前述針對影像擷取裝置11、麥克風12、喇叭13、顯示器14、通訊收發器15及處理器16的說明，於此不再贅述。

在一實施例中，處理器26用以執行遠端裝置20的所有或部份作業，可載入並執行程式碼、軟體模組、檔案及資料，並據以執行本發明實施例的操作方法。

運算裝置30可以是雲端伺服器、雲端平台、個人電腦或其他伺服器。

運算裝置30包括(但不僅限於)通訊收發器35及處理器36。

通訊收發器35及處理器36的實施態樣及功能可分別參照前述針對通訊收發器15及處理器16的說明，於此不再贅述。

在一實施例中，處理器36用以執行運算裝置30的所有或部份作業，可載入並執行程式碼、軟體模組、檔案及資料，並據以執行本發明實施例的操作方法。

在一實施例中，處理器36用以提供遠端視訊會議，並可供建立遠端視訊會議所用的線上會議室。會議上可分享文件、呈現立體物件、播放串流、分享開放資料及/或呈現虛擬人物。

例如，運算裝置30建立線上會議室供本地裝置10及遠端裝置20加入。本地裝置10及遠端裝置20分別上傳透過影像擷取裝置11、21及/或麥克風12、22所取得的生理特徵、即時影像及/或語音訊號至運算裝置30。而運算裝置30可將結合本地裝置10的即時影像(還可能整合其他影像或物件)及語音訊號傳送給遠端裝置20，且將結合遠端裝置20的即時影像(還可能整合其他影像或物件)及語音訊號傳送給本地裝置10，以分別透過顯示器14、24顯示即時影像並透過喇叭13、23播放語音訊號。藉此，可實現遠端視訊會議。

下文中，將搭配遠端視訊會議系統1中的各項裝置、元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整，且並不僅限於此。

圖2是依據本發明一實施例的用於遠端視訊會議的操作方法的流程圖。請參照圖2，運算裝置30的處理器36透過通訊收發器35取得第一用戶影像及多媒體內容(步驟S210)。具體而言，第一用戶影像是基於本地裝置10的影像擷取裝置11或遠端裝置20的影像擷取裝置21所拍攝的影像所產生的。在一實施例中，影像擷取裝置11及影像擷取裝置21分別朝目標物拍攝。這目標物可以是人或動物，但本發明實施例不加以限制類型。在一實施例中，處理器16或處理器26可對影像擷取裝置11或影像擷取裝置21所拍攝的影像進行去背處理，以分離出僅有目標物的影像，並據以成為第一用戶影像。在另一實施例中，第一用戶影像包括目標物及環境的影像。

另一方面，多媒體內容可以是簡報、動畫、圖片、文字、圖案或影片。本地裝置10或遠端裝置20可儲存多媒體內容，或者運算裝置30可自其他裝置或自網站下載多媒體內容。

處理器36將第一用戶影像進行鏡像(mirror)處理，以產生第一鏡像用戶影像(步驟S220)。具體而言，鏡像處理是依據垂直中心軸左右翻轉影像，使影像的左右區影像對調。例如，影像的第一列(行)的像素與倒數第一列的像素交換，第二列的像素與倒數第二列的像素交換，其餘依此類推直到到達垂直中心軸。

圖3A是依據本發明一實施例的第一用戶影像UIM1與多媒體內容MC1呈現的示意圖。請參照圖3A，多媒體內容MC1是數位化的影像。當分享多媒體內容MC1時，以本地裝置10的用戶視角而言，多媒體內容MC1中的圖案(例如，「B」)位於用戶的左上方。同理地，以遠端裝置20的用戶視角而言，多媒體內容MC1中的圖案(例如，「B」)也位於用戶的左上方。值得注意的是，遠端裝置20的用戶手指這「B」圖案。若直接將對這用戶拍攝的第一用戶影像UIM1(經由運算裝置30)傳送至本地裝置10，則本地裝置10的顯示器14所顯示的合成影像SIM1中的人物將不會指向這「B」圖案。合成影像SIM1包括第一用戶影像UIM1及多媒體內容MC1。最終，造成本地裝置10的用戶無法理解遠端裝置20的用戶的手勢或動作的意圖。

圖3B是依據本發明一實施例的第一鏡像用戶影像MIM1與多媒體內容MC1呈現的示意圖。請參照圖3B，若欲使本地裝置10的顯示器14所顯示的合成影像SIM2中的人物的動作能正確朝向多媒體內容MC1中的物件，則可將第一用戶影像UMI1左右鏡射成第一鏡像用戶影像MIM1。最終，本地裝置10的顯示器14所顯示的合成影像SIM2中的人物可指向這「B」圖案。

請參照圖2，處理器36將第一鏡像用戶影像與多媒體內容分配至虛擬空間中的不同深度，以產生合成影像(步驟S230)。具體而言，現有視訊會議軟體都是將用戶影像與簡報內容作為兩個影像並分開於不同區域/視窗顯示。反觀本發明實施例，處理器36將第一鏡射用戶影像與多媒體內容整合成合成影像。也就是說，單一合成影像包括第一鏡射用戶影像與多媒體內容兩者，使單一影像區域或視窗同時呈現第一鏡射用戶影像與多媒體內容兩者。

關於第一鏡射用戶影像與多媒體內容在合成影像中的位置，處理器36可建立虛擬空間，並使第一鏡像用戶影像位於合成影像所呈現的虛擬空間中的前景及背景中的一者，並使多媒體內容位於前景及背景中的另一者。這虛擬空間是影像空間。無可避免地，第一鏡射用戶影像與多媒體內容可能在影像平面上重疊或用戶所欲強調或凸顯的目標(即，第一鏡射用戶影像與多媒體內容中的一者)不同，因此可依據不同深度區別第一鏡射用戶影像與多媒體內容。虛擬空間中的前景是指深度較淺，且視覺上較接近觀看者；而虛擬空間中的背景是指深度較深，且視覺上較遠離觀看者。一般而言，觀看者通常會首先注意到或較為關注位於前景的物件。因此，第一鏡射用戶影像與多媒體內容在虛擬空間中的深度的安排可考量會議的著重目標，但不以此考量為限。

當第一鏡像用戶影像位於合成影像所呈現的虛擬空間中的前景時，多媒體內容可位於這虛擬空間中的背景。也就是，第一鏡像用戶影像的深度小於多媒體內容。另一方面，當多媒體內容位於這虛擬空間中的前景時，第一鏡像用戶影像可位於這虛擬空間中的背景。也就是，第一鏡像用戶影像的深度大於多媒體內容。

此外，處理器36可依據深度合成第一鏡像用戶影像及多媒體內容，以產生合成影像。例如，當第一鏡像用戶影像及多媒體內容的像素在影像平面上重疊時，僅保留深度較淺的影像的像素或降低像素的透明度(例如，透明度降低到50%)。

以圖3B為例，在虛擬空間VS中，遠端裝置20的第一鏡射用戶影像MIM1位於前景FG，且多媒體內容MC1位於背景BG。因此，本地裝置10的用戶所看到的合成影像SIM2將是第一鏡射用戶影像MIM1疊在多媒體內容MC1上。也就是，多媒體內容MC1位於第一鏡射用戶影像MIM1後方。

請參照圖2，運算裝置30的處理器36可透過通訊收發器35輸出合成影像(步驟S240)。具體而言，這合成影像可供本地裝置10的顯示器14或遠端裝置20的顯示器24顯示。例如，包括本地裝置10的用戶的第一鏡像用戶影像的合成影像傳送至遠端裝置20，而包括遠端裝置20的用戶的第一鏡像用戶影像的合成影像傳送至本地裝置10。

例如，圖4是依據本發明一實施例的本地裝置10與遠端裝置20的合成影像SIM3、SIM4的示意圖。請參照圖4，本地裝置10的顯示器14所顯示的合成影像SIM3包括第一鏡射用戶影像MIM3(對應於遠端裝置20的用戶RU1)及多媒體內容MC2，且遠端裝置20的顯示器24所顯示的合成影像SIM4包括第一鏡射用戶影像MIM2(對應於本地裝置10的用戶LU1)及多媒體內容MC2。顯示器14、24所顯示的第一鏡射用戶影像MIM2、MIM3分別覆蓋在多媒體內容MC2上。

圖5A是依據本發明一實施例的影像分配的流程圖。請參照圖5A，在一實施例中，在步驟S230中，處理器36還可將第一鏡像用戶影像分配至合成影像中的第一影像區域(步驟S510)，並將多媒體內容分配至合成影像中的第二影像區域(步驟S520)。具體而言，第一及第二影像區域是指相同影像水平面上的兩個區域。為了提升多媒體內容的可看程度，第二影像區域可相較於第一影像區域大且位於合成影像的中間。

例如，圖5B是依據本發明一實施例的影像分配的示意圖。請參照圖5B，合成影像SIM3的第一影像區域IA1供第一鏡射用戶影像MIM3放置，且其第二影像區域IA2供多媒體內容MC2放置。第二影像區域IA2的面積大概佔合成影像SIM3的百分之七十，且第一影像區域IA1的面積大概佔合成影像SIM3的百分之三十，使多媒體內容MC2大於第一鏡射用戶影像MIM3。此外，第二影像區域IA2位於影像中間，使多媒體內容MC2位於畫面中間。

須說明的是，在其他實施例中，第一影像區域IA1及第二影像區域IA2的大小、形狀及/或位置仍可依據實際需求而變更。

圖6A是依據本發明一實施例的前景及背景切換的流程圖。請參照圖6A，在一實施例中，在步驟S230中，處理器36還可透過通訊收發器35接收來自本地裝置10或遠端裝置20的用戶指令(步驟S610)。用戶指令可以是語音指令、手勢指令或輸入指令。例如，透過麥克風12接收用戶的聲音，以產生語音指令。又例如，透過影像擷取裝置21拍攝用戶的手勢，以產生手勢指令。再例如，透過滑鼠、遙控器、鍵盤或觸控螢幕所接收的輸入操作，以產生輸入指令。

處理器36可依據用戶指令將第一鏡像用戶影像及多媒體內容由前景及背景中的一者互換成另一者(步驟S620)。這用戶指令經預設為用於切換影像的深度。處理器36可判斷接收的用戶指令是否符合預設指令。例如，「移動簡報到前面」的語音指令。而在第一鏡像用戶影像位於虛擬空間中的前景且多媒體內容位於背景的前提下，若接收到用戶指令，則第一鏡像用戶影像切換/移動至背景且多媒體內容切換/移動至前景。另一方面，在多媒體內容位於虛擬空間中的前景且第一鏡像用戶影像位於背景的前提下，若接收到用戶指令，則第一鏡像用戶影像切換/移動至前景且多媒體內容切換/移動至背景。

例如，圖6B是依據本發明一實施例的前景及背景切換的示意圖。請參照圖3B及6B，假設原先第一鏡射用戶影像MIM1與多媒體內容MC1如圖3B所示分別位於前景FG及背景BG。若接收到切換深度的用戶指令，則第一鏡射用戶影像MIM1與多媒體內容MC1如圖6B所示分別位於背景BG及前景FG。同理地，若後續又接收到切換深度的用戶指令，則第一鏡射用戶影像MIM1與多媒體內容MC1如圖3B所示分別位於前景FG及背景BG。

圖6C是依據本發明一實施例的本地裝置10與遠端裝置20的合成影像-前景及背景切換的示意圖。請參照圖4及圖6C，原先如圖4所示多媒體內容MC2分別位於第一鏡射用戶影像MIM2、MIM3的後方。經切換/改變深度後，如圖6C所示，合成影像SIM5中的多媒體內容MC2位於第一鏡射用戶影像MIM3的前方，且合成影像SIM6中的多媒體內容MC2位於第一鏡射用戶影像MIM2的前方。

圖7A是依據本發明一實施例的多媒體內容操作的流程圖。請參照圖7A，在一實施例中，在步驟S230中，處理器36還可透過通訊收發器35偵測來自本地裝置10或遠端裝置20的第一用戶操作(步驟S710)。第一用戶操作可以是手勢、滑鼠操作或觸控操作。本地裝置10或遠端裝置20記錄手勢、滑鼠操作或觸控操作的位置及移動軌跡。接著，處理器36可依據第一用戶操作編輯或操作多媒體內容(步驟S720)。例如，依據移動軌跡在多媒體內容上註解筆記、新增物件或刪除/增加文字。又例如，縮放多媒體內容的大小或切換其他多媒體內容。

再舉示意圖說明，圖7B是依據本發明一實施例的多媒體內容操作的示意圖。請參照圖7B，處理器36依據用戶LU1的手勢G1在合成影像SIM8的多媒體內容MC2畫上對應筆跡TJ1。處理器36依據用戶RU1的手勢G2在合成影像SIM7的多媒體內容MC2畫上對應筆跡TJ2，以將第一用戶操作(例如，手勢G1、G2)的移動軌跡同步呈現於合成影像SIM7、SIM8中。也就是說，筆跡TJ1、TJ2可分別同步於手勢G1、G2的移動軌跡。

圖7C是依據本發明另一實施例的多媒體內容操作的示意圖。請參照圖7C，由於第一鏡射用戶影像MIM4是經鏡射處理的影像，因此合成影像SIM9中的筆跡TJ3也需要對應左右翻轉，使得遠端裝置20的顯示器24所顯示的合成影像SIM9中的筆跡TJ3同步於本地裝置10的用戶LU3的手勢G3的軌跡TJ4。此外，本地裝置10及遠端裝置20所顯示的畫面都是多媒體內容MC4位於前景，使觀看者可明確得知用戶操作意圖編輯或操作多媒體內容MC4的位置。

圖8A是依據本發明一實施例的用戶影像加入的流程圖。請參照圖8A，在一實施例中，處理器36可透過通訊收發器35取得來自本地裝置10或遠端裝置20的第二用戶影像(步驟S810)。這第二用戶影像中的目標物不同於前述第一用戶影像中的目標物。例如，圖8B是依據本發明一實施例的用戶影像加入的示意圖。請參照圖8B，本地裝置10前坐著用戶LU1、LU2。因此，處理器36可取得來自影像擷取裝置11、21的兩個用戶影像並分別對應於用戶LU1、用戶LU2。

同理地，處理器36可對第二用戶影像進行鏡像處理，以產生第二鏡像用戶影像(步驟S820)。鏡像處理的說明可參酌前述針對步驟S220的說明，於此不再贅述。

接著，處理器36可將第二鏡像用戶影像加入到包括第一鏡像用戶影像的合成影像中(步驟S830)。第二鏡像用戶影像可與第一鏡像用戶影像同時位於虛擬空間中的前景及背景中的一者。同樣地，若與多媒體內容在影像水平面上重疊，則處理器36可依據深度僅保留深度較淺的影像的像素或降低像素的透明度。

以圖8B為例，合成影像SIM11包括對應於遠端裝置20的用戶RU1的第一鏡射用戶影像MIM3。而合成影像SIM12整合分別對應於本地裝置10的用戶LU1、LU2的第一鏡射用戶影像MIM2及第二鏡射用戶影像MIM6。

在其他實施例中，處理器36還可在合成影像中加入對應於其他用戶的更多鏡射用戶影像。

圖9A是依據本發明一實施例的調整影像的流程圖。請參照圖9A，在一實施例中，在步驟S830中，處理器36還可偵測對應於第二鏡像用戶影像的聲音訊號或手勢(步驟S910)。聲音訊號是透過麥克風12、22所接收到對應於第二鏡像用戶影像的用戶的聲音所產生的訊號。而手勢是透過影像擷取裝置11、21所拍攝到對應於第二鏡像用戶影像的用戶的手勢。

處理器36可依據聲音訊號或手勢調整第二鏡像用戶影像在合成影像中的大小(步驟S920)。具體而言，處理器36可判斷聲音訊號或手勢是否符合預設縮放指令。縮放指令例如是「我來說明」的聲音訊號或舉手手勢。或者，處理器36也可偵測第二鏡像用戶影像對應用戶的聲音，只要偵測到這用戶的聲音即觸發調整影像的大小。在一實施例中，處理器36可將發出聲音的用戶對應的第一或第二鏡射用戶影像大於其他未發出聲音的用戶對應的第一或第二鏡射用戶影像。

例如，圖9B是依據本發明一實施例的調整影像的示意圖。請參照圖9B，當第二鏡射用戶影像MIM6對應的用戶舉手時，合成影像SIM12中的第二鏡射用戶影像MIM6的大小與第一鏡射用戶影像MIM2的大小相同。處理器36可偵測簡報者的聲音，當第一鏡射用戶影像MIM2對應的用戶發出聲音但第二鏡射用戶影像MIM6對應的用戶沒有發出聲音時，處理器36可縮小第二鏡射用戶影像MIM6的大小，如合成影像SIM12-2中的第二鏡射用戶影像MIM6小於第一鏡射用戶影像MIM2。接著，當偵測到第二鏡射用戶影像MIM6對應的用戶發出聲音時，處理器36可放大第二鏡射用戶影像MIM6的大小，如合成影像SIM12中的第二鏡射用戶影像MIM4與第一鏡射用戶影像MIM2的大小相同。

圖10A是依據本發明一實施例的虛擬人物加入的流程圖。在一實施例中，在步驟S830中，處理器36可依據第二鏡像用戶影像產生虛擬人物(步驟S1010)。虛擬人物可以是預先設計或基於用戶的影像特徵所產生的。接著，處理器36可將虛擬人物加入至合成影像(步驟S1020)。也就是說，將虛擬人物取代第二鏡像用戶影像。

例如，圖10B是依據本發明一實施例的虛擬人物加入的示意圖。請參照圖10B，處理器36將對應於本地裝置10的用戶LU2的虛擬人物VP1加入到合成影像SIM12-3。此外，處理器36可偵測本地裝置10的用戶LU2的動作(例如，基於影像辨識)，並將虛擬人物VP1的動作同步於虛擬人物VP1(也可以如圖9B所示同步於第二鏡像用戶影像MIM6)。也就是，將虛擬人物VP1的動作同步於虛擬人物VP1的動作。如圖10B所示，用戶LU2舉起雙手，虛擬人物VP1也跟著用戶LU2舉起雙手。

圖11A是依據本發明一實施例的立體物件呈現的流程圖。請參照圖11A，在一實施例中，處理器36可判斷第二用戶操作所指定的目標位置位於合成影像中的觸發點(步驟S1110)。具體而言，第二用戶操作可以是滑鼠的移動操作或手勢。例如，圖11B是依據本發明一實施例的觸發立體物件的示意圖。請參照圖11B，處理器36可針對第一鏡射用戶影像MIM2(對應於用戶LU1)的手勢G4。若手勢G4符合游標觸發手勢(例如，僅伸出食指並朝上)，則可依據手勢G4對應的位置在本地裝置10的顯示器14所顯示的合成影像SIM13中呈現游標CU，以方便用戶LU1確認手勢G4的位置。而第二用戶操作所指定的目標位置可以是游標CU在合成影像SIM13中的位置。此時，由於未偵測到遠端裝置20的用戶RU1的手勢符合游標觸發手勢，因此合成影像SIM14未出現游標。

另一方面，觸發點是合成影像SIM13中的預設區域或點。處理器36可確認游標CU是否重疊於觸發點。

請參照圖11A，處理器36可將立體物件呈現於觸發點上(步驟S1120)。立體物件可以是人物、動物、商品或裝置的立體模型。處理器36可將立體物件呈現在合成影像中的觸發點上。例如，將觸發點作為立體物件的中心位置，並據以嵌入立體物件位置。

例如，圖11C是依據本發明一實施例的立體物件VO1呈現的示意圖。請參照圖11C，當手勢G4及其游標CU移動到觸發點TP時，立體物件VO1呈現在合成影像SIM13、SIM14的觸發點TP上。在一實施例中，處理器36可進一步判斷手勢G4或游標CU是否在觸發點TP上停留預設時間(例如，0.5或1秒)。若在觸發點TP的停留時間達到預設時間，則可呈現立體物件VO1。在另一實施例中，處理器36可進一步判斷手勢G4是否在觸發點TP上符合預設行為(例如，點選(click)或揮手)。若在觸發點TP的手勢G4符合預設行為，則可呈現立體物件VO1。

在一實施例中，在步驟S1120中，處理器36還可將立體物件呈現於合成影像中的第一層，將第一及/或第二鏡像用戶影像呈現於合成影像中的第二層，並將多媒體內容呈現於合成影像中的第三層。第一層覆蓋第二層及第三層，且第二層覆蓋第三層。也就是說，立體物件位於虛擬空間中的最前面一層(即，深度最淺)，第一及/或第二鏡像用戶影像位於中間層(即，深度次中)，且多媒體內容位於最後面一層(即，深度最深)。而前述覆蓋方式可參酌前述針對不同深度的影像在影像水平面上重疊的顯示方式。例如，僅保留深度較淺的影像的像素或調整影像的透明度。

例如，圖11D是依據本發明一實施例的立體物件VO1呈現的示意圖，且圖12是依據本發明一實施例的合成影像中的景深分配的示意圖。請參照圖11D及圖12，在這合成影像SIM16中，立體物件VO1位於第一層L1，第一鏡射用戶影像MIM2位於第二層L2，且多媒體內容MC5位於第三層。以觀看者的視覺體驗而言，立體物件VO1最接近觀看者，且多媒體內容MC5最遠離觀看者。同理地，合成影像SIM16中的立體物件VO1、第一鏡射用戶影像MIM3及多媒體內容MC5也分配在不同層。藉此，可凸顯立體物件VO1。

一實施例中，在步驟S1120中，處理器36還可將立體物件的移動、旋轉或平移同步於第二用戶操作的移動軌跡。具體而言，呈現立體物件之後，處理器36可依據滑鼠的移動操作或手勢(即，第二用戶操作)的移動軌跡繼續移動、旋轉或平移立體物件。例如，當偵測到向上滑動手勢時，向上移動立體物件。當偵測到繞圈手勢時，旋轉立體物件。當偵測到移動操作橫向移動時，水平平移立體物件。

圖13A是依據本發明一實施例的觸發影像調整的示意圖。請參照圖13A，合成影像SIM17整合第一鏡射用戶影像MIM3、多媒體內容MC5及立體物件VO1。合成影像SIM18整合第一鏡射用戶影像MIM2、虛擬人物VP1、多媒體內容MC5及立體物件VO1。由於虛擬人物VP1對應的用戶LU2未發出聲音，因此合成影像SIM18中的虛擬人物VP1小於第一鏡射用戶影像MIM2。接著，虛擬人物VP1對應的用戶LU2舉手。

圖13B是依據本發明一實施例的影像調整的示意圖。請參照圖13B，當偵測到用戶LU2舉手時，處理器36可放大虛擬人物VP1，使虛擬人物VP1在合成影像SIM20中的大小相同於第一鏡射用戶影像MIM2。

圖13C是依據本發明一實施例的立體物件操作的示意圖。請參照圖13C，若偵測到用戶LU2的手勢為繞圈，則合成影像SIM21、SIM22中的立體物件VO1相較於圖13B的合成影像SIM17、SIM20旋轉90度。

圖14A是依據本發明一實施例的虛擬人物整合的示意圖。請參照圖14A，合成影像SIM23整合第一鏡射用戶影像MIM2、虛擬人物VP2及多媒體內容MC6。

圖14B至圖14D是依據本發明一實施例的虛擬人物VP2與立體物件VO2互動的示意圖。請參照圖14B，合成影像SIM24整合第一鏡射用戶影像MIM2、全身的虛擬人物VP2、立體物件VO2及多媒體內容MC6。全身的虛擬人物VP2的高度相同於立體物件VO2，且位於合成影像SIM24的中央。

處理器36可追蹤虛擬人物VP2對應的用戶的動作(對應於前述第二用戶操作)，以在合成影像中同步呈現相同動作的虛擬人物VP2。例如，圖14C所示的合成影像SIM25中的虛擬人物VP2接觸立體物件VO2，或圖14D所示的合成影像SIM26中的虛擬人物VP2舉起雙手。甚至，依據虛擬人物VP2對應用戶的手勢或滑鼠的移動操作旋轉或移動立體物件VO2。也就是說，處理器36將對應於第二用戶操作的虛擬人物VP2加入至合成影像SIM25，且虛擬人物VP2的大小可等於或小於立體物件VO2。例如，虛擬人物VP2與立體物件VO2的大小比例介於0.2~1之間。

須說明的是，前述示意圖中的影像、虛擬人物、立體人物及多媒體內容的大小、位置及/或形狀仍可依據實際需求而改變。

綜上所述，在本發明實施例的用於遠端視訊會議的操作方法、遠端視訊會議系統及遠端裝置中，可對用戶影像鏡像處理，並整合鏡像用戶影像及多媒體內容在一起(例如，呈現在單一視窗中)。藉此，可讓兩端的用戶立即判斷他端的用戶與多媒體內容，並達到更直覺有效率的視訊互動。鏡像用戶影像、多媒體內容、虛擬人物及立體物件可分別位於合成影像中的虛擬空間的不同深度，以實現虛擬實境的效果。可依據需求調整影像、多媒體內容或物件的大小、位置及朝向。此外，可依據用戶操作的移動軌跡同步在合成影像上顯示筆記的筆跡。藉此，可依據實際需求，將用戶、簡報、及/或產品進行前後背景的調整，從而提供凸顯簡報焦點，進而簡化操作流程。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

1: 遠端視訊會議系統 10: 本地裝置 11、21: 影像擷取裝置 12、22: 麥克風 13、23: 喇叭 14、24: 顯示器 15、25、35: 通訊收發器 16、26、36: 處理器 20: 遠端裝置 30: 運算裝置 S210~S240、S510~S520、S610~S620、S710~S720、S810~S830、S910~S920、S1010~S1020、S1110~S1120: 步驟 UIM1: 第一用戶影像 MC1~MC6: 多媒體內容 SIM1~SIM26: 合成影像 MIM1~MIM4: 第一鏡射用戶影像 MIM6: 第二鏡射用戶影像 VS: 虛擬空間 FG: 前景 BG: 背景 LU1~LU3、RU1: 用戶 IA1: 第一影像區域 IA2: 第二影像區域 G1~G4: 手勢 TJ1~TJ3: 筆跡 TJ4: 軌跡 VP1、VP2: 虛擬人物 TP: 觸發點 VO1、VO2: 立體物件 L1: 第一層 L2: 第二層 L3: 第三層

圖1是依據本發明一實施例的遠端視訊會議系統的元件方塊圖。圖2是依據本發明一實施例的用於遠端視訊會議的操作方法的流程圖。圖3A是依據本發明一實施例的用戶影像與多媒體內容呈現的示意圖。圖3B是依據本發明一實施例的第一鏡像用戶影像與多媒體內容呈現的示意圖。圖4是依據本發明一實施例的本地裝置與遠端裝置的合成影像的示意圖。圖5A是依據本發明一實施例的影像分配的流程圖。圖5B是依據本發明一實施例的影像分配的示意圖。圖6A是依據本發明一實施例的前景及背景切換的流程圖。圖6B是依據本發明一實施例的前景及背景切換的示意圖。圖6C是依據本發明一實施例的本地裝置與遠端裝置的合成影像-前景及背景切換的示意圖。圖7A是依據本發明一實施例的多媒體內容操作的流程圖。圖7B是依據本發明一實施例的多媒體內容操作的示意圖。圖7C是依據本發明另一實施例的多媒體內容操作的示意圖。圖8A是依據本發明一實施例的用戶影像加入的流程圖。圖8B是依據本發明一實施例的用戶影像加入的示意圖。圖9A是依據本發明一實施例的調整影像的流程圖。圖9B是依據本發明一實施例的調整影像的示意圖。圖10A是依據本發明一實施例的虛擬人物加入的流程圖。圖10B是依據本發明一實施例的虛擬人物加入的示意圖。圖11A是依據本發明一實施例的立體物件呈現的流程圖。圖11B是依據本發明一實施例的觸發立體物件的示意圖。圖11C是依據本發明一實施例的立體物件呈現的示意圖。圖11D是依據本發明一實施例的立體物件呈現的示意圖圖12是依據本發明一實施例的合成影像中的景深分配的示意圖。圖13A是依據本發明一實施例的觸發影像調整的示意圖。圖13B是依據本發明一實施例的影像調整的示意圖。圖13C是依據本發明一實施例的立體物件操作的示意圖。圖14A是依據本發明一實施例的虛擬人物整合的示意圖。圖14B至圖14D是依據本發明一實施例的虛擬人物與立體物件互動的示意圖。

S210~S240: 步驟

Claims

一種用於遠端視訊會議的操作方法，包括：取得一第一用戶影像及一多媒體內容；將該第一用戶影像進行一鏡像(mirror)處理，以產生一第一鏡像用戶影像；將該第一鏡像用戶影像與該多媒體內容分配至一虛擬空間中的不同深度，以產生一合成影像，使該第一鏡像用戶影像位於該合成影像所呈現的該虛擬空間中的一前景及一背景中的一者，並使該多媒體內容位於該前景及該背景中的另一者；以及輸出該合成影像，其中該合成影像用於顯示於一遠端裝置或一本地裝置的顯示器。
如請求項1所述的用於遠端視訊會議的操作方法，其中將該第一鏡像用戶影像與該多媒體內容分配至該虛擬空間中的不同深度以產生該合成影像的步驟包括：將該第一鏡像用戶影像分配至該合成影像中的一第一影像區域；將該多媒體內容分配至該合成影像中的一第二影像區域，其中該第二影像區域相較於該第一影像區域大且位於該合成影像的中間。
如請求項1所述的用於遠端視訊會議的操作方法，其中將該第一鏡像用戶影像與該多媒體內容分配至該虛擬空間中的不同深度以產生該合成影像的步驟包括：偵測一用戶指令；以及依據該用戶指令將該第一鏡像用戶影像及該多媒體內容由該前景及該背景中的一者互換成另一者。
如請求項1所述的用於遠端視訊會議的操作方法，其中將該第一鏡像用戶影像與該多媒體內容分配至該虛擬空間中的不同深度以產生該合成影像的步驟包括：偵測一第一用戶操作；以及依據該第一用戶操作編輯或操作該多媒體內容。
如請求項4所述的用於遠端視訊會議的操作方法，其中依據該用戶操作編輯或操作該多媒體內容的步驟包括：將該第一用戶操作的移動軌跡同步呈現於該合成影像中。
如請求項1所述的用於遠端視訊會議的操作方法，更包括：取得一第二用戶影像；將該第二用戶影像進行該鏡像處理，以產生一第二鏡像用戶影像；以及將該第二鏡像用戶影像加入至該合成影像中。
如請求項6所述的用於遠端視訊會議的操作方法，其中將該第二鏡像用戶影像加入至該合成影像中的步驟包括：偵測對應於該第二鏡像用戶影像的一聲音訊號或一手勢；以及依據該聲音訊號或該手勢調整該第二鏡像用戶影像在該合成影像中的大小。
如請求項6所述的用於遠端視訊會議的操作方法，其中將該第二鏡像用戶影像加入至該合成影像中的步驟包括：依據該第二鏡像用戶影像產生一虛擬人物；以及將該虛擬人物加入至該合成影像，其中該虛擬人物的動作同步於該第二鏡像用戶影像。
如請求項1所述的用於遠端視訊會議的操作方法，更包括：判斷一第二用戶操作所指定的一目標位置位於該合成影像中的一觸發點；以及將一立體物件呈現於該觸發點上。
如請求項9所述的用於遠端視訊會議的操作方法，其中將該立體物件呈現於該觸發點上的步驟包括：將該立體物件的移動、旋轉或平移同步於該第二用戶操作的移動軌跡。
如請求項9所述的用於遠端視訊會議的操作方法，其中將該立體物件呈現於該觸發點上的步驟包括：將該立體物件呈現於該合成影像中的一第一層，將該第一鏡像用戶影像呈現於該合成影像中的一第二層，並將該多媒體內容呈現於該合成影像中的一第三層，其中該第一層覆蓋該第二層及該第三層，且該第二層覆蓋該第三層。
如請求項9所述的用於遠端視訊會議的操作方法，其中將該立體物件呈現於該觸發點上的步驟包括：將對應於該第二用戶操作的一虛擬人物加入至該合成影像，其中該虛擬人物的大小等於或小於該立體物件。
一種遠端視訊會議系統，包括：一運算裝置，包括：一通訊收發器，用以接收來自一本地裝置及一遠端裝置中的一者的一第一用戶影像；以及一處理器，耦接該通訊收發器，並經配置用以：將該第一用戶影像進行一鏡像處理，以產生一第一鏡像用戶影像；將該第一鏡像用戶影像與一多媒體內容分配至一虛擬空間中的不同深度，以產生一合成影像，使該第一鏡像用戶影像位於該合成影像所呈現的該虛擬空間中的一前景及一背景中的一者，並使該多媒體內容位於該前景及該背景中的另一者；以及透過該通訊收發器輸出該合成影像，其中該合成影像用於顯示於該遠端裝置及該本地裝置中的另一者的顯示器。
如請求項13述的用於遠端視訊會議系統，其中該處理器更用以：將該第一鏡像用戶影像分配至該合成影像中的一第一影像區域；將該多媒體內容分配至該合成影像中的一第二影像區域，其中該第二影像區域相較於該第一影像區域大且位於該合成影像的中間。
如請求項13述的用於遠端視訊會議系統，其中該處理器更用以：透過該通訊收發器偵測來自該本地裝置或該遠端裝置的一用戶指令；以及依據該用戶指令將該第一鏡像用戶影像及該多媒體內容由該前景及該背景中的一者互換成另一者。
如請求項13述的用於遠端視訊會議系統，其中該處理器更用以：偵測透過該通訊收發器偵測來自該本地裝置或該遠端裝置的一第一用戶操作；以及依據該第一用戶操作編輯或操作該多媒體內容。
如請求項16述的用於遠端視訊會議系統，其中該處理器更用以：將該第一用戶操作的移動軌跡同步呈現於該合成影像中。
如請求項13述的用於遠端視訊會議系統，其中該處理器更用以：透過該通訊收發器取得來自該本地裝置或該遠端裝置的一第二用戶影像；將該第二用戶影像進行該鏡像處理，以產生一第二鏡像用戶影像；以及將該第二鏡像用戶影像加入至該合成影像中。
如請求項18述的用於遠端視訊會議系統，其中該處理器更用以：透過該通訊收發器偵測來自該本地裝置或該遠端裝置的對應於該第二鏡像用戶影像的一聲音訊號或一手勢；以及依據該聲音訊號或該手勢調整該第二鏡像用戶影像在該合成影像中的大小。
如請求項18述的用於遠端視訊會議系統，其中該處理器更用以：依據該第二鏡像用戶影像產生一虛擬人物；以及將該虛擬人物加入至該合成影像，其中該虛擬人物的動作同步於該第二鏡像用戶影像。
如請求項13述的用於遠端視訊會議系統，其中該處理器更用以：判斷來自該本地裝置或該遠端裝置的一第二用戶操作所指定的一目標位置位於該合成影像中的一觸發點；以及將一立體物件呈現於該觸發點上。
如請求項21述的用於遠端視訊會議系統，其中該處理器更用以：將該立體物件的移動、旋轉或平移同步於該第二用戶操作的移動軌跡。
如請求項21述的用於遠端視訊會議系統，其中該處理器更用以：將該立體物件呈現於該合成影像中的一第一層，將該第一鏡像用戶影像呈現於該合成影像中的一第二層，並將該多媒體內容呈現於該合成影像中的一第三層，其中該第一層覆蓋該第二層及該第三層，且該第二層覆蓋該第三層。
如請求項21述的用於遠端視訊會議系統，其中該處理器更用以：將對應於該第二用戶操作的一虛擬人物加入至該合成影像，其中該虛擬人物的大小等於或小於該立體物件。
一種遠端裝置，包括：一通訊收發器，用以接收一合成影像，其中一第一鏡像用戶影像位於該合成影像所呈現的一虛擬空間中的一前景及一背景中的一者，一多媒體內容位於該前景及該背景中的另一者，且該第一鏡像用戶影像是對一第一用戶影像進行一鏡像處理所產生的；一顯示器，用以顯示影像；以及一處理器，耦接該通訊收發器及該顯示器，並經配置用以：透過該顯示器顯示該合成影像。