TWI750967B

TWI750967B - 適用於具廣角網路攝影機之視訊會議系統之影像顯示方法

Info

Publication number: TWI750967B
Application number: TW109145738A
Authority: TW
Inventors: 周辰威; 楊建洲
Original assignee: 信驊科技股份有限公司
Priority date: 2020-08-19
Filing date: 2020-12-23
Publication date: 2021-12-21
Also published as: TW202209860A

Abstract

本發明揭露一種影像顯示方法，適用於具廣角網路攝影機之視訊會議系統，該廣角網路攝影機用以捕捉一全景影像，該全景影像之長寬比大於或等於2:1，該方法包含：根據來自該全景影像，框選多個感興趣區域，其中各感興趣區域具多個屬性之至少其一；根據是否填入該全景影像之一部分與該些感興趣區域的屬性、位置及數量，選擇多個預設畫面佈局之一當作一輸出畫面佈局；以及，根據該些感興趣區域的屬性，將該全景影像之該部分及該些感興趣區域之至少其一填入到該輸出畫面佈局的對應視窗中，以形成一組合圖框。

Description

適用於具廣角網路攝影機之視訊會議系統之影像顯示方法

本發明揭露一種影像顯示方法，尤指一種適用於具廣角網路攝影機之視訊會議系統之影像顯示方法。

Owl Labs於美國專利證書號US 10,63654B的專利文獻中，已揭露有關人形偵測的方法，而理光於日本專利證書號JP 4908543B2的專利文獻中，則揭露有關聲音偵測的方法。因為現有的視訊會議軟體(如ZOOM)只能顯示4:3或16:9的畫面，水平視角(horizontal angular field of view，HFOV)大於或等於180度的廣角網路攝影機無法把整個細長全景影像(panoramic image)都傳送給視訊會議軟體。即使有傳送出去的影像，視訊會議軟體所顯示的畫面中，人物都會變得非常小，不易辨識。為解決上述問題，因此提出本發明。

有鑒於此，如何減輕或消除上述相關領域的缺失，實為有待解決的問題。

根據本發明之一實施例，係提供一種影像顯示方法，係適用於具廣角網路攝影機之視訊會議系統，適用於具廣角網路攝影機之視訊會議系統，該廣角網路攝影機用以捕捉一全景影像，該全景影像之長寬比大於或等於2:1，該方法包含：根據來自該全景影像，框選多個感興趣區域，其中各感興趣區域具多個屬性之至少其一；根據是否填入該全景影像之一部分與該些感興趣區域的屬性、位置及數量，選擇多個預設畫面佈局之一當作一輸出畫面佈局；以及，根據該些感興趣區域的屬性，將該全景影像之一部分及該些感興趣區域之至少其一填入到該輸出畫面佈局的對應視窗中，以形成一組合圖框。

上述實施例的優點之一，是依據使用者喜好、是否有發言者及出席者人數及分佈，從水平視角大於或等於180度的全景影像中選擇次場景資料或感興趣區域(region of interest，ROI)以進行組合，有如導播般捨棄不重要的影像片段，使得出席者最後看到的組合圖框就如親臨現場開會一般，不會遺漏任何重點，並且可以隨時依照使用者偏好強調重點ROI。此外，傳統上從不同網路相機取得的全景影像之長寬比(Aspect ratio)與一般視訊軟體所呈現之畫面之長寬比不同時，僅能單純地於畫面上下方補黑邊、左右邊裁切或變形處理，相比之下，本發明影像顯示方法除了明顯提高畫面利用率之外，亦大幅提升畫面的美觀程度。

本發明的其他優點將搭配以下的說明和圖式進行更詳細的解說。

以下說明為完成發明的較佳實現方式，其目的在於描述本發明的基本精神，但並不用以限定本發明。實際的發明內容必須參考之後的權利要求範圍。

必須了解的是，使用於本說明書中的”包含”、”包括”等詞，用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件，但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件，或以上的任意組合。

於權利要求中使用如”第一”、”第二”、”第三”等詞是用來修飾權利要求中的元件，並非用來表示之間具有優先順序，前置關係，或者是一個元件先於另一個元件，或者是執行方法步驟時的時間先後順序，僅用來區別具有相同名字的元件。

必須了解的是，當元件描述為”連接”或”耦接”至另一元件時，可以是直接連結、或耦接至其他元件，可能出現中間元件。相反地，當元件描述為”直接連接”或”直接耦接”至另一元件時，其中不存在任何中間元件。使用來描述元件之間關係的其他語詞也可類似方式解讀，例如”介於”相對於”直接介於”，或者是”鄰接”相對於”直接鄰接”等等。

圖1係根據本發明一實施例，顯示一視訊會議系統的示意圖。該視訊會議系統100包含二台廣角網路攝影機110a、110b、二個導播裝置120a、120b、至少二個通訊裝置130a~130b。設置於會議室A的廣角網路攝影機110a拍攝所有與會人員，產生一個全景影像A，並透過網路或USB影片類別(USB video device class，UVC)傳送給導播裝置120a，而設置於會議室B的廣角網路攝影機110b拍攝所有與會人員，產生一全景影像B並透過網路或UVC傳送給導播裝置120b。其中，該些廣角網路攝影機110a~110b可為水平視角大於或等於180度的廣角攝影機，可產生水平視角大於或等於180度的全景影像A~B。但本發明所定義之全景影像不限於水平視角大於或等於180度者，而係包括所有長寬比大於或等於2:1的影像。需特別說明的是，長寬比是指圖像的寬度與高度之間的關係，而並非代表圖像的物理尺寸或以像素為單位的尺寸。具體而言，本發明所定義之全景影像的長寬比主要包含360X180、180X60、360X60、180X90等常見格式，但不以此為限。

一實施例中，各導播裝置係利用一獨立的處理器及一儲存媒體(圖未示)來實施，例如圖1的導播裝置120b係獨立於該通訊裝置130b之外，具有一獨立的處理器及一儲存媒體(圖未示)。另一實施例中，各導播裝置係利用對應通訊裝置的處理器及儲存媒體(圖未示)來實施，例如圖1的該通訊裝置130a包含該導播裝置120a。上述各導播裝置之該儲存媒體儲存多個指令供其相對應的處理器執行：圖2A-2B的方法中所有的步驟。圖2A-2B之方法容後敘明。該些通訊裝置130a~130b包含，但不受限於，個人電腦、平板電腦、智慧型手機等等。通訊裝置130a透過執行一第一視訊軟體(請參考步驟S220之相關說明)，傳送導播裝置120a輸出的組合圖框A給通訊裝置130b以及透過網路接收並顯示通訊裝置130b所傳來的組合圖框B；同樣地，通訊裝置130b透過執行一第二視訊軟體，傳送導播裝置120b輸出的組合圖框B給通訊裝置130a以及透過網路接收並顯示通訊裝置130a所傳來的組合圖框A。如圖1所示，該通訊裝置130b係設置於會議室B，而該通訊裝置130a係設置於會議室A，使得二個會議室內的人員透過通訊裝置130a~130b的螢幕可以看見對方會議室的與會人員。

圖2A-2B繪示根據本發明一實施例之一影像顯示方法。圖3A-3F繪示根據本發明一實施例，顯示從廣角網路攝影機110a及110b傳遞至導播裝置120a及120b之全景影像，經處理為組合圖框的所有ROI的框選過程。以下，請同時參考圖1、2A-2B及3A-3F，詳細說明本發明影像顯示方法。

步驟S202：接收來自廣角網路攝影機的全景影像310，該全景影像310之水平視角大於或等於180度。圖3A為廣角網路攝影機(110a、110b)所拍攝的全景影像310的一個例子。一實施例中，各廣角網路攝影機(110a、110b)包含至少二個鏡頭及一麥克風陣列。

步驟S204：利用人形偵測、人臉偵測及使用者手動選擇其中之一或其組合，於全景影像310中，偵測或選出感興趣區域ROI。如圖3B所示，根據本發明，要在一全景畫面310中找出人的位置，係使用人形偵測或人臉偵測來定位ROI 301，也可以先以人形偵測找出人形大致位置之後，再利用人臉偵測精準定位ROI 301。人形偵測與人臉偵測包含，但不受限於以下二種方式：(1)深度學習(Deep learning)，用來進行人工智慧偵測(AI detection)，例如使用程式語言Python搭配電腦視覺庫OpenCV、開源神經網路庫Keras 與開源資料庫TensorFlow，藉由 OpenCV 擷取圖像資訊進行圖像處理，使用Keras 提供的神經網路模組以TensorFlow 作為後端進行模型訓練；(2)機器學習(Machine learning)，可利用隱性馬可夫模型(Hidden Markov Models，HMM) 及支援向量機(Support Vector Machines，SVM)來實施。基本上，傳統的機器學習需要開發者自己去決定特徵要用什麼(例如，把一張人的圖變成一個梯度陣列(gradient array))，然後傳給學習模組(如SVM 或 HMM)去做訓練及測試。而深度學習則是可以由模組本身決定特徵點(或者可以說特徵點的擷取已經包含在模組裡面了)，所以可以直接把圖傳給深度學習模組(如多層感知器(Multilayer perceptron，MLP)、深度神經網路 (Deep Neural Network，DNN)、卷積神經網路(Convolutional Neural Network，CNN) 、遞迴神經網路(Recurrent Neural Network，RNN)等)，就可以進行訓練及測試。而深度學習及機器學習的技術已為本領域技術人員所熟知，故在此不予贅述。另請注意，上述深度學習及機器學習僅是示例，而非本發明之限制，現存或將來發展出來之其他人形/人臉偵測方法亦可適用於本發明之概念。

如圖3B所示，最左邊白板的ROI 302無法利用前述人形偵測或人臉偵測之方式自動偵測，但可由使用者手動選取。於任一ROI 301及ROI 302選取完之後，可以拖拉、放大以及縮小選取框，也能於ROI 301及ROI 302均選取完之後再增加或減少選取框的數量，甚至還能將該些ROI 301~302調整到想要的位置跟範圍。請注意，最左邊白板的ROI 302，除了由使用者手動選取之外，也能採用任何已知方法來偵測出白板或布幕或電視的ROI。另外，在本步驟選取的ROI 301~302的屬性全部被定義成「靜態」，亦即，ROI 301~302的大小與位置不會隨著框內人物之移動而改變。

步驟S206：根據使用者需求，選擇要進行物件追蹤(object tracking)的ROI。使用者主要是從步驟S204所選取的靜態ROI當中，選擇要進行物件追蹤的ROI。例如，以圖3B~3C的例子而言，使用者從步驟S204所選取的ROI 301~302之中，選擇其一當作要進行物件追蹤的ROI 303。請注意，本步驟將上述ROI 303的屬性定義成「動態」(或「追蹤中」)，亦即，ROI 303的位置會跟著框內人物移動而移動。

本步驟係以下列四種追蹤方式來進行物件追蹤(object tracking)(如追蹤圖3C的ROI 303內的人物)：(1)特徵擷取方式。特徵擷取：輸入ROI 303=＞角落偵測=＞輸出多個角落點。追蹤：輸入特徵點=＞使用「光流法(optical flow)/均值偏移(mean shift)/移動估測(motion estimation)」來計算各點的移動向量=＞決定群組的移動向量=＞決定ROI 303的移動向量。(2)人類姿勢估測方式(human pose estimation)：採用任何現存及未來發展的人類姿勢估測方式。例如：定義人體結構，主要是人體主要關節及其連接；舉例來說，可利用部件強度場(Part Intensity Field， PIF)找出各個人體關鍵點(主要關節)以及部件關聯場(Part Association Field，PAF)用以將各關鍵點連結成完整人體模型=＞將人體結構放入ROI 303=＞於ROI 303中，將人體結構與人的姿勢對齊。(3)前景(foreground)偵測方式(利用前景來移動ROI 303)：平滑化(smooth)一圖框=＞計算目前的平滑化影像與先前的平滑化影像之間的一差異影像(difference image) (如圖4A)，由於物體移動是漸進的，因此明顯的差異僅在於「物體邊緣」，中間部份由於材質顏色相同因此差異不明顯，這使得移動中的物體看起來像是由「線條」組成的輪廓；此差異影像為灰階且有深有淺，且點與點之間無明確聯繫=＞為了更明確取得該物體的範圍，對該差異影像進行二值化(Binary)=＞聚集(Grouping)多個差異區域，例如對已二值化之差異影像進行擴張(Dilation)、以及侵蝕(Erosion)處理(結果如圖4B)=＞若該些經聚集後之差異區域與ROI 303重疊，則移動ROI 303以覆蓋該些差異區域。(4)使用尺度不變特徵轉換(scale-invariant feature transform，SIFT)或方向梯度直方圖(histogram of oriented gradient，HOG)來進行特徵比對與追蹤。由於上述四種偵測追蹤方法已為本領域技術人員所熟知，故在此不予贅述。另請注意，上述四種偵測追蹤方法僅是示例，而非本發明之限制，現存或將來發展出來之其他偵測追蹤方法亦可適用於本發明之概念。

步驟S208：偵測說話中的ROI。本步驟利用下列二種方式，從上述三種ROI 301~303中，偵測是否有人正在說話：(1)利用麥克風陣列來計算波束成型(beamforming)，以估測聲源方向(direction of arrival，DOA)，進而產生一可能聲源方向。聲源方向估測方法包含，但不受限於，最大可能性(maximum likelihood，ML)法、時間延遲估測(time delay estimation，TDE)法、及特徵結構(eigenstructure method)等等。(2)利用麥克風陣列來選擇較大聲音來源。以包含四個麥克風(聲源方向分別為0度、90度、180度及270度)的麥克風陣列為例，假設90度及180度的聲源方向收到的能量較大，分別為50分貝及60分貝，則選取該兩個最大能量的麥克風做內插(interpolation)以決定角度，把分貝轉成能量之後就等於180度的聲音能量是90度的10倍，所以內插出來的可能聲源方向就會是 (180 * 10 + 90 * 1) / 11 ~= 172度。實際實施時，為方便後續比對水平視角及聲源方向，必須適當架設廣角網路攝影機(110a、110b)的鏡頭及麥克風陣列，使產生的全景影像水平視角0~360度剛好匹配麥克風的聲源方向0~360度，例如全景影像水平視角0度係匹配麥克風的聲源方向0度、全景影像水平視角180度係匹配麥克風的聲源方向180度等等。

本步驟於偵測會議室內是否有與會人員說話時，係假設已選好上述三種ROI 301~303，故ROI 301~303的各水平視角角度均為已知，當麥克風陣列偵測到有人說話而算出一可能聲源方向時，若任一ROI 301~303的水平視角θ減去該可能聲源方向θ _S的角度差值(θ-θ _S)小於一臨界值θ _T1時，則決定將角度差值小於該臨界值θ _T1的ROI當作目前說話中的ROI，如圖3D中的ROI 304。假設有二個ROI 301~303的位置同時都鄰近該可能聲源方向且角度差值都小於該臨界值θ _T1時，則選擇角度差值最小(即最近)的ROI，當作目前說話中的ROI 304。請注意，在本步驟選取的ROI 304的屬性被定義成「說話中」。

步驟S210：從人形偵測及人臉偵測的ROI 301中，進行人臉辨識，並自動標示人名。於本發明中使用的人臉辨識方法，包括但不限於使用尺度不變特徵轉換(Scale-invariant feature transform，SIFT)影像特徵點、加速穩健特徵(Speeded Up Robust Features，SURF)影像特徵點、局部二值模式特徵向量直方圖 (Local binary patterns histogram，LBPH)作為影像特徵點進行辨識，以及基於主成分分析 (Principal components analysis，PCA)分析資料的 Eigenface和使用線性判別分析(Linear discriminant analysis，LDA)的 Fisherface，依照不同的理論及方法讓系統從已知的樣本中學習並且找出分類的方法，以進行人臉辨識。或者，也可以深度學習模組(如多層感知器(MLP)、深度神經網路(DNN)、卷積神經網路(CNN)、遞迴神經網路(RNN)等)進行人臉辨識。本步驟可為以已事先訓練好的模型進行已知樣本的人臉辨識，亦可搭配網路爬蟲技術，同步進行名人之人臉辨識。請參考圖3E中的辨識框305，並請注意，在本步驟選取的ROI 305的屬性被定義成「已辨識」。由於本步驟並非必須，因此在圖2A中以虛線顯示。

步驟S212：於符合既定條件時，合併ROI。本發明影像顯示方法進行到本步驟時，已產生以下資料：(1)全景影像310；(2)不同屬性的ROI：例如「靜態」的ROI 301、302、「動態」的ROI 303、「說話中」的ROI 304及「已辨識」的ROI 305。圖5顯示本發明合併ROI的條件與方法。為避免上述ROI擺進輸出畫面佈局的各視窗時會出現一些重複的人物/物件畫面，若有符合下列二個條件之任一的至少二個ROI，本步驟必須進行合併：(i)中心點視角接近的ROI：例如圖5中任二個感興趣區域ROI-1及ROI-2(即上述ROI 301~305)的中心點的水平視角差距(θ1-θ2)小於一預設角度θ _T2時，就合併ROI-1及ROI-2，例如θ _T2=10 ^O；(ii)有重疊區域/像素的ROI：任二個ROI-1及ROI-2(即上述ROI 301~305)之間，只要有重疊的區域或像素，就進行合併ROI。至於合併的方法，是將所有要合併的ROI上下左右取聯集區域，例如圖5中的虛線矩形框ROI 306合併了ROI-1及ROI-2。應特別注意的是，各ROI可以不只對應一個屬性，且在後續步驟當中，此一合併後之ROI 306的屬性之一可被設為「合併」、「具有複數個人」、或「人數」(例如：2人)。另外，請注意，上述無論是合併後的ROI 306或是合併前ROI-1及ROI-2，於後續的步驟S216中，都會被考慮是否填入一輸出畫面佈局的對應視窗，以產生一組合圖框320。

步驟S214：根據是否要填入該全景影像之一部分與上述ROI (301~306)的屬性、位置及數量，從多個預設的畫面佈局(layout)中選擇其一，當作一輸出畫面佈局。本發明預設的畫面佈局包含，但不受限於，編製佈局A-B(如圖6A-6B)、聚焦佈局 (如圖6C)、格狀佈局(如圖6D)、子母畫面佈局(如圖6E)、主講者佈局(如圖6F)以及由上而下佈局(如圖6G)。

圖6A-6F係顯示本發明不同的預設畫面佈局。各種不同屬性及數量的ROI適合不同的預設畫面佈局，而不同的預設畫面佈局具有不同的呈現方式以適合不同的會議人數、人員分佈或場景。請注意，各預設畫面佈局中包含一個至數個不同或相同的尺寸及長寬比的視窗。例如：編製佈局A包含三個不同尺寸及長寬比的視窗，而由上而下佈局則包含二個相同尺寸及長寬比的視窗。

圖6A-6B顯示二種編製佈局A-B，適合ROI較多且重點人物不只一人的情況。編製佈局A-B都是在圖框上方以橫幅呈現全景影像(可看到全部的與會者)，而圖框下方則分別用二個以上的視窗呈現多位重點人物，且各視窗的尺寸及長寬比未必相同；需特別說明的是，編製佈局A-B在圖框上方不限於完整呈現全景影像，而可只呈現全景影像之一部分，只要能約莫看到全部的與會者即可。一實施例中，使用者亦可自由調整編製佈局A-B圖框上方欲呈現之部分。一實施例中，圖框下方可用多個分割視窗呈現高達8位重點人物。圖6C顯示聚焦佈局，適合多個位置接近的ROI且該些ROI所佔據的位置只有整個360度的一部份，例如，本佈局可以把上述位置接近的ROI都框在一起成一個大視窗，或是將在一特定期間內有說話的ROI都框在起成一個大視窗。圖6D顯示格狀佈局，適合重要的(具最高優先度或/及次高優先度)ROI的數量比較多且比較分散的場景，或者不重要的ROI比較少也不需要用全景影像來呈現的場景；本佈局呈現方式是把分群完畢的ROI以工整的多格視窗來呈現，不一定要四格，也不一定要雙數格子。圖6D的例子中，四個視窗顯示四位與會者，當有新的發言者加入時，會直接取代最久沒發言的與會者。

圖6E顯示子母畫面佈局，適合有一個比較大的ROI 302(例如白板或布幕或電視)且有與會者的場景；本佈局呈現方式是在大視窗放白板或布幕或電視或主講者的ROI，而小視窗顯示講解者或發問者ROI。圖6F顯示主講者佈局，適合與會者較多而且主要發言者只有一人的場景；本佈局呈現方式是在圖框下方放全景影像且在圖框上方放主講者的ROI 304，如果有人發問且主講者可能有一段時間不講話，才會將發問者的ROI放入圖框上方的大視窗。圖6G顯示由上而下佈局，適合沒有任何ROI需要特別顯示的情況；本佈局主要是讓廣角的全景影像以上下各半的方式填入組合圖框320的上下視窗中，值得注意的是，為了使組合圖框320能夠符合視訊軟體顯示畫面時所需要的長寬比，填入過程中可能會裁切到全景影像上下緣的一部分，舉例而言，假設廣角全景影像長寬比是6:1且視訊軟體顯示畫面時所需要的長寬比是16:9 (比例約等於1.78)，若組合圖框的上下視窗各顯示半個全景影像的話，長寬比會等於3:2(比例約等於1.5)。在上下視窗的半個全景影像都不改變寬度，而採取均勻裁切上下緣的方式填入上下視窗的前提下，上下各半個全景影像的上下緣都各會被切掉大約7.8%。

在本步驟中，係根據是否要填入該全景影像之一部分與上述ROI (301~306)的屬性、位置及數量其中至少之一，從多個預設的畫面佈局(layout)中選擇其一，當作一輸出畫面佈局。舉例而言，若要放入全景影像之一部分，可以選擇編製佈局A-B、主講者佈局或由上而下佈局；若需要大的ROI(白板或螢幕)來講解(當作講解畫面)，可以選擇子母畫面佈局；若只有一個說話中ROI(即單人主講)，可以選擇主講者佈局；若有多個說話中的ROI(即多人討論)，可以選擇編製佈局A-B、格狀佈局或聚焦佈局；若多個ROI在全景影像中的位置是相對接近的，可以選擇聚焦佈局；若多個ROI在全景影像中的位置是相對分散的，可以選擇格狀佈局。

步驟S216：根據上述ROI (301~306)的屬性，將該些ROI或/及該全景影像之至少一部份填入該輸出畫面佈局的對應視窗，以產生一組合圖框320。須注意的是，上述各ROI (301~306)及該全景影像的長寬比未必等於其對應視窗的長寬比，因此必須先調整ROI的比例。於一實施例中，除了編製佈局A-B、主講者佈局以及由上而下佈局先放入全景影像至預設對應視窗之外，各ROI依據本身屬性，分別填入該輸出畫面佈局的對應視窗中。舉例而言，若各ROI僅對應一個屬性，可設定ROI (301~306)的所有屬性中，「說話中」屬性的優先度最高、「合併」、「具有複數個人」、或「人數多於1人」屬性的優先度次之、「動態」屬性的優先度再次之、「靜態」及「已辨識」屬性的優先度最低；考量到圖框的空間及視窗的數量都有限制，原則上，各輸出畫面佈局優先顯示具最高優先度的「說話中」ROI，若還有剩餘視窗，再顯示具次高優先度的「合併」、「具有複數個人」、或「人數多於1人」的ROI，若還有剩餘視窗，再顯示具次次高優先度的「動態」ROI，最後，若還有剩餘視窗，再顯示具最低優先度的「靜態」及「已辨識」ROI，反之，若沒有多餘視窗/空間，就先放棄「靜態」及「已辨識」ROI。另一個實施例中，各ROI不只對應一個屬性且不同屬性具不同優先度，例如：「釘選」屬性具有優先度A，「合併」、「具有複數個人」、或「人數多於1人」屬性具有優先度B，其餘屬性之優先度則為C，但在同為優先度C的屬性當中還能再細分不同優先度，例如「說話中」屬性的優先度最高，設為C3，「動態」屬性的優先度次之，設為C2；「靜態」及「已辨識」屬性的優先度最低，設為C1；換言之，包括「釘選」屬性的ROI，不論是否包含其他屬性，必定具有優先度A，對於不具有「釘選」屬性但包括「合併」、「具有複數個人」、或「人數多於1人」屬性的ROI必定具有優先度B，至於只包括其他剩餘屬性的ROI則具優先度C。

根據本發明，「釘選」屬性直接被給予最高優先度，換言之，只要有「釘選」屬性的ROI一定會被挑選及填入各輸出畫面佈局的對應視窗，而且，「釘選」屬性是使用者手動選擇的屬性，使用者可以自己決定釘選以及取消釘選。須注意的是，取決各輸出畫面佈局的性質(例如:需放入全景影像、需有講解畫面、單人主講或多人討論)，具有「釘選」屬性的ROI的數目會有所不同，例如，若一輸出畫面佈局中只能填入四個具有「釘選」屬性的ROI，當使用者釘選到第5個ROI時，第1個(最舊)被釘選的ROI會立即被取消釘選。另一方面，各輸出畫面佈局依其性質以及使用者偏好，可選擇填入/顯示例如優先度分別為1A1B2C(即包含一個具優先度A的ROI、一個具優先度B的ROI及二個具優先度C的ROI)的四個ROI。由於具有優先度A或B之ROI數量必然較少，故具有優先度A之ROI之間毋須進一步細分，具有優先度B之ROI亦同。至於具有優先度C之ROI因為類別及數量比較多，故必須根據優先度高低依序填入各輸出畫面佈局的對應視窗。

一實施例中，各ROI不只對應一個屬性且不同屬性具不同優先度，各輸出畫面佈局是依優先度高低將ROI排序以產生一排序後的感興趣區域串，再依序填入對應視窗，而在比較多個ROI的優先度的排序過程中，是取各ROI的全部屬性中所具有最高優先度來比較，若有二個(含)以上ROI之間的最高優先度相同，則比次高優先度，依此類推，直到分出所有ROI的優先度高低(以下稱為逐一比較法)。例如：ROI-1具有四個屬性，其優先度分別為(5,4,2,1)，ROI-2具有三個屬性，其優先度分別為(5,4,3)，因為ROI-1及ROI-2的前二個優先度相同，但第三個優先度不同，故ROI-2優先於ROI-1。又例如：ROI-3具有四個屬性，其優先度分別為(5,4,2,1)，ROI-4具有三個屬性，其優先度分別為(5,4,2)，因為ROI-3及ROI-4的前三個優先度相同，再繼續往下比，由於ROI-3有第四個優先度但ROI-4卻沒有，故ROI-3優先於ROI-4。這種取最高優先度的做法也適用於一ROI內包含有多個ROI的情況。

另一實施例中，同樣地，各ROI不只對應一個屬性且不同屬性具不同優先度，但是各ROI需先計算本身所具全部屬性優先度之加總，即加總優先度，再依各ROI加總優先度之高低將ROI排序，而在比較多個ROI的加總優先度的過程中，倘若其中有二個(含)以上的ROI之間的加總優先度相同，再利用上述逐一比較法，由最高優先度開始比較，接著再比次高優先度，依此類推，直到分出所有ROI的優先度高低以產生一排序後的感興趣區域串(以下稱為加總暨逐一比較法)。最後，根據優先度高低，將ROI依序填入對應視窗。

另一實施例中，各ROI不只對應一個屬性且所有屬性分成多個級別，而同一級別的屬性中，再細分成多個類別，例如所有屬性分成X、Y、Z三個級別且級別優先度分別是10、5、1，另外，屬性Y的級別再分成二個類別Y1、Y2且優先度分別是6、7。各輸出畫面佈局先依級別優先度高低將ROI排序，而在比較多個ROI的級別優先度的排序過程中，是取各ROI的全部屬性中所具有最高級別優先度來比較，若有二個(含)以上ROI之間的最高級別優先度相同，就以上述逐一比較法或上述加總暨逐一比較法，比較同一級屬性中的類別優先度(例如比較Y1及Y2)，若同一級屬性中的類別優先度也相同，再比較下一級屬性的級別優先度高低，依此類推，直到分出所有ROI的優先度高低以產生一排序後的感興趣區域串(以下稱為級類別比較法)。最後，根據級別及類別優先度高低，將ROI依序填入對應視窗。

此外，根據本發明，任一ROI被填入一特定視窗時不會影響輸出畫面呈現的美觀度，即可定義該ROI對於此特定視窗具有該優先度S，舉例一:當ROI的尺寸(scale)與對應視窗的尺寸大小差距在一定範圍內(例如0.5倍到1.5倍之間)且不會因為放大或縮小ROI太多而影響影像清晰度時，則可定義該ROI對於該對應視窗具有該優先度S；舉例二:當ROI的長寬比與對應視窗的長寬比不同並且無法利用擴大ROI的選取框範圍來達到和對應視窗一樣的長寬比時(亦即擴大ROI選取框範圍的過程中會碰觸到全景畫面的邊緣，如圖7C的情況)，該ROI即不具有優先度S，反之，可定義該ROI對於該對應視窗具有該優先度S。一實施例中，當一輸出畫面佈局的所有視窗都選擇具優先度S的ROI時，可優先選擇同時具有一最適合尺寸屬性及/或一最適合長寬比屬性之ROI來填入對應視窗，以達到均勻化解析度或與會人員於畫面中顯示之大小均勻化之效果，進而美化輸出畫面佈局。於另一實施例中，假設一輸出畫面佈局的其中一個視窗需選擇具有優先度S的ROI，首先仍須利用上述三種方法(逐一比較法、加總暨逐一比較法及級類別比較法)之任一種比較出具優先度A的ROI-a及具優先度B的ROI-b，此時，若二個ROI的優先度差距小於一個臨界值TH，則有優先度S的ROI將會優先於沒有優先度S的ROI被填入該視窗，據此，即可保留該臨界值TH的彈性，換言之，臨界值TH越大，表示使用者覺得優先度S越重要。

圖7A-7E係根據本發明，繪示如何將不同長寬比的ROI及全景影像填入輸出畫面佈局中不同長寬比的對應視窗的示意圖。將不同長寬比的ROI及全景影像填入輸出畫面佈局中不同長寬比的對應視窗的方法共有四種如下。方法一: 於全景影像上，若可以擴大ROI的選取框範圍，則左右上下擴大選取框的範圍，使其長寬比符合對應視窗的比例，例如圖7A，原ROI-a的比例3:4，經左右擴大選取框後，符合對應視窗的長寬比16:9；例如圖7B，原ROI-b的比例6:1，經上下擴大選取框後，即符合對應視窗的長寬比6:3。方法二: 於全景影像上，能擴大就擴大選取框範圍，若完全無法擴大，再根據對應視窗的長寬比，裁切掉ROI內多餘的影像，例如圖7D。方法三:當擴大該目標感興趣區域的選取框範圍過程中碰到該全景影像的邊緣而無法再擴大時，就採取以下二種做法：方法(a): 將選取框由全景影像邊緣推回來以符合對應視窗的長寬比；方法(b): 將選取框的一邊補上黑邊以符合對應視窗的長寬比。例如圖7C的例子，原ROI-c的比例6:1，經上下擴大選取框後，只能擴大到長寬比6:3，距離目標值6:4還有一段距離，此時可採用方法(a)，將選取框由全景影像邊緣向下推回來，使選取框範圍符合對應視窗的長寬比6:4，結果是原ROI位在對應視窗的偏上方(如右下圖)，但可完全採用全景影像之內容，較為自然。另一個選擇是採用方法(b)，將無法再擴大的選取框(6:3)的上方補上黑邊以符合對應視窗的長寬比6:4，結果是原ROI可以位在對應視窗的中間(如左下圖)。方法四: 於全景影像上，若無法擴大選取框範圍及裁切掉ROI內多餘的影像，就根據對應視窗的長寬比，直接將ROI內的影像變形，如圖7E中的圓形變橢圓形。

步驟S220：將該組合圖框320傳送給一視訊軟體以進行顯示。例如，於圖1中，通訊裝置130a透過執行一視訊軟體A，傳送導播裝置120a輸出的組合圖框A給通訊裝置130b，以及透過網路接收並顯示該通訊裝置130b所傳來的組合圖框B。傳送給該視訊軟體的組合圖框320符合現有一般視訊軟體指定/常用的長寬比或/及像素數。該視訊軟體包含各種視訊會議軟體及各種網路攝影機的應用軟體，且各種視訊會議軟體包含但不受限於，ZOOM cloud meeting、Skype、騰訊會議(Tencent Meeting)、思科會議(Cisco webex meeting)、Line、威立方會議(V-cube meeting)、谷歌視訊會議(Google meet)等等。上述組合圖框320輸出到各種網路攝影機的應用軟體上後，可以用來直播，製作會議紀錄，剪輯分享等等。

請注意，為了方便說明，上述圖6A-6G的通訊裝置130a~130b係顯示相同的輸出畫面佈局，實際實施時，於導播裝置120a~120b上執行的本發明影像顯示方法，可根據各全景影像A~B上所選擇/偵測出的不同ROI的屬性及數量，各自選擇不同輸出畫面佈局以產生二個不同組合圖框320a~b，再透過網路傳給通訊裝置130a~130b以利顯示。例如，圖1中，通訊裝置130b顯示編製佈局A，而通訊裝置130a顯示主講者佈局。

另外，請注意，會議的整個過程是動態的，全程的全景影像會持續變化，框選的ROI的屬性及數量也會隨著全景影像內容而改變，之後，輸出畫面佈局再隨之而改變。例如，從會議室是空的到人數到齊(此時可能選用由上而下佈局)，到開始開會，到有人主講(此時可能選用主講者佈局)、有人發問(此時可能選用子母畫面佈局)、有人移動、有人離席、有人加入(此時可能選用格狀佈局)、有少數人集結討論(可能選用聚焦佈局)，到最後開會結束。

圖8A-8C係根據本發明，當輸出畫面佈局改變時，顯示不同轉場特效。當輸出畫面佈局由A改變至B時，需要一些轉場特效，例如圖8A所示，輸出畫面佈局A原本顯示ROI-X，轉場後，輸出畫面佈局B想要顯示的是ROI-Y，虛線粗框表示在輸出畫面佈局A內原本ROI-X的顯示範圍，若將該顯示範圍放大1.2倍(等於左右各放大10%)後(虛線細框)會碰到目標ROI-Y的話，可直接在全景影像上由左至右移動鏡頭(pan)至目標ROI-Y，否則，表示轉場距離太遠，就在二個ROI -X及ROI-Y之間直接切換做轉場，如圖8B所示。因為轉場距離太遠的情況下，若固定移動鏡頭(pan)的轉速，可能會耗時過久，若固定轉場時間的話，移動鏡頭的轉速可能過快，這些都無法讓消費者接受，故直接切換ROI-X及ROI-Y做轉場。以格狀佈局切換至主講者佈局為例，慢慢放大格狀佈局其中一個視窗的比例至主講者佈局的主講者視窗大小，如圖8C所示。

在輸出畫面佈局中，可以依據ROI/選取框的視角區域之不同，來選擇不同投影方式來呈現畫面。預設的投影方式包含，但不受限於，等距長方投影(Equirectangular projection)、圓柱投影(Cylinder projection)、透視投影(Perspective projection)、帕尼尼投影(Panini projection)以及魚眼投影(Fisheye projection)。

上述僅為本發明之較佳實施例而已，而並非用以限定本發明的申請專利範圍；凡其他未脫離本發明所揭示之精神下所完成的等效改變或修飾，均應包含在下述申請專利範圍內。

100:視訊會議系統 110a、110b:廣角攝影機 120a、120b:導播裝置 130a、130b:通訊裝置 301:以人形/人臉偵測來定位的ROI 302:手動方式框選的ROI 303:追蹤中ROI 304:說話中ROI 305:已辨識的ROI 306:被合併的ROI 310:全景影像 320:組合圖框

[圖1]係根據本發明一實施例，顯示一視訊會議系統的示意圖。 [圖2A-2B]係根據本發明一實施例，顯示影像顯示方法。 [圖3A-3F]係根據本發明一實施例，顯示從全景影像到組合圖框的所有ROI的框選過程。 [圖4A-4B]係顯示一差異影像與聚集多個差異區域之一示例。 [圖5]顯示本發明合併ROI的條件與方法。 [圖6A-6G]係顯示本發明不同的預設畫面佈局。 [圖7A-7E]係根據本發明，顯示將不同長寬比的ROI及全景影像填入輸出畫面佈局中不同長寬比的對應視窗的示意圖。 [圖8A-8C]係根據本發明，當輸出畫面佈局改變時，顯示不同轉場特效。

Claims

一種影像顯示方法，適用於具一廣角網路攝影機之一視訊會議系統，該廣角網路攝影機用以捕捉一全景影像，該全景影像之長寬比大於或等於2:1，該方法包含：根據該全景影像，框選多個感興趣區域，其中各感興趣區域具多個屬性之至少其一；根據是否填入該全景影像之一部分與該些感興趣區域的屬性、位置及數量其中至少之一，選擇多個預設畫面佈局之一作為一輸出畫面佈局；以及根據該些感興趣區域的屬性，將該全景影像之該部分及該些感興趣區域之至少其一填入到該輸出畫面佈局的至少一對應視窗中，以形成一組合圖框。
如請求項1之影像顯示方法，更包含：傳送該組合圖框給一視訊軟體，以該視訊軟體進行顯示；其中，該組合圖框的長寬比對應該視訊軟體進行顯示時所需的畫面長寬比。
如請求項1之影像顯示方法，其中該些屬性包含：靜態、動態、已辨識、說話中、合併、具有複數個人、人數、釘選、尺寸以及長寬比。
如請求項3之影像顯示方法，其中該框選步驟更包含：對該些感興趣區域進行聲源方向估測，以得到一可能聲源方向；比較該些感興趣區域的水平視角及該可能聲源方向之間的角度差；以及將具最小角度差的感興趣區域的屬性定義為說話中；其中，該廣角網路攝影機包含至少二個鏡頭及一麥克風陣列，以及該些鏡頭及該麥克風陣列係適當架設，使該全景影像的水平視角匹配該麥克風陣列的聲源方向。
如請求項3之影像顯示方法，其中該框選步驟包含：使用人形偵測、人臉偵測及使用者手動選擇之一或其組合來框選該些感興趣區域；以及將該些感興趣區域的屬性定義為靜態。
如請求項5之影像顯示方法，其中該框選步驟更包含：從該些靜態的感興趣區域中，選擇至少其一的感興趣區域以進行物件追蹤；以及將進行物件追蹤的該至少一感興趣區域的屬性定義為動態。
如請求項5之影像顯示方法，其中該框選步驟更包含：對以人形偵測及人臉偵測而框選出的該些感興趣區域進行人臉辨識，以標示人名；以及將標示人名的該些感興趣區域的屬性定義為已辨識。
如請求項3之影像顯示方法，更包含：於該框選步驟之後及該選擇步驟之前，當任二個感興趣區域之中心點的水平視角差異小於一預設角度時，合併該二個感興趣區域的上下左右聯集區域；以及將該二個被合併的感興趣區域的屬性定義為合併、具有複數個人及人數之至少其一。
如請求項3之影像顯示方法，更包含：於該框選步驟之後及該選擇步驟之前，當任二個感興趣區域有任何重疊時，合併該二個感興趣區域的上下左右聯集區域；以及將該二個被合併的感興趣區域的屬性定義為合併、具有複數個人及人數之至少其一。
如請求項1之影像顯示方法，其中該填入步驟包含：調整該些感興趣區域的長寬比以符合對應視窗的長寬比。
如請求項10之影像顯示方法，其中該調整步驟包含：於該全景影像中，擴大一目標感興趣區域的選取框範圍；當無法擴大該目標感興趣區域的選取框範圍時，依據對應視窗的長寬比，裁切掉該目標感興趣區域內多餘的影像；以及當無法擴大該目標感興趣區域的選取框範圍及裁切掉該目標感興趣區域內多餘的影像時，依據對應視窗的長寬比，將該目標感興趣區域內的影像變形。
如請求項11之影像顯示方法，其中該調整步驟更包含：當擴大該目標感興趣區域的選取框範圍過程中碰到該全景影像的邊緣而無法再擴大時，將該選取框由該全景影像的邊緣推回來以符合對應視窗的長寬比。
如請求項11之影像顯示方法，其中該調整步驟更包含：當擴大該目標感興趣區域的選取框範圍過程中碰到該全景影像的邊緣而無法再擴大時，將該已擴大的選取框的對應邊補上黑邊以符合對應視窗的長寬比。
如請求項1之影像顯示方法，更包含：當一目前輸出畫面佈局不等於一先前輸出畫面佈局時，放大一目前感興趣區域的顯示範圍至一預設倍數；若該被放大後的目前感興趣區域顯示範圍與一目標感興趣區域重疊，以左右方向移動鏡頭方式來切換該目前感興趣區域及該目標感興趣區域；以及若該被放大後的目前感興趣區域顯示範圍不與該目標感興趣區域重疊，在該目前輸出畫面佈局上直接切換該目前感興趣區域及該目標感興趣區域。
如請求項1之影像顯示方法，其中該填入步驟包含：決定是否將該全景影像填入該輸出畫面佈局的對應視窗中；比較各感興趣區域的優先度以產生一排序後的感興趣區域串；以及將該排序後的感興趣區域串填入該輸出畫面佈局的對應視窗中。
如請求項15之影像顯示方法，其中該比較步驟更包含：若該排序後的感興趣區域串中有二個鄰近感興趣區域的優先度差距小於一臨界值以及該二個鄰近感興趣區域之中具較小優先度的感興趣區域包含一特定屬性，交換該二個鄰近感興趣區域於該排序後的感興趣區域串中的位置，其中該特定屬性表示該具較小優先度的感興趣區域填入對應視窗時不會影響畫面呈現的美觀度。
如請求項15之影像顯示方法，其中該比較步驟包含： (a1)分別設定該些屬性具有不同優先度； (a2)設定各感興趣區域的代表優先度等於本身所具有的全部屬性中的最高優先度； (a3)根據該些感興趣區域的代表優先度，將該些感興趣區域排序； (a4)當至少二個感興趣區域之代表優先度相同時，分別設定各該至少二個感興趣區域的代表優先度等於其次一個最高優先度；以及 (a5)重複步驟(a3)至(a4)，直到產生該排序後的感興趣區域串為止。
如請求項15之影像顯示方法，其中該比較步驟包含： (b1)分別設定該些屬性具有不同優先度；以及 (b2)加總各感興趣區域具有之所有屬性的優先度以得到一加總優先度；以及 (b3)根據該些感興趣區域的加總優先度，將該些感興趣區域排序。
如請求項18之影像顯示方法，其中該比較步驟更包含： (b4)當至少二個感興趣區域之加總優先度相同時，分別設定各感興趣區域的代表優先度等於本身所具有的全部屬性中的最高優先度； (b5)根據該至少二個感興趣區域的代表優先度，將該至少二個感興趣區域排序； (b6)當該至少二個感興趣區域之代表優先度相同時，分別設定各感興趣區域的代表優先度等於其次一個最高優先度；以及 (b7)重複步驟(b5)至(b6)，直到產生該排序後的感興趣區域串為止。
如請求項15之影像顯示方法，其中該比較步驟包含： (c1)將該些屬性分成多個級別； (c2)分別將位於同一級別的屬性分成多個類別，其中各級別具有不同級別優先度以及各類別具有不同類別優先度； (c3)設定各感興趣區域的級別優先度等於本身所具有的所有屬性中的最高級別優先度；以及 (c4)根據該些感興趣區域的級別優先度，將該些感興趣區域排序。
如請求項20之影像顯示方法，其中該比較步驟更包含： (c5)當至少二個感興趣區域之級別優先度相同時，分別設定各該至少二個感興趣區域的類別優先度等於對應級別所具有的所有屬性中的最高類別優先度； (c6)根據該至少二個感興趣區域的類別優先度，將該至少二個感興趣區域排序； (c7)當該至少二個感興趣區域之類別優先度相同時，分別設定各該至少二個感興趣區域的級別優先度等於其次一個最高級別優先度；以及 (c8)重複步驟(c4)至(c7)，直到產生該排序後的感興趣區域串為止。
如請求項20之影像顯示方法，其中該比較步驟更包含： (d1)當至少二個感興趣區域之級別優先度相同時，分別加總各該至少二個感興趣區域之對應級別中之所有屬性的類別優先度以得到一加總類別優先度； (d2)根據該至少二個感興趣區域的加總類別優先度，將該至少二個感興趣區域排序； (d3)當該至少二個感興趣區域之加總類別優先度相同時，分別設定各該至少二個感興趣區域的級別優先度等於其次一個最高級別優先度；以及 (d4)重複步驟(c4)、(d1)至(d3)，直到產生該排序後的感興趣區域串為止。