TW201639347A - 視線校正(二) - Google Patents

視線校正(二) Download PDF

Info

Publication number
TW201639347A
TW201639347A TW105109216A TW105109216A TW201639347A TW 201639347 A TW201639347 A TW 201639347A TW 105109216 A TW105109216 A TW 105109216A TW 105109216 A TW105109216 A TW 105109216A TW 201639347 A TW201639347 A TW 201639347A
Authority
TW
Taiwan
Prior art keywords
user
template
video
frame
camera
Prior art date
Application number
TW105109216A
Other languages
English (en)
Inventor
馬提斯 尼爾森
山姆 強森
Original Assignee
微軟技術授權有限責任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB1507210.1A external-priority patent/GB201507210D0/en
Application filed by 微軟技術授權有限責任公司 filed Critical 微軟技術授權有限責任公司
Publication of TW201639347A publication Critical patent/TW201639347A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • H04N7/144Constructional details of the terminal equipment, e.g. arrangements of the camera and the display camera and display on the same optical axis, e.g. optically multiplexing the camera and display for eye to eye contact
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera

Abstract

在使用者之臉部之視頻中校正使用者之視線。複數個模板之每者包含直視相機之使用者之眼睛的不同影像。修改視頻之至少一連續區間之每個幀以用從該幀所選擇出之個別模板之眼睛來替代使用者之眼睛之每者,從而使用者在經修改幀中才會被感知為直視相機。選擇不同模板以用於連續區間之不同幀,以便使用者之眼睛在該連續區間處處展示生氣。

Description

視線校正(二)
本發明與視線校正相關。
本申請案主張依專利法法規之對於2015年4月28日所申請之英國申請案 1507210.1的優先權,該申請案之內容以該申請案之整體而被併入本文中。
習知通訊系統允許裝置(如個人電腦或行動裝置)之使用者在基於封包之電腦網路(如網際網路)上進行語音呼叫或視頻呼叫。此類通訊系統包含網際協定(VoIP)系統上的語音或視頻。因該等系統相較於習知之固定線路或行動蜂巢網路而言經常顯著地降低成本,故該等系統對使用者來說為有益的。此事尤其可能是用於長距離通訊的情況。為了使用VoIP系統,使用者在他們的裝置上安裝及執行客戶端軟體。客戶端軟體設定VoIP連接及提供如註冊及使用者認證之其他功能。除了語音通訊外,客戶端亦可設定用於其他通訊媒體之連接,該其他通訊媒體如即時訊息(「IM」)、SMS訊息、檔案傳輸、螢幕共享、白板會議及語音郵件。
可使用以相機及顯示器所裝備的使用者裝置以與另一(多個)使用者裝置之另一(多個)使用者(一(多個)遠端使用者)進行語音呼叫。使用者裝置之使用者(近端使用者)之視頻經由他們的相機被捕捉。視頻可由他們的客戶端處理以(除其他事項外)壓縮該視頻及轉換該視頻為資料串流格式以經由網路傳送至該(多個)遠端使用者。可自該(多個)遠端使用者(之每者)接收相似的經壓縮視頻串流,及該相似的經壓縮視頻串流可在該近端使用者之裝置之顯示器上被解壓縮及被輸出。舉例而言,可經由一或多個視頻中繼伺服器傳送視訊串流,或可「直接地(例如經由同儕連接)」傳送該視訊串流。可結合此兩種方式,以便經由一(多個)伺服器傳送呼叫的一或多個串流及直接地傳送該呼叫的一或多個串流。
提供本[發明內容]以用簡化形式介紹精選概念,及於以下[實施方式]中進一步地描述該等精選概念。本[發明內容]不意欲辨識所主張之標的之關鍵特徵或必要特徵,亦不意欲用來限制所主張之標的之範疇。
一種用於校正使用者之視線的使用者裝置,包含:經配置以從該使用者之臉部之相機視頻接收之輸入、電腦存儲、視線校正模組及模板選擇模組。電腦存儲保持複數個模板(舉例而言,該複數個模板在一些實施例中可來自模板視頻之時間連續幀),每者包含直視該相機之該使用者之眼睛之不同影像。視線校正模組經配置以修改該視頻之至少一連續區間之每個幀,以從該幀選擇出之個別模板之眼睛來替代該使用者之眼睛之每者,藉此該使用者在經修改幀中才會被感知為直視該相機。模板選擇模組經配置以選擇用於該連續區間之該等模板。選擇不同模板以用於該連續區間之不同幀,以便該使用者之眼睛在該連續區間處處展示生氣。
視線為真實世界中人們間親身對話的重要因素。各種心理學研究已證實當人們能作眼神接觸時,人們更可能在人際溝通過程中吸引彼此。然而,在視頻呼叫期間,呼叫參與者一般花費了大部分呼叫在看著他們的顯示器上,因該等顯示器為其他一(多個)參與者之視頻為可見之處。此事意味著對於大部分呼叫來說,他們將不會直接看著他們的相機,因此其他一(多個)參與者將感知到的是並未與他們有眼神接觸。舉例而言,若參與者之相機位於他們的顯示器上方,他們將會被感知為凝視在其他一(多個)參與者眼神下方之一點處。
本發明之態樣與修改使用者之臉部之視頻相關,以便他們在經修改視頻中被感知為直視相機。此事被稱為校正使用者之視線。當使用者出現於視頻中時,修改該視頻以用他們具有所欲視線之眼睛之預先記錄影像的那些眼睛來替代使用者的眼睛。檢視經修改視頻的另一人將因此感知到使用者將對他們做眼神接觸。在視頻呼叫之背景中,所感知到的眼神接觸鼓勵呼叫參與者更佳地吸引彼此。
視線校正為已知的,但現有的視線校正系統係傾向於看起來人工及非人的視覺假象。本文提供各種提供沒有此類人工物之看起來自然的視線校正之技術。當在語音呼叫背景中實施本文所呈現之技術時,該等本文所呈現之技術因而助於更自然的對話體驗(相較於可用現有的視線校正系統所完成的對話體驗而言)。
圖1展示通訊系統100,該通訊系統100包含網路116、使用者102(近端使用者)可存取之使用者裝置104及另一使用者118(遠端使用者)可存取之另一使用者裝置120。使用者裝置104及另一使用者裝置120經連接至網路116。網路116為基於封包之網路(例如,網際網路)。
使用者裝置104包含網路介面114(使用者裝置104透過該網路介面114連接至網路116)所連接之處理器108(例如,由一或多個CPU(中央處理單元)及/或一或多個GPU(圖形處理單元)所形成)、記憶體110形式的電腦存儲、螢幕形式的顯示器106、相機124及(在一些實施例中)深度感測器126。使用者裝置104為可採取多個形式的電腦,例如桌上型或膝上型電腦裝置、行動電話(例如,智慧型手機)、平板計算裝置、可穿戴式計算裝置、電視(例如,智慧型TV)、機上盒及遊戲機等之形式。相機124及深度感測器126可被整合至使用者裝置104中,或該相機124及該深度感測器126可為外部元件。舉例而言,該相機124及該深度感測器126可被整合至如Xbox®之Kinect®裝置的外部裝置中。相機捕捉視頻以作為一連串的幀F,該一連串的幀F在此範例中係為未壓縮RGB(紅綠藍)格式(然而,其他格式為可意想到的且將為顯而易見)。
相機具有為立體角的視野,及透過該立體角光藉由該相機之影像捕捉元件而為可接收的。相機124係在顯示器附近。舉例而言,相機124可被放置在顯示器邊緣(例如,在顯示器之上方或下方或至顯示器之一側)附近。相機124具有影像捕捉元件,該影像捕捉元件朝外地面向顯示器。換句話說,相對於顯示器放置相機124,以便當使用者102在顯示器前面且注視顯示器時,相機126捕捉使用者之臉部之正面視圖。舉例而言,相機可體現於可連接到顯示器之網路攝影機中,或該相機可為作為顯示器(例如,智慧型手機、平板電腦或外部顯示螢幕)之經整合至相同裝置中之前置相機。作為替代地,相機及顯示器可被整合至分離的裝置中。舉例而言,相機可被整合至膝上型電腦中及顯示器可被整合至分離的外部顯示器(例如,電視螢幕)中。
除其他事項外,記憶體110保持軟體(特別是通訊客戶端112)。客戶端112致動要透過網路116而在使用者裝置104及其他使用者裝置120間建立之即時視頻(例如,VoIP)呼叫,以便使用者102及其他使用者118可透過網路116彼此通訊。舉例而言,客戶端112可為由可執行代碼所形成之獨立的通訊客戶端應用程式,或該客戶端112可為對執行在處理器108上之另一應用程式之插件,如執行為其他應用程式之部分之網頁瀏覽器。
客戶端112提供用於從使用者102接收資訊及從使用者102輸出資訊的使用者介面(UI),如經由顯示器106顯示的視覺資訊(如視頻)及/或經由相機124捕捉的視覺資訊。顯示器104可包含觸控螢幕,以便該顯示器104作為輸入及輸出裝置兩者及該顯示器104可或不可被整合至使用者裝置104中。舉例而言,顯示器106可為透過合適介面連接至使用者裝置104之外部裝置(如耳機及智慧型手錶等)之部分。
舉例而言,使用者介面可包含圖形化使用者介面(GUI)及/或自然使用者介面(NUI),資訊透過該圖形化使用者介面被輸出在顯示器106上,該自然使用者介面致動使用者以自然方式與使用者裝置104互動,而無須特定輸入裝置(如滑鼠、鍵盤、遠端控制及諸如此類)所強加的人為限制。NUI方法之範例包含利用觸控敏感顯示器、聲音及語音識別、意圖及目標理解、使用深度相機(如立體或飛行時間相機系統、紅外線相機系統、RGB相機系統及該等上述系統之結合)之運動姿勢偵測、使用加速度計/陀螺儀、臉部辨識、3D顯示、頭(眼睛及視線)追蹤、身歷其境之擴增實境及虛擬實境系統等之運動姿勢偵測的那些方法。
圖2展示用於影響使用者112及至少其他使用者118間之視頻呼叫的視頻呼叫系統200。視頻呼叫系統包含各種功能模組,該等各種功能模組為呈現藉由在處理器108上執行客戶端軟體112所執行之功能的軟體模組。特定言之,系統200包含下列功能模組:視線校正模組202、模板選擇模組204、姿勢檢查模組206、臉部追蹤器208、限制設定模組210、模板修改器212及模板捕捉模組214。模組202-214組成視頻凝視校正系統201。此外,視頻呼叫系統200包含視頻壓縮器216及視頻解壓縮器218。視頻凝視校正系統201已輸入,藉由該輸入該視頻凝視校正系統201從相機124接收視頻及從深度感測器126接收感測器資料。
透過網路116自其他使用者裝置120接收遠端視頻220以作為經壓縮視頻幀的輸入視頻串流,該輸入視頻串流藉由解壓縮器218解壓縮及經顯示於顯示器106上。
藉由凝視校正系統201從相機124(本地)接收要被傳送至遠端裝置102的視頻(近端視頻),及在近端裝置處修改該要被傳送至遠端裝置102的視頻,以在傳送前修改使用者之視線。因使用者比較可能看著其他使用者118之遠端視頻220於其上被顯示之顯示器106,故使用者不大可能在經接收視頻中直接看著相機124。視線校正模組202修改(本地)所接收的視頻以用正看著相機之眼睛的影像替代使用者102的眼睛。替代眼睛影像來自「模板」Ts,該等模板儲存於記憶體110中。臉部追蹤器208追蹤使用者之臉部,及藉由眼睛替代模組202所接收之視頻之修改係基於藉由臉部追蹤器208之使用者之臉部之追蹤。特定言之,藉由臉部追蹤器208之使用者之臉部之追蹤係指示在將要被修改的幀中對應至使用者之眼睛之位置,及一(多個)替代的眼睛影像被插入至一(多個)匹配位置。
修改是選擇性的;即,當或僅當視線校正被認為是合適時,才修改所接收視頻之幀。於下文給出哪種修改被認為是合適之條件的更多細節。
藉由凝視校正系統201輸出選擇性的經修改視頻以作為輸出視頻饋送。因修改係為選擇性的,故輸出視頻饋送有時可由經修改幀(標記成F')形成(即,以經插入於其中之替代眼睛影像形成),及該輸出視頻饋送在其他時間可由未經修改幀(標記成F)形成(即,基本上是從相機124接收的)。
將輸出視頻饋送供應給壓縮器216,該壓縮器216(例如,使用幀內壓縮及幀間壓縮之結合以)壓縮該輸出視頻饋送。經壓縮之視頻經由網路116而經傳送至遠端使用者裝置120以作為輸出視訊串流。即時性地選擇修改視頻及傳送該視頻,(即)以便僅有每個由相機126所捕捉及到達遠端裝置120之幀間之短間隔(例如,約2秒或更少)。任何由凝視校正系統202對該幀之修改在該短間隔內發生。使用者102及118因而可即時進行視頻轉換。模板捕捉
經儲存模板Ts之每者包含直視相機之使用者眼睛之一眼睛之不同影像。差異可能很輕微,但該等差異仍然為視覺可感知到的。藉由模板捕捉模組214收集及儲存這些直接相機視線模板於(舉例而言)模板資料庫中之記憶體110中。捕捉程序可為「手動」程序;即,其中使用者被要求直視相機或自動使用凝視估計系統。在本文所描述之實施例中,模板Ts為當使用者正直視相機124而以相機124所捕捉之模板視頻之個別幀(模板幀)之部分,及每個模板包含僅有單一眼睛(左或右)之影像。即,模板Ts係來自模板視頻之時間連續的幀。模板視頻為短的(例如,具有約1至2秒之期間)。在此時間期間,使用者之眼睛可展示一或多個掃視。在此背景中之掃視為非常快速的、為兩個注視(其中將眼睛注視在相機124上)的(時間)階段間之同步移動。即,掃視為非常快速之來回相機124的移動。注意到使用者在此種注視階段及整個任何中間掃視階段兩者期間皆被認為是直視相機。
在下文中,「補片」意味著即時幀或模板或即時幀或模板之部分。臉部追蹤器
圖3A圖示說明臉部追蹤器208的功能。臉部追蹤器接收由相機106所捕捉之未經修改幀F及(在一些實施例中)由深度感測器126所捕捉之相關深度資料D為輸入。與特定幀F相關之深度資料D指示在該幀中之不同(x,y)位置處為可見之元素之深度維度z,以便相機124及深度感測器126之輸出一起提供關於相機124之視野內之元素的三維資訊。
臉部追蹤器208為基於3D網格的臉部追蹤器,該臉部追蹤器在3D空間中給予6個自由度(DOF)輸出;即,x、y、z、俯仰(P)、翻滾(R)及偏擺(Y),該等自由度輸出為六個獨立變數。該等六個自由度構成本發明所稱呼的「姿勢空間」。如圖3B所圖示說明地,x、y及z座標為(笛卡爾)空間座標,而俯仰、翻滾及偏擺為個別表示對於x、z及y軸之旋轉的角座標。角座標意味著定義使用者之臉部之方向之座標。座標系統具有位於相機124之光學中心處之原點。雖然方便,但這不是必要的。
當於主動追蹤模式中操作時,追蹤器208使用RGB(即,僅有相機輸出)或RGB及深度輸入(即,相機及深度感測器輸出)以產生使用者之臉部之模型M。此模型M指示使用者之臉部之目前方向及目前位置,及使用者102之臉部特徵。
特定言之,使用者之臉部在此座標系統中具有角座標α = (P ,R ,Y )(粗體字表示向量),及模型M包含角座標α 之目前數值。角座標α 之目前數值表示使用者之臉部相對於相機124的目前方向。當使用者之臉部展示圍繞適用軸之旋轉動作時(見圖3C),數值改變。在此範例中,α = (0,0,0)表示中間姿勢(neutral pose),其中使用者以與z軸平行的方向往前看。舉例而言,當使用者點他們的頭時,俯仰會變化;對之,當使用者搖晃他們的頭時,偏擺會變化,及當他們以有疑問的方式傾斜他們的頭時,翻滾會變化。
在此範例中,使用者之臉部亦具有空間座標 r = (x ,y ,z ),及模型M亦包含空間座標之目前數值。這些座標及數值表示使用者之臉部相對於相機124之3維空間中的目前位置。舉例而言,該等座標及數值可表示在使用者之臉部上(或接近使用者之臉部)的特定已知參考點之位置,該特定已知參考點如他們的臉部或頭部之中心點或位於(或接近)特定臉部、顱部或其他頭部特徵所位於之處之點。
使用者之臉部之空間及角座標( r , α )= (x ,y ,z ,P ,R ,Y )構成本發明所稱呼的「使用者之姿勢」;由( r , α )之目前數值表示使用者之目前姿勢。
在此範例中,模型M包含一些使用者之在6-DOF姿勢空間中之臉部特徵之3D網格呈現。即,模型M亦(舉例而言)藉由定義使用者之臉部上之某些已知、可辨識之參考點及/或他們臉部之輪廓線等之位置來描述使用者之臉部特徵。因此,不僅可從模型M整體地決定使用者之臉部之三維空間中之目前方向及位置,還可從模型M決定個別臉部特徵(如他們的眼睛)或眼睛之特定部分(如瞳孔、虹膜、鞏膜(眼白)和周圍的皮膚)之目前方向及位置係可能的。特定言之,模型M係指示對應使用者之眼睛之一個位置或多個位置,以用於視線校正模組202之使用。
此類臉部追蹤係為已知的;將不會於下文中更仔細地描述。舉例而言,可用Kinnect ®「臉部追蹤SDK」(https://msdn.microsoft.com/en-us/library/jj130970.aspx )來實施合適的臉部追蹤器。視線校正模組
視線校正模組202藉由混和直視相機之使用者眼睛之(即,來自模板T之)預先記錄圖像來產生經校正凝視輸出。
視線校正模組202之更多細節展示於圖4A中,及該視線校正模組202之一些功能圖形化地圖示說明於圖4B中。如所展示地,視線校正模組202包含凝視校正器242、混合器244、控制器247及眼睛追蹤器248。
凝視校正器202接收藉由模板選擇模組204而從目前幀中選擇出之一對模板(成對模板)T。在所描述之實施例之背景中之成對模板T意味著一組左模板及右模板{tl , tr },該組左模板及右模板可被使用以個別地替代使用者之左眼及右眼,及該組左模板及右模板在此範例中包含個別地直視相機之使用者之左眼及右眼之影像。左模板及右模板可來自模板視頻之相同的模板幀,或該左模板及該右模板可來自模板視頻中之不同的模板幀。成對模板之每個模板tl 及tr 可被轉換,以便將其匹配至使用者之由眼睛追蹤器248所指示之目前姿勢(見下文)。
經轉換的成對模板經標記為T'。經轉換之左模板及右模板tl 、tr 亦被稱為替代補片。舉例而言,轉換可包含縮放及/或旋轉至少部分的模板T,以匹配使用者之眼睛相對於相機124的目前方向及/或深度z,以便在經轉換模板T'中之使用者之眼睛的方向及大小匹配在將要被修改的目前幀F中之使用者之眼睛的方向及大小。在此範例中,對成對模板之模板tl 、tr 執行分離及獨立的轉換。
混合器244藉由施加混合函式Mx至補片之方式來將每個替代補片與目前幀F之對應部分(輸入補片)混合。混合函式Mx自目前幀F移除(一般來說將不會直視相機124之)使用者之眼睛之任何痕跡,及以(直視相機124之)來自輸入補片之對應之眼睛影像來將該等痕跡全部替代。
在此範例中,模板T之每者包含使用者之眼睛及圍繞該眼睛之使用者之臉部之至少一部分之影像。如用於經轉換之左眼模板t'l (該經轉換之左眼模板係用於其至使用者之臉部之左方之對應輸入補片INl )之圖4B中所圖示說明地,混合函式Mx為混和函式,該混和函式除了在目前幀F中替代可應用眼睛外,還將模板F中圍繞該眼睛之區域混和目前幀F中之對應區域。雖然並未明確地展示,但相等的混和亦執行於經轉換之右眼模板t'r ,該經轉換之右眼模板係用於其至使用者之臉部之右方之對應輸入補片。此事確保修改為視覺無縫的。以此方式,混合器244混合輸入及替代補片,以便防止目前幀內之任何視覺不連續。
一旦視線校正模組202初始化(特定言之,藉由眼睛追蹤器248以決定(至少大約)使用者之眼睛的目前位置)後,立即使用由臉部追蹤器208所產生之模型M。此後,因使用模型座標將隨著時間推移而獨自導致眼睛的明顯抖動,故直到重新初始化發生前模型座標皆不被用來定位眼睛。取而代之的是,在初始化後,(舉例而言)基於影像辨識而藉由眼睛追蹤器248在即時視頻中分別地追蹤關於眼睛之大小、位置及旋轉。基於藉由眼睛追蹤器248之此追蹤來轉換模板,以匹配使用者之眼睛之目前經追蹤的方向及大小。亦基於藉由眼睛追蹤器248之此追蹤來計算混合函式,以便幀F之校正部分(即,其中可應用眼睛是存在的)被替代。
眼睛追蹤器248亦被限制總是在臉部追蹤器眼睛位置之區域內─萬一不匹配發生,則假定失敗已發生及終止校正。
執行眼睛追蹤及混合於個別的每個眼睛─給予眼睛模板更大的一般化。
注意到當視線校正模組202啟動時,凝視校正可為暫時停止,以便不修改特定幀。視線校正模組包含控制器247。在此範例中,控制器247包含偵測使用者102何時眨眼的眨眼偵測器246。當替代補片之至少一者及該替代補片之對應的輸入補片間之差異夠大時(即,超過閥值),此事觸發眨眼偵測。此事暫時停止幀F之修改直到差異再次下降至低於閥值。以此方式,當在某些幀中偵測到使用者102之眨眼,這些幀保持不變以便眨眼在輸出視頻饋送中保持可見。當偵測到眨眼結束及使用者之眼睛再次打開時,修改便恢復了。若模型M所指示的眼睛位置與由眼睛追蹤器248所指示之目前追蹤的眼睛位置非常不同,則控制器246亦暫時停止視線校正模組202。所有此類系統停止觸發重新初始化嘗試(見先前段落)以在此後之適當時間處恢復凝視校正。視線校正之選擇性啟動
實施例使用臉部特徵點追蹤器208之六個自由度輸出,以決定是否要校正使用者之視線。若且唯若使用者的頭之姿勢係在3D空間之特定區域內且方向朝向相機,則執行視線校正。
臉部追蹤器208僅可操作;即,當使用者之臉部之角座標係在某些可操作限制內時,該臉部追蹤器208才能正確(即,在主動追蹤模式中)運作─一旦使用者的頭部在任何一方向旋轉太多,則追蹤器失效;即,該追蹤器不再能夠於主動追蹤模式中操作。換句話說,操作限制係寄託於使用者之臉部之角座標,超過該等角座標之範圍追蹤器208會失效。當使用者以z方向而自相機移動太遠或太靠近臉部追蹤器之視野之(x,y)限制時,該臉部追蹤器亦可能失效;即,可強加相同的操作限制在空間座標上,超過該等空間座標之範圍追蹤器208會失效。
更確切地說,當一或多個使用者之姿勢座標( r , α )= (x ,y ,z ,P ,R ,Y )之每者具有在個別之可能數值範圍內之個別之目前數值時,追蹤模組208才能正確運作。萬一任何該等座標移出該座標之個別之可能數值範圍,則追蹤器失效且模型M因此對其他功能模組來說而為不可得的。僅能重新進入主動追蹤模式,以便當該等座標之每一者已回到在其之個別的可能數值範圍內之值時,模型再次對其他功能模組來說為可得的。
現有的視線校正系統僅在追蹤器一失效後,立即停用凝視校正。首先,在連續運行系統中,使用者可能不想要總是看起來是直視相機。範例可為若他們實際上是以他們的頭看往別處。在此情況中,將仍追蹤臉部,但校正眼睛看著相機會顯得不自然:舉例而言,若使用者適度地自顯示器106將他的或她的頭轉走以看窗外,則「校正」他的或她的眼睛看著相機將會視覺不和諧。第二,所有追蹤器皆具有在其中該等所有追蹤器執行良好之姿勢之空間;舉例而言,使用者一般臉朝向相機或3/4檢視。然而,臉部追蹤器傾向不足地執行對於該等臉部追蹤器之操作之限制。圖5展示其中因使用者很遠地面對相機故追蹤器接近失效但儘管如此仍可操作的情景。若此情景中之追蹤器輸出可被用為用於視線校正之基礎,則結果將為視覺上不愉快的─舉例而言,使用者之右眼(從他們的角度看)並未被正確地追蹤,此事可導致對應之替代眼睛之不正確的放置。
實施例藉由有意地停止凝視校正且同時追蹤器仍為操作的(即,在追蹤器208失效前)來克服此事。換句話說,與已知系統相較下,即使在追蹤器208仍在主動追蹤模式中操作時,仍可取決情況來停止凝視校正。特定言之,僅當頭部之姿勢係在一組有效的、預先定義的範圍內時才致動視線校正。每當臉部追蹤器208為操作的時候,使用由該臉部追蹤器208所回報之6-DOF姿勢( r , α )= (x ,y ,z ,P ,R ,Y )來完成此事。限制寄託於相對於相機的這些參數,且凝視校正因而被致動或停用。
主要目標是僅在其中使用者將確切地希望校正被執行(即,僅當他們正看著顯示器106及因而他們的臉朝向相機124(但他們不是直視該相機124)時)之姿勢之空間內才致動眼睛替代。此目標次要來說是在追蹤器失效前(即,在臉部追蹤器之姿勢範圍之操作限制達到前)停用眼睛替代之能力。此事不同於當現有系統不再知道眼睛之位置時僅停止替代之該等現有系統。
當相對於相機124藉由追蹤器208來計算使用者之目前姿勢( r , α )時,將限制(本文及圖式中標記為Δ)放置在其中確切的凝視校正可被執行之這些數值上是可能的。只要經追蹤之姿勢維持在該等限制Δ內,凝視校正模組202便維持活動及輸出該凝視校正模組202之結果來作為經修改幀F'(承受(例如當眨眼偵測被觸發時之)視線校正模組202內之任何內部的啟動/停用)所形成之新的RGB視頻。相反地,若經追蹤的姿勢未在經定義限制Δ內,則提供原先視頻以用於未經修改之壓縮及傳送。
在本文所描述的實施例中,限制Δ為一組子範圍之形式─用於六個座標之每者之個別的數值子範圍。若且唯若個別座標之每一者xyzPRY 係在該個別座標之個別子範圍內,則使用者之姿勢( r , α )係在Δ中。在其他實施例中,可僅將限制放置在一或一些座標上─舉例而言,在一些情景中,將限制僅強加在一角座標上係足夠的。對於一或多個強加此類限制於其上之座標之每者來說,個別子範圍為座標可在追蹤器208失效前所採取之可能數值之範圍之經限制的子範圍;即,個別子範圍在(且小於)座標可採取之可能數值之範圍內。
經強加於一(多個)角座標上之子範圍為如當使用者之臉部朝向相機時及當追蹤器208正操作至可接受之精確度時(即,以便由追蹤器208所指示之眼睛之位置以一可接受之精確度真的對應至眼睛之確切位置)時,限制幀修改。經強加於一(多個)空間座標上之子範圍為如當使用者之臉部在就對著嚴格小於相機之視野之立體角意義而言所限制之受限制之空間區域內時,限制幀修改。
追蹤相機及(其中可利用)之深度感測器輸出以給予6-DOF姿勢。藉由姿勢確認器206比較使用者之姿勢( r , α )及Δ,以確認姿勢( r , α )目前是否在Δ內。使用此確認的結論以致動或停用凝視校正模組242及通知混合器244。即,藉由姿勢確認器424於每當使用者之姿勢( r , α )移出Δ時停用凝視校正模組202,且每當該使用者之姿勢( r , α )移回Δ中時重新啟動該凝視校正模組202,以便當及且當使用者之姿勢在Δ 內時(承受例如(如所提及的)由眨眼偵測所導致之藉由控制器246之暫時停用),視線校正模組為活動的。若姿勢為有效的(即,在Δ內),則混合器輸出經校正凝視之RGB視頻幀(承受藉由控制器246之暫時停用);對之若姿勢係在Δ之範圍外時,則混合器輸出原始視頻。換句話說,當活動時,視線校正202模組如上文所描述地操作以修改即時視頻幀F,及如輸出視頻饋送地自凝視修正系統201輸出(承受(例如)眨眼偵測之)經修改幀F'。當凝視校正模組202為不活動時,凝視校正系統201之輸出為未經修改的視頻幀F。
放置限制在空間座標上亦可為適當的─舉例而言,若使用者移動很遠而至在xy平面上之相機之視野之邊緣,則修改使用者的眼睛可能會讓使用者看起來很奇怪(特別是若當使用者靠近相機之視野之中心(即,(x,y)≈(0,0))時,替代眼睛影像被捕捉)。作為另一範例,當使用者從相機以z方向移動足夠遠時,眼睛替代可為非必要的。
注意到強加此類限制在其他視線校正演算法(舉例而言,將變換應用至即時視頻以有效地「旋轉」使用者整個臉部的那些演算法)上亦為可能的。此類演算法為眾所皆知的;本文將不會詳細描述該等此類演算法。限制設定
在本文所描述之實施例中,藉由限制設定模組210動態計算在集合Δ中之範圍,因此限制本身承受變化。此事亦可基於臉部追蹤器208之輸出。舉例而言,當使用者之臉部在xy平面中移動時,調整用於一或多個角座標之個別範圍係適當的(因用於使用者正直視顯示器106之角座標值之範圍將於該等使用者的臉部以此方式移動時變化)。
在一些實施例中,作為替代地或額外地,基於本地顯示資料來計算限制Δ。本地顯示資料傳送關於遠端視頻220目前如何被呈現在顯示器106上之資訊;舉例而言,本地顯示資料可指示顯示器106上之遠端視頻220目前正被顯示之位置及/或顯示器106之正被佔據的區域。舉例而言,可基於顯示資料來設定限制,以便僅當使用者正看著或朝向顯示器106上之遠端視頻(而不是在顯示器上之別處)時才執行視線校正。此事意味著僅當近端使用者102確切地看著遠端使用者118時,眼神接觸之錯覺才被建立以用於遠端使用者118。此事可提供更佳的近端使用者102之行為及遠端使用者118之感知間之關聯,從而提供更自然的性質給該近端使用者102及該遠端使用者118間之對話。
作為替代地或額外地,可基於相機之目前位置來計算限制。舉例而言,其中相機與顯示器經整合至相同裝置(例如智慧型手機或相機)中,可自裝置之被偵測到的方向來推斷相機之位置;即,方向指示相機是否在顯示器的上方、下方、左方或右方。舉例而言可自顯示器之一或多個物理尺寸來推斷關於相機之目前位置的進一步資訊。
在其他實施例中,替代地可使用經固定的限制Δ(舉例而言,在使用者之臉部保持靠近相機視野之中心及不考慮遠端視頻如何被顯示之任何細節的假設上所設定的限制)。
一般來說,可藉由特定相機/顯示器之設定中之凝視校正演算法的效能來決定特定閥值。有生氣的眼睛─模板選擇
先前的視線校正方法僅用被偵測到的眨眼間的單一模板替代了使用者的眼睛;此事可導致不自然的凝視外觀。特定言之,當僅用單一靜止的直接凝視補片替代時,使用者可能偶爾會出現「不自然的」(即,他們具有眼睛呆滯外觀(特別是在眼睛缺乏呈現於真實眼睛中的高頻掃視時))。如先前所指出地,掃視是雙眼快速及同步之來回的移動。
在實施例中,眼睛由在訓練時間期間所收集到的模板之時間序列所替代,以便眼睛展示生氣。換句話說,直接凝視補片的序列經暫時地混和以看起來像是真的。模板選擇模組201選擇模板Ts中的不同一者,以用於從相機124所接收到的視頻之至少一連續區間(連續區間由不間斷(子)序列的連續幀所形成)的不同幀。舉例而言,連續區間可在兩個連續眨眼間或其他重新初始化觸發事件間。接著,視線校正模組202修改視頻的連續區間的每個幀,以用無論那個已被選擇用於該幀的模板的那些模板來替代使用者的眼睛。因選擇有意地處處不同於連續區間,故使用者之眼睛因排序模板Ts間所展示出的視覺變化而於連續區間處處展示生氣。當以此方式讓使用者之眼睛有生氣時,他們在經修改視頻中看起來更自然。
在呼叫使用者傾向專注於彼此的眼睛期間,故替代是不可感知是重要的。在某些實施例中,模板選擇模組204以每幀(或至少每一些幀;例如,兩幀)為基礎地選擇模板;即,可執行新的、獨立的模板選擇以用於連續區間的每個幀(或每兩個幀),以便每每個幀便更新選擇。在一些此類實施例中,可在連續區間處處中每每個幀(或例如每兩個幀)變化模板選擇;即,對於每個幀(或,例如每兩個幀)來說,可選擇不同於所選擇以用於緊接的前一幀之模板的模板,以便經更新選擇總是相對於上個經選擇模板來改變所選擇幀。換句話說,模板之變化可用實體上匹配視頻之幀速率的速率發生。換句話說,可用幀速率來改變眼睛影像,以避免任何感知遲緩。在其他情況中,較少頻率地(例如每第二個幀)來改變模板可能是足夠的。當模板之變化以每秒約10次(或每秒更少)改變的速率發生時,一些感知遲緩將為顯而易見的,以便替代影像保持不變,以用於具有約每秒30幀之幀速率之要被修改視頻中之約3個幀是可被預期的。一般來說,模板之變化於足夠高讓使用者之眼睛展示生氣的速率(即,以便沒有由能個別感知替代眼睛影像之使用者所導致的感知遲緩(即,超出人類視覺感知閥值))發生。此將總是為其中模板變化之速率大體上匹配(或超過)幀速率的一種情況;雖然在一些情況中,可取決於背景(舉例而言,取決於視頻品質)而接受變化之較低速率;例如,在一些情況中雖然可批准每秒10個或更多個的模板變化,但在其他情況(例如,其中可在一定程度上遮蓋靜止眼睛之視頻品質低落之情況)中,可接受較低速率(例如,每第三個或甚至是每第四個或第五個幀);或在一些極端情況(舉例而言,其中視訊品質相當低落之情況)中,(僅)每秒變化之模板甚至可被接受。
在一些實施例中,可在(譬如說)秒期間使用靜止眼睛替代影像,及之後簡單地用替代掃視視頻使眼睛有生氣(即,在一個簡短的連續區間)。在實施例中,可最多每個幀發生模板變化。
如所指出地,模板Ts為所描述實施例中的直接凝視視頻之幀;即,該等幀組成直接凝視幀之有序序列。可用下列方式從此序列選擇用於替代的幀。
有可能僅提供短(例如,大約1到2秒值的幀)的直接凝視視頻。舉例而言,對於手動捕捉來說,使用者可僅在約秒的訓練期間被請求看著相機。因此,循環模板幀。因幀的簡單循環將引入定期的、週期性的變化,故該幀的簡單循環將再次地看起來視覺不和諧。人類視覺系統對此類變化是敏感的,且人類可能因此在輸出視頻饋送中感知到。
因此,作為替代地,藉由找到最小化視覺差異之轉變來隨機循環幀。
圖6展示用於可被用於此目的之合適方法的流程圖。每當藉由控制器247的重新初始化發生時(例如,藉由所偵測到之視頻中的使用者之眨眼所觸發),重新設定方法。在重新初始化後恢復視頻修改(S602)。在步驟604處,如下所述地選擇要被使用以用於凝視校正之初始化的成對模板T={tl , tr } (即,在恢復視頻修改後之要被使用的第一成對模板)。將多個(一些或全部)模板Ts及如從相機124所接收的視頻之一或多個目前及/或最近的即時幀做比較,以找到匹配目前幀之成對模板,及藉由要被使用以用於藉由視線校正模組202之目前幀之修正之模板選擇模組204來選擇匹配的成對模板(S606)。目前幀意味著在目前視頻之小數目的幀內─例如,1階或10階。成對模板匹配目前幀意味著展示與左模板及右模板個別之目前及/或最近一(多個)幀(相對於任何其他以目前及/或最近一(多個)幀所比較之模板幀)之對應部分之高度視覺相似性的該左模板及該右模板。此事確保回到主動凝視校正時之平滑轉變。
在步驟S602處所選擇之左模板及右模板之每者來自模板視頻之個別幀。
在步驟608處,對左眼及右眼之每者來說,方法隨機分支至步驟S610或步驟S612。若方法分支至步驟S610以用於該眼,則選擇模板視頻中之下個模板視頻幀之可應用部分(即,包含右眼或左眼(視情況而定))以用於下個即時幀;即,選擇在上個經選擇模板幀後緊接著的模板幀之可應用部分以用於在上個經校正即時幀後緊接著的即時幀。然而,若方法分支至步驟S612以用於該眼,則選擇模板視頻中除了下個模板幀之外的模板幀的可應用部分以用於下個即時幀。此其他模板幀可早於或晚於上次對於該眼所使用的模板幀;即,此事涉及模板視頻中之向前跳或向後跳。其他模板幀之此部分匹配上次所選擇之模板(與上文所述意義相同),及以此基礎選擇該其他模板幀之此部分,以便跳躍不會不和諧。以此方式重複方法直到另一重新初始化(例如,當由被偵測之使用者之另一眨眼所觸發(S614),在S614點處重設方法至S602)發生為止。注意到「隨機」在決策中並不排除隨機元素所提供的一些情報。舉例而言,若沒有其他足夠接近匹配上次所選擇的模板幀的模板幀,則從S608至S612的預期分支可為「覆載」,以(作為替代地)強迫方法跳至S610。
藉由以此方式選擇用於不同的、要被校正的即時幀之不同的模板幀,輸出視頻饋送中的替代眼睛總是展示生氣。
步驟S608至S612組成隨機選擇程序,及該隨機選擇程序為步驟S608處所引入之隨機元素(該隨機元素防止替代眼睛展示對人類視覺系統來說可能會感知到不自然的注視之定期的、週期性的生氣)。可調整步驟608的分支以調整跳至步驟S614或步驟SS16的機率,以便作為正常設計程序的部分來完成最自然的效果。
可自相同或不同的模板幀來選擇組成成對模板T的左模板及右模板{tl , tr }。該左模板及該右模板被連結(因為即使該左模板及該右模板係來自不同的視頻幀,在經修改視頻幀中之使用者瞳孔間之距離實質上仍是不變的)。此事確保當替代眼睛可能以其他方式發生時(例如,該等替代眼睛為在掃視移動期間所捕捉之眼睛之模板之一者及在固定階段期間所捕捉的其他模板),該等替代眼睛不會不經意地看起來像是鬥雞眼(或若使用者事實上為鬥雞眼,則會保留他們自然的鬥雞眼狀態)。換句話說,左模板及右模板被連結;即,選擇該左模板及右模板以與彼此匹配,以便在經修改幀F’中實質上維持使用者之自然的眼睛對齊。因此,在步驟S606、步驟S612及在步驟S608之分支處之選擇中有一些相互依賴,以確保每個成對模板之個別模板總是彼此匹配。模板修改
所使用以替代使用者之眼睛的模板Ts對模板修改模組212來說為可存取的。眼睛替代模板Ts中之像素具有語意─舉例而言可藉由影像辨識所決定的皮膚、虹膜、瞳孔、鞏膜等。此事允許眼睛外觀被修改;舉例而言改變瞳孔顏色、使眼睛對稱及執行眼睛白化等(在將他們投入至即時視頻前)。改變可基於使用者所輸入之修改資料;舉例而言使用者經由UI(或自動地或兩者之結合)輸入一或多個修改設定。
當正執行凝視修正系統201時,在呼叫期間可執行此模板修改。
雖然獨立地選擇用於每個眼睛的成對模板,但這並不是必要的。舉例而言,可用來自單一模板視頻幀之替代眼睛影像兩者而總是選擇(例如,以該單一幀之形式的)單一模板來用於任何所給定的、要被修改的幀,以便不為每個眼睛獨立地選擇成對模板。進一步地說,雖然在上文中,在近端裝置處執行用於近端視頻之視線修正,但可在已從近端裝置透過網路接收及壓縮該近端視頻後於遠端裝置處執行近端視頻之視線修正。此外,雖然用於臉部追蹤之深度感測器及相機兩者之使用可提供更準確的臉部追蹤。然而,僅使用相機或僅使用深度感測器來執行可接受準確率的臉部追蹤仍是可能的;實際上,帶有深度之結果及不帶有深度之結果已被證實並非為顯著不同的。作為替代地或額外地,使用不同相機來追蹤使用者之臉部亦為可能的(例如,兩個立體安排的相機可提供3D追蹤)。
注意到本文描述複數個經儲存模板,該複數個經儲存模板之每者包含不同影像,該不同影像並不排除一些亦被儲存之重複模板的可能性。換句話說,術語僅意味著有其中至少一些模板是不同的複數個模板,以便可選擇不同的眼睛影像以招致所欲的生氣。
根據第一實施例,用於校正使用者之視線的使用者裝置包含:輸入,該輸入經配置以從該使用者之臉部之相機視頻接收;臉部追蹤模組,該臉部追蹤模組在主動追蹤模式經配置以追蹤該使用者之臉部之至少一個角座標及以輸出該至少一個角座標之目前數值,該目前數值係在可能數值範圍內;及視線校正模組,該視線校正模組經配置以修改該視頻之幀以校正該使用者之該視線,從而僅當該臉部追蹤模組係在該主動追蹤模式中及該目前數值係在該使用者之臉部朝向該相機之該可能數值範圍之受限子範圍內時,該使用者在該等經修改幀中才會被感知為直視該相機。
在實施例中,臉部追蹤模組可亦經配置以追蹤使用者之臉部之至少一個空間座標及輸出該等經追蹤座標之目前數值,該等目前數值每者係在可能數值之個別範圍內;及僅當該臉部追蹤模組係在主動追蹤模式中及該等目前數值每者係在該使用者之臉部朝向相機之可能數值之該個別範圍之個別受限子範圍內及在受限空間區域內時,幀才可被修改。舉例而言,至少一空間座標包含使用者之臉部之至少兩個空間座標或使用者之臉部之至少三個空間座標。
臉部追蹤模組可經配置以追蹤使用者之臉部之至少兩個角座標及輸出該等經追蹤之至少兩個座標之目前數值,該等目前數值之每者係在個別可能數值範圍內;及僅當該追蹤模組係在主動追蹤模式中及該等目前數值每者係在該使用者之臉部朝向相機之該個別可能數值範圍之個別受限子範圍內時,幀才可被修改。舉例而言,至少兩個角座標可包含使用者之臉部之至少三個角座標。
臉部追蹤模組可經配置以追蹤使用者之臉部之至少一空間座標,及使用者裝置可包含限制設定模組,該限制設定模組經配置以基於該至少一空間座標之該追蹤來改變用於至少一角座標之受限子範圍。
使用者裝置可包含顯示器及限制設定模組,該限制設定模組經配置以基於指示該顯示器之目前狀態之顯示資料來改變用於至少一角座標之受限子範圍。舉例而言,使用者裝置可包含網路介面,該網路介面經配置以接收經顯示在顯示器上之另一使用者之遠端視頻,及基於該遠端視頻之該顯示器之一目前顯示器參數來變化用於至少一角座標之受限子範圍。例如,基於藉由顯示器上之遠端視頻所捕捉之目前區域之目前位置及/或目前區域,來變化用於至少一角座標之受限子範圍。
使用者裝置可包含電腦存儲,該電腦存儲保持一或更多模板,該一或更多模板每者包含直視相機之使用者之眼睛之影像,其中藉由用個別模板來替代使用者之眼睛之每者,來校正視線。
在一些此類實施例中,一或多個模板之每者可包含直視相機之使用者之眼睛及該使用者之眼睛周圍臉部之至少部分之一影像,其中視線校正模組經配置以用幀之對應部分來混和這些部分。
作為替代地或額外地,使用者裝置可包含模板修改模組,該模板修改模組經配置以修改模板,以便修改眼睛的視覺外觀。舉例而言,模板修改模組可經配置以修改模板以執行以下動作:改變虹膜顏色、校正眼睛之不對稱及/或白化眼睛。
作為替代地或額外地,可修改視頻之至少一連續間隔的每個幀,以用經選擇以用於幀之個別模板來替代使用者之眼睛之每者;使用者裝置可包含模板選擇模組,該模板選擇模組經配置以選擇用於該連續間隔之模板,不同模板經選擇而用於該連續間隔之不同幀,以便使用者之眼睛在該連續間隔處處展示生氣。
使用者裝置可包含網路介面,該網路介面經配置以經由網路而於輸出視頻串流中傳送經修改幀至另一使用者裝置。
根據第二態樣,一種校正使用者之視線的方法包含以下步驟:從該使用者之臉部之相機視頻接收;當臉部追蹤模組係在主動追蹤模式中時,從該臉部追蹤模組接收該臉部追蹤模組正在追蹤之該使用者之臉部之至少一角座標之目前數值;及修改該視訊之幀以校正該使用者之該視線,從而僅當該臉部追蹤模組係在該主動追蹤模式中及該目前數值係在該使用者之臉部朝向該相機之該可能數值範圍之受限子範圍內時,該使用者在該等經修改幀中才會被感知為直視該相機。
方法可包含根據本文所揭露之任何使用者裝置及/或系統功能之一(多個)步驟。
根據第三態樣,一種用於校正使用者之視線的使用者裝置包含:輸入,經配置以從該使用者之臉部之相機視頻接收;電腦存儲,該電腦存儲保持複數個模板,每者包含直視該相機之該使用者之眼睛之不同影像;凝視校正模組,該凝視校正模組經配置以修改該視頻之至少一連續區間之每個幀,以從該幀選擇出之個別模板之眼睛來替代該使用者之眼睛之每者,藉此該使用者在經修改幀中才會被感知為直視該相機;及模板選擇模組,該模板選擇模組經配置以選擇用於該連續區間之該等模板,其中選擇不同模板以用於該連續區間之不同幀,以便該使用者之眼睛在該連續區間處處展示生氣。
在實施例中,複數個模板之每者可為模板視頻之幀之至少一部分。
模板選擇模組可經配置以使用隨機選擇程序來選擇模板。
作為特定範例,隨機選擇程序可包含:在已選擇初始化模板以由視線校正模組使用後,隨機選擇下一個要由該視線校正模組所使用之模板,該模板為下述中的一個:匹配該初始化模板及不為模板視頻中之下一個幀之在模板視頻中之下一個幀的至少一部分或模板視頻中之幀的至少一部分。
使用者裝置可包含眨眼偵測模組,該眨眼偵測模組經配置以偵測使用者何時眨眼,及藉由該視線校正模組之該修改可為其中該使用者被偵測到為眨眼之該經接收視頻之幀暫停。
在一些情況中,在偵測到使用者眨眼後,可將至少一些模板與經接收視頻之目前幀作比較,以選擇匹配該經接收視頻之該目前幀之初始化模板。在一些此類情況中,可根據如上文所述的特定範例之隨機選擇程序此後直到該使用者再次眨眼為止來選擇模板。
模板選擇模組可經配置以執行個別的模板選擇以用於至少一連續區間之每幀或每兩個幀。舉例而言,模板選擇模組可經配置以使模板每幀或每兩個幀變化。
使用者裝置可包含模板捕捉模組,該模板捕捉模組經配置以輸出他們應該直視相機之通知給使用者,及當他們這麼做的時候捕捉模板。
作為另一範例,使用者裝置可包含模板捕捉模組,該模板捕捉模組經配置以自動偵測該使用者何時直視該相機及捕捉該等模板以回應。
使用者裝置可包含相機或經配置以從該相機接收視頻之外部介面。舉例而言,外部介面可為網路介面,透過該網路介面而從網路接收視頻。
使用者裝置可包含模板修改模組,該模組修改模組經配置以修改模板以便修改眼睛之視覺外觀;例如,改變虹膜顏色、修正眼睛之不對稱及/或白化眼睛。
使用者裝置可包含網路介面,該網路介面經配置以經由網路傳送輸出視頻串流中之經修改幀至另一使用者裝置。
模板之每者可包含直視相機之使用者之眼睛及圍繞該眼睛之該使用者之臉部之至少一部分之影像,及視線修正模組可經配置以當為幀選擇模板時將該部分與該幀之對應部分混和。
使用者裝置可包含臉部追蹤模組,該臉部追蹤模組經配置以在主動追蹤模式中追蹤使用者之臉部之至少一角座標及輸出在可能數值範圍內之至少一角座標之目前數值;僅當該臉部追蹤模組在該主動追蹤模式中時及該目前數值係在該使用者之臉部朝向相機之該可能數值範圍之受限子範圍內時,才可修改經接收視頻。
根據第四態樣,一種用於校正使用者之視線的方法包含以下步驟:從使用者之臉部之相機視頻接收;存取複數個經儲存模板,每者包含直視該相機之該使用之眼睛之不同影像;及修改該視頻之至少一連續區間之每個幀,以從該幀選擇出之個別模板之眼睛來替代該使用者之眼睛之每者,藉此該使用者在經修改幀中才會被感知為直視該相機,其中選擇不同模板以用於該連續區間之不同幀,以便該使用者之眼睛在該連續區間處處展示生氣。
方法可包含根據本文所揭露之任何使用者裝置及/或系統功能之一(多個)步驟。
根據第五態樣,一種用於校正使用者之視線的使用者裝置包含:輸入,經配置以從該使用者之臉部之相機視頻接收;電腦存儲,該電腦存儲保持一或多個模板,每者包含直視該相機之該使用者之眼睛之不同影像;凝視校正模組,該凝視校正模組經配置以修改該視頻之至少一些幀,以用個別模板之眼睛來替代該使用者之眼睛之每者,藉此該使用者在經修改幀中才會被感知為直視該相機;及模板選擇模組,該模板選擇模組經配置以修改用於該替代之該一或多個模板,以便在經修改幀中修改該使用者之眼睛之視覺外觀。
亦揭露對應的電腦實施方法。
注意到第一態樣及第二態樣之實施例之任何特徵亦可實施於第三態樣及第四態樣之實施例中,反之亦然。比照地 ,等同地將相同事物應用至第五態樣。
根據第六態樣,一種用於校正使用者之凝視之電腦程式產品,包含經儲存在電腦可讀取儲存媒體上之代碼及該等代碼經配置以當執行在電腦上時執行以下動作:實施任何本文所揭露之功能。
一般來說,可使用軟體、韌體、硬體(例如,固定邏輯電路)或該等實施之結合來實施本文所描述的任何功能。本文所使用的術語「模組」、「功能」、「元件」及「邏輯」一般表示軟體、韌體、硬體或上述之結合。在軟體實施的情況中,模組、功能或邏輯表示當經執行在處理器(例如,一CPU或多個CPU)上時執行特定任務的程式代碼。可儲存程式代碼於一或多個電腦可讀取記憶體裝置中。下文所描述之技術之特徵為平台獨立的;平台獨立意味著技術可經實施於具有各式各樣處理器之各種商業計算平台上。
舉例而言,如使用者裝置104及120之裝置亦可包含使裝置之硬體執行操作(例如處理器功能方塊等)的實體(例如軟體)。舉例而言,裝置可包含電腦可讀取媒體,該電腦可讀取媒體可經配置以維持使裝置(更確切地說,是作業系統)及裝置的相關硬體執行操作的指令。因此,指令運作以配置作業系統及相關硬體以執行操作,且以此方式導致作業系統及相關硬體的轉換以執行功能。可透過各式各樣不同的配置來藉由電腦可讀取媒體提供指令給裝置。
電腦可讀取媒體的一種此類態樣之配置為信號乘載媒體及因而經配置以(如)經由網路傳送指令(例如,如載波)至計算裝置。電腦可讀取媒體亦可經配置為電腦可讀取儲存媒體及因而不為信號乘載媒體。電腦可讀取儲存媒體之範例包含隨機存取記憶體(RAM)、唯讀記憶體(ROM)、光碟、快閃記憶體、硬碟記憶體及其他可使用磁性、光學或其他技術以儲存指令及其他資料的記憶體裝置。
雖然已用特定至結構特徵及/或方法行為之語言描述標的,但要瞭解的是在附加申請專利範圍中的標的不需要被限制至如上所述之特定特徵或行為。更確切的說,如上所述之特定特徵及行為係被揭露為實施申請專利範圍之範例形式。
100‧‧‧通訊系統
102‧‧‧使用者
104‧‧‧使用者裝置
106‧‧‧顯示器
108‧‧‧處理器
110‧‧‧記憶體
112‧‧‧客戶端
114‧‧‧網路介面
116‧‧‧網路
118‧‧‧使用者
120‧‧‧使用者裝置
124‧‧‧相機
126‧‧‧深度感測器
200‧‧‧視頻呼叫系統
201‧‧‧視頻凝視校正系統
202‧‧‧視線校正模組
204‧‧‧模板選擇模組
206‧‧‧姿勢檢查模組
208‧‧‧臉部追蹤器
210‧‧‧限制設定模組
212‧‧‧模板修改器
214‧‧‧模板捕捉模組
216‧‧‧視頻壓縮器
218‧‧‧解壓縮器
220‧‧‧遠端視頻
242‧‧‧凝視校正器
244‧‧‧混合器
246‧‧‧眨眼偵測器
247‧‧‧控制器
248‧‧‧眼睛追蹤器
S602‧‧‧步驟
S604‧‧‧步驟
S606‧‧‧步驟
S608‧‧‧步驟
S610‧‧‧步驟
S612‧‧‧步驟
S614‧‧‧步驟
為了助於瞭解標的及展示該標的可如何被實施,現在將參考下列圖式;該等下列圖式其中:
圖1展示通訊系統之示意方塊圖;
圖2展示通訊客戶端的功能模組;
圖3A圖示說明臉部追蹤器的功能;
圖3B展示具有六個自由度的座標系統;
圖3C圖示說明使用者之臉部之角座標可如何變化;
圖4A展示視線校正模組的細節;
圖4B圖示說明視線校正機制;
圖5圖示說明主動追蹤模式中之(但接近失效)臉部追蹤器的行為;
圖6為用於動態模板選擇之方法的流程圖。
國內寄存資訊 (請依寄存機構、日期、號碼順序註記) 無
國外寄存資訊 (請依寄存國家、機構、日期、號碼順序註記) 無
(請換頁單獨記載) 無
102‧‧‧使用者
106‧‧‧顯示器
110‧‧‧記憶體
116‧‧‧網路
118‧‧‧使用者
120‧‧‧使用者裝置
124‧‧‧相機
126‧‧‧深度感測器
200‧‧‧視頻呼叫系統
201‧‧‧視頻凝視校正系統
202‧‧‧視線校正模組
204‧‧‧模板選擇模組
206‧‧‧姿勢檢查模組
208‧‧‧臉部追蹤器
210‧‧‧限制設定模組
212‧‧‧模板修改器
214‧‧‧模板捕捉模組
216‧‧‧視頻壓縮器
218‧‧‧解壓縮器
220‧‧‧遠端視頻

Claims (20)

  1. 一種用於校正一使用者之一視線的使用者裝置,包含: 一輸入,經配置以從該使用者之臉部之一相機視頻接收;電腦存儲,該電腦存儲保持複數個模板,每者包含直視該相機之該使用者之一眼睛之一不同影像;一視線校正模組,該視線校正模組經配置以修改該視頻之至少一連續區間之每個幀,以從該幀選擇出之個別模板之眼睛來替代該使用者之眼睛之每者,藉此該使用者在該等經修改幀中才會被感知為直視該相機;及一模板選擇模組,該模板選擇模組經配置以選擇用於該連續區間之該等模板,其中選擇不同模板以用於該連續區間之不同幀,以便該使用者之眼睛在該連續區間處處展示生氣。
  2. 如請求項1所述之使用者裝置,其中該複數個模板之每者為一模板視頻之一幀之至少一部分。
  3. 如請求項1所述之使用者裝置,其中該模板選擇模組經配置以使用一隨機選擇程序來選擇該等模板。
  4. 如請求項2所述之使用者裝置,其中該模板選擇模組經配置以使用一隨機選擇程序來選擇該等模板包含:在已選擇一初始化模板以由該視線校正模組使用後,隨機選擇下一個要由該視線校正模組所使用之一模板,該模板為下述中的一個:匹配該初始模板及不為該模板視頻中之下一個幀之在該模板視頻中之該下一個幀的至少一部分或該模板視頻中之一幀的至少一部分。
  5. 如請求項1所述之使用者裝置,包含一眨眼偵測模組,該眨眼偵測模組經配置以偵測該使用者何時眨眼,其中藉由該視線校正模組之該修改為其中該使用者被偵測到為眨眼之該經接收視頻之幀中暫停。
  6. 如請求項5所述之使用者裝置,其中在偵測到該使用者眨眼後,將至少一些該等模板與該經接收視頻之一目前幀作比較,以選擇匹配該經接收視頻之該目前幀之一初始化模板。
  7. 如請求項6所述之使用者裝置,其中根據一隨機選擇程序此後直到該使用者再次眨眼為止來選擇該模板; 其中該複數個模板之每者為一模板視頻之一幀之至少一部分,及其中該隨機選擇程序包含:在已選擇該初始化模板以由該視線校正模組使用後,隨機選擇下一個要由該視線校正模組所使用之一模板,該模板為下述中的一個:匹配該初始模板及不為該模板視頻中之下一個幀之在該模板視頻幀中的該下一個幀之至少一部分或該模板視頻中之一幀之至少一部分。
  8. 如請求項1所述之使用者裝置,其中該模板選擇模組經配置以執行一個別的模板選擇以用於該至少一連續區間之每幀或每兩個幀。
  9. 如請求項1所述之使用者裝置,其中該模板選擇模組經配置以使模板每幀或每兩個幀變化。
  10. 如請求項1所述之使用者裝置,包含一模板捕捉模組,該模板捕捉模組經配置以輸出他們應該直視相機之通知給該使用者,及當他們這麼做的時候捕捉該等模板。
  11. 如請求項1所述之使用者裝置,包含一模板捕捉模組,該模板捕捉模組經配置以自動偵測該使用者何時直視該相機及捕捉該等模板以回應。
  12. 如請求項1所述之使用者裝置,包含該相機或經配置以從該相機接收該視頻之一外部介面。
  13. 如請求項12所述之使用者裝置,其中該外部介面為一網路介面,透過該網路介面而從一網路接收該視頻。
  14. 如請求項1所述之使用者裝置,包含一模板修改模組,該模組修改模組經配置以修改該等模板以便修改該等眼睛之一視覺外觀。
  15. 如請求項14所述之使用者裝置,其中該模板修改模組經配置以修改該等模板以執行以下動作:改變一虹膜顏色、修正該等眼睛之一不對稱及/或白化該等眼睛。
  16. 如請求項1所述之使用者裝置,包含一網路介面,該網路介面經配置以經由一網路傳送一輸出視頻串流中之該等經修改幀至另一使用者裝置。
  17. 如請求項1所述之使用者裝置,其中該等模板之每者包含直視該相機之該使用者之一眼睛及圍繞該眼睛之該使用者之臉部之至少一部分之一影像,其中該視線修正模組經配置以當為一幀選擇該模板時將該部分與該幀之一對應部分混和。
  18. 如請求項1所述之使用者裝置,包含一臉部追蹤模組,該臉部追蹤模組經配置以在一主動追蹤模式中追蹤該使用者之臉部之至少一角座標及輸出在一可能數值範圍內之該至少一角座標之一目前數值; 其中僅當該臉部追蹤模組在該主動追蹤模式中時及該目前數值係在該使用者之臉部朝向該相機之該可能數值範圍之一受限子範圍內時,才修改該經接收視頻。
  19. 一種用於校正一使用者之一視線的方法,包含以下步驟: 從該使用者之臉部之一相機視頻接收; 存取複數個經儲存模板,每者包含直視該相機之該使用之一眼睛之一不同影像;及 修改該視頻之至少一連續區間之每個幀,以從該幀選擇出之個別模板之眼睛來替代該使用者之眼睛之每者,藉此該使用者在該等經修改幀中才會被感知為直視該相機,其中選擇不同模板以用於該連續區間之不同幀,以便該使用者之眼睛在該連續區間處處展示生氣。
  20. 一種用於校正一使用者之一凝視之電腦程式產品,包含經儲存在一電腦可讀取儲存媒體上之代碼及該等代碼經配置以當執行在一電腦上時執行以下動作: 從該使用者之臉部之一相機視頻接收; 存取複數個經儲存模板,每者包含直視該相機之該使用之一眼睛之一不同影像;及 修改該視頻之至少一連續區間之每個幀,以替代該使用者之眼睛之每者,以從該幀選擇出之個別模板之眼睛來替代該使用者之眼睛之每者,藉此該使用者在該等經修改幀中才會被感知為直視該相機,其中選擇不同模板以用於該連續區間之不同幀,以便該使用者之眼睛在該連續區間處處展示生氣。
TW105109216A 2015-04-28 2016-03-24 視線校正(二) TW201639347A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB1507210.1A GB201507210D0 (en) 2015-04-28 2015-04-28 Eye gaze correction
US14/792,327 US9749581B2 (en) 2015-04-28 2015-07-06 Eye gaze correction

Publications (1)

Publication Number Publication Date
TW201639347A true TW201639347A (zh) 2016-11-01

Family

ID=55953412

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105109216A TW201639347A (zh) 2015-04-28 2016-03-24 視線校正(二)

Country Status (2)

Country Link
TW (1) TW201639347A (zh)
WO (1) WO2016176226A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI624249B (zh) * 2017-01-26 2018-05-21 國立陽明大學 Dynamic assessment and rehabilitation system for vertigo patients and application method thereof

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10929982B2 (en) 2019-01-25 2021-02-23 Google Llc Face pose correction based on depth information
CN113362243A (zh) * 2021-06-03 2021-09-07 Oppo广东移动通信有限公司 模型训练方法、图像处理方法及装置、介质和电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6806898B1 (en) * 2000-03-20 2004-10-19 Microsoft Corp. System and method for automatically adjusting gaze and head orientation for video conferencing
US20120162356A1 (en) * 2009-09-11 2012-06-28 Koninklijke Philips Electronics N.V. Image processing system
US9141875B2 (en) * 2010-05-26 2015-09-22 Ramot At Tel-Aviv University Ltd. Method and system for correcting gaze offset
KR101977638B1 (ko) * 2012-02-29 2019-05-14 삼성전자주식회사 영상 내 사용자의 시선 보정 방법, 기계로 읽을 수 있는 저장 매체 및 통신 단말

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI624249B (zh) * 2017-01-26 2018-05-21 國立陽明大學 Dynamic assessment and rehabilitation system for vertigo patients and application method thereof

Also Published As

Publication number Publication date
WO2016176226A1 (en) 2016-11-03

Similar Documents

Publication Publication Date Title
CN107533640B (zh) 用于视线校正的方法、用户设备和存储介质
TW201707444A (zh) 視線校正(一)
KR102574874B1 (ko) 헤드 마운트 디스플레이(hmd)를 이용한 화상회의를 위한 개선된 방법 및 시스템
US10013805B2 (en) Control of enhanced communication between remote participants using augmented and virtual reality
JP6602393B2 (ja) ヘッドマウントディスプレイ上の視覚的作用を制限するためのフィルタリング及びペアレンタルコントロール法
JP2010206307A (ja) 情報処理装置、情報処理方法、情報処理プログラム、およびネットワーク会議システム
CN114365197A (zh) 在具有多个物理参与者的环境中放置虚拟内容
JP2003506927A (ja) ビデオ会議の参加者がカメラに焦点を合わせた状態で相手方ユーザの前に出現できるようにする方法と装置
CN111064919A (zh) 一种vr远程会议方法及装置
WO2017195514A1 (ja) 画像処理装置、画像処理システム、および画像処理方法、並びにプログラム
US20230105064A1 (en) System and method for rendering virtual reality interactions
CN113646731A (zh) 用于参与共享布景的技术
TW201639347A (zh) 視線校正(二)
JPWO2017141584A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US9407871B2 (en) Apparatus and method for controlling eye-to-eye contact function
CN114651448A (zh) 信息处理系统、信息处理方法和程序
US20160267801A1 (en) Image display method and apparatus
EP4113982A1 (en) Method for sensing and communicating visual focus of attention in a video conference
WO2016176225A1 (en) Eye gaze correction
US20230230416A1 (en) Establishing private communication channels
KR20150113795A (ko) 눈맞춤 기능 제어 장치 및 방법
US20170176934A1 (en) Image playing method and electronic device for virtual reality device
JP2020520487A (ja) Vrインタラクションの改良された方法およびシステム
WO2022223113A1 (en) Extended reality servers preforming actions directed to virtual objects based on overlapping field of views of participants
EP4341910A1 (en) Extended reality rendering device prioritizing which avatar and/or virtual object to render responsive to rendering priority preferences