TWI817352B - 直播錄設備以及直播錄方法 - Google Patents

直播錄設備以及直播錄方法 Download PDF

Info

Publication number
TWI817352B
TWI817352B TW111105188A TW111105188A TWI817352B TW I817352 B TWI817352 B TW I817352B TW 111105188 A TW111105188 A TW 111105188A TW 111105188 A TW111105188 A TW 111105188A TW I817352 B TWI817352 B TW I817352B
Authority
TW
Taiwan
Prior art keywords
image
video data
module
data
mask
Prior art date
Application number
TW111105188A
Other languages
English (en)
Other versions
TW202327331A (zh
Inventor
李翔
郭凱銘
王田申
蕭子翔
Original Assignee
大陸商奧圖碼數碼科技(上海)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商奧圖碼數碼科技(上海)有限公司 filed Critical 大陸商奧圖碼數碼科技(上海)有限公司
Publication of TW202327331A publication Critical patent/TW202327331A/zh
Application granted granted Critical
Publication of TWI817352B publication Critical patent/TWI817352B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本發明提出一種直播錄設備以及直播錄方法。直播錄設備包括人工智慧運算模組。人工智慧運算模組包括視頻處理模組以及影像摳圖模組。影像摳圖模組包括特徵提取編碼器、迴圈解碼器以及深層引導濾波器。特徵提取編碼器對輸入視頻資料的多個輸入影像分別進行特徵提取,以辨識多個輸入影像中的人物影像部分以及背景影像部分。迴圈解碼器整合多個輸入影像的時間資訊。深層引導濾波器根據多個輸入影像的該人物影像部分以及背景影像部分的辨識結果以及時間資訊輸出前景視頻資料以及遮罩視頻資料。

Description

直播錄設備以及直播錄方法
本發明是有關於一種影音設備與播錄方法,且特別是有關於一種直播錄設備以及直播錄方法。
隨著遠距教學、視訊會議及線上演講等諸如此類的遠端視訊服務的需求增加,如何豐富視訊操作的使用者體驗是本領域主要開發方向之一。然而,一般的遠端視訊服務僅能提供單純的影像拍攝功能,例如將使用者站在簡報前的演講過程進行拍攝,或者例如將使用者在面對攝影機的即時臉部影像進行拍攝。換言之,一般的遠端視訊服務僅能提供簡單且枯燥的影像內容至觀看者端設備。因此,如何實現可對視頻資料進行有效且快速的影像摳圖處理,以取得純人物影像的摳圖視頻資料,而可供後續相關影像處理運用,是本領域目前重要的研究方向。
本“先前技術”段落只是用來幫助了解本發明內容,因此在“先前技術”段落所揭露的內容可能包含一些沒有構成所屬技術領域中具有通常知識者所知道的習知技術。在“先前技術”段落所揭露的內容,不代表該內容或者本發明一個或多個實施例所要解決的問題,在本發明申請前已被所屬技術領域中具有通常知識者所知曉或認知。
本發明提供一種直播錄設備以及直播錄方法,可實現對於輸入視頻影像進行快速的摳圖/去背(matting)影像處理與運算。
本發明的其他目的和優點可以從本發明所揭露的技術特徵中得到進一步的了解。
為達上述之一或部份或全部目的或是其他目的,本發明的直播錄設備包括人工智慧運算模組。人工智慧運算模組包括視頻處理模組以及影像摳圖模組。視頻處理模組取得輸入視頻資料。影像摳圖模組耦接視頻處理模組。影像摳圖模組包括特徵提取編碼器、迴圈解碼器以及深層引導濾波器。視頻處理模組取得輸入視頻資料。影像摳圖模組耦接視頻處理模組。影像摳圖模組包括特徵提取編碼器、迴圈解碼器以及深層引導濾波器。特徵提取編碼器對輸入視頻資料的多個輸入影像分別進行特徵提取,以辨識多個輸入影像中的人物影像部分以及背景影像部分。迴圈解碼器耦接特徵提取編碼器,並且整合多個輸入影像的時間資訊。深層引導濾波器耦接迴圈解碼器,並且根據多個輸入影像的人物影像部分以及背景影像部分的辨識結果以及時間資訊輸出前景視頻資料以及遮罩視頻資料。
在本發明的一實施例中,影像摳圖模組還包括影像合成器。影像摳圖模組耦接深層引導濾波器,並且合成前景視頻資料以及遮罩視頻資料,以輸出摳圖視頻資料至視頻處理模組。
在本發明的一實施例中,人工智慧運算模組還包括臉部偵測模組。人工智慧運算模組耦接影像摳圖模組,並且取得摳圖視頻資料,以偵測摳圖視頻資料的臉部影像部分。多個臉部特徵處理模組耦接臉部偵測模組,並且分別對摳圖視頻資料的臉部影像部分中的多個臉部特徵影像進行影像處理。修飾模組耦接該些臉部特徵處理模組,並且根據經影像處理的多個臉部特徵影像修飾摳圖視頻資料的臉部影像部分,以輸出經修飾後的摳圖視頻資料。
在本發明的一實施例中,直播錄設備還包括整合模組以及渲染模組。整合模組耦接視頻處理模組,並且接收摳圖視頻資料以及圖層影像資料。渲染模組耦接整合模組,並且根據摳圖視頻資料以及圖層影像資料,以輸出第一合成視頻資料。
在本發明的一實施例中,圖層影像資料為立體虛擬實境背景影像資料,並且整合模組還耦接空間定位攝影機,以取得空間定位資料。渲染模組根據空間定位資料合成摳圖視頻資料以及圖層影像資料,以輸出第一合成視頻資料。
在本發明的一實施例中,圖層影像資料包括立體虛擬實境背景影像資料、擴增實境物件影像資料、簡報影像資料以及影音資料的至少其中之一。
在本發明的一實施例中,直播錄設備還包括語音轉文字伺服器。語音轉文字伺服器耦接整合模組、語音輸入裝置以及自然語言處理模組,以接收語音輸入資料,並提供語音輸入資料至自然語言處理模組。自然語言處理模組分析語音輸入資料而回傳文字資料至語音轉文字伺服器,並且語音轉文字伺服器提供文字資料至整合模組。整合模組提供文字資料至渲染模組,以使渲染模組根據摳圖視頻資料、圖層影像資料以及對應於文字資料的字幕影像資料輸出第一合成視頻資料。
在本發明的一實施例中,自然語言處理模組設置於雲端伺服器或直播錄設備中。
在本發明的一實施例中,人工智慧運算模組還包括累積加權模組、影像內容查找模組、影像遮罩模組以及影像合併模組。累積加權模組耦接影像摳圖模組,並且取得遮罩視頻資料。累積加權模組判斷對應於遮罩視頻資料中的背景視頻中的非任務區域的第一背景影像部分,並且產生非人物遮罩層。影像內容查找模組耦接影像摳圖模組,並且取得前景視頻資料,影像內容查找模組判斷對應於前景視頻資料中的人物視頻中的遮擋內容,並且產生人物遮罩層。影像遮罩模組耦接影像內容查找模組以及累積加權模組,並且合併非人物遮罩層以及人物遮罩層,以產生完整遮罩層。影像合併模組耦接影像遮罩模組以及視頻處理模組,並且合併輸入視頻資料以及完整遮罩層,以輸出第二合成視頻資料。
在本發明的一實施例中,累積加權模組包括影像梯度運算模組、影像膨脹運算模組、影像侵蝕運算模組、影像差分運算模組以及影像遮罩運算模組。影像梯度運算模組接收遮罩視頻資料,並且對遮罩視頻資料進行影像梯度運算。影像膨脹運算模組耦接影像梯度運算模組,並且對遮罩視頻資料進行影像膨脹運算。影像侵蝕運算模組耦接影像膨脹運算模組,並且對遮罩視頻資料進行影像侵蝕運算,以產生第一參考視頻資料;影像差分運算模組接收遮罩視頻資料,並且對遮罩視頻資料進行影像差分運算,以產生第二參考視頻資料。影像遮罩運算模組耦接影像侵蝕運算模組以及影像差分運算模組,並且接收遮罩視頻資料中的背景視頻中的任務區域的第二背景影像部分。影像遮罩運算模組根據第一參考視頻資料、第二參考視頻資料以及背景視頻中的任務區域的第二背景影像部分,以產生非人物遮罩層。
為達上述之一或部份或全部目的或是其他目的,本發明的直播錄方法包括以下步驟:藉由視頻處理模組取得輸入視頻資料;藉由影像摳圖模組的特徵提取編碼器對輸入視頻資料的多個輸入影像分別進行特徵提取,以辨識多個輸入影像中的人物影像部分以及背景影像部分;藉由影像摳圖模組的迴圈解碼器整合多個輸入影像的時間資訊;以及藉由影像摳圖模組的深層引導濾波器根據多個輸入影像的人物影像部分以及背景影像部分的辨識結果以及時間資訊輸出前景視頻資料以及遮罩視頻資料。
在本發明的一實施例中,直播錄方法還包括:藉由影像合成器合成前景視頻資料以及遮罩視頻資料,以輸出摳圖視頻資料至視頻處理模組。
在本發明的一實施例中,直播錄方法還包括:藉由臉部偵測模組取得摳圖視頻資料,以偵測摳圖視頻資料的臉部影像部分;藉由多個臉部特徵處理模組分別對摳圖視頻資料的臉部影像部分中的多個臉部特徵影像進行影像處理;以及藉由修飾模組根據經影像處理的多個臉部特徵影像修飾摳圖視頻資料的臉部影像部分,以輸出經修飾後的摳圖視頻資料。
在本發明的一實施例中,直播錄方法還包括:藉由整合模組接收摳圖視頻資料以及圖層影像資料;以及藉由渲染模組根據摳圖視頻資料以及圖層影像資料,以輸出第一合成視頻資料。
在本發明的一實施例中,其中圖層影像資料為立體虛擬實境背景影像資料,並且輸出第一合成視頻資料的步驟包括:藉由整合模組還藉由空間定位攝影機取得空間定位資料;以及藉由渲染模組根據空間定位資料合成摳圖視頻資料以及圖層影像資料,以輸出第一合成視頻資料。
在本發明的一實施例中,其中圖層影像資料包括立體虛擬實境背景影像資料、擴增實境物件影像資料、簡報影像資料以及影音資料的至少其中之一。
在本發明的一實施例中,其中輸出第一合成視頻資料的步驟包括:藉由語音轉文字伺服器藉由語音輸入裝置接收語音輸入資料,並提供語音輸入資料至自然語言處理模組;藉由自然語言處理模組分析語音輸入資料而回傳文字資料至語音轉文字伺服器,並且藉由語音轉文字伺服器提供文字資料至整合模組;以及藉由整合模組提供文字資料至渲染模組,以使渲染模組根據摳圖視頻資料、圖層影像資料以及對應於文字資料的字幕影像資料輸出第一合成視頻資料。
在本發明的一實施例中,其中自然語言處理模組設置於雲端伺服器或直播錄設備中。
在本發明的一實施例中,直播錄方法還包括:藉由累積加權模組取得遮罩視頻資料,並且判斷對應於遮罩視頻資料中的背景視頻中的非任務區域的第一背景影像部分,並且產生非人物遮罩層;藉由影像內容查找模組取得前景視頻資料,並且判斷對應於前景視頻資料中的人物視頻中的遮擋內容,並且產生人物遮罩層;藉由影像合併模組合併非人物遮罩層以及人物遮罩層,以產生完整遮罩層;以及藉由影像遮罩模組合併輸入視頻資料以及完整遮罩層,以輸出第二合成視頻資料。
在本發明的一實施例中,其中產生非人物遮罩層的步驟包括:藉由一影像梯度運算模組接收遮罩視頻資料,並且對遮罩視頻資料進行影像梯度運算;藉由影像膨脹運算模組對遮罩視頻資料進行影像膨脹運算;藉由影像侵蝕運算模組對遮罩視頻資料進行影像侵蝕運算,以產生第一參考視頻資料;藉由影像差分運算模組接收遮罩視頻資料,並且對遮罩視頻資料進行影像差分運算,以產生第二參考視頻資料;藉由影像遮罩運算模組接收遮罩視頻資料中的背景視頻中的任務區域的第二背景影像部分;以及藉由影像遮罩運算模組根據第一參考視頻資料、第二參考視頻資料以及背景視頻中的任務區域的第二背景影像部分,以產生非人物遮罩層。
基於上述,本發明的直播錄設備以及直播錄方法,可藉由人工智慧運算模組對輸入視頻資料進行快速的影像處理與運算,以即時地產生對應的前景視頻資料以及遮罩視頻資料。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
有關本發明之前述及其他技術內容、特點與功效,在以下配合參考圖式之一較佳實施例的詳細說明中,將可清楚的呈現。以下實施例中所提到的方向用語,例如:上、下、左、右、前或後等,僅是參考附加圖式的方向。因此,使用的方向用語是用來說明並非用來限制本發明。
為了使本發明之內容可以被更容易明瞭,以下特舉實施例做為本發明確實能夠據以實施的範例。另外,凡可能之處,在圖式及實施方式中使用相同標號的元件/構件/步驟,係代表相同或類似部件。
另外,應注意的是,本發明的各實施例所述的“耦接”一詞,可以是包括但不限於實際的實體連接關係、軟體運算順序及/或資料流方向(如圖中所示的箭頭方向)。
圖1是本發明的一實施例的直播錄系統的示意圖。參考圖1,直播錄系統10包括直播錄設備100、採集系統11以及輸出系統12。(多媒體)採集系統11可包括但不限於麥克風11_1以及攝影機11_2。輸出系統12可包括但不限於顯示設備(Display device)12_1、視頻串流媒體(Video streaming media)12_2、投影機12_3。直播錄設備100包括人工智慧運算模組110、整合模組120以及渲染模組130。在本實施例中,直播錄設備100可藉由麥克風11_1以及攝影機11_2取得輸入音訊資料及輸入視頻資料,並且執行人工智慧運算模組110對輸入視頻資料進行影像處理及運算,而快速地產生前景視頻資料以及遮罩視頻資料,以供整合模組120以及渲染模組130進行後續影像合成作業,而產生合成視頻資料。直播錄設備100可將合成視頻資料以影音串流(streaming)資料的形式來提供至輸出系統12的顯示設備12_1、視頻串流媒體12_2以及投影機12_3的至少其中之一,而實現影音直播功能。舉例而言,直播錄設備100以及採集系統11可設置於直播者端,並且輸出系統12可設置於觀看者端。或者,直播錄設備100可設置於直播者端,採集系統11可設置於攝影棚並且連結雲端伺服器,輸出系統12可設置於觀看者端。
在本實施例中,直播錄設備100可實現為一種處理主機,例如是桌上型電腦(Desktop Computer)、個人電腦(Personal Computer,PC)、平板電腦(Tablet PC)或雲端伺服器等,並且具有影像處理、影像運算及影像合成等功能,而本發明並不加以限制。處理主機可包括相關運算晶片及/或運算電路,例如可包括具有影像資料處理以及運算功能的中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor,DSP)、影像處理器(Image Processing Unit,IPU)、圖形處理器(Graphics Processing Unit,GPU)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)、其他類似處理裝置或這些裝置的結合。並且,處理主機還可包括但不限於記憶體(memory),例如非揮發性記憶體(Non-Volatile Memory,NVM),並且可儲存有多個程式及演算法,以進行本發明各實施例所述的影像處理與直播錄操作。所述多個程式可例如不限於包括簡報程式、擴增實境(Augmented Reality,AR)程式、虛擬實境(Virtual Reality,VR)程式、系統設定程式、背景執行程式、影片播放程式、視訊會議程式以及本發明各實施例所述的相關影像資料、模組及檔案資料等。
圖2是本發明的一實施例的直播錄設備的示意圖。圖3是本發明的一實施例的直播錄方法的流程圖。圖4A至圖4D是本發明的一實施例的多個影像的示意圖。先參考圖2,直播錄設備200包括人工智慧運算模組210、整合模組220以及渲染模組230。在本實施例中,人工智慧運算模組210可以經由深度學習(deep learning)網路架構來實現之,以進行高速的影像摳圖(matting)運算以及語意分割運算。如此一來,人工智慧運算模組210還可實現能根據連續的視頻串流進行自我學習的功能,以例如可學習判斷視頻資料的各影像中的各影像資訊為需關注資訊或無關資訊。
在本實施例中,人工智慧運算模組210耦接整合模組220。整合模組220耦接渲染模組230。人工智慧運算模組210包括視頻處理模組211以及影像摳圖模組212。影像摳圖模組212包括下採樣(downsample)模組2121、特徵提取編碼器(encoder)2122、迴圈解碼器(recurrent decoder)2123、深層引導濾波器(Deep Guided Filter,DGF)2124以及影像合成器2125。下採樣模組2121耦接特徵提取編碼器2122。迴圈解碼器2123耦接深層引導濾波器2124。深層引導濾波器2124耦接影像合成器2125。視頻處理模組211耦接下採樣模組2121以及影像合成器2125。
參考圖2至圖4D,直播錄設備200可執行如以下步驟S310~S340,以實現快速影像摳圖功能。視頻處理模組211可接收由外部的多媒體採集系統所提供的輸入視頻串流(streaming)資料201,並且可萃取輸入視頻串流資料201,以產生輸入視頻資料202。在步驟S310,人工智慧運算模組210可藉由視頻處理模組211取得輸入視頻資料202。人工智慧運算模組210可先藉由下採樣模組2121對輸入視頻資料202進行下採樣,例如對輸入視頻資料202的各個輸入影像進行影像尺寸(或稱圖框(frame)尺寸)縮減處理。所述多個輸入影像的每一幀可例如是圖4A的影像410,其中影像410包括人物影像部分411以及背景影像部分412。值得注意的是,背景影像部分412可例如是黑板。在步驟S320,人工智慧運算模組210可藉由影像摳圖模組212的特徵提取編碼器2122對輸入視頻資料202的多個輸入影像分別進行特徵提取,以辨識多個輸入影像中的人物影像部分以及背景影像部分。
在本實施例中,人工智慧運算模組210可結合卷積神經網路 (Convolutional Neural Network,CNN)以及遞迴神經網路 (Recurrent Neural Network,RNN)的時空多維度資訊處理策略以及採用編解碼的神經網路運算。在本實施例中,特徵提取編碼器2122可包括骨架(backbone)網路模組2122_1以及高效分割編碼器2122_2。骨架網路模組2122_1耦接下採樣模組2121以及高效分割編碼器2122_2,以依序進行運算。骨架網路模組2122_1可例如是以mobilenetV3架構實現,以作為特徵提取網路。高效分割編碼器2122_2可例如是以空洞空間金字塔池化(lite reduce atrous spatial pyramid pooling,LR-ASPP)架構實現。
在步驟S330,人工智慧運算模組210可藉由影像摳圖模組212的迴圈解碼器2123整合多個輸入影像的時間資訊。在本實施例中,迴圈解碼器2123可由ConvGRU神經網路以及其他編碼單元的並行方式來實現。迴圈解碼器2123可包括瓶頸運算模組(bottleneck)2123_1、上採樣模組(upsample)2123_2以及輸出模組2123_3。瓶頸運算模組2123_1耦接上採樣模組2123_2,並且上採樣模組2123_2耦接輸出模組2123_3,以依序執行運算。
在步驟S340,人工智慧運算模組210可藉由影像摳圖模組212的深層引導濾波器2124根據多個輸入影像的人物影像部分以及背景影像部分的辨識結果以及時間資訊輸出前景視頻資料203(動態前景)以及遮罩視頻資料204(動態遮罩)。在本實施例中,深層引導濾波器2124所輸出的前景視頻資料203的每一幀前景影像可例如是圖4B的影像420,其中影像420包括人物影像部分421以及背景影像部分422。值得注意的是,背景影像部分422的影像內容與圖4A的背景影像部分412不同,其中背景影像部分422可例如是圖4A的背景影像部分412中黑板的前景。深層引導濾波器2124所輸出的遮罩視頻資料204的每一幀前景影像可例如是圖4C的影像430,其中影像430包括人物影像部分431以及背景影像部分432。值得注意的是,影像430可例如是二值化的遮罩影像,其中人物影像部分431的影像區域中的各像素值可例如是255(例如代表數值“1”),並且背景影像部分432的影像區域中的各像素值可例如是0(例如代表數值“0”)。
在本實施例中,人工智慧運算模組210的神經網路可根據如以下公式(1)的摳圖損失函數( )以及以下公式(2)的語意分割損失函數( )來訓練。符號 為係數α(摳圖)的L1損失。符號 為係數α的金字塔拉普拉斯損失(pyramid Laplacian loss)。符號 為係數α的時間相干損失。符號 為前景的L1損失。符號 為前景的金字塔拉普拉斯損失。符號 為分割(segmentation)損失。符號 為分割概率(Segmentation probability)。符號 為真值二進制標誌(ground-truth binary label)。 …………公式(1) …………公式(2)
在本實施例中,影像合成器2125可合成前景視頻資料203以及遮罩視頻資料204,以輸出摳圖視頻資料205(純人物影像)至視頻處理模組211。在本實施例中,影像合成器2125所輸出的摳圖視頻資料205的每一幀摳圖影像可例如是圖4D的影像440,其中影像440包括人物影像部分441以及背景影像部分442。值得注意的是,背景影像部分442的影像區域中的各像素值可例如皆是255。如此一來,本實施例的直播錄設備200可實現快速的視頻影像摳圖功能。
在本實施例中,影像合成器2125可將摳圖視頻資料205提供至視頻處理模組211,接著由視頻處理模組211提供摳圖視頻資料205至整合模組220以及渲染模組230。整合模組220可接收摳圖視頻資料205以及圖層影像資料。所述圖層影像資料可為使用者預先載入的圖層影像資料。在本實施例中,圖層影像資料可包括但不限於立體虛擬實境背景影像資料、擴增實境物件影像資料、簡報影像資料以及影音資料的至少其中之一。接著,渲染模組230可根據摳圖視頻資料205以及圖層影像資料,以輸出合成視頻資料。
舉例而言,圖5A是本發明的一實施例的輸入視頻資料的示意圖。圖5B是本發明的一實施例的合成視頻資料的示意圖。輸入視頻資料201中的多個輸入影像的每一幀可例如是圖5A的影像510,其中影像510包括人物影像部分511以及背景影像部分512。人工智慧運算模組210可先對輸入視頻資料202,進行如上述說明的摳圖處理後,取得僅剩餘人物影像的摳圖視頻資料205。接著,整合模組220以及渲染模組230可將預設的摳圖視頻資料205以及圖層影像資料進行疊合,以產生合成視頻資料。對此,合成視頻資料的多個合成影像的每一幀可例如是圖5B的影像520,其中影像520包括人物影像部分521以及背景影像部分522。值得注意的是,背景影像部分522與背景影像部分512不同。因此,本實施例的直播錄設備200可實現高速且高效的影像摳圖處理以及影像合成處理,以可提供具有良好影像合成效果的直播影像。
圖6是本發明的一實施例的人工智慧運算模組的示意圖。參考圖6,本實施例的人工智慧模組610可包括如上述圖2實施例所述的人工智慧模組210的整體技術特徵。視頻處理模組611以及影像摳圖模組612的相關技術實施細節可參考上述圖2至圖4D的說明。在本實施例中,人工智慧模組610包括視頻處理模組611、影像摳圖模組612、累積加權(cumulative weight)模組613、影像內容查找模組614、影像遮罩模組615以及影像合併模組616。視頻處理模組611耦接影像摳圖模組612以及影像合併模組616。影像摳圖模組612耦接累積加權模組613以及影像內容查找模組614。影像遮罩模組615耦接累積加權模組613、影像內容查找模組614以及影像合併模組616。在本實施例中,視頻處理模組611可接收輸入視頻串流資料601,以產生輸入視頻資料602。影像摳圖模組612可對輸入視頻資料602進行影像摳圖處理,以產生遮罩視頻資料603以及前景視頻資料606。在本實施例中,累積加權模組613可從影像摳圖模組612取得遮罩視頻資料603。累積加權模組613可判斷對應於遮罩視頻資料603中的背景視頻中的非任務區域(例如黑板影像中沒有被人物影像所遮擋的影像區域)的背景影像部分,並且產生非人物遮罩層605。
在本實施例中,累積加權模組613可包括影像梯度運算模組6131(例如利用scharr算子進行運算)、影像膨脹運算模組6132(例如影像邊緣擴張(dilate)運算)、影像侵蝕運算模組6133(例如影像邊緣侵蝕(erode)運算)、影像差分(difference)運算模組6134以及影像遮罩(mask)運算模組6135。在本實施例中,影像梯度運算模組6131可接收遮罩視頻資料603,並且對遮罩視頻資料603進行影像梯度運算。影像膨脹運算模組6132可接續對遮罩視頻資料603進行影像膨脹運算。影像侵蝕運算模組6133可接續對遮罩視頻資料603進行影像侵蝕運算,以產生第一參考視頻資料6031。影像差分運算模組6134可對遮罩視頻資料603進行影像差分運算,以產生第二參考視頻資料6032。影像遮罩運算模組6135可接收遮罩視頻資料603中的背景視頻中的非任務區域的背景影像部分604。影像遮罩運算模組6135可根據第一參考視頻資料6031、第二參考視頻資料6032以及背景視頻中的非任務區域的背景影像部分604,以產生非人物遮罩層605。
在本實施例中,影像內容查找模組614可從影像摳圖模組612取得前景視頻資料606。影像內容查找模組614透過查找與比對輸入視頻資料602的每一幀與前至少一幀中對應於前景視頻資料606中的人物影像區域中(即任務區域)的遮擋內容(例如黑板影像中被人物影像所遮擋的區域中的黑板文字影像),以判斷對應於前景視頻資料606中的人物視頻中的遮擋內容,並且產生具有遮擋內容的影像(例如原先黑板上被老師遮擋的文字)的人物遮罩層607。影像遮罩模組615可合併非人物遮罩層605以及人物遮罩層607,以產生完整遮罩層608。影像合併模組616可合併輸入視頻資料602以及完整遮罩層608,以輸出合成視頻資料609。
舉例而言,圖7A是本發明的一實施例的輸入視頻資料的示意圖。圖7B是本發明的一實施例的合成視頻資料的示意圖。參考圖7A以及圖7B,輸入視頻資料602的每一幀的輸入影像可例如是圖7A的影像710,其中影像710包括人物影像部分711(例如老師)、人物遮擋部分713(例如黑板上的文字)以及背景影像部分712(例如黑板)。值得注意的是,人物遮擋部分713的至少一部分被人物影像部分711遮擋。經由上述人工智慧模組610的影像處理與運算後,影像合併模組616所輸出的合成視頻資料609的每一幀的輸入影像可例如是圖7B的影像720,其中影像720包括人物影像部分721(例如老師)、人物遮擋部分723(例如黑板上的文字)以及背景影像部分722(例如黑板)。值得注意的是,人物遮擋部分723並未被人物影像部分721遮擋。
圖8是本發明的一實施例的直播錄系統的示意圖。圖9是本發明的一實施例的合成視頻資料的示意圖。參考圖8以及圖9,直播錄系統80可包括空間定位攝影機81、多個紅外線定位光源82_1~82_K以及直播錄設備800,其中K為正整數。本實施例的直播錄設備800可包括如上述圖2實施例所述的直播錄設備200的整體技術特徵。直播錄設備800的整合模組820以及渲染模組830的相關技術實施細節可參考上述圖2至圖7B的說明。直播錄設備800還包括如上述圖2及圖6的人工智慧模組210、610。
在本實施例中,整合模組820可耦接空間定位攝影機81,以取得空間定位資料83。空間定位攝影機81可例如感測多個紅外線定位光源82_1~82_K投射在定位對象上的結果,以例如運算定位對象在空間與空間定位攝影機81之間的相對位置關係。渲染模組830可根據空間定位資料83合成摳圖視頻資料以及圖層影像資料804,以輸出合成視頻資料809。在本實施例中,渲染模組830可根據空間定位資料83將僅剩人物影像的摳圖視頻資料與圖層影像資料804疊合,以產生合成視頻資料809。舉例而言,參考圖9,圖層影像資料804可例如為立體虛擬實境背景影像。如此一來,渲染模組830所產生的合成視頻資料809的每一幀的合成影像可例如是圖9的影像910,其中影像910包括人物影像部分911、立體虛擬實境背景912以及立體虛擬物件913。
圖10是本發明的一實施例的直播錄系統的示意圖。圖11是本發明的一實施例的合成視頻資料的示意圖。參考圖10以及圖11,直播錄系統1100可包括麥克風101、雲端伺服器102、自然語言處理(Natural Language Processing,NLP)模組103、顯示設備104以及直播錄設備1000。在本實施例中,自然語言處理模組103可設置於雲端伺服器102中,並且由雲端伺服器102執行。或者,在一實施例中,自然語言處理模組103也可設置於直播錄設備1000中,由直播錄設備1000自行執行。在本實施例中,直播錄設備1000包括語音轉文字伺服器1010、整合模組1020以及渲染模組1030。本實施例的直播錄設備1000可包括如上述圖2及/或圖8實施例所述的直播錄設備200、800的整體技術特徵。直播錄設備1000的整合模組1020以及渲染模組1030的相關技術實施細節可參考上述圖2至圖9的說明。
在本實施例中,語音轉文字伺服器101可接收由麥克風101提供的語音輸入資料1001,並提供脈衝編碼調製(Pulse-code modulation,PCM)格式的語音輸入資料1002至由雲端伺服器102執行的自然語言處理模組103。自然語言處理模組103可分析語音輸入資料1002而回傳文字資料1003至語音轉文字伺服器1010。語音轉文字伺服器1010可將文字資料1003進行編輯,例如加入標點符號。語音轉文字伺服器1010可將編輯後的文字資料1004(字幕資料)提供至整合模組1020。在本實施例中,整合模組1020可根據整合模組1020傳送的字幕要求指令1005提供編輯後的文字資料1004至渲染模組1030,以使渲染模組1030可根據摳圖視頻資料、圖層影像資料以及對應於文字資料的字幕影像資料輸出合成視頻資料1007至顯示設備104,或是另外儲存為字幕檔1006。如此一來,顯示設備104可顯示具有即時字幕內容的直播影像。舉例而言,參考圖11,圖層影像資料可例如是簡報影像資料。渲染模組1030所產生的合成視頻資料1007的每一幀的合成影像可例如是圖11的影像1110,其中影像1110包括人物影像部分1111、簡報影像1112以及字幕影像1113。
圖12是本發明的一實施例的人工智慧運算模組的示意圖。參考圖12,人工智慧模組1210可包括視頻處理模組1211、影像摳圖模組1212、臉部偵測模組1213、多個臉部特徵處理模組1214_1~1214_P以及修飾模組1215,其中P為正整數。視頻處理模組1211耦接影像摳圖模組1212。影像摳圖模組1212耦接臉部偵測模組1213。臉部偵測模組1213耦接臉部特徵處理模組1214_1~1214_P。臉部特徵處理模組1214_1~1214_P耦接修飾模組1215。在本實施例中,人工智慧運算模組1210可包括如上述圖2及/或圖6實施例所述的人工智慧運算模組210、610的整體技術特徵。視頻處理模組1211以及影像摳圖模組1212的相關技術實施細節可參考上述圖2至圖11的說明。
在本實施例中,視頻處理模組1211可接收由外部的多媒體採集系統所提供的輸入視頻串流資料1201,並且可萃取輸入視頻串流資料1201,以產生輸入視頻資料1202。影像摳圖模組1212可對輸入視頻資料1202進行影像摳圖處理,以產生遮罩視頻資料以及前景視頻資料,並且可輸出摳圖視頻資料1203至臉部偵測模組1213。臉部偵測模組1213可取得摳圖視頻資料1203,以偵測摳圖視頻資料1203的臉部影像部分。在本實施例中,臉部偵測模組1213可例如是以開源軟體(insightface)來實現之。臉部偵測可以分成人臉檢測操作以及人臉對齊操作(關鍵特徵點提取)。人臉檢測操作主要是指將畫面中的人臉部分用參考方形框判斷,以對於參考方形框中的人臉影像進行特徵點提取(檢測)。人臉對齊操作主要是只判斷出人臉五官輪廓關鍵特徵,以用於劃分人臉的不同輪廓區域,例如包括但不限於臉部輪廓、眉毛輪廓、眼睛輪廓、眼珠位置、鼻子輪廓、鼻中線以及唇部輪廓等,並對這些輪廓區域進行後續的美顏處理。
在本實施例中,臉部特徵處理模組1214_1~1214_P可分別對摳圖視頻資料1203的臉部影像部分中的多個臉部特徵影像進行影像處理。例如,磨皮處理、美白處理、亮眼處理、白牙處理、紅唇處理以及瘦臉處理。對此,磨皮處理可例如是對影像資料(像素值資料)進行雙邊濾波器運算後進行權重融合運算。美白處理可例如是對影像資料進行線性變換運算,並提高影像對比度。亮眼處理可例如是對影像資料使用USM銳化處理。紅唇處理可例如是對影像資料使用R通道(Red pixel channel)強度提高和融合運算。瘦臉處理可例如是對影像資料使用局部像素平移算法運算。如此一來,修飾模組1215可根據經影像處理的多個臉部特徵影像修飾摳圖視頻資料1203的臉部影像部分,以輸出經修飾後的摳圖視頻資料1204。
綜上所述,本發明的直播錄設備以及直播錄方法,可藉由人工智慧運算模組對輸入視頻資料進行快速的影像處理與運算,以即時地產生對應的前景視頻資料以及遮罩視頻資料來提供給後續直播影像處理功能所使用。本發明的直播錄設備以及直播錄方法還可與各種圖層影像資料進行合成,而可提供多元的直播場景應用。本發明的直播錄設備以及直播錄方法還可將視頻影像中的人物遮擋的內容提取出來,以提供清楚的直播效果。本發明的直播錄設備以及直播錄方法還可搭配相關美顏處理,以提供具有良好人臉影像的摳圖視頻資料。
惟以上所述者,僅為本發明之較佳實施例而已,當不能以此限定本發明實施之範圍,即大凡依本發明申請專利範圍及發明說明內容所作之簡單的等效變化與修飾,皆仍屬本發明專利涵蓋之範圍內。另外本發明的任一實施例或申請專利範圍不須達成本發明所揭露之全部目的或優點或特點。此外,摘要部分和標題僅是用來輔助專利文件搜尋之用,並非用來限制本發明之權利範圍。此外,本說明書或申請專利範圍中提及的“第一”、“第二”等用語僅用以命名元件(element)的名稱或區別不同實施例或範圍,而並非用來限制元件數量上的上限或下限。
10、80、1100:直播錄系統 11:採集系統 11_1、101:麥克風 11_2:攝影機 12:輸出系統 12_1、104:顯示設備 12_2:視頻串流媒體 12_3:投影機 81:空間定位攝影機 82_1~82_K:紅外線定位光源 83:空間定位資料 102:雲端伺服器 103:自然語言處理模組 100、200、800、1000:直播錄設備 110、210、610、1210:人工智慧運算模組 120、820:整合模組 130、830:渲染模組 201、601、1201:輸入視頻串流資料 202、602、1202:輸入視頻資料 203、606:前景視頻資料 204、603:遮罩視頻資料 205、1203、1204:摳圖視頻資料 211、611、1211:視頻處理模組 212、612、1212:影像摳圖模組 2121:下採樣模組 2122:特徵提取編碼器 2122_1:骨架網路模組 2122_2:高效分割編碼器 2123:迴圈解碼器 2123_1:瓶頸運算模組 2123_2:上採樣模組 2123_3:輸出模組 2124:深層引導濾波器 2125:影像合成器 220、1020:整合模組 230、1030:渲染模組 410、420、430、440、510、520、710、720、910、1110:影像 411、421、431、441、511、521、711、721、911、1111:人物影像部分 412、422、432、442、512、522、604、605、712、722:背景影像部分 605:非人物遮罩層 607:人物遮罩層 608:完整遮罩層 609、809、1007:合成視頻資料 613:累積加權模組 6131:影像梯度運算模組 6132:影像膨脹運算模組 6133:影像侵蝕運算模組 6134:影像差分運算模組 6135:影像遮罩運算模組 614:影像內容查找模組 615:影像遮罩模組 616:影像合併模組 713、723:人物遮擋部分 804:圖層影像資料 912:立體虛擬實境背景 913:立體虛擬物件 S310~340:步驟 1001、1002:語音輸入資料 1003、1004:文字資料 1005:字幕要求指令 1006:字幕檔 1112:簡報影像 1113:字幕影像 1213:臉部偵測模組 1214_1~1214_P:臉部特徵處理模組 1215:修飾模組 S310~340:步驟。
圖1是本發明的一實施例的直播錄系統的示意圖。 圖2是本發明的一實施例的直播錄設備的示意圖。 圖3是本發明的一實施例的直播錄方法的流程圖。 圖4A至圖4D是本發明的一實施例的多個影像的示意圖。 圖5A是本發明的一實施例的輸入視頻資料的示意圖。 圖5B是本發明的一實施例的合成視頻資料的示意圖。 圖6是本發明的一實施例的人工智慧運算模組的示意圖。 圖7A是本發明的一實施例的輸入視頻資料的示意圖。 圖7B是本發明的一實施例的合成視頻資料的示意圖。 圖8是本發明的一實施例的直播錄系統的示意圖。 圖9是本發明的一實施例的合成視頻資料的示意圖。 圖10是本發明的一實施例的直播錄系統的示意圖。 圖11是本發明的一實施例的合成視頻資料的示意圖。 圖12是本發明的一實施例的人工智慧運算模組的示意圖。
200:直播錄設備 201:輸入視頻串流資料 202:輸入視頻資料 203:前景視頻資料 204:遮罩視頻資料 205:摳圖視頻資料 210:人工智慧運算模組 211:視頻處理模組 212:影像摳圖模組 2121:下採樣模組 2122:特徵提取編碼器 2122_1:骨架網路模組 2122_2:高效分割編碼器 2123:迴圈解碼器 2123_1:瓶頸運算模組 2123_2:上採樣模組 2123_3:輸出模組 2124:深層引導濾波器 2125:影像合成器 220:整合模組 230:渲染模組

Claims (16)

  1. 一種直播錄設備,包括:一人工智慧運算模組,包括:一視頻處理模組,用以取得一輸入視頻資料;一影像摳圖模組,耦接該視頻處理模組,並且包括:一特徵提取編碼器,用以對輸入視頻資料的多個輸入影像分別進行特徵提取,以取得該些輸入影像的多個特徵,並根據該些特徵辨識該些輸入影像中的一人物影像部分以及一背景影像部分;一迴圈解碼器,耦接該特徵提取編碼器,並且用以整合該些輸入影像的一時間資訊;一深層引導濾波器,耦接該迴圈解碼器,並且用以根據該些輸入影像的該人物影像部分以及該背景影像部分的辨識結果以及該時間資訊輸出一前景視頻資料以及一遮罩視頻資料;以及一影像合成器,耦接該深層引導濾波器,並且用以合成該前景視頻資料以及該遮罩視頻資料,以輸出一摳圖視頻資料至該視頻處理模組;一臉部偵測模組,耦接該影像摳圖模組,並且用以取得該摳圖視頻資料,以偵測該摳圖視頻資料的一臉部影像部分;多個臉部特徵處理模組,耦接該臉部偵測模組,並且用以分別對該摳圖視頻資料的該臉部影像部分中的多個臉部特徵影像進 行影像處理;以及一修飾模組,耦接該些臉部特徵處理模組,並且用以根據經影像處理的多個臉部特徵影像修飾該摳圖視頻資料的該臉部影像部分,以輸出經修飾後的該摳圖視頻資料。
  2. 如請求項1所述的直播錄設備,還包括:一整合模組,耦接該視頻處理模組,並且用以接收該摳圖視頻資料以及一圖層影像資料;以及一渲染模組,耦接該整合模組,並且用以根據該摳圖視頻資料以及該圖層影像資料,以輸出一第一合成視頻資料。
  3. 如請求項2所述的直播錄設備,其中該圖層影像資料包括一立體虛擬實境背景影像資料、一擴增實境物件影像資料、一簡報影像資料以及一影音資料的至少其中之一。
  4. 一種直播錄設備,包括:一人工智慧運算模組,包括:一視頻處理模組,用以取得一輸入視頻資料;以及一影像摳圖模組,耦接該視頻處理模組,並且包括:一特徵提取編碼器,用以對輸入視頻資料的多個輸入影像分別進行特徵提取,以取得該些輸入影像的多個特徵,並根據該些特徵辨識該些輸入影像中的一人物影像部分以及一背景影像部分;一迴圈解碼器,耦接該特徵提取編碼器,並且用以整合該些輸入影像的一時間資訊; 一深層引導濾波器,耦接該迴圈解碼器,並且用以根據該些輸入影像的該人物影像部分以及該背景影像部分的辨識結果以及該時間資訊輸出一前景視頻資料以及一遮罩視頻資料;以及一影像合成器,耦接該深層引導濾波器,並且用以合成該前景視頻資料以及該遮罩視頻資料,以輸出一摳圖視頻資料至該視頻處理模組;一整合模組,耦接該視頻處理模組,並且用以接收該摳圖視頻資料以及一圖層影像資料;一渲染模組,耦接該整合模組,並且用以根據該摳圖視頻資料以及該圖層影像資料,以輸出一第一合成視頻資料;以及一語音轉文字伺服器,耦接該整合模組、一語音輸入裝置以及一自然語言處理模組,用以接收一語音輸入資料,並提供該語音輸入資料至該自然語言處理模組,其中該自然語言處理模組分析該語音輸入資料而回傳一文字資料至該語音轉文字伺服器,並且該語音轉文字伺服器提供該文字資料至該整合模組,其中該整合模組提供該文字資料至該渲染模組,以使該渲染模組根據該摳圖視頻資料、該圖層影像資料以及對應於該文字資料的一字幕影像資料輸出該第一合成視頻資料。
  5. 如請求項4所述的直播錄設備,其中該自然語言處理模組設置於一雲端伺服器或該直播錄設備中。
  6. 一種直播錄設備,包括:一人工智慧運算模組,包括:一視頻處理模組,用以取得一輸入視頻資料;一影像摳圖模組,耦接該視頻處理模組,並且包括:一特徵提取編碼器,用以對輸入視頻資料的多個輸入影像分別進行特徵提取,以取得該些輸入影像的多個特徵,並根據該些特徵辨識該些輸入影像中的一人物影像部分以及一背景影像部分;一迴圈解碼器,耦接該特徵提取編碼器,並且用以整合該些輸入影像的一時間資訊;一深層引導濾波器,耦接該迴圈解碼器,並且用以根據該些輸入影像的該人物影像部分以及該背景影像部分的辨識結果以及該時間資訊輸出一前景視頻資料以及一遮罩視頻資料;一累積加權模組,耦接該影像摳圖模組,並且用以取得該遮罩視頻資料,該累積加權模組判斷對應於該遮罩視頻資料中的一背景視頻中的一非任務區域的一第一背景影像部分,並且產生一非人物遮罩層;一影像內容查找模組,耦接該影像摳圖模組,並且用以取得該前景視頻資料,該影像內容查找模組判斷對應於該前景視頻資料中的一人物視頻中的一遮擋內容,並且產生一人物遮罩層; 一影像遮罩模組,耦接該影像內容查找模組以及該累積加權模組,並且用以合併該非人物遮罩層以及該人物遮罩層,以產生一完整遮罩層;以及一影像合併模組,耦接該影像遮罩模組以及一視頻處理模組,並且用以合併該輸入視頻資料以及該完整遮罩層,以輸出一第二合成視頻資料。
  7. 如請求項6所述的直播錄設備,其中該累積加權模組包括:一影像梯度運算模組,接收該遮罩視頻資料,並且用以對該遮罩視頻資料進行影像梯度運算;一影像膨脹運算模組,耦接該影像梯度運算模組,並且用以對該遮罩視頻資料進行影像膨脹運算;一影像侵蝕運算模組,耦接該影像膨脹運算模組,並且用以對該遮罩視頻資料進行影像侵蝕運算,以產生一第一參考視頻資料;一影像差分運算模組,接收該遮罩視頻資料,並且用以對該遮罩視頻資料進行影像差分運算,以產生一第二參考視頻資料;以及一影像遮罩運算模組,耦接該影像侵蝕運算模組以及該影像差分運算模組,並且用以接收該遮罩視頻資料中的該背景視頻中的一任務區域的一第二背景影像部分,其中該影像遮罩運算模組根據該第一參考視頻資料、該第二 參考視頻資料以及該背景視頻中的該任務區域的該第二背景影像部分,以產生該非人物遮罩層。
  8. 一種直播錄方法,包括:藉由一視頻處理模組取得一輸入視頻資料;藉由一影像摳圖模組的一特徵提取編碼器對輸入視頻資料的多個輸入影像分別進行特徵提取,以取得該些輸入影像的多個特徵,並根據該些特徵辨識該些輸入影像中的一人物影像部分以及一背景影像部分;藉由該影像摳圖模組的一迴圈解碼器整合該些輸入影像的一時間資訊;藉由該影像摳圖模組的一深層引導濾波器根據該些輸入影像的該人物影像部分以及該背景影像部分的辨識結果以及該時間資訊輸出一前景視頻資料以及一遮罩視頻資料;藉由一影像合成器合成該前景視頻資料以及該遮罩視頻資料,以輸出一摳圖視頻資料至該視頻處理模組;藉由一臉部偵測模組取得該摳圖視頻資料,以偵測該摳圖視頻資料的一臉部影像部分;藉由多個臉部特徵處理模組分別對該摳圖視頻資料的該臉部影像部分中的多個臉部特徵影像進行影像處理;以及藉由一修飾模組根據經影像處理的多個臉部特徵影像修飾該摳圖視頻資料的該臉部影像部分,以輸出經修飾後的該摳圖視頻資料。
  9. 如請求項8所述的直播錄方法,還包括:藉由一整合模組接收該摳圖視頻資料以及一圖層影像資料;以及藉由一渲染模組根據該摳圖視頻資料以及該圖層影像資料,以輸出一第一合成視頻資料。
  10. 如請求項9所述的直播錄方法,其中該圖層影像資料包括一立體虛擬實境背景影像資料、一擴增實境物件影像資料、一簡報影像資料以及一影音資料的至少其中之一。
  11. 一種直播錄方法,包括:藉由一視頻處理模組取得一輸入視頻資料;藉由一影像摳圖模組的一特徵提取編碼器對輸入視頻資料的多個輸入影像分別進行特徵提取,以取得該些輸入影像的多個特徵,並根據該些特徵辨識該些輸入影像中的一人物影像部分以及一背景影像部分;藉由該影像摳圖模組的一迴圈解碼器整合該些輸入影像的一時間資訊;以及藉由該影像摳圖模組的一深層引導濾波器根據該些輸入影像的該人物影像部分以及該背景影像部分的辨識結果以及該時間資訊輸出一前景視頻資料以及一遮罩視頻資料;藉由一影像合成器合成該前景視頻資料以及該遮罩視頻資料,以輸出一摳圖視頻資料至該視頻處理模組;藉由一整合模組接收該摳圖視頻資料以及一圖層影像資料; 以及藉由一渲染模組根據該摳圖視頻資料以及該圖層影像資料,以輸出一第一合成視頻資料,其中輸出該第一合成視頻資料的步驟包括:藉由一語音轉文字伺服器藉由一語音輸入裝置接收一語音輸入資料,並提供該語音輸入資料至一自然語言處理模組;藉由該自然語言處理模組分析該語音輸入資料而回傳一文字資料至該語音轉文字伺服器,並且藉由該語音轉文字伺服器提供該文字資料至該整合模組;以及藉由該整合模組提供該文字資料至該渲染模組,以使該渲染模組根據該摳圖視頻資料、該圖層影像資料以及對應於該文字資料的一字幕影像資料輸出該第一合成視頻資料。
  12. 如請求項11所述的直播錄方法,其中該自然語言處理模組設置於一雲端伺服器或該直播錄設備中。
  13. 一種直播錄方法,包括:藉由一視頻處理模組取得一輸入視頻資料;藉由一影像摳圖模組的一特徵提取編碼器對輸入視頻資料的多個輸入影像分別進行特徵提取,以取得該些輸入影像的多個特徵,並根據該些特徵辨識該些輸入影像中的一人物影像部分以及一背景影像部分;藉由該影像摳圖模組的一迴圈解碼器整合該些輸入影像的一時間資訊; 藉由該影像摳圖模組的一深層引導濾波器根據該些輸入影像的該人物影像部分以及該背景影像部分的辨識結果以及該時間資訊輸出一前景視頻資料以及一遮罩視頻資料;藉由一累積加權模組取得該遮罩視頻資料,並且判斷對應於該遮罩視頻資料中的一背景視頻中的一非任務區域的一第一背景影像部分,並且產生一非人物遮罩層;藉由一影像內容查找模組取得該前景視頻資料,並且判斷對應於該前景視頻資料中的一人物視頻中的一遮擋內容,並且產生一人物遮罩層;藉由一影像遮罩模組合併該非人物遮罩層以及該人物遮罩層,以產生一完整遮罩層;以及藉由一影像合併模組合併該輸入視頻資料以及該完整遮罩層,以輸出一第二合成視頻資料。
  14. 如請求項13所述的直播錄方法,其中產生該非人物遮罩層的步驟包括:藉由一影像梯度運算模組接收該遮罩視頻資料,並且對該遮罩視頻資料進行影像梯度運算;藉由一影像膨脹運算模組對該遮罩視頻資料進行影像膨脹運算;藉由一影像侵蝕運算模組對該遮罩視頻資料進行影像侵蝕運算,以產生一第一參考視頻資料;藉由一影像差分運算模組接收該遮罩視頻資料,並且對該遮 罩視頻資料進行影像差分運算,以產生一第二參考視頻資料;藉由一影像遮罩運算模組接收該遮罩視頻資料中的該背景視頻中的一任務區域的一第二背景影像部分;以及藉由該影像遮罩運算模組根據該第一參考視頻資料、該第二參考視頻資料以及該背景視頻中的該任務區域的該第二背景影像部分,以產生該非人物遮罩層。
  15. 一種直播錄設備,包括:一人工智慧運算模組,包括:一視頻處理模組,取得一輸入視頻資料;以及一影像摳圖模組,耦接該視頻處理模組,並且包括:一特徵提取編碼器,對輸入視頻資料的多個輸入影像分別進行特徵提取,以取得該些輸入影像的多個特徵,並根據該些特徵辨識該些輸入影像中的一人物影像部分以及一背景影像部分;一迴圈解碼器,耦接該特徵提取編碼器,並且整合該些輸入影像的一時間資訊;一深層引導濾波器,耦接該迴圈解碼器,並且根據該些輸入影像的該人物影像部分以及該背景影像部分的辨識結果以及該時間資訊輸出一前景視頻資料以及一遮罩視頻資料;以及一影像合成器,耦接該深層引導濾波器,並且合成該前景視頻資料以及該遮罩視頻資料,以輸出一摳圖視頻資料 至該視頻處理模組;一整合模組,耦接該視頻處理模組,並且接收該摳圖視頻資料以及一圖層影像資料;以及一渲染模組,耦接該整合模組,並且根據該摳圖視頻資料以及該圖層影像資料,以輸出一第一合成視頻資料,其中該圖層影像資料為一立體虛擬實境背景影像資料,並且該整合模組還耦接一空間定位攝影機,以取得一空間定位資料,其中該渲染模組根據該空間定位資料合成該摳圖視頻資料以及該圖層影像資料,以輸出該第一合成視頻資料。
  16. 一種直播錄方法,包括:藉由一視頻處理模組取得一輸入視頻資料;藉由一影像摳圖模組的一特徵提取編碼器對輸入視頻資料的多個輸入影像分別進行特徵提取,以取得該些輸入影像的多個特徵,並根據該些特徵辨識該些輸入影像中的一人物影像部分以及一背景影像部分;藉由該影像摳圖模組的一迴圈解碼器整合該些輸入影像的一時間資訊;以及藉由該影像摳圖模組的一深層引導濾波器根據該些輸入影像的該人物影像部分以及該背景影像部分的辨識結果以及該時間資訊輸出一前景視頻資料以及一遮罩視頻資料;藉由一影像合成器合成該前景視頻資料以及該遮罩視頻資料,以輸出一摳圖視頻資料至該視頻處理模組; 藉由一整合模組接收該摳圖視頻資料以及一圖層影像資料;以及藉由一渲染模組根據該摳圖視頻資料以及該圖層影像資料,以輸出一第一合成視頻資料,其中該圖層影像資料為一立體虛擬實境背景影像資料,並且輸出該第一合成視頻資料的步驟包括:藉由該整合模組還藉由一空間定位攝影機取得一空間定位資料;以及藉由該渲染模組根據該空間定位資料合成該摳圖視頻資料以及該圖層影像資料,以輸出該第一合成視頻資料。
TW111105188A 2021-12-30 2022-02-14 直播錄設備以及直播錄方法 TWI817352B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111650981.0 2021-12-30
CN202111650981.0A CN116437112A (zh) 2021-12-30 2021-12-30 直播录设备以及直播录方法

Publications (2)

Publication Number Publication Date
TW202327331A TW202327331A (zh) 2023-07-01
TWI817352B true TWI817352B (zh) 2023-10-01

Family

ID=87087746

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111105188A TWI817352B (zh) 2021-12-30 2022-02-14 直播錄設備以及直播錄方法

Country Status (2)

Country Link
CN (1) CN116437112A (zh)
TW (1) TWI817352B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106954034A (zh) * 2017-03-28 2017-07-14 宇龙计算机通信科技(深圳)有限公司 一种图像处理方法及装置
CN110335277A (zh) * 2019-05-07 2019-10-15 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106954034A (zh) * 2017-03-28 2017-07-14 宇龙计算机通信科技(深圳)有限公司 一种图像处理方法及装置
CN110335277A (zh) * 2019-05-07 2019-10-15 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备

Also Published As

Publication number Publication date
CN116437112A (zh) 2023-07-14
TW202327331A (zh) 2023-07-01

Similar Documents

Publication Publication Date Title
CN111489287B (zh) 图像转换方法、装置、计算机设备和存储介质
Wen et al. Photorealistic audio-driven video portraits
Cao et al. Expressive speech-driven facial animation
KR102148392B1 (ko) 동영상 메타데이터 태깅 시스템 및 그 방법
Lewis et al. Lip feature extraction using red exclusion
US7257538B2 (en) Generating animation from visual and audio input
WO2022106654A2 (en) Methods and systems for video translation
Zhou et al. An image-based visual speech animation system
KR20120120858A (ko) 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기
US11581020B1 (en) Facial synchronization utilizing deferred neural rendering
US11582519B1 (en) Person replacement utilizing deferred neural rendering
Zhou Generative adversarial network for text-to-face synthesis and manipulation
Ivanko et al. Lip-Reading Using pixel-based and geometry-based features for multimodal human–robot interfaces
Tripathy et al. Voice for the mute
KR20160049191A (ko) 헤드 마운티드 디스플레이 디바이스의 제공방법
Liu et al. Talking face generation via facial anatomy
TWI817352B (zh) 直播錄設備以及直播錄方法
Wang et al. Talking faces: Audio-to-video face generation
Liu et al. 4D facial analysis: A survey of datasets, algorithms and applications
Jha et al. Cross-language speech dependent lip-synchronization
Caplier et al. Image and video for hearing impaired people
Rehaan et al. Face manipulated deepfake generation and recognition approaches: a survey
Mishra et al. Environment descriptor for the visually impaired
Bhaskar et al. A survey on different visual speech recognition techniques
Wang et al. Flow2Flow: Audio-visual cross-modality generation for talking face videos with rhythmic head