TWI822032B - 影片播放系統、可攜式影片播放裝置及影片增強方法 - Google Patents

影片播放系統、可攜式影片播放裝置及影片增強方法 Download PDF

Info

Publication number
TWI822032B
TWI822032B TW111117044A TW111117044A TWI822032B TW I822032 B TWI822032 B TW I822032B TW 111117044 A TW111117044 A TW 111117044A TW 111117044 A TW111117044 A TW 111117044A TW I822032 B TWI822032 B TW I822032B
Authority
TW
Taiwan
Prior art keywords
layer
feature map
image frame
generate
interest
Prior art date
Application number
TW111117044A
Other languages
English (en)
Other versions
TW202345608A (zh
Inventor
李鎮宜
有權 李
Original Assignee
國立陽明交通大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立陽明交通大學 filed Critical 國立陽明交通大學
Priority to TW111117044A priority Critical patent/TWI822032B/zh
Priority to US17/820,118 priority patent/US20230360175A1/en
Application granted granted Critical
Publication of TWI822032B publication Critical patent/TWI822032B/zh
Publication of TW202345608A publication Critical patent/TW202345608A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Processing (AREA)

Abstract

可攜式影片播放裝置採L層的影像處理架構。可攜式影片播放裝置針對第x 1層至第x 2層各層執行:產生第一影像幀及第二影像幀在該層的光流圖,根據該層的光流圖及第一影像幀於該層的第一特徵圖產生該層的初階校正特徵圖,根據該層的光流圖、初階校正特徵圖及第二影像幀於該層的第二特徵圖產生該層的進階校正特徵圖,以及根據該層的第二特徵圖及該層的進階校正特徵圖產生下一層的一第二特徵圖。可攜式影片播放裝置將第二影像幀上取樣以產生放大影像幀,根據第x 2+1層的第二特徵圖及放大影像幀產生播放影像幀並予以顯示。

Description

影片播放系統、可攜式影片播放裝置及影片增強方法
本發明係關於一種影片播放系統、可攜式影片播放裝置及影片增強方法。具體而言,本發明係關於一種採用影片超解析度(Video Super-Resolution;VSR)技術的影片播放系統、可攜式影片播放裝置及影片增強方法。
提供高解析度影片予使用者觀看已是多媒體產業的主流,但需要有足夠的硬體支援(例如:具備足夠的網路頻寬以進行遠端傳輸、具備足夠運算能力的電腦以進行成像),方能使高解析度影片在使用者端流暢地播放。
隨著電子消費產業的多方發展,現今已有各種輕薄短小的可攜式電子裝置,例如:智慧型手錶。此外,各種實境模擬(例如:虛擬實境、擴增實境、混合實境)相關應用的開發,使可攜式電子裝置朝向頭戴式的方向設計(例如:智慧型眼鏡、頭戴式顯示裝置)。相較於一般的計算機裝置(例如:伺服器、工作站、桌上型電腦),這類可攜式電子裝置的硬體能力(例如:網路頻寬、運算能力)較為有限,因而無法採用習知技術為這類可攜式電子裝置提供高解析度影片。在消費大眾已習於觀看高解析度影片的情況下,有必要針對這類硬體能力較為不足的可攜式電子裝置開發一種提供高解析度影片的技術。
本發明之一目的在於提供一種可攜式影片播放裝置,其係包含一顯示裝置、一收發介面及一處理器,其中該處理器電性連接至該顯示裝置及該收發介面。該收發介面接收對應至一第一時間點的一第一影像幀及對應至一第二時間點的一第二影像幀,其中該第二時間點晚於該第一時間點。該處理器採用具有L層的一影像處理架構,其中L為大於1的正整數,且不同層對應至不同影像解析度。該處理器針對該等層中的第x 1層至第x 2層的各層依序執行以下運作,其中x 1
Figure 111117044-A0305-02-0004-52
1,x 2
Figure 111117044-A0305-02-0004-53
L-1,且x 1
Figure 111117044-A0305-02-0004-54
x 2:(a)產生該第一影像幀及該第二影像幀在該層的一光流圖,(b)根據該層的該光流圖及該第一影像幀於該層的一第一特徵圖,產生該層的一初階校正特徵圖,(c)根據該層的該光流圖、該初階校正特徵圖及該第二影像幀於該層的一第二特徵圖,產生該層的一進階校正特徵圖,以及(d)根據該層的該第二特徵圖及該層的該進階校正特徵圖產生下一層的一第二特徵圖。該處理器還將該第二影像幀進行上取樣以產生一放大影像幀,該處理器還根據第x 2+1層的該第二特徵圖及該放大影像幀產生一播放影像幀,且該顯示裝置顯示該播放影像幀。
本發明之另一目的在於提供一種影片播放系統,其係包含一主機及一可攜式影片播放裝置。該主機將一第一時間點的一第一原始影像幀進行下取樣以產生一第一影像幀,將一第二時間點的一第二原始影像幀進行下取樣以產生一第二影像幀,且傳送該第一影像幀及該第二影像幀。該可攜式影片播放裝置自該主機接收該第一影像幀及該第二影像幀,且採用具有L層的一影像處理架構,其中L為大於1的正整數,且不同層對應至不同影像解析度。該可攜式影片播放裝置針對該等層中的第x 1層至第x 2層的各層依序執行以下運作,其中x 1
Figure 111117044-A0305-02-0004-55
1,x 2
Figure 111117044-A0305-02-0004-56
L-1,且x 1
Figure 111117044-A0305-02-0004-57
x 2:(a)產生該第一影像幀及該第二影像幀在該層的一光流 圖,(b)根據該層的該光流圖及該第一影像幀於該層的一第一特徵圖,產生該層的一初階校正特徵圖,(c)根據該層的該光流圖、該初階校正特徵圖及該第二影像幀於該層的一第二特徵圖,產生該層的一進階校正特徵圖,以及(d)根據該層的該第二特徵圖及該層的該進階校正特徵圖產生下一層的一第二特徵圖。該可攜式影片播放裝置還將該第二影像幀進行上取樣以產生一放大影像幀,根據該第x 2+1層的該第二特徵圖及該放大影像幀產生一播放影像幀,且顯示該播放影像幀。
本發明之又一目的在於提供一種影片增強方法,其係適用於一可攜式電子裝置。該影片增強方法接收對應至一第一時間點的一第一影像幀及對應至一第二時間點的一第二影像幀,其中該第二時間點晚於該第一時間點。該影片增強方法將該第二影像幀進行上取樣以產生一放大影像幀。該影片增強方法執行具有L層的一影像處理架構,其中L為大於1的正整數,不同層對應至不同影像解析度。該影片增強方法針對該等層中的第x 1層至第x 2層的各層依序執行以下步驟,其中x 1
Figure 111117044-A0305-02-0005-58
1,x 2
Figure 111117044-A0305-02-0005-59
L-1,且x 1
Figure 111117044-A0305-02-0005-60
x 2:(a)產生該第一影像幀及該第二影像幀在該層的一光流圖,(b)根據該層的該光流圖及該第一影像幀於該層的一第一特徵圖,產生該層的一初階校正特徵圖,(c)根據該層的該光流圖、該初階校正特徵圖及該第二影像幀於該層的一第二特徵圖,產生該層的一進階校正特徵圖,以及(d)根據該層的該第二特徵圖及該層的該進階校正特徵圖產生下一層的一第二特徵圖。針對該等層中的第L層,該影片增強方法根據第x 2+1層的該第二特徵圖及該放大影像幀產生一播放影像幀。該影片增強方法使一顯示裝置顯示該播放影像幀。
本發明所提供的影片播放技術(至少包含可攜式影片播放裝置、影片播放系統及影片增強方法)採用具有L層的影像處理架構,由第x 1層至第x 2層逐層地利用上一影像幀(即,上一時間點所對應的影像幀,例如:前述的第一影像幀)於該層的特徵圖來改善當前影像幀(即,目前時間點所對應的影像幀,例如:前述第二影像幀)於該層的特徵圖。在不同實施態樣中,本發明所提供的影片播放技術在第x 1層至第x 2層的各層所利用的上一影像幀的特徵圖的產生方式不同。此外,在一些實施態樣中,針對第x 1層至第x 2層的各層,本發明所提供的影片播放技術可根據一感興趣區域的一座標資訊產生一較為清晰的感興趣特徵圖,並以此感興趣特徵圖局部地改善當前影像幀於該層的特徵圖。本發明所提供的影片播放技術將當前影像幀上取樣為放大影像幀,再將最後一層(即,第L層)經改善的特徵圖映射至放大影像幀作為播放影像幀,並予以播放。由於當前影像幀在最後一層的特徵圖係經過逐層的改善,因此將其映射至放大影像幀可獲得具高解析度及高畫質的播放影像幀。
以下結合圖式闡述本發明的詳細技術及實施方式,俾使本發明所屬技術領域中具有通常知識者能理解所請求保護的發明的技術特徵。
1:影片播放系統
11:主機
13:可攜式影片播放裝置
131:顯示裝置
133:收發介面
135:處理器
137:眼球追蹤裝置
C1、C2、C3、……、Cz:感興趣影像幀
D2:播放影像幀
E2:放大影像幀
F21、F22、F2(L-1):光流圖
H11、H12、H1(L-1)、H1L、H21、H22、H2(L-1)、H2L:特徵圖
H2F1、H2F2、……、H2F(L-1)、H2FL:感興趣特徵圖
I1、I2、I3……、Iz:影像幀
M11、M12、M1(L-1):初階校正特徵圖
M21、M22、M2(L-1):進階校正特徵圖
O1:影像特徵擷取演算法
O2:光流演算法
O3、O4、O5、O8:運作
O6、O7、O11:上取樣
O9、O14:下取樣
O10:裁切
O12:疊加
O13:特徵擷取
P1、P2、P3、……、Pz:座標資訊
R1、R2、R3、……、Rz:原始影像幀
S1、S2:影片串流
t1、t2、t3、……、tz:時間點
VS:影片
V1:子影像幀
V2:感興趣影像幀
V3:疊加影像幀
S701~S717:步驟
S801~S807:步驟
第1圖描繪在一些實施方式中的影片播放系統1的架構示意圖。
第2圖描繪在一些實施方式中的主機11針對一影片VS所進行的處理。
第3圖描繪先執行L-1層的特徵圖改善再執行第L層以產生播放影像幀的一具體範例。
第4圖描繪先執行L-1層的特徵圖改善再執行第L層以產生播放影像幀的另一具體範例。
第5圖描繪在採用注視點影片超解析度的實施方式中的主機11針對一影片VS所進行的處理。
第6A圖描繪產生第x 1層至第x 2層的感興趣特徵圖的一具體範例。
第6B圖描繪先執行L-1層的特徵圖改善再執行第L層以產生播放影像幀的另一具體範例。
第7圖描繪在一些實施方式中的影片增強方法的主要流程圖。
第8圖描繪在一些實施方式中的影片增強方法的部分流程圖。
以下將透過實施方式來解釋本發明所提供的影片播放系統、可攜式影片播放裝置及影片增強方法,但該等實施方式並非用以限制本發明需在如該等實施方式所述的任何環境、應用或方式方能實施。關於以下實施方式的說明僅在於闡釋本發明的目的,而非用以限制本發明的範圍。應理解,在以下實施方式及圖式中,與本發明非直接相關的元件已省略而未描述或/及繪示。此外,圖式中各元件的尺寸及元件間的比例關係僅為便於繪示及說明,而非用以限制本發明的範圍。再者,除非另有說明,於本說明書及申請專利範圍中所使用的「一」、「該」及類似用語應理解為包含單數及複數形式。
第1圖描繪在本發明的一些實施方式中的影片播放系統1的架構示意圖。影片播放系統1包含一主機11及一可攜式影片播放裝置13。主機11為具有電腦運算能力的裝置,且可安裝有作業系統(例如:微軟視窗作業系統、iOS作業系統、安卓作業系統)。舉例而言,主機11可為一伺服器、一工作站、一桌 上型電腦或一筆記型電腦。可攜式影片播放裝置13亦為具有電腦運算能力的裝置,但相較於主機11,可攜式影片播放裝置13為輕便易於攜帶的裝置。舉例而言,可攜式影片播放裝置13可為一智慧型穿戴裝置(例如:一智慧型眼鏡)。
可攜式影片播放裝置13包含一顯示裝置131、一收發介面133及一處理器135,其中處理器135電性連接至顯示裝置131及收發介面133。顯示裝置131為適用於可攜式電子裝置的顯示裝置。在一些實施方式中,顯示裝置131可實作為一微型顯示螢幕,例如:數位光處理(Digital Light Processing;DLP)顯示螢幕、矽基有機發光二極體(Si-Organic Light Emitting Diodes;Si-OLED)顯示螢幕、液晶覆矽(Liquid Crystal on Silicon;LCoS)顯示螢幕、微型發光二極體(Micro-Light Emitting Diodes;Micro LED)顯示螢幕。在另一些實施方式中,顯示裝置131可包含能產生浮空投影(holographic projection)的一投影設備,甚至包含用以將該浮空投影成像的一投影介質。收發介面133可為一無線傳輸介面,例如:藍牙傳輸介面或本發明所屬技術領域中具有通常知識者所知的無線傳輸介面。處理器135可為各種處理器、中央處理單元(Central Processing Unit;CPU)、微處理器(Microprocessor Unit;MPU)、數位訊號處理器(Digital Signal Processor;DSP)或本發明所屬技術領域中具有通常知識者所知悉的其他計算裝置。舉例而言,處理器135可為一ARM處理器。
可攜式影片播放裝置13可連線至主機11,作為主機11的另一螢幕,以呈現主機11所提供的影片供使用者觀看。然而,可攜式影片播放裝置13為輕便易於攜帶的裝置,其硬體能力(例如:網路頻寬、運算能力)可能較為有限,因此,若主機11直接傳送高解析度影片至可攜式播放裝置13,則可攜式播放裝置13極可能無法流暢地(例如:無延遲地)接收高解析度影片或/及無法及時地運 算以播放高解析度影片。為克服前述的技術問題,主機11會將高解析度影片下取樣(down-sample)為低解析度影片,再將低解析度影片傳送至可攜式影片播放裝置13,而可攜式影片播放裝置13採用影片超解析度技術處理所接收的低解析度影片(即,對影片中各影像幀的特徵圖漸進式地改善,使最後所播放的各播放影片幀為高解析度且具有高畫質),詳述於後。
第2圖描繪在一些實施方式中的主機11針對一影片VS所進行的處理。影片VS包含複數張原始影像幀R1、R2、R3、……、Rz,其中原始影像幀R1、R2、R3、……、Rz依時間順序排列,且分別對應至時間點t1、t2、t3、……、tz。主機11將原始影像幀R1、R2、R3、……、Rz個別地進行下取樣,並因此產生對應至時間點t1、t2、t3、……、tz的低解析度的影像幀I1、I2、I3……、Iz。在一些實施方式中,主機11係將影像幀I1、I2、I3……、Iz直接傳送至可攜式影片播放裝置13,而可攜式影片播放裝置13的收發介面133則因應地接收影像幀I1、I2、I3……、Iz。在一些實施方式中,主機11則將影像幀I1、I2、I3……、Iz編碼(例如:壓縮)為一影片串流S1(例如:利用H.264編碼技術將影像幀I1、I2、I3……、Iz壓縮為H.264影片串流),再傳送影片串流S1至可攜式影片播放裝置13;對應地,可攜式影片播放裝置13的收發介面133接收影片串流S1,處理器135再將影片串流S1解碼(例如:解壓縮)以得到影像幀I1、I2、I3……、Iz(例如:利用H.264解碼技術將H.264影片串流將解壓縮為影像幀I1、I2、I3……、Iz)。
由於影像幀I1、I2、I3……、Iz為低解析度,故可攜式影片播放裝置13採用一個具有L層的影像處理架構依序處理每一幀以提升影像幀的解析度及畫質,其中L為大於1的正整數。在該影像處理架構中,不同層對應至不同影像解析度。若將該影像處理架構的該等層編號為第一層至第L層,則編號越大的層 所對應的解析度越高。以下將以一當前影像幀(即,時間點t所對應的影像幀,t為一變數)為例,詳述可攜式影片播放裝置13如何以L層的影像處理架構,由一低解析度的影像幀產生一高解析度且高畫質的影像幀。
可攜式影片播放裝置13在以L層的影像處理架構處理一當前影像幀的過程,會先依序執行該影像處理架構中的第x 1層至第x 2層的各層,再執行第L層,其中x 1
Figure 111117044-A0305-02-0010-61
1,x 2
Figure 111117044-A0305-02-0010-62
L-1,且x 1
Figure 111117044-A0305-02-0010-63
x 2。針對該影像處理架構中的第x 1層至第x 2層的各層,可攜式影片播放裝置13的處理器135會依序執行以下運作(a)、運作(b)、運作(c)及運作(d),以利用上一影像幀(即,上一時間點t-1所對應的影像幀)的特徵圖來逐層地改善當前影像幀的特徵圖。需說明者,若當前影像幀為影像幀I1(即,所有影像幀中的第一張),則上一影像幀可為一預設影像幀(例如:所有的像素值為一固定值的影像幀)。
現詳述處理器135針對第l層所執行的運作(a)、運作(b)、運作(c)及運作(d),其中變數l代表第x 1層至第x 2層中的任一層。
運作(a):處理器135產生當前影像幀及上一影像幀在第l層的一光流圖。若第l層為第一層,則處理器135可採用本發明所屬技術領域中具有通常知識者所知的方法(例如:任一種光流演算法、經訓練的深度神經網路)計算當前影像幀及上一影像幀之間的光流作為第一層的光流圖。若第l層不是第一層,則處理器135係將上一層的光流圖(即,第l-1層的光流圖)進行上取樣(up-sample),使其解析度與第l層所對應的解析度相同,並以上取樣後的光流圖作為第l層的光流圖。
運作(b):處理器135根據第l層的光流圖及上一影像幀於第l層的一特徵圖,產生第l層的一初階校正特徵圖。運作(b)可理解為根據第l層的光流 圖校正上一影像幀於第l層的特徵圖以產生第l層的初階校正特徵圖。在一些實施方式中,處理器135可利用第l層的光流圖對上一影像幀於第l層的特徵圖進行影像扭曲(warping)運算,藉此產生第l層的初階校正特徵圖,其可藉由以下公式(1)表示:
Figure 111117044-A0305-02-0011-1
上述公式(1)中,
Figure 111117044-A0305-02-0011-2
代表第l層的初階校正特徵圖,W代表影像扭曲運算,
Figure 111117044-A0305-02-0011-3
代表上一影像幀在第l層的特徵圖,且
Figure 111117044-A0305-02-0011-4
代表第l層的光流圖。需說明者,關於上一影像幀在第l層的特徵圖,其係在可攜式影片播放裝置13的處理器135處理上一影像幀的過程所產生。
運作(c):處理器135根據第l層的光流圖、第l層的初階校正特徵圖以及當前影像幀於第l層的一特徵圖,產生第l層的一進階校正特徵圖。具體而言,處理器135可根據第l層的光流圖、第l層的初階校正特徵圖以及當前影像幀於第l層的特徵圖校正上一影像幀於第l層的特徵圖,藉此產生第l層的進階校正特徵圖。需說明者,若第l層為第一層,則處理器135可採用本發明所屬技術領域中具有通常知識者所知的影像特徵擷取演算法,從當前影像幀擷取出影像特徵以作為當前影像幀在第一層的特徵圖。若第l層不是第一層,則處理器135在針對當前影像幀執行第l-1層的處理時會產生當前影像幀在第l層的特徵圖,詳述於後續的運作(d)。
在一些實施方式中,處理器135可利用一可變形卷積(deformable convolution)技術來實現運作(c)。於該等實施方式中,處理器135根據第l層的初階校正特徵圖、第l層的光流圖及當前影像幀於第l層的特徵圖產生用於一可變形卷積的一位移,根據第l層的初階校正特徵圖及當前影像幀於第l層的特徵 圖產生用於該可變形卷積的一遮罩,再根據該位移及該遮罩對上一影像幀於第l層的特徵圖進行該可變形卷積以產生第l層的進階校正特徵圖。前述利用可變形卷積技術來實現運作(c)可藉由以下公式(2)、公式(3)及公式(4)表示:
Figure 111117044-A0305-02-0012-5
Figure 111117044-A0305-02-0012-6
Figure 111117044-A0305-02-0012-8
上述公式(2)、公式(3)及公式(4)中,
Figure 111117044-A0305-02-0012-16
代表用於第l層可變形卷積的位移,
Figure 111117044-A0305-02-0012-17
代表第l層的光流圖,
Figure 111117044-A0305-02-0012-15
代表第l層的一卷積運算(即,一卷積層),
Figure 111117044-A0305-02-0012-10
代表當前影像幀在第l層的特徵圖,
Figure 111117044-A0305-02-0012-13
代表第l層的初階校正特徵圖,
Figure 111117044-A0305-02-0012-11
代表用於第l層可變形卷積的遮罩,
Figure 111117044-A0305-02-0012-14
代表第l層的一卷積運算(即,一卷積層),
Figure 111117044-A0305-02-0012-12
代表第l層的進階校正特徵圖,D代表可變形卷積運算,且
Figure 111117044-A0305-02-0012-18
代表上一影像幀在第l層的特徵圖。此外,符號⊕代表在影像頻道(channel)方面串接(concatenation),且σ代表sigmoid函數。
運作(d):處理器135根據當前影像幀於第l層的特徵圖及第l層的進階校正特徵圖產生當前影像幀於下一層(即,第l+1層)的一特徵圖。在一些實施方式中,處理器135係將當前影像幀於第l層的特徵圖及第l層的進階校正特徵圖聚合以產生一聚合特徵圖,再將該聚合特徵圖進行上取樣使其解析度與下一層所對應的解析度相同,藉此產生當前影像幀於下一層的特徵圖。該等實施方式產生當前影像幀於下一層的特徵圖的方式可藉由以下公式(5)表示:
Figure 111117044-A0305-02-0012-19
上述公式(5)中,
Figure 111117044-A0305-02-0013-20
代表當前影像幀於第l+1層的特徵圖,
Figure 111117044-A0305-02-0013-24
代表第l層的上取樣運算,
Figure 111117044-A0305-02-0013-21
代表第l層的聚合運算,
Figure 111117044-A0305-02-0013-23
代表第l層的進階校正特徵圖,
Figure 111117044-A0305-02-0013-22
代表當前影像幀在第l層的特徵圖,且符號⊕代表在影像頻道方面串接。
針對當前影像幀,處理器135在執行完第x 1層至第x 2層中各層的運作(a)、運作(b)、運作(c)及運作(d)後,所產生的第x 2+1層的特徵圖便為高解析度及高畫質的特徵圖。可攜式影片播放裝置13便可利用當前影像幀於第x 2+1層的特徵圖產生實際要呈現的播放影像幀。
處理器135可在執行該影像處理架構的第L層前的任一時刻,將當前影像幀進行上取樣以產生一放大影像幀,其中放大影像幀的解析度與第L層所對應的解析度相同。之後,處理器135執行該影像處理架構的第L層,即,根據當前影像幀於第x 2+1層的特徵圖及該放大影像幀產生一播放影像幀。由於處理器135利用高解析度及高畫質的第x 2+1層的特徵圖來改善低畫質的放大影像幀,因此所產生的播放影像幀為高解析度且具高畫質。可攜式影片播放裝置13的顯示裝置131便顯示經前述處理後所得到的高解析度且具高畫質的該播放影像幀,而非顯示低解析度的當前影像幀,亦非顯示低畫質的放大影像幀。
現針對前述的x 1x 2進一步說明。在不同實施方式中,可在符合x 1
Figure 111117044-A0305-02-0013-64
1,x 2
Figure 111117044-A0305-02-0013-65
L-1,且x 1
Figure 111117044-A0305-02-0013-66
x 2的前提下,視可攜式影片播放裝置13的硬體能力或/及使用者的偏好,設定x 1x 2的值。
在一些實施方式中,可攜式影片播放裝置13具有足夠的硬體能力,因而可設定x 1=1且x 2=L-1,以執行總共L-1層的特徵圖改善。在該等實施方式中,可攜式影片播放裝置13針對當前影像幀執行完第L-1層的運作(a)至運作(d)後,會產生當前影像幀在第L層的特徵圖。在該等實施方式中,可攜式影片 播放裝置13的處理器135係藉由將當前影像幀在第L層的特徵圖映射至該放大影像幀以產生該播放影像幀。舉例而言,處理器135可採用Kelvin C.K.Chan等人於西元2021年所發表的「BasicVSR++:Improving Video Super-Resolution with Enhanced Propagation and Alignment」中所述的技術,將當前影像幀在第L層的特徵圖映射至該放大影像幀以產生該播放影像幀。本發明所屬技術領域中具有通常知識者應知其他能將一特徵圖映射至一影像幀之技術,故不贅言。
第3圖描繪x 1=1且x 2=L-1的一具體範例(即,先執行總共L-1層的特徵圖改善,再執行第L層以產生播放影像幀)。在該具體範例中,影像幀I2為當前影像幀,而影像幀I1為上一影像幀。
在第一層中,處理器135執行一影像特徵擷取演算法O1以產生影像幀I2在第一層的特徵圖H21。此外,處理器135執行一光流演算法O2以產生影像幀I2與影像幀I1在第一層的光流圖F21(對應至上述運作(a))。處理器135執行運作O3以根據光流圖F21校正影像幀I1於第一層的特徵圖H11,並因而產生第一層的初階校正特徵圖M11(對應至上述運作(b))。處理器135執行運作O4以根據光流圖F21、初階校正特徵圖M11及特徵圖H21校正特徵圖H11,並因此產生第一層的進階校正特徵圖M21(對應至上述運作(c))。處理器135執行運作O5以根據特徵圖H21及進階校正特徵圖M21產生影像幀I2在第二層的特徵圖H22(對應至上述運作(d))。
在第二層中,處理器135針對第一層的光流圖F21進行上取樣O6以產生第二層的光流圖F22(對應至上述運作(a))。處理器135執行運作O3以根據光流圖F22校正影像幀I1於第二層的特徵圖H12,並因而產生第二層的初階校正特徵圖M12(對應至上述運作(b))。處理器135執行運作O4以根據光流圖F22、 初階校正特徵圖M12及特徵圖H22校正特徵圖H11,並因此產生第二層的進階校正特徵圖M22(對應至上述運作(c))。處理器135執行運作O5以根據特徵圖H22及進階校正特徵圖M22產生影像幀I2在第三層的特徵圖(對應至上述運作(d))。
處理器135會採取類似第二層的運作邏輯執行其他層的運作,直到第L-1層。在第L-1層中,處理器135針對其上一層的光流圖進行上取樣O6以產生第L-1層的光流圖F2(L-1)(對應至上述運作(a))。處理器135執行運作O3以根據光流圖F2(L-1)校正影像幀I1於第L-1層的特徵圖H1(L-1),並因而產生第L-1層的初階校正特徵圖M1(L-1)(對應至上述運作(b))。處理器135執行運作O4以根據光流圖F2(L-1)、初階校正特徵圖M1(L-1)及影像幀I2於第L-1層的特徵圖H2(L-1)校正特徵圖H1(L-1),並因此產生第L-1層的進階校正特徵圖M2(L-1)(對應至上述運作(c))。處理器135執行運作O5以根據特徵圖H2(L-1)及進階校正特徵圖M2(L-1)產生影像幀I2在第L層的特徵圖H2L(對應至上述運作(d))。
另外,處理器135將影像幀I2進行上取樣O7以產生放大影像幀E2。之後,在第L層中,處理器135執行運作O8以將特徵圖H2L映射至放大影像幀E2,並因此產生高解析度且高畫質的播放影像幀D2。
在一些實施方式中,可攜式影片播放裝置13的硬體能力較為有限,因而可設定x 1=1且x 2=x 1,以僅執行第一層的特徵圖改善。在該等實施方式中,可攜式影片播放裝置13針對當前影像幀執行完第一層的運作(a)至運作(d)後,係產生當前影像幀在第x 2+1層(即,第二層)的特徵圖。在該等實施方式中,可攜式影片播放裝置13的處理器135係將當前影像幀在第x 2+1層(即,第二層)的特徵圖進行上取樣,使其解析度與第L層的解析度相同,並以上取樣後的特徵 圖作為當前影像幀在第L層的特徵圖。可攜式影片播放裝置13的處理器135再藉由將當前影像幀在第L層的特徵圖映射至該放大影像幀以產生該播放影像幀。
請再參照第3圖。若可攜式影片播放裝置13改為僅執行該影像處理架構中的第一層(即,x 1=1且x 2=x 1)的特徵圖改善,則可攜式影片播放裝置13執行完第一層的運作(a)至運作(d)得到影像幀I2在第二層的特徵圖H22後,改為將特徵圖H22進行上取樣以產生第L層的特徵圖H2L,再藉由將特徵圖H2L映射至放大影像幀E2以產生播放影像幀D2。
在一些實施方式中,前述的x 1x 2可為其他數值,只要滿足x 1
Figure 111117044-A0305-02-0016-67
1,x 2
Figure 111117044-A0305-02-0016-68
L-1,且x 1
Figure 111117044-A0305-02-0016-69
x 2即可。需說明者,若x 1不是1,則處理器135需先產生當前影像幀在第一層的特徵圖以及第一層的光流圖,再將它們上取樣使其解析度與第x 1層的解析度相同,再進行第x 1層至第x 2層中各層的運作。此外,若x 2不是L-1,則處理器135在執行完第x 2層後,會將當前影像幀在第x 2+1層的特徵圖進行上取樣,使其解析度與第L層的解析度相同,並以上取樣後的特徵圖作為當前影像幀在第L層的特徵圖。可攜式影片播放裝置13的處理器135再藉由將當前影像幀在第L層的特徵圖映射至該放大影像幀以產生該播放影像幀。依據前述說明,本發明所屬技術領域中具有通常知識者應能理解當x 1x 2為其他數值時處理器135所執行的運作,故不贅言。
在一些實施方式中,為更精準地逐層改善當前影像幀的特徵圖,可攜式影片播放裝置13的處理器135在執行第x 1層至第x 2層的各層時,可利用上一影像幀第L層的特徵圖。具體而言,處理器135係藉由將上一影像幀於第L層的特徵圖進行至少一次下取樣以產生上一影像幀於第x 1層至第x 2層的各層的特徵圖(亦即,將上一影像幀於第L層的特徵圖下取樣至解析度與第x 1層至第x 2層的 各層的解析度相同)。需說明者,處理器135在處理上一影像幀的過程已逐層地提高上一影像幀的特徵圖的解析度及畫質,故上一影像幀於第L層的特徵圖已是高解析度且具高畫質。因此,在處理當前影像幀的過程,將上一影像幀於第L層的特徵圖下取樣,所得到的上一影像幀在第x 1層至第x 2層的特徵圖會具有較佳的畫質,故可更精準地逐層改善當前影像幀的特徵圖。
類似的,於該等實施方式中,可攜式影片播放裝置13在以L層的影像處理架構處理一當前影像幀的過程,會先依序執行該影像處理架構中的第x 1層至第x 2層的各層,再執行第L層,其中x 1
Figure 111117044-A0305-02-0017-70
1,x 2
Figure 111117044-A0305-02-0017-71
L-1,且x 1
Figure 111117044-A0305-02-0017-72
x 2。針對該影像處理架構中的第x 1層至第x 2層的各層,可攜式影片播放裝置13的處理器135會依序執行運作(a)、運作(b)、運作(c)及運作(d)。針對第x 1層至第x 2層的各層(以下以第l層表述)所執行的運作(a)、運作(b)、運作(c)及運作(d),以下將僅詳述其與前述實施方式不同處。
運作(a):處理器135產生當前影像幀及上一影像幀在第l層的一光流圖。
運作(b):處理器135將上一影像幀於第L層的特徵圖下取樣至解析度與第l層的解析度相同,並以下取樣後的特徵圖作為上一影像幀於第l層的特徵圖。處理器135再根據第l層的光流圖及上一影像幀於第l層的特徵圖,產生第l層的一初階校正特徵圖。運作(b)可理解為根據第l層的光流圖校正上一影像幀於第l層的特徵圖以產生第l層的一初階校正特徵圖。在一些實施方式中,處理器135可利用第l層的光流圖對上一影像幀於第l層的特徵圖進行影像扭曲運算,藉此產生第l層的初階校正特徵圖,其可藉由以下公式(6)表示:
Figure 111117044-A0305-02-0017-25
上述公式(6)中,
Figure 111117044-A0305-02-0018-31
代表第l層的初階校正特徵圖,W代表影像扭曲運算,
Figure 111117044-A0305-02-0018-33
代表下取樣至與第l層的解析度相同,
Figure 111117044-A0305-02-0018-32
代表上一影像幀於第L層的特徵圖,且
Figure 111117044-A0305-02-0018-35
代表第l層的光流圖。
運作(c):處理器135根據第l層的光流圖、第l層的初階校正特徵圖以及當前影像幀於第l層的一特徵圖,產生第l層的一進階校正特徵圖。具體而言,處理器135可根據第l層的光流圖、第l層的初階校正特徵圖以及當前影像幀於第l層的一特徵圖,校正與上一影像幀於第l層的特徵圖有關的圖,藉此產生第l層的一進階校正特徵圖。舉例而言,上述公式(6)中的
Figure 111117044-A0305-02-0018-29
代表上一影像幀於第l層的特徵圖,其經由公式(6)校正後所得的
Figure 111117044-A0305-02-0018-30
可為運作(c)校正的對象。在一些實施方式中,處理器135可利用一可變形卷積技術來實現運作(c),其可藉由以下公式(7)、公式(8)及公式(9)表示:
Figure 111117044-A0305-02-0018-26
Figure 111117044-A0305-02-0018-27
Figure 111117044-A0305-02-0018-28
上述公式(7)、公式(8)及公式(9)中,
Figure 111117044-A0305-02-0018-43
代表用於第l層可變形卷積的位移,
Figure 111117044-A0305-02-0018-36
代表第l層的光流圖,
Figure 111117044-A0305-02-0018-42
代表第l層的一卷積運算(即,一卷積層),
Figure 111117044-A0305-02-0018-37
代表當前影像幀在第l層的特徵圖,
Figure 111117044-A0305-02-0018-40
代表第l層的初階校正特徵圖,
Figure 111117044-A0305-02-0018-38
代表用於第l層可變形卷積的遮罩,
Figure 111117044-A0305-02-0018-41
代表第l層的另一卷積運算(即,另一捲積層),
Figure 111117044-A0305-02-0018-39
代表第l層的進階校正特徵圖,且D代表可變形卷積運算。此外,符號⊕代表在影像頻道方面串接,且σ代表sigmoid函數。
運作(d):處理器135根據當前影像幀於第l層的特徵圖及第l層的進階校正特徵圖產生當前影像幀於下一層(即,第l+1層)的一特徵圖。
類似的,可攜式影片播放裝置13針對當前影像幀依序執行該影像處理架構中的第x 1層至第x 2層的各層後,便可利用當前影像幀於第x 2+1層的特徵圖產生實際要呈現的播放影像幀,茲不贅言。
類似的,可視可攜式影片播放裝置13的硬體能力或/及使用者的偏好,設定x 1x 2的值,只要滿足x 1
Figure 111117044-A0305-02-0019-73
1,x 2
Figure 111117044-A0305-02-0019-74
L-1,且x 1
Figure 111117044-A0305-02-0019-75
x 2即可。
請參第4圖,其係描繪x 1=1且x 2=L-1的一具體範例(即,先執行總共L-1層的特徵圖改善,再執行第L層以產生播放影像幀)。第4圖的具體範例與第3圖的具體範例類似,但第4圖的具體範例在處理當前影像幀的過程係利用上一影像幀第L層的特徵圖產生上一影像幀第x 1層至第x 2層的各層的特徵圖。如第4圖所示,可攜式影片播放裝置13在處理時間點t2所對應的影像幀I2的過程,係將其在處理影像幀I1的過程所得到的第L層的特徵圖H1L進行下取樣O9以得到第一層至第L-1層的特徵圖H11、……、H1(L-1)。
由於可攜式影片播放裝置13在處理影像幀I1的過程已逐層地提高其特徵圖的解析度及畫質,故其於第L層的特徵圖H1L已是高解析度且具高畫質。因此,在可攜式影片播放裝置13處理影像幀I2的過程,將影像幀I1於第L層的特徵圖H1L下取樣所得到第一層至第L-1層的特徵圖H11、……、H1(L-1)具有較佳的畫質,故可更精準地改善影像幀I2在第一層至第L-1層的特徵圖H21、……、H2(L-1),因此最後所產生的播放影像幀D2會具有高解析度及更佳的畫質。
在一些實施方式中,為更精準地逐層改善當前影像幀的特徵圖,影片播放系統1採用注視點影片超解析度(Foveated Video Super-Resolution; FVSR)技術。影片播放系統1會基於至少一感興趣區域的座標資訊而逐層地改善當前影像幀的特徵圖的局部。
在一些實施方式中,影片播放系統1係預設一感興趣區域及其座標資訊,且主機11及可攜式影片播放裝置13皆知道該感興趣區域的座標資訊。
在一些實施方式中,影片播放系統1則是由可攜式影片播放裝置13動態地決定對應至各時間點的一感興趣區域的一座標資訊(例如:時間點t1、t2、t3、……、tz所分別對應的座標資訊P1、P2、P3、……、Pz),再將之傳送至主機11。在該等實施方式中,可攜式影片播放裝置13還包含一電性連接至處理器135的眼球追蹤裝置137。針對各個欲處理的時間點,眼球追蹤裝置137會追蹤使用者於顯示裝置131上的複數個注視焦點(未繪示),處理器135根據該等注視焦點決定顯示裝置131上的一感興趣區域(未繪示)的一座標資訊,收發介面133再傳送該座標資訊至主機11。
請參第5圖,其係描繪在該等實施方式中的主機11針對影片VS所進行的處理。比對第2圖與第5圖可知,在該等實施方式中,主機11還會根據至少一感興趣區域的一座標資訊,從原始影像幀R1、R2、R3、……、Rz個別地裁切出一感興趣影像幀C1、C2、C3、……、Cz。在一些實施方式中,主機11係將感興趣影像幀C1、C2、C3、……、Cz直接傳送至可攜式影片播放裝置13,而可攜式影片播放裝置13的收發介面133則因應地接收感興趣影像幀C1、C2、C3、……、Cz。在一些實施方式中,主機11則將感興趣影像幀C1、C2、C3、……、Cz編碼(例如:壓縮)為一影片串流S2(例如:利用H.264編碼技術將感興趣影像幀C1、C2、C3、……、Cz壓縮為H.264影片串流),再傳送影片串流S2至可攜式影片播放裝置13;對應地,可攜式影片播放裝置13的收發介面133接收影片串流S2,再 將影片串流S2解碼(例如:解壓縮)以得到感興趣影像幀C1、C2、C3、……、Cz(例如:利用H.264解碼技術將H.264影片串流將解壓縮為感興趣影像幀C1、C2、C3、……、Cz)。
類似的,於該等實施方式中,可攜式影片播放裝置13在以L層的影像處理架構處理一當前影像幀的過程,會先依序執行該影像處理架構中的第x 1層至第x 2層的各層,再執行第L層,其中x 1
Figure 111117044-A0305-02-0021-76
1,x 2
Figure 111117044-A0305-02-0021-77
L-1,且x 1
Figure 111117044-A0305-02-0021-78
x 2。針對該影像處理架構中的第x 1層至第x 2層的各層,可攜式影片播放裝置13的處理器135亦會依序執行運作(a)、運作(b)、運作(c)及運作(d)。但,針對第x 1層至第x 2層的各層,處理器135還會產生一感興趣特徵圖以用於運作(d),藉此進一步地強化特徵圖的局部。
具體而言,為處理當前影像幀,收發介面133自主機11接收對應至其時間點及對應至一感興趣區域的一第一感興趣影像幀(即,依據該感興趣區域,從當前影像幀所對應的原始影像幀所裁切出來的影像幀)。另外,處理器135根據該感興趣區域的一座標資訊及當前影像幀產生一第二感興趣影像幀。舉例而言,處理器135可根據該感興趣區域的該座標資訊而從當前影像幀裁切出一子影像幀,再將該子影像幀上取樣以產生該第二感興趣影像幀。需說明者,第L層的解析度相對於第一層的解析度的倍數,即為處理器135針對該子影像幀上取樣的倍數。接著,處理器135根據該第一感興趣影像幀及該第二感興趣影像幀產生第L層的一感興趣特徵圖。舉例而言,處理器135可將該第一感興趣影像幀及該第二感興趣影像幀疊加為一疊加影像幀,再對疊加影像幀進行特徵擷取以產生第L層的感興趣特徵圖。
接著,處理器135藉由將第L層的該感興趣特徵圖進行至少一次下取樣以產生第x 1層至第x 2層的各層的一感興趣特徵圖。以第l層表述,第l層的解析度相對於第L層的解析度的倍數,即為處理器135針對該感興趣特徵圖下取樣的倍數。針對第x 1層至第x 2層的各層,處理器135便可根據當前影像幀於該層的特徵圖、該層的該進階校正特徵圖及該層的該感興趣特徵圖產生當前影像幀於下一層的特徵圖。於該等實施方式中,產生當前影像幀於下一層的特徵圖的方式可藉由以下公式(10)表示:
Figure 111117044-A0305-02-0022-44
上述公式(10)中,
Figure 111117044-A0305-02-0022-49
代表當前影像幀於第l+1層的特徵圖,
Figure 111117044-A0305-02-0022-51
代表第l層的上取樣運算,
Figure 111117044-A0305-02-0022-48
代表第l層的一卷積運算,
Figure 111117044-A0305-02-0022-50
代表第l層的聚合運算,
Figure 111117044-A0305-02-0022-46
代表第l層的進階校正特徵圖,
Figure 111117044-A0305-02-0022-47
代表當前影像幀在第l層的特徵圖,且
Figure 111117044-A0305-02-0022-45
代表第l層的感興趣特徵圖。
請參第6A圖及第6B圖所示的一具體範例。在該具體範例中,x 1=1且x 2=L-1(即,先執行總共L-1層的特徵圖改善,再執行第L層以產生播放影像幀),影像幀I2為當前影像幀,影像幀I1為上一影像幀。
如第6A圖所示,處理器135根據時間點t2所對應的感興趣區域的座標資訊P2,對影像幀I2進行裁切O10以產生一子影像幀V1,再針對子影像幀V1進行上取樣O11以產生感興趣影像幀V2。接著,處理器135根據感興趣影像幀V2及從主機11所接收到的感興趣影像幀C2產生第L層的一感興趣特徵圖H2FL。舉例而言,處理器135可將感興趣影像幀V2及感興趣影像幀C2進行疊加O12以產生一疊加影像幀V3,再對疊加影像幀V3進行特徵擷取O13以產生第L層的感興趣特 徵圖H2FL。接著,處理器135藉由將第L層的感興趣特徵圖H2FL進行至少一次下取樣O14以產生第一層至第L-1層的感興趣特徵圖H2F1、H2F2、……、H2F(L-1)。
請參第6B圖,處理器135在針對第l層執行運作(d)時,係根據當前影像幀於第l層的特徵圖、第l層的進階校正特徵圖及第l層的感興趣特徵圖產生當前影像幀於第l+1層的特徵圖。以第一層為例,運作(d)係根據特徵圖H21、進階校正特徵圖M21及感興趣特徵圖H2F1產生影像幀I2於第二層的特徵圖H22。第二層至第L-1層的運作雷同,茲不贅言。藉由在運作(d)中納入感興趣特徵圖,可攜式影片播放裝置13便能進一步地逐層地改善當前影像幀的特徵圖的局部。因此,最後所產生的播放影像幀D2中的感興趣區域會具有更佳的畫質。
第7圖描繪在本發明的一些實施方式中的影片增強方法的主要流程圖。該影片增強方法適用於一電子裝置,例如:前述實施方式中的可攜式影片播放裝置13。該影片增強方法至少包含步驟S701至步驟S717。
於步驟S701,由該電子裝置接收對應至一第一時間點的一第一影像幀及對應至一第二時間點的一第二影像幀,其中該第二時間點晚於該第一時間點。該第二影像幀為當前所要強化解析度及畫質的影像幀。
該影片增強方法執行具有L層的一影像處理架構,其中L為大於1的正整數,且不同層對應至不同影像解析度。針對該等層中的第x 1層至第x 2層的各層依序執行以下步驟S703、步驟S705、步驟S707及步驟S709,其中x 1
Figure 111117044-A0305-02-0023-79
1,x 2
Figure 111117044-A0305-02-0023-80
L-1,且x 1
Figure 111117044-A0305-02-0023-81
x 2
於步驟S703,由該電子裝置產生該第一影像幀及該第二影像幀在該層的一光流圖。於步驟S705,由該電子裝置根據該層的該光流圖及該第一影像幀於該層的一第一特徵圖,產生該層的一初階校正特徵圖。
於步驟S707,由該電子裝置根據該層的該光流圖、該初階校正特徵圖及該第二影像幀於該層的一第二特徵圖,產生該層的一進階校正特徵圖。在一些實施方式中,步驟S707可包含一步驟以根據該初階校正特徵圖、該層的該光流圖及該層的該第二特徵圖產生用於一可變形卷積的一位移,另一步驟以根據該初階校正特徵圖及該層的該第二特徵圖產生用於該可變形卷積的一遮罩,以及另一步驟以根據該位移及該遮罩對該層的該第一特徵圖及該層的該初階校正特徵圖其中之一進行該可變形卷積以產生該層的該進階校正特徵圖。
於步驟S709,由該電子裝置根據該層的該第二特徵圖及該層的該進階校正特徵圖產生下一層的一第二特徵圖。在一些實施方式中,步驟S709包含一步驟以將該層的該第二特徵圖及該層的該進階校正特徵圖聚合以產生一聚合特徵圖,以及另一步驟以將該聚合特徵圖進行上取樣以產生下一層的該第二特徵圖。
之後,執行步驟S711,由該電子裝置判斷是否尚需執行其他層以強化第二影像幀所對應的特徵圖(即,判斷是否已執行到第x 2層)。若尚需執行其他層(即,尚未執行到第x 2層),則該電子裝置再次執行步驟S703、步驟S705、步驟S707及步驟S709以處理下一層。若不需執行其他層(即,已執行到第x 2層),則該電子裝置執行步驟S713。
於步驟S713,由該電子裝置將該第二影像幀進行上取樣以產生一放大影像幀。之後,於步驟S715,由該電子裝置執行該等層中的第L層,根據第x 2+1層的該第二特徵圖及該放大影像幀產生一播放影像幀。需說明者,依據本發明,步驟S713的執行順序只要早於步驟S715即可。之後,於步驟S717,由該電子裝置使一顯示裝置顯示該播放影像幀。
在一些實施方式中,該電子裝置具有足夠的硬體能力,因而可設定x 1=1且x 2=L-1,以執行總共L-1層的特徵圖改善。於該等實施方式中,步驟S715係藉由將該第L層的該第二特徵圖映射至該放大影像幀以產生該播放影像幀。
在一些實施方式中,該電子裝置的硬體能力較為有限,因而可設定x 1=1且x 2=x 1,以僅執行第一層的特徵圖改善。於該等實施方式中,步驟S715係包含一步驟以將第x 2+1層的該第二特徵圖進行上取樣以產生一第L層的一第二特徵圖,以及另一步驟以藉由將該第L層的該第二特徵圖映射至該放大影像幀以產生該播放影像幀。
在一些實施方式中,為更精準地逐層改善當前影像幀的特徵圖,該影片增強方法還可執行一步驟,由該電子裝置藉由將該第一影像幀於該第L層的一第一特徵圖進行至少一次下取樣以產生第x 1層至第x 2層的各層的該第一特徵圖,其係用於步驟S705及步驟S707。
在一些實施方式中,為更精準地逐層改善當前影像幀的特徵圖,該影片增強方法可採用注視點影片超解析度技術。該影片增強方法會基於至少一感興趣區域的座標資訊而逐層地改善當前影像幀的特徵圖的局部,其主要流程圖如第8圖所示。
於步驟S801,由該電子裝置自一主機接收對應至該第二時間點及一感興趣區域的一第一感興趣影像幀。在一些實施方式中,該感興趣區域及其座標資訊為預設,且該主機該電子裝置皆知道該感興趣區域的座標資訊。在另一些實施方式中,該影片增強方法則是先執行一步驟以利用一眼球追蹤裝置追蹤一使用者於該顯示裝置上的複數個注視焦點,另一步驟以根據該等注視焦點決定 一顯示裝置上的該感興趣區域的該座標資訊,以及另一步驟以傳送該座標資訊至該主機,之後才執行步驟S801。
於步驟S803,由該電子裝置根據該感興趣區域的該座標資訊及該第二影像幀產生一第二感興趣影像幀。在一些實施方式中,步驟S803包含一步驟以根據該感興趣區域的該座標資訊自該第二影像幀裁切出一子影像幀,以及另一步驟以將該子影像幀進行上取樣以產生該第二感興趣影像幀。
於步驟S805,由該電子裝置根據該第一感興趣影像幀及該第二感興趣影像幀產生該第L層的一感興趣特徵圖。於步驟S807,由該電子裝置藉由將該第L層的該感興趣特徵圖進行至少一次下取樣以產生第x 1層至第x 2層的各層的一感興趣特徵圖。
採用注視點影片超解析度技術的該影片增強方法在執行步驟S709時,則還會根據步驟S807所產生的感興趣特徵圖以對第二影像幀於各層的特徵圖局部地改善。具體而言,於該等實施方式中,步驟S709係根據該層的該第二特徵圖、該層的該進階校正特徵圖及該層的該感興趣特徵圖產生下一層的該第二特徵圖。
除了上述步驟,本發明所提供的影片增強方法還能執行可攜式影片播放裝置13所能執行的所有運作及步驟,具有同樣的功能,且達到同樣的技術效果。本發明所屬技術領域中具有通常知識者可直接瞭解本發明所提供的影片增強方法如何基於上述的可攜式影片播放裝置13以執行此等運作及步驟,具有同樣的功能,並達到同樣的技術效果,故不贅述。
需說明者,本發明專利說明書及申請專利範圍中的某些用語(例如:特徵圖)前被冠以「第一」或「第二」係用以區隔該等用語。若未特別說明 該等用語之間具有順序,或前後文無法看出該等用語之間具有順序,則該等用語間的順序不受所冠以的「第一」或「第二」所限制。
綜上所述,本發明所提供的影片播放技術(至少包含可攜式影片播放裝置、影片播放系統及影片增強方法)採用具有L層的影像處理架構,由第x 1層至第x 2層逐層地利用上一影像幀(即,上一時間點所對應的影像幀,例如:前述的第一影像幀)於該層的特徵圖來改善當前影像幀(即,目前時間點所對應的影像幀,例如:前述第二影像幀)於該層的特徵圖。在不同實施態樣中,本發明所提供的影片播放技術在第x 1層至第x 2層的各層所利用的上一影像幀的特徵圖的產生方式不同。此外,在一些實施態樣中,針對第x 1層至第x 2層的各層,本發明所提供的影片播放技術可根據一感興趣區域的一座標資訊產生一較為清晰的感興趣特徵圖,並以此感興趣特徵圖局部地改善當前影像幀於該層的特徵圖。本發明所提供的影片播放技術將當前影像幀上取樣為放大影像幀,再將最後一層(即,第L層)經改善的特徵圖映射至放大影像幀作為播放影像幀,並予以播放。由於當前影像幀在最後一層的特徵圖係經過逐層的改善,因此將其映射至放大影像幀可獲得具高解析度及高畫質的播放影像幀。
上述各實施方式係用以例示性地說明本發明的部分實施態樣,以及闡釋本發明的技術特徵,而非用來限制本發明的保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成的改變或均等性的安排均屬於本發明所主張的範圍,本發明的權利保護範圍以申請專利範圍為準。
D2:播放影像幀
E2:放大影像幀
F21、F22、F2(L-1):光流圖
H11、H12、H1(L-1)、H1L、H21、H22、H2(L-1)、H2L:特徵圖
H2F1、H2F2、......、H2F(L-1):感興趣特徵圖
I1、I2:影像幀
M11、M12、M1(L-1):初階校正特徵圖
M21、M22、M2(L-1):進階校正特徵圖
O1:影像特徵擷取演算法
O2:光流演算法
O3、O4、O5、O8:運作
O6、O7:上取樣
O9:下取樣
t1、t2:時間點

Claims (20)

  1. 一種可攜式影片播放裝置,包含:一顯示裝置;一收發介面,接收對應至一第一時間點的一第一影像幀及對應至一第二時間點的一第二影像幀,其中該第二時間點晚於該第一時間點;以及一處理器,電性連接至該顯示裝置及該收發介面,且採用具有L層的一影像處理架構,其中L為大於1的正整數,且不同層對應至不同影像解析度,其中,該處理器針對該等層中的第x 1層至第x 2層的各層依序執行以下運作,其中x 1
    Figure 111117044-A0305-02-0030-82
    1,x 2
    Figure 111117044-A0305-02-0030-83
    L-1,且x 1
    Figure 111117044-A0305-02-0030-84
    x 2:產生該第一影像幀及該第二影像幀在該層的一光流圖,根據該層的該光流圖及該第一影像幀於該層的一第一特徵圖,產生該層的一初階校正特徵圖,根據該層的該光流圖、該初階校正特徵圖及該第二影像幀於該層的一第二特徵圖,產生該層的一進階校正特徵圖,以及根據該層的該第二特徵圖及該層的該進階校正特徵圖產生下一層的一第二特徵圖,其中,該處理器還將該第二影像幀進行上取樣以產生一放大影像幀,該處理器還根據第x 2+1層的該第二特徵圖及該放大影像幀產生一播放影像幀,且該顯示裝置顯示該播放影像幀。
  2. 如請求項1所述的可攜式影片播放裝置,其中x 1=1且x 2=x 1,該處理器還將第x 2+1層的該第二特徵圖進行上取樣以產生一第L層的一第二特 徵圖,且藉由將該第L層的該第二特徵圖映射至該放大影像幀以產生該播放影像幀。
  3. 如請求項1所述的可攜式影片播放裝置,其中x 1=1且x 2=L-1,且該處理器係藉由將該第L層的該第二特徵圖映射至該放大影像幀以產生該播放影像幀。
  4. 如請求項1所述的可攜式影片播放裝置,其中針對第x 1層至第x 2層的各層,該處理器係藉由以下運作產生該層的該進階校正特徵圖:根據該層的該初階校正特徵圖、該層的該光流圖及該層的該第二特徵圖產生用於一可變形卷積的一位移,根據該層的該初階校正特徵圖及該層的該第二特徵圖產生用於該可變形卷積的一遮罩,以及根據該位移及該遮罩對該層的該第一特徵圖及該層的該初階校正特徵圖其中之一進行該可變形卷積以產生該層的該進階校正特徵圖。
  5. 如請求項1所述的可攜式影片播放裝置,其中針對第x 1層至第x 2層的各層,該處理器係藉由以下運作產生下一層的該第二特徵圖:將該層的該第二特徵圖及該層的該進階校正特徵圖聚合以產生一聚合特徵圖,以及將該聚合特徵圖進行上取樣以產生下一層的該第二特徵圖。
  6. 如請求項1所述的可攜式影片播放裝置,其中該處理器還藉由將該第一影像幀於該第L層的一第一特徵圖進行至少一次下取樣以產生第x 1層至第x 2層的各層的該第一特徵圖。
  7. 如請求項6所述的可攜式影片播放裝置,其中該收發介面還自一主機接收對應至該第二時間點及一感興趣區域的一第一感興趣影像幀,該處理器還根據該感興趣區域的一座標資訊及該第二影像幀產生一第二感興趣影像幀,該處理器還根據該第一感興趣影像幀及該第二感興趣影像幀產生該第L層的一感興趣特徵圖,其中,該處理器還藉由將該第L層的該感興趣特徵圖進行至少一次下取樣以產生第x 1層至第x 2層的各層的一感興趣特徵圖,其中,針對第x 1層至第x 2層的各層,該處理器係根據該層的該第二特徵圖、該層的該進階校正特徵圖及該層的該感興趣特徵圖產生下一層的該第二特徵圖。
  8. 如請求項7所述的可攜式影片播放裝置,其中該處理器係根據該感興趣區域的該座標資訊自該第二影像幀裁切出一子影像幀,再將該子影像幀進行上取樣以產生該第二感興趣影像幀。
  9. 如請求項7所述的可攜式影片播放裝置,還包含:一眼球追蹤裝置,追蹤一使用者於該顯示裝置上的複數個注視焦點;其中,該處理器還根據該等注視焦點決定該顯示裝置上的該感興趣區域的該座標資訊,且該收發介面還傳送該座標資訊至該主機。
  10. 如請求項1所述的可攜式影片播放裝置,其中該收發介面自一主機接收一影片串流,且該處理器係將該影片串流解壓縮以得到該第一影像幀及該第二影像幀。
  11. 一種影片播放系統,包含:一主機,將一第一時間點的一第一原始影像幀進行下取樣以產生一第一影 像幀,將一第二時間點的一第二原始影像幀進行下取樣以產生一第二影像幀,傳送該第一影像幀及該第二影像幀;以及如請求項1至10中任一項所述的一可攜式影片播放裝置。
  12. 一種影片增強方法,適用於一電子裝置,該影片增強方法包含下列步驟:接收對應至一第一時間點的一第一影像幀及對應至一第二時間點的一第二影像幀,其中該第二時間點晚於該第一時間點;將該第二影像幀進行上取樣以產生一放大影像幀;執行具有L層的一影像處理架構,其中L為大於1的正整數,不同層對應至不同影像解析度,其中:針對該等層中的第x 1層至第x 2層的各層依序執行以下步驟,其中x 1
    Figure 111117044-A0305-02-0033-85
    1,x 2
    Figure 111117044-A0305-02-0033-86
    L-1,且x 1
    Figure 111117044-A0305-02-0033-87
    x 2:產生該第一影像幀及該第二影像幀在該層的一光流圖;根據該層的該光流圖及該第一影像幀於該層的一第一特徵圖,產生該層的一初階校正特徵圖;根據該層的該光流圖、該初階校正特徵圖及該第二影像幀於該層的一第二特徵圖,產生該層的一進階校正特徵圖;以及根據該層的該第二特徵圖及該層的該進階校正特徵圖產生下一層的一第二特徵圖;以及針對該等層中的第L層,根據第x 2+1層的該第二特徵圖及該放大影像幀產生一播放影像幀;以及使一顯示裝置顯示該播放影像幀。
  13. 如請求項12所述的影片增強方法,其中x 1=1且x 2=x 1,且產生該播放影像幀之該步驟包含下列步驟:將第x 2+1層的該第二特徵圖進行上取樣以產生一第L層的一第二特徵圖;以及藉由將該第L層的該第二特徵圖映射至該放大影像幀以產生該播放影像幀。
  14. 如請求項12所述的影片增強方法,其中x 1=1且x 2=L-1,且產生該播放影像幀之該步驟係藉由將該第L層的該第二特徵圖映射至該放大影像幀以產生該播放影像幀。
  15. 如請求項12所述的影片增強方法,其中針對第x 1層至第x 2層的各層,產生該層的該進階校正特徵圖之該步驟包含下列步驟:根據該層的該初階校正特徵圖、該層的該光流圖及該層的該第二特徵圖產生用於一可變形卷積的一位移;根據該層的該初階校正特徵圖及該層的該第二特徵圖產生用於該可變形卷積的一遮罩;以及根據該位移及該遮罩對該層的該第一特徵圖及該層的該初階校正特徵圖其中之一進行該可變形卷積以產生該層的該進階校正特徵圖。
  16. 如請求項12所述的影片增強方法,其中針對第x 1層至第x 2層的各層,產生下一層的該第二特徵圖之該步驟包含下列步驟:將該層的該第二特徵圖及該層的該進階校正特徵圖聚合以產生一聚合特徵圖;以及將該聚合特徵圖進行上取樣以產生下一層的該第二特徵圖。
  17. 如請求項12所述的影片增強方法,還包含下列步驟: 藉由將該第一影像幀於該第L層的一第一特徵圖進行至少一次下取樣以產生第x 1層至第x 2層的各層的該第一特徵圖。
  18. 如請求項17所述的影片增強方法,還包含下列步驟:自一主機接收對應至該第二時間點及一感興趣區域的一第一感興趣影像幀;根據該感興趣區域的一座標資訊及該第二影像幀產生一第二感興趣影像幀;根據該第一感興趣影像幀及該第二感興趣影像幀產生該第L層的一感興趣特徵圖;以及藉由將該第L層的該感興趣特徵圖進行至少一次下取樣以產生第x 1層至第x 2層的各層的一感興趣特徵圖;其中,針對第x 1層至第x 2層的各層,產生下一層的該第二特徵圖之該步驟係根據該層的該第二特徵圖、該層的該進階校正特徵圖及該層的該感興趣特徵圖產生下一層的該第二特徵圖。
  19. 如請求項18所述的影片增強方法,其中產生該第二感興趣影像幀之該步驟包含下列步驟:根據該感興趣區域的該座標資訊自該第二影像幀裁切出一子影像幀;以及將該子影像幀進行上取樣以產生該第二感興趣影像幀。
  20. 如請求項18所述的影片增強方法,還包含:利用一眼球追蹤裝置追蹤一使用者於該顯示裝置上的複數個注視焦點;根據該等注視焦點決定一顯示裝置上的該感興趣區域的該座標資訊;以及傳送該座標資訊至該主機。
TW111117044A 2022-05-05 2022-05-05 影片播放系統、可攜式影片播放裝置及影片增強方法 TWI822032B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW111117044A TWI822032B (zh) 2022-05-05 2022-05-05 影片播放系統、可攜式影片播放裝置及影片增強方法
US17/820,118 US20230360175A1 (en) 2022-05-05 2022-08-16 Video display systems, portable video display apparatuses and video enhancement methods

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111117044A TWI822032B (zh) 2022-05-05 2022-05-05 影片播放系統、可攜式影片播放裝置及影片增強方法

Publications (2)

Publication Number Publication Date
TWI822032B true TWI822032B (zh) 2023-11-11
TW202345608A TW202345608A (zh) 2023-11-16

Family

ID=88648918

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111117044A TWI822032B (zh) 2022-05-05 2022-05-05 影片播放系統、可攜式影片播放裝置及影片增強方法

Country Status (2)

Country Link
US (1) US20230360175A1 (zh)
TW (1) TWI822032B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190138889A1 (en) * 2017-11-06 2019-05-09 Nvidia Corporation Multi-frame video interpolation using optical flow
CN110942441A (zh) * 2018-09-25 2020-03-31 英特尔公司 具有流估计和图像超分辨率的多相机阵列图像的视图插补
CN112219223A (zh) * 2018-05-30 2021-01-12 智动科技有限公司 生成图像或音频数据的输入数据集对的位移图

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8307273B2 (en) * 2002-12-30 2012-11-06 The Board Of Trustees Of The Leland Stanford Junior University Methods and apparatus for interactive network sharing of digital video content
GB201603144D0 (en) * 2016-02-23 2016-04-06 Magic Pony Technology Ltd Training end-to-end video processes
CN115393536A (zh) * 2018-04-18 2022-11-25 移动眼视力科技有限公司 利用相机进行车辆环境建模
US11756291B2 (en) * 2018-12-18 2023-09-12 Slyce Acquisition Inc. Scene and user-input context aided visual search
US20220222776A1 (en) * 2019-05-03 2022-07-14 Huawei Technologies Co., Ltd. Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190138889A1 (en) * 2017-11-06 2019-05-09 Nvidia Corporation Multi-frame video interpolation using optical flow
CN112219223A (zh) * 2018-05-30 2021-01-12 智动科技有限公司 生成图像或音频数据的输入数据集对的位移图
CN110942441A (zh) * 2018-09-25 2020-03-31 英特尔公司 具有流估计和图像超分辨率的多相机阵列图像的视图插补

Also Published As

Publication number Publication date
TW202345608A (zh) 2023-11-16
US20230360175A1 (en) 2023-11-09

Similar Documents

Publication Publication Date Title
US10681342B2 (en) Behavioral directional encoding of three-dimensional video
TWI826321B (zh) 提高影像品質的方法
US20200092532A1 (en) Systems and method for virtual reality video conversion and streaming
TWI528787B (zh) 用於管理視訊串流之技術
US20190066735A1 (en) Embedding Thumbnail Information Into Video Streams
US11949848B2 (en) Techniques to capture and edit dynamic depth images
US10572764B1 (en) Adaptive stereo rendering to reduce motion sickness
US10791373B2 (en) Generating 2D video from 360 video
WO2023103897A1 (zh) 图像处理方法、装置、设备及存储介质
EP4120181A2 (en) Method and apparatus of fusing image, and method of training image fusion model
WO2023005699A1 (zh) 视频增强网络训练方法、视频增强方法及装置
TWI772102B (zh) 用於傳輸縮減的深度資訊的方法和電子系統
WO2022174517A1 (zh) 一种人群计数方法、装置、计算机设备及存储介质
WO2024032331A9 (zh) 图像处理方法及装置、电子设备、存储介质
TWI822032B (zh) 影片播放系統、可攜式影片播放裝置及影片增強方法
WO2023098649A1 (zh) 视频生成方法、装置、设备及存储介质
US20240144429A1 (en) Image processing method, apparatus and system, and storage medium
JP6395971B1 (ja) グラフィカルコマンドトークンの修正
WO2022108652A1 (en) Eye tracking based video transmission and compression
Alriksson et al. Future network requirements for extended reality applications: Many Experts Believe that New and Emerging Extended Reality Technologies will Lead to the Next Major Paradigm Shift in Telecommunications, with Lightweight XR Glasses Ultimately Overtaking Smartphones as the Dominant Device Type in Mobile Networks. This Evolution has Major Implications on the Requirements for Future Networks
CN114422718B (zh) 一种视频转换方法、装置、电子设备及存储介质
JP7339435B2 (ja) パーソナルデバイスによって支援されるtvストリーミング及びレンダリングコンテンツの中心窩最適化
US20240144596A1 (en) Systems and methods for mesh geometry prediction for high efficiency mesh coding
WO2023093683A1 (zh) 图像剪裁方法、模型训练方法、装置、电子设备及介质
WO2023035973A1 (zh) 视频处理方法、装置、设备及介质