TW201710998A - 用於判定影像之深度圖之方法與裝置 - Google Patents

用於判定影像之深度圖之方法與裝置 Download PDF

Info

Publication number
TW201710998A
TW201710998A TW105115831A TW105115831A TW201710998A TW 201710998 A TW201710998 A TW 201710998A TW 105115831 A TW105115831 A TW 105115831A TW 105115831 A TW105115831 A TW 105115831A TW 201710998 A TW201710998 A TW 201710998A
Authority
TW
Taiwan
Prior art keywords
depth
image
probability
value
pixel
Prior art date
Application number
TW105115831A
Other languages
English (en)
Other versions
TWI712990B (zh
Inventor
克莉斯汀 維爾甘
Original Assignee
皇家飛利浦有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 皇家飛利浦有限公司 filed Critical 皇家飛利浦有限公司
Publication of TW201710998A publication Critical patent/TW201710998A/zh
Application granted granted Critical
Publication of TWI712990B publication Critical patent/TWI712990B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/183On-screen display [OSD] information, e.g. subtitles or menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20182Noise reduction or smoothing in the temporal domain; Spatio-temporal filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Abstract

一種用於判定一影像之一深度圖之裝置包括一影像單元(105),該影像單元(105)提供具有一相關聯深度圖之一影像,該相關聯深度圖包括該影像之至少某些像素之深度值。一機率單元(107)判定該影像之一機率圖,該機率圖包括指示像素屬於一文字影像物件之一機率之機率值。一深度單元(109)產生一經修改深度圖,其中經修改深度值係作為輸入值與對應於文字之一較佳深度之一文字影像物件深度值之經加權組合而判定。該加權取決於該等像素之機率值。該方法提供文字物件之一較軟深度修改,從而(例如)在使用深度圖來執行視圖移位時產生減少之假影及降級。

Description

用於判定影像之深度圖之方法與裝置
本發明係關於一種用於判定一影像之一深度圖之方法與裝置,且特定而言係關於一種用於基於所估計視差值而判定一深度圖之方法與裝置。
三維(3D)顯示器藉由向一觀看者之雙眼提供正觀察之場景之不同視圖而將一第三維度添加至觀看體驗。此可藉由使使用者戴上眼鏡以分離顯示之兩個視圖而達成。然而,由於此對於使用者可被視為不方便的,因此在諸多情景中較佳使用裸眼式立體顯示器,裸眼式立體顯示器在顯示器處使用構件(諸如雙凸透鏡或障壁)來分離視圖且沿不同方向發送視圖,在此情況下,視圖可個別地到達使用者之眼睛。對於立體顯示器,需要兩個視圖,而裸眼式立體顯示器通常需要更多視圖(例如,九個視圖)。
然而,實際之顯示器往往不具有理想效能且通常無法呈現完美三維影像。
舉例而言,基於雙凸透鏡之裸眼式立體3D顯示器往往具有螢幕外模糊。此效應類似於攝影機系統中已知之景深模糊。
此外,所呈現三維影像之品質取決於所接收影像資料之品質,且特定而言,三維感知取決於所接收深度資訊之品質。
三維影像資訊通常藉由對應於場景之不同檢視方向之複數個影像而提供。特定而言,諸如電影或電視節目等視訊內容日益經產生以包含某些3D資訊。此等資訊可使用自稍微偏移之攝影機位置擷取兩個同時影像之專用3D攝影機來擷取。
然而,在諸多應用中,所提供影像可不直接對應於所要方向,或可需要較多影像。舉例而言,對於裸眼式立體顯示器,需要兩個以上影像,且實際上,通常使用9至26個視圖影像。
為產生對應於不同檢視方向之影像,可採用視點移位處理。此通常藉由使用一單個檢視方向之一影像連同相關聯深度資訊之一視圖移位演算法而執行。然而,為產生不具有顯著假影之新視圖影像,所提供深度資訊必須係充分準確的。
遺憾地,在諸多應用及使用情景中,深度資訊可不如所期望一樣準確。實際上,在諸多情景中,深度資訊係藉由比較不同檢視方向之視圖影像來估計並提取深度值而產生。
在諸多應用中,三維場景係藉由在稍微不同位置處使用兩個攝影機而擷取為立體影像。然後可藉由估計兩個影像中之對應影像物件之間的視差而產生特定深度值。然而,此深度提取及估計係有問題的且往往產生非理想深度值。此又可產生假影及一經降級三維影像品質。
三維影像降級及假影對於文字影像物件(例如,字幕區塊)往往係特別顯著的。文字影像物件在被整合於或嵌入場景中時往往係不被感知之經隔離物件而非成為場景之部分。此外,文字影像物件之深度變化對於觀看者往往更易感知。此外,在一典型應用中,文字(尤其,諸如字幕)預期為清晰的且清楚地具有明確定義之邊緣。因此,特定而言,以一高影像品質來呈現文字影像物件(諸如字幕區塊)係極具重要性的。
因此,一種用於判定文字影像物件之適合深度資訊之經改良方法將係有利的,且特定而言,一種允許增大之靈活性、簡化之實施方案、減小之複雜性、一經改良3D體驗及/或經改良之所感知影像品質之方法將係有利的。
因此,本發明尋求單個地或以任何組合來較佳地減輕、緩和或消除上文所提及之缺點中之一或多者。
根據本發明之一態樣,提供一種用於判定一影像之一深度圖之裝置,該裝置包括:一影像單元,其用於提供具有一相關聯深度圖之一第一影像,該相關聯深度圖包括該第一影像之至少某些像素之第一深度值;一機率單元,其用於判定該第一影像之一機率圖,該機率圖包括該影像之至少某些像素之機率值,一像素之機率值指示該像素屬於一文字影像物件之一機率;一深度單元,其用於產生該第一影像之一經修改深度圖,該深度單元經配置以將至少一第一像素之一經修改深度值作為該第一像素之相關聯深度圖之一第一深度值與一文字影像物件深度值之一經加權組合來判定,該加權取決於該第一像素之機率值。
在諸多實施例中,該方法可允許產生在用於影像處理時可提供經改良品質之一經改良深度圖。舉例而言,在諸多實施例及情景中,可使用經修改深度圖來達成文字影像物件(諸如字幕)之一經改良呈現。特定而言,當使用經修改深度圖用於影像視圖移位時及/或當在一裸眼式立體顯示器上呈現三維影像時,該改良可係顯著的。該方法可進一步允許文字影像物件之呈現深度之一移位同時減輕或減小降級、不一致性及/或假影。
該等圖可係全部或部分圖。舉例而言,機率圖可包括僅一像素/像素群組子組之機率值。一給定像素之機率值可表示對該像素屬於一 文字影像物件(為一文字影像物件之部分)之機率或可能性之一估計。舉例而言,機率值可為一屬性之一所判定值匹配針對一文字影像物件所預期之一值之緊密程度之一指示。舉例而言,可對第一影像施加處理以產生一值(或一組值)。像素屬於一文字影像物件之機率可藉由該值匹配一預期值之緊密程度而表示。舉例而言,可對第一影像施加處理,此產生在一區間[a;b]中之一數值,其中(例如)a=0且b=1。針對一像素屬於一文字影像物件,所判定屬性可預期為b,而針對一像素不屬於一文字影像物件,該值可預期為a。因此,所判定值可直接為指示對應像素是否屬於一文字影像物件之一機率之一屬性值。舉例而言,針對a=0且b=1,值愈高,對應像素屬於文字影像物件之可能性愈大。取決於個別實施例之偏好及要求,值之確切處理及判定在不同實施例中可不同。
一文字影像物件可為包括文字的影像之一區域/區/子組或片段。特定而言,一文字影像物件可係一字幕影像物件。一文字影像物件可對應於一或多個字元或可(例如)包含文字之限界區域。
特定而言,經加權組合可為第一深度值與文字影像物件深度值之一經加權總和,其中權數為機率值之一函數。在某些實施例中,特定而言,經加權組合可為第一深度值與文字影像物件深度值之一單調函數之一經加權總和,其中權數為機率值之一函數。
文字影像物件深度值可為一預定值。特定而言,文字影像物件深度值可為時域及/或空間域中之一固定及/或恆定值。文字影像物件深度值可為文字影像物件之一所要深度。文字影像物件深度值可指示文字影像物件之一較佳深度,且可為一固定及/或預定值。特定而言,文字影像物件深度值可指示文字影像物件之一較佳深度且可獨立於由第一影像表示之一場景之深度屬性。實際上,文字影像物件通常可為疊加圖形,該等疊加圖形並非由第一影像表示之場景之部分,且 文字影像物件深度值可表示並非場景之部分之疊加圖形/文字影像物件之一較佳深度。文字影像物件深度值與文字影像物件相關聯且針對複數個像素或像素群組可係相同的。在諸多實施例中,文字影像物件深度值獨立於第一影像及/或相關聯深度圖之屬性。
第一影像可係為對應於不同視角之複數個影像之部分之一影像或可(例如)係一單個經隔離且獨立之影像(具有一相關聯深度圖)。在某些實施例中,第一影像可係影像之一時間序列中之一影像,例如,來自一視訊序列之一圖框。
根據本發明之一選用特徵,機率單元經配置以判定第一影像之像素群組,每一像素群組包括複數個像素;且其中該機率單元經配置以判定像素群組之機率值。
此可提供經改良效能及/或簡化之操作及/或減小之複雜性及/或資源需求。可將一像素群組之所判定機率值指派給屬於該像素群組之所有像素。
根據本發明之一選用特徵,深度單元經配置以回應於第一像素所屬之一像素群組之一第一機率值及一鄰近像素群組之一第二機率值而判定經加權組合之權數;該第一機率值及該第二機率值之一加權取決於該第一像素所屬之該像素群組中的該第一像素之一位置。
在諸多情景中,此可允許經改良效能。特定而言,該方法可允許以低於影像像素解析度之一解析度來判定機率值,同時允許針對深度位準之組合而增大有效解析度。
在某些實施例中,經加權組合之權數可回應於一內插機率值而判定,該內插機率值係回應於第一像素所屬之一像素群組之一第一機率值與一鄰近像素群組之一第二機率值之間的一空間內插而判定;該內插取決於該第一像素所屬之該像素群組中的該第一像素之一位置。
機率圖可包括複數個機率值,且(特定而言)可包括針對複數個像 素或像素群組中之每一者之複數個機率值。類似地,可針對每一像素執行組合,其中至少某些像素具有不同機率值且因此具有獨立組合。因此,機率值及組合可跨越影像(其針對不同像素可係不同的)變化。
根據本發明之一選用特徵,機率單元經配置以判定影像之像素群組之機率值,每一像素群組包括至少一個像素;該機率單元經配置以首先判定一分類圖,該分類圖包括指示該等像素群組被指定為屬於一文字影像物件還是不屬於一文字影像物件的該等像素群組之值;且回應於該分類圖之濾波而產生機率圖。
此可提供簡化之實施方案及/或經改良效能/結果。
根據本發明之一選用特徵,分類圖包括像素群組之二進制值,每一二進制值指示一像素群組被指定為屬於一文字影像物件或該像素群組被指定為不屬於一文字影像物件。
此可提供簡化之實施方案及/或經改良效能/結果。特定而言,在諸多情景中,其可允許像素群組之一較穩健且較可靠初始分類。濾波可將二進制分類轉換為非二進制機率值,該等非二進制機率值亦反映像素群組之時間及/或空間鄰域之特性。
根據本發明之一選用特徵,濾波包括應用於分類圖之一個二進制膨脹濾波。
此可改良效能且可(特定而言)改良對應於文字影像物件之所偵測區之一致性。在諸多情景中,其可減少此等區中之孔形成。
根據本發明之一選用特徵,濾波包括一時間濾波。
舉例而言,此可允許經改良穩定性及一致性且(例如)在觀看基於經修改深度圖藉由視圖移位而產生之影像時提供一經改良使用者體驗。
根據本發明之一選用特徵,時間濾波係非對稱的。
在諸多應用及情景中,此可提供經改良效能。
根據本發明之一選用特徵,濾波包括空間濾波。
在諸多應用及情景中,此可提供經改良效能。
根據本發明之一選用特徵,空間濾波包括一softmax濾波器。
在諸多應用及情景中,此可提供經改良效能。特定而言,其可允許針對對應於文字影像物件之若干區而產生有利深度剖面。例如,在諸多情景中,softmax濾波器可允許產生對應於一文字影像物件之一個一致深度區域,同時減小孔之量或大小及/或同時提供在文字影像物件之邊緣處之一軟轉變。
一softmax濾波器可為一濾波器與將輸出限制為一最大值之一限制器之一級聯。舉例而言,一softmax低通濾波器可執行對應於一低通濾波器與將該低通濾波器之輸出值限制為一最大值之一限制器之一級聯之一操作。因此,一softmax濾波器可對應於具有一最大輸出值限制之一濾波器。
根據本發明之一選用特徵,空間濾波包括至少兩個順序空間softmax濾波器。
在諸多應用及情景中,此可提供經改良效能。特定而言,其可允許針對對應於文字影像物件之若干區而產生有利深度剖面。例如,在諸多情景中,softmax濾波器可允許產生對應於一文字影像物件之一個一致深度區域。在諸多實施例中,濾波器可減小孔之量或大小,同時亦提供在文字影像物件之邊緣處之一軟轉變。
兩個順序空間softmax濾波器可經配置以具有不同設計/操作參數,且特定而言,一核尺寸、比例因子及/或最大值針對兩個濾波器可係不同的。在諸多實施例中,一第一濾波器之參數可經最佳化以用於減少孔形成及提供增大之一致性,而第二濾波器之參數可經最佳化以提供在文字影像物件之邊緣處之一所要深度轉變剖面。
根據本發明之一選用特徵,第一深度值對應於複數個影像中之 影像物件之視差,該複數個影像對應於第一影像之一場景之不同檢視方向。
在諸多實施例中,本發明可改良藉由視差估計而產生之一深度圖且可(特定而言)減輕與文字影像物件相關聯之降級及假影。
在某些實施例中,影像單元經配置以估計複數個影像中之影像物件之視差。
根據本發明之一選用特徵,對於機率值之一增大值,文字影像物件深度之一加權被增大且第一深度值之一加權被減小。
在諸多應用及情景中,此可提供經改良效能。
根據本發明之一態樣,提供一種判定一影像之一深度圖之方法,該方法包括:提供具有一相關聯深度圖之一第一影像,該相關聯深度圖包括該第一影像之至少某些像素之第一深度值;判定該第一影像之一機率圖,該機率圖包括該影像之至少某些像素之機率值,一像素之機率值指示該像素屬於一文字影像物件之一機率;及產生該第一影像之一經修改深度圖,該產生包括將至少一第一像素之一經修改深度值作為該第一像素之相關聯深度圖之一第一深度值與一文字影像物件深度值之一經加權組合來判定,該加權取決於該第一像素之機率值。
參照下文中所闡述之實施例將明瞭且闡明本發明之此等及其他態樣、特徵及優點。
101‧‧‧裸眼式立體顯示器
103‧‧‧顯示器驅動器
105‧‧‧影像單元
107‧‧‧機率單元
109‧‧‧深度單元
111‧‧‧記憶體/存儲裝置
113‧‧‧影像產生器
401‧‧‧位於螢幕深度後面之部分
403‧‧‧位於螢幕深度前面之部分
405‧‧‧字幕區塊
407‧‧‧文字方框
501‧‧‧輸入影像
503‧‧‧分類圖
505‧‧‧第一softmax濾波器之輸出
507‧‧‧第二softmax濾波器之輸出
xstart‧‧‧x座標之開始位置
xstop‧‧‧x座標之停止位置
ystart‧‧‧y座標之開始位置
ystop‧‧‧y座標之停止位置
將參照圖式僅以實例方式闡述本發明之實施例,在圖式中:圖1係包括根據先前技術之某些實施例之一裝置之一顯示器系統之一實例之一圖解;圖2圖解說明自一裸眼式立體顯示器投射之視圖影像之一實例;圖3圖解說明一影像及相關聯所偵測文字區之一實例; 圖4圖解說明在一深度圖中定位一字幕區塊之一實例;且圖5圖解說明一輸入影像及在根據本發明之某些實施例之一裝置中針對該輸入影像而產生之機率圖之實例。
以下說明重點在於適於用於判定供在產生針對一場景之不同檢視方向之影像中使用之一經修改深度圖之一系統的本發明之實施例,例如,一種用於產生用於在一裸眼式立體顯示器上呈現一輸入立體影像之額外影像之方法。然而,將瞭解,本發明不限於此應用,而是可應用於諸多其他應用及系統。
圖1圖解說明根據視窗之某些實施例之一系統之一實例。在特定實例中,自一輸入三維影像產生對應於一裸眼式立體顯示器101之不同視圖之影像。舉例而言,輸入三維影像可由具有一相關聯深度圖之一單個影像表示或可(例如)由自其提取一相關聯深度圖之若干立體影像表示。在某些實施例中,影像可為影像之一時間序列中之一影像,諸如,來自一視訊序列/信號之一圖框。
通常,裸眼式立體顯示器產生若干視圖「錐區」,其中每一錐區含有對應於一場景之不同視角之多個視圖。毗鄰(或在某些情形中,進一步經位移)視圖之間的視角差異經產生以對應於一使用者之右眼與左眼之間的視角差異。因此,其左眼與右眼看到兩個適當視圖之一觀看者將感知到一個三維效應。圖2中圖解說明在每一視錐區中產生九個不同視圖之一裸眼式立體顯示器之一實例。
裸眼式立體顯示器往往使用構件(諸如雙凸透鏡或視差障壁/障壁遮罩)來分離視圖並沿不同方向發送該等視圖,使得該等視圖個別地到達使用者之眼睛。對於立體顯示器,需要兩個視圖,而大部分裸眼式立體顯示器通常利用更多視圖。實際上,在某些顯示器中,在一影像內執行檢視方向之一漸變轉變,使得可沿不同觀看方向投射一影像 之不同部分。因此,在某些最新裸眼式立體顯示器中,可應用在檢視方向內的影像區域之一較漸變且連續分佈,而非裸眼式立體顯示器演現固定數目個完整視圖。此一裸眼式立體顯示器通常稱為提供部分視圖而非完整視圖。關於部分視圖之更多資訊可(例如)見於WO 2006/117707中。
然而,大部分裸眼式立體顯示器之共同之處在於其需要針對相對大數目個不同檢視方向產生影像資訊。然而,通常地,三維影像資料係作為若干立體影像或作為具有一深度圖之一影像而提供。為產生所需檢視方向,通常應用影像視圖移位演算法來產生適合像素值以用於演現。然而,此等演算法通常為次最佳的且可能引入假影或失真。
發明人已意識到,此等假影、降級及品質降低對於文字影像物件(特定而言,諸如字幕影像物件)可係特別普遍的、可感知的及/或顯著的。因此,當(例如)由一裸眼式立體顯示器接收及呈現含有文字之影像時,在字幕區塊及類似文字物件周圍通常可感知到假影。
為解決此等問題,可應用演算法來設法識別出此等影像物件。然後可將一固定深度位準應用於所識別影像物件以將所有文字定位於一固定深度處。然而,此偵測通常係極困難的,且分割成文字影像物件(及非文字影像物件)之一準確分割通常係不可行的。因此,此等方法通常亦產生可感知假影。
舉例而言,可識別一字幕方框且可將此方框之深度位準設定為螢幕深度。圖3圖解說明此可如何進行之一實例。
使用字幕方框來將字幕放置於螢幕深度處。圖3圖解說明此可如何進行。在實例中,在具有字幕文字(圖3a)之一亮度影像中偵測一字幕方框。在實例中,可使用自每一8×8區塊內提取之特徵按8×8像素區塊執行偵測。首先,可將每一黑色區塊分類為係一字幕之部分(在圖3b中由白色展示)或並非字幕之部分(在圖3b中由黑色展示)。最後,藉 由以下操作而判定一限界字幕方框:首先水平地整合偵測結果並找到沿y座標之一開始及停止位置,且然後水平地整合偵測結果並找到x座標之一開始及停止位置。特定而言,可將字幕方框之邊界設定為包含經分類為屬於字幕方框之所有區塊之最小矩形。
然後,可將字幕方框內之所有像素之深度設定為一特定深度值,且特定而言,可將字幕方框內之所有像素之深度設定為螢幕深度或顯示器深度。此可減少假影且可減少由裸眼式立體顯示器引入的對不在螢幕位準處之物件之模糊。該方法可由圖4圖解說明,圖4展示具有位於螢幕深度後面之一部分401及位於螢幕深度前面之一部分403之一影像。所闡述方法可識別一字幕區塊405並將字幕區塊405定位於螢幕深度處。
然而,雖然此解決方案將產生一清晰(特定而言,不具有螢幕外模糊)且幾何學上正確之字幕物件,但深度圖中之新引入之陡邊緣(由文字方框所致)通常可在文字方框(諸如由圖4中之407所指示)之邊界附近產生極明顯紋理失真(分散)。此外,當文字方框自身分解成多個較小文字方框時,演現誤差亦將變得明顯。舉例而言,一句子中之某些字元可係清晰的而其他字元可係模糊的。此外,此行為可隨時間迅速地改變,實務上,此對於觀看者往往係相當明顯的。
實務上,已發現,設法識別一字幕區域且將此區域之深度設定為(特定而言)螢幕深度通常產生各種問題。首先,偵測演算法中之雜訊可頻繁地致使所偵測方框分解成兩個或兩個以上單獨方框。此可因沿x座標及/或y座標可能存在之多個開始及停止位置而發生。此外,一所偵測方框之開始及停止位置往往對分類錯誤係敏感的。因此,所得深度圖可變得在時間上不穩定,從而產生由裸眼式立體顯示器顯示之影像中之明顯時間誤差。
圖1之裝置可減輕或減少自已知方法已知之缺點中之某些缺點。 該裝置包括驅動裸眼式立體顯示器101之一顯示器驅動器103。顯示器驅動器103包括用於產生用於裸眼式立體顯示器101之複數個視圖影像並用以將此等視圖影像饋送至裸眼式立體顯示器101之功能性。當一輸入具有一輸入影像及一深度圖時,使用一視圖移位演算法針對不同檢視方向而產生視圖影像。
然而,系統經配置以處理一輸入深度圖(其自一外部源或一內部源而接收且其通常藉由顯示器驅動器103而自對應於不同檢視方向之影像(特定而言,諸如一立體影像)產生)以產生其中採用字幕深度之一較精細重新配置之一經修改深度圖,而非僅識別一字幕區域並將該字幕區域設定為一螢幕深度。此往往將提供包含字幕或其他文字影像物件周圍之明顯假影之一減少或減輕之一實質上經改良視覺體驗。
顯示器驅動器103之方法涉及首先產生一機率圖(亦稱為一α圖),該機率圖包括指示對應像素是否屬於一文字影像物件之機率值。因此,機率圖提供指示像素或像素群組是否屬於一文字影像物件之一所估計機率之非二進制且通常實質上連續之值,而非判定一給定像素或像素群組是否為一文字影像物件之一簡單二進制指定。機率圖之機率值(亦稱為α值)通常由離散值表示,且在大部分實施例中,每一值可由具有至少4個、但通常至少8個、16個、32個、64個、128個、256個或甚至更多離散位準之值表示。在諸多實施例中,每一機率值可由至少3個、4個、6個、8個、10個或16個位元之一個二進制值表示。
在該方法中,至少某些像素之深度位準並非僅藉由選擇一原始深度值或將一原始深度值設定為一預定深度位準(諸如螢幕位準)而產生。而是,經修改深度圖之至少某些深度值係藉由執行一原始深度值與一文字影像物件深度值之一經加權組合而產生,特定而言,該文字影像物件深度值為文字影像物件之一較佳深度位準(諸如螢幕深度)。一給定像素之深度位準之加權係基於彼像素之機率值而判定。
特定而言,若α[i,j]表示像素位置[i,j]處的機率圖之值,則經修改深度圖之經修改深度位準可判定為:D mod[i,j]=α[i,j]D text+(1-α[i,j])D[i,j]。其中D text表示文字影像物件深度且D[i,j]為原始深度位準。
因此,在該方法中,經修改深度圖經產生以提供較連續地橫跨原始深度位準與期望用於文字影像物件之深度位準之間的差異之深度位準。以此方式,可有效地將文字影像物件在原始深度呈現與所要深度之間進行空間(沿深度方向)「混合」。
實務上,已發現,此一方法提供實質上較有吸引力之視覺體驗,其中對文字影像物件(特定而言,諸如字幕區塊)周圍之假影及降級之感知得以顯著降低。
該方法之另一優點係藉由使用文字影像物件偵測結果來產生一機率圖,此可經受空間及時間濾波器以改良所得演現影像。此外,此濾波可在不影響原始深度圖之情況下執行。
顯示器驅動器103包括一影像單元105,影像單元105經配置以提供具有一相關聯深度圖之一影像,該相關聯深度圖包括該影像之至少某些像素之深度值。該影像將稱為一輸入影像且該深度圖將稱為輸入深度圖(且像素及深度值將稱為輸入像素及深度值)。
在某些實施例中,影像單元105可經配置以僅自任何適合內部或外部源接收輸入影像及輸入深度圖。舉例而言,包括由一影像及一相關聯深度圖表示之三維影像之一視訊信號可自一網路(諸如網際網路)、一廣播信號、一媒體載體等接收。
在某些實施例中,影像單元105可經配置以產生輸入影像及/或輸入深度圖。特定而言,在諸多實施例中,影像單元105可經配置以接收由對應於不同檢視方向之複數個影像形成之一個三維影像(特定而言,諸如一立體影像),且影像單元105可經配置以執行視差估計以產 生輸入深度圖。
深度圖中所包括之深度值可為深度之任何適合表示,特定而言,諸如一深度座標(z)值或表示不同檢視方向之影像之間的移位之一視差值。
在實例中,輸入深度值係所觀察或所估計深度值。特定而言,輸入深度值可係藉由在一外部源處或由影像單元105自身執行之視差估計而產生之值。因此,深度值通常將係相對不準確的且可含有若干差錯及誤差。
此外,在輸入信號中,文字影像物件(諸如字幕)在於裸眼式立體顯示器上演現時可並非定位於較佳深度處。舉例而言,此可由針對不同顯示器而變化之技術上最佳深度(例如,相對於清晰度)所致或由在若干應用之間變化之主觀偏好所致。
舉例而言,對於電視節目及電影,字幕通常定位於螢幕前面,亦即,定位於使字幕顯現為在螢幕前面之一深度位準處,且通常定位為最前方物件。然而,對於諸多裸眼式立體顯示器,因此等深度位準而引入實質上增大之模糊,且因此將字幕定位於螢幕深度處可係較佳的。如所闡述,因此,顯示器驅動器103可執行所估計文字影像物件之深度位準之一漸變再調整。
特定而言,影像單元105耦合至一機率單元107,機率單元107經配置以產生包括指示對應像素屬於一文字影像物件之一機率或可能性之機率值之一機率圖。
一給定像素之機率值可表示對該給定像素屬於一文字影像物件之機率或可能性之一估計。舉例而言,該機率可為包括該像素之一像素群組匹配文字影像物件之一組預期特性之緊密程度之一指示。匹配愈緊密,該像素屬於一文字影像物件之機率愈高。
一像素屬於一文字影像物件之機率可係基於一文字影像物件僅 包含為一文字字元之部分之像素之一考量。然而,在諸多實施例中,一文字影像物件通常可視為包含一限界方框。舉例而言,一文字影像物件可視為包含一周圍字幕方框。將瞭解,視為表示一文字影像物件之確切特性及屬性將取決於個別實施例之特定偏好及要求,且特定而言,機率值之判定可適於反映將什麼視為一文字方框之較佳特性及屬性。
舉例而言,在某些實施例中,可將字幕提供(例如)為一灰色或黑色方框中之白色字元。在此一實例中,將文字影像物件視為包含整個字幕方框可係高度合意的,亦即,機率可經判定以指示像素屬於一字幕方框之機率,從而產生在一所要深度處的字幕方框之一漸變定位。在其他應用中,可僅將字幕提供為下層影像之頂部上之白色字元。在此一實例中,不存在限界方框且機率可反映一像素屬於一文字字元之機率。
在諸多實施例中,特定而言,文字影像物件可係一圖形疊加影像物件,且特定而言,文字影像物件可係一字幕或標題影像物件。
將瞭解,在不同實施例中可使用用於判定機率圖之各種方法,且稍後將闡述提供具有高效能之高度高效操作之一特定實例。
機率單元107耦合至一深度單元109,深度單元109經配置以產生經修改深度圖。深度單元109進一步耦合至影像單元105及其中儲存文字影像物件深度值之一記憶體/存儲裝置111。因此,深度單元109接收輸入深度圖、文字影像物件深度值及機率圖,且深度單元109繼續執行輸入深度值與文字影像物件深度值之經加權組合,其中加權取決於機率值。
特定而言,如先前所闡述,組合可係一線性組合,特定而言,諸如輸入深度值與文字影像物件深度值之一經加權總和,其中權數取決於機率值。然而,將瞭解,可使用其他經加權組合,其中來自輸入 深度位準與文字影像物件深度位準之相對貢獻取決於機率值。舉例而言,在某些實施例中,可使用非線性組合。
因此,該組合(針對一給定像素)將一輸出深度值提供為輸入深度值、文字影像物件深度值與機率值(針對該像素)之一函數,其中分別來自輸入深度值與文字影像物件深度值的對輸出深度值之貢獻取決於機率值。
經加權組合使得對於機率值之一增大值,文字影像物件深度之加權被增大且第一深度值之一加權被減小。因此,據估計一給定像素屬於一文字影像物件之可能性愈大,輸出深度值將愈接近文字影像物件深度值,且據估計一給定像素屬於一文字影像物件之可能性愈小,輸出深度值將愈接近輸入深度值。確切關係將取決於個別實施例之偏好及要求。
在諸多實施例中,輸出深度值可針對一給定像素為機率值之一函數,其中該函數係如下之一函數:針對為0之一機率值,輸出像素之輸入深度值,且針對為1之一機率,輸出文字影像物件深度值。特定而言,機率值之函數可係一單調函數。機率值之函數可針對一給定像素將自0至1之機率範圍映射至自像素之輸入深度值至文字影像物件深度值之深度值範圍。
在大部分實施例中,文字影像物件深度值可為一預定值,且特定而言,文字影像物件深度值可針對所有影像及/或針對整個影像為一恆定值。然而,在某些實施例中,文字影像物件深度值可在影像之不同區域之間變化,例如,針對影像之一下部部分之一較佳文字影像物件深度值可不同於針對影像之一上部部分之較佳文字影像物件深度值。
在實例中,深度單元109耦合至一影像產生器113,影像產生器113經配置以產生用於裸眼式立體顯示器101之視圖影像。影像產生器 113自深度單元109接收經修改深度圖且進一步耦合至影像單元105,影像產生器113自影像單元105接收輸入影像。影像產生器113經配置以藉由以下操作而產生用於裸眼式立體顯示器101之視圖影像:執行視圖移位以產生針對與由裸眼式立體顯示器101產生之不同視圖相關聯之特定檢視方向之視圖影像。影像產生器113經配置以基於輸入影像及經修改深度圖藉由一視圖移位演算法而產生此等影像。因此,視圖影像將經產生而以逐漸地反映像素是否被視為可能屬於文字影像物件之深度來呈現像素。因此,由一觀看者所感知之所投射三維影像將往往具有一文字影像物件之較一致演現,其中在文字影像物件與其他影像區域之間具有一較漸變轉變。此通常將實質上減少3D呈現之所感知不完美。
因此,在實例中,影像產生器113使用輸入影像及經修改深度圖來產生輸入影像之場景之一影像,但該影像具有不同於輸入影像之檢視方向之一檢視方向。
將瞭解,熟習此項技術者將知曉諸多不同視圖移位演算法,且在不減損本發明之情況下可使用任何適合演算法。
在某些實施例中,影像單元105可直接接收一深度圖連同一輸入影像。在某些情形中,深度圖可產生於與將文字影像物件包含於(例如)一所擷取影像中或將文字影像物件添加至(例如)一所擷取影像相同之時間及地點。在某些情形中,深度圖可因此經產生以具有在一特定較佳深度處之文字影像物件(諸如字幕)之深度位準。因此,深度圖可針對一文字影像物件具有對應於該文字影像物件之區之一完整且一致區域,且此區域中之深度值可全部相等。此可允許文字影像物件經定位具有極小誤差及極少假影。然而,即使在此情形中,文字影像物件之深度位準可並非係針對特定使用情景之較佳深度位準。舉例而言,適於使用一基於眼鏡之方法來觀看之一深度位準對於使用一裸眼式立 體顯示器進行之呈現可並非理想的。此外,清晰之深度轉變在執行視圖移位時仍可產生假影。
此外,在諸多應用中,深度圖可不產生於與一文字影像物件(諸如字幕)之包含相同之時間及地點。舉例而言,在諸多情景中,一個三維影像可由若干立體影像表示,其中字幕包含於兩個影像中且其中字幕之深度受兩個立體影像之間的視差控制。此一三維立體表示不包含任何深度圖,且因此,若需要,此一圖可隨一後處理操作而產生。實際上,在諸多情景中,深度圖可產生於終端使用者裝置中。
舉例而言,影像單元105可經配置以接收對應於相同場景之不同檢視方向之複數個影像。特定而言,可接收包括一左眼影像及一右眼影像之一立體影像。立體影像可包含一文字影像物件(例如,一字幕),其中文字影像物件之深度係藉由兩個影像之間的視差而反映。
然後,影像單元105可經配置以回應於若干檢視方向影像之間的一視差偵測而產生一深度圖。因此,影像單元105可繼續進行以下操作:發現影像中之對應影像物件,判定此等對應影像物件之間的相對移位/視差,及將對應深度位準指派給該等影像物件。將瞭解,可使用用於基於視差估計而判定深度之任何適合演算法。
此一視差估計可產生相對準確之深度圖。然而,深度圖通常仍將包括相對大數目個誤差且通常將不完全一致。特定而言,假影及不一致性在(特定而言)通常可針對文字影像物件發生的大且清晰之深度轉變周圍可係普遍的。
因此,(例如)在執行視圖移位時,直接使用自不同方向之影像之視差估計產生之一深度圖往往將導致所感知品質降級及假影之引入。
然而,基於機率偵測以及視差所判定深度值與文字影像物件之一所要深度值之一合併的一經修改深度圖之產生往往產生一實質上經改良影像,且(特定而言)產生具有增大之一致性及減少之假影的文字 影像物件周圍之一實質上經改良之所感知品質。特定而言,可藉由所闡述方法而實質上減輕在執行視差估計時通常可在文字影像物件周圍發生之誤差、不一致性或假影之存在。
在下文中,將闡述用於判定機率圖之一特定方法。
在該方法中,機率值之判定可針對可包括複數個像素之像素群組而執行。因此,雖然下文中所闡述之原理可適用於個別像素,但在特定實例中,該等原理係在一像素群組基礎上且(特定而言)在一矩形區塊基礎上執行。在特定實例中,每一像素群組為一8×8像素區塊。
因此,在實例中,機率單元107包括用於判定輸入影像之像素群組之功能性,其中每一像素群組包括複數個像素。然後,機率值之判定係基於此等像素群組。
在該方法中,機率單元107經配置以首先判定包括針對像素群組之若干值之一分類圖,其中每一值指示對應像素群組被指定為屬於一文字影像物件還是不屬於一文字影像物件。
在特定闡述之實施例中,分類值為二進制值,且因此,每一值指示對應像素群組被指定為屬於一文字影像物件或該像素群組被指定為不屬於一文字影像物件。在諸多實施例中,此方法可促進分類程序且可產生穩健決策。此外,該方法可促進處理,且已發現,該方法產生高度適合用於不同深度位準之隨後混合或組合之機率圖。實際上,已發現,該方法致使產生被感知為具有高品質之三維影像。
然而,將瞭解,在其他實施例中,分類圖之值可為非二進制值。舉例而言,物件分類程序可產生用於指示像素群組是否屬於一文字影像物件之軟決策值。例如,該等值可為[0;1]區間中之一組離散值,其中1表示屬於一文字影像物件之一指定且0表示不屬於一文字影像物件之一指定,且其中介於0與1之間的值反映像素群組被視為匹配用於被指定為屬於一文字影像物件之要求之緊密程度。實際上,在某 些實施例中,可將該等值視為初始機率值,且可將該分類圖視為一初始機率圖。
機率單元107可將一文字影像物件分類程序應用於輸入影像,此提供指示每一像素群組是否屬於一文字影像物件之一個二進制決策。
將瞭解,可使用不同演算法用於將像素群組指定為屬於一文字影像物件或不屬於一文字影像物件。作為一簡單實例,可評估一像素群組內之色彩分佈,且若該色彩分佈主要包括對應於用於字幕方框之彼等色彩(例如,白色及黑色)之像素色彩,則可將像素群組指定為係一文字影像物件,否則,可將像素群組指定為並非一文字影像物件。
將瞭解,在大部分實施例中,可使用一實質上較複雜分類或指定演算法。舉例而言,一分類可係基於針對每一區塊計算之多個特徵。舉例而言,特徵可為一像素強度直方圖之一特定方格內之平均水平像素梯度及像素數目。然後可使用一機器學習方法(諸如AdaBoost(http://cseweb.ucsd.edu/~yfreund/papers/IntroToBoosting.pdf;日期:20-05-2015))來藉由線性地組合(舉例而言)50個「弱」分類規則而(自動)訓練一所謂的「強分類器」。注意,通常使用一大得多之候選特徵組(例如,>300)來自其進行選擇,使得可做出一良好選擇。為獲得此一大候選特徵組,諸如平均水平像素梯度之基本特徵各自用作至具有變化核大小之多個空間迴旋運算(濾波器)操作之輸入且因此可各自產生(例如)10個新特徵候選者。分類器之訓練係使用一組給定訓練影像以8×8區塊層級而進行。然後,可使用所得演算法來將每一區塊分類為屬於一文字影像物件或不屬於一文字影像物件。
如所提及,在所闡述實例中,所產生分類值為指示一像素群組被指定為屬於一文字影像物件或一像素群組被指定為不屬於一文字影像物件之二進制值。然而,在某些實施例中,分類程序可產生軟決策值,且此等軟決策值可代替二進制值而使用。舉例而言,一AdaBoost 分類器可在內部使用並產生與一臨限值進行比較以指定像素群組之軟決策指示。然而,在某些實施例中,此等軟決策值可替代地用於分類圖而不與一臨限值進行任何比較以產生二進制值。
用於產生機率圖之第二階段將繼續將一濾波應用於所產生分類圖。該濾波可將時間及空間限制以及平滑化強加至分類圖。
特定而言,當分類程序返回二進制硬決策分類結果時,此等初始二進制值可變換為指示個別像素群組(或像素)是否屬於一文字影像物件之機率之非二進制值。因此,初始二進制分類/指定可藉由應用於分類圖之濾波而轉換為漸變非二進制機率值。此轉換不僅允許具有相對低複雜性及資源要求之高效處理,且亦已發現,此轉換提供具有不僅反映群組自身之分類且亦反映此分類與像素群組之時間及/或空間鄰域中之其他分類之關係的機率值之極好結果。實際上,該方法往往致使產生具有一高度一致性且高度適於文字影像物件之深度之操縱的一機率圖。
濾波可包括複數個濾波操作。在諸多實施例中,濾波可包括複數個順序濾波操作,其中通常基於先前濾波操作之結果而執行一後續濾波操作。
在下文中,將闡述其中執行複數個順序濾波操作之一特定方法之一實例。然而,將瞭解,此僅係一實例,且在不同實施例中,可使用所闡述濾波器操作之僅一子組,且在其他實施例中,濾波器操作之次序可不同。舉例而言,在某些實施例中,可先應用時間濾波,之後應用空間濾波,而在其他實施例中,可先應用空間濾波,之後應用時間濾波。
在實例中,以一像素群組解析度來執行濾波器操作,其中每一像素群組包括複數個像素。特定而言,所有濾波器皆以8×8區塊解析度來操作。在說明中,索引[m,n]因此將係指區塊索引。所得機率圖亦 將處於區塊解析度。在經修改深度圖之產生期間,可內插機率值以提供一較高解析度且(特定而言)提供像素層級解析度。作為一特定實例,可(例如,線性地)內插α[m,n]以計算α[i,j],此係在像素層級上進行。
在某些實施例中,濾波可包含應用於分類圖之一個二進制膨脹濾波。
舉例而言,α init[m,n]可表示區塊索引[m,n]處之原始偵測結果,亦即,分類圖之二進制值。原始偵測結果採用值1(屬於一文字影像物件)或0(不屬於一文字影像物件)。為增大結果之密度(亦即,為增大所偵測區之大小),可首先使用一(通常,二進制)膨脹濾波器(特定而言,諸如具有一「十字形」之一形態膨脹濾波器)來濾波α init[m,n]:α dil[m,n]=max(α init[m,n],α init[m+1,n],α init[m,n+1],α init[m-1,n],α init[m,n-1])。
以此方式,增大偵測為屬於文字影像物件之區,藉此增大包含文字影像物件像素群組之可能性並提供此等像素群組之間的一增大之重疊等。
機率單元107亦可應用一低通時間濾波。若執行一膨脹濾波,則可將時間濾波應用於此濾波之結果。否則,可(例如)將時間濾波直接應用於分類圖。
在諸多實施例中,時間濾波可係非對稱的,亦即,低通效應可在一個方向上比在另一方向上更顯著。特定而言,用於改變為增大像素群組屬於文字影像物件之可能性的時間常數低於用於改變為降低像素群組屬於文字影像物件之可能性的時間常數。
作為一特定實例,一時間非對稱迴歸濾波器可應用於(例如)膨脹濾波器之輸出(或例如,直接應用於分類圖)。適於諸多實施例之一濾波器之一特定實例可如下: 其中上標t係指一圖框數目。
此濾波器可確保:當第一次偵測到文字時,將迅速地修改深度。然而,當移除文字時,深度圖上之文字之效應將僅逐漸地減小。淨效應為較佳時間穩定性。注意,針對t=0,通常針對所有區塊將設定為0。
在某些實施例中,濾波包括空間濾波。此濾波可直接在分類圖上執行(例如,若包含膨脹濾波,則在膨脹濾波之後執行)或可(例如)在時間濾波之後執行。
在某些實施例中,空間濾波可為一線性低通濾波器。然而,在諸多實施例中,特定而言,空間濾波可包含至少一個softmax濾波器。
一softmax濾波器可為濾波器與將輸出限制為一最大值之一限制器之一級聯。舉例而言,一softmax低通濾波器可執行對應於一低通濾波器與將低通濾波器之輸出值限制為一最大值之一限制器之一級聯之一操作。因此,一softmax濾波器可對應於具有一最大輸出值限制之一濾波器。最大值可為一值1,但將瞭解,此在不同實施例之間可不同。
特定而言,一softmax濾波器可為進行以下操作之一濾波器:執行一標準濾波器操作(諸如一低通濾波器),但將濾波器輸出乘以大於1之一值,使得濾波器輸出偏向於較高值,此後,獲取因此所獲得之輸出與一預定義最大值之最小值。因此,以此方式定義之一softmax濾波器由三個組分組成:一(標準)濾波器操作、一乘法因子及一預設定最大值。因此,一softmax濾波器可包括應用一空間(低通)濾波,其 中將濾波器輸出限制為一最大值。通常,低通濾波可係一個兩階段程序:首先使用一(通常正規化)低通濾波器進行濾波,後續接著按通常預定之一比例因子對濾波器輸出值進行按比例縮放。然後將所得按比例縮放之輸出限制為最大值。然而,可將比例縮放視為總體濾波之部分,且舉例而言,可按(例如)空間濾波器之比例縮放(核)係數來實施該比例縮放。最大值通常係預定的。
使用一softmax濾波器可提供經改良效能。特定而言,其往往可產生若干區域,在該等區域中,內部像素被指示為(幾乎確定)係文字影像物件,同時提供朝向區域之邊界之一軟且漸變轉變。此一特性尤其適於使用機率值來識別(例如)字幕方框。
在某些實施例中,空間濾波可包括至少兩個順序空間softmax濾波器。不同softmax濾波器可具有不同特性。特定而言,空間濾波可提供兩種功能。一種功能係填充對應於文字影像物件之區域,亦即,使所偵測區重疊,使得較佳地在所偵測區域內不存在間隙。另一功能係提供一空間平滑化,使得所偵測區周圍之轉變係平滑且漸變的。兩種功能皆產生一經改良視覺體驗。
因此,在特定實例中,可應用一第一softmax濾波器來「填充」對應於文字影像物件之所偵測區域。然後,可將一第二softmax濾波器應用於第一softmax濾波器之結果以產生平滑轉變。
作為一特定實例,在時間濾波之後,某些文字物件可產生指示若干區屬於文字影像物件之一極稀疏填充之圖。因此,為填充(例如)一字幕方框內部之孔,可應用一「softmax」濾波器。例如,可應用具有21個區塊之一核高度及35個區塊之核寬度之一softmax濾波器: 其中
作為一特定實例,α可由8位元數表示,使得一值1由255表示。在此實例中,通常可使用K 1=32之一值。在諸多實施例中,此一softmax濾波器可填充字元與字之間的孔。
此第一softmax濾波器可後續接著一第二softmax濾波器,第二softmax濾波器設法移除對應於一文字影像物件的深度圖之一區域與深度圖之周圍區之間的硬空間邊界,且因此在呈現三維影像時提供三維影像之文字與其餘部分之間的一軟轉變。
第二softmax濾波器可對應於第一softmax濾波器,但具有不同參數,且(特定而言)具有一較大分母,使得該濾波器更可能用作一低通濾波器而較不可能用作一max濾波器。在特定實例中,可使用高度11個像素且寬度25個像素之一核大小: 再次,α可由8位元數表示,且用於分母之一適合值可為K 2=256。
使用兩個順序softmax濾波器可不僅產生經改良效能且亦可允許簡化之實施方案。特定而言,可使用相同演算法或函數,其中僅改變參數值。實際上,在諸多實施例中,甚至可(例如)藉由使用一積分影像方法而較高效地(重新)使用影像資料。
圖5圖解說明用於判定機率圖之所闡述例示性方法之結果之實例。圖5展示輸入影像501以及在進行二進制膨脹濾波及時間濾波之後的分類圖503。如可見,此階段處之機率圖可係極稀疏地充填的(白色 指示具有屬於一文字影像物件之高機率之區,且黑色指示具有屬於一文字影像物件之低機率之區)。展示第一softmax濾波器之輸出505。如可見,此濾波使得一顯著增大之區被視為可能屬於一文字影像物件。然而,該轉變係相當突然的。亦展示第二softmax濾波器之輸出507。如可見,此相當緊密地對應於第一softmax濾波器之輸出而且具有實質上平滑之轉變,從而在由裸眼式立體顯示器101演現之影像中產生一更加漸變之深度轉變。
在所闡述實例中,使用包括複數個像素之像素群組(且特定而言,像素區塊)來執行分類圖及分類圖之濾波/處理。實際上,在實例中,使用了8×8像素區塊。此將解析度降低至1/64且因此可允許進行一實質上較高效且較低要求之操作。此外,發明人已意識到,可應用此解析度降低,同時仍達成所期望效能及所感知影像品質。
然而,為改良所感知影像品質,可以高於區塊層級解析度之一解析度來產生經加權組合之權數,且特定而言,可以像素解析度來產生經加權組合之權數。
此可藉由使用基於區塊之深度值之間的內插而達成。舉例而言,可使用鄰近區塊之機率值之間的內插來產生區塊之個別像素之深度值。可基於像素群組中的像素之位置而判定內插之權數。
舉例而言,可執行一第一與第二深度值之間的內插。對於實質上在用於第一及第二深度值之像素群組之間的邊界上之一像素,可藉由實質上等同地加權第一及第二深度值而判定深度值。例如,可執行一簡單平均化。然而,對於在一個像素群組之中心中之一像素,可簡單地將深度值判定為針對彼像素群組所判定之深度值。
將瞭解,為清晰起見,上文說明已參照不同功能電路、單元及處理器闡述了本發明之實施例。然而,將明瞭,在不減損本發明之情況下可使用在不同功能電路、單元或處理器之間的功能性之任何適合 分佈。舉例而言,圖解說明為由單獨處理器或控制器執行之功能性可由相同處理器或控制器來執行。因此,對特定功能單元或電路之提及僅視為對用於提供所闡述功能性之適合構件之提及,而非指示一嚴格邏輯或實體結構或組織。
本發明可以任何適合形式實施,包括硬體、軟體、韌體或此等之任何組合。本發明可視情況至少部分地實施為在一或多個資料處理器及/或數位信號處理器上運行之電腦軟體。可以任何適合方式在實體上、功能上及邏輯上實施本發明之一實施例之元件及組件。實際上,功能性可在一單個單元中、在複數個單元中或作為其他功能單元之部分實施。因此,本發明可實施於一單個單元中或可在實體上及功能上分佈於不同單元、電路與處理器之間。
儘管已結合某些實施例闡述了本發明,但本發明並非意欲限於本文中所陳述之特定形式。而是,本發明之範疇僅受隨附申請專利範圍限制。另外,儘管一特徵可能看起來係結合特定實施例加以闡述,但熟習此項技術者將認識到,可根據本發明組合所闡述實施例之各種特徵。在申請專利範圍中,術語包括(comprising)並不排除其他元件或步驟之存在。
此外,儘管個別地列出,但複數個構件、元件、電路或方法步驟可由(例如)一單個電路、單元或處理器實施。另外,儘管可在不同請求項中包含個別特徵,但此等特徵可有利地加以組合,且包含於不同請求項中並非暗指特徵之一組合不可行及/或不有利。此外,在一種類別之請求項中包含一特徵並非暗指僅限於該類別,而是指示該特徵視需要同等地適用於其他請求項類別。此外,請求項中之特徵之次序並非暗指該等特徵在工作時所必須遵循之任何特定次序,且特定而言,一方法請求項中之個別步驟之次序並非暗指必須以此次序來執行該等步驟。而是,可以任何適合次序來執行該等步驟。另外,單數提 及形式並不排除一複數形式。因此,對「一(a)」、「一(an)」、「第一」、「第二」等之提及形式並不排除一複數形式。申請專利範圍中之參考符號經提供僅作為一闡明實例而不應以任何方式解釋為限制申請專利範圍之範疇。
101‧‧‧裸眼式立體顯示器
103‧‧‧顯示器驅動器
105‧‧‧影像單元
107‧‧‧機率單元
109‧‧‧深度單元
111‧‧‧記憶體/存儲裝置
113‧‧‧影像產生器

Claims (15)

  1. 一種用於判定一影像之一深度圖之裝置,該裝置包括:一影像單元(105),其用於提供具有一相關聯深度圖之一第一影像,該相關聯深度圖包括該第一影像之至少某些像素之第一深度值;一機率單元(107),其用於判定該第一影像之一機率圖,該機率圖包括該影像之至少某些像素之機率值;一像素之機率值指示該像素屬於一文字影像物件之一機率;一深度單元(109),其用於產生該第一影像之一經修改深度圖,該深度單元經配置以將至少一第一像素之一經修改深度值作為該第一像素之相關聯深度圖之一第一深度值與一文字影像物件深度值之一經加權組合來判定,該加權取決於該第一像素之機率值。
  2. 如請求項1之裝置,其中該機率單元(107)經配置以判定該第一影像之像素群組,每一像素群組包括複數個像素;且其中該機率單元經配置以判定像素群組之機率值。
  3. 如請求項2之裝置,其中該深度單元(109)經配置以回應於該第一像素所屬之一像素群組之一第一機率值及一鄰近像素群組之一第二機率值而判定該經加權組合之權數;該第一機率值與該第二機率值之一加權取決於該第一像素所屬之該像素群組中的該第一像素之一位置。
  4. 如請求項1之裝置,其中該機率單元(107)經配置以判定該影像之像素群組之機率值,每一像素群組包括至少一個像素;該機率單元(107)經配置以首先判定一分類圖,該分類圖包括指示該等像素群組被指定為屬於一文字影像物件還是不屬於一文字影像 物件的該等像素群組之值;且回應於該分類圖之濾波而產生該機率圖。
  5. 如請求項4之裝置,其中該分類圖包括該等像素群組之二進制值,每一二進制值指示一像素群組被指定為屬於一文字影像物件或該像素群組被指定為不屬於一文字影像物件。
  6. 如請求項5之裝置,其中該濾波包括應用於該分類圖之一個二進制膨脹濾波。
  7. 如請求項4之裝置,其中該第一影像係影像之一時間序列之部分,且該濾波包括一時間低通濾波。
  8. 如請求項7之裝置,其中該時間濾波係非對稱的,使得用於增大一像素群組屬於該文字影像物件之一機率之一時間常數不同於用於降低該像素群組屬於該文字影像物件之一機率之一時間常數。
  9. 如請求項4之裝置,其中該濾波包括空間濾波。
  10. 如請求項9之裝置,其中該空間濾波包括一softmax濾波器。
  11. 如請求項9之裝置,其中該空間濾波包括至少兩個順序空間softmax濾波器。
  12. 如請求項1之裝置,其中該等第一深度值對應於複數個影像中之影像物件之視差,該複數個影像對應於該第一影像之一場景之不同檢視方向。
  13. 如請求項1之裝置,其中對於該機率值之一增大值,該文字影像物件深度之一加權被增大且該第一深度值之一加權被減小。
  14. 一種判定一影像之一深度圖之方法,該方法包括:提供具有一相關聯深度圖之一第一影像,該相關聯深度圖包括該第一影像之至少某些像素之第一深度值;判定該第一影像之一機率圖,該機率圖包括該影像之至少某 些像素之機率值;一像素之機率值指示該像素屬於一文字影像物件之一機率;及產生該第一影像之一經修改深度圖,該產生包含:將至少一第一像素之一經修改深度值作為該第一像素之相關聯深度圖之一第一深度值與一文字影像物件深度值之一經加權組合來判定,該加權取決於該第一像素之機率值。
  15. 一種電腦程式產品,其包括經調適以在該程式於一電腦上運行時執行如請求項14之所有步驟之電腦程式碼構件。
TW105115831A 2015-05-21 2016-05-20 用於判定影像之深度圖之方法與裝置、及非暫時性電腦可讀取儲存媒體 TWI712990B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP15168577.3 2015-05-21
EP15168577 2015-05-21

Publications (2)

Publication Number Publication Date
TW201710998A true TW201710998A (zh) 2017-03-16
TWI712990B TWI712990B (zh) 2020-12-11

Family

ID=53432966

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105115831A TWI712990B (zh) 2015-05-21 2016-05-20 用於判定影像之深度圖之方法與裝置、及非暫時性電腦可讀取儲存媒體

Country Status (10)

Country Link
US (1) US10580154B2 (zh)
EP (1) EP3298578B1 (zh)
JP (1) JP6715864B2 (zh)
KR (1) KR20180011215A (zh)
CN (1) CN107636728B (zh)
BR (1) BR112017024765A2 (zh)
CA (1) CA2986182A1 (zh)
RU (1) RU2718423C2 (zh)
TW (1) TWI712990B (zh)
WO (1) WO2016184700A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10491879B2 (en) * 2016-01-15 2019-11-26 Blue River Technology Inc. Plant feature detection using captured images
EP3358844A1 (en) * 2017-02-07 2018-08-08 Koninklijke Philips N.V. Method and apparatus for processing an image property map
EP3462408A1 (en) * 2017-09-29 2019-04-03 Thomson Licensing A method for filtering spurious pixels in a depth-map
CN109285164B (zh) * 2018-09-17 2022-04-05 代黎明 医学图像目标区域定位方法及系统
RU2716311C1 (ru) * 2019-11-18 2020-03-12 федеральное государственное бюджетное образовательное учреждение высшего образования "Донской государственный технический университет" (ДГТУ) Устройство для восстановления карты глубины с поиском похожих блоков на основе нейронной сети
RU2730215C1 (ru) * 2019-11-18 2020-08-20 федеральное государственное бюджетное образовательное учреждение высшего образования "Донской государственный технический университет" (ДГТУ) Устройство для восстановления изображений с поиском похожих блоков на основе нейронной сети

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101167371B (zh) 2005-04-29 2011-11-16 皇家飞利浦电子股份有限公司 立体显示设备
US7668394B2 (en) * 2005-12-21 2010-02-23 Lexmark International, Inc. Background intensity correction of a scan of a document
CN101542529B (zh) * 2006-11-21 2012-10-03 皇家飞利浦电子股份有限公司 图像的深度图的生成方法和图像处理单元
US9189859B2 (en) * 2009-06-11 2015-11-17 Kabushiki Kaisha Toshiba 3D image generation
US20130124148A1 (en) * 2009-08-21 2013-05-16 Hailin Jin System and Method for Generating Editable Constraints for Image-based Models
US9699434B2 (en) * 2009-10-07 2017-07-04 Samsung Electronics Co., Ltd. Apparatus and method for adjusting depth
US8565554B2 (en) * 2010-01-09 2013-10-22 Microsoft Corporation Resizing of digital images
KR101758058B1 (ko) * 2011-01-20 2017-07-17 삼성전자주식회사 깊이 정보를 이용한 카메라 모션 추정 방법 및 장치, 증강 현실 시스템
KR101975247B1 (ko) * 2011-09-14 2019-08-23 삼성전자주식회사 영상 처리 장치 및 그 영상 처리 방법
US8824797B2 (en) * 2011-10-03 2014-09-02 Xerox Corporation Graph-based segmentation integrating visible and NIR information
JP5127973B1 (ja) * 2011-10-21 2013-01-23 株式会社東芝 映像処理装置、映像処理方法および映像表示装置
US8897542B2 (en) * 2011-12-15 2014-11-25 Sony Corporation Depth map generation based on soft classification
RU2012145349A (ru) * 2012-10-24 2014-05-10 ЭлЭсАй Корпорейшн Способ и устройство обработки изображений для устранения артефактов глубины
TW201432622A (zh) * 2012-11-07 2014-08-16 Koninkl Philips Nv 產生一關於一影像之深度圖
US9191643B2 (en) * 2013-04-15 2015-11-17 Microsoft Technology Licensing, Llc Mixing infrared and color component data point clouds
US9762889B2 (en) * 2013-05-08 2017-09-12 Sony Corporation Subtitle detection for stereoscopic video contents
US9363499B2 (en) * 2013-11-15 2016-06-07 Htc Corporation Method, electronic device and medium for adjusting depth values
WO2017004803A1 (en) * 2015-07-08 2017-01-12 Xiaoou Tang An apparatus and a method for semantic image labeling
US10083162B2 (en) * 2016-11-28 2018-09-25 Microsoft Technology Licensing, Llc Constructing a narrative based on a collection of images

Also Published As

Publication number Publication date
KR20180011215A (ko) 2018-01-31
CA2986182A1 (en) 2016-11-24
RU2017144798A (ru) 2019-06-24
US20180150964A1 (en) 2018-05-31
BR112017024765A2 (pt) 2018-07-31
JP6715864B2 (ja) 2020-07-01
CN107636728A (zh) 2018-01-26
RU2718423C2 (ru) 2020-04-02
JP2018520531A (ja) 2018-07-26
RU2017144798A3 (zh) 2019-09-26
TWI712990B (zh) 2020-12-11
EP3298578A1 (en) 2018-03-28
WO2016184700A1 (en) 2016-11-24
EP3298578B1 (en) 2024-04-10
US10580154B2 (en) 2020-03-03
CN107636728B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
EP3395064B1 (en) Processing a depth map for an image
TWI712990B (zh) 用於判定影像之深度圖之方法與裝置、及非暫時性電腦可讀取儲存媒體
US9153032B2 (en) Conversion method and apparatus with depth map generation
EP3311361B1 (en) Method and apparatus for determining a depth map for an image
US20030053692A1 (en) Method of and apparatus for segmenting a pixellated image
US20100315488A1 (en) Conversion device and method converting a two dimensional image to a three dimensional image
KR20110015452A (ko) 입체 이미지의 블러 향상
EP2245591A2 (en) Method and image-processing device for hole filling
KR102161785B1 (ko) 3차원 이미지의 시차의 프로세싱
US9787980B2 (en) Auxiliary information map upsampling
Chamaret et al. Video retargeting for stereoscopic content under 3D viewing constraints
KR101629414B1 (ko) 휴먼 팩터에 기초한 스테레오스코픽 이미지 추출 방법 및 장치
KR102659065B1 (ko) 이미지에 대한 깊이 맵의 처리