TWI463806B

TWI463806B - 處理數位影像之方法及系統

Info

Publication number: TWI463806B
Application number: TW093139327A
Authority: TW
Inventors: Wong Hoo Sim; Toh Onn Hii
Original assignee: Creative Tech Ltd
Priority date: 2003-12-19
Filing date: 2004-12-17
Publication date: 2014-12-01
Also published as: US8442262B2; EP1700266A4; WO2005059830A1; TW200527825A; AU2004300115B2; AU2004300115A1; CN1898695A; KR101125351B1; US20050212930A1; JP4568732B2; EP1700266A1; CN100504922C; JP2007515126A; KR20060112668A

Description

處理數位影像之方法及系統

〔相關申請案〕

本申請案主張2003年12月19日提出的美國臨時專利申請案第60/531,029號的權利，該案的名稱為「處理數位影像之方法及系統」，本文以引用的方式將其內容併入。

本發明一般係關於數位影像處理的領域，更明確地說，本發明係關於一種處理數位影像(例如數位靜態影像)的方法及系統。

利用數位網路提供多媒體資源給消費者的方式已經越來越普遍。不過，當該數位媒體係為了利潤而散佈時，該多媒體內容中的所有權之實施便係一項主要問題。先前技藝中熟知之用於解決該數位媒體之非法散佈問題的解決方式有水印法與資料隱藏法。該些應用的目標係確保僅有被授權的人方能擷取該經隱藏的資料。當希望隱藏大量資料量時通常會套用資料隱藏法；和數位水印法相反的係，數位水印法中僅提供小量的特定識別資訊。

因此，現今的數位視訊處理方法均集中在利用水印與數位簽章來識別多媒體。不過，若缺少僅提供給獨特授權人或是有限授權人團體的特殊軟體或密鑰的話，那麼數位簽章則可能不會生效。於特定的情況中，和加密相反的係，水印本身的秘密性可能不夠，因為水印的主要目的係杜絕竄改。當然，亦可對水印進行加密。

根據本發明提供一種處理一主影像的方法，該方法包括：接收該主影像；接收語音資料；以及將該語音資料內嵌至該主影像之中，以提供一內嵌影像，其中可從該內嵌影像中自由地還原該語音資料。

該方法可以包括於將該語音資料內嵌至該主影像之中以前先降低代表該語音資料中內含之語音信號的數位資料量。於一示範實施例中，該方法包括利用一短期傅立葉轉換來轉換該語音資料，量化該語音信號的大小值資料並且丟棄相位資料，以便提供該供內嵌用的語音資料。該語音資料可被量化且映對至一D₄ 格狀碼。由該D₄ 格狀碼所組成的格狀碼可予以縮放，以最小化該主影像的失真情形。

於一示範實施例中，該方法包括分離該主影像的亮度資料與彩度資料，將語音資料併入該亮度資料中以提供經修正的亮度資料，以及組合該經修正的亮度資料與該彩度資料以提供該內嵌影像。

該方法可以包括處理該亮度資料以提供中間亮度資料，對該中間亮度資料的至少一子頻帶實施感知適配處理以提供一經感知適配處理的子頻帶，以及將該語音資料併入該經感知適配處理的子頻帶中以提供該經修正的亮度資料。

於一示範實施例中，該方法可以包括從該中間亮度資料中移除該至少一子頻帶以提供另一中間亮度資料。該經感知適配處理的子頻帶可與該另一中間亮度資料進行組合以提供該經修正的亮度資料。可對該經修正的亮度資料實施逆轉換，並且可將已經被逆轉換的亮度資料與該彩度資料加以組合以提供一定義該數位影像的內嵌主影像。可利用一離散小波轉換或是離散餘弦轉換來處理該亮度資料。可以根據該主影像之一子頻帶的係數來量化及縮放該語音資料。

於一示範實施例中，該方法包含遮罩該主影像的一部份，以及保留主影像資料之該經遮罩的部份。於其它實施例中，該方法包含遮罩該主影像的一部份，用以提供一經遮罩的部份及一未經遮罩的部份，以及將該語音資料內嵌至該經遮罩的部份及該未經遮罩的部份兩者之中，其中該未經遮罩的部份中每個像素所儲存的語音資料多於該經遮罩的部份。該影像可以為一數位照片。

本發明可延伸至一種處理一內嵌影像以抽出語音資料的方法，該方法包括：對該內嵌影像的亮度成份實施離散小波轉換或離散餘弦轉換中其中一者；確認與該語音資料相關之經量化的大小值資料；預估和該經確認之大小值資料相關的相位資料；以及以該經量化的大小值資料及該相位資料為基礎產生一輸出語音信號。

該方法可以包括預估該內嵌影像中內含的每個格狀碼的大小值，以及縮放該等格狀碼用以對其進行正規化，以便提供該經量化的大小值資料。於一示範實施例中，在確認該經量化的大小值資料以前，該方法包括從複數個已編碼的子頻帶中抽出複數個格狀通道碼，從每個碼之最大絕對值中預估出一縮放倍數，從一D₄ 格狀碼中找出匹配者，以及逆量化該匹配者以提供STFT大小值資料。

該方法可以包括將該語音資料模型化成一組已知的數值，每個已知數值均具有一代表該已知數值中之信心水準的對應權值，其中零權值表示的係一未知的數值，而該語音資料之經抽出的STFT大小值則會被視為已知的數值。每個權值皆可被模型化成一經抽出的有雜訊的格狀碼與其最接近的格狀碼間之距離的函數。

進一步根據本發明，其提供一種處理一主影像的系統，該系統包括：影像處理電路系統，其係用以接收該主影像；語音處理電路系統，其係用以接收語音資料；以及一內嵌模組，其係用以將該語音資料內嵌至該主影像之中，以提供一內嵌影像，其中可從該內嵌影像中自由地還原該語音資料。

本發明可延伸至一種從一主影像中抽出語音資料的系統，該系統包括：影像處理電路系統，其係用以接收該主影像並且提供該主影像的亮度成份；以及語音處理電路系統，其係用以從該亮度成份中抽出該語音資料並且提供可自由抽出的的語音資料。

該系統可以包括一離散小波轉換模組，用以對該主影像的亮度成份實施離散小波轉換；一確認模組，用以確認與該亮度成份相關之經量化的大小值資料；以及一相位還原模組，用以預估和該經確認之大小值資料相關的相位資料並且以該經量化的大小值資料及該相位資料為基礎產生一輸出語音信號。

本發明還可延伸至一機器可讀取媒體其係具有一指令序列，當某一機器執行該等指令時，便可讓該機器執行本文所述之方法中任何一者以上，或是其可被配置成用以實現本文所述之系統中任何一者以上。本發明亦可延伸至數位相機以及含有該數位相機的行動電話。

從下面隨附的示範圖式與說明中將會瞭解本發明的其它特點。

本文係敘述一種用於處理數位影像資料的方法與系統。於下文的說明中，為達解釋的目的，將會提出許多明確的細節以供透徹地瞭解本發明。不過，顯而易見的係，即使沒有該些明確的細節，熟習本技藝的人士亦可實現本發明。本文會參考將語音資料內嵌至一靜態影像(例如由數位相機所攝得的照片或是「快照(snap-shot)」)或是從一靜態影像中抽出語音資料來說明本發明。不過，吾人將會發現，本發明亦可套用於包含視訊與其它多媒體環境的任何數位信號處理應用中。

於本發明的一示範實施例中提供一種將語音信號(例如言詞信號)內嵌至一彩色主影像(例如靜態影像)中的方法與系統。下文將會更詳細地說明，該語音信號的短期傅立葉轉換(STFT)的該等大小值可被格狀編碼且注入至一主影像的小波轉換或離散餘弦轉換的一子頻帶中。於本發明的其中一實施例中，「會說話的圖片」的前提係，可以利用任何的電腦或處理裝置(例如，但不限於，個人數位助理(PDA)、蜂巢式電話、數位相機、個人電腦(PC)、或是類似的處理裝置)來捕捉及/或播放。不過，本發明將以數位相機為例來加以說明。另外，吾人將會發現，本文所述的數位相機或是其任何組件均可被併入PDA、蜂巢式電話、網路相機、或是任何其它電腦或處理裝置之中。

特別參考圖1，元件符號10一般表示的係一根據本發明一示範實施例的示範性數位相機。圖中的相機10包含一光學系統或影像捕捉模組12用以捕捉影像。據此，相機10可以包含一光學系統控制器14，用以控制該影像捕捉模組12；而且可選擇地，還可以包含一影像處理模組16，用以處理接收自該影像捕捉模組12的數位影像(例如以數位資料的形式出現)。舉例來說，該影像捕捉模組12可以係一慣用的CCD偵測器或是類似的裝置。於其中一實施例中，該影像捕捉模組12會捕捉靜態主影像或「照片」，接著便會將其饋送至一靜態影像處理器18中進行處理。接著，該等靜態影像便會透過一I/O介面20被傳送至一外部裝置及/ 或被儲存於一抽取式儲存裝置22之中。為控制數位相機10的運作，可提供一記憶體/相機控制程式與資料模組24。

為捕捉語音(例如言詞或類似的語音)，該相機10包含一語音捕捉模組26。而且視情況還會包含一語音處理模組28。接著，便可將語音資料饋送至該靜態影像處理器18之中，然後該靜態影像處理器18便會如下文更詳細說明般地將該語音資料內嵌至該影像捕捉模組12所捕捉到的主影像之中。吾人將會發現，圖1中所示的各種模組均僅為示範性模組，進一步或其它的模組當然亦可以被併入該示範性數位相機10的不同實施例之中。舉例來說，蜂巢式電話內所提供的數位相機便可以包含不同的模組，以幫助整合至該蜂巢式電話之中。另外，舉例來說，數位相機10還可能包含其它的模組，以幫助整合至PDA、網路相機、或是類似的裝置之中。因此，吾人將會發現，視該相機的特殊應用而定(例如獨立式相機、PDA、蜂巢式電話相機、或是類似的應用)，該示範性數位相機10可以包含不同的模組。

參考圖2，元件符號30一般表示的係一根據本發明一實施例的示範性系統，用以處理一影像以便於其中內嵌語音資料。於其中一實施例中，該影像係一靜態影像，而該系統30則可以被併入數位相機10的靜態影像處理器18之中。不過，吾人將會發現，系統30可以為獨立式單元，或是亦可以被整合於可捕捉一主影像(靜態影像或視訊影像)的任何其它電腦裝置之中。

系統30包含複數個功能模組，用以處理一RGB主影像信號(或資料)32以及一語音信號(其示範形式為言詞信號(或資料))34。雖然圖中所示之系統30包含複數個分離的功能模組，不過，吾人將會發現，亦可將各種模組組合或整合成單一個功能單元，而且亦可於其它的實施例中併入其它的模組。另外，該被捕捉的主影像亦可能係其它的格式，而不限為RGB影像。於該示範性系統30中，可由影像處理電路系統31以及語音處理電路系統33來提供該等各種模組。

圖中所示的示範性系統30包含一RGB至YCbCr轉換模組36、一離散小波轉換模組38、一濾波器模組40、一感知分析模組41、一短期傅立葉轉換(STFT)模組42、一量化器模組44、一D₄ 格狀碼模組46、一查表模組48、一反向離散小波轉換模組50、以及一YCbCr至RGB轉換模組52。如下文更詳細說明般，於其中一示範實施例中，該系統30允許微量的語音劣化，其中，僅有一STFT的大小值會被編碼且內嵌至該主影像之中。另外，該系統30還可能會使用一適配式格狀碼來編碼該語音資料，更詳細的說明如下。

圖3為根據本發明的示範性方法60，用以藉由將語音資料內嵌至RGB主影像信號32之類的主影像中以處理數位影像。

方法60可套用至任何裝置中來處理任何的數位影像，以便將語音資料併入主影像資料之中，不過，本文將以系統30為範例來說明該方法60。

如作業步驟62處所示，系統30係接收該RGB主影像信號32，而後便會於作業步驟64處實施色彩空間轉換，用以將RGB成份(或資料)轉換成Y、Cb、以及Cr通道(參見RGB至YCbCr轉換模組36)。因此，於經過色彩空間轉換之後，該RGB主影像信號32便會分別被轉換成不同的彩度與亮度通道或成份66、68(參見圖3中的作業步驟70)。可利用數位資料來定義該等彩度通道66與亮度通道68。

接著，方法60便會於作業步驟72處實施示範性的二階離散小波轉換，用以提供中間亮度資料74，以便饋送至感知分析模組41之中(參見作業步驟76)。作業步驟76中的感知分析會以人體視覺系統為基礎來使用感知資訊，致使於肉眼看見該主影像時，被內嵌於該主影像之中的語音資料對該主影像的改變會非常地小。於本發明的其中一實施例中，該感知分析模組41可使用和數位水印法中目前唯一套用者雷同的技術。另外，中間亮度資料78會被饋送至濾波器模組40之中，用以選擇且過濾(例如零濾除)一個以上的子頻帶(參見作業步驟80)，以便提供經濾波處理的亮度資料87。

回到作業步驟76處的感知分析，經感知適配處理的亮度子頻帶資料82會結合84處的語音資料(參見作業步驟86)，用以提供經感知適配處理的語音資料88。而後，如89處所示，該經感知適配處理的語音資料88便會結合該經濾波處理的亮度資料87，用以提供經修正的亮度資料91(參見作業步驟90)。如作業步驟92處所示，可對該經修正的亮度資料91實施逆離散小波轉換(參見逆離散小波轉換模組50)。

接著，已經被該逆離散小波轉換模組50進行過逆轉換的該經修正的亮度資料91便會結合彩度成份66，並且於YCbCr至RGB轉換模組52處從YCbCr成份被轉換成RGB成份。因此，該YCbCr至RGB轉換模組52的經過處理的輸出或是內嵌影像56便係已於其中內嵌該語音信號(或資料)34的RGB主影像信號(或資料)32。

於其中一示範實施例中，可以使用該經小波轉換的亮度資料的LL-HH子頻帶100(參見圖7以及圖2的感知分析模組41)來內嵌或收容該語音資料。於其它實施例中則可使用高頻子頻帶102，因為其可提供較高的容量，因此能夠內嵌或收容更多的語音資料，而且該被輸出的內嵌影像56中該主影像信號或資料32潛在的感知失真情形也會比較小。不過，高頻子頻帶102卻很容易受到對該內嵌影像56所實施之損失型影像壓縮的影響。亦可使用該主影像的低頻子頻帶104來內嵌該語音資料，不過卻可能會引起感知失真且可容納該語音資料34的容量亦可能會比較低(因而可收容或內嵌於該主影像中的語音資料會比較少)。因此，於其中一實施例中使用的係LL-HH子頻帶100，因為其可於高頻子頻帶102(其具有潛在的損失性影像壓縮特徵)和低頻子頻帶104(其可內嵌語音資料的容量可能相當低)之間達到合理的平衡效果。於其中一特殊的實施例中，針對一低JPEG壓縮設定值於該HH子頻帶102中併入該語音資料34便可將通道容量提高約五倍的等級。

元件符號110(參見圖4)一般表示的係一根據本發明的示範性方法，其可處理語音資料，以便內嵌至一主影像之中。於其中一實施例中，方法110係用來處理系統30的主影像資料32中的語音資料34(參見圖2)。如作業步驟112處所示，該方法110可接收該語音資料(例如其代表的係任何的語音信號)，舉例來說，其可能係於8kHz處取樣的數位言詞。隨後如作業步驟114處所示，可對該語音資料進行短期傅立葉轉換(STFT)(舉例來說，參見圖2的STFT模組42)，接著便可丟棄該經過轉換之頻譜資料的相位(STFT相位)，並且可量化(例如量化成24階)該經過轉換之頻譜資料的大小值(STFT大小值)，如作業步驟116處所示。吾人將會發現，丟棄相位可能會損及該語音，降低其品質，不過，卻仍可提供足夠資訊用於稍後來還原該語音。隨後，便可將該經量化的大小值映對至一D₄ 格狀碼(參見作業步驟118)。該方法110的輸出可提供4維(4D)的通道編碼語音資料，如上述般，該資料可結合該經過感知適配處理的亮度子頻帶資料82，用以提供該經感知適配處理的語音資料88。

於其中一示範實施例中，當該方法被設計在系統30之上時，該方法110便可接收已經過具有50%重疊之STFT轉換的8位元、8kHz言詞形式的語音資料34，而後便會丟棄該相位。每個頻譜大小值均可被(均勻地)量化成24階，以匹配一D₄ 格狀碼的第一碼殼。於其中一實施例中，實行該映對的方式可讓一格狀碼於遭到附加性雜訊破壞之後僅會於其所代表的資料(即該STFT大小值)中造成最小的誤差。據此，此條件便可達到僅會對被內嵌於該RGB主影像或資料32中的語音資料造成微量劣化的目的。於其中一實施例中，適配碼可用來分析該主影像中的某個區域，並且響應該分析結果，依據人類視覺對頻率、亮度、以及對比遮罩的敏感度來審慎決定碼強度。舉例來說，高頻或特徵顯著的區域中可接受較大的失真，據此，便可使用很高的碼強度以達更大的完整性，同時又可維持感受透明度(於標準的觀看條件下，該主影像的失真相當低)。於明亮的低頻區域中，例如晴朗的藍色天空，則可使用很低的碼強度來改良透明度，不過卻得犧牲強韌性(於內嵌影像經過線性或非線性運算之後必須修正語音資料)。於其中一實施例中，可使用以此頻率敏感度為基礎的簡單技術，其中一小波子頻帶的係數可決定一區域的頻率內容。以其所取代的對應子頻帶係數(參見圖3中的作業步驟76)為基礎來縮放一格狀碼便可設計出感知適配性作用。舉例來說，於D₄ 格狀碼的情況中，可以其將取代的該等四個子頻帶係數的最大絕對值來推導出該縮放倍數。

舉例來說，Scale=max(|D _i |) (1)

其中，0≦i≦3，且D_i 為要被取代之經選定的子頻帶的四個係數。

S=Scale^＊ S_global (2)

P=S_min ，假使S<S_min ，S_max ，假使S>S_max ，或是所有其它的情況中 (3)

其中，係新的係數，C_i 係格狀碼，S_global 係整體的縮放倍數，S_min 與S_max 則可限制失真情形。D_i 與S_global 可共同決定格狀碼S的強度並且提供感知分析元素。高頻區域的S可能比較大，其可改善遮罩失真情形。

於其中一實施例中，S_min 、S_max 與S_global 等變數均係可調整的。S_min 可設定因該內嵌語音所造成的該主影像的最小失真，而且提高S_min 便可導致整體較大的完整性，不過卻可能會提高影像失真。S_max 則可限制因該內嵌語音所造成的該主影像的最大失真。於其中一種範的設計方式中，S_global 可設為1.0，S_min 可能等於1.0或2.0，而S_max 則可能等於4.0。於S_min =1.0處，失真的情形可能比較不明顯。雖然本發明係參照格狀碼來說明，不過，吾人將會發現，於其它實施例中亦可使用二進制碼(或是任何其它適當的技術)。不過，於特定的情況中，格狀碼可提供較高的抗雜訊效果。

特別參考圖5，元件符號120一般表示的係一根據本發明的示範性系統，用以處理一數位影像以便從該數位影像(舉例來說，內嵌主影像122)中擷取或抽出語音資料。舉例來說，該系統120可用來實現方法124(參見圖6)。該系統120包含一RGB至YCbCr轉換模組126、一離散小波轉換模組128、一格狀碼抽出模組130、一縮放倍數預估模組 132、一匹配模組134、一逆量化器模組136、一濾波器模組138、以及一相位還原模組140。如下文更詳細的說明，該系統120與該方法124可抽出該內嵌影像122中的內嵌語音資料。因此，舉例來說，可擷取或重建被內嵌於該RGB主影像資料32之中的語音資料34(參見圖2)。舉例來說，該系統120與該方法124亦可能會被併入數位相機10之中。不過，於其它實施例中，該系統120與該方法124亦可能係位於PDA、含有相機的蜂巢式電話、或是任何其它計算裝置(例如PC)之中，以便可以再生該裝置所收到之影像中內嵌的語音資料並且可觀看該主影像。當再生該數位影像之後，便可將一視覺二維影像(對應於該主影像)顯示給一使用者觀看，並且可同時重播或再生被內嵌於該影像之中伴隨的語音資料。據此，含有該內嵌資料的數位影像便有如一「會說話的照片」或是「會說話的圖像」。吾人將會發現，當該語音資料34被內嵌於該主影像資料32內以後，該影像資料32與該語音資料34便會構成一獨特的實體或載體媒體。據此，兩個不同的檔案並不會互相交換，而該語音與視覺資料則會被合併或混雜在一起，而複製拷貝該影像則會同時複製拷貝該語音資料。

返回系統120與方法124，如作業步驟142處所示(參見圖6)，該系統120(圖5)可接收該內嵌影像122(例如對應於圖2的內嵌影像56)，而後(若必要的話)便會轉換RGB成份以提供YCbCr成份，如作業步驟144處所示(同樣參見RGB至YCbCr轉換模組126)。接著，亮度資料(Y)146便會被饋送至該離散小波轉換模組128之中，該模組係實施離散小波轉換(參見作業步驟148)，而後便會從該等編碼子頻帶中抽出該格狀碼(參見作業步驟150與抽出模組130)。格狀碼抽出模組130的輸出可能係一縮放後的4-D通道碼，接著便可作業步驟152處對其進行進行縮放倍數預估(同樣參見縮放倍數預估模組132)，用以產生一會被饋送至該匹配模組134之中的正規化4-D通道碼，以便找出最佳或適當的匹配對象。匹配模組134會搜尋該格狀碼模組46，找出最佳或適當的匹配對象，並且產生經量化(例如被量化成24階)的係數(參見作業步驟154)，該係數會被逆量化(參見逆向量化器模組136)以取得一STFT大離散小波轉換模組128(參見作業步驟156)。接著便會過濾該STFT大離散小波轉換模組128(參見作業步驟158)以移除雜訊(例如鹽點/胡椒點雜訊)並且實施高斯平滑處理(參見濾波器模組138)。接著，該經過濾波處理的STFT大小值便會被饋送至該相位還原模組140之中，用以實施相位還原(參見作業步驟160)，而後便會於作業步驟162處提供一輸出語音信號。該輸出語音信號對應於該語音資料34(參見圖2)並且可於一實施例中被視為係經還原的語音信號。

於其中一實施例中，該縮放倍數可被預估為每個係數的最大絕對值，因為所有的第一碼殼D₄ 格狀碼係數均可以會具有一最大的單位大小值。因此，便可產生動態縮放效果，因而不需要額外的編碼便可允許於相同的主影像內產生具有不同強度的碼。

如圖9所示，於其中一實施例中可實施一二階的小波轉換，並且(直接)使用LL-HH子頻帶之四個係數(該等係數會被取代)中的最大值來縮放該格狀碼。因為該影像已經過小波轉換處理，所以該動態縮放作業可以會非常快速且僅需要數道額外的作業。將該格狀碼限定為一D₄ 格狀碼的第一碼殼，便可於解碼期間來預估該縮放倍數而不需要隨著該內嵌影像被傳送。

圖9中，元件符號250一般表示的係一根據本發明的方法，用以將語音資料映對至複數個格狀碼。該格狀碼處理的優點係可最大化該等格狀碼之間的距離以免於受到雜訊影響。於其中一實施例中，理想上，該格狀碼可被充份地縮放以處理一通道的最大雜訊。不過，於水印法的背景中，此作法並不實際，因為通常很難模型化該雜訊模型。即使知道該雜訊模型，該縮放倍數亦可能太大，從而可能造成無法接受的失真。因此，一般來說，仍然會有足夠的雜訊造成一格狀碼被錯誤解碼，並且需要有額外的編碼處理(類似錯誤偵測碼與錯誤校正碼)來對其進行校正，從而便會增加更多計算上的附加資料以及複雜度。不過，於本發明的一實施例中則允許此等誤差而不必校正。取而代之的係，可於該真實碼附近提供該被錯誤解碼的碼。於其中一實施例中，將該等STFT大小值映對至該格狀碼的方式可被設計成符合此需求。舉例來說，方法250(參見圖)所示的便係供D₄ 格狀碼之第一碼殼使用的語音資料的示範映對方式。吾人將會發現，該映對方式可套用至所有的碼殼之中。

如表格252處所示，該語音資料的STFT(參見圖2的STFT模組42)可提供128個STFT大小值，舉例來說，每個的範圍均係從0至255。接著，便可將每個STFT大小值量化成24階(參見作業步驟254與256)。舉例來說，以使用第一大小值M₀ 為例，假設該第一STFT的大小值為164(參見表格252)，那麼如作業步驟256處所示，該經量化的數值便可以如下：=round(M₀ /255^＊ 23)(於此假定範例中其結果等於15)

而後如作業步驟258處所示，便可從該D₄ 格狀碼的第一碼殼表格260中取得一對應的D₄ 格狀碼。於該假定的範例中，該格狀碼L等於(1、0、-1、0)。

於該示範性方法250中，可使用該LL-HH子頻帶來內嵌該語音資料。據此，便可取得該LL-HH子頻帶中該主影像的子頻帶數值(參見LL-HH子頻帶表格262)。舉例來說，如作業步驟264處所示，對該示範性第一STFT大小值M₀ 來說，可以取得該等前面四個係數C₀ (-2.4、6.9、4.6、以及-0.5)。而後，如作業步驟266處所示，便可使用一簡單的最大值函數來預估該頻率內容以實施感知分析。舉例來說，S=max(|-2.4|、|6.9|、|4.6|、|-0.5|)，其結果為6.9

接著便可對該數值實施鉗止處理，使其落在(S_min =2、S_max =4)範圍內，因此，數值6.9便可被鉗止處理成4。

接著可將所得到的數值(本範例中的「4」)乘以格狀碼L(本假定範例中為(1、0、-1、0))以提供一經修正或經縮放的格狀碼L’(本假定範例中為(4、0、-4、0))。接著便可使用該些數值來取代該LL-HH子頻帶中的該等前面四個係數(參見表格268)。

D₄ 格狀碼表格260所示的係用於映對每個STFT大小值的格狀碼的範例，不過，於其它的實施例中亦可使用其它的映對方式。吾人將會發現，排序24個格狀碼的方式共有24！(階乘)種方式。據此，於本發明的其中一實施例便會對該等格狀碼加以排序。舉例來說，位於一4-D空間中的24個點的該等24個格狀碼可以下面的方式來進行排序：

1.可針對每個格狀碼C_i (其中i的範圍從0至23，參見表格260)進行下面的計算：D_i =含有C_i 之一4-D平面(其正規值(norm)為N)至原點(0、0、0、0)的距離。

正規值(N)可以任意選擇，不過，於其中一實施例所選擇的正規值則可最小化聯繫關係(tie)。為簡化起見，可選擇N=(1、1、1、1)。

2.接著便可依照D_i 的遞減順序來儲存該等格狀碼。

3.可藉由竭盡地求出每種可能的順序來變換排列相同D_i 的複數個格狀碼。K可以係相同D_i 的碼數。因為K可以很小(例如3)，所以其組合數為K！<<24！。順序的選擇方式可讓兩個相鄰碼之間的歐幾里德距離總和為最小。吾人將會發現，可以事先產生該等格狀碼(例如於格狀碼模組46 及D₄ 格狀碼表格260之中)。一編碼器與解碼器可以係具有相對應的格狀碼表格，而於其中一示範實施例中則會公開該等格狀碼表格以供自由取用。於其中一示範實施例中，於進行編碼期間，每個經量化的STFT大小值均會直接映對至一格狀碼。因為於該解碼器處可以係接收到遭雜訊破壞的已正規化格狀碼，所以可能要針對一匹配項(例如一具有最小歐幾里德距離的項)來搜尋整個格狀碼表格。

上述的方法250提供一種用於將語音資料映對至複數個格狀碼的示範性方法。舉例來說，以反向的方式來實施上面所提及的步驟中至少其中一部份便可達到從該內嵌主影像中抽出該語音資料的目的。於其中一實施例中，可以下面的方式來抽出該語音。一開始時，可從該主影像中抽出該格狀碼。於本發明其中一實施例中，含有該語音資料的該等格狀碼係供一般大眾自由取用的，所以具有適當硬體的任何人均可解碼該等格狀碼。據此，於其中一實施例中，當將本發明套用至相機10之類的數位相機中時，該相機10便可能兼具內嵌功能以及抽出功能。一旦抽出該格狀碼之後，便可決定縮放倍數。於其中一實施例中，該D₄ 格狀碼的第一碼殼可能僅含有元素0、1、-1，所以該預估作業便非常地簡單。舉例來說，可取用該格狀碼中最大的大小值。於圖9所提供的範例中，該經縮放的原始格狀碼L’(4、0、-4、0)可以係遭到某種雜訊破壞而抽出(3.2、-1.4、-4.5、2.1)的結果。接著該格狀碼係數的最大大小值便可等於max(|3.2|、|-1.4|、|-4.5|、|2.1|)=3.2。據此，便可選擇3.2作為縮放倍數。而後，便可將該等格狀碼除以最大大小值(本假定範例中為3.2)，並且可於一D₄ 格狀碼表格(對應於D₄ 格狀碼表格260)中搜尋歐幾里德距離最近的碼。舉例來說，假使最大大小值=0的話(當被抽出的格狀碼為(0、0、0、0)時即如此)，。該格狀碼可以係被歸類為不詳，而對應的STFT大小值則會設為零。

於特定的實施例中，可以係實施後處理以改良被抽出之STFT大小值的品質。舉例來說，可以移除鹽點與胡椒點雜訊。舉例來說，假設某一像素代表該STFT大小值，那麼對每個像素來說，便可能會計算一5x5視窗的平均像素值。假使該像素值與該平均像素值相差32的話，那麼便可將該像素值設為該平均值。如下文更詳細的說明，另一替代的後處理方法則可運用挽推式功能來移除鹽點雜訊與胡椒點雜訊，其可套用至離散小波轉換與離散餘弦轉換中。在Gortler S.J.、Grzeszczuk R、Szeliski R、Cohen M.F.於1996年的Computer Graphics，Annual Conference Series中所發表的「The Lumigraph」中便說明過該挽推式功能，本文以引用的方式將其內容併入。於特定的情況中，假使雜訊群集成大間隙時，那麼上述兩種方法的效能便可能非常差。舉例來說，圖14A之天空區域中的所有格狀碼可以係造到嚴重破壞，從而喪失語音的整個部份。其中一種解決方式係於進行編碼之前先重新組合該STFT大小值。此作法的效應係可分散誤差。接收器可於雜訊削減之後解開該重新組合結果。於其中一實施例中，可使用一具有3x3視窗且標準差=1的標準高斯核心來提供額外的高斯平滑處理。

於其中一實施例中，該內嵌的語音資料並不會經過加密或編碼，因此，並未禁止某一使用者抽出該語音資料，所以，該使用者便可自由地抽出該語音資料。另外，不同於水印法與資料隱藏法(兩者中內含於該主資料中的資料係被隱藏或隱匿起來，以防止使用者抽出該資料)，於本發明的其中一實施例中，該語音資料34係被內嵌於該主影像34中該影像之已知部份中並且可被自由地抽出，而不必知道加密密鑰或任何其它秘密資訊。舉例來說，於水印法中，多媒體分配者通常會試圖獨特地確認其數位內容，致使於發生任何未經授權的分配時，其便可確認該未經授權之分配的來源。一數位水印係一被插入一數位影像之中的數位信號或圖案，其僅可確認特定的影像，並且僅內含極少量的資料方能達成此目的。數位水印法與加密法的差異在於，其會留下完整且可辨認的原始影像。多媒體分配者亦可使用加密法來防止未經授權地複製該媒體。數位內容分配者亦可使用資料隱藏法來併入僅能被已經授權的人士擷取的資料。和數位水印相反的係，資料隱藏法允許隱藏較大量的資料，不過，兩項技術的目的均為防止使用者從該主影像中抽出該被隱藏的資料。不過，於本發明的其中一實施例中，任何人均可自由地抽出該語音資料，而且並不受限於任何抽出方式。據此，舉例來說，相機10所攝得的照片便可被發送給家人及/或朋友，他們於觀看該照片時便可重播該語音。因此，舉例來說，該內嵌語音可能包含問候語、訊息、或是類似的語音，其會伴隨一靜態影像，從而提供一張「會說話的照片」。

於特定的實施例中，可以係將該STFT的大小值與相位內嵌至該主影像之中，不過，如此一來，相較於僅將該語音資料的大小值內嵌於該主影像32所需要者，該語音資料卻可能需要兩倍的頻寬或內嵌面積(假設有50%的重疊)。據此，於其中一示範實施例中便會丟棄相位，而僅將大小值內嵌於該主影像之中。因此，便可減少該主影像中內含的語音資料的總量(總位元數)。雖然亦可以係降低該語音的實際品質，不過卻可提供較長的語音播放時間供一假定數量的內嵌語音資料來使用(亦如可於該主影像中內嵌較長的訊息)。

下文將提出一種用於從該STFT大小值中還原該相位(或是預估的相位)的示範性方法與系統(可利用相位還原模組140來設計-參見圖5)。不過，吾人將會發現，本發明並不必受限於下文提出的示範實施例，於不同的實施例中亦可使用任何還原技術以從一STFT大小值信號中來還原相位。

參考圖8，元件符號180一般表示的係一根據本發明的方法，用以從被內嵌於一主影像中的語音資料中來重建一語音信號。該方法180可能係一非互動式的重建技術，其可使用於即時的應用中或是使用於計算資源相當稀少的情況中或是使用於希望限制此等計算數量的情況中。吾人將會發現，本發明並不受限於此示範性的重建技術。

如作業步驟182處所示，該方法180係接收STFT大小值資料，而後便會於該等STFT大小值中確認峰值(參見作業步驟184)。該STFT大小值中的該等峰值被假設為對應於該信號中的正弦，且如作業步驟186處所示，該方法180會藉由將一拋物線適稱至每個峰值附近的複數個FFT小倉(例如三個FFT小倉)用以預估每個正弦(峰值)的瞬間頻率。吾人將會發現，亦可使用3個以上或以下的小倉。接著，該方法180便會找出該拋物線具有最大值(或是近似其最大值)的頻率(或是近似的頻率)。接著，該方法180便會使用先前訊框處的相位以及從瞬間頻率中算出的相位增量來計算或預估該等峰值小倉的相位(參見作業步驟188)。而後，如作業步驟190處所示，可以使用逆STFT技術(例如標準的STFT技術)從該等STFT大小值中重建該語音信號。

於特定的實施例中，可以使用任何的演算法來確認該頻譜中的該等正弦峰值。舉例來說，可檢查一小倉大小值是否大於其位於該峰值左側的兩個相鄰者以及其位於該峰值右側的兩個相鄰者。於另一實施例中，當該分析考量到不會被錯認為正弦峰值的側葉時，則可提供更有效的結果。於另一實施例中，則可檢查一峰值的形狀是否匹配吾人預期的真實正弦的形狀。

一旦計算出一假定峰值的瞬間頻率ω 之後，便可以下面的公式得到訊框k處的新相位ψ_k ：ψ_k =ψ_k-1 +2πωR (5)

其中R為取樣中的跳躍大小，而ω 則為經正規化的頻率。

可將該相位套用至該峰值小倉周圍的該等FFT小倉。可針對每個個別峰值來重複執行該項程序。於其中一實施例中，於缺少任何先驗知識的情況中可針對ψ₀ 使用任意的初始相位。該反向FFT可以係產生一於n=0附近具有最大值的短期信號。於該些情況下，該等相等的相位可以係被指派給該等峰值附近的該等小倉，據此，該FFT便係「零相位」，其中的信號可能係以n=0為中心。將該FFT的輸出圓形移動半個視窗大小便可獲得最後的輸出短期信號。

於特定的情況中，該方法180可合理地近似或重建該語音資料。不過，於其它的實施例中，吾人將會發現，亦可使用各種其它的重建技術來增強語音信號的重建結果。於其中一實施例中，該方法180可以包含一連串的Griffin-Lim反覆作業。

因此，於其中一實施例中，該語音資料可能被假設包括複數個正弦，並且可依照該等正弦瞬間頻率的預估值來更新該等峰值附近的該等STFT相位。

於本發明的其中一實施例中，如上面範例所述，可將該資料處理系統30及/或該資料處理系統120併入一可攜式的數位相機中。據此，該數位相機的使用者(例如一般大眾)可於拍攝靜態圖像時同時記錄語音片段或訊息，接著便可將該語音片段內嵌至一主影像之中，接著便可透過一蜂巢式電話網路將該主影像儲存於該數位相機之中或是進行交換。接著，用於接收該數位影像的任何裝置均可從該數位影像中來擷取或抽出該語音資料，而且當觀看該數位影像時，便可自動產生或再生該語音資料。據此，於上述的其中一實施例中，本發明會提供一「會說話的照片」或是「會說話的圖像」，其中會整合該語音資料與影像資料。

於本發明的其中一實施例中，該內嵌的語音資料可能至少一部份會從損失型的格式轉換(舉例來說，從BMP格式轉換成TIFF格式，從BMP格式轉換成Targa格式，或是類似的轉換)中存活下來。於其中一實施例中，該數位語音(例如數位言詞)可從損失型壓縮(例如JPEG壓縮)中存活下來，於較高的壓縮比例中僅具有微量的劣化。另外，於特定的實施例中，常見的影像處理標準程序(例如鮮明化處理、顏色平衡處理、伽瑪處理、亮度與對比調整處理、以及旋轉90°)亦同樣可能不會實質損及該語音資料。

於本發明的其中一實施例中，該內嵌的語音資料會僅可能以透明的方式來內嵌，以便降低變更該原始靜態影像(主影像)的程度。不過，和數位水印及數位隱藏法不同的係，於本發明的其中一實施例中，被內嵌於該靜態影像中的該語音資料希望可被任何人使用相容的裝置來自由擷取或還原。因為該語音資料希望可被自由地還原，所以，還原技術並不保持私密且可以係被公開，而且不需要任何的加密密鑰或類似的秘密資訊便可擷取該語音資料。

於上述的該示範實施例中，會對該等亮度通道或成份68實施離散小波轉換(DWT)(參見圖2中的離散小波轉換模組38)。於另一示範實施例中則會使用離散餘弦轉換(DCT)。

現在參考該等圖式中的圖10，元件符號300一般表示的係一根據本發明之實施例的示範性系統，用以處理一影像以便於其中內嵌語音資料。該系統300和系統30類似，據此，圖中會使用相同的元件符號來表示相同或雷同的元件。不過，於系統300中，將會使用離散餘弦轉換模組302、DCT濾波器模組304、DCT感知分析模組306、以及逆離散餘弦轉換模組308來取代系統30中的離散小波轉換模組38、濾波器模組40、以及感知分析模組41。如同系統30的情況般，該系統300亦可配合任何提供數位相機技術的電子裝置來使用，甚至整合於其內部。當將該系統300併入該數位相機10中時，便可使用JPEG格式來壓縮資料。

於系統300中，會先於該離散餘弦轉換模組302中將該等影像分割成複數個示範性的8x8區塊。此分割作業可於使用JPEG技術或MPEG技術進行影像壓縮期間來實施。而後，便可使用直接餘弦轉換來轉換該等示範性的8x8區塊，用以產生具有DCT係數之另外的8x8區塊，以便提供中間亮度資料78給該DCT濾波器模組304。於其中一示範實施例中，會對應於一中間頻帶來選擇(例如事先選擇)一群係數。接著，便會利用該DCT濾波器模組304來過濾(例如零濾除)該等經選定的係數，以便提供經濾波處理的亮度資料87。該離散餘弦轉換模組302也會提供中間亮度資料74給該DCT感知分析模組306以便提供經感知適配處理的亮度資料82，其會結合源自該查表模組48的語音資料的該等格狀碼，如84處所示。接著，經感知適配處理的語音資料88便會如89處所示般地取代該等經選定的係數，用以提供經修正的亮度資料91，該資料會被饋送至該逆離散餘弦轉換模組308之中。接著，該經過逆轉換的資料便會被饋送至YCbCr至RGB轉換模組52之中，以便於該處進行如上面參考圖2所述般的處理。

因此，於該系統300之中，該系統30的離散小波轉換處理已經被離散餘弦轉換處理取代。同樣地，圖3的方法60中的作業步驟72、76、以及80亦已經過修正成實施離散餘弦轉換處理，而非實施離散波形轉換處理。於該示範性的系統300中，於映對至該等格狀碼以前會先使用STFT來轉換該語音(例如言詞)，從而可提供微量的語音劣化。

現在參考圖11，元件符號310所示的係一示範性的8x8離散餘弦轉換(DCT)係數區塊，其中有四個DCT係數312、314、316、以及318已經被來自該查表模組48的格狀碼取代。於其中一示範實施例中，每個格狀碼會取代四個係數且每個8x8係數區塊310均僅會被編碼成一個STFT大小值。和該等離散小波係數(參見圖9)中的情況相同，選擇更多的係數(例如高頻的係數)便可提高該主影像的語音儲存容量，不過其卻可以係降低完整性。舉例來說，於使用者已經選擇高品質影像的數位相機(例如數位相機10)中，該相機可以係儲存以最小JPEG壓縮法所攝得的圖像的數位影像，而由於該最小JPEG壓縮法的關係，較高頻的DCT係數並不會受到負面的影響。因此，於其中一示範實施例中，可使用該些高頻係數來進行格狀編碼，進而可增強該數位影像容納語音資料的容量。於其中一示範實施例中，以和離散小波轉換的情況雷同的方式，針對DCT感知分析306來說，可取將會被取代的該等四個DCT係數的最大絕對值作為該縮放倍數。舉例來說，於圖11中，縮放倍數S=max(|-15|、|-12|、|-17|、|0|)=17。

圖12中的元件符號320一般表示的係根據本發明的另一實施例，用以處理從一內嵌影像中抽出語音。該系統320實質上與系統120雷同，據此，圖中會使用相同的元件符號來表示相同或雷同的元件。不過，於系統320中會使用離散餘弦轉換模組322與格狀碼抽出模組324來取代圖5的離散小波轉換模組128與格狀碼抽出模組130。該離散餘弦轉換模組322會將該亮度資料146(YCbCr成份)分割成複數個示範性的8x8區塊，並且對每個區塊實施離散餘弦轉換。接著，格狀碼抽出模組324便會從該等經過編碼的DCT係數中抽出該格狀通道碼，用以提供一經過縮放的4-D通道碼，如同上面於離散小波轉換實施例中參考圖5所述般，該經過縮放的4-D通道碼會被饋送至該縮放倍數預估模組132之中。相同地，方法124(參見圖6)亦可於作業步驟148與150中修改為實施離散餘弦轉換處理。

於其中一示範實施例中，重建遭到破壞的STFT大小值可於該濾波器模組138中模型化成一二維的散亂資料近似值。舉例來說，可以利用Gortler S.J.、Grzeszczuk R、Szeliski R、Cohen M.F.於1996年的Computer Graphics，Annual Conference Series中所發表的「The Lumigraph」中提出的挽推法來填充所生成的間隙，本文以引用的方式將該份文獻的內容併入。此挽推法的輸入係一組已知的數值，其中零權值表示的則係一未知的數值。將該挽推法套用至該等系統30、300，該等已抽出的STFT大小值則可視為已知的數值，而其權值則可模型化成已抽出的有雜訊的格狀碼和其最近的(最匹配)的格狀碼間的距離的函數。零距離(例如完美的匹配)則可表示最大的權值。套用該些示範技術：w=1-d (6)

其中w為權值，w=0則表示最低的信心水準；而d則係已抽出的有雜訊的格狀碼和其最匹配者間的歐幾里德距離：

其中，該已抽出的格狀碼C=(C₁ 、C₂ 、C₃ 、C₄ )，且該最匹配的格狀碼M=(M₁ 、M₂ 、M₃ 、M₄ )

於其中一示範實施例中，並不會使用整個或實質整個主影像來內嵌該語音資料，取而代之的係會使用一遮罩來限制該主影像中欲內嵌該語音資料的部份或區域。示範性遮罩330(參見圖13B)的輪廓係橢圓形，而凡是位於該橢圓形之內的示範影像332(參見圖13A)的任何部分則均會被保留(例如互斥保留)以供影像資料來使用。因此位於該橢圓形外部的區域334便可用來內嵌該語音資料。吾人將會發現每個實施例中的遮罩的形狀及/或尺寸均可能不相同，並且可以係相依於被該主影像捕捉到的圖像的特性而有所不同。圖14A所示的係一用於遮罩僅欲提供影像資料的主影像338(參見圖14B)中某個區域的遮罩336的另一示範實施例。於該遮罩336中，語音資料僅會被內嵌於區域340之中。吾人將會發現，亦可提供具有任何適當形狀及/或尺寸之任何數量的遮罩。因此，語音資料便可被內嵌於任何部份之中，甚至被內嵌於整個主影像之中。

於其中一示範實施例中，該等遮罩330、336本質上可能係二元式或離散式(也就是，「1」對應的係含有語音資料的區域，而「0」對應的則係不含語音資料的區域)。因此，舉例來說，該等遮罩330、336可以係界定一僅包含不包括語音資料在內的影像資料以及複數個主像素，其中會保留一零遮罩值(原始的影像資料仍然維持不變)。不過，吾人將會發現，該等示範遮罩330、336本質上亦可能係連續式(也就是，介於「0」與「1」之間的數值表示的係特定區域中應該內嵌的語音資料的輕重濃烈程度)。因此，遮罩處理可讓使用者(或電子電路系統)於該主影像中選擇一可忍受失真的區域並且於其中內嵌該語音資料，並且保留該主影像的重要區域。另外，該語音資料亦可同時被內嵌於一被遮罩的部份以及一未被遮罩的部份之中，其中該未被遮罩的部份之中每個像素所儲存的語音資料多於該被遮罩的部份。因此，所儲存的語音資料的「密度」會隨著該內嵌影像中不同的影像部份而有所不同。

該遮罩可以係由使用者定義的，或者使用者亦可選擇數個預設遮罩中的其中一者。就使用者定義的遮罩來說，用於處理該內嵌影像以從該數位影像中擷取或抽出語音資料的該等系統120、320(參見圖5與12)可以係包含一稍後會於該抽出過程中被使用到的對應遮罩。舉例來說，當於產生該內嵌影像56中使用到一預設值遮罩時，該等系統120、320便會辨識於該內嵌過程期間所使用的係何種預設遮罩，然後便會使用一對應的預設遮罩從該內嵌影像中抽出該語音。舉例來說，可利用一外部輸入(例如使用者選擇信號)來辨識該相關的遮罩，該接收器可竭盡地試驗所有該等預設遮罩並且使用具有最高信心係數的遮罩；或者亦可使用任何其它的辨識構件，例如可將一辨識符號內嵌於該主影像之中、可提供標籤、或是任何其它的辨識符號。於其中一實施例中，可使用公式(7)來決定該信心係數。

吾人將會發現，於該主影像之中內嵌該語音資料可以係造成影像失真。影像失真的程度會相依於被內嵌於該主影像之中的語音資料的數量或總量。不過，藉由如上述般地適配性控制該格狀碼縮放倍數便可降低失真的程度。此外，亦可使用遮罩處理來控制該內嵌影像中因為內嵌該語音資料而發生失真的區域。不過，吾人將會發現亦可使用各種其它技術來降低該主影像的失真。

舉例來說，該等內嵌影像可以係於一顯示裝置(例如電腦螢幕、電視機、PDA顯示器、數位相機顯示器、蜂巢式電話顯示器、或是類似的顯示裝置)上被觀看，或是會被印出。當於一1280x1024像素的監視器上觀看整個非常高解析度的影像(例如5百萬像素影像)時，便可以係降低該影像取樣。此降低取樣程序通常係一低通濾波處理，因而其便可有效地移除因被內嵌於該主影像之中的語音資料所導致的任何失真。因此，該使用者便可能不會看見該失真。於特定的列印場景中，由於印表機的點增益與顫動處理(dithering process)會平滑化該失真的關係，所以幾乎很難看見該失真。

於其中一示範實施例中，觀看器應用(其瞭解使用本文所述之離散餘弦轉換技術所進行的內嵌處理)可藉由實施正向離散餘弦轉換來移除該內嵌的語音資料，濾除(零輸出)該等被選出的係數，並且餘顯示該影像以前先利用逆離散餘弦轉換來處理該內嵌主影像。吾人將會發現，於該方法中使用離散小波轉換來至換離散餘弦轉換，便可使用離散小波轉換來使用相同的方法。於另一示範實施例中，該格狀碼縮放倍數可匹配與該影像相關的雜訊，例如於影像捕捉過程期間被引進的相機或感測器雜訊。從可交換的影像檔案格式(EXIF標頭)中便可測量或預估該雜訊。舉例來說，使用數位相機所捕捉到的影像可能會含有因透鏡及/或感測器所引起的特定程度的雜訊。於較高的ISO層處，此雜訊便可以非常地清楚。舉例來說，於傳統的類比底片相機中，拍照者可以係選用對光較敏感的高ISO值底片，不過其卻會造成更多的「細粒」。於數位相機中，高ISO值則對應於高感測器(CCD或CMOS)增益，所以其會於原始影像中造成更大的雜訊。因為該原始影像已經含有部份雜訊，所以，便會試圖以和該感測器雜訊相同的程度來限制水印處理所造成的失真(其看起來就像是雜訊)，因而便會將該失真隱藏於該感測器雜訊之中。可以選擇格狀碼縮放倍數，致使因內嵌該經縮放後的格狀碼所造成的失真不會超過感測器雜訊所造成的失真。因此，便可將該格狀碼有效地隱藏於該雜訊之中。於本發明的另一示範實施例中，該語音資料可以係內含於一EXIF檔(舉例來說，一EXIF標頭)之中，據此，該語音資料便更能夠於檔案格式轉換中存活下來。於另一示範實施例中，舉例來說，該等STFT大小值可以係於該影像的產生期間被直接黏貼(例如，不會被隱藏)於該影像之上。於其中一示範實施例中，可運用和方法110的作業步驟112、114、116(參見圖4)中所提供者雷同的作業步驟於編碼期間來產生該言詞或聲音提示條。於其中一示範實施例中，因為灰階影像通常具有256階，所以可將該大小值量化成256階而非24階。不過，吾人將會發現，亦可將該大小值量化成任何階數。

現在參考該等圖式中的圖15，元件符號350一般表示的係一內嵌主影像，其中語音資料係位於主影像354的選定區域352之中。可以「言詞提示條」或「語音提示條」的方式來提供該語音資料，其包含上面參考圖2所述之從該語音資料中所產生的STFT大小值。於其中一實施例中，該言詞提示條會提供可供作正常灰階影像的STFT大小值。吾人將會發現可從該內嵌影像中抽出該言詞提示條，然後再將其顯示於該經選定的區域352之中。

於其中一示範實施例中，該言詞或語音提示條係覆蓋或「被(直接)黏貼」於該主影像之上。此作法可讓使用者使用裁剪與黏貼的功能來編輯該言詞提示條，並且可以混合兩個以上的言詞或語音提示條。因為該言詞或語音提示條係該影像的一部份，所以，其可於各種影像處理技術、影像格式轉換、以及類比-數位轉換中存活下來。於圖16所示的示範實施例中，一內嵌主影像具有一延伸部份358以容納該語音資料(例如位於言詞或語音提示條360、362之中)。不過，於有一位以上說話者(照片中被捕捉到的另一人的影像)的的情況中，與說話者(照片中被捕捉到的其中一人的影像)的空間關係卻可能會遺失。於其中一實施例中可以係提供標記364、366，每個標記分別充當一對應言詞提示條360、362的索引記號。一電子裝置(例如任何的數位處理裝置)均可偵測且解碼該等標記364、366以及該等言詞提示條360、362。舉例來說，當某位使用者將指標(例如滑鼠的指標)移至該等標記364、366中其中一者處時，便可從其相關的語音提示條中再生對應於該被辨識的標記的言詞或語音。

於上述的該等示範實施例中，於將該語音資料內嵌至該主影像中時使用的係格狀編碼法。不過，於其它的實施例中亦可使用其它的技術。舉例來說，亦可使用量化索引調變(QIM)技術來內嵌該等STFT大小值。Brian Chen與Gregory W.Wornell於2001年5月的IEEE Transaction on Information Theory，第47冊，第4號，第1423-1443頁中所發表的「Quantization Index Modulation：A class of provably good methods for digital watermarking and information embedding」便說明到此種QIM技術，本文以引用的方式將其內容併入。

當套用QIM技術時，在編碼該數位語音資料(「簽章」)時，該等經量化的DCT係數可以係受到干擾而具有偶數值或奇數值。雖然此項技術被視為無損失式的方式，不過，當於常用的影像處理作業下(例如當讓該影像變亮時)而未保留被內嵌的語音資料時，其便可能相當脆弱。該方法可能需要完全控制一編碼或解碼模組，因此，於部份實施例中，假使允許使用者使用任意的影像編輯軟體的話，那麼便可能並不適用該方法。然而，假使提供此控制的話，那麼此方法便可於該主影像中內嵌高品質且高容量的語音資料。假使該被內嵌的目標影像格式係JPEG的話，那麼上述的適配式格狀編碼技術便可能比較合適。於特定的實施例中，該QIM方法可以係藉由估算其脆弱特性而具有優質數。舉例來說，假使一影像中的某個區域經過修改，那麼，由於該等對應區塊中的該等格狀碼可能會遭到破壞或具有很低的信心水準，所以便可偵測到此修改情形。於其中一示範實施例中，可運用此副作用來提供一特性偵測機制。

於本文透過範例所說明的本發明可提供或是可用來提供一整合影像(例如數位照片)與語音(例如聲音或言詞)的單一媒體。因此便可提供一同時含有影像與語音的單一檔案 (例如JPEG檔)。另外，該單一檔案中的內容(主影像與語音資料)可於檔案格式轉換中存活下來。於其中一示範實施例中可以語音為基礎來實施「照片搜尋」。因此便可以其中內嵌的語音資料為基礎來找出數位影像。於本發明的其中一示範應用中，本文所述的方法與系統可藉由於該影像中內嵌一使用者自己的聲音用來提供一種保護措施，例如可防止他人剽竊該影像。

為達本份說明書的目的，「影像」一詞應該被廣義地看待且不應僅限於照片、視訊片段、或是類似的影像。「影像」一詞希望涵蓋任何的二維代表影像並且可能係照片影像之類的影像；文件、文字所組成的影像；或是類似的影像。

圖17所示的係一具有該電腦系統200之示範形式的機器的代表示意圖，其中可執行一組指令，用於讓該部機器來實施本文所討論的任何其中一種方法。於替代的實施例中，該機器可以包括一網路路由器、一網路橋接器、一個人數位助理(PDA)、一蜂巢式電話、一網路家電、或是能夠執行用於規定該部機器應該執行的動作的一組/系列指令的任何機器。

圖中所示的電腦系統200包含一匯流排212，其能夠互連各子系統，例如：一中央處理器214、一系統記憶體216、以及各種外部裝置(例如透過語音卡220來連接揚聲器218、透過顯示轉接器224來連接顯示螢幕222、透過平行埠228來連接印表機226、透過輸入/輸出(I/O)控制器234 來連接指標裝置(例如滑鼠230與鍵盤232)、透過主轉接器240來連接固定式碟片機236與CD-ROM/DVD驅動器238、連接網路介面卡242、以及連接磁碟機244用以運作來接收磁碟246)。

吾人將會發現，亦可連接許多其它的裝置或子系統(圖中未顯示)，例如掃描裝置、觸控螢幕、以及其它裝置。另外，實現本發明時並不需要圖17中所示的所有裝置。當該電腦系統呈現PDA或蜂巢式電話的形式時，舉例來說，其便可能不包含滑鼠230、磁碟機244、固定式碟片機236...等。再者，亦可以不同於圖17所示的組態來互連該等裝置與子系統。本技藝中已經熟知電腦系統200的運作方式，所以本文不作詳細討論。

為達本份說明書的目的，「機器可讀取媒體」一詞應該包含任何媒體，該媒體能夠儲存或編碼一連串的指令，用於讓該部機器來執行並且用於讓該部機器來實施本發明的任何其中一種方法。據此，「機器可讀取媒體」一詞應該包含，但不限於，固態記憶體、光碟與磁碟、以及載波信號。

用於實現本發明之部份實施例的軟體可被操作性地(完全或部份)置放於系統記憶體216之中、置放於耦合該匯流排212的子系統(例如語音卡220、中央處理器214)之中、或是儲存於儲存媒體(例如固定式碟片機236、磁碟246、或是可配合CD-ROM/DVD驅動器238來運作的CD-ROM/DVD 248)之中。

可以各種方式來設計匯流排212。舉例來說，可將該匯流排212設計成一區域匯流排、一序列匯流排、一平行埠、或是一擴充匯流排(例如ADB、SCSI、ISA、EISA、MCA、NuBus、PCI、或是其它的匯流排架構)。系統記憶體216可以係隨機存取記憶體(RAM)、動態RAM(DRAM)、或是其它的記憶裝置。

因此，本文已經說明一種用於處理數位影像的方法與系統。於其中一實施例中，可於一靜態彩色主影像中內嵌言詞信號之類的語音資料。雖然本文係參考特定的示範實施例來說明本發明，不過，理所當然的係，亦可對該些實施例進行各種修改與改變，其並不會脫離本發明的廣義精神與範疇。據此，本說明書與該等圖式均應視為僅具解釋用途，而不具任何限制意義。

10‧‧‧數位相機

12‧‧‧影像捕捉模組

14‧‧‧光學系統控制器

16‧‧‧影像處理模組

18‧‧‧靜態影像處理器

20‧‧‧I/O介面

22‧‧‧抽取式儲存裝置

24‧‧‧記憶體/相機控制程式與資料模組

26‧‧‧語音捕捉模組

28‧‧‧語音處理模組

30‧‧‧資料處理系統

31‧‧‧影像處理電路系統

32‧‧‧RGB主影像信號

33‧‧‧語音處理電路系統

34‧‧‧語音信號

36‧‧‧RGB至YCbCr轉換模組

38‧‧‧離散小波轉換模組

40‧‧‧濾波器模組

41‧‧‧感知分析模組

42‧‧‧短期傅立葉轉換(STFT)模組

44‧‧‧量化器模組

46‧‧‧D₄ 格狀碼模組

48‧‧‧查表模組

50‧‧‧逆離散小波轉換模組

52‧‧‧YCbCr至RGB轉換模組

56‧‧‧內嵌影像

66‧‧‧彩度通道

68‧‧‧亮度通道

74‧‧‧中間亮度資料

78‧‧‧中間亮度資料

82‧‧‧經感知適配處理的亮度資料

84‧‧‧語音資料

87‧‧‧經濾波處理的亮度資料

88‧‧‧經感知適配處理的語音資料

91‧‧‧經修正的亮度資料

100‧‧‧LL-HH子頻帶

102‧‧‧高頻子頻帶

104‧‧‧低頻子頻帶

120‧‧‧資料處理系統

122‧‧‧內嵌影像

126‧‧‧RGB至YCbCr轉換模組

128‧‧‧離散小波轉換模組

130‧‧‧格狀碼抽出模組

132‧‧‧縮放倍數預估模組

134‧‧‧匹配模組

136‧‧‧逆量化器模組

138‧‧‧濾波器模組

140‧‧‧相位還原模組

146‧‧‧亮度資料

200‧‧‧電腦系統

212‧‧‧匯流排

214‧‧‧中央處理器

216‧‧‧系統記憶體

218‧‧‧揚聲器

220‧‧‧語音卡

222‧‧‧顯示螢幕

224‧‧‧顯示轉接器

226‧‧‧印表機

228‧‧‧並列埠

230‧‧‧滑鼠

232‧‧‧鍵盤

234‧‧‧輸入/輸出(I/O)控制器

236‧‧‧固定式碟片機

238‧‧‧CD-ROM/DVD驅動器

240‧‧‧主轉接器

242‧‧‧網路介面卡

244‧‧‧磁碟機

246‧‧‧磁碟

248‧‧‧CD-ROM/DVD

300‧‧‧資料處理系統

302‧‧‧離散餘弦轉換模組

304‧‧‧離散餘弦轉換濾波器模組

306‧‧‧離散餘弦轉換感知分析模組

308‧‧‧逆離散餘弦轉換模組

320‧‧‧資料處理系統

322‧‧‧離散餘弦轉換模組

324‧‧‧格狀碼抽出模組

330‧‧‧遮罩

332‧‧‧影像

334‧‧‧遮罩外部的區域

336‧‧‧遮罩

338‧‧‧影像

340‧‧‧語音內嵌區域

350‧‧‧內嵌主影像

352‧‧‧具有語音資料的區域

354‧‧‧主影像

356‧‧‧內嵌主影像

358‧‧‧延伸部份

360‧‧‧言詞或語音提示條

362‧‧‧言詞或語音提示條

364‧‧‧標記

366‧‧‧標記

本發明僅透過該等附圖之圖式中的範例加以闡述，而不具限制性，其中除非特別提及，否則相同的元件符號表示的係相同或雷同的元件。

於該等圖式中：圖1所示的係一根據本發明之示範性數位相機的示意方塊圖；圖2所示的係一根據本發明用於處理一數位影像的影像處理系統之實施例的示範功能性單元的示意方塊圖；圖3所示的係一根據本發明用於處理一數位影像的示範方法的示意流程圖；圖4所示的係一根據本發明用於處理語音資料以內嵌至一主影像中的方法的示意流程圖；圖5所示的係一根據本發明用於從一內嵌影像中抽出語音的語音處理系統之實施例的示範功能性單元的示意方塊圖；圖6所示的係一根據本發明用於從一內嵌影像中抽出語音資料的語音處理方法的示意流程圖；圖7所示的係一數位影像的示範小波子頻帶；圖8所示的係一根據本發明用於從衍生自原始語音信號的大小值資料中重建語音資料的語音處理方法的示意流程圖；圖9所示的係一根據本發明用於將STFT大小值內嵌至一主影像的一子頻帶中的示範方法；圖10所示的係一根據本發明用於處理一數位影像的影像處理系統的另一實施例的示範功能性單元的示意方塊圖；圖11所示的係一示範8x8離散餘弦轉換(DCT)係數方塊，其中有四個DCT係數已經被一格狀碼取代；圖12所示的係一根據本發明用於從一內嵌影像中抽出語音的語音處理系統的另一實施例的功能性單元的示意方塊圖；圖13A、13B、14A以及14B所示的係示範性主影像以及用於定義一影像中可排除語音內嵌作用之部份的示範性關聯遮罩；圖15與16所示的係影像的示範性螢幕顯示以及由「語音提示條」或是「言詞提示條」所表示之該等影像的關聯語音；以及圖17所示的係一具有該電腦系統之示範形式的機器的代表示意圖，其中可執行一組指令，用於讓該部機器來實施本文所討論的任何其中一種方法。