TWI729350B

TWI729350B - 基於感知的圖像處理裝置及相關方法

Info

Publication number: TWI729350B
Application number: TW108102720A
Authority: TW
Inventors: 劉子明; 蔡長宏; 吳東興; 林嘉瑩; 陳立恆; 周漢良; 朱啟誠
Original assignee: 聯發科技股份有限公司
Priority date: 2018-01-26
Filing date: 2019-01-24
Publication date: 2021-06-01
Also published as: TW201933277A; CN110087071A; CN110087071B

Abstract

基於感知的圖像處理裝置包括圖像分析電路和應用電路。圖像分析電路獲得訓練資料，根據訓練資料設置感知模型，執行至少一圖框的對象檢測，並至少部分地基於該至少一個圖框的對象檢測的結果生成對象檢測資訊訊號。應用電路響應於對象檢測資訊訊號而操作。

Description

基於感知的圖像處理裝置及相關方法

相關申請的交叉引用：本發明主張在2017年08月08日提出的第62/542,376號的美國臨時專利申請和在2018年01月26日提出的第62/622,239號的美國臨時專利申請的優先權，在此合併參考該申請案的申請標的。

本發明的所公開實施例涉及圖像處理，更具體地，涉及基於感知的圖像處理裝置和相關方法。

智慧型手機近來越來越受歡迎，同時每天生成大量視訊並通過網路傳送。當前的語音/視訊應用程式將能夠保持可接受的體驗質量(quality of experience，QoE)，但功耗是影響智慧型手機的整體感知質量(overall perceived quality)的最重要的關鍵影響因素之一。視訊圖框可以在智慧型手機上編碼以進行傳送或存儲。因此，需要優化視訊編碼器(例如，視訊編碼器的功耗)，同時保持視訊圖框的感知視覺質量(perceived visual quality)。

一個智慧型手機可配備有一個或複數個相機。當相機在操作中時，可以啟用自動聚焦(auto-focus，AF)功能以聚焦在用戶手動選擇的圖像區域上，並且可以啟用自動曝光(auto-exposure，AE)功能以根據用戶手動選擇的圖像區域的照明條件來設置孔徑尺寸和/或快門速度。因此，有需要在沒有或較少用戶介入(intervention)的情況下執行AF功能和/或AE功能。

根據本發明的示例性實施例，提出了基於感知的圖像處理裝置和相關方法。

根據本發明的第一方面，公開了一種示例性的基於感知的圖像處理裝置。示例性基於感知的圖像處理裝置包括圖像分析電路和應用電路。圖像分析電路用於獲取訓練資料，根據訓練資料設置感知模型，執行至少一圖框的對象檢測，並至少部分地基於至少一個圖框的對象檢測的結果生成對象檢測資訊訊號。應用電路用於響應於對象檢測資訊訊號而操作。

根據本發明的第二方面，公開了示例性的基於感知的圖像處理方法。示例性的基於感知的圖像處理方法包括：獲得訓練資料；根據訓練資料設置感知模型；執行至少一個圖框的對象檢測，並至少部分地基於該至少一個圖框的對象檢測的結果生成對象檢測資訊訊號；根據對象檢測資訊訊號控制應用電路。

在閱讀了在各個附圖和附圖中示出的優選實施例的以下詳細描述之後，本發明的這些和其他目的無疑將對本領域普通技術人員變得顯而易見。

100:基於感知的圖像處理裝置

102、200、900、910:圖像分析電路

103:感知模型

104:應用電路

202:視覺感知處理電路

203:深度學習模型

204:主觀感知處理電路

205:主觀感知模型

206:外部感測設備

302:單個圖框

304:複數個圖框

306:圖像

308:運動向量圖

312、602、702、802、1012、1212、1312:第一區域

314、604、704、704、1014、1214、 1314:第二區域

402、404、502、504、512~518:區域

403:像素

405:區塊

606、706、806:同位區域

920:用戶介面

930:照相機

940:存儲設備

950:用戶圖庫

960:感知模型

970:主觀感知處理電路

912:VCFNet

913、914、915:潛在VCF對象

1000:關注意識視訊編碼器

1002:位元率控制器

1004:預測引擎

1006、1008:多工器

1016:第一圖像區域

1018:第二圖像區域

1200、1300:圖像訊號處理器

1202:AF候選檢測引擎

1204:AF機械控制引擎

1216:同位圖像區域

1302:AE候選檢測引擎

1304:AE機械控制引擎

1316:圖像區域

第1圖是根據本發明的實施例的基於感知的圖像處理裝置的示意圖。

第2圖是根據本發明的實施例的第一種圖像分析電路的示意圖。

第3圖是根據本發明的實施例的一個視覺感知圖(visual perception map)的生成的示意圖。

第4圖是根據本發明的實施例的具有不同解析度設置的複數個視覺感知圖的示意圖。

第5圖是根據本發明的實施例的具有不同級別設置的複數個視覺感知圖的示意圖。

第6圖是根據本發明的實施例的第一種主觀感知處理場景的示意圖。

第7圖是根據本發明的實施例的第二種主觀感知處理場景的示意圖。

第8圖是根據本發明的實施例的第三種主觀感知處理場景的示意圖。

第9圖是根據本發明的實施例的第二種圖像分析電路的示意圖。

第10圖是根據本發明的實施例的第三種圖像分析電路的示意圖。

第11圖是根據本發明的實施例的日常使用模式的操作的示意圖。

第12圖是根據本發明的實施例的個人人工智能(artificial intelligence，AI)模式的操作的示意圖。

第13圖是根據本發明的實施例的關注意識(attention aware)視訊編碼器的示意圖。

第14圖是根據本發明的實施例的強度圖(strength map)的示意圖。

第15圖是根據本發明的實施例的具有自動聚焦功能的圖像訊號處理器的示意圖。

第16圖是根據本發明的實施例的具有自動曝光功能的圖像訊號處理器的示意圖。

在說明書及後續的申請專利範圍當中使用了某些詞彙來指稱特定的元件。所屬領域中具有習知技術者應可理解，電子裝置製造商可能會用不同的名詞來稱呼同一個元件。本說明書及後續的申請專利範圍並不以名稱的差異來作為區分元件的方式，而是以元件在功能上的差異來作為區分的準則。在通篇說明書及後續的請求項當中所提及的「包含」係為一開放式的用語，故應解釋成「包含但不限定於」。以外，「耦接」一詞在此係包含任何直接及間接的電氣連接手段。因此，若文中描述一第一裝置耦接到一第二裝置，則代表該第一裝置可直接電氣連接於該第二裝置，或透過其他裝置或連接手段間接地電氣連接至該第二裝置。

第1圖是根據本發明的實施例的基於感知的圖像處理裝置的示意圖。例如，基於感知的圖像處理裝置100可以是諸如智慧型手機的移動設備的一部分。然而，使用所提出的基於感知的圖像處理裝置100的任何電子設備都落入本發明的範圍內。如第1圖所示，基於感知的圖像處理裝置100包括圖像分析電路102和應用電路104。圖像分析電路102被配置為：獲得訓練資料D_TR，根據該訓練資料D_TR設置感知模型(由“M_P”表示)103，執行圖框D_IN的對象檢測(例如，人類視覺關注(human visual attention)分析)，以及至少部分地基於圖框D_IN的對象檢測結果生成對象檢測資訊訊號(例如，人類視覺關注資訊訊號)S_OUT。例如，感知模型103可以是深度學習模型，其中深度學習模型可以根據訓練資料D_TR來構建，並且可以在建立深度學習模型後根據更新後的訓練資料D_TR來重新校準(即，重新訓練)。在本發明的一些實施例中，訓練資料D_TR可以從外部感測設備和/或用戶資料庫獲得。對象檢測可以指人類視覺關注以從輸入圖框(例如，圖像)F識別一個或複數個對象。然而，人類視覺關注分析僅僅是根據感知模型103執行的對象檢測的一個示例。在實踐中，對象檢測取決於由訓練資料D_TR訓練/重新訓練的感知模型103的設計。例如，對象檢測可以指人類聽覺關注(human auditory attention)以從輸入圖框(例如，圖像)F中識別一個或複數個對象。對於另一個示例，對象檢測可以指人類運動/動作以識別一個或複數個來自輸入圖框(例如，圖像)F的對象。這些替代設計都落入本發明的範圍內。

應用電路104被佈置為響應於對象檢測資訊訊號S_OUT而操作。考慮由圖像分析電路102執行的對象檢測包括人類視覺關注分析的情況。可以執行人類視覺關注分析以預測輸入圖框(例如，圖像)F中的視覺關注區域(例如，視覺接觸區域)。因此，對象檢測資訊訊號S_OUT包括輸入圖框F中的預測的視覺關注區域的資訊。當用戶實際觀看輸入圖框F時，輸入圖框F中的視覺關注區域(例如，視覺接觸區域)將吸引用戶的注意力，使得用戶的眼睛被吸引到視覺關注區域(例如，視覺接觸區域)。對象檢測資訊訊號S_OUT可以用於指示輸入圖框F中的視覺關注區域(例如，視覺接觸區域)的位置。因此，應用電路104參考由對象檢測資訊訊號S_OUT提供的資訊，以對輸入圖框F中的視覺關注區域採取適當的動作。應當注意的是，術語“視覺關注區域”可以表示視覺關注/視覺接觸的單個區域或視覺關注/視覺接觸的區域的集合，並且術語“非視覺關注區域”可以表示非視覺關注/非視覺接觸的單個區域或非視覺關注/非視覺接觸的區域的集合。此外，取決於實際設計考慮，輸入圖框F可以是或可以不是由圖像分析電路102分析的圖框D_IN之一。

第2圖是根據本發明的實施例的第一種圖像分析電路的示意圖。可以使用第2圖所示的圖像分析電路200來實現第1圖中所示的圖像分析電路102。在該實施例中，圖像分析電路200包括視覺感知處理電路202和主觀(subjective)感知處理電路204。視覺感知處理電路202被佈置為通過執行圖框D_IN的人類視覺關注分析來生成視覺感知圖M_VP。例如，視覺感知處理電路202通過使用深度學習模型(由“M_DL”表示)203來執行人類視覺關注分析。第1圖中所示的感知模型103可包括第2圖中所示的深度學習模型203。

在該實施例中，視覺感知處理電路202從一個或複數個外部感測設備206獲得訓練資料D_TR，並根據訓練資料D_TR設置深度學習模型203。訓練資料D_TR包括與人類視覺關注有關的資訊。例如，外部感測設備206可以包括相機，麥克風，觸摸感測器，運動感測器(例如，陀螺儀感測器)，和/或生物感測器(例如，腦電圖(electroencephalography，EEG)感測器)；並且訓練資料D_TR可以包括從相機的輸出導出的眼睛跟蹤資料(eye tracking data)，從麥克風的輸出導出的定向音頻資料(directional audio data)，從觸摸感測器的輸出導出的用戶介面(user interface，UI)資料，和/或從生物感測器的輸出導出的生理資料(physiological data)。在根據訓練資料D_TR構建深度學習模型203之後，可以根據從外部感測設備206提供的更新的訓練資料D_TR重新校準/重新訓練深度學習模型203。在本發明的一些實施例中，深度學習模型203可以是由具有2個基本特徵層，5個VCF特徵區塊(VFB)和2個VCF檢測層的完全卷積神經網路(fully convolutional neural network)實現的視覺-接觸-場網路(visual-contact-field network，VCFNet)深度學習模型。然而，這僅用於說明目的，並不意味著是對本發明的限制。深度學習模型203可用於檢測用戶觀看的圖像中的人的對焦區域(即，視覺接觸區域)和離焦區域(即，非視覺接觸區域)。

第3圖是根據本發明的實施例的一個視覺感知圖M_VP的生成的示意圖。序列類型可以包括單個圖框302和複數個圖框304。在圖框D_IN是單個圖框302的情況下，由深度學習模型203處理的單個圖框302可以是將被應用電路104處理的輸入圖框(例如，圖像)F。在圖框D_IN是複數個圖框304的另一種情況下，由深度學習模型203處理的複數個圖框304中的一個可以是將被應用電路104處理的輸入圖框(例如，圖像)F。此外，序列格式可以包括圖像資料，對象運動資料，統計資料等。在序列格式是圖像資料的情況下，每個圖框D_IN可以是圖像306。在序列格式是對象運動資料的另一種情況下，每個圖框D_IN可以是運動向量圖308。

參照第3圖，通過使用深度學習模型203來處理圖框D_IN，以為輸入圖框F生成視覺感知圖M_VP。視覺感知圖M_VP的尺寸可以與輸入圖框F的尺寸相同。即，視覺感知圖M_VP和輸入圖框F具有相同的寬度和相同的高度。在該示例中，視覺感知圖M_VP包括第一區域312和第二區域314，其中第一區域312指示輸入圖框F中的預測的視覺關注區域，並且第二區域314指示輸入圖框F中的預測的非視覺關注區域。深度學習模型203可以將第一值分配給第一區域312中的每個像素，並且可以將第二值分配給第二區域314中的每個像素，其中第一值不同於第二值。換句話說，視覺感知圖M_VP中的第一值的分佈意味著在輸入圖框F中的預測的視覺關注區域的分佈，並且視覺感知圖M_VP中的第二值的分佈意味著輸入圖框架F中的預測的非視覺關注區域的分佈。

第3圖中所示的視覺感知圖M_VP僅用於說明目的，並不意味著是對本發明的限制。實際上，視覺感知圖M_VP可以是解析度可縮放的(resolution scalable)和/或級別可縮放的(level scalable)，這取決於實際的設計考慮因素。圖。第4圖是根據本發明的實施例的具有不同解析度設置的複數個視覺感知圖的示意圖。第4圖的子圖(A)示出了具有逐像素解析度(pixel-wise resolution)的視覺感知圖M_VP。區域402指示視覺關注區域，並且由於逐像素解析度而根據像素403來定義。第4圖的子圖(B)示出了具有逐區塊解析度(block-wise resolution)的視覺感知圖M_VP。區域404指示視覺關注區域，並且由於逐區塊解析度而根據區塊405來定義。每個區塊由MxN像素組成，其中M和N是正整數。圖。第5圖是根據本發明的實施例的具有不同級別設置的複數個視覺感知圖的示意圖。第5圖的子圖(A)示出了視覺感知圖M_VP，其中每個像素由二進制值(即，單個位元值)來設置。因此，屬於指示視覺關注區域的區域502的每個像素被分配有一個二進制值(例如，“1”)，並且屬於指示非視覺關注區域的區域504的每個像素被分配有另一個二進制值(例如，“0”)。第5圖的子圖(B)示出了視覺感知圖M_VP，其中每個像素由多級值(即，多位元值)來設置。因此，屬於指示具有最高視覺關注概率的區域的區域512的每個像素被分配有第一級值(例如，兩個位元值“11”)，屬於指示具有中等視覺關注概率的區域的區域514的每個像素被分配有第二級值(例如，兩個位元值“10”)，屬於指示最低視覺關注概率區域的區域516的每個像素被分配有第三級值(例如，兩個位元值“01”)，並且屬於指示非視覺關注區域的區域518的每個像素被分配有第四級值(例如，兩個位元值“00”)。

在從第2圖所示的視覺感知處理電路202生成視覺感知圖M_VP之後，隨後的主觀感知處理電路204被佈置為將主觀感知分析至少應用於視覺感知圖M_VP，並根據主觀感知分析的結果確定輔助質量圖(auxiliary quality map)M_AQ。輔助質量圖M_AQ包含人類視覺關注的資訊，並且由對象檢測資訊訊號S_OUT傳送。在該實施例中，主觀感知處理電路204通過使用主觀感知模型(由“M_SP”表示)205來執行主觀感知分析。主觀感知處理電路204採用的主觀感知模型205可以設置一個或複數個主觀感知指數(subjective perception index)，以控制輔助質量圖M_AQ的生成。例如，主觀感知處理電路204可以採用第一策略來設置或分配第一主觀感知指數，以用於保持編碼視訊的主觀視覺質量，和/或主觀感知處理電路204可以採用第二策略來設置或分配第二主觀感知指數，以用於節省複雜度，帶寬，功率等。主觀感知處理電路204的進一步細節描述如下。

根據第一策略，主觀感知處理電路202通過檢查視覺感知圖M_VP中的區域的尺寸來將主觀感知分析至少應用於視覺感知圖M_VP，其中視覺感知圖M_VP中的區域指示相關輸入圖框F中的預測的視覺關注區域。當視覺感知圖M_VP中的區域的尺寸滿足預定標準CR1時，輔助質量圖M_AQ中的同位區域(co-located region)中的每個像素是根據第一值來設置的。當視覺感知圖M_VP中的區域的尺寸不滿足預定標準CR1時，輔助質量圖M_AQ中的同位區域中的每個像素是根據與第一值不同的第二值來設置的。例如，第一值的分佈用於指示預測的視覺關注區域的分佈，第二值的分佈用於指示預測的非視覺關注區域的分佈。

在視覺感知圖M_VP中的區域太小的情況下，這意味著相關的輸入圖框F中的預測的視覺關注區域太小。因此，用戶意外地觀看相關輸入圖框F中的預測的非視覺關注區域的概率非常高。換句話說，通過使用深度學習方法預測的小尺寸視覺關注區域(small-sized visual attention region)可能與實際吸引用戶注意力的視覺關注區域不同。基於以上觀察，主觀感知處理電路204被設計為去除(remove)視覺感知圖M_VP中的小尺寸區域(其指示預測的視覺關注區域)以生成輔助質量圖M_AQ。以這種方式，應用電路104的操作不受使用深度學習方法預測的小尺寸視覺關注區域的影響。

在視覺感知圖M_VP中的區域太大的另一種情況下，這意味著相關的輸入圖框F中的預測的視覺關注區域太大。因此，用戶意外地觀看相關輸入圖框F中的預測的非視覺關注區域的概率非常低。不需要在輸入圖框F中區分視覺關注區域和非視覺關注區域。基於上述觀察，主觀感知處理電路204被設計為去除視覺感知圖M_VP中的大尺寸區域(其表示視覺關注區域)以生成輔助質量圖M_AQ。以這種方式，應用電路104的操作不受使用深度學習方法預測的大尺寸視覺關注區域的影響。

第6圖是根據本發明的實施例的第一種主觀感知處理場景的示意圖。假設視覺感知圖M_VP由第一區域602和第二區域604組成，其中第一區域602指示預測的視覺關注區域，並且第一區域602中的每個像素由第一值設置，以及第二區域604表示預測的非視覺關注區域，並且第二區域604中的每個像素由第二值設置。包括在第一區域602中的像素的數量(即，第一區域602的尺寸)等於A。包括在第二區域604中的像素的數量(即，第二區域604的尺寸)等於B。當不等式TH_L<

<TH_H為真時，滿足預定標準CR1，其中TH_L和TH_H 是閾值。如第6圖所示，第一區域602的尺寸太小，導致

TH_L。輔助質量圖M_AQ的尺寸可以與視覺感知圖M_VP的尺寸相同，並且輔助質量圖M_AQ可以被視為視覺感知圖M_VP的微調版本(fine-tuned version)。由於不滿足預定標準CR1，因此主觀感知處理電路202設置或分配第一主觀感知指數，並融合(fuse)第一主觀感知指數和視覺感知圖M_VP中的第一區域602，以從輔助質量圖M_AQ中移除第一區域602。參照第6圖，根據第二值設置輔助質量圖M_AQ中的同位區域606中的每個像素。

第7圖是根據本發明的實施例的第二種主觀感知處理場景的示意圖。假設視覺感知圖M_VP由第一區域702和第二區域704組成，其中第一區域702指示預測的視覺關注區域，並且第一區域702中的每個像素由第一值設置，以及第二區域704指示預測的非視覺關注區域，並且第二區域704中的每個像素由第二值設置。包括在第一區域702中的像素的數量(即，第一區域702的尺寸)等於A。包括在第二區域704中的像素的數量(即，第二區域704的尺寸)等於B。當不等式TH_L<

<TH_H為真時，滿足預定標準CR1，其中TH_L和TH_H是閾值。如第7圖所示，第一區域702的尺寸既不太小也不太大，結果是TH_L<

<TH_H。輔助質量圖M_AQ的尺寸可以與視覺感知圖M_VP的尺寸相同，並且輔助質量圖M_AQ可以被視為視覺感知圖M_VP的微調版本。由於滿足預定標準CR1，因此主觀感知處理電路202不設置或分配第一主觀感知指數，使得不對第一區域702進行調整。在輔助質量圖M_AQ中保留視覺感知圖M_VP中的第一區域702。參照第7圖，根據第一值設置輔助質量圖M_AQ中的同位區域706中的每個像素。

第8圖是根據本發明的實施例的第三種主觀感知處理場景的示意圖。假設視覺感知圖M_VP由第一區域802和第二區域804組成，其中第一區域802指示預測的視覺關注區域，並且第一區域802中的每個像素由第一值設置，第二區域804指示預測的非視覺關注區域，並且第二區域804中的每個像素由第二值設置。包括在第一區域802中的像素的數量(即，第一區域802的尺寸)等於A。包括在第二區域804中的像素的數量(即，第二區域804的尺寸)等於B。當不等式TH_L<

<TH_H為真時，滿足預定標準CR1，其中TH_L和TH_H是閾值。如第8圖所示，第一區域802的尺寸太大，導致TH_H

。輔助質量圖M_AQ的尺寸可以與視覺感知圖M_VP的尺寸相同，並且輔助質量圖M_AQ可以被視為視覺感知圖M_VP的微調版本。由於不滿足預定標準CR1，因此主觀感知處理電路202設置或分配第一主觀感知指數，並且融合第一主觀感知指數和在視覺感知圖M_VP中第一區域802以從輔助質量圖M_AQ中移除第一區域802。參照第8圖，根據第二值設置輔助質量圖M_AQ中的同位區域806中的每個像素。

根據第二策略，主觀感知處理電路204通過檢查視覺感知圖(其是當前視覺感知圖)M_VP與由視覺感知處理電路204生成的先前視覺感知圖之間的差異，將主觀感知分析至少應用於視覺感知圖M_VP。當視覺感知圖(即，當前視覺感知圖)M_VP與先前視覺感知圖之間的差異滿足預定標準CR2時，輔助質量圖(即，當前輔助質量圖)M_AQ由主觀感知處理電路204生成的先前輔助質量圖來設置。當視覺感知圖(即，當前視覺感知圖)M_VP與先前視覺感知圖之間的差異不滿足預定標準CR2時，輔助質量圖(即，當前輔助質量圖)M_AQ是從視覺感知圖(即當前視覺感知圖)M_VP來導出的。

視覺感知圖M_VP與先前視覺感知圖之間的差異可以是絕對差之和(sum of absolute difference，SAD)值SAD_VP。例如，可以通過計算視覺感知圖M_VP中的每個像素與先前視覺感知圖中的同位像素之間的基於像素的絕對差值來獲得增量圖(delta map)，並且計算增量圖的絕對差值之和以生成SAD值SAD_VP。當不等式SAD _VP <TH為真時，滿足預定標準CR2，其中TH是閾值。具體地，檢查預定標準CR2以檢測用戶的視覺關注/視覺接觸的穩定性。當滿足預定標準CR2時，意味著由於沒有移動或較小的移動，用戶的視覺關注/視覺接觸是穩定的。先前的輔助質量圖可以直接用作當前輔助質量圖(例如，輔助質量圖M_AQ)，而不需要對當前視覺感知圖(例如，視覺感知圖M_VP)應用進一步的主觀感知處理。當不滿足預定標準CR2時，意味著由於較大的移動，用戶的視覺關注/視覺接觸不穩定。當前輔助質量圖(例如，輔助質量圖M_AQ)是從處理當前視覺感知圖(例如，視覺感知圖M_VP)獲得的。

此外，當當前視覺感知圖(例如，視覺感知圖M_VP)與先前視覺感知圖之間的差異滿足預定標準CR2時，主觀感知處理電路204可使用第二主觀感知指數來指示視覺感知處理電路202，每M個圖框生成一個視覺感知圖；當當前視覺感知圖(例如，視覺感知圖M_VP)與先前視覺感知圖之間的差異不滿足預定標準CR2時，主觀感知處理電路204可以使用第二主觀感知指數來指示視覺感知處理電路202，每N個圖框生成一個視覺感知圖，其中M和N是正整數，M>N。換句話說，當用戶的視覺關注/視覺接觸穩定時，計算一個視覺感知圖的頻率可以減少，從而減少功耗和視覺感知處理的複雜性。然而，當用戶的視覺關注/視覺接觸不穩定時，可以增加計算一個視覺感知圖的頻率。簡而言之，可以根據用戶視覺關注/視覺接觸的穩定性自適應地調整功耗和視覺感知處理的複雜性。

如第2圖所示，視覺感知處理電路202和主觀感知處理電路204均用於生成對象檢測資訊訊號S_OUT。然而，這僅用於說明目的，並不意味著是對本發明的限制。或者，可以省略主觀感知處理電路204。

第9圖是根據本發明的實施例的第二種圖像分析電路的示意圖。第1圖所示的圖像分析電路102可以使用第9圖中所示的圖像分析電路900來實現。圖像分析電路900包括上述視覺感知處理電路202。在該實施例中，視覺感知圖M_VP直接用作輔助質量圖，並且由對象檢測資訊訊號S_OUT傳送。

第10圖是根據本發明的實施例的第三種圖像分析電路的示意圖。第1 圖所示的圖像分析電路102可以使用第10圖中所示的圖像分析電路910來實現。圖像分析電路910獲得訓練資料D_TR，然後根據訓練資料D_TR設置或生成感知模型(由“M_P”表示)960。在該實施例中，感知模型(由“M_P”表示)960可以是具有用戶偏好的深度學習模型。如第10圖所示，感知模型960可以包括偏好模型(由“M_UP”表示)970。可以根據訓練資料D_TR中包括的用戶偏好資料來構建(訓練)感知模型960，然後根據更新的訓練資料D_TR中包括的更新的用戶偏好資料重新校準(重新訓練)。在該實施例中，用戶偏好資料可包括從用戶介面(例如，觸摸感測器)920獲得的用戶輸入資訊INF_UI，由照相機930響應於用戶輸入User_IN生成的最近捕獲圖像IMG_C，和/或從存儲在存儲設備(例如，非易失性存儲器)940中的用戶圖庫950中獲得的圖像資料集DS。例如，圖像分析電路910，用戶介面920，相機930和存儲設備940可以組裝在相同的移動設備(例如，相同的智慧型手機)中。

當在移動設備的觸摸屏上顯示從相機930生成的預覽圖像時，用戶輸入User_IN可以在顯示預覽圖像的對象的部分顯示區域上進行接觸。從觸摸屏的觸摸感測器提供與預覽圖像的對象相關的觸摸資訊，以充當短期用戶偏好資料，其可由圖像分析電路910用於設置(例如，訓練或重新校準)偏好模型970。在一些其他實施例中，可以提供與由用戶使用的設備(例如，移動設備)顯示或生成的圖像的對象的至少一個用戶操作有關的其他資訊，以充當短期用戶偏好資料，其可以由圖像分析電路910使用以設置(例如，訓練或重新校準)偏好模型970。

由相機930生成的最近捕獲的圖像IMG_C可以包括一個或複數個共同對象(common object)。因此，由相機930生成的最近捕獲的圖像IMG_C可以暗示用戶可能對共同對象感興趣，並且該共同對象可以充當短期用戶偏好資料，其可以由圖像分析電路910使用以設置(例如，訓練或重新校準)偏好模型 970。

存儲在存儲設備940中的用戶圖庫950可以暗示用戶的喜愛圖像的集合。例如，用戶圖庫950的至少一部分(即，部分或全部)可以是從相機930生成並存儲到存儲設備940中的捕獲圖像。因此，用戶圖庫950可以具有在很長一段時間內從相機930生成的用戶捕獲圖像(user-captured image)。從存儲在存儲設備940中的用戶圖庫950獲得的圖像資料集(dataset)DS可以充當長期用戶偏好資料，其可以由圖像分析電路910用於設置(例如，訓練或重新校準)偏好模型970。

第11圖是根據本發明的實施例的日常使用模式的操作的示意圖。在日常使用模式下，圖像分析電路910分析用戶捕獲圖像以構建偏好模型970。例如，感知模型960是視覺-接觸-場網路(visual-contact-field network，VCFNet)深度學習模型，並且能夠對用戶偏好進行深度學習。因此，VCFNet 912分析響應於用戶輸入而從相機930(例如，智慧型手機的相機)生成的複數個用戶捕獲圖像IMG_1，以識別用戶捕獲圖像IMG_1中的潛在VCF對象913，914和915。在偏好模型970中記錄和更新潛在VCF對象913，914和915的對象屬性(object attribute)和頻率。如第11圖所示，潛在VCF對象913的對象屬性由“# 1-1，Face”來設置，並且潛在VCF對象913的出現頻率由“300”來設置；潛在VCF對象914的對象屬性由“# 1-2，Face”來設置，並且潛在VCF對象914的出現頻率由“1000”來設置；以及潛在VCF對象915的對象屬性由“# 2，Dog”來設置，並且潛在VCF對象915的出現頻率由“200”來設置。因此，記錄在偏好模型970中的用戶偏好資訊指示用戶可能對潛在VCF對象913比對潛在VCF對象915更感興趣，並且可能對潛在VCF對象914比對潛在VCF對象913更感興趣。

第12圖是根據本發明的實施例的個人(personal)人工智能(AI)模式的操作的示意圖。在構建用戶的偏好模型970之後，可以啟用個人AI模式以根據從偏好模型970提供的用戶偏好資訊從候選VCF對像中選擇偏好VCF對象。例如，VCFNet 912通過分析預覽圖像IMG_2而不考慮記錄在偏好模型970中的用戶偏好資訊，首先識別從相機930(例如，智慧型手機的相機)生成的一個預覽圖像IMG_2中的潛在VCF對象。如第12圖所示，在預覽圖像IMG_2中找到潛在的VCF對象913，914和915。

潛在的VCF對象913，914和915是第12圖中的偏好VCF對象的候選對象。因此，在預覽圖像IMG_2中找到潛在VCF對象913，914和915之後，VCFNet 912參考偏好模型970以從潛在VCF對象913，914和915中選擇偏好VCF對象。潛在VCF對象913具有記錄在偏好模型970中的對象屬性“# 1-1，Face”。潛在VCF對象914具有記錄在偏好模型970中的對象屬性“# 1-2，Face”。潛在VCF對象915具有記錄在偏好模型970中的對象屬性“# 2，Dog”。偏好模型970還記錄潛在VCF對象913的出現頻率是“300”，潛在VCF對象914的出現頻率是“1000”，並且潛在VCF對象915的出現頻率是“200”。出現頻率值指示用戶可能對潛在VCF對象914比對潛在VCF對象913和915更感興趣。因此，VCFNet 912在預覽圖像IMG_2中選擇潛在VCF對象914作為偏好VCF對象。簡而言之，VCFNet 912通過根據偏好模型970對潛在VCF對象913，914和915應用過濾來確定過濾結果。在本發明的一些實施例中，通過深度學習自動識別的在預覽圖像IMG_2中的偏好VCF對象(例如，VCF對象)，可以用作自動對焦(AF)候選或自動曝光(AE)候選。

在一個替代設計中，修改第2圖中所示的視覺感知處理電路202，使用第10圖中的感知模型960來替換深度學習模型203，使得修改後的視覺感知處理電路202具有以用戶偏好進行深度學習的能力。以這種方式，可以通過將具有用戶偏好的深度學習應用於圖框D_IN來生成視覺感知圖M_VP。由於輔助質量圖M_AQ是從視覺感知圖M_VP導出的，因此輔助質量圖M_AQ是使用偏好模型970來生成的。

在另一替代設計中，修改第9圖中所示的視覺感知處理電路202，使用第10圖中所示的感知模型960來替換深度學習模型2033，使得修改後的視覺感知處理電路202具有以用戶偏好進行深度學習的能力。以這種方式，可以通過將具有用戶偏好的深度學習應用於圖框D_IN來生成視覺感知圖M_VP。也就是說，視覺感知圖M_VP是使用偏好模型970來生成的。

對象檢測資訊訊號S_OUT包括輸入圖框F中的對象(例如，視覺關注區域)的資訊。例如，對象檢測資訊訊號S_OUT指示輸入圖框F中預測的視覺接觸區域的位置。因此，第1圖中所示的應用電路104可以參考對象檢測資訊訊號S_OUT，以對輸入圖框F中的視覺關注區域採取適當的動作。

在第一示例性設計中，應用電路104是編碼電路。第13圖是根據本發明的實施例的關注意識視訊編碼器1000的示意圖。第1圖中所示的應用電路104可以使用第13圖中所示的關注意識視訊編碼器1000來實現。關注意識視訊編碼器1000被佈置為參考對象檢測資訊訊號S_OUT以將輸入圖框(例如，用戶捕獲圖像)F編碼到位元流BS中。例如，對象檢測資訊訊號S_OUT可以傳送視覺感知圖M_VP(其是使用/不使用偏好模型970來生成的)或者輔助質量圖M_AQ(其實使用/不使用偏好模型970來生成的)。因此，對象檢測資訊訊號S_OUT可以指示與輸入圖框F的第一圖像區域1016相關的第一值和與輸入圖框F的第二圖像區域1018相關的第二值。如圖第13圖所示，視覺感知圖M_VP(或輔助質量圖M_AQ)包括第一區域1012和第二區域1014，其中第一區域1012中的每個像素由第一值來設置，第二區域1014中的每個像素由第二值來設置，第一值與第二值不同。

關注意識視訊編碼器1000參考第一值以採用第一編碼配置來編碼第一圖像區域1016，並且參考第二值以採用第二編碼配置來編碼第二圖像區域1018。傳統視訊編碼標准通常採用基於區塊的編碼技術來利用空間和時間冗餘。例如，基本方法是將源圖框劃分為複數個區塊(例如，編碼區塊)，對每個區塊執行圖框內預測/圖框間預測，變換每個區塊的殘差，以及執行量化和熵編碼。此外，生成重構圖框以提供用於編碼後續區塊的參考像素資料。對於某些視訊編碼標準，可以使用環路濾波器來增強重建圖框的圖像質量。關於關注意識視訊編碼器1000，可以適當地設置屬於視覺關注區域(視覺接觸區域)的區塊的編碼配置和屬於非視覺關注區域(非視覺接觸區域)的區塊的編碼配置，以改善編碼圖框的視覺質量和/或降低編碼輸入圖框的複雜性。例如，一個區塊可以是H.264/VP8編碼標準中的宏區塊，HEVC編碼標準中的編碼單元，或VP9編碼標準中的超級區塊。

參照第13圖，關注意識視訊編碼器1000包括位元率控制器(rate controller)1002和預測引擎1004。位元率控制器1002用於控制編碼器輸出的位元率。預測引擎1004用於在圖框間預測模式下執行運動估計和運動補償，並且用於在圖框內預測模式下執行圖框內預測。

在本發明的一些實施例中，位元率控制器1002由對象檢測資訊訊號S_OUT控制。因此，位元率控制器1002採用第一編碼配置來編碼包括在第一圖像區域1016中的區塊，第一圖像區域1016是由對象檢測資訊訊號S_OUT指示的視覺關注區域；並且採用第二編碼配置來編碼包括在第二圖像區域1018中的區塊，第二圖像區域1018是由對象檢測資訊訊號S_OUT指示的非視覺關注區域。

可以基於不同的視覺質量來設置第一編碼配置和第二編碼配置。例如，位元率控制器1002確定每個區塊的量化參數(QP)。量化參數控制圖框中每個區塊的壓縮量。較大的量化參數值意味著將存在較高的量化，較多的壓縮和較低的質量。較低的量化參數值則相反。編碼區塊的視覺質量受量化過程使用的量化參數的影響。在一個示例性實現中，位元率控制器1002可以被佈置為支持區塊級量化參數調整，其中用於編碼/解碼一個區塊的量化參數可以與用於編碼/解碼相鄰區塊的量化參數不同。由於第一編碼配置用於編碼包括在被預測為視覺關注區域的第一圖像區域1016中的區塊，因此位元率控制器1002可以在第一編碼配置中設置第一量化參數，其中可以分配較小的值給第一量化參數，用於改善相應編碼區塊的視覺質量。由於第二編碼配置用於編碼包括在被預測為非視覺關注區域的第二圖像區域1018中的區塊，因此位元率控制器1002可以在第二編碼配置中設置第二量化參數，其中可以分配較大的值給第二量化參數。

對於另一示例，位元率控制器1002控制每個區塊的位元分配(bit allocation，BA)。位元分配設置定義用於編碼一個區塊的目標位元。也就是說，一個區塊的位元分配設置意味著一個區塊的目標壓縮尺寸。由位元分配設置分配的較少數量的目標位元意味著將存在較高的量化，較多的壓縮和較低的質量。由位元分配設置分配的較大數量的目標位元則相反。編碼區塊的視覺質量受位元分配結果的影響。在一個示例性實現中，位元率控制器1002可以被佈置為支持區塊級位元分配調整，其中分配用於編碼一個區塊的目標位元可以與分配用於編碼相鄰區塊的目標位元不同。由於第一編碼配置用於編碼包括在被預測為視覺關注區域的第一圖像區域1016中的區塊，因此位元率控制器1002可以具有第一編碼配置中的第一位元分配設置，其中較大數量的目標位元可以包括在第一位元分配設置中，用於改善相應編碼區塊的視覺質量。由於第二編碼配置用於編碼包括在被預測為非視覺關注區域的第二圖像區域1018中的區塊，因此位元率控制器1002可以具有第二編碼配置中的第二位元分配設置，其中較小數量的目標位元可以包括在第二位元分配設置中。

在本發明的一些實施例中，可以基於不同的複雜度來設置第一編碼配置和第二編碼配置。例如，預測引擎1004採用區塊尺寸進行預測。用於預測的區塊尺寸與編碼複雜度負相關(negatively correlated)。第一編碼配置包括用於預測的第一區塊尺寸，第二編碼配置包括用於預測的第二區塊尺寸。由於第二編碼配置用於編碼包括在被預測為非視覺關注區域的第二圖像區域1018中的區塊，因此多工器(MUX)1008可以選擇較大的尺寸作為用於預測的第二區塊尺寸，從而降低複雜度和編碼器的功耗。由於第一編碼配置用於編碼包括在被預測為視覺關注區域的第一圖像區域1016中的區塊，因此多工器1008可以選擇較小的尺寸作為用於預測的第一區塊尺寸。

對於另一示例，預測引擎1004採用用於預測的搜索範圍。用於預測的搜索範圍與編碼複雜度正相關(positively correlated)。第一編碼配置包括用於預測的第一搜索範圍，第二編碼配置包括用於預測的第二搜索範圍。由於第二編碼配置用於編碼包括在被預測為非視覺關注區域的第二圖像區域1018中的區塊，因此多工器1006可以選擇較小的範圍作為用於預測的第二搜索範圍，從而降低複雜度和編碼器的功耗。由於第一編碼配置用於編碼包括在被預測為視覺關注區域的第一圖像區域1016中的區塊，因此多工器1006可以選擇較大的範圍作為用於預測的第一搜索範圍。

關注意識視訊編碼器1000從圖像分析電路102接收對象檢測資訊訊號S_OUT，並根據由對象檢測資訊訊號S_OUT傳送的資訊調整量化參數設置和/或位元分配設置。例如，由對象檢測資訊訊號S_OUT傳送的資訊可以是由第9圖所示的視覺感知處理電路202生成的視覺感知圖M_VP。另一個例子，由對象檢測資訊訊號S_OUT傳送的資訊可以是由第2圖所示的主觀感知處理電路204生成的輔助質量圖M_AQ。根據實際設計考慮，可以在使用/不使用偏好模型970的情況下生成輔助質量圖M_AQ(或視覺感知圖M_VP)。在本發明的一些實施例中，輔助質量圖M_AQ(或視覺感知圖M_VP)可以是強度圖。第14圖是根據本發明的實施例的強度圖的示意圖。強度圖(例如，輔助質量圖M_AQ或視覺感知圖M_VP)記錄複數個強度值。在強度圖是逐像素強度圖的情況下，為一個圖框內的每個像素確定一個強度值。在強度圖是逐區塊強度圖的另一種情況下，為一個圖框內的每個區塊確定一個強度值。輸入圖框F中與強度圖中的較大強度值相關的圖像區域可能需要較高的質量。因此，可以選擇較小的量化參數和/或較大的位元分配來對圖像區域進行編碼。輸入圖框F中與強度圖中的較小強度值相關的圖像區域可允許較低質量。因此，可以選擇較大的量化參數和/或較小的位元分配來編碼圖像區域。簡而言之，不同的強度值意味著不同的量化參數設置和/或不同的位元分配設置。

在第二示例性設計中，應用電路104是具有由對象檢測資訊訊號S_OUT控制的自動聚焦功能的圖像訊號處理器。第15圖是根據本發明的實施例的具有自動聚焦(AF)功能的圖像訊號處理器(ISP)的示意圖。第1圖中所示的應用電路104可以使用第15圖中所示的ISP 1200來實現。ISP 1200被配置為參考對象檢測資訊訊號S_OUT以對由對象檢測資訊訊號S_OUT指示的視覺關注區域執行自動聚焦功能。例如，對象檢測資訊訊號S_OUT可以傳送視覺感知圖M_VP或輔助質量圖M_AQ。參照第15圖，視覺感知圖M_VP(或輔助質量圖M_AQ)包括第一區域1212和第二區域1214，其中第一區域1212中的每個像素由第一值來設置，第二區域1214中的每個像素由第二值來設置，第一值與第二值不同。第一值用於視覺關注區域指示，第二值用於非視覺關注區域指示。因此，對象檢測資訊訊號S_OUT可以指示與輸入圖框(例如，預覽圖像)F的圖像區域1216相關的第一值。換句話說，圖像區域1216是由對象檢測資訊訊號S_OUT指示的視覺關注區域。例如，圖像區域1216可以是具有用戶偏好的深度學習選擇的偏好VCF對象。

ISP 1200通過AF候選檢測引擎1202和AF機械控制引擎1204來執行AF功能。AF候選檢測引擎1202被佈置為自動檢測輸入圖框(例如，預覽圖像)F中的AF候選而無需用戶幹預。在該實施例中，AF候選檢測引擎1202參考對象檢測資訊訊號S_OUT以識別輸入圖框F中的AF候選。例如，輔助質量圖M_AQ(或視覺感知圖M_VP)中的第一區域1212指示輸入圖框F中的同位圖像區域1216是視覺關注區域。AF候選檢測引擎1202根據由對象檢測資訊訊號S_OUT提供的資訊選擇圖像區域1216作為一個AF候選，並且將AF候選訊號S_AF輸出到AF機械控制引擎1204。AF機械控制引擎1204根據AF候選訊號S_AF生成AF控制碼CTRL_AF到鏡頭模組，使得鏡頭模組被控制以聚焦在自動選擇的AF候選(例如，圖像區域1216)上。

在第三示例性設計中，應用電路104是具有由對象檢測資訊訊號S_OUT控制的自動曝光功能的圖像訊號處理器。第16圖是根據本發明的實施例的具有自動曝光(AE)功能的圖像訊號處理器(ISP)的示意圖。第1圖中所示的應用電路10可以使用第16圖中所示的ISP 1300來實現。ISP 1300被佈置為參考對象檢測資訊訊號S_OUT以對由對象檢測資訊訊號S_OUT指示的視覺關注區域執行AE功能。例如，對象檢測資訊訊號S_OUT可以傳送視覺感知圖M_VP或輔助質量圖M_AQ。參照第16圖，視覺感知圖M_VP(或輔助質量圖M_AQ)包括第一區域1312和第二區域1314，其中第一區域1312中的每個像素由第一值來設置，第二區域1314中的每個像素由第二值來設置，第一值與第二值不同。第一值用於視覺關注區域指示，第二值用於非視覺關注區域指示。因此，對象檢測資訊訊號S_OUT可以指示與輸入圖框(例如，預覽圖像)F的圖像區域1316相關的第一值。換句話說，圖像區域1316是由對象檢測資訊訊號S_OUT指示的視覺關注區域。例如，圖像區域1316可以是通過具有用戶偏好的深度學習選擇的偏好VCF對象。

ISP 1300通過AE候選檢測引擎1302和AE機械控制引擎1304執行AE功能。AE候選檢測引擎1302被佈置為自動檢測輸入圖框(例如，預覽圖像)F中的AE候選而無需用戶幹預。在該實施例中，AE候選檢測引擎1302參考對象檢測資訊訊號S_OUT以識別輸入圖框F中的AE候選。例如，輔助質量圖M_AQ(或視覺感知圖M_VP)中的第一區域1312表示輸入圖框F中的同位圖像區域1316是視覺關注區域。AE候選檢測引擎1302根據由對象檢測資訊訊號S_OUT提供的資訊選擇圖像區域1316作為一個AE候選，並且將AE候選訊號S_AE輸出到AE機械控制引擎1304。AE機械控制引擎1304根據AE候選訊號S_AE生成AE控制碼CTRL_AE到光圈和/或快門，使得調整光圈尺寸和/或快門速度以確保自動選擇的AE候選(例如，圖像區域1316)的適當曝光。

本領域技術人員將容易地觀察到，可以在保留本發明的教導的同時對裝置和方法進行多種修改與修飾。因此，上述公開內容應被解釋為僅受所附申請專利範圍的限制。

以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

100:基於感知的圖像處理裝置

102:圖像分析電路

103:感知模型

104:應用電路

Claims

一種基於感知的圖像處理裝置，包括：圖像分析電路，用於獲取訓練資料，根據該訓練資料設置感知模型，使用該感知模型執行至少一個圖框的對象檢測，以及至少部分地基於該至少一個圖框的對象檢測的結果生成對象檢測資訊訊號；以及應用電路，用於響應於該對象檢測資訊訊號而操作；其中該應用電路是編碼電路，該編碼電路用於參考該對象檢測資訊訊號以將輸入圖框編碼為位元流；該對象檢測資訊訊號指示與該輸入圖框的第一圖像區域相關的至少一個第一值和與該輸入圖框的第二圖像區域相關的至少一個第二值，其中該至少一個第一值與該至少一個第二值不同；以及該編碼電路參考該至少一個第一值採用第一編碼配置對該第一圖像區域進行編碼，並參考該至少一個第二值採用第二編碼配置對該第二圖像區域進行編碼。
如申請專利範圍第1項所述之基於感知的圖像處理裝置，其中，該感知模型包括深度學習模型。
如申請專利範圍第1項所述之基於感知的圖像處理裝置，其中，該圖像分析電路用於從至少一個外部感測設備接收該訓練資料。
如申請專利範圍第1項所述之基於感知的圖像處理裝置，其中，該訓練資料包括用戶偏好資料。
如申請專利範圍第4項所述之基於感知的圖像處理裝置，其中，該用戶偏好資料包括從用戶介面獲得的用戶輸入資訊或響應於用戶輸入而生成的最近捕獲的圖像。
如申請專利範圍第4項所述之基於感知的圖像處理裝置，其中，該用戶偏好資料包括從用戶圖庫獲得的圖像資料集。
如申請專利範圍第1項所述之基於感知的圖像處理裝置，其中，基於不同的視覺質量來設置該第一編碼配置和該第二編碼配置。
如申請專利範圍第7項所述之基於感知的圖像處理裝置，其中：該第一編碼配置包括第一量化參數設置，以及該第二編碼配置包括第二量化參數設置；或者該第一編碼配置包括第一位元分配設置，以及該第二編碼配置包括第二位元分配設置。
如申請專利範圍第1項所述之基於感知的圖像處理裝置，其中，基於不同的複雜度來設置該第一編碼配置和該第二編碼配置。
如申請專利範圍第9項所述之基於感知的圖像處理裝置，其中：該第一編碼配置包括用於預測的第一區塊尺寸，以及該第二編碼配置包括用於預測的第二區塊尺寸；或者該第一編碼配置包括用於預測的第一搜索範圍，以及該第二編碼配置包括用於預測的第二搜索範圍。
如申請專利範圍第1項所述之基於感知的圖像處理裝置，其中，該對象檢測包括人類視覺關注分析，該對象檢測資訊訊號傳送輔助質量圖，該圖像分析電路包括：視覺感知處理電路，用於通過對該至少一個圖框執行該人類視覺關注分析，來生成該視覺感知圖；以及主觀感知處理電路，用於將主觀感知分析至少應用於該視覺感知圖，並根據該主觀感知分析的結果確定該輔助質量圖。
如申請專利範圍第11項所述之基於感知的圖像處理裝置，其中，該主觀感知處理電路通過檢查該視覺感知圖中的區域的尺寸來將該主觀感知分析至少應用於該視覺感知圖，以及該視覺感知圖中的區域表示視覺關注區域。
如申請專利範圍第12項所述之基於感知的圖像處理裝置，其中，當該視覺感知圖中的區域的尺寸滿足預定標準時，根據第一值來設置該輔助質量圖中的同位區域中的每個像素；當該視覺感知圖中的區域的尺寸不滿足該預定標準時，根據不同於該第一值的第二值來設置該輔助質量圖中的該同位區域中的每個像素。
如申請專利範圍第11項所述之基於感知的圖像處理裝置，其中，該主觀感知處理電路通過檢查該視覺感知圖和由該視覺感知處理電路生成的先前視覺感知圖之間的差異，來將該主觀感知分析至少應用於該視覺感知圖。
如申請專利範圍第14項所述之基於感知的圖像處理裝置，其中：當該視覺感知圖和該先前視覺感知圖之間的差異滿足預定標準時，通過由該主觀感知處理電路生成的該先前輔助質量圖來設置該輔助質量圖；當該視覺感知圖與該先前視覺感知圖之間的差異不滿足該預定標準時，從該視覺感知圖中導出該輔助質量圖；或者當該視覺感知圖與該先前視覺感知圖之間的差異滿足該預定標準時，該主觀感知處理電路還用於指示該視覺感知處理電路每M個圖框生成一個視覺感知圖；當該視覺感知圖與該先前視覺感知圖之間的差異不符合該預定標準時，該主觀感知處理電路還用於指示該視覺感知處理電路每N個圖框生成一個視覺感知圖，其中M和N是正整數，M>N。
如申請專利範圍第1項所述之基於感知的圖像處理裝置，其中，該對象檢測包括人類視覺關注分析，該對象檢測資訊訊號傳送視覺感知圖，以及該圖像分析電路包括：視覺感知處理電路，用於通過對該至少一圖框進行該人類視覺關注分析來生成該視覺感知圖，並輸出該視覺感知圖。
一種基於感知的圖像處理方法，包括：獲得訓練資料；根據該訓練資料設置感知模型；通過使用該感知模型執行至少一個圖框的對象檢測，並且至少部分地基於該至少一個圖框的對象檢測的結果生成對象檢測資訊訊號；以及根據該對象檢測資訊訊號控制應用電路；其中該應用電路是編碼電路，該編碼電路用於參考該對象檢測資訊訊號以將輸入圖框編碼為位元流；該對象檢測資訊訊號指示與該輸入圖框的第一圖像區域相關的至少一個第一值和與該輸入圖框的第二圖像區域相關的至少一個第二值，其中該至少一個第一值與該至少一個第二值不同；以及該編碼電路參考該至少一個第一值採用第一編碼配置對該第一圖像區域進行編碼，並參考該至少一個第二值採用第二編碼配置對該第二圖像區域進行編碼。