TWI831229B - 基於一複合影像之個人化影像組件之認知影像搜尋 - Google Patents
基於一複合影像之個人化影像組件之認知影像搜尋 Download PDFInfo
- Publication number
- TWI831229B TWI831229B TW111120125A TW111120125A TWI831229B TW I831229 B TWI831229 B TW I831229B TW 111120125 A TW111120125 A TW 111120125A TW 111120125 A TW111120125 A TW 111120125A TW I831229 B TWI831229 B TW I831229B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- sub
- user
- personalized
- searched
- Prior art date
Links
- 239000002131 composite material Substances 0.000 title claims abstract description 65
- 230000001149 cognitive effect Effects 0.000 title description 84
- 238000000034 method Methods 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 description 48
- 238000010801 machine learning Methods 0.000 description 47
- 238000004891 communication Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 20
- 238000003058 natural language processing Methods 0.000 description 20
- 238000012549 training Methods 0.000 description 17
- 238000004458 analytical method Methods 0.000 description 16
- 230000014509 gene expression Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 12
- 230000036992 cognitive tasks Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 6
- 238000003709 image segmentation Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000011143 downstream manufacturing Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000036403 neuro physiology Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
本發明之實施例係關於一種執行一電子搜尋之電腦實施方法。該電腦實施方法包括使用一處理器接收包括複數個電子可識別物件之一複合電子影像,其中該複合電子影像與一使用者相關聯。該處理器用於藉由提供該複數個電子可識別物件中之各者的子影像中之至少一者來將該複合電子影像分割成該等子影像。針對該等子影像中之各者,該處理器用於執行個人化子影像搜尋操作。該等個人化子影像搜尋操作包括:自該等子影像之中選擇一待搜尋之子影像;將該待搜尋之子影像與該使用者之個人化後設資料相關聯;及至少部分地基於該使用者之該個人化後設資料而搜尋一資料庫以傳回一搜尋影像集合。
Description
本發明大體上係關於可程式化電腦。更特定言之,本發明係關於基於複合影像之個人化影像組件或子影像而認知地執行影像搜尋之運算系統、電腦實施方法及電腦程式產品。
線上搜尋引擎包括搜尋功能性,其允許使用者主要基於影像而非搜尋查詢而執行所謂的影像搜尋。被稱為「反向影像搜尋」之技術為基於內容之影像檢索(CBIR)查詢技術,該技術涉及為CBIR系統提供樣本影像,該樣本影像實際上將用作基於影像之搜尋查詢。反向影像搜尋之特徵在於缺少搜尋字詞,此消除使用者猜測可能或可能不傳回正確結果的關鍵字或字詞的需要。反向影像搜尋允許使用者發現與特定樣本影像相關之內容;影像之風行性;操控版本;衍生作品;及其類似者。
複合影像為含有多個不同可識別物件之影像。舉例而言,單一複合影像可包括建築物;建築物前方經過之汽車;兩個人走進建築物;緊鄰建築物之樹;及其類似者。物件偵測為與電腦視覺及影像處理相關之電腦技術,其處理在數位影像及視訊中偵測某一類別之語義物件(例如,人類、建築物或汽車)之實例。物件偵測廣泛用於諸如影像註解、車
輛計數及活動辨識之電腦視覺任務中。自動影像註解為電腦系統自動以字幕或關鍵字之形式將後設資料指派給數位影像之程序,其使得能夠將自動影像註解用於影像檢索系統中以自資料庫搜尋、組織及定位所關注影像。
本發明之實施例係關於一種執行一電子搜尋之電腦實施方法。該電腦實施方法包括使用一處理器接收包括複數個電子可識別物件之一複合電子影像,其中該複合電子影像與一使用者相關聯。該處理器用於藉由提供該複數個電子可識別物件中之各者的子影像中之至少一者來將該複合電子影像分割成該等子影像。針對該等子影像中之各者,該處理器用於執行個人化子影像搜尋操作。該等個人化子影像搜尋操作包括:自該等子影像之中選擇一待搜尋之子影像;將該待搜尋之子影像與該使用者之個人化後設資料相關聯;及至少部分地基於該使用者之該個人化後設資料而搜尋一資料庫以傳回一搜尋影像集合。
本發明之實施例亦係關於與上文所描述之電腦實施方法具有實質上相同特徵的電腦系統及電腦程式產品。
經由本文中所描述之技術實現額外特徵及優點。本文中詳細描述其他實施例及態樣。為了更好地理解,參考描述及圖式。
50:雲端運算系統
100:複合影像
110A:子影像
112:公寓建築物
112A:子影像
114:花盆
114A:子影像
115A:子影像
116:兩個人
116A:子影像
118:標牌
118A:子影像
120:樹
120A:子影像
202:物件偵測及影像分割(ODIS)模組
302:影像組件認知搜尋模組
302A:影像組件認知搜尋模組
312:個人化子影像搜尋結果
320:使用者A語料庫
322:使用者設定檔
324:使用者活動
330:其他使用者A上下文及調整
402:影像處理模組
404:認知處理器
405:模組
406:搜尋引擎
410:網路
420:網頁伺服器
430:帶有個人化標籤/後設資料之子影像
432:個人化標籤
434:個人化後設資料
440:帶有個人化標籤/後設資料及使用者搜尋指南之子影像
442:個人化標籤
444:個人化後設資料
500:方法
502:區塊
504:區塊
506:區塊
508:區塊
510:區塊
512:區塊
514:區塊
516:區塊
518:區塊
520:區塊
522:區塊
600:方法
602:區塊
604:區塊
606:區塊
608:區塊
610:區塊
700:分類器系統
702:資料源
704:網路
710:分類器
712:機器學習(ML)演算法
714:自然語言處理(NLP)演算法
716:模型
720:結果
800:學習階段
900:處理系統
902:處理器
904:通信基礎架構
906:顯示介面
908:顯示單元
910:主記憶體
912:輔助記憶體
914:硬碟機
916:可移除式儲存隨身碟
918:可移除式儲存單元
920:可移除式儲存單元
922:介面
924:通信介面
925:通信路徑
在本說明書之結尾部分處之申請專利範圍中特別指出且清楚主張被視為實施例之標的物。實施例之前述內容及其他特徵及優點自結合隨附圖式進行的以下詳細描述顯而易見,其中:
圖1描繪根據本發明之實施例之可輸入至個人化子影像搜尋系統的複合影像;
圖2描繪根據本發明之實施例之可用於個人化子影像搜尋系統中的物件偵測及影像分割模組;圖3描繪根據本發明之實施例之可用於個人化子影像搜尋系統中的影像組件認知搜尋模組。
圖4A描繪根據本發明之實施例之可用於個人化子影像搜尋系統中的影像組件認知搜尋模組;圖4B描繪根據本發明之態樣產生的帶有個人化標籤/後設資料之子影像的實例;圖5描繪說明根據本發明之實施例之方法的流程圖;圖6A描繪根據本發明之實施例之說明個人化子影像搜尋系統的組合方塊圖及流程圖;圖6B描繪由圖6A中所描繪之系統及流程圖使用的等式;圖7描繪可用於實施本發明之態樣的機器學習系統;圖8描繪可由圖7中所展示之機器學習系統實施的學習階段;且圖9描繪能夠實施本發明之各種態樣之例示性運算系統的細節。
在隨附圖式及所揭示實施例之以下詳細描述中,圖式中所說明之各種元件具備三數位參考編號。在一些實例中,各參考編號之最左邊數位對應於首先說明其元件之圖式。
出於簡潔起見,本文中可能或可能不詳細描述與進行及使用本發明之態樣相關的習知技術。特定而言,用以實施本文中所描述之各
種技術特徵的運算系統及特定電腦程式之各種態樣係熟知的。因此,為簡潔起見,許多習知實施細節在本文中僅簡要提及或完全省略而不提供熟知系統及/或程序細節。
本說明書中所描述之系統的許多功能單元已經標記為模組。本發明之實施例應用於廣泛多種模組實施。舉例而言,模組可實施為硬體電路,該硬體電路包括定製VLSI電路或閘陣列、現成的半導體,諸如邏輯晶片、電晶體或其他離散組件。模組亦可實施於諸如場可程式化閘陣列、可程式化陣列邏輯、可程式化邏輯裝置或其類似者的可程式化硬體裝置中。模組亦可實施於軟體中以供各種類型之處理器執行。可執行碼之經識別模組可例如包括電腦指令之一或多個實體或邏輯區塊,該等指令可例如經組織為物件、程序或功能。儘管如此,經識別模組之可執行體不必以實體方式定位在一起,而是可包括儲存於不同位置中之截然不同指令,該等指令在邏輯地接合在一起時充當模組且達成模組之所陳述目的。
為易於說明及解釋,單獨地描繪本文中所說明之系統的各種組件、模組、子功能及其類似者。在本發明之實施例中,除非另外特定地陳述,否則由各種組件、模組、子功能及其類似者執行之操作可在不脫離本文中所描述的本發明之各種實施例之範疇的情況下以與所展示不同之方式分佈。
為方便起見,本文中所描述之技術操作中之一些使用非正式表達式來傳達。舉例而言,將資料儲存於其快取記憶體中之處理器可描述為「知曉」資料的處理器。類似地,使用者將載入資料命令發送至處理器可描述為使用者「告訴」處理器載入資料。應理解,此詳細描述中之任何此類非正式表達式應被理解為涵蓋,且熟習相關技術者應理解此類非正
式表達式涵蓋非正式表達式之對應的更正式及技術性功能及操作。
本文中所提供之描述參考「影像」。應理解,除非特定相反地陳述,否則術語「影像」之使用係指可藉由電腦分析、儲存於記憶體中、以電子方式傳輸及顯示於電腦顯示器上的影像之電子或數位表示。
現轉至與本發明之態樣相關的技術之概述,如本文中先前所提及,多個不同物件常常顯示於給定影像內。舉例而言,單一影像可包括建築物;建築物前方經過之汽車;兩個人走進建築物;緊鄰建築物之樹;及其類似者。描繪多個可識別物件之影像稱為複合影像。對於複合影像,已知線上搜尋引擎藉由尋找與整個複合影像相似之影像來執行影像搜尋。然而,若使用者僅對搜尋複合影像中之一或多個物件感興趣,則已知影像搜尋技術需要使用者採取多個編輯步驟來建立新影像,其中使用者所關注的物件為主要物件,接著搜尋經編輯影像。眾所周知,當與電腦互動時,「使用者體驗」(UX)受到使用者需要鍵入至系統中以便使系統執行特定任務之資訊量的影響。
現轉至本發明之態樣的概述,本發明之實施例在使用者想要進行聚焦於複合影像中之特定物件的影像搜尋的情況下改良UX。本發明之實施例提供基於複合影像之電腦產生之個人化影像組件或子影像而認知地執行影像搜尋之運算系統、電腦實施方法及電腦程式產品。根據本發明之態樣,運算系統經組態以在不需要使用者在提交影像搜尋請求時採取動作來識別所關注之物件的情況下認知地判定複合影像中使用者所關注的物件。舉例而言,本發明之實施例並不需要想要執行聚焦於複合影像中之一或多個物件之影像搜尋的使用者採取多個編輯步驟來建立新影像,其中使用者所關注的物件為主要物件。
在本發明之實施例中,回應於接收到來自使用者之複合影像及影像搜尋請求,電腦系統自動地對複合影像執行物件偵測及影像分割處理以偵測複合影像中之可識別物件且將複合影像分割成子影像,其中各子影像對應於可識別物件中之至少一者。視情況,自動影像註解可應用於子影像以產生對子影像之描述性後設資料之初始指派。認知處理器接收子影像且視情況接收後設資料之初始指派。根據本發明之態樣,認知處理器具備影像處理及基於表達式之自然語言處理能力。自然語言處理能力可使用穩健的基於表達式的認知資料分析技術(諸如IBM Watson®)來實施。IBM Watson®為基於表達式之認知資料分析技術,其經由理解自然語言、基於證據產生假設及不斷學習來更像人類而不是電腦來處理資訊。另外,出於多種原因,基於表達式之認知電腦分析提供優於基於關鍵字之電腦分析的運算能力,該等原因包括「字模式」相比於「關鍵字」之更靈活搜尋能力及可藉由基於表達式之認知資料分析處理的極大量資料。
根據本發明之態樣的認知處理器分析子影像、視情況選用之初始後設資料及使用者之語料庫,以執行判定子影像與使用者之相關性等級的第一認知分析任務;捕捉自然語言中之相關等級;及將相關性等級併入至子影像之後設資料中以產生子影像之個人化後設資料。在本發明之一些態樣中,初始後設資料可用於強化或輔助認知處理器執行判定子影像與使用者之相關性等級的任務。
基於影像之搜尋引擎針對各子影像及其相關聯之個人化後設資料執行影像搜尋,使得針對各子影像產生影像搜尋結果的集合。認知處理器執行分析各子影像、各子影像之相關聯之個人化後設資料及視情況使用者之語料庫以基於其與使用者之相關性等級(或重要性等級)而對各子
影像進行排名的第二認知任務。在本發明之實施例中,各子影像之相關性得分可為子影像與複合影像之相對大小;及子影像在複合影像內之相對位置的函數。可使用例如電腦顯示器將各經排名子影像及其相關聯之搜尋結果的集合呈現給使用者以供查看。在本發明之一些實施例中,認知處理器可經組態以僅顯示具有高於臨限值的排名等級(或重要性等級)的子影像。
在本發明之一些實施例中,使用者可將關於搜尋結果之使用者回饋提供至認知處理器,且使用者回饋可經儲存且用於強化或改良第一及第二認知處理器任務之將來執行。在本發明之一些實施例中,使用者回饋可自使用者如何與所顯示搜尋結果交互導出。舉例而言,若使用者立即點選排名第四之子影像及其相關聯的搜尋結果而不點選任何其他子影像之搜尋結果,則認知處理器可判定排名第四的子影像排名過低。若使用者立即點選排名最高之子影像及其相關聯的搜尋結果而不點選任何其他子影像之搜尋結果,則認知處理器可判定排名最高的子影像經適當地排名。在本發明之一些實施例中,認知處理器可藉由經由顯示器向使用者呈現關於排名的問題來直接徵求使用者回饋。舉例而言,認知處理器可要求使用者在顯示器處輸入由認知處理器排名之前四個子影像之使用者的排名。
在本發明之一些實施例中,認知處理器可評估使用者回饋以判定使用者回饋是否將改良當前影像搜尋的品質。若認知處理器判定當前影像搜尋可藉由使用者回饋進行改良,則認知處理器可基於使用者回饋而更新其第一及第二認知任務,接著重複影像搜尋。在本發明之一些實施例中,影像搜尋之上述重複可作為選項提供給使用者,且僅在使用者輸入使用者批准的情況下執行。
在本發明之一些實施例中,可在影像搜尋之前執行第一及
第二認知任務,使得在搜尋子影像之前對該等子影像進行排名。在本發明之一些實施例中,第一及第二認知任務可藉由使用者連同搜尋影像一起輸入複合影像中使用者所關注的物件的自然語言識別來進一步強化。舉例而言,使用者可提交影像搜尋請求,該影像搜尋請求包括複合影像及內容為「左下角的花」的自然語言文字。因為認知處理器包括自然語言處理能力,所以UX僅受到最小影響,此係因為不需要要求用於所關注物件之自然語言識別的特定格式。認知處理器將使用其自然語言處理能力來解譯文字輸入的含義,且使用該含義來確保複合影像左下角中的花包括在由物件偵測程序識別的子影像之中。認知處理器亦將使用文字輸入的含義來將適當排名應用於展示花的子影像。
在本發明之一些實施例中,認知處理器可使用具有影像處理演算法、機器學習演算法及自然語言處理演算法的經訓練分類器來執行其任務及其他認知或評估操作。
在本發明之一些實施例中,認知處理器之自然語言處理能力可包括個人化Q&A功能性,該功能性為對自然語言問題提供答案的已知類型之Q&A系統的經修改版本。作為非限制性實例,認知處理器可包括由IBM®開發的DeepQA技術的所有特徵及功能性。DeepQA為一種Q&A系統,其通過查詢資料儲存庫且應用自然語言處理、機器學習、資訊檢索、假設產生、假設得分、最終排名及答案合併之元素來回答自然語言問題以得出結論。此類Q&A系統能夠輔助人類進行某些類型之語義查詢及搜尋操作,諸如教育環境之自然問答範式的類型。諸如IBM之DeepQA技術之Q&A系統常常使用非結構化資訊管理架構(UIMA),其為用於開發、發現、組合及部署多模態分析以用於分析非結構化資訊及其與
由IBM®開發之搜尋技術之整合的組件軟體架構。當應用於認知處理器任務時,Q&A功能性可用於回答詢問,諸如給定子影像與使用者之相關性是什麼,或基於各子影像與使用者之的相關性而對子影像進行適當排名是什麼。
現轉至本發明之態樣的更詳細描述,圖1描繪複合影像100,該複合影像可為根據本發明之態樣的由影像組件認知搜尋模組302(展示於圖3中)執行之分析及影像搜尋的主題。複合影像包括多個物件,包括如所展示組態及配置之飛機110、公寓建築物112、多個花盆114、兩個人116、標牌(出售、出租等)118及樹120。
圖2描繪物件偵測及影像分割(ODIS)模組202。在本發明之一些實施例中,ODIS模組202可併入影像組件認知搜尋模組302內(展示於圖3中)且經組態以對複合影像100執行物件偵測及影像分割操作。ODIS模組202自使用者A接收複合影像100,偵測複合影像100中之電子可識別物件,且將複合影像100分割成子影像112A、114A、115A、118A、120A(展示於圖3中),其中各子影像對應於電子可識別物件中之至少一者。一般而言,當物件可以電子方式辨識且以選定粒度等級分類時,物件為電子可識別的。舉例而言,即使單一葉片可為電子可識別的,ODIS模組202之粒度亦可經設定為使得樹被識別為物件,但樹上之各個別葉片不被識別為物件。視情況,ODIS模組202可包括可用於將標籤及/或描述性後設資料之初始指派應用於子影像112A、114A、116A、118A、120A的自動影像註解功能性。
圖3描繪影像組件認知搜尋模組302及至認知影像搜尋模組之輸入,包括子影像112A、114A、116A、118A、120A;使用者A語料
庫320;及其他使用者A上下文及調整(OUCA)330。使用者A語料庫320包括使用者設定檔322及使用者活動324。使用者設定檔322由使用者A完成,且為與使用者A相關聯之設定及資訊之集合。使用者設定檔322含有用於識別使用者A之關鍵資訊,諸如使用者A的姓名、年齡、照片及諸如知識或專長之個人特徵。使用者設定檔322可自使用者A在使用者A的社交媒體站點上使用的設定檔下載。在本發明之一些態樣中,使用者設定檔322可經建構以自使用者A設定檔資訊引出,該資訊將有助於建構個人化標籤432、442及個人化後設資料434、444(全部展示於圖4B中),特定地包括設定檔資訊,諸如職業、業餘愛好、興趣、音樂品味、最喜歡的作者、所閱讀的書籍及其類似者。使用者設定檔322中之資訊由使用者A自願提交。OUCA 330可包括「輸入影像屬性」,諸如複合影像100之焦點、大小,及子影像在複合影像100內的突出度。OUCA 330可進一步包括物件是複合影像100之正面還是背景。OUCA 330可進一步包括來自使用者A的關於當前個人化子影像搜尋結果312的回饋。OUCA 330可進一步包括由認知處理器404執行的歷史複合影像搜尋,以及當前複合影像搜尋與其他歷史複合影像搜尋之間的任何重疊(例如,公共子影像)。根據本發明之態樣,影像組件認知搜尋模組302分析各種輸入(110A、112A、114A、116A、118A、120A、320、330)以產生個人化子影像搜尋結果312。方法500(展示於圖5中)描繪根據本發明之態樣的由影像組件認知搜尋模組302執行以產生個人化子影像搜尋結果312的操作。方法500隨後在本文中結合圖5之描述更詳細地解釋。方法600(展示於圖6A中)描繪根據本發明之態樣的由影像組件認知搜尋模組302執行以產生個人化子影像搜尋結果312的操作。方法600隨後在本文中結合圖6A之描述更詳細地解釋。
圖4A描繪根據本發明之實施例的影像組件認知搜尋模組302A。影像組件認知搜尋模組302A可執行由影像組件認知搜尋模組302(展示於圖3中)執行的所有操作,但提供可如何根據本發明之實施例實施影像組件認知搜尋模組302A之額外細節。影像組件認知搜尋模組302A包括如所展示組態及配置的ODIS模組202、影像處理模組402、認知處理器404及搜尋引擎。ODIS模組202、影像處理模組402、認知處理器404、模組405包括可在需要時使用以執行根據本發明之態樣之彼等模組之功能的基於表達式之自然語言處理能力。自然語言處理能力可使用穩健的基於表達式的認知資料分析技術(諸如IBM Watson®)來實施。IBM Watson®為基於表達式之認知資料分析技術,其經由理解自然語言、基於證據產生假設及不斷學習來更像人類而不是電腦來處理資訊。另外,出於多種原因,基於表達式之認知電腦分析提供優於基於關鍵字之電腦分析的運算能力,該等原因包括「字模式」相比於「關鍵字」之更靈活搜尋能力及可藉由基於表達式之認知資料分析處理的極大量資料。
圖4A中所展示之ODIS模組202包括與圖2中所展示之ODIS模組202相同的特徵及功能性。在本發明之一些實施例中,ODIS模組202可在影像組件認知搜尋模組302A外部或整合於影像組件認知搜尋模組302A內。影像處理模組402在已產生子影像110A、112A、114A、116A、118A、120A之後為由認知處理器404執行的分析提供影像處理。認知處理器404執行用於建構帶有個人化標籤/後設資料之子影像430(展示於圖4中)及帶有個人化標籤/後設資料及使用者搜尋指南之子影像440(展示於圖4中)的主要認知分析,以及用於對帶有個人化標籤/後設資料之子影像430及帶有個人化標籤/後設資料及使用者搜尋指南之子影像440進
行排名的主要認知分析。搜尋引擎406基於帶有個人化標籤/後設資料之子影像430及/或帶有個人化標籤/後設資料及使用者搜尋指南之子影像440而執行影像搜尋。搜尋引擎406包括瀏覽器功能性,該瀏覽器功能性使得搜尋引擎406能夠存取網路410(例如,區域網路、廣域網路、網際網路等)以自表示多種位置類型(諸如,博客、論壇、新聞站點、評論網站、資料儲存庫及其他者)之多種網頁伺服器420提取與帶有個人化標籤/後設資料之子影像430及/或帶有個人化標籤/後設資料及使用者搜尋指南之子影像440匹配的資料。
圖4B描繪帶有個人化標籤/後設資料之子影像430及帶有個人化標籤/後設資料及使用者搜尋指南之子影像440的細節,其描繪為實例。可針對複合影像100之其他子影像產生類似實例。在由帶有個人化標籤/後設資料之子影像430所展示的實例中,子影像112A已由ODIS模組202、影像處理模組402及認知處理器404處理,且現在準備好由搜尋引擎406使用以進行影像搜尋。類似地,在由帶有個人化標籤/後設資料及使用者搜尋指南之子影像440所展示的實例中,子影像114A已由ODIS模組202、影像處理模組402及認知處理器404處理,且現在準備好由搜尋引擎406使用以進行影像搜尋。接著由認知處理器404對帶有個人化標籤/後設資料之子影像430及帶有個人化標籤/後設資料及使用者搜尋指南之子影像440進行排名,且由影像組件認知搜尋模組302A輸出為個人化子影像搜尋結果312。
圖5描繪根據本發明之態樣的電腦實施方法500。方法500可由影像組件認知搜尋模組302、影像組件認知搜尋模組302A(展示於圖3及圖4A中)執行。適當時,方法500之描述將參考影像組件認知搜尋模組
302、影像組件認知搜尋模組302A之對應元件。根據本發明之態樣,方法500在「開始」區塊502處開始,接著移動至區塊504,其中ODIS模組202將複合影像100分割成子影像112A、114A、116A、118A、120A,其中各子影像112A、114A、116A、118A、120A含有複合影像100中之電子可識別物件。視情況,ODIS模組202可將自動影像註解應用於子影像112A、114A、116A、118A、120A,以產生描述性後設資料至子影像112A、114A、116A、118A、120A之初始指派。方法500接著移動至區塊506,其中認知處理器404接收子影像112A、114A、116A、118A、120A且視情況接收後設資料之初始指派。根據本發明之態樣,認知處理器404使用影像處理及基於表達式之自然語言處理能力來分析子影像、視情況選用之初始後設資料及使用者A語料庫320,以執行判定子影像與使用者A之相關性等級的第一認知分析任務(TASK-1);捕捉自然語言中之相關等級;及將相關性等級併入至子影像之後設資料中以產生子影像之個人化後設資料。在本發明之一些態樣中,初始後設資料可用於強化或輔助認知處理器404執行判定子影像與使用者A之相關性等級的任務。
在區塊508處,搜尋引擎406針對各子影像及其相關聯之個人化後設資料執行影像搜尋,使得針對各子影像產生影像搜尋結果的集合。在區塊510處,認知處理器404執行分析各子影像、各子影像之相關聯之個人化後設資料及視情況使用者A語料庫以基於其與使用者A之相關性等級(或重要性等級)而對各子影像進行排名的第二認知任務(TASK-2)。在區塊512處,認知處理器使用例如電腦顯示器向使用者顯示各經排名子影像及其相關聯之搜尋結果的集合以供查看。在本發明之一些實施例中,認知處理器可經組態以僅顯示具有高於臨限值的排名等級(或重要性等級)
的子影像。
在決策區塊514處,方法500判定使用者A是否已將關於搜尋結果之回饋提供至認知處理器404。若在決策區塊514處對查詢之回答為是,則在區塊516處,儲存使用者回饋且將其用於強化或改良由認知處理器404執行的分析。舉例而言,在本發明之使用分類器710(圖7中所展示)實施認知處理器404的實施例中,使用者回饋用作分類器710之額外訓練資料。在本發明之一些實施例中,使用者回饋可自使用者A如何與所顯示搜尋結果交互導出。在本發明之一些實施例中,認知處理器404可藉由經由顯示器向使用者A呈現關於排名的問題來直接徵求使用者回饋。
方法500接著移動至決策區塊518以判定是否返回至決策區塊514以檢查額外使用者回饋或返回至區塊504以重複對當前複合影像100之分析。在本發明之一些實施例中,認知處理器404可在決策區塊518處評估使用者回饋以判定使用者回饋是否將改良當前影像搜尋之品質。若認知處理器404在決策區塊518處判定當前影像搜尋可藉由使用者回饋改良,則認知處理器404可基於使用者回饋而更新其第一及第二認知任務,接著藉由返回至區塊504來重複影像搜尋。在本發明之一些實施例中,影像搜尋之上述重複可作為選項提供給使用者A,且僅在使用者A輸入使用者批准的情況下執行。在區塊518處對查詢之回答為否之情況下,方法500返回至決策區塊514以繼續檢查使用者回饋。若在決策區塊514處並未接收到額外使用者回饋,則方法500移動至決策區塊520以評估是否存在待提交以供搜尋之更多複合影像100。若在決策區塊520處對查詢之回答為否,則方法500移動至區塊522,等待,接著返回至決策區塊520。若在決策區塊520處對查詢之回答為是,則方法500返回至區塊502。
在本發明之一些實施例中,可在影像搜尋之前執行第一及第二認知任務,使得在搜尋子影像之前對該等子影像進行排名。在本發明之一些實施例中,第一及第二認知任務可藉由使用者A連同搜尋影像一起輸入複合影像中使用者所關注的物件的自然語言識別(例如,如藉由圖4B中所展示之帶有個人化標籤/後設資料及使用者搜尋指南之子影像440所展示)來進一步強化。
圖6A描繪根據本發明之態樣之電腦實施方法500,且圖6B描繪可用於方法600中之等式A至D。方法600可由影像組件認知搜尋模組302、影像組件認知搜尋模組302A(展示於圖3及圖4A中)執行。適當時,方法600之描述將參考影像組件認知搜尋模組302、影像組件認知搜尋模組302A之對應元件。根據本發明之態樣,使用者A將複合影像100輸入至影像組件認知搜尋模組302、影像組件認知搜尋模組302A。在區塊602處,方法600使用影像辨識技術識別複合影像100內的不同離散子影像112A、114A、116A、118A、120A。在區塊604處,方法600基於OUCA 330及使用者A語料庫320產生個人化標籤及後設資料。在區塊606處,方法600基於諸如在區塊606中所列出之許多上下文因素以及OUCA 330及/或使用者A語料庫320中之任一者而識別且指派複合影像100內的各子影像112A、114A、116A、118A、120A之相對重要性。區塊606視情況允許使用者A藉由圈出兩個子影像112A、114A、116A、118A、120A中之一或多者或子影像112A、114A、116A、118A、120A之部分來修改子影像112A、114A、116A、118A、120A之相對重要性。
在區塊608處,搜尋引擎406基於帶有個人化標籤/後設資料之子影像而進行影像搜尋。在區塊610處,由搜尋引擎406在區塊608處
輸出之搜尋傳回經組合以基於相對重要性來進行排序及區分優先級。接著將在區塊610處產生之搜尋結果呈現給使用者A。使用者A以打開鏈接、縮放某些部分、任何下載、修改後續頁面中的搜尋或後續搜尋之形式提供關於搜尋結果之回饋。
在本發明之實施例中,OUCA 330由包括但不限於使用者設定檔及興趣;所搜尋影像之歷史;及非影像相關動作(文件、瀏覽等)之歷史之多個輸入建構。在本發明之一些實施例中,上下文建構為標籤之集合。隨著方法600自使用者活動「學習」,此集合不斷地用新資訊更新。
在本發明之實施例中,可針對使用者上下文對各子影像112A、114A、116A、118A、120A進行評分。可向各子影像指派一或多個標籤,諸如由複合影像100之攝影師指派之策展標籤;由使用者A在社交網路上之一個或若干個「朋友」指派之群眾外包標籤;由影像辨識演算法指派之自動產生之標籤;及來自使用者A之歷史之標籤,使用者A將其用於相似複合影像或相似子影像。
一旦標籤指派完成,便使用已知標籤詞幹提取技術來添加相關標籤。將聯集函數應用於所有標籤。在「I」(子影像標籤)與「C」(使用者上下文標籤)之間運算相關性得分。如藉由圖6B中所展示之等式A至C所展示,使用雅卡爾指數(jaccard index)運算相關性得分。各子影像之最終相關性得分為相似性得分;子影像與複合影像之相對大小;及子影像在複合影像內之相對位置之函數。可使用圖6B中之等式D處所展示之線性加權函數來運算最終相關性得分。
現將提供可用於本文中所揭示之本發明之態樣的機器學習技術之額外細節。本文中所描述之處理器的各種類型之電腦控制功能性可
使用機器學習及/或自然語言處理技術來實施。一般而言,機器學習技術在所謂的「神經網路」上運行,該等神經網路可實施為經組態以運行機器學習演算法及/或自然語言處理演算法之集合的可程式化電腦。神經網路併入有來自多種學科之知識,包括神經生理學、認知科學/心理學、物理學(統計力學)、控制理論、電腦科學、人工智慧、統計/數學、模式辨識、電腦視覺、並行處理及硬體(例如,數位/類比/VLSI/光學)。
神經網路及其機器學習演算法之基本功能為藉由一種機器感知解譯非結構化感測器資料來辨識模式。呈其原生形式之非結構化真實世界資料(例如,影像、聲音、文字或時間序列資料)經轉換為可由電腦理解及操控的數值形式(例如,具有量值及方向之向量)。機器學習演算法對真實世界資料向量執行基於學習之分析的多次反覆,直至揭示及學習含於真實世界資料向量中之模式(或關係)。所學習之模式/關係充當可用於執行多種任務的預測性模型,包括例如真實世界資料之分類(或標記)及真實世界資料之叢集。分類任務常常取決於使用經標記資料集來訓練神經網路(亦即,模型)以辨識標記與資料之間的相關性。此稱為監督式學習。分類任務之實例包括識別影像中之物件(例如,停止標誌、行人、車道標記物等),辨識視訊中之示意動作,偵測語音,偵測音訊中之語音,識別特定說話者,將語音轉錄成文字,及其類似者。叢集任務識別物件之間的相似性,其根據彼等共同特徵對物件進行分組,且將該等物件與其它物件群組區分開。此等群組稱為「叢集」。
將參考圖7及圖8描述可用於實施本發明之態樣的機器學習技術之實例。將參考圖7描述根據本發明之實施例組態及配置之機器學習模型。將參考圖9提供能夠實施本文中所描述的本發明之實施例中之一或
多者的實例運算系統及網路架構之詳細描述。
圖7描繪展示能夠實施本文中所描述之本發明之各種態樣的分類器系統700之方塊圖。更特定言之,在本發明之實施例中使用系統700之功能性以產生可用於實施本發明之實施例中之電腦功能性的各種模型及子模型。系統700包括經由網路704與分類器710通信之多個資料源702。在本發明之一些態樣中,資料源702可繞過網路704且直接饋入至分類器710中。資料源702提供將藉由根據本發明之實施例之分類器710評估的資料/資訊輸入。資料源702亦提供資料/資訊輸入,該資料/資訊輸入可由分類器710使用以訓練及/或更新由分類器710產生之模型716。資料源702可實施為廣泛多種資料源,包括但不限於經組態以收集即時資料之感測器、資料儲存庫(包括訓練資料儲存庫)及來自其他分類器之輸出。網路704可為任何類型之通信網路,包括但不限於區域網路、廣域網路、專用網路、網際網路及其類似者。
分類器710可實施為由諸如處理系統900(展示於圖9中)之可程式化電腦執行的演算法。如圖7中所展示,分類器710包括一系列機器學習(ML)演算法712;自然語言處理(NLP)演算法714;及作為由ML演算法712產生(或學習)之關係(或預測)演算法的模型716。為了易於說明及解釋,單獨描繪分類器710之演算法712、714、716。在本發明之實施例中,由分類器710之各種演算法712、714、716執行之功能可與所展示不同之方式分佈。舉例而言,在分類器710經組態以執行具有子任務之總體任務的情況下,ML演算法712之套件可經分割,使得ML演算法712之一部分執行各子任務且ML演算法712之一部分執行總體任務。另外,在本發明之一些實施例中,NLP演算法714可整合於ML演算法712內。
NLP演算法714包括語音辨識功能性,其允許分類器710且更特定言之ML演算法712接收自然語言資料(文字及音訊),且應用語言處理、資訊檢索及機器學習之元素以自自然語言輸入導出含義,且可能基於所導出之含義而採取動作。根據本發明之態樣使用的NLP演算法714亦可包括語音合成功能性,其允許分類器710將結果720轉譯成自然語言(文字及音訊)以將結果720之態樣傳達為自然語言通信。
NLP演算法714及ML演算法712接收及評估來自資料源702之輸入資料(亦即,訓練資料及分析中的資料)。ML演算法712包括為解譯及利用輸入資料的格式所必需的功能性。舉例而言,在資料源702包括影像資料之情況下,ML演算法712可包括經組態以解譯影像資料之視覺辨識軟體。ML演算法712將機器學習技術應用於所接收之訓練資料(例如,自資料源702中之一或多者接收到的資料),以便隨時間推移建立/訓練/更新一或多個模型716,該模型對分類器710經設計以完成之總體任務及子任務進行模型化。
現共同地參考圖7及圖8,圖8描繪由ML演算法712執行以產生上述模型716之學習階段800的實例。在學習階段800中,分類器710自訓練資料提取特徵,且將該等特徵轉換成可由ML演算法712辨識且分析的向量表示。藉由ML演算法712分析特徵向量以相對於目標模型(或模型之任務)對訓練資料進行「分類」且揭示經分類訓練資料之間及之中的關係。ML演算法712之合適實施的實例包括但不限於神經網路、支援向量機(SVM)、邏輯回歸、決策樹、隱馬爾可夫模型(hidden Markov Model;HMM)等。由ML演算法712執行之學習或訓練可為監督式、無監督或包括監督式及無監督學習之態樣的混合。監督式學習為訓練資料已可
用且經分類/標記之情況。無監督學習為訓練資料未經分類/標記之情況,因此必須經由分類器710及ML演算法712之反覆來開發。無監督學習可利用額外學習/訓練方法,包括例如叢集、異常偵測、神經網路、深度學習及其類似者。
當模型716由ML演算法712充分地訓練時,存取產生「真實世界」資料之資料源702,且將「真實世界」資料應用於模型716以產生結果720之可用版本。在本發明之一些實施例中,結果720可回饋回至分類器710且由ML演算法712用作用於更新及/或改進模型716之額外訓練資料。
在本發明之態樣中,ML演算法712及模型716可經組態以將信賴等級(CL)應用於其結果/判定中之各種結果/判定(包括結果720),以便改良特定結果/判定之總體準確度。當ML演算法712及/或模型716做出判定或產生CL之值低於預定臨限值(TH)(亦即,CL<TH)之結果時,結果/判定可分類為具有足夠低的「信賴度」以證明判定/結果無效之結論,且此結論可用於判定何時、如何及/或是否在下游處理中處置判定/結果。若CL>TH,則判定/結果可被視為有效的,且此結論可用於判定何時、如何及/或是否在下游處理中處置判定/結果。可提供許多不同預定TH水平。具有CL>TH之判定/結果可自最高CL>TH至最低CL>TH進行排名,以便對何時、如何及/或是否在下游處理中處置判定/結果區分優先級。
在本發明之態樣中,分類器710可經組態以將信賴等級(CL)應用於結果720。當分類器710判定結果720中之CL低於預定臨限值(TH)(亦即,CL<TH)時,結果720可分類為足夠低以證明結果720中「無信賴度」之分類。若CL>TH,則結果720可分類為足夠高以證明結果720
有效之判定。可提供許多不同的預定TH水平,使得具有CL>TH之結果720可自最高CL>TH至最低CL>TH進行排名。
由分類器710且更特定言之由ML演算法712執行之功能可經組織為加權有向圖,其中節點為人造神經元(例如,模仿人腦之神經元),且其中加權有向邊緣連接節點。分類器710之有向圖可經組織,使得某些節點形成輸入層節點,某些節點形成隱藏層節點,且某些節點形成輸出層節點。輸入層節點耦接至隱藏層節點,該等隱藏層節點耦接至輸出層節點。各節點藉由連接通路連接至鄰近層中之各節點,該等連接通路可描繪為各自具有連接強度之方向箭頭。可提供多個輸入層、多個隱藏層及多個輸出層。當提供多個隱藏層時,分類器710可執行無監督深度學習以用於執行分類器710之經指派任務。
類似於人腦之功能性,各輸入層節點接收沒有連接強度調整且沒有節點總和之輸入。各隱藏層節點根據與相關連接通路相關聯之連接強度自所有輸入層節點接收其輸入。針對隱藏層節點及輸出層節點執行類似連接強度乘法及節點求和。
分類器710之加權有向圖一次一個地處理資料記錄(例如,來自資料源702之輸出),且其藉由將記錄之初始任意分類與記錄之已知實際分類進行比較來「學習」。使用被稱為「反向傳播」(亦即,「誤差之反向傳播」)之訓練方法,將來自第一記錄之初始分類的誤差回饋至分類器710之加權有向圖中,且用於第二次修改加權有向圖的加權連接,且此回饋程序持續許多次反覆。在分類器710之加權有向圖之訓練階段中,各記錄之正確分類為已知的,且輸出節點可因此經指派「正確」值。舉例而言,對應於正確類別之節點的節點值為「1」(或0.9),而其他節點之節點
值為「0」(或0.1)。因此有可能將輸出節點之加權有向圖之所計算值與此等「正確」值進行比較,且計算各節點之誤差項(亦即,「差量」規則)。此等誤差項接著用於調整隱藏層中之權重,使得在下一反覆中,輸出值將更接近於「正確」值。
圖9描繪電腦系統900之高階方塊圖,該電腦系統可用於實施根據本發明之態樣的一或多個電腦處理操作。儘管展示一個例示性電腦系統900,但電腦系統900包括通信路徑925,其將電腦系統900連接至額外系統(未描繪)且可包括一或多個廣域網路(WAN)及/或區域網路(LAN),諸如網際網路、企業內部網路及/或無線通信網路。電腦系統900及額外系統經由通信路徑925通信以例如在其之間傳達資料。在本發明之一些實施例中,額外系統可實施為一或多個雲端運算系統50。雲端運算系統50可補充、支援或替換電腦系統900之功能性中的一些或全部(以任何組合),包括可使用電腦系統900實施之此詳細描述中描述的任何及所有運算系統。另外,在此詳細描述中描述的各種運算系統之功能性中的一些或全部可實施為雲端運算系統50的節點。
電腦系統900包括一或多個處理器,諸如處理器902。處理器902連接至通信基礎架構904(例如,通信匯流排、交叉桿或網路)。電腦系統900可包括顯示介面906,該顯示介面自通信基礎架構904(或自未展示之訊框緩衝器)轉遞圖形、文字及其他資料以用於在顯示單元908上顯示。電腦系統900亦包括主記憶體910,較佳地為隨機存取記憶體(RAM),且亦可包括輔助記憶體912。輔助記憶體912可包括例如硬碟機914及/或表示例如軟碟機、磁帶機或光碟機之可移除式儲存隨身碟916。可移除式儲存隨身碟916以一般熟習此項技術者熟知的方式自可移除式儲
存單元918讀取及/或寫入至可移除式儲存單元918。可移除式儲存單元918表示例如軟碟、緊密光碟、磁帶或光碟、快閃隨身碟、固態記憶體等,其由可移除式儲存隨身碟916讀取及寫入。如將瞭解,可移除式儲存單元918包括其中儲存有電腦軟體及/或資料的電腦可讀媒體。
在本發明之替代實施例中,輔助記憶體912可包括允許電腦程式或其他指令載入至電腦系統中之其他類似構件。此類構件可包括例如可移除式儲存單元920及介面922。此類構件之實例可包括程式包及包介面(諸如視訊遊戲裝置中發現之彼等)、可移除記憶體晶片(諸如EPROM或PROM)及相關聯之插座,及允許軟體及資料自可移除式儲存單元920傳送至電腦系統900的其他可移除式儲存單元920及介面922。
電腦系統900亦可包括通信介面924。通信介面924允許軟體及資料在電腦系統與外部裝置之間傳送。通信介面924之實例可包括數據機、網路介面(諸如乙太網路卡)、通信埠或PCM-CIA插槽及卡等。經由通信介面924傳送之軟體及資料呈信號形式,該等信號可為例如能夠由通信介面924接收之電子、電磁、光學或其他信號。此等信號經由通信路徑(亦即,通道)925提供至通信介面924。通信路徑925攜載信號且可使用導線或電纜、光纖、電話線、蜂巢式電話鏈路、RF鏈路及/或其他通信通道來實施。
本發明之各種實施例在本文中參考相關圖式進行描述。可在不脫離本發明之範疇的情況下設計本發明之替代實施例。在以下描述及圖式中之元件之間闡述各種連接及位置關係(例如,上方、下方、鄰近等)。除非另外規定,否則此等連接及/或位置關係可為直接或間接的,且本發明在此方面不意欲為限制性的。相應地,實體之耦接可指直接抑或間
接耦接,且實體之間之位置關係可為直接或間接位置關係。此外,本文中所描述之各種任務及處理步驟可併入至具有未詳細地描述於本文中之額外步驟或功能性的更全面程序或處理程序中。
以下定義及縮寫將用於解譯申請專利範圍及本說明書。如本文中所使用,術語「包含(comprises/comprising)」、「包括(includes/including)」、「具有(has/having)」、「含有(contains或containing)」或其任何其他變化意欲涵蓋非排他性包括。舉例而言,包含要素清單之組合物、混合物、程序、方法、製品或設備不必僅限於彼等要素,而是可包括未明確地列出或此類組合物、混合物、程序、方法、製品或設備所固有之其他要素。
本文中所使用之術語僅出於描述本發明之特定實施例的目的,且並不意欲限制本發明。如本文中所使用,除非上下文另外清楚地指示,否則單數形式「一(a/an)」及「該(the)」亦意欲包括複數形式。應進一步理解,術語「包含(comprises及/或comprising)」在用於本說明書中時指定所陳述特徵、整數、步驟、操作、元件及/或組件之存在,但不排除一或多個其他特徵、整數、步驟、操作、元件、組件及/或其群組之存在或添加。
另外,術語「例示性」及其變化在本文中用於意謂「充當實例、個例或說明」。本文中描述為「例示性」之任何實施例或設計未必解釋為比其他實施例或設計較佳或有利。術語「至少一個」、「一或多個」及其變化可包括大於或等於一的任何整數,亦即,一、二、三、四等。術語「複數個」及其變化可包括大於或等於二的任何整數,亦即,二、三、四、五等。術語「連接」及其變化可包括間接「連接」及直接「連接」兩
者。
術語「約」、「實質上」、「大致」及其變化意欲包括與基於在申請本申請案時可用的裝備之特定量的量測相關聯之誤差度。舉例而言,「約」可包括給定值之±8%或5%或2%的範圍。
如本文中所使用,在機器學習演算法之上下文中,術語「輸入資料」及其變化意欲涵蓋在機器學習演算法處接收且由機器學習演算法使用以執行訓練、學習及/或分類操作的任何類型之資料或其他資訊。
如本文中所使用,在機器學習演算法之上下文中,術語「訓練資料」及其變化意欲涵蓋在機器學習演算法處接收且由機器學習演算法使用以執行訓練及/或學習操作的任何類型之資料或其他資訊。
如本文中所使用,在機器學習演算法之上下文中,術語「應用程式資料」、「真實世界資料」、「實際資料」及其變化意欲涵蓋在機器學習演算法處接收且由機器學習演算法使用以執行分類操作的任何類型之資料或其他資訊。
片語「在信號通信中」、「與...通信」、「以通信方式耦接至」及其變化在本文中可互換使用,且可指使用任何系統、硬體、軟體、協定或格式,使用電信號來交換信息或資料的任何耦接、連接或互動,而不管交換是無線地發生還是經由有線連接發生。
本發明可為一種系統、一種方法及/或一種電腦程式產品。電腦程式產品可包括一(或多個)電腦可讀儲存媒體,其上有電腦可讀程式指令以使處理器進行本發明之態樣。
電腦可讀儲存媒體可為有形裝置,其可保持及儲存指令以
供指令執行裝置使用。電腦可讀儲存媒體可為例如但不限於電子儲存裝置、磁性儲存裝置、光學儲存裝置、電磁儲存裝置、半導體儲存裝置或前述之任何合適組合。電腦可讀儲存媒體之更特定實例之非詳盡清單包括以下各者:攜帶型電腦磁片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦除可程式化唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、攜帶型緊密光碟唯讀記憶體(CD-ROM)、數位化通用光碟(DVD)、記憶棒、軟性磁碟、經機械編碼裝置(諸如其上記錄有指令之打孔卡或凹槽中之凸起結構)及前述之任何合適組合。如本文中所使用,不應將電腦可讀儲存媒體本身解釋為暫時性信號,諸如無線電波或其他自由傳播之電磁波、經由波導或其他傳輸媒體傳播之電磁波(例如,經由光纖纜線傳遞之光脈衝),或經由導線傳輸之電信號。
本文中所描述之電腦可讀程式指令可自電腦可讀儲存媒體下載至各別運算/處理裝置或經由網路(例如,網際網路、區域網路、廣域網路及/或無線網路)下載至外部電腦或外部儲存裝置。網路可包含銅傳輸纜線、光傳輸光纖、無線傳輸、路由器、防火牆、交換器、閘道器電腦及/或邊緣伺服器。各運算/處理裝置中之網路配接器卡或網路介面自網路接收電腦可讀程式指令且轉遞電腦可讀程式指令以供儲存於各別運算/處理裝置內之電腦可讀儲存媒體中。
用於進行本發明之操作的電腦可讀程式指令可為組譯程式指令、指令集架構(ISA)指令、機器指令、機器相依指令、微碼、韌體指令、狀態設定資料或以一或多種程式設計語言之任何組合編寫的原始程式碼或目標程式碼,該一或多種程式設計語言包括諸如Smalltalk、C++或其類似者之物件導向式程式設計語言,及諸如「C」程式設計語言或類似程
式設計語言之習知程序性程式設計語言。電腦可讀程式指令可完全在使用者電腦上執行、部分地在使用者電腦上執行、作為獨立套裝軟體執行、部分地在使用者電腦上執行且部分地在遠端電腦上執行或完全在遠端電腦或伺服器上執行。在後一情境中,遠端電腦可經由包括區域網路(LAN)或廣域網路(WAN)之任何類型之網路連接至使用者電腦,或可連接至外部電腦(例如,經由網際網路使用網際網路服務提供者)。在一些實施例中,包括例如可程式化邏輯電路系統、場可程式化閘陣列(FPGA)或可程式化邏輯陣列(PLA)之電子電路系統可藉由利用電腦可讀程式指令之狀態資訊來個人化電子電路系統而執行電腦可讀程式指令,以便執行本發明之態樣。
本文中參考根據本發明之實施例之方法、設備(系統)及電腦程式產品之流程圖說明及/或方塊圖描述本發明之態樣。應理解,可藉由電腦可讀程式指令實施流程圖說明及/或方塊圖中之各區塊以及流程圖說明及/或方塊圖中之區塊之組合。
可將此等電腦可讀程式指令提供至通用電腦、專用電腦或其他可程式化資料處理設備之處理器以產生機器,使得經由電腦或其他可程式化資料處理設備之處理器執行之指令建立用於實施一或多個流程圖及/或方塊圖區塊中所指定之功能/動作之構件。亦可將此等電腦可讀程式指令儲存於電腦可讀儲存媒體中,該等指令可指導電腦、可程式化資料處理設備及/或其他裝置以特定方式起作用,使得其中儲存有指令之電腦可讀儲存媒體包含製品,該製品包括實施該一或多個流程圖及/或方塊圖區塊中所指定之功能/動作之態樣的指令。
電腦可讀程式指令亦可載入至電腦、其他可程式化資料處理設備或其他裝置上,以使一系列操作步驟在該電腦、其他可程式化設備
或其他裝置上執行以產生電腦實施程序,使得在該電腦、其他可程式化設備或其他裝置上執行之指令實施一或多個流程圖及/或方塊圖區塊中所指定之功能/動作。
諸圖中之流程圖及方塊圖說明根據本發明之各種實施例之系統、方法及電腦程式產品之可能實施之架構、功能性及操作。就此而言,流程圖或方塊圖中之各區塊可表示指令之模組、分段或部分,其包含用於實施一或多個所指定之邏輯功能的一或多個可執行指令。在一些替代實施中,區塊中提及的功能可不按諸圖中所提及的次序發生。舉例而言,視所涉及之功能性而定,連續展示之兩個區塊實際上可實質上同時執行,或該等區塊有時可以相反次序執行。亦應注意,可藉由執行指定功能或動作或進行專用硬體及電腦指令之組合的基於專用硬體之系統實施方塊圖及/或流程圖說明之各區塊及方塊圖及/或流程圖說明中之區塊之組合。
本文中所使用之術語僅出於描述特定實施例的目的且並不意欲限制本發明。如本文中所使用,除非上下文另外清楚地指示,否則單數形式「一(a/an)」及「該(the)」亦意欲包括複數形式。應進一步理解,術語「包含(comprises及/或comprising)」在用於本說明書中時指定所陳述特徵、整數、步驟、操作、元件及/或組件之存在,但不排除一或多個其他特徵、整數、步驟、操作、元件、組件及/或其群組之存在或添加。
以下申請專利範圍中之所有構件或步驟加功能元件之對應結構、材料、動作及等效物意欲包括用於結合如特定主張之其他所主張元件來執行功能的任何結構、材料或動作。已出於說明及描述之目的呈現本發明之描述,但該描述並不意欲為詳盡的或將本發明限於所揭示之形式。在不脫離本發明之範疇及精神之情況下,許多修改及變化對於一般熟習此
項技術者將顯而易見。選擇並描述實施例以便最佳地解釋本發明之原理及實務應用,且使其他一般熟習此項技術者能夠關於具有適合於所預期之特定用途的各種修改之各種實施例來理解本發明。
應理解,熟習此項技術者現在及將來均可進行落入以下申請專利範圍之範疇內的各種改良及增強。
500:方法
502:區塊
504:區塊
506:區塊
508:區塊
510:區塊
512:區塊
514:區塊
516:區塊
518:區塊
520:區塊
522:區塊
Claims (20)
- 一種執行一電子搜尋之電腦實施方法,該電腦實施方法包含:使用一處理器接收包含複數個電子可識別物件之一複合電子影像,其中該複合電子影像與一使用者相關聯;使用該處理器藉由提供該複數個電子可識別物件中之各者的子影像中之至少一者來將該複合電子影像分割成該等子影像;及對該等子影像中之各者使用該處理器執行個人化子影像搜尋操作,該等個人化子影像搜尋操作包含:自該等子影像之中選擇一待搜尋之子影像;將該待搜尋之子影像與該使用者之個人化後設資料相關聯;及至少部分地基於該使用者之該個人化後設資料而搜尋一資料庫以傳回一搜尋影像集合。
- 如請求項1之電腦實施方法,其中該使用者之該個人化後設資料包含:該待搜尋之子影像與該使用者之相關性的一描述;該待搜尋之子影像與該複合電子影像之一相對大小;及該待搜尋之子影像在該複合電子影像內之一相對位置。
- 如請求項2之電腦實施方法,其中該使用者之該個人化後設資料自關於該使用者之一資訊語料庫導出。
- 如請求項1之電腦實施方法,其中該等個人化子影像搜尋操作進一步包含:為該待搜尋之子影像指派一相關性等級;其中該相關性等級包含該待搜尋之子影像與該使用者之一相關性;及至少部分地基於該相關性等級而相對於該等子影像對該待搜尋之子影像進行排名。
- 如請求項1之電腦實施方法,其中該等個人化子影像搜尋操作進一步包含:將該等個人化子影像搜尋操作之結果呈現給該使用者;及自該使用者接收關於該等個人化子影像搜尋操作之該等結果的回饋。
- 如請求項5之電腦實施方法,其進一步包含基於該回饋而針對該待搜尋之子影像重複該等個人化子影像搜尋操作。
- 如請求項4之電腦實施方法,其中該處理器包含一分類器,該分類器經訓練以:基於關於該使用者之一資訊語料庫而產生該使用者之該個人化後設資料;及至少部分地基於關於該使用者之該資訊語料庫而判定該待搜尋之子影像與該使用者的該相關性。
- 一種用於執行一電子搜尋之電腦系統,該電腦系統包含以通信方式耦接至一處理器之一記憶體,該處理器經組態以執行包含以下之處理器操作:接收包含複數個電子可識別物件之一複合電子影像,其中該複合電子影像與一使用者相關聯;藉由提供該複數個電子可識別物件中之各者的子影像中之至少一者來將該複合電子影像分割成該等子影像;及對該等子影像中之各者執行個人化子影像搜尋操作,該等個人化子影像搜尋操作包含:自該等子影像之中選擇一待搜尋之子影像;將該待搜尋之子影像與該使用者之個人化後設資料相關聯;及至少部分地基於該使用者之該個人化後設資料而搜尋一資料庫以傳回一搜尋影像集合。
- 如請求項8之電腦系統,其中該使用者之該個人化後設資料包含該待搜尋之子影像與該使用者之相關性的一描述。
- 如請求項9之電腦系統,其中該使用者之該個人化後設資料自關於該使用者之一資訊語料庫導出。
- 如請求項8之電腦系統,其中該等個人化子影像搜尋操作進一步包含:為該待搜尋之子影像指派一相關性等級; 其中該相關性等級包含該待搜尋之子影像與該使用者之一相關性;及至少部分地基於該相關性等級而相對於該等子影像對該待搜尋之子影像進行排名。
- 如請求項8之電腦系統,其中該等個人化子影像搜尋操作進一步包含:將該等個人化子影像搜尋操作之結果呈現給該使用者;及自該使用者接收關於該等個人化子影像搜尋操作之該等結果的回饋。
- 如請求項12之電腦系統,其中該等處理器操作進一步包含基於該回饋而針對該待搜尋之子影像重複該等個人化子影像搜尋操作。
- 如請求項11之電腦系統,其中該處理器包含一分類器,該分類器經訓練以:基於關於該使用者之一資訊語料庫而產生該使用者之該個人化後設資料;及至少部分地基於關於該使用者之該資訊語料庫而判定該待搜尋之子影像與該使用者的該相關性。
- 一種用於執行一電子搜尋之電腦程式產品,該電腦程式產品包含儲存於一電腦可讀儲存媒體上之一電腦可讀程式,其中該電腦可讀程式當在一處理器上執行時使得該處理器執行一方法,該方法包含: 接收包含複數個電子可識別物件之一複合電子影像,其中該複合電子影像與一使用者相關聯;藉由提供該複數個電子可識別物件中之各者的子影像中之至少一者來將該複合電子影像分割成該等子影像;及對該等子影像中之各者執行個人化子影像搜尋操作,該等個人化子影像搜尋操作包含:自該等子影像之中選擇一待搜尋之子影像;將該待搜尋之子影像與該使用者之個人化後設資料相關聯;及至少部分地基於該使用者之該個人化後設資料而搜尋一資料庫以傳回一搜尋影像集合。
- 如請求項15之電腦程式產品,其中該使用者之該個人化後設資料包含該待搜尋之子影像與該使用者之相關性的一描述。
- 如請求項16之電腦程式產品,其中該使用者之該個人化後設資料自關於該使用者之一資訊語料庫導出。
- 如請求項15之電腦程式產品,其中該等個人化子影像搜尋操作進一步包含:為該待搜尋之子影像指派一相關性等級;其中該相關性等級包含該待搜尋之子影像與該使用者之一相關性;及至少部分地基於該相關性等級而相對於該等子影像對該待搜尋之子 影像進行排名。
- 如請求項15之電腦程式產品,其中該等個人化子影像搜尋操作進一步包含:將該等個人化子影像搜尋操作之結果呈現給該使用者;及自該使用者接收關於該等個人化子影像搜尋操作之該等結果的回饋;其中該等處理器操作進一步包含基於該回饋而針對該待搜尋之子影像重複該等個人化子影像搜尋操作。
- 如請求項18之電腦程式產品,其中該處理器包含一分類器,該分類器經訓練以:基於關於該使用者之一資訊語料庫而產生該使用者之該個人化後設資料;及至少部分地基於關於該使用者之該資訊語料庫而判定該待搜尋之子影像與該使用者的該相關性。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/479,172 US20230093468A1 (en) | 2021-09-20 | 2021-09-20 | Cognitive image searching based on personalized image components of a composite image |
US17/479,172 | 2021-09-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202314536A TW202314536A (zh) | 2023-04-01 |
TWI831229B true TWI831229B (zh) | 2024-02-01 |
Family
ID=83689817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111120125A TWI831229B (zh) | 2021-09-20 | 2022-05-30 | 基於一複合影像之個人化影像組件之認知影像搜尋 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230093468A1 (zh) |
EP (1) | EP4405828A1 (zh) |
JP (1) | JP2024535035A (zh) |
CN (1) | CN117980894A (zh) |
TW (1) | TWI831229B (zh) |
WO (1) | WO2023041648A1 (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090125482A1 (en) * | 2007-11-12 | 2009-05-14 | Peregrine Vladimir Gluzman | System and method for filtering rules for manipulating search results in a hierarchical search and navigation system |
US20150134688A1 (en) * | 2013-11-12 | 2015-05-14 | Pinterest, Inc. | Image based search |
TW201610826A (zh) * | 2013-09-09 | 2016-03-16 | 蘋果公司 | 基於指紋感測器輸入的操縱使用者介面之電子裝置及操作其之方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8732175B2 (en) * | 2005-04-21 | 2014-05-20 | Yahoo! Inc. | Interestingness ranking of media objects |
US20140156704A1 (en) * | 2012-12-05 | 2014-06-05 | Google Inc. | Predictively presenting search capabilities |
US9779327B2 (en) * | 2015-08-21 | 2017-10-03 | International Business Machines Corporation | Cognitive traits avatar for similarity matching |
US10684738B1 (en) * | 2016-11-01 | 2020-06-16 | Target Brands, Inc. | Social retail platform and system with graphical user interfaces for presenting multiple content types |
US11163819B2 (en) * | 2017-10-23 | 2021-11-02 | Adobe Inc. | Image search and retrieval using object attributes |
US11314827B2 (en) * | 2019-08-28 | 2022-04-26 | Houzz, Inc. | Description set based searching |
US11681752B2 (en) * | 2020-02-17 | 2023-06-20 | Honeywell International Inc. | Systems and methods for searching for events within video content |
US11599575B2 (en) * | 2020-02-17 | 2023-03-07 | Honeywell International Inc. | Systems and methods for identifying events within video content using intelligent search query |
US11636663B2 (en) * | 2021-02-19 | 2023-04-25 | Microsoft Technology Licensing, Llc | Localizing relevant objects in multi-object images |
-
2021
- 2021-09-20 US US17/479,172 patent/US20230093468A1/en active Pending
-
2022
- 2022-05-30 TW TW111120125A patent/TWI831229B/zh active
- 2022-09-15 CN CN202280063473.9A patent/CN117980894A/zh active Pending
- 2022-09-15 JP JP2024516634A patent/JP2024535035A/ja active Pending
- 2022-09-15 WO PCT/EP2022/075650 patent/WO2023041648A1/en active Application Filing
- 2022-09-15 EP EP22786906.2A patent/EP4405828A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090125482A1 (en) * | 2007-11-12 | 2009-05-14 | Peregrine Vladimir Gluzman | System and method for filtering rules for manipulating search results in a hierarchical search and navigation system |
TW201610826A (zh) * | 2013-09-09 | 2016-03-16 | 蘋果公司 | 基於指紋感測器輸入的操縱使用者介面之電子裝置及操作其之方法 |
US20150134688A1 (en) * | 2013-11-12 | 2015-05-14 | Pinterest, Inc. | Image based search |
Also Published As
Publication number | Publication date |
---|---|
JP2024535035A (ja) | 2024-09-26 |
TW202314536A (zh) | 2023-04-01 |
WO2023041648A1 (en) | 2023-03-23 |
US20230093468A1 (en) | 2023-03-23 |
EP4405828A1 (en) | 2024-07-31 |
CN117980894A (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dessì et al. | Bridging learning analytics and cognitive computing for big data classification in micro-learning video collections | |
US9965717B2 (en) | Learning image representation by distilling from multi-task networks | |
US10303768B2 (en) | Exploiting multi-modal affect and semantics to assess the persuasiveness of a video | |
CN111401077B (zh) | 语言模型的处理方法、装置和计算机设备 | |
Guo et al. | LD-MAN: Layout-driven multimodal attention network for online news sentiment recognition | |
Jotheeswaran et al. | OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE. | |
US8856109B2 (en) | Topical affinity badges in information retrieval | |
US11120268B2 (en) | Automatically evaluating caption quality of rich media using context learning | |
CN112528136A (zh) | 一种观点标签的生成方法、装置、电子设备和存储介质 | |
CN111831924A (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN117011737A (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
Stoica et al. | Classification of educational videos by using a semi-supervised learning method on transcripts and keywords | |
Dehghan et al. | An improvement in the quality of expert finding in community question answering networks | |
Savchenko | Personalized frame-level facial expression recognition in video | |
Novais et al. | Facial emotions classification supported in an ensemble strategy | |
Esmail Zadeh Nojoo Kambar et al. | Chemical-gene relation extraction with graph neural networks and bert encoder | |
TWI831229B (zh) | 基於一複合影像之個人化影像組件之認知影像搜尋 | |
Costa et al. | Customized crowds and active learning to improve classification | |
Bhagat et al. | A Literature Review on Sentiment Analysis Using Machine Learning in Education Domain | |
Hoque et al. | An interactive system for exploring community question answering forums | |
Tuama et al. | Recognition and classification of facial expressions using artificial neural networks | |
Debnath et al. | A multi-modal lecture video indexing and retrieval framework with multi-scale residual attention network and multi-similarity computation | |
Ansari et al. | An efficient automated image caption generation by the encoder decoder model | |
Dessi | Knowledge extraction from textual resources through semantic web tools and advanced machine learning algorithms for applications in various domains |