TW201712600A - 用於自影像偵測與辨認文字之方法與系統 - Google Patents

用於自影像偵測與辨認文字之方法與系統 Download PDF

Info

Publication number
TW201712600A
TW201712600A TW105120158A TW105120158A TW201712600A TW 201712600 A TW201712600 A TW 201712600A TW 105120158 A TW105120158 A TW 105120158A TW 105120158 A TW105120158 A TW 105120158A TW 201712600 A TW201712600 A TW 201712600A
Authority
TW
Taiwan
Prior art keywords
image
text
processor
character
images
Prior art date
Application number
TW105120158A
Other languages
English (en)
Other versions
TWI629644B (zh
Inventor
西蒙 奧森德羅
Original Assignee
雅虎股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 雅虎股份有限公司 filed Critical 雅虎股份有限公司
Publication of TW201712600A publication Critical patent/TW201712600A/zh
Application granted granted Critical
Publication of TWI629644B publication Critical patent/TWI629644B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

辨識包括文字之影像並且從該些影像產生輸出,其中該輸出包括來自該影像中之文字資料格式的文字。初始辨識一影像之包括該文字資料的部分,並且以文字資料格式擷取該影像部分的像素所成像之文字。被擷取的文字係經儲存,因而可進行包括特定文字之影像之搜尋。

Description

用於自影像偵測與辨認文字之方法與系統
本發明關於影像偵測及辨認之方法與系統,尤指關於偵測及辨識影像中的文字。
行動裝置與資料網路的普及能產生上萬種同時交換資訊的方式。數位相機的可用性讓使用者能夠盡可能地依喜好照許多相片,並且選擇特定某些來儲存及/或分享,同時刪除不想要的相片。除了如數位相機或智慧型手機等裝置的儲存能力之外,影像之雲端儲存也已有普及性。使用者的廣大影像語料庫現在可上傳至遠端伺服器以進行儲存或進一步處理。人們也可使用智慧型手機上的數位相機來照相,同時智慧型手機的通訊元件能供同時與他們的社交網路分享相片。
本發明是關於能夠從影像中辨識文字之影像處理系統與方法。開始先辨識出影像中可能會含有文字的區域。對包括該文字/書寫的影像區域之初始預測執行依序的預測、動作與分析程序。在程序中,一已訓練模型係進一步分析預測的影像區域,例如藉由於原始影像中應用高解析度子視窗,並輸出關於影像中文字字符的屬性的預測。字符預測係同時或 依序被饋送至一已訓練語言模型,以細化對字組的預測。因而產生之字組可被儲存作為對影像的標籤,或作為影像之可搜尋索引。
從本文所揭內容可知,具體實施例提供了對數種技術領域的改良,例如與控制或處理使用者或業務實體之影像的系統和程序有關的具體實施例,並且用以提高使用者忠誠度、改良影像發佈、提高廣告機會、改善影像搜尋結果、以及改進照相。
在一些具體實施例中揭露了一種處理器可執行之影像搜尋方法,其可基於成像在影像中的文字進行影像搜尋。該方法包括由一處理器接收複數個影像。該方法進一步包括由該處理器辨識一包含文字之影像及包含該文字之該影像的區域。該影像中所含該文字之字符預測係由該處理器取得,並且該文字中所含該字符的語言和定義域中至少其一會被辨識。該方法進一步包括由該處理器基於該語言和該定義域中其一或多者之辨識而產生該文字中所含字組,並且以一上下文資料格式從該影像產生包含該文字之一輸出。該輸出係由與該影像相關聯之該處理器儲存,使得一包括該輸出之搜尋查詢擷取該影像。在一些具體實施例中,在該至少一個影像中的文字可為手寫文字。
在一些具體實施例中,所述用於辨識至少一個包括文字的影像之方法係進一步包括由該處理器對一類神經網路提供訓練資料,及由該處理器於該訓練資料上訓練該類神經網路。在一些具體實施例中,所述訓練資料包括帶有文字之影像、辨識包括該文字之部分影像的資訊、及所述影像中所含該文字之文字資料格式。所述用於辨識所述影像中至少一個包括文字的影像之方法係進一步包括由該處理器對已訓練的類神經網路提供 所述複數個影像。
在一些具體實施例中,由該處理器取得字符預測係進一步包括:由該處理器取得該影像部分中所含複數個影像區域的每一個影像區域中像素之一個別加權取樣,以及由該處理器基於該複數個影像區域中該等像素的該加權取樣而取得該字符預測。在一些具體實施例中,該方法進一步包括:由該處理器從自然語言字符集與符合該字符預測的特定定義域字符集中之一或多者辨識字符。
在一些具體實施例中,該方法進一步包括:由該處理器提供包括含文字之影像之一初始影像集至一已訓練分類器,並且接收來自該已訓練分類器之輸出,該輸出包括辨識該初始影像集中的部分包含文字的影像的資訊,以及該初始影像集的影像中之該文字的文字資料格式。來自該已訓練分類器的輸出係由該處理器儲存為該訓練資料。在一些具體實施例中,該處理器為GPU(繪圖處理單元)。
在一些具體實施例中,該方法進一步包括由該處理器產生所述複數個包括文字之影像之一子集的一索引,由該處理器接收包括文字之一使用者搜尋查詢;由該處理器存取該影像子集之該索引,以及由該處理器基於該使用者搜尋查詢的文字與該子集之影像中所含文字的文字匹配而辨識該子集之影像。已辨識的影像係由該處理器提供作為回應於該使用者搜尋查詢之結果。
在一些具體實施例中揭露了一種計算裝置,該計算裝置包括一處理器與一儲存媒體,儲存媒體上明確地儲存有供該處理器執行之影像處理程式邏輯。在一些具體實施例中,影像處理程式邏輯可由處理器執行, 以從影像中辨識及認出文字。該處理器可執行程式邏輯包括影像接收邏輯,其接收複數個影像;辨識邏輯,其辨識包括文字的至少一個所述影像;以及區域辨識邏輯,其辨識包括所述文字之所述影像的區域。該程式邏輯進一步包括預測邏輯,其取得該影像中所包括的該文字之字符預測;字符集辨識邏輯,其辨識該文字中所含字符的語言與定義域中至少其一;以及字組產生邏輯,其基於該語言與該定義域中一或多者的辨識而產生包含於該文字中之字組。該程式邏輯中也包含有輸出邏輯,其以一文字資料格式從該影像提供包括該文字之一輸出;及儲存邏輯,其儲存與該影像相關聯之輸出。在一些具體實施例中,所述輸出係相關聯於該影像而儲存,因此包括該輸出之一搜尋查詢即可擷取到該影像。
在一些具體實施例中,該程式邏輯包括取樣邏輯,用於取得該影像部分中所含複數個影像區域的每一個影像區域中像素之一個別加權取樣。該程式邏輯也包括訓練資料提供邏輯,其對一類神經網路提供訓練資料,及於該訓練資料上訓練該類神經網路之邏輯。在一些具體實施例中,該訓練資料包括帶有文字之影像、辨識包括該文字之部分影像的資訊、及所述影像中所含該文字之文字資料格式。在一些具體實施例中,該程式邏輯包括用於對已訓練之類神經網路提供所述複數個影像之邏輯。
在所述至少一個影像包括影像子集的一些具體實施例中,程式邏輯進一步包括用於產生所述複數個影像之子集的一索引之邏輯。在一些具體實施例中,該索引包括來自該子集的每一個影像之個別文字。在一些具體實施例中,該程式邏輯包括查詢接收邏輯,其接收包括文字之一使用者搜尋查詢;存取邏輯,其存取該影像子集之該索引;影像辨識邏輯, 其基於該查詢文字與該文字實體之文字匹配辨識來自該子集之影像;及結果提供邏輯,其提供已辨識影像作為回應於該使用者搜尋查詢之結果。
在一些具體實施例中揭露了一種非暫態電腦可讀取之儲存媒體,其包括處理器可執行之指令以從影像中辨識及認出文字。該電腦可讀取之儲存媒體包括下列指令:接收複數個影像,辨識所述影像中包括該文字之至少一個影像,及辨識包括該文字之該影像的區域。該些指令進一步包括下列指令:取得該影像中所含該文字之字符預測,辨識該文字中所含該等字符之一語言與一定義域中至少其一,基於該語言與該定義域中一或多者之辨識而產生該文字中所含字組;以一文字資料格式從該影像產生包括該文字之一輸出,及儲存與該影像相關聯之該輸出,由此包括該輸出之一搜尋查詢即可擷取該影像。
在一些具體實施例中,用於辨識包括文字之至少一個影像之指令係進一步包括對一類神經網路提供訓練資料之指令,及於該訓練資料上訓練該類神經網路之指令。在一些具體實施例中,所述用於取得字符預測之指令係進一步包括取得該影像部分中所含複數個影像區域的每一個影像區域中像素之一個別加權取樣之指令,且其中所述字符預測係基於該複數個影像區域中該等像素的該加權取樣而取得。
在一些具體實施例中,該非暫態電腦可讀取之儲存媒體進一步包括產生包括文字的複數個影像之一子集的索引之指令。在一些具體實施例中,該索引包括該子集中每一個影像所包含之個別文字。該電腦可讀取媒體進一步包括下列指令:接收包括文字之一使用者搜尋查詢,存取該影像子集之索引,基於文字匹配辨識子集中的影像,以及對使用者傳送關 於已辨識影像之資訊。
參照下述詳細說明與如附圖式,熟習發明所屬領域中具有通常技藝者將可明顯理解這些與其他具體實施例。
100‧‧‧影像文字模組
102‧‧‧影像區域模組
104‧‧‧字符擷取模組
106‧‧‧語言模組
108‧‧‧影像查詢模組
110‧‧‧影像文字資料庫
120‧‧‧影像資料庫
130‧‧‧訓練資料
140‧‧‧索引
202‧‧‧影像接收模組
204‧‧‧文字區域辨識模組
206‧‧‧文字區域輸出模組
250‧‧‧影像
252‧‧‧照片
254‧‧‧文字
256‧‧‧文字承載影像部分
260‧‧‧影像
302‧‧‧區域選擇模組
304‧‧‧像素集合模組
306‧‧‧字符預測模組
312‧‧‧方塊
314‧‧‧方塊
352‧‧‧影像區域
354‧‧‧影像區域
356‧‧‧影像區域
358‧‧‧影像區域
362‧‧‧區域
364‧‧‧中心
402‧‧‧語言辨識模組
404‧‧‧文字匹配模組
406‧‧‧文字輸出模組
410‧‧‧字符集
900‧‧‧計算裝置
902‧‧‧電腦匯流排
904‧‧‧記憶體
906‧‧‧儲存媒介/媒體
908‧‧‧媒體硬碟介面
910‧‧‧顯示介面
912‧‧‧處理介面
914‧‧‧網路介面
916‧‧‧鍵盤介面
918‧‧‧指標裝置介面
920‧‧‧CD/DVD驅動器介面
922‧‧‧其他介面
1000‧‧‧客戶裝置
1002‧‧‧中央處理單元
1004‧‧‧隨機存取記憶體
1006‧‧‧操作系統
1008‧‧‧資料儲存器
1010‧‧‧應用程式
1012‧‧‧瀏覽器
1014‧‧‧發訊器
1018‧‧‧記憶體
1020‧‧‧唯讀記憶體
1021‧‧‧加速器
1022‧‧‧基本輸入輸出系統
1023‧‧‧陀螺儀
1024‧‧‧全球定位系統
1025‧‧‧羅盤
1026‧‧‧電路
1027‧‧‧相機
1028‧‧‧電源供應器
1030‧‧‧網路介面
1032‧‧‧音訊介面
1034‧‧‧顯示器
1036‧‧‧按鍵
1038‧‧‧照明器
1040‧‧‧輸入/輸出介面
1042‧‧‧觸覺介面
在圖式中,並未依實際比例繪示,並且以相同的元件符號表示數個視圖中的相同元件:第一圖說明一種例示專用影像文字模組,其從影像輸出文字;第二圖為一示意圖,其說明根據一些具體實施例之專用影像區域模組的細部;第三A圖為一示意圖,其說明根據一些具體實施例之專用字符擷取模組的細部;第三B圖為一示意圖,其說明根據一些具體實施例之字符擷取模組的處理細節;第四圖為根據一些具體實施例之專用語言模組的示意圖;第五圖為一流程圖,其詳細說明根據一些具體實施例之從影像中擷取文字的方法;第六圖為一流程圖,其詳細說明根據一些具體實施例之取得字符預測的方法;第七A圖為一流程圖,其詳細說明根據一些具體實施例之取得像素的加權取樣之方法;第七B圖為一流程圖,其詳細說明根據一些具體實施例之擷 取字符的方法;第八圖為一流程圖,其詳細說明根據一些具體實施例之進行影像搜尋的方法;第九圖說明了一計算裝置的內部架構,該計算裝置可儲存及/或執行根據本文所述具體實施例之影像文字模組;第十圖為一示意圖,其說明了根據本發明具體實施例之計算裝置的客戶裝置實施方式。
現將參照如附圖式,於下文中更完整說明標的內容,這些圖式係構成本文的一部分,且其係藉由例示說明了特定的例示具體實施例。然而,標的內容係可具現為多種不同形式,因此所涵蓋或主張的標的內容係意欲被解釋為不限於本文所提出的任何例示具體實施例;例示具體實施例係僅提供作為說明用。同樣地,所主張或涵蓋的標的內容意欲有合理廣泛的範圍。除其他方面外,舉例而言,該標的內容可被具現為方法、裝置、構件或系統。因此,具體實施例可例如是具有硬體、軟體、韌體或其任意組合之形式(除軟體本身)。因此,下述詳細說明並不是要具有限制意義。
在如附圖式中,係放大了某些特徵以顯示出特定構件的細部(而且圖式中所示之任何尺寸、材料與類似細節都僅作為例示用而非限制)。因此,本文所述之特定結構與功能細節並不是要被解釋為限制,而是僅供作為教示熟習該領域技藝者以對所揭具體實施例做不同應用之代表性基礎。
以下參照用以選擇及呈現與一特定主題相關媒體之方法與 裝置的方塊圖與運作說明來描述具體實施例。應理解方塊圖或運作說明的每一個方塊、及方塊圖或運作說明的方塊組合都可以藉由類比或數位硬體與電腦程式指令的方式而實施。這些電腦程式指令或邏輯被提供至一通用電腦的處理器、專用電腦、ASIC或其他可編程的資料處理裝置,使得經由電腦的處理器或其他可編程的資料處理裝置而執行的這些指令可實施方塊圖或運作方塊中所指明的功能/動作。
在一些替代實施方式中,方塊中所述功能/動作可以不同於運作說明中所述順序而進行。舉例而言,連續顯示的兩個方塊在實際上係可實質上同時執行,或是這些方塊有時可以相反順序執行,係依所涉功能/動作而定。此外,在本發明中以流程圖呈現及說明之方法具體實施例係以舉例方式提供,以提供對於對技術之更完整理解。所揭方法並不限於本文所提運作與邏輯流程,可推知存在有替代性具體實施例,其中各種運作的順序係可調整,且其中作為較大運作的一部分而說明之子運作係可被獨立執行。
在整份說明書與申請專利範圍中,用語已被賦予明確規定的意義以外之所建議或文字中暗示之意義。同樣地,本文所使用之用語「在一個具體實施例中」並不需要指同一個具體實施例,而本文中所使用之用語「在另一具體實施例中」也並非必須是指一不同具體實施例。舉例而言,希望所主張標的內容包括例示具體實施例整體或部分之組合。一般而言,可以至少部分從文字中的使用來理解術語。舉例而言,例如「及」、「或」、或「及/或」等用語在本文中被使用時,可至少部分依據使用有這些用語的文字而包括各種意義。一般而言,當使用「或」來關聯一列表時,例如A、 B或C,係意指用於包含性概念的A、B及C,以及排除性概念的A、B或C。此外,本文中如使用用語「一或多個」時,至少部分依據文字,係用以描述具有單數概念的任何特徵、結構或特性,或用以描述具有複數概念的特徵、結構或性之組合。類似地,例如「一」或「該」等用語,同樣是要被理解為傳達一單數用法或傳達一複數用法,其係至少部分根據文字而定。此外,用語「基於」可理解為不需要打算傳達因子的唯一集合,且可反而允許額外因子的存在,而不需要明確敘述出,再次,至少部分根據文字而定。
隨處可見的行動網路和可攜式電子裝置的普及性讓使用者可取得他們想要記得的任何事物的影像。同時,使用者可於雲端伺服器上使用大量的儲存空間儲存他們的影像。這些影像可被獨立加標籤,並儲存於伺服器上,讓使用者日後可進行搜尋並找出特定的影像。因此所負載之影像係可包括含有多種型態的文字。舉例而言,使用者會對路標、文件或甚至是手寫文字拍照;有時使用者會接收到有物體、地點及/或人群的影像,而在背景中會有部分或整體疊加於其上的文字。當這些影像被加標籤時,標籤不必然包括來自這些影像中的文字。標籤可以是使用者提供的文字或片語,或它們也可以是可由某些裝置自動產生的地理標籤。因此對於使用者而言,要找出包含某些文字或片語的影像是有困難的。當影像包含手寫文字或非英語語言之文字資料時,此問題會更複雜。
儘管有限制的文字光學文字辨認(Optical Character Recognition,OCR)是可行的,例如印刷文件之對齊良好的高解析度掃描本,但精確的自由形式文字/手寫辨識則還沒有被開發。因使用者與業務所 取得、上傳、處理或分享的影像的數量正快速增加,而處理與搜尋此類影像的能力未跟上腳步時,此技術不足性呈現的問題會有很多。
本發明代表文字偵測的改良,續而導致其他技術領域的改良,例如影像處理、影像搜尋、影像共享、線上或行動廣告、電子發佈、社交網路及利用帶有嵌人文字的影像之其他技術領域。
舉例而言,影像中自由形式文字或手寫文字的精確辨識可幫助使用者於影像庫中根據其中擷取到的文字資料收集而搜尋特定影像。本文所揭具體實施例係用於辨識包括天然手寫之文字,其幫助使用者、企業、廣告主或其他應用於含有文字的儲存影像或文件間進行搜尋。
現轉參第一圖,其說明如本文所提、從影像輸出文字的一種專用影像文字模組100。在一些具體實施例中,影像文字模組100可為一外加服務,其係於連接至一雲端儲存影像資料庫120的伺服器上執行,其中使用者係將他們的影像儲存在私人使用者儲存器中。在一些具體實施例中,影像文字模組100可為一影像軟體之專用構件,其係於使用者的個人計算裝置上執行,在一些具體實施例中,其係例如、但不限於智慧型手機、平板裝置、膝上型或桌上型電腦。在使用者的計算裝置上執行時,影像資料庫120與影像文字資料庫110可為儲存在使用者的計算裝置上的使用者個人儲存資料庫。在一些具體實施例中,影像文字模組100可於使用者的個人計算裝置上常駐及執行,並且其結果可被上傳至可作為雲端儲存伺服器系統的部件之影像資料庫150與影像文字資料庫110。
作為說明而非限制,影像文字模組100包括具有本文所述特定功能的數個其他專用模組,例如影像區域模組102、字符擷取模組104與 語言模組106。在一些具體實施例中,語言模組106之輸出可顯示於使用者裝置的顯示器螢幕上,其提供影像以供分析。在一些具體實施例中,語言模組106的輸出可被儲存於影像文字資料庫110中作為一或多個影像標籤及影像索引140中的條目。雖然影像索引140是以與影像文字資料庫110分開的方式來說明,但可知這僅是作為例示,而在一些具體實施例中,索引140也可以被包含在影像文字資料庫110中。影像文字資料庫110可通訊耦接至影像資料庫120,這可讓使用者對影像文字資料庫110的內容執行查詢,以擷取出包含有該查詢中所含文字之影像。
所擷取的影像可包括一或多個影像,其中該文字可以是部分或整個疊加於一圖片背景上之標題,所述影像可包括上面寫有文字的真實世界物體,例如、但不限於上面塗有文字之招牌、或是上面手寫有文字之白板或文件,或所述影像可包括經(或未經)OCR良好格式化之文件影像。影像文字模組100因此能夠辨識「天然的」自由形式文字或著作。影像文字模組100增進了偵測與剖析自由形式影像中之文字的能力,這可進行各種搜尋使用情況。影像文字模組100所分析的影像可具有任何影像格式,例如、但不限於.jpeg、.gif、.tif、.png等。影像文字模組100所產生的輸出可為影像中所照到文字的文字資料格式。
在一些具體實施例中,影像區域模組102、字符擷取模組104與語言模組106中的一或多者可包括類神經網路,其可以大量的訓練資料130加以訓練,以執行它們的各種功能,如本文中所述。可針對含有文字承載區域者收集及過濾大量影像以產生訓練資料130。關於含有文字的影像區域之辨識,目前存在許多能夠辨識出含有文字之影像區域的模型;然而, 它們在計算上都很昂貴並且都很緩慢,因而不適合大規模的商業應用。
訓練的初始目標是要以快速的類神經網路來取代緩慢的、手動的偵測方法。訓練資料130可由這類手動偵測機制產生。在一些具體實施例中,從這些初始模型得到的輸出可被記錄為訓練資料130,其可被用以訓練與影像區域模組102相關聯的類神經網路。除了上述自助抽樣(bootstrapping)法以外,在一些具體實施例中也可經由群眾外包(crowd sourcing)來產生訓練資料;舉例而言,可對使用者提供包含文字(如圖形驗證碼文字)之影像,且其回應會被記錄作為訓練資料130。
在一些具體實施例中,訓練資料130可經人為產生。舉例而言,可產生大量包含文字之影像。由於影像來源也具有影像內容之知識,因此可產生精確的訓練資料。上述用於產生影像區域模組102之訓練資料的方法可同樣地應用以產生與字符擷取模組104和語言模組106相關聯之類神經網路的訓練資料130。在一些具體實施例中,可於影像文字模組100中納入一回饋程序,其中可收集使用者關於文字預測的回饋,並且可儲存與成功搜尋有關的資料以進一步細化訓練資料130。
影像區域模組102可為經過訓練以辨識部分可能包含文字的影像之一類神經網路。在一些具體實施例中,整個影像可僅包含文字。舉例而言,目前使用之OCR係用以自僅包含文字資料的影像中擷取文字,且其中這類文字資料一般係以習知屬性(例如字形、字體大小)為其特徵,並且包括來自一特定語言之字母。舉例而言,OCR技術對於包括僅含有A至Z之大寫或小寫字母或常見標點符號組合的文字之影像而言是有效的;然而,這類OCR技術在影像中僅有一部分包括文字資料時往往是無效的。舉 例而言,當影像像素描述一物體的影像與文字時,目前習知的OCR技術並不是非常有用。同樣地,目前的OCR技術並未被最佳化到能從手寫影像或具有特定定義域字符的影像中辨識出文字。
在一些具體實施例中,根據本文所述具體實施例,訓練資料130的一部分會被用以訓練影像區域模組102,以辨識出影像中可能包括文字的部分。一旦辨識出影像中可能含有文字的區域,字符擷取模組104即分析影像的可能文字承載部分以擷取字符。在一些具體實施例中,字符擷取模組104也可為根據上述訓練方法訓練的類神經網路。字符擷取模組104可根據現有方法中的群眾外包法或自助抽樣法中的一或多者加以訓練。在一些具體實施例中,根據偵測的區域,係產生地面真像分析來訓練字符擷取模組104。經由訓練,字符擷取模組104除特徵以外(例如、但不限於結構、邊緣、行數等),還可分析及辨識字符的各種細節(例如字型、字體大小、形狀)。
在一些具體實施例中,字符擷取模組104可經配置以經由產生相同影像來提供字符預測。與影像相關聯的元資料可以指示用以產生影像的一或多個裝置與軟體。若用以產生影像的軟體是已知的,則可使用相同軟體來重新產生相同影像。與影像相同的像素值和配置會被重新產生。因此可擷取影像中所含文字,並且可精確地辨識原始影像中所含字符。
字符擷取模組104的輸出可為一系列字符之預測,其係饋送至語言模組106。語言模組106可分析複數種語言的字符,以產生該影像文字中所含字組。在一些具體實施例中,語言模組106可存取特定定義域的字彙以辨識文字。舉例而言,語言模組106可包括技術主題中的特殊字符,例 如、但不限於數學或電腦程式。在一些具體實施例中,可儲存字符擷取模組104的輸出,直到影像中所有字符都被分析並且被單次轉發到語言模組106為止。在一些具體實施例中,字符可從字符擷取模組104被傳送至語言模組106,即使它們都被辨識,因此字符辨認與字組建立係可實質上同時發生。
在一些具體實施例中,影像文字模組100也可包含一影像查詢模組108。影像查詢模組108可被配置以接收來自使用者之一文字查詢。回應於接收該文字查詢,影像查詢模組108存取索引140以辨識與該文字查詢匹配的索引條目。在一些具體實施例中,語言模組106的輸出可作為純文本而儲存在影像文字資料庫110中。在一些具體實施例中,純文本可被編索引至一模糊字串匹配系統中。在一些具體實施例中,索引140可為一定制索引。在一些具體實施例中,與匹配索引條目相關聯的影像係檢擷取自影像資料庫120,並且被呈現給使用者。在一些具體實施例中,會先對使用者顯示與匹配索引條目有關的資訊,並且可擷取與使用者所選條目相關聯之影像並將其顯示給使用者以節省頻帶寬。雖然影像查詢模組108是被顯示為影像文字模組100的一部分,但仍可知這並不是必須的,根據一些具體實施例,影像查詢模組108也可以與影像文字模組100分開。使用者、影像可因此即時被編索引,而其中的文字內容是可被搜尋的。
第二圖為一示意圖,其根據一些具體實施例說明專用影像區域模組102的細部。影像區域模組102包括影像接收模組202、文字區域辨識模組204與文字區域輸出模組206。影像接收模組202存取或接收影像,例如從影像資料120或其他外部資料來源,這些影像會被分析以辨識出可能包括 文字的影像區域。在一些具體實施例中,當使用者上傳影像時,可採用一初始過濾器,以對含有文字的影像加旗標。
作為例示而非限制之說明,這些影像(其中至少一像素子集係經著色並成形以形成特定字符,其可為一特定語言之特定定義域符號或字母)會在影像資料庫120中被加旗標。這些加旗標的影像可由影像接收模組202予以接受或存取。舉例而言,例如影像250或包括文字資料之影像260等影像可由影像接收模組202加旗標以及存取。影像250不只包括房屋252的相片,也包括構成字組「house」254之字母。可知影像250與影像250內文字254的屬性(例如字符、大小、形狀與位置)係僅作為例示而顯示。根據本文所述之具體實施例,文字254可為任何語言,並且可放置在影像的任何部分,例如部分或完全重疊於相片252上。影像260包括手寫文字,其具有專屬數學定義域之字符。
因此而得到的影像被傳送至文字區域辨識模組204,舉例而言,其分析影像250並辨識影像250內文字承載部分256的大小與位置。在一些具體實施例中,文字區域辨識模組204可為根據上述技術而訓練之類神經網路,以辨識影像的文字承載部分。舉例而言,群眾外包、產生合成影像或自助抽樣至精確但緩慢的影像文字辨識方法中的一或多者可被用以訓練文字區域辨識模組204。一旦辨識出文字承載影像部分256,文字承載影像部分256的屬性(例如其在影像內的大小、形狀與位置)即可由影像區域輸出模組206予以傳送以供進一步分析。
第三A圖是一示意圖,其根據一些具體實施例說明專用字符擷取模組104的細部。在一些具體實施例中,字符擷取模組104可受訓練以 決定「要看哪裡」(例如原始影像中較高解析度的子視窗),也產生關於內容的預測(例如字符/字組是什麼)及文字類型,例如道路標誌與文件與白板等。字符擷取模組104包括其他專用模組,例如區域選擇模組302、像素集合模組304與字符預測模組306。
參照第二圖與第三A圖,字符擷取模組104進一步分析影像區域模組102所辨識的可能的文字承載影像部分256。在一些具體實施例中,字符擷取模組104可取得可能包含文字之影像部分256的x、y座標。區域選擇模組302藉由選擇一其他影像區域352開始字符擷取處理而開始影像部分256的分析。其他影像區域354、356、358等則被依序分析或同時分析,以決定這些影像部分中的字符存在。可知影像區域352、354、356、358等之順序是僅作為例示而顯示,根據一些具體實施例,可使用此順序序列進行影像區域分析。
像素加權模組304進一步決定對於較小區域內(例如已選擇區域352的區域362)字符存在的加權像素貢獻。在一些具體實施例中,像素集合模組304包括用於在區域362內取得一像素加權取樣為它們離區域362的中心364的距離之函數:
在式(1)中,ρ ij 表示中心為μ、寬度或半徑為σ、且位於座標(xA j,yB j)所界定區域內之區域362內的像素值,如370所示。最接近中心μ或中心364的像素有最大權重,並且該權重會隨像素離中心364的距離增加而快速減少,如式(1)中的指數因子所示,藉此提供影像像素對字符預測的尺 度不變性。式(1)不僅表示像素的權重,同時也輸出決定掃描視窗於被選擇區域352上移動的下一個固定點的座標。如370所示,座標(xA j,yB j)所界定之掃描視窗係以模仿使用者眼睛在讀取影像250的文字內容254時的方式移動。
字符預測模組306接收每一個區域352、354、356等之像素集合模組304之集合像素權重或輸出,並取得一字符預測。在一些具體實施例中,字符預測模組306藉由預估像素集合模組304的集合像素權重之高斯分佈而得到字符預測。因此而得到的關於影像文字的可能字符的預測,例如254,則被饋送至語言模組106。
如上述說明,根據一些具體實施例,字符擷取模組104可為一類神經網路。第三B圖為一示意圖,其根據一些具體實施例說明了字符擷取模組104中所含類神經網路的狀態轉換。類神經網路的狀態可被初始化為S0,其為低解析度影像IL和文圖IT或文字承載影像部分256的函數。
S0=f0(IL,IT) 式(2)
類神經網路在一時階I的狀態為函數g,其係低解析度影像IL與文圖IT和模型在先前時階Si-1的中間狀態之函數,及正被分析的目前區域r之函數。在一些具體實施例中,根據目前習知方法、或將被開發之方法,低解析度影像IL可得自高解析度輸入影像250。
Si=g(IL,IT,Si-1,r(IH,xA i-1,yA i-1,xB i-1,yB i-1)) 式(3)
其中[xA i,yA i,xB i,yB i]=h(Si-1) 式(4)
函數r可被決定為IH和目前觀看視窗的x、y座標的函數。因 此,在已知原始高解析度影像和文字承載影像部分256的座標下,可於其上擷取任何子視窗,並從其得到像素值。在一些具體實施例中,像素值可進一步以IL、IT和Si-1構成,以得到在時階i下之狀態,其為Si。水平對齊的方塊312、314等係隨一時階轉換而擷取類神經網路的狀態。
在時階i的x、y座標為模型在時間t-1時之函數,其為h(Si-1)。在時階i的觀看視窗的座標為在先前時階i-1的觀看模型狀態的座標。C1、C2為預測本身,而Cn為狀態Sn的函數。在一些具體實施例中,預測可包括一或多個字符。在一些具體實施例中,若資料不適合、或先前已經輸出過預測,則不產生任何預測。在一些具體實施例中,字符預測會被反饋至模型,因此g也會是先前時階中之預測函數。
在一些具體實施例中,語言模型可為根據C1、C2等而選擇最終預測的一部分。一種可能性是有字符輸出而非一精確選擇,其可為一機率分佈(字符之分佈)或可為一最終單一預測。舉例而言,正被分析的行程可為字符「1」或「i」的一部分,因此會輸出表示該字符有50%機率為「1」或「i」之分佈。此輸出係由語言模組106接收,其係基於例如先前字母之預測而提供目前字母之預測。舉例而言,若先前的字符是被預測為「s」和「h」,則語言模組106會提供該字符可能是「i」而不是「1」之預測,因此會從影像中擷取出字組「ship」。在這情況下,預測會被直接饋送至語言模組106,以決定是否需要進一步的預測,或是否基於現有資訊來擷取字符。因此,類神經網路的狀態Si會被估算,直到區域256內的所有區域都被涵蓋為止。在一些具體實施例中,當狀態SN輸出一單一字母預測CN、或語言模組106根據上述文字處理技術而決定該字母時,語言模組106可對字符擷取模組 104或與其相關聯之類神經網路發訊,以停止重複迭代。
第四圖是根據一些具體實施例之語言模組106的示意圖,其包括其他專用模組402、404、406。在一些具體實施例中,語言模組106可經訓練以將預測轉成實際字組。語言模組106可存取不僅與複數種自然語言相關聯之字符集410,也會存取多種特定定義域字符的資料。語言模組106所產生的字組可因此而取決於關注的語言,或是在街道標誌或白板手寫文字及類似的特定定義域輸入的情況下,預測為該定義域之有效標記。根據字符擷取模組104之字符預測,語言模組106可被訓練以辨識與該些字符相關聯的語言。
在一些具體實施例中,該領域中普遍已知的文字匹配技術係可用於供語言辨識模組402進行語言辨識。由於不同的自然語言(如英文、阿拉伯文、中文等)具有非常不同的字符,因此可基於字符預測而為影像得到關注語言的廣泛辨識;而具有類似字體的預言(如英文與西班牙文、或中文與韓文)之間的進一步差異可經由訓練語言辨識模組402而得。在一些具體實施例中,語言辨識模組402可被配置以經由各種影像屬性和技術而辨識出一已知影像之關注語言,如本文中將進一步詳細說明者。舉例而言,在具體實施例中,與一影像相關聯之地理位置標籤、或用以上傳影像之網路屬性可被用於辨識關注語言。在一些具體實施例中,若無關注語言可被辨識,則語言辨識模組402可被配置以存取特定定義域之字符集。在一些具體實施例中,需要語言和特定定義域字符資料的組合來完全破譯一已知影像中所照到的字體。
文字匹配模組404可經訓練以基於已辨識語言而辨識出所接 收之字符預測的匹配字組。該領域中所習知、或將待開發的字串辨識技術都可為文字匹配模組404所用。在一些具體實施例中,來自一影像的文字可包括單一字符,或是其可包括形成一字組之一字符字串、或形成一句子之字組組合。在一些具體實施例中,文字匹配模組404也可辨識出自然語言字符和特定定義域字符的組合。
文字輸出模組406係提供影像250中的文字256作為可與要儲存在影像文字資料庫110中的影像相關聯之一或多個標記。在一些具體實施例中,字組或字符之索引140會被建立,並且與影像文字資料庫120相關聯,因此來自一使用者之文字查詢可提供與含有查詢中文字之影像有關的資訊。舉例而言,在分析影像250以及將文字256儲存在影像文字資料庫110內時,關於「house」之一使用者查詢至少可擷取影像250。雖然顯示之影像250僅具有一個字組,但可知本文所揭具體實施例並不受此限制,且具有多個字組及/或多行文字的也可類似地被分析,且其文字係儲存至影像文字資料庫120。
在一些具體實施例中,字符擷取模組104和語言模組106可同時從影像中分析文字256。舉例而言,當字符擷取模組104產生文字256中每一個字符H、O、U、S與E之預測時,它們會被傳送至語言模組106。語言模組106可被配置以接收每一個字符預測,辨識語言,並且根據語言而從預測的字符中產生字組。
第五圖是一流程圖500,其根據一些具體實施例而詳細說明了用於從影像中擷取文字的一種例示方法。該方法以步驟502開始,其中內含一些文字之一影像250被存取。在步驟504,影像250中具有文字的部分256 被辨識為可能含有文字的區域。如本文所述,可經由各種訓練方法來訓練類神經網路,例如、但不限於:經由圖形文字驗證碼(captchas)之群眾外包、自助抽樣而至計算上昂貴但精準的演算法,以及經由合成影像的產生。在一些具體實施例中,可能的文字承載影像部分之辨識會包括輸出該影像250的文字承載部分256的座標。
在步驟506,文字承載影像部分是以尺度不變方式加以掃描,並取得字符之預測。字符預測可被匹配至關注語言中的習知字符集,或語言之特定定義域字彙的字符集,及/或定義域字符辨識,如步驟508所示。在一些具體實施例中,可基於各種屬性來辨識關注語言。舉例而言,上傳影像之使用者屬性或位置可被用以辨識關注語言。在一些具體實施例中,預設的關注語言可為普遍所定義的。在一些具體實施例中,預設的關注語言可基於影像上傳的位置而定,其可經由例如分析IP位址或行動網路屬性而得。在一些具體實施例中,可基於他影像屬性來辨識預設的關注語言,例如與該影像相關聯之地理位置資訊。
在步驟510,一旦辨識出關注語言與特定定義域字符集中其一或多者,即從影像250產生字組。語言模組106因此可被整合作為字符擷取模組104的一部分,或是語言辨識可基於字符預測而被應用作為獨立的動態編程推論通道,以精化此預測至實際字組。在一些具體實施例中,其中步驟506、508和510係依序進行,影像文字中的字符預測會被緩衝,而字組建立程序步驟508、510是在步驟506之字符預測程序結束之後才開始。因此在步驟508,一較大的字符預測集係可用以辨識語言及/或特定定義域字符集。
在一些具體實施例中,步驟506、508和510是同時發生的,其中在步驟506的每一個字符預測都被傳送至語言模組106以供建立字組,這可使字組建立程序更為快速。在步驟510的字組輸出可被顯示給使用者、及/或可被儲存至影像文字資料庫110,以促進未來的存取與其他功能,例如使用者進行之影像搜尋。可知雖然在影像250中所繪示的是英文字符,但本文所述方法與系統並不受如此限制,應知它們可被應用至自然語言、特定定義域字符、或其組合中任一者。
第六圖為一流程圖600,其根據一些具體實施例而詳細說明了一種用於取得字符預測的例示方法。在步驟602,取得關於影像250中含有文字之部分264的資訊。在一些具體實施例中,資訊可包括文字承載影像部分的座標。在步驟604,用於分析影像部分264之掃描視窗會被起始。在一些具體實施例中,影像部分264可假設被分為進一步的複數個影像區域352、354等,其中掃描視窗係從一個影像區域移動至另一個影像區域以進行影像資料分析。在步驟606,選擇一影像區域(例如352)進行影像資料分析。在步驟608,取得對該影像區域中所含字符之像素加權抽樣或像素貢獻。在步驟610,決定是否仍有多個影像區域要進行分析;若是,則該方法返回步驟606以選擇下一個影像區域,並且計算其像素權重,如步驟608所示。
如本文所提及,一影像區域中的像素加權貢獻可利用如一些具體實施例中之上述式(1)而求得。在步驟612中,係根據複數個影像區域中之加權像素貢獻而輸出字符預測。在一些具體實施例中,可估算這些加權像素貢獻的高斯分佈,以於步驟612中得到字符預測。
第七A圖是一流程圖700,其詳細說明根據一些具體實施例之求得像素加權取樣的例示方法。該方法係於步驟702開始,其中在一選擇區域內,相對於要估算的像素權重來選擇一中心點364。估算在中心點364周圍且在一預定半徑內的像素的加權貢獻。在一些具體實施例中,可基於文字承載影像部分256的總面積來選擇複數個這類中心點。在一些具體實施例中,該預定半徑可為一純量常數。因此,經由本文所述方法而求得的像素加權取樣會是尺度不變的。在步驟704,可求得在所選擇中心點364的預定半徑內的每一個像素的距離。在步驟706,像素權重被計算為距離的函數。在一些具體實施例中,在中心μ周圍以及在一預定半徑σ內的像素的加權取樣可藉由上述式(1)而得。在步驟708,決定是否有更多的影像區域35的區域存在而供求得像素權重;若是,則該方法返回步驟702,否則即於結束方塊終止。
第七B圖是一流程圖750,其根據一些具體實施例而詳細說明了擷取字符的方法。該方法在步驟752處開始,起始用於字符擷取之一類神經網路。在一些具體實施例中,該類神經網路會被設定為一初始狀態S0,其可基於含有文字之影像部分256的一低解析度影像IL與IT。在步驟754,計算在後續時階i>0時的類神經網路的狀態Si。在一些具體實施例中,狀態Si會被決定為在先前時階Si-1時的狀態、IL、IT與r之函數。在一些具體實施例中,r為影像區域352的卡氏座標和其中像素值之函數。在步驟756,取得狀態Si之字符預測。同樣,如上述說明,在步驟756可預測一或多個字符。在一些具體實施例中,字符預測會被提供至語言模組106,以供進一步分析或處理,以進一步細化在步驟756所得之預測。在步驟758,決定是否還有多 個影像部分256的區域要被處理;若是,則該方法返回步驟754,以取得在時階i+1的類神經網路之狀態。若在步驟758中決定無需再處理更多區域,則該方法即終止。
第八圖為一流程圖800,其根據本文所述的一些具體實施例而詳細說明一種用於起始影像搜尋的例示方法。該方法是以自一使用者接收一文字查詢之步驟802開始。在一些具體實施例中,該使用者會想要得到的不只是具有文字內容的影像(例如與其相關聯之標籤),也包括實質上拍攝到使用者所提供文字查詢的影像。舉例而言,至少影像像素子集的屬性(例如形狀、大小與顏色)會被設定為使其能從使用者查詢中定義文字。在步驟804,存取從影像中建立的這類文字內容之索引140。在一些具體實施例中,該索引可根據本文所述具體實施例而由影像文字模組100建立。在步驟806,利用例如字串匹配演算法,將使用者查詢中的文字匹配至索引內容。在一些具體實施例中,在步驟806,係例如基於使用者喜好,來辨識出包含有使用者查詢的一或多個索引條目(超字串)、或是使用者查詢中所包含的一或多個索引條目(次字串)、或是與使用者查詢精確匹配者。在步驟808,影像資料庫120中與匹配的索引條目相關聯之影像係被擷取。在步驟810,對使用者呈現與所擷取影像有關的資訊及/或所擷取的影像中的一或多者。在一些具體實施例中,可對使用者初始顯示一使用者介面,其顯示所擷取影像的使用者可選擇縮放影像。當使用者選擇縮放影像中的一或多者時,即可傳輸原始影像以對使用者顯示。因為影像通常是資源密集的,因此僅擷取及向使用者發送所選擇的影像是可節省頻帶寬資源的。
如第九圖的實例所示,其說明可根據本文所述具體實施例而 儲存及/或執行影像文字模組100之一計算裝置的內部架構。舉例而言,根據本文所述具體實施例,計算裝置900可為連網至一雲端儲存資料庫的伺服器,其接收及處理上千筆使用者影像。在一些具體實施例中,計算裝置900可被配置以根據本文所述具體實施例產生訓練資料,以訓練影像文字模組100執行如本文所述的各種任務。計算裝置900包括一或多個處理單元912,其界接於至少一個電腦匯流排902。在一些具體實施例中,處理單元可包括一或多個通用處理器,例如中央處理單元(CPUs)與繪圖處理單元(GPUs)。同樣與電腦匯流排902介接的是永久儲存媒介/媒體906、網路介面914、記憶體904(例如隨機存取記憶體RAM、運行瞬時記憶體、唯讀記憶體ROM等)、媒體硬碟驅動介面908、硬碟機界面920(其可讀取及/或寫入媒體,包括如軟碟、CD-ROM、DVD等之可移除媒體)、媒體、作為監視器或其他顯示裝置之介面的顯示介面910、作為鍵盤用介面之鍵盤介面916、作為滑鼠或其他指標裝置之介面的指標裝置介面918、以及未獨立顯示之雜項其他介面922,如並行與串行埠介面、通用串列匯流排(USB)介面等。
記憶體904與電腦匯流排902界接,以於軟體程式執行期間將記憶體904中儲存的資訊提供至CPU 912,例如操作系統、應用程式、裝置驅動器、及包含程式碼或邏輯之軟體模組、及/或電腦可執行處理步驟、納入本文所述功能者(例如本文所述的方法流程中的一或多者)。CPU 912先從儲存器(例如記憶體904、儲存媒介/媒體906、可移除媒體驅動器、及/或其他儲存裝置)載入電腦可執行之處理步驟或邏輯。CPU 912接著可執行所儲存的處理步驟,以執行載入的電腦可執行之處理步驟。在電腦可執行之處理步驟的執行期間,儲存的資料(例如儲存裝置所儲存的資料)可以 由CPU 912加以存取。
永久儲存媒介/媒體906係一電腦可讀取之儲存媒體,其可用以儲存軟體與資料,例如操作系統和一或多個應用程式。永久儲存媒介/媒體906也可用以儲存裝置驅動器,例如數位相機驅動器、監視器驅動器、印表機驅動器、掃描器驅動器或其他裝置驅動器、網頁、內容檔案、元資料、播放清單和其他檔案中之一或多者。永久儲存媒介/媒體906可進一步包括用以實施本文所述一或多個具體實施例的程式模組與資料檔案。
第十圖為一示意圖,其說明了根據本發明具體實施例之計算裝置的客戶裝置實施方式。舉例而言,客戶裝置1000可包括根據本文所述具體實施例之一影像文字模組100。客戶裝置1000從影像分析所產生的文字資料開始係本地儲存於客戶裝置1000上。當客戶裝置1000連接至一伺服器時,影像分析結果即可經由伺服器而被上傳至一外部儲存器。客戶裝置1000可包括一計算裝置,其可經由例如有線或無線網路而發送或接收訊號,並且可運行應用程式軟體或「apps」1010。舉例而言,客戶裝置可包括桌上型電腦或可攜式裝置,例如蜂巢式電話、智慧型手機、顯示呼叫器、射頻(RF)裝置、紅外線(IR)裝置、個人數位助理(PDA)、手持式電腦、平板電腦、膝上型電腦、機上盒、可穿戴電腦、結合各種特徵(如前述裝置之特徵)之整合裝置等。
客戶端裝置在容量或特徵上可有所變化。客戶端裝置可包括標準構件,例如經由電路1026而互連之CPU 1002、電源供應器1028、記憶體1018、ROM 1020、BIOS 1022、網路介面1030、音頻介面1032、顯示器1034、手寫板1036、照明器1038、I/O介面1040。主張的標的內容意欲涵蓋 寬廣範圍的可能變化例。舉例而言,蜂巢式電話的手寫板1036可包括一數字鍵盤或具有限功能的顯示器1034,例如用於顯示文字之單色液晶顯示器(LCD)。然而,相較之下,作為另一實例,一網路啟動之客戶裝置1000可包括一或多個實體或虛擬鍵盤1036、大容量儲存器、一或多個加速器1021、一或多個陀螺儀1023、羅盤1025、全球定位系統(GPS)1024或其他位置識別功能、觸覺介面1042或具有高度功能性的顯示器(例如觸控式彩色2D或3D顯示器)。記憶體1018可包括隨機存取記憶體1004,其包括供資料儲存之區域1008。客戶端裝置1000也可包含一相機1027或其他光及/或熱感測器。
客戶裝置1000可包括、或可執行各種操作系統1006,包括個人電腦操作系統(如Windows、iOS或Linux)、或行動操作系統(例如iOS、Android或Windows Mobile等)。客戶裝置1000可包括、或可執行各種可能應用程式1010,例如可與其他裝置通訊之客戶軟體應用程式1014,例如傳送一或多個訊息,如經由電子郵件、短訊息服務(SMS)、或多媒體訊息服務(MMS),包括經由網路,例如社交網路(包含、但不限於Facebook、LinkedIn、Twitter、Flickr、或Google+),在此僅提出一些可能實例。客戶裝置1000也可包括或執行一應用程式以傳送內容,例如文字內容、多媒體內容等。客戶裝置1000也可包括或執行一應用程式以執行各種可能任務,例如瀏覽1012、搜尋、播放各種形式的內容(包括本地儲存或串流的內容),例如影音或遊戲(例如夢幻運動聯賽)。前述係僅提供作為例示說明,所主張之標的內容係意欲包括廣泛範圍的可能特徵或能力。
就本發明構想而言,用語「伺服器」應被理解為意指提供處 理之服務點、資料庫及通訊設施。作為舉例但非限制,用語「伺服器」可指一單一的實體處理器,其具有相關的傳輸與資料儲存及資料庫設施,或其可指一連網或叢集的複雜處理器與相關網路及儲存裝置,以及支援伺服器所提供服務的操作軟體與一或多個資料庫系統和應用程式軟體。伺服器在配置上與能力上可有大幅變化,但一般而言,伺服器會包含一或多個中央處理單元與記憶體。伺服器也可包含一或多個其他大容量儲存裝置、一或多個電源供應器、一或多個有線或無線網路介面、一或多個輸入/輸出介面、或一或多個操作系統(例如Windows、Server、Mac OS X、Unix、Linux、FreeBSD等)。
就本發明構想而言,「網路」應被理解為意指可耦接裝置而能於例如伺服器與客戶裝置或其他類型裝置之間交換通訊之網路,舉例而言,包括在經由一無線網路而耦接之無線裝置之間。網路也可包括大容量儲存器,例如網路連接之儲存器(NAS)、儲存區域網路(SAN)、或是例如其他類型的電腦或機器可讀取媒體。網路可包括網際網路、一或多個區域網路(LANs)、一或多個廣域網路(WANs)、線路式連接、無線式連接、蜂巢式或其任何組合。同樣地,使用不同架構或與不同協定相容或相符的次網路也可被納入一較大網路中。舉例而言,各種類型的裝置都可用以為不同架構或協定提供互相操作的能力。作為一例示實例,一路由器可於分離及獨立的LANs之間提供連結。
通訊連結可包括例如:類比式電話線(如絞線對、同軸纜線)、完全或部分數位式線路(包括T1、T2、T3或T4類型線路)、整合式服務數位網路(ISDNs)、數位用戶線路(DSLs)、無線連結(包括衛星 連結或該領域技術人士所習知的其他通訊連結)。此外,計算裝置或其他相關電子裝置也可遠端耦接至一網路,舉例而言,例如經由電話線或連結。
計算裝置可經由例如有線或無線網路而發送或接收訊號,或可例如在記憶體中以實體記憶體狀態來處理或儲存訊號,並且可因此而作為伺服器操作。因此,可操作作為伺服器的裝置包括:例如專用機架固定式伺服器、桌上型電腦、膝上型電腦、機上盒、結合各種特徵(例如前述裝置的兩種或多種特徵)之整合裝置。
就本發明之構想而言,電腦可讀取媒體係儲存電腦資料,該資料可包括可由電腦執行、具有機器可讀取形式之電腦程式碼。作為舉例而非限制,電腦可讀取媒體可包括電腦可讀取之儲存媒體(用於資料的有形或固定儲存),或供含編碼訊號瞬時解譯用之通訊媒體。如在本文中所用,電腦可讀取之儲存媒體意指實體或有形的儲存器(相對於訊號而言),並且包括、但不限於:以資訊有形儲存(例如電腦可讀取指令、資料結構、程式模組或其他資料)的任何方法或技術所實施之揮發性或非揮發性、可移除或不可移除之媒體。電腦可讀取之儲存媒體包括、但不限於:RAM、ROM、EPROM、EEPROM、快閃記憶體或其他固態技術、CD-ROM、DVD或其他光學儲存、磁性卡匣、磁帶、磁碟儲存或其他磁性儲存裝置、或可用以有形儲存所需資訊或資料或指令的任何其他物理或材料媒體,且其係可由一電腦或處理器予以存取。
就本發明之構想而言,系統或模組係指軟體、硬體或韌體(或其組合)、程式邏輯、程序或功能、或其構件,其係執行或促進本文所述程序、特徵及/或功能(在有或沒有人類互動或增補下)。模組可包括次模 組。模組的軟體構件可被儲存於一電腦可讀取媒體上。模組可被整合到一或多個伺服器、或由一或多個伺服器載入及執行。一或多個模組可群組為一引擎、或一應用程式。
熟習該領域技藝者將認同,本發明之方法與系統可以許多方式實施,因此不受前述例示具體實施例與實例所限制。換言之,在硬體與軟體或韌體的各種組合中,由單一或多個構件所執行的功能元件、以及個別功能,係可分佈於客戶端或伺服器端或兩者處的軟體應用程式中。就此方面,本文所述不同具體實施例的任意數量之特徵皆可組合為單一或多個具體實施例,而且具有比本文所述所有特徵更少、或更多特徵之替代具體實施例也是可行的。功能也可以目前已知或將來會變成已知的方式而在整體上或部分上分佈於多個構件間。因此,多種軟體/硬體/韌體之組合皆可實現本文所述之功能、特徵、介面與效能。此外,本發明之範疇涵蓋了用於實施所述特徵與功能與介面的傳統習知方式,並且涵蓋熟習該領域技藝者目前或將來所能理解、可對本文所述硬體或軟體或韌體構件所進行的諸般變化與修飾。
雖已針對一或多個具體實施例來描述本系統與方法,仍應理解本發明不需限於所揭具體實施例。本發明意欲涵蓋如附請求項的精神與範疇內所含的各種修飾例與類似配置,請求項的範疇應依循最廣解釋,以涵蓋所有這類修飾例與類似結構。本發明包括下述請求項的任何及所有具體實施例。
100‧‧‧影像文字模組
102‧‧‧影像區域模組
104‧‧‧字符擷取模組
106‧‧‧語言模組
108‧‧‧影像查詢模組
110‧‧‧影像文字資料庫
120‧‧‧影像資料庫
130‧‧‧訓練資料
140‧‧‧索引

Claims (23)

  1. 一種方法,包括:由一處理器接收複數個影像;由該處理器辨識包括文字之一影像;由該處理器辨識包括該文字之該影像的區域;由該處理器取得該影像中所含該文字之字符預測;由該處理器辨識該文字中所含該字符的語言和定義域中至少其一;由該處理器基於該語言和該定義域中其一或多者之辨識而產生該文字中所含字組;由該處理器以一產生文字文資料格式從該影像產生包含該文字之一輸出;及由該處理器儲存與該影像相關之該輸出,其中包括該輸出之一搜尋查詢擷取該影像。
  2. 如申請專利範圍第1項所述之方法,辨識至少一包括該文字之所述影像中係進一步包括:由該處理器對一類神經網路提供訓練資料,所述訓練資料包括帶有文字之影像、辨識包括該文字之部分影像的資訊、及所述影像中所含該文字之文字資料格式;及由該處理器於該訓練資料上訓練該類神經網路。
  3. 如申請專利範圍第1項所述之方法,辨識包括該文字之所述影像中至少其一係進一步包括:由該處理器對已訓練的類神經網路提供所述複數個影像。
  4. 如申請專利範圍第1項所述之方法,由該處理器取得字符預測係進一步包括:由該處理器取得該影像部分中所含複數個影像區域的每一個影像區域中像素之一個別加權取樣;由該處理器基於該複數個影像區域中該等像素的該加權取樣而取得該字符預測。
  5. 如申請專利範圍第4項所述之方法,進一步包括:由該處理器從自然語言字符集與符合該字符預測的特定定義域字符集中之一或多者辨識字符。
  6. 如申請專利範圍第1項所述之方法,進一步包括:由該處理器提供一初始影像集至一已訓練分類器,該初始影像集包括含文字之影像;由該處理器接收來自該已訓練分類器之輸出,該輸出包括辨識該初始影像集中的部分影像的資訊,所述部分影像包括文字與包含於該初始影像集的影像中之該文字的文字資料格式;及由該處理器將來自該已訓練分類器的輸出儲存為該訓練資料。
  7. 如申請專利範圍第5項所述之方法,其中該處理器係一GPU(繪圖處理單元)。
  8. 如申請專利範圍第1項所述之方法,進一步包括:由該處理器產生所述複數個包括文字之影像之一子集的一索引,該索引包括來自該子集的每一個影像之個別文字;由該處理器接收包括文字之一使用者搜尋查詢; 由該處理器存取該影像子集之該索引;由該處理器基於該使用者搜尋查詢的文字與該子集之影像中所含文字的文字匹配而辨識該子集之影像。
  9. 如申請專利範圍第8項所述之方法,進一步包括:由該處理器提供已辨識影像作為回應於該使用者搜尋查詢之結果。
  10. 如申請專利範圍第1項所述之方法,該至少一影像中的文字係手寫文字。
  11. 一種裝置,包括:一處理器;及一非暫態電腦可讀取儲存媒體,其包括處理器可執行邏輯,該處理器可執行邏輯包括:影像接收邏輯,其接收複數個影像;辨識邏輯,其辨識包括文字的至少一個所述影像;區域辨識邏輯,其辨識包括所述文字之所述影像的區域;預測邏輯,其取得該影像中所包括的該文字之字符預測;字符集辨識邏輯,其辨識該文字中所含字符的語言與定義域中至少其一;字組產生邏輯,其基於該語言與該定義域中一或多者的辨識而產生包含於該文字中之字組;輸出邏輯,其以一文字資料格式從該影像提供包括該文字之一輸出;及儲存邏輯,其儲存與該影像相關聯之輸出,其中包括該輸出 之一搜尋查詢係擷取該影像。
  12. 如申請專利範圍第11項所述之裝置,該預測邏輯進一步包括:取樣邏輯,用於取得該影像部分中所含複數個影像區域的每一個影像區域中像素之一個別加權取樣。
  13. 如申請專利範圍第11項所述之裝置,該辨識邏輯進一步包括:訓練資料提供邏輯,其對一類神經網路提供訓練資料,該訓練資料包括帶有文字之影像、辨識包括該文字之部分影像的資訊、及所述影像中所含該文字之文字資料格式;及於該訓練資料上訓練該類神經網路之邏輯。
  14. 如申請專利範圍第11項所述之裝置,該辨識邏輯進一步包括:對已訓練類神經網路提供所述複數個影像之邏輯。
  15. 如申請專利範圍第11項所述之裝置,其中該至少一個影像包括所述複數個影像之一子集係進一步包括:用於產生包括文字的所述複數個影像之子集的一索引之邏輯,該索引包括來自該子集的每一個影像之個別文字。
  16. 如申請專利範圍第15項所述之裝置,進一步包括:查詢接收邏輯,其接收包括文字之一使用者搜尋查詢;存取邏輯,其存取該影像子集之該索引;影像辨識邏輯,其基於文字匹配辨識來自該子集之影像;及結果提供邏輯,其提供已辨識影像作為回應於該使用者搜尋查詢之結果。
  17. 一種非暫態電腦可讀取儲存媒體,其包括處理器可執行指令,所述指 令係:接收複數個影像;辨識所述影像中包括文字之至少一個影像;辨識包括該文字之該影像的區域;取得該影像中所含該文字之字符預測;辨識該文字中所含該等字符之一語言與一定義域中至少其一;基於該語言與該定義域中一或多者之辨識,產生該文字中所含字組;以一文字資料格式從該影像產生包括該文字之一輸出;及儲存與該影像相關聯之該輸出,其中包括該輸出之一搜尋查詢係擷取該影像。
  18. 如申請專利範圍第17項所述之非暫態電腦可讀取儲存媒體,所述用於辨識包括文字之至少一個影像之指令係進一步包括下述指令:對一類神經網路提供訓練資料,所述訓練資料包括帶有文字之影像、辨識包括該文字之部分影像的資訊、及所述影像中所含該文字之文字資料格式;及於該訓練資料上訓練該類神經網路。
  19. 如申請專利範圍第17項所述之非暫態電腦可讀取儲存媒體,所述用於取得字符預測之指令係進一步包括下述指令:取得該影像部分中所含複數個影像區域的每一個影像區域中像素之一個別加權取樣;基於該複數個影像區域中該等像素的該加權取樣,取得該字符預 測。
  20. 如申請專利範圍第17項所述之非暫態電腦可讀取儲存媒體,進一步包括下列指令:產生所述複數個包括文字之影像之一子集的一索引,該索引包括由在其中包括的個別文字所指出的該影像子集;接收包括文字之一使用者搜尋查詢;存取該影像子集之該索引;基於文字匹配辨識該子集之影像;及對使用者傳送關於已辨識影像之資訊。
  21. 如申請專利範圍第17項所述之非暫態電腦可讀取儲存媒體,所述用於取得該字符預測之指令進一步包括下列指令:基於一低解析度影像初始化一類神經網路的狀態,該低解析度影像係對應於該至少一個影像與包括該文字之該些區域的座標;在一後續時階估計該類神經網路的狀態為該低解析度影像、該些座標與該初始狀態之函數;及在該後續時階從該狀態輸出字符預測。
  22. 如申請專利範圍第21項所述之非暫態電腦可讀取儲存媒體,進一步包括下列指令:在不同時階於該類神經網路的狀態間迭代,所述不同時階係分別對應於在包括該文字的該些區域內之區域;在該些狀態的每一個狀態處輸出字符預測,直到基於來自所述不同時階之該些字符預測摘錄出一字符為止。
  23. 如申請專利範圍第22項所述之非暫態電腦可讀取儲存媒體,該些字符預測包括該語言的一或多個字母。
TW105120158A 2015-06-30 2016-06-27 用於自影像偵測與辨認文字之非暫態電腦可讀取儲存媒體、方法與系統 TWI629644B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/755,817 2015-06-30
US14/755,817 US10043231B2 (en) 2015-06-30 2015-06-30 Methods and systems for detecting and recognizing text from images

Publications (2)

Publication Number Publication Date
TW201712600A true TW201712600A (zh) 2017-04-01
TWI629644B TWI629644B (zh) 2018-07-11

Family

ID=57608679

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105120158A TWI629644B (zh) 2015-06-30 2016-06-27 用於自影像偵測與辨認文字之非暫態電腦可讀取儲存媒體、方法與系統

Country Status (3)

Country Link
US (1) US10043231B2 (zh)
TW (1) TWI629644B (zh)
WO (1) WO2017003756A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI771720B (zh) * 2020-07-24 2022-07-21 華碩電腦股份有限公司 具有多型態輸入之辨識方法及使用其之電子裝置

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9710769B2 (en) * 2014-04-01 2017-07-18 Conduent Business Services, Llc Methods and systems for crowdsourcing a task
US10198667B2 (en) * 2015-09-02 2019-02-05 Pocketguardian, Llc System and method of detecting offensive content sent or received on a portable electronic device
US10372981B1 (en) * 2015-09-23 2019-08-06 Evernote Corporation Fast identification of text intensive pages from photographs
KR20170037302A (ko) * 2015-09-25 2017-04-04 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10843080B2 (en) * 2016-02-24 2020-11-24 Virginia Tech Intellectual Properties, Inc. Automated program synthesis from natural language for domain specific computing applications
US10361712B2 (en) * 2017-03-14 2019-07-23 International Business Machines Corporation Non-binary context mixing compressor/decompressor
CN108734052A (zh) * 2017-04-13 2018-11-02 北京旷视科技有限公司 文字检测方法、装置和系统
RU2652461C1 (ru) 2017-05-30 2018-04-26 Общество с ограниченной ответственностью "Аби Девелопмент" Дифференциальная классификация с использованием нескольких нейронных сетей
CN108304761A (zh) * 2017-09-25 2018-07-20 腾讯科技(深圳)有限公司 文本检测方法、装置、存储介质和计算机设备
US20190207889A1 (en) * 2018-01-03 2019-07-04 International Business Machines Corporation Filtering graphic content in a message to determine whether to render the graphic content or a descriptive classification of the graphic content
CN108564035B (zh) * 2018-04-13 2020-09-25 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
US10699140B2 (en) 2018-05-04 2020-06-30 Qualcomm Incorporated System and method for capture and distribution of information collected from signs
US10699141B2 (en) 2018-06-26 2020-06-30 Waymo Llc Phrase recognition model for autonomous vehicles
CN109583438B (zh) * 2018-10-17 2019-11-08 龙马智芯(珠海横琴)科技有限公司 电子图像的文字的识别方法及图像处理装置
US10963723B2 (en) 2018-12-23 2021-03-30 Microsoft Technology Licensing, Llc Digital image transcription and manipulation
JP7277128B2 (ja) * 2018-12-25 2023-05-18 キヤノン株式会社 画像処理システム、画像処理方法、プログラム、画像処理装置、情報処理装置
CN109815932B (zh) * 2019-02-02 2021-05-28 杭州大拿科技股份有限公司 一种试卷批改方法、装置、电子设备及存储介质
US10885323B2 (en) 2019-02-28 2021-01-05 International Business Machines Corporation Digital image-based document digitization using a graph model
US11017498B2 (en) 2019-03-14 2021-05-25 International Business Machines Corporation Ground truth generation from scanned documents
CN109978044B (zh) * 2019-03-20 2021-03-19 广州云测信息技术有限公司 训练数据生成方法和装置、以及模型的训练方法和装置
DE102019109941A1 (de) * 2019-04-15 2020-10-15 Controlexpert Gmbh Verfahren zum Extrahieren einer Fahrzeugidentifikationsnummer
US11227176B2 (en) * 2019-05-16 2022-01-18 Bank Of Montreal Deep-learning-based system and process for image recognition
CN110210478A (zh) * 2019-06-04 2019-09-06 天津大学 一种商品外包装文字识别方法
CN111104936A (zh) * 2019-11-19 2020-05-05 泰康保险集团股份有限公司 文本图像识别方法、装置、设备及存储介质
CN111027528B (zh) * 2019-11-22 2023-10-03 华为技术有限公司 语种识别方法、装置、终端设备及计算机可读存储介质
CN113269009A (zh) * 2020-02-14 2021-08-17 微软技术许可有限责任公司 图像中的文本识别
CN113449547A (zh) * 2020-03-24 2021-09-28 合肥君正科技有限公司 一种基于人脸检测跟踪id的人脸识别方法
CN111553290A (zh) * 2020-04-30 2020-08-18 北京市商汤科技开发有限公司 文本识别方法、装置、设备及存储介质
US11468658B2 (en) * 2020-07-14 2022-10-11 Adobe Inc. Systems and methods for generating typographical images or videos
US11335108B2 (en) 2020-08-10 2022-05-17 Marlabs Incorporated System and method to recognise characters from an image
US11281928B1 (en) * 2020-09-23 2022-03-22 Sap Se Querying semantic data from unstructured documents
CN112115950A (zh) * 2020-09-28 2020-12-22 郭杰 酒标识别方法、酒品信息管理方法、装置、设备及存储介质
WO2022126978A1 (zh) * 2020-12-16 2022-06-23 平安科技(深圳)有限公司 发票信息抽取方法、装置、计算机设备及存储介质
CN112926569B (zh) * 2021-03-16 2022-10-18 重庆邮电大学 一种社交网络中的自然场景图像文本检测方法
CN113194470B (zh) * 2021-04-28 2023-03-31 Oppo广东移动通信有限公司 建立无线连接的方法、装置以及移动终端
CN117897735A (zh) * 2021-08-27 2024-04-16 甲骨文国际公司 基于图像的文档中的自动语言识别
CN113947147B (zh) * 2021-10-18 2023-04-18 北京百度网讯科技有限公司 目标地图模型的训练方法、定位方法及相关装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images
US7082219B2 (en) * 2002-02-04 2006-07-25 The United States Of America As Represented By The Secretary Of The Air Force Method and apparatus for separating text from images
US7809192B2 (en) 2005-05-09 2010-10-05 Like.Com System and method for recognizing objects from images and identifying relevancy amongst images and information
US7519200B2 (en) * 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US8098934B2 (en) 2006-06-29 2012-01-17 Google Inc. Using extracted image text
KR101421704B1 (ko) 2006-06-29 2014-07-22 구글 인코포레이티드 이미지의 텍스트 인식
US8014603B2 (en) * 2007-08-30 2011-09-06 Xerox Corporation System and method for characterizing handwritten or typed words in a document
US8676803B1 (en) 2009-11-04 2014-03-18 Google Inc. Clustering images
US8867828B2 (en) * 2011-03-04 2014-10-21 Qualcomm Incorporated Text region detection system and method
US8704948B2 (en) * 2012-01-18 2014-04-22 Eldon Technology Limited Apparatus, systems and methods for presenting text identified in a video image
US9141877B2 (en) 2012-01-25 2015-09-22 The United States Of America As Represented By The Secretary Of The Air Force Method for context aware text recognition
US9014480B2 (en) * 2012-07-19 2015-04-21 Qualcomm Incorporated Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
US20140111542A1 (en) * 2012-10-20 2014-04-24 James Yoong-Siang Wan Platform for recognising text using mobile devices with a built-in device video camera and automatically retrieving associated content based on the recognised text
US9367766B2 (en) * 2014-07-22 2016-06-14 Adobe Systems Incorporated Text line detection in images
TWM497892U (zh) * 2014-10-01 2015-03-21 Univ Hwa Hsia Technology 手機圖形檢索系統

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI771720B (zh) * 2020-07-24 2022-07-21 華碩電腦股份有限公司 具有多型態輸入之辨識方法及使用其之電子裝置

Also Published As

Publication number Publication date
WO2017003756A1 (en) 2017-01-05
US10043231B2 (en) 2018-08-07
US20170004374A1 (en) 2017-01-05
TWI629644B (zh) 2018-07-11

Similar Documents

Publication Publication Date Title
TWI629644B (zh) 用於自影像偵測與辨認文字之非暫態電腦可讀取儲存媒體、方法與系統
US11645826B2 (en) Generating searchable text for documents portrayed in a repository of digital images utilizing orientation and text prediction neural networks
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
US10200336B2 (en) Generating a conversation in a social network based on mixed media object context
CN106649542B (zh) 用于视觉问答的系统和方法
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
US20170109615A1 (en) Systems and Methods for Automatically Classifying Businesses from Images
CN109189879B (zh) 电子书籍显示方法及装置
EP2551792B1 (en) System and method for computing the visual profile of a place
CN111027563A (zh) 一种文本检测方法、装置及识别系统
EP2710498A1 (en) Gesture-based visual search
Zhao et al. Scene classification via latent Dirichlet allocation using a hybrid generative/discriminative strategy for high spatial resolution remote sensing imagery
CN109726712A (zh) 文字识别方法、装置及存储介质、服务器
KR102576344B1 (ko) 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램
WO2023020005A1 (zh) 神经网络模型的训练方法、图像检索方法、设备和介质
CN111209897B (zh) 视频处理的方法、装置和存储介质
CN113792207A (zh) 一种基于多层次特征表示对齐的跨模态检索方法
CN113204691B (zh) 一种信息展示方法、装置、设备及介质
WO2021237227A1 (en) Method and system for multi-language text recognition model with autonomous language classification
Zhang et al. Image clustering: An unsupervised approach to categorize visual data in social science research
CN113806588A (zh) 搜索视频的方法和装置
CN114416995A (zh) 信息推荐方法、装置及设备
CN113407775B (zh) 视频搜索方法、装置及电子设备
US20220101009A1 (en) Acquiring public opinion and training word viscosity model