TWI417748B - 用於擴充一查詢之方法及電腦可讀取儲存媒體 - Google Patents

用於擴充一查詢之方法及電腦可讀取儲存媒體 Download PDF

Info

Publication number
TWI417748B
TWI417748B TW097141808A TW97141808A TWI417748B TW I417748 B TWI417748 B TW I417748B TW 097141808 A TW097141808 A TW 097141808A TW 97141808 A TW97141808 A TW 97141808A TW I417748 B TWI417748 B TW I417748B
Authority
TW
Taiwan
Prior art keywords
node
nodes
query
language
text
Prior art date
Application number
TW097141808A
Other languages
English (en)
Other versions
TW200937236A (en
Inventor
Malcolm Slaney
Srinivasan H Sengamedu
Original Assignee
Yahoo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Inc filed Critical Yahoo Inc
Publication of TW200937236A publication Critical patent/TW200937236A/zh
Application granted granted Critical
Publication of TWI417748B publication Critical patent/TWI417748B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

用於擴充一查詢之方法及電腦可讀取儲存媒體
本發明與搜尋及查詢擴充之領域有關。
含有豐富影像網頁與相關文字之大量資料庫現已相當普遍。基本上,影像係與網頁上該等影像周圍的文字相關、或與使用者已將其與該等影像相關聯之標籤中的文字相關。可基於含有關於該等影像與文字之資訊以用於模式化該等影像與文字間該等相關性以在該等影像上執行搜尋之資料庫來建立模式。
舉例而言,一資料庫中含有影像I與文字串T相關聯之資訊,一模式係從含有此資訊之資料庫建立。當一使用者查詢具有一查詢串T之影像時,該模式即確定影像I係與文字串T相關,並對該使用者提供影像I作為查詢結果。若存在其他影像與該文字串T相關,則這些相關影像亦同時提供給該使用者作為查詢結果。
影像與相關文字(即所謂之關鍵字)之間相關性的模式化含有兩成分。第一成分為影像表示,其中該等影像係以「可見文字」之集合加以表示。一可見文字是一特定影像的特徵或特性之描述;舉例而言,含有一桌燈與一咖啡桌之起居室的影像可以被表示為可見文字之集合,例如,表示該起居室的可見文字集合係包括兩個子集合:其中一個可見文字子集合係與一桌燈相應,而另一個可見文字子集合係與一咖啡桌相應。
有很多種方式可以將一影像表示為可見文字之集合,其中一種方式是將該影像表示為「二進制大型物件(blobs)」,其中每一個「二進制大型物件」皆由特徵顏色與正文向量加以描述。在K. Barnard等人之文獻「Matching Words and Pictures」(載於Journal of Machine Learning Research,2003)中詳細說明了將影像表示為「二進制大型物件」的一種方式。另一種將影像表示為可見文字之集合的方式是將該影像表示為「顯點」之集合,如A. Bosch等人於文獻「Scene Classification via pLSA」(載於European Conference on Computer Vision,2006)中所說明者。可使用多種技術來偵測顯點,其中有部分係說明於C. Schmidt等人之文獻「Evaluation of Interest Point Detectors」(載於International Journal of Computer Vision,2000)中。一旦經偵測,一顯點即可被表示為一尺度不變性特徵轉換(SIFT,“Scale Invariant Feature Transform”)向量;這種利用SIFT來表示顯點的方式係進一步詳細說明於D. G. Lowe之文獻「Distinctive Image Features from Scale-invariant Keypoints」中。
影像與關鍵字相關性之模式化的第二成分是統計模式的建立。應用隱藏、或潛在變數的統計模式已被用於對代表影像之可見文字集合以及與該等影像相關之關鍵字集合之間的統計關係進行模式化。現已發展出數種利用潛在變數之統計模式,包括:T. Hoffman於文獻「Probabilistic Latent Semantic Analysis」(載於Proceedings of Uncerainty in Artificial Intelligence,UAI’99,1999)中所述之機率潛在語意分析(PLSI,“Probabilistic Latent Semantic Indexing”)、D. Blei等人於文獻「Latent Dirichlet Allocation」(載於NIPS,2002)中所述之潛在狄利克雷分配(LDA,“Latent Dirichlet Allocation”)以及M. Jordan之文獻「Modeling Annotated Data」(載於ACM SIGIR Conference,2003)。
然而,應用潛在變數之統計模式係因這些模式使用瓶頸方法而受限制;影像表示係經這些模式進行進一步處理為少數的潛在變數,且於關鍵字與潛在變數之間產生統計相關性。同時,這些模式的缺點還在於潛在變數的估算通常是非常複雜的。
此外,目前的統計模式基本上提供的是自影像到關鍵字、或自關鍵字到影像的單向相關性,其限制了影像與文字間內含之相關性的推導。
因此,需要一種方式來對影像-關鍵字相關性進行整合模式化,以於影像與關鍵字之間產生自由、不受限之相關性。此外,該模式應提供影像與文字之間的雙向相關性。
此處所說明的方式係可進行的方式,但並非限於在先前已可推知或進行者。因此,除非另行指明,不應僅因包含於此處而假設此處所說明的任一方式符合先前技術。
在下文中,為求說明起見,提供了多種特定詳細實施例以供對本發明之通盤瞭解之用。然而,顯然本發明可不以這些特定詳細實施例來施行。在其他實例中,熟知的結構與裝置係以方塊圖的方式加以繪示,以避免混淆本發明。
學習與可見文字
在本文中,從大量資料集合中收集與擷取資訊的過程即稱為「學習」。根據一種方法,學習係在影像與其相關關鍵字之資料庫上執行。首先,該資料庫上的影像係被處理為該等影像中之內容的表示。如上所述,有許多表示影像內容的方式;根據一種方式,對該資料庫中的每一影像執行顯點偵測,且這些顯點係由SIFT描述符加以表示。其次,每一組SIFT描述符都由代碼本中的一個代碼加以表示,其結果為該資料庫中的每一影像都是由代碼集合加以表示。然而,此處所說明之技術並不限用於表示影像內容之顯點偵測,也可使用其他的表示影像內容之方法(例如使用「二進制大型物件」)。
該資料庫也包含了關於哪些關鍵字與各影像相關的資訊。一個影像可與一個以上的關鍵字相關,因此,一旦該等影像已經被處理為代碼,則各影像係與一「可見文字」集合(例如:代碼)與一「語言文字」集合(例如:關鍵字)相關。舉例而言,含有蘋果與香蕉的影像係含有與一蘋果對應之一可見文字集合以及與一香蕉對應之另一可見文字集合。此一相同影像亦可與語言文字「蘋果」、「香蕉」與「水果」相關。
一「可見文字」係一影像之特性或特徵的任一表示,且不限於上述程序中所使用之「代碼」。同樣地,一「語言文字」係與一影像相關之任何文字,其可為、但不限於用以描述該影像之關鍵字。
局部註解
將影像表示為可見文字集合的一項特徵為影像描述之較細緻解析度。詳細而言,一影像係被分割為數個區域,且每一影像區域具有其本身的可見文字集合,因而每一可見文字係僅註解影像的一小區域。因此,可見文字(而非整個影像)與關鍵字相關聯整體上會產生更為精確的影像描述。
雙向圖模式
一雙向圖模式係基於該等影像之語言文字與可見文字建構而成。第一圖說明了一雙向圖100的實例,其具有兩分區102、104。該雙向圖模式係建構為使得其一分區含有表示語言文字之節點,而另一分區含有表示可見文字之節點。在第一圖中,一分區102含有節點106、108與110,其各表示一語言文字;另一分區104含有節點112、114與116,其各表示一可見文字。
此外,該雙向圖也含有語言文字之節點以及可見文字之節點間的連接;該雙向圖係建構為在一特定語言文字之節點以及一特定可見文字之節點間存在一連接,其中該特定語言文字係一關鍵字,用於描述由該特定可見文字表示之影像。連接118係在一雙向圖中一語言文字之節點108與一可見文字之節點112之間的一連接範例。連接118的存在表示在用於建構雙向圖100之影像與相關關鍵字的資料庫中,具有至少一個由可見文字112加以表示且與關鍵字108相關之影像;該雙向圖不包含相同分區的節點間之連接。
該雙向圖中的每一連接都標示有對應於該等語言文字與可見文字如何相關的機率。第二圖說明了一雙向圖200,其具有兩個分區203與204。分區202含有節點206、208與210,其各表示一語言文字。分區204含有節點212、214與216,其各表示一可見文字。在雙向圖200中的每一連接都是由一對導向邊加以表示。在每一對導向邊中,其中一個邊係自一語言文字之節點導向一可見文字之節點,而另一個邊係自一可見文字之節點導向一語言文字之節點。舉例而言,節點208與節點212之間的連接是由導向邊220加以表示,其係由節點208導向節點212;而導向邊222係由節點212導向節點208。自一語言文字之節點至一可見文字之節點之導向邊係以一機率加以標示,其中該機率係與在該語言文字所描述的影像中發生該的次數成正比。自一可見文字之節點至一語言文字之節點之導向邊係以另一機率加以表示,其中該機率係與用於描述含有該可見文字之一影像的語言文字的次數成正比。這些機率係經標準化,因此在任一節點處導向該節點外之導向邊之機率的總和為1。
為說明雙向圖200中的邊如何指示相關性機率,在第三圖中,表3列出了與第二圖之可見文字及語言文字相關的四個影像A、B、C與D;該等相關性係列於表3中且其亦與第二圖中所示之連接一致。表300指出節點208所表示的語言文字係與兩影像A、B相關。影像A接著與可見文字212所表示的可見文字相關,而影像B與可見文字214表示的可見文字相關。因此,在與節點208所表示之語言文字相關的半數影像中,會發生由節點212所表示之可見文字。因此,邊220係標示為機率50%;而相同地,邊224係標示為機率50%。相較之下,由節點214表示的可見文字係與影像C相關,其係與節點210所表示之語言文字相關的唯一影像。因此,邊230係標示為機率100%。然而,節點214所表示的可見文字也同時與影像B相關,而影像B係與語言文字208相關,故邊228係標示為機率50%。
利用該雙向圖模式計算統計資料
一旦針對一影像資料庫建構了一雙向圖模式,即對該雙向圖進行統計計算以確定一特定可見文字發生於與一特定語言文字相關的影像中之機率。相反的,也可計算一特定語言文字與含有一特定可見文字之影像相關的機率。
根據一種方式,於該雙向圖上執行一隨機漫步,該「漫步者」從任一分區中之一節點上開始漫步,該「漫步者」藉由漫步於一導向邊上而從一目前節點漫步至下一節點,其中該導向邊係由目前節點向外導至下一節點。當存在兩個以上的這種連接至目前節點的邊時,該「漫步者」會根據該等邊上標示的機率而為下一步驟選擇這些邊其中之一。該「漫步者」將選擇一特定邊的機率係等於該邊上所標示的機率,其亦稱之為該轉移機率。
舉例而言,一漫步者從第二圖中的節點208開始。有兩個導向邊從節點208向外導出,即邊220與邊224,其中邊220導向節點212,而邊224導向節點214;該漫步者係根據標示於邊220與224上的機率而選擇這些邊其中之一。若該漫步者選擇邊224,則該漫步者將於下一步驟中漫步至節點214。在節點214處,也有兩個邊從節點214向外導出,即邊226與228;該漫步者接著根據標示於這些邊上的機率來選擇邊226與邊228其中一者。若該漫步者選擇邊228,則於下一步驟中該漫步者將漫步至節點202。在節點202處,僅有一個導向邊自節點210導出,即邊230,這代表邊230上標示的機率是1;因此,在下一步驟中,該漫步者將選擇230以抵達節點214。
一雙向圖上隨機漫步的進行係用於計算語言文字與可見文字的機率分佈。所計算的兩種機率分佈:平穩機率分佈以及具有重新開始之機率分佈。以下將詳細說明用於計算這些機率分佈的技術。
平穩機率分佈
該雙向圖中該等節點的平穩機率分佈係由向量π0 。向量π0 含有與該雙向圖中節點數量一樣多的值,且π0 中的每一個值係表示在上述之隨機漫步中在該節點佔據機率已達一穩定狀態時該「漫步者」佔據與該值相應之特定節點的機率。向量π0 具有兩成分:π0 L (語言文字上之平穩分佈)與π0 V (可見文字上之平穩分佈),亦即,若該雙向圖的兩個部分區標註為L(於語言文字部分)與V(於可見文字部分)時(其中該L部分區具有M個節點,而該V部分區具有N個節點),則π0 係等於[π0 L π0 V ],其中π0 L 為對應於該L部分區中該等節點的M x 1機率向量,而π0 V 為對應於該V部分區中該等節點的Nx1機率向量。因此,π0 具有總共M+N個值,每個值係對應至該雙向圖的兩個分區中的其中一個節點。
換言之,平穩機率向量π0 是不會因施加PA 而改變的向量,其中PA 是該雙向圖的連接圖表或轉移矩陣。因此,π0 係表示為:
π0 =PA π0
PA 含有表示從該雙向圖中一特定節點轉移至該雙向圖中另一節點的機率,如上所述,這些機率係該雙向圖中連接於節點之間的導向邊上之標示,因此,若在一特定節點與另一節點之間沒有連接,則PA 中與此兩節點對應的值為0。
具有重新開始之機率分佈
該雙向圖中在第w個節點處重新開始之節點平穩機率分佈係以向量πw 加以表示。為了計算πw ,係以上述方式執行一隨機漫步,除了該「漫步者」每一次在第w個節點處重新開始之外。該「漫步者」在第w個節點處重新開始漫步的機率是λ,其可設定為任一機率值。向量πw 係表示如下:
πw =(1-λ)PA πw +λqw
向量πw 係等於[πw L πw V ],其中πw L 為對應於該L分區中該等節點的M x 1機率向量,而πw V 為對應於該V分區中該等節點的N x 1機率向量。向量qw 為在對應至w之節點處具有值1、而在對應至其他節點處具有值0之向量。在J. Sun等人之文獻「Neighborhood Formation and Anomaly Detection in Bipartite Graphs」(載於ICDM,2005)中可見關於這種具有重新開始之靜態機率的計算方式之進一步詳細討論。
使用機率分佈決定語言與可見文字間相關性之強度根據一種方式,可進行基於π0 與πw 之計算以決定一語言文字與一可見文字之間、一語言文字與一語言文字之間、以及一可見文字與可見文字之間相關性的強度。
若該w節點表示一語言文字,則與語言文字w相關之可見文字的相關性強度(或相關性分數)為:πw V0 V 。為了獲得僅與具有一強度臨界值之語言文字w相關的可見文字,係可將該相關性分數與一預定臨界值進行比較。
若該w節點表示一語言文字,則與語言文字w相關之語言文字的相關性強度(或相關性分數)為:πw L0 L 。為了獲得僅與具有一強度臨界值之語言文字w相關的語言文字,係可將該相關性分數與一預定臨界值進行比較。
若該w節點表示一可見文字,則與可見文字w相關之可見語言的相關性強度(或相關性分數)為:πw L0 L 。為了獲得僅與具有一強度臨界值之可見文字w相關的語言文字,係可將該相關性分數與一預定臨界值進行比較。
若該w節點表示一可見文字,則與可見文字w相關之可見文字的相關性強度(或相關性分數)為:πw V0 V 。為了獲得僅與具有一強度臨界值之可見文字w相關的可見文字,係可將該相關性分數與一預定臨界值進行比較。
在其他方式中,可進行更複雜的機率計算以決定語言文字與可見文字的機率分佈。舉例而言,可執行計算以估計一組可見文字是否與一語言文字高度相關,且反之亦然。
該雙向圖模式的應用
關鍵字相關 :根據一種方式,可從與可見文字相關之關鍵字的相關性推得零散關鍵字之間的相關性。舉例而言,兩個關鍵字係根據其共有多少個可見字而彼此相關聯。同時可設定一臨界值,使得只有與相關性分數高於該臨界值之關鍵字相關的可見文字會被比較。設定其他臨界值,以於兩關鍵字共有一定數量之可見文字時決定這兩關鍵字係彼此隱含相關。簡言之,關鍵字(其係語言文字)係透過可見內容而變為彼此隱含相關。
查詢擴充 :根據一種方式,基於與該等關鍵字相關之共同可見內容而產生的關鍵字間的隱含相關性係用於擴充查詢的搜尋空間。透過正文同義字之查詢擴充係搜尋引擎用以擷取盡可能多相關結果的一種常用技術。舉例而言,若一使用者對一資料庫或一網頁搜尋引擎查詢「車」,則可擴充該查詢以包括「車」的字典同義字,例如「汽車」與「車輛」等。根據此方式,對一語言文字之查詢係可擴充為包括透過可見內容而與該查詢隱含相關之其他語言文字。
藉由推導出透過可見文字之間的隱含相關性,現可擴充查詢以包含由一純文字式查詢擴充方法所產生之相關結果以外的其他相關結果。舉例而言,該等語言文字「車」與「車輪」係因其皆與相同種類之影像相關而彼此隱含相關,因此,對於「車」的查詢係可擴充至包含「車輪」,即使「車輪」並非「車」的字典同義字。此外,兩個相似的影像係可由不同的關鍵字加以描述,因為人們在使用文字來嘗試描述一影像時會有不同思考。在此方式中,該等不同的關鍵字係透過其共同可見內容而變為隱含相關。根據另一方式,不同語言之等同關鍵字可透過一影像資料庫而相關聯,其係由多種語言之關鍵字加以觸發。
自動註解 :根據一種方式,關鍵字與可見文字之間的相關性(由一雙向圖模式所擷取者)係對非屬該雙向圖一部分之新影像進行自動註解的基礎。舉例而言,一新影像I含有一可見文字集合VI ,對於該雙向圖中一特定關鍵字w而言,一可見文字集合Vw 係與關鍵字w相關。因此,VI 與Vw 的交點係測量了w描述影像I的程度。該交點越大,則共有更多的可見文字VI 與Vw ,且因而利用w來描述I係越準確。可設定一臨界值,使得含有一可見文字集合(具有至少與VI 相同之臨界值數量的共同可見文字)之所有關鍵字係標註為影像I的關鍵字。
偽標籤偵測 :通常,標籤係用來描述與該影像中物件無關、但與該影像本身有關的影像。舉例而言,如「東京」這類標籤並不描述該影像中的任何事物,但卻與該影像有關。根據一種方式,可執行偽標籤偵測以移除這類不準確之標籤。舉例而言,具有與一特定影像中之可見文字相關性強度低的標籤係與該影像分離。
改善搜尋相關性 :上述技術係用於改善影像之搜尋相關性。首先,根據一初始搜尋項目之影像查詢係擴充至包括與該初始查詢項目隱含相關的查詢項目,藉以產生更多的相關影像結果。其次,未註解有關鍵字之影像係經自動註解,藉以增加被搜尋之影像數目。第三,區域註解增加了影像描述的準確性與顆粒度。最後,移除註解影像中的偽標籤,同時增加影像描述的準確性並藉以提升搜尋相關性。
硬體概述
第四圖係一方塊圖,其說明了一種可執行本發明之具體實施例的電腦系統400。電腦系統400包括一匯流排402或其他通訊機構以溝通資訊,以及與該匯流排402耦合之一處理器404以處理資訊。電腦系統400也包括一主記憶體406(例如一隨機存取記憶體(RAM,“random access memory”))或其他動態儲存裝置,其耦合至匯流排402以儲存資訊以及處理器404所執行之指令。主記憶體406也用於儲存處理器404執行指令期間的暫時變數或其他中間資訊。電腦系統400進一步包括一唯讀記憶體(ROM,“read only memory”)408或其他靜態儲存裝置,其耦合至匯流排402以儲存靜態資訊與處理器404之指令。一儲存裝置410(例如一磁碟或光碟)係耦合至匯流排402以儲存資訊與指令。
電腦系統400係經由匯流排402而耦合至一顯示器412(例如陰極射線管(CRT,“cathode ray tube”)),以對一電腦使用者顯示資訊。一輸入裝置414(包括文數字及其他鍵)係耦合至匯流排402以對處理器404溝通資訊及指令選擇。另一種類型之使用者輸入裝置為游標控制416(例如一滑鼠、一軌跡球或游標偵測鍵)以對處理器404進行溝通方向資訊與指令選擇,並控制游標移動於顯示器412上。此一輸入裝置一般具有在兩軸上的兩個自由度,兩軸包括一第一軸(例如x軸)與一第二軸(例如y軸),其使該裝置可指明一平面上之位置。
本發明係與使用電腦系統400以實施所述技術有關。根據本發明之一具體實施例,這些技術係由電腦系統400回應處理器404執行主記憶體406中所含之一或多個指令之一或多個序列而實施。這些指令從其他機器可讀媒介(例如儲存裝置410)而被讀入主記憶體406中。主記憶體406中所含指令序列的執行使處理器404可執行此處所述之處理步驟。在替代具體實施例中,係使用硬式接線電路來取代軟體指令、或與其結合以實施本發明。因此,本發明之實施例不限於硬體電路與軟體的任何特定組合。
本文中所使用之術語「機器可讀取媒介」是指可提供資料以使一機器以一特定形式運作之任何媒介。在使用電腦系統400而實施的具體實施例中,有多種機器可讀取媒介可對處理器404提供指令以供執行。這種媒介一般具有多種形式,包括、但不限於儲存媒體與傳輸媒介。儲存媒體包括非揮發性與揮發性媒介兩種。非揮發性媒介包括:例如光碟或磁碟(如儲存裝置410)。揮發性媒介包括動態記憶體,如主記憶體406。傳輸媒介包括共軸纜線、銅線與光纖,其含有包括匯流排402之線路。傳輸媒介也可具有聲波或光波之形式,例如在射頻波與紅外線資料傳輸期間所產生者。所有這些媒介都可使媒介所載指令被一實體機構加以偵測,該實體機構係將指令讀入一機器中。
機器可讀取媒介的共同形式包括:例如一軟磁碟、一彈性磁碟、硬碟、磁帶或任何其他磁性媒介、一CD-ROM、任何其他光學媒介、打孔卡、紙帶、具有孔洞圖樣之任何其他實體媒介、一RAM、一PROM與EPROM、一FLASH-EPROM、任何其他記憶卡或卡匣、如下文所述之載波、或任何可由電腦讀取之其他媒介。
可使用不同形式的機器可讀取媒介來運載一或多個指令之一或多個序列至處理器404。舉例而言,該等指令最初係運載於一遠端電腦的磁碟片上。該遠端電腦可以將該等指令載入其動態記憶體中,並利用一數據機而於一電話線上傳送這些指令。電腦系統400局部的數據機可接收該電話線上的資料,並利用一紅外線傳輸器將該資料轉換為一紅外線訊號。一紅外線偵測器可接收該紅外線訊號中所運載的資料,且該資料可由適當的電路放置於匯流排402上。匯流排402運載該資料至主記憶體406,處理器404即自其擷取及執行該等指令。主記憶體406所接收之指令係視情況而於處理器404執行前後儲存於儲存裝置410上。
電腦系統400可包括一通訊介面418,其耦合至匯流排402。通訊介面418提供了耦合至一網路鏈結420之雙向資料通訊,該網路鏈結420係連接至一區域網路422。舉例而言,通訊介面418係一整合服務數位網路(ISDN,“integrated services digital network”)卡或一數據機,以一對應類型之電話線提供一資料通訊連接。在另一實例中,通訊介面418係一區域網路(LAN,“local area network”)卡以提供對一相容LAN之資料通訊連接;也可實施無線鏈結。在任一此類實施中,通訊介面418發送及接收電氣、電磁或光學訊號,其可運載表示各種類型資訊之數位資料流。
網路鏈結420一般經由一或多個網路而對其他資料裝置提供資料通訊。舉例而言,網路鏈結420係透過區域網路422而提供連接至一主機電腦424或由一網際網路服務提供者(ISP,“internet service provider”)426所運作之資料設備。ISP 426接著透過全球封包資料通訊網路(現稱為網際網路)428而提供資料通訊服務。區域網路422與網際網路428都使用可運載數位資料流之電氣、電磁或光學訊號;透過各種網路之訊號與網路鏈結420上之訊號以及透過通訊介面418之訊號(其運載該數位資料往返電腦系統400)僅為傳輸該資訊之載波的示例性形式。
電腦系統400可透過網路、網路鏈結420與通訊介面418而傳送訊息與接收資料(包括程式碼)。在網際網路的例子中,一伺服器430係透過網際網路428、ISP 426、區域網路422與通訊介面418而傳送一應用程式之請求碼。
一旦被接收,接收碼係由處理器404執行,且/或儲存於儲存裝置410中、或其他非揮發性儲存裝置中以供後續執行。在此方式中,電腦系統400係以一載波形式取得應用程式碼。
在前述說明書中已參照各種特定細節來描述本發明之實施例,然其可因實施方式而有所調整;因此,本發明之單獨與特定描述、以及申請人所欲之發明係以特定形式記載於本發明之申請專利範圍中,其亦包括後續所行修正。在申請專利範圍中所表述之任何定義用語應涵蓋這些用語的意義;因此,申請專利範圍中所記載的限定、元件、特性、特徵與優勢或屬性皆不應限制本發明之範疇。該說明書與圖式係依此做為說明而非限定之用。
100...雙向圖
102,104...分區
106,108,110,112,114,116...節點
118...連接
200...雙向圖
202,204...分區
206,208,210,212,214,216...節點
220,222,224,226,228,230...導向邊
300...表
400...電腦系統
402...匯流排
404...處理器
406...主記憶體
408...唯讀記憶體
410...儲存裝置
412...顯示器
414...輸入裝置
416...游標控制
418...通訊介面
420...網路鏈結
422...區域網路
424...主機電腦
426...網際網路服務供應者
428...網際網路
430...伺服器
本發明係由伴隨圖式中繪示範例(非限制)方式加以說明,圖式中相同的元件編號代表相同的元件,其中:
第一圖係一雙向圖範例,其含有一語言文字分區與一可見文字分區。
第二圖係另一雙向圖範例,其含有一語言文字分區與一可見文字分區,其中代表語言文字之節點與代表可見文字之節點之間的連接係表示為一群雙導向邊之組合。
第三圖係含有第二圖所示之雙向圖中示例可見文字與語言文字相關性之列表。
第四圖係一電腦系統之方塊圖,該電腦系統上可執行本發明之具體實施例。
100...雙向圖
102,104...分區
106,108,110,112,114,116...節點
118...連接

Claims (20)

  1. 一種用於擴充一查詢的方法,其包括下列步驟:根據一組資料建構一雙向圖;其中該雙向圖包括一第一組節點與一第二組節點;其中該第一組節點中的每一節點代表一語言文字;其中該第二組節點中的每一節點代表一可見文字;接收該查詢;對於該查詢的至少一查詢項目執行下列步驟:根據該雙向圖導出該第一組節點中的一節點與該第二組節點中的一節點之間的一相關性分數,且儲存該相關性分數於揮發性記憶體或非揮發性記憶體;根據該相關性分數決定該至少一查詢項目是否經由該可見文字而與一或多個其他查詢項目相關;其中該相關性分數係該雙向圖上之一隨機漫步所導出,其中該隨機漫步係根據連接於該第一組節點中之節點與該第二組節點中之節點間的導向邊上所標示的機率而執行;以及其中相關於自一節點至另一節點之一導向邊的機率係該一節點代表的一文字相關一組影像中之任何影像的機率,該一組影像中之該任何影像係相關於該另一節點代表的另一文字;回應於決定該至少一查詢項目是否經由該可見文字而與一或多個其他查詢項目相關,藉由 增加該一或多個其他查詢項目中至少其一至該查詢而產生一擴充查詢;其中該方法係由一或多個計算裝置所執行。
  2. 如申請專利範圍第1項之方法,更包括:根據該擴充查詢執行一搜尋;以及回傳該搜尋之結果以作為該查詢之結果。
  3. 如申請專利範圍第1項之方法,其中所述決定該至少一查詢項目是否經由可見文字而與一或多個其他查詢項目相關之步驟,係根據等同於該至少一查詢項目的語言文字是否經由可見文字而與等同於該至少一或多個其他查詢項目的語言文字相關而執行。
  4. 如申請專利範圍第3項之方法,更包括:存取該組資料,其中該組資料包括一組可見文字、一組語言文字、以及該組可見文字與該組語言文字之間的一組相關性;根據該組可見文字與該組語言文字之間的該組相關性產生語言文字之間的相關性分數;其中所述決定該至少一查詢項目是否經由可見文字而與一或多個其他查詢項目相關之步驟係至少部分根據該等相關性分數而執行。
  5. 如申請專利範圍第4項之方法,其中所述決定該至少一查詢項目是否經由可見文字而與一或多個其他查詢項目相關之步驟更包括:識別等同於該至少一查詢項目之一語言文字與該組語言文字中的一或多個其他語言文字之間的相關性分數;將等同於該至少一查詢項目之一語言文字與該組語言文字中的一或多個其他語言文字之間的相關 性分數與一預定臨界值進行比較,以確定該一或多個其他語言文字中何者具有比該預定臨界值高的相關性分數;確定該至少一查詢項目係與等同於具有比該預定臨界值高之相關性分數的語言文字的查詢項目相關。
  6. 如申請專利範圍第5項之方法,其中該預定臨界值為零。
  7. 如申請專利範圍第4項之方法,其中該組資料包括一組影像;以及其中當該組可見文字中的一可見文字發生於由該組語言文字中之一語言文字加以描述的一影像中時,該可見文字係與該語言文字相關。
  8. 如申請專利範圍第5項之方法,其中建構該雙向圖包括建構一第一分區與一第二分區;其中該第一分區包括該第一組節點;其中該第一組節點中的每一節點代表該組語言文字中的一語言文字;其中該第二分區包括該第二組節點;其中該第二組節點中的每一節點代表該組可見文字中的一可見文字;其中所述識別等同於該至少一查詢項目之一語言文字與該組語言文字中的一或多個其他語言文字之間的相關性分數之步驟更包括:對於該組語言文字中該一或多個其他語言文字中的每一語言文字而言,對代表等同於該至少一查詢項目之該語言文字的該雙向圖中之一第一節點以及代表該語言文字之 該雙向圖的一第二節點,根據該雙向圖導出該第一節點與該第二節點之間的一相關性分數。
  9. 如申請專利範圍第8項之方法,其中所述導出該第一節點與該第二節點之間的該相關性分數之步驟包括:根據於該雙向圖上之一隨機漫步來產生一第一組分數;根據於該雙向圖上,從該第一節點重新開始之一隨機漫步來產生一第二組分數;以及根據該第一組分數與該第二組分數導出該相關性分數;在第一組節點與第二組節點之間建構一組連接;其中若該第一組節點中之一節點所代表的語言文字與該第二組節點中之一節點所代表的可見文字之間存在相關性,則該組連接中的每一連接係連接該第一組節點中之節點與該第二組節點中之節點;其中該組連接中的每一連接包括一第一導向邊與一第二導向邊;其中該第一導向邊係自該第一組節點中之該節點導向該第二組節點中之該節點;其中該第二導向邊係自該第二組節點中之該節點導向該第一組節點中之該節點;其中該第一導向邊係以一第一機率加以標示;其中該第一機率指示該第二組節點中之該節點代表的該可見文字發生於由該第一組節點中之該節點代表的該語言文字加以描述的該組影像中之一影像的機率;其中該第二導向邊係以一第二機率加以標示;其中該第二機率指示該第一組節點中之該節點 代表的該語言文字描述該組影像中之一影像的機率,該第二組節點中之該節點所代表的該可見文字係發生於該組影像中;其中該雙向圖上之該隨機漫步係根據連接於該第一組節點中之節點與該第二組節點中之節點間的導向邊上所標示的機率而執行;其中該雙向圖上,從該第一節點重新開始之該隨機漫步係根據連接於該第一組節點中之節點與該第二組節點中之節點間的導向邊上所標示的機率而執行,其根據一重新開始機率而於該第一節點處重新開始。
  10. 如申請專利範圍第1項之方法,其中所述增加該一或多個其他查詢項目中至少其一至該查詢包括以該一或多個其他查詢項目中至少其一來替換該查詢的該至少一查詢項目至該查詢。
  11. 一種電腦可讀取儲存媒體,其儲存指令以擴充一查詢,該等指令在由一或多個處理器執行可使該一或多個處理器執行下列步驟之指令:根據一組資料建構一雙向圖;其中該雙向圖包括一第一組節點與一第二組節點;其中該第一組節點中的每一節點代表一語言文字;其中該第二組節點中的每一節點代表一可見文字;接收該查詢;對於該查詢的至少一查詢項目執行下列步驟:根據該雙向圖導出該第一組節點中的一節 點與該第二組節點中的一節點之間的一相關性分數,且儲存該相關性分數於揮發性記憶體或非揮發性記憶體;根據該相關性分數決定該至少一查詢項目是否經由該可見文字而與一或多個其他查詢項目相關;其中該相關性分數係該雙向圖上之一隨機漫步所導出,其中該隨機漫步係根據連接於該第一組節點中之節點與該第二組節點中之節點間的導向邊上所標示的機率而執行;以及其中相關於自一節點至另一節點之一導向邊的機率係該一節點代表的一文字相關一組影像中之任何影像的機率,該一組影像中之該任何影像係相關於該另一節點代表的另一文字;回應於決定該至少一查詢項目是否經由該可見文字而與一或多個其他查詢項目相關,藉由增加該一或多個其他查詢項目中至少其一至該查詢而產生一擴充查詢。
  12. 如申請專利範圍第11項之電腦可讀取儲存媒體,更包括指令以進行:根據該擴充查詢執行一搜尋;以及回傳該搜尋之結果以作為該查詢之結果。
  13. 如申請專利範圍第11項之電腦可讀取儲存媒體,其中所述用於決定該至少一查詢項目是否經由可見文字而與一或多個其他查詢項目相關之指令係根據等同於該至少一查詢項目的語言文字是否經由可見文字而與等同於該至少一或多個其他查詢項目的語言文字相關而執行。
  14. 如申請專利範圍第13項之電腦可讀取儲存媒體,更包括指令以進行:存取該組資料,其中該組資料包括一組可見文字、一組語言文字、以及該組可見文字與該組語言文字之間的一組相關性;根據該組可見文字與該組語言文字之間的該組相關性產生語言文字之間的相關性分數;其中所述決定該至少一查詢項目是否經由可見文字而與一或多個其他查詢項目相關之步驟係至少部分根據該等相關性分數而執行。
  15. 如申請專利範圍第14項之電腦可讀取儲存媒體,其中所述用於決定該至少一查詢項目是否經由可見文字而與一或多個其他查詢項目相關之指令更包括指令以進行:識別等同於該至少一查詢項目之一語言文字與該組語言文字中的一或多個其他語言文字之間的相關性分數;將等同於該至少一查詢項目之一語言文字與該組語言文字中的一或多個其他語言文字之間的相關性分數與一預定臨界值進行比較,以確定該一或多個其他語言文字中何者具有比該預定臨界值高的相關性分數;確定該至少一查詢項目係與等同於具有比該預定臨界值高之相關性分數的查詢項目相關。
  16. 如申請專利範圍第15項之電腦可讀取儲存媒體,其中該預定臨界值為零。
  17. 如申請專利範圍第14項之電腦可讀取儲存媒體,其中該組資料包括一組影像;且 其中當該組可見文字中的一可見文字發生於由該組語言文字中之一語言文字加以描述的一影像中時,該可見文字係與該語言文字相關。
  18. 如申請專利範圍第15項之電腦可讀取儲存媒體,其中建構該雙向圖的指令包括建構一第一分區與一第二分區;其中該第一分區包括該第一組節點;其中該第一組節點中的每一節點代表該組語言文字中的一語言文字;其中該第二分區包括該第二組節點;其中該第二組節點中的每一節點代表該組可見文字中的一可見文字;其中所述識別等同於該至少一查詢項目之一語言文字與該組語言文字中的一或多個其他語言文字之間的相關性分數之指令,更包括指令以:對於該組語言文字中該一或多個其他語言文字中的每一語言文字而言,對代表等同於該至少一查詢項目之該語言文字的該雙向圖中之一第一節點以及代表該語言文字之該雙向圖的一第二節點,根據該雙向圖導出該第一節點與該第二節點之間的一相關性分數。
  19. 如申請專利範圍第18項之電腦可讀取儲存媒體,其中所述用於導出該第一節點與該第二節點之間的該相關性分數之指令包括:根據於該雙向圖上之一隨機漫步來產生一第一組分數;根據於該雙向圖上,從該第一節點重新開始之一 隨機漫步來產生一第二組分數,以及根據該第一組分數與該第二組分數導出該相關性分數。 在第一組節點與第二組節點之間建構一組連接;其中若該第一組節點中之一節點所代表的語言文字與該第二組節點中之一節點所代表的可見文字之間存在相關性,則該組連接中的每一連接係連接該第一組節點中之該節點與該第二組節點中之該節點;其中該組連接中的每一連接包括一第一導向邊與一第二導向邊;其中該第一導向邊係自該第一組節點中之該節點導向該第二組節點中之該節點;其中該第二導向邊係自該第二組節點中之該節點導向該第一組節點中之該節點;其中該第一導向邊係以一第一機率加以標示;其中該第一機率指示該第二組節點中之該節點代表的該可見文字發生於該組影像中之一影像的機率,該組影像係由該第一組節點中之該節點代表的該語言文字加以描述;其中該第二導向邊係以一第二機率加以標示;其中該第二機率指示該第一組節點中之該節點代表的該語言文字描述該組影像中之一影像的機率,該第二組節點中之該節點所代表的該可見文字係發生於該組影像中;其中該雙向圖上之該隨機漫步係根據連接於該第一組節點中之節點與該第二組節點中之節點間的導向邊上所標示的機率而執行;其中該雙向圖上,從該第一節點重新開始之該隨 機漫步係根據連接於該第一組節點中之節點與該第二組節點中之節點間的導向邊上所標示的機率而執行,其根據一重新開始機率而於該第一節點處重新開始。
  20. 如申請專利範圍第11項之電腦可讀取儲存媒體,其中所述增加該一或多個其他查詢項目中至少其一至該查詢之指令包括用於以該一或多個其他查詢項目中至少其一來替換該查詢的該至少一查詢項目至該查詢之指令。
TW097141808A 2007-12-20 2008-10-30 用於擴充一查詢之方法及電腦可讀取儲存媒體 TWI417748B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/961,893 US8001139B2 (en) 2007-12-20 2007-12-20 Using a bipartite graph to model and derive image and text associations
US11/966,704 US7882124B2 (en) 2007-12-20 2007-12-28 Expanding a query to include terms associated through visual content

Publications (2)

Publication Number Publication Date
TW200937236A TW200937236A (en) 2009-09-01
TWI417748B true TWI417748B (zh) 2013-12-01

Family

ID=40788057

Family Applications (1)

Application Number Title Priority Date Filing Date
TW097141808A TWI417748B (zh) 2007-12-20 2008-10-30 用於擴充一查詢之方法及電腦可讀取儲存媒體

Country Status (3)

Country Link
US (2) US8001139B2 (zh)
TW (1) TWI417748B (zh)
WO (1) WO2009085815A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8156129B2 (en) * 2009-01-15 2012-04-10 Microsoft Corporation Substantially similar queries
US20100191746A1 (en) * 2009-01-26 2010-07-29 Microsoft Corporation Competitor Analysis to Facilitate Keyword Bidding
US8224839B2 (en) * 2009-04-07 2012-07-17 Microsoft Corporation Search query extension
JP5043209B2 (ja) * 2011-03-04 2012-10-10 楽天株式会社 集合拡張処理装置、集合拡張処理方法、プログラム、及び、記録媒体
JP5697202B2 (ja) * 2011-03-08 2015-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語の対応を見出す方法、プログラム及びシステム
US8838512B2 (en) 2011-04-18 2014-09-16 Microsoft Corporation Random walk on query pattern graph for query task classification
US8560517B2 (en) * 2011-07-05 2013-10-15 Microsoft Corporation Object retrieval using visual query context
US8661049B2 (en) * 2012-07-09 2014-02-25 ZenDesk, Inc. Weight-based stemming for improving search quality
US9710543B2 (en) * 2012-08-08 2017-07-18 Intelliresponse Systems Inc. Automated substitution of terms by compound expressions during indexing of information for computerized search
US9843574B1 (en) 2013-03-12 2017-12-12 EMC IP Holding Company LLC Methods and apparatus for generating chaff passwords for use in a password-hardening system
US9760655B2 (en) * 2013-09-03 2017-09-12 International Business Machines Corporation Systems and methods for discovering temporal patterns in time variant bipartite graphs
US10152557B2 (en) * 2014-01-31 2018-12-11 Google Llc Efficient similarity ranking for bipartite graphs
US9928532B2 (en) 2014-03-04 2018-03-27 Daniel Torres Image based search engine
US20180357278A1 (en) * 2017-06-09 2018-12-13 Linkedin Corporation Processing aggregate queries in a graph database
US11568451B2 (en) * 2019-03-04 2023-01-31 Iris.TV Inc. Dual-optimization of targeted digital assets under volume and position constraints
US11645478B2 (en) * 2020-11-04 2023-05-09 Adobe Inc. Multi-lingual tagging for digital images
US20230177250A1 (en) * 2021-12-06 2023-06-08 Salesforce.Com, Inc. Visual text summary generation

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983237A (en) * 1996-03-29 1999-11-09 Virage, Inc. Visual dictionary
TW405079B (en) * 1997-02-27 2000-09-11 Telcontar A system and method of optimizing database queries in two or more dimensions
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US20030212666A1 (en) * 2002-05-10 2003-11-13 Sankar Basu Adaptive probabilistic query expansion
TW200636511A (en) * 2005-02-15 2006-10-16 Infomato Crosslink data structure, crosslink database, and system and method of organizing and retrieving information
US20070192350A1 (en) * 2006-02-14 2007-08-16 Microsoft Corporation Co-clustering objects of heterogeneous types

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7788099B2 (en) 2007-04-09 2010-08-31 International Business Machines Corporation Method and apparatus for query expansion based on multimodal cross-vocabulary mapping
US8321424B2 (en) * 2007-08-30 2012-11-27 Microsoft Corporation Bipartite graph reinforcement modeling to annotate web images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983237A (en) * 1996-03-29 1999-11-09 Virage, Inc. Visual dictionary
TW405079B (en) * 1997-02-27 2000-09-11 Telcontar A system and method of optimizing database queries in two or more dimensions
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US20030212666A1 (en) * 2002-05-10 2003-11-13 Sankar Basu Adaptive probabilistic query expansion
TW200636511A (en) * 2005-02-15 2006-10-16 Infomato Crosslink data structure, crosslink database, and system and method of organizing and retrieving information
US20070192350A1 (en) * 2006-02-14 2007-08-16 Microsoft Corporation Co-clustering objects of heterogeneous types

Also Published As

Publication number Publication date
WO2009085815A1 (en) 2009-07-09
US7882124B2 (en) 2011-02-01
US8001139B2 (en) 2011-08-16
TW200937236A (en) 2009-09-01
US20090160860A1 (en) 2009-06-25
US20090164456A1 (en) 2009-06-25

Similar Documents

Publication Publication Date Title
TWI417748B (zh) 用於擴充一查詢之方法及電腦可讀取儲存媒體
CN107220352B (zh) 基于人工智能构建评论图谱的方法和装置
US11514244B2 (en) Structured knowledge modeling and extraction from images
CN106682060B (zh) 根据图像的结构化的知识建模、提取和局部化
Chen et al. Mining fuzzy frequent itemsets for hierarchical document clustering
US8843490B2 (en) Method and system for automatically extracting data from web sites
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
US20170132498A1 (en) Structured Knowledge Modeling, Extraction and Localization from Images
JP2020500371A (ja) 意味的検索のための装置および方法
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
Ng Semantic class induction and coreference resolution
CN110717038B (zh) 对象分类方法及装置
US20140164367A1 (en) Method and system for semantic search keyword recommendation
KR102046692B1 (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
KR101977231B1 (ko) 커뮤니티 검출 방법 및 커뮤니티 검출 프레임워크 장치
Wang et al. Semantic trajectory-based event detection and event pattern mining
CN111666766A (zh) 数据处理方法、装置和设备
Li et al. Scene graph generation: A comprehensive survey
KR20160066216A (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
JP2024091709A (ja) 文作成装置、文作成方法および文作成プログラム
AU2016225819B2 (en) Structured knowledge modeling and extraction from images
Godoy et al. Leveraging semantic similarity for folksonomy-based recommendation
Su et al. Parallel big image data retrieval by conceptualised clustering and un-conceptualised clustering
US20230244705A1 (en) Method, System, and Device for Evaluating Performance of Document Search

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees