TW201617941A

TW201617941A - 產生與使用知識增強模型

Info

Publication number: TW201617941A
Application number: TW104124777A
Authority: TW
Inventors: 單瀛; 毛建昌
Original assignee: 微軟技術授權有限責任公司
Priority date: 2014-08-11
Filing date: 2015-07-30
Publication date: 2016-05-16
Also published as: US10089580B2; CN106663124B; US20160042296A1; WO2016025412A1; EP3180742A1; EP3180742B1; CN106663124A

Abstract

本案所述之功能乃用於依據使用者行為資料及知識資料來產生一模型。在一例中，該使用者行為資料識別出由使用者發送的查詢，連同該等使用者回應於該等查詢所做的選擇。該知識資料代表在語言項目之中的關係，如同藉由一或更多結構式知識資源所表達。此功能藉助該知識資料來供應藉由該使用者行為資料可能無法準確擷取的語意關係資訊，藉此製造一更強大而準確的模型（相較於僅根據使用者行為資料所製作的模型）。本案也描述了用於在該模型經訓練之後加以應用的功能。在一例中，該模型可對應至一深度學習模型。

Description

產生與使用知識增強模型

本發明係關於產生與使用知識增強模型。

典型市面上的搜尋引擎可採用在機器學習程序中製造的模型。機器學習程序可在點擊（click-through）資料的基礎上訓練該模型。點擊資料轉而識別出由使用者發送的查詢，連同由該等使用者對應於該等查詢所做的選擇（例如「點擊」）。

本發明描述用於利用一機器學習程序，在使用者行為資料及知識資料之基礎上產生模型的電腦實施功能。使用者行為資料識別出由使用者發送之語言項目，連同由該等使用者回應於該些語言項目而作之選擇。例如，該使用者行為資料可對應於點擊資料，包括由使用者發送之查詢，連同由該等使用者回應於該些查詢而作之點選。該知識資料代表語言項目之中的關係，該些關係如由一或更多結構式知識資源表達。上述功能利用該知識資料之效果來供應有關無法藉由該使用者行為資料所準確擷取之語意關係的資訊，因此可製作一模型，此模型相較於完全基於使用者行為資料所訓練之模型更為準確且強大。

本揭示案也關於在以上概述之標的中所製作的模型，以及用於將該模型應用在一搜尋引擎中的功能性。

按照一非設限之實施例，該模型對應於一深度學習模型。該深度學習模型利用多層級之分析來將各語言輸入項目變換成一概念向量。該概念向量表達了在一語意空間內該等語言輸入項目的高階意義。

上述做法能經表現在各種類型之系統、組件、方法、電腦可讀取儲存媒體、資料結構、等等中。

本[發明內容]部分經提供以簡要形式介紹一些概念；這些概念將進一步在[實施方式]部分說明。本[發明內容]部分並未意圖識別出所請標的之關鍵特徵或基本特徵，也並未意圖被用來為所請標的之範疇設限。

本揭示案如以下方式所組成。A部分描述用於根據不同類型之訓練資料製作模型，及接著應用該模型來決定在至少二個語言項目之間之相關程度的例示性電腦實施功能。B部分闡述了解釋A部分之該些功能的操作的例示性方法。C部分描述能被用來實施A及B部分所述之該些特徵的任意態樣的例示性計算功能。

作為初步事項，圖式中有些在一或更多結構式組件的情境中描述，該一或更多結構式組件被不同地稱作功能、模組、特徵、元件等等。在圖式中顯示的該等各種組件能（例如）藉由任何實體且有形的機構、藉由在電腦設備、硬體上執行的軟體（例如，晶片實施之邏輯功能）、等等來實施，及/或上述之任意組合。在一例中，在圖式中將各種組件描繪成不同單元之區隔，可反映出在一真實實施例中對於對應的不同實體及有形組件之用法。替代地或額外地，圖式中所描繪之任何單一組件可藉由複數個真正實體的組件來實施。替代地或額外地，圖式中所描繪之任意二個或更多個分離組件，可反映出藉由單一真正實體的組件所進行之不同功能。第15圖（即將循序描述）提供了針對該些圖式中所顯示之功能的一例示性實體實施例之額外細節。

其他圖式以流程圖形式說明概念。在此形式中，特定操作被描述為構成不同方塊，該些不同方塊以特定順序進行。此種實施方式為例示性而非設限。本說明書中描述之特定方塊能被分組在一起而以單一操作執行，特定方塊能被拆開成為複數個組件方塊，且特定方塊能夠以不同於本說明書中描繪之順序來進行（包括並行方式執行該些方塊）。該等流程圖中顯示之該些方塊能（例如）藉由實體且有形的機構、藉由在電腦設備上執行的軟體、硬體（例如晶片實施之邏輯功能）、等等，及/或上述之任意組合，以任何方式來實施。

至於用語，「經配置以」一詞涵蓋以任何方式能被建構來進行一所識別出操作之任何種類的實體及有形的功能。該些功能能被配置來利用（例如）在電腦設備上執行的軟體、硬體（例如晶片實施之邏輯功能）、等等，及/或上述之任意組合，來進行一操作。

「邏輯」一詞涵蓋任何用以進行一任務的實體及有形的功能。例如，在流程圖中描繪的各個操作對應於用於進行該操作的一邏輯組件。能利用（例如）在電腦設備上執行的軟體、硬體（例如晶片實施之邏輯功能）、等等，及/或上述之任意組合，來進行該些操作。當藉由計算設備來實施時，一邏輯組件代表屬於計算系統（無論如何實施）之一實體部件的一電子組件。

以下解釋將識別出一或更多屬於「選擇性的」特徵。此類說法不應被解讀為對於應考量為選擇性之特徵的窮舉表示；換言之，儘管在文字中未明確地識別出來，其他特徵能被考量為選擇性。進一步，對單一實體的任何說明並非意圖排除使用複數個此種實體；類似地，對複數個實體的描述並非意圖排除使用單一實體。最後，「例示性」或「示範的」指稱在許多可能之實施方式中的一實施例。 A. 例示性功能 A.1. 概觀

第1圖顯示包括一訓練架構104的一環境102，該訓練架構用於根據一機器學習程序來製作一模型106。在一非設限實施例中，模型106對應於一深度學習模型。該深度學習模型之操作是藉由利用一多層分析架構，來將語言輸入項目投射成為表達在一語意空間中的概念向量。A.3小節（如下）描述一類型的深度學習模型之組成及應用；該特定模型包括一初步雜湊層（preliminary hashing layer）組合以一多層深度神經網路（DNN）。在其他情況中，模型106可對應於另一類型的深度學習模型，像是卷積模型（convolutional model）。在其他情況中，模型106 可對應於在一機器學習程序中製作的任何其他類型之模型（不限於深度學習模型），像是線性模型、決策樹模型、隨機森林模型（random forest model）、叢集式模型（clustering-based model）、機率圖形模型（像是貝氏階層式模型）、以此類推。

說到本說明書中概略的用詞，語言項目對應於任何承載資訊的項目，其以任何自然語言及/或其他符號架構表達，由一連串的一或更多字詞及/或其他符號構成。一語言項目之其中也可包括非語言內容，像是圖片內容之類。

不同的系統可利用模型106。在一例子中，一搜尋引擎108自一使用者接收一輸入語言項目，像是一查詢。搜尋引擎108利用模型106來選擇相關於該輸入語言項目的零個、一個或更多輸出語言項目（像是文件）。搜尋引擎108可接著將該些輸出項目排序並傳遞該些輸出項目給該使用者。

先參看訓練架構104，一訓練資料編譯模組（TDCM）110產生一組主要訓練資料。一資料存儲 112儲存該主要訓練資料。（在本說明書之全部例子中，「資料存儲」一詞可對應於一或更多底層的實體儲存機構，該些儲存機構可經提供於一單一站點處或經分散遍及複數個站點。）一訓練系統114接著根據該主要訓練資料利用任何類型的機器學習程序來產生一臨時模型116。如下之A.2小節將提供有關TDCM 110的額外細節。A.4小節提供有關訓練系統114的額外細節。

一驗證系統118可根據在一資料存儲120內的支持（hold-out）訓練資料，來決定臨時模型116的準確度。如果驗證系統118決定臨時模型116並未製造具有足夠準確度的輸出結果，模型開發者可利用訓練系統114來產生另一模型。也就是說，訓練系統114可根據額外的主要訓練資料及/或根據不同參數值選擇及其他，來製造新模型。訓練架構104能重複上述程序一或更多次，直到製造具有讓人滿意之準確度及強健性的最終模型106為止。模型開發者可接著在搜尋引擎108（或其他應用程式設定）中採用模型106，以供處理使用者查詢中的即時使用。

在操作中，TDCM 110從至少二個來源挑揀該主要訓練資料。作為第一來源，TDCM 110從此種資料的一存儲庫122（例如資料存儲）接收使用者行為資料。使用者行為資料描述由使用者發送的語言項目，以及由該等使用者回應於該等語言項目而採取的動作。例如，該使用者行為資料可對應於自一點擊紀錄擷取的點擊資料，該點擊紀錄由任何搜尋引擎（像是搜尋引擎108）維護。該點擊資料識別出由使用者發送的查詢，連同由該等使用者回應於該等查詢而做的點選。如在此所使用，「點擊」廣泛描述使用者可能表達對一項目（像是一文件）之興趣的任何方式。例如在某些例子中，使用者可藉由利用一滑鼠裝置或類似者明確地在一搜尋結果頁面中之一項目上點擊、或者在一觸碰敏感使用者介面簡報檔上觸碰該項目、等等，來選取該項目。在其他情況中，使用者可藉由利用任何輸入裝置在一項目上方懸停（hover）以選取該項目。在其他情況中，使用者可藉由進行與一項目相關之事務來選取該項目，像是填問卷、購買對應產品、以此類推。

作為一第二來源，TDCM 110從一或更多結構式知識資源接收知識資料，該一或更多結構式知識資源被提供在一或更多資料存儲124中。一結構式知識資源代表任何類型的資料結構，該資料結構代表項目之中的關係。例如，一類型之結構式知識資源可對應於由新澤西州普林斯頓的普林斯頓大學所製作的WordNet知識資源。WordNet知識資源識別出同義字的集合（稱為synset，同義字集）以及該些集合之中的語意關係。知識資料的實例（instance）一詞在本說明書中的用法，代表（至少部分地）從至少一個結構式知識資源擷取的資訊。例如，知識資料的一實例可代表從WordNet知識資源之一synset擷取的至少二個同義字。A.2小節（如下）提供有關在第1圖之環境102中可使用之不同類型結構式知識資源的額外資訊；該小節也描述了用於從該等資源抽樣知識資料的技術。

如也將在A.2小節描述的，TDCM 110變換該使用者行為資料及該知識資料成為一致的格式，以致做出一致的使用者行為資料及一致的知識資料。例如，在一例中，TDCM 110能將該知識資料轉換成為與該使用者行為資料一致的格式。

現參看搜尋引擎108，在一實施例中，搜尋引擎108代表藉由一或更多遠端計算裝置（此處「遠端」指的是搜尋引擎108相對於與搜尋引擎108互動之使用者而言的位置）實施的功能。在該情況中，該使用者可經由任何類型之本地使用者計算裝置126來與搜尋引擎108互動。在另一例中，搜尋引擎108代表本地使用者計算裝置126所提供的一本地資源。例如，如該用語在本說明書中之廣泛用法，搜尋引擎108可代表關聯於一應用程式、或一作業系統等等的擷取引擎。還有其他情況中，關聯於搜尋引擎108的功能可以任何方式分散在遠端的及本地的資源之間。

在一種操作方式中，搜尋引擎108從該使用者接收一輸入查詢。該輸入查詢可代表任何輸入語言項目，像是由該使用者指定的一或更多關鍵詞。此外（或替代地），該輸入查詢可包括情境資訊，該情境資訊識別出該使用者輸入該查詢所在的一情境。例如，該情境資訊可指定使用者的所在地點、該使用者的地域性特徵、該使用者的興趣，以此類推。（如在C部分所述，針對環境102對任何此類使用者資料之儲存及使用，環境102採取了適當的隱私相關保全措施。）

搜尋引擎108利用模型106來識別出關聯於該輸入查詢的零個、一個、或更多輸出語言項目。例如，一輸出語言項目可對應於一文件或一文件的一部分，等等。進而，文件一詞涵蓋了廣泛多樣的承載文字的語言項目，包括由任何類型之文書處理程式製作的文件、電子郵件訊息、具有文字標籤或註記圖像及視訊、網頁或任何網際網路可及之內容項目、廣告，以此類推。在其他情況中，一文件可對應於任何類型的資料結構（或是任何非結構式記錄儲存庫中）的任何記錄。例如，一文件可對應於一表格內的一輸入項、關聯於一知識圖（knowledge graph）的一節點，以此類推。例如，在一例中，一文件可能關於由一企業圖（enterprise graph）所識別出的一實體（例如人、地、公司、等等）。

搜尋引擎108可從一或更多資料存儲128擷取目標文件。資料存儲128相對於使用者的所在地點可為遠端的及/或本地的。例如，資料存儲128可代表通過一廣域網路（像是網際網路）可存取的分散式資源。

在一實施例中，搜尋引擎108可包括（或概念上包括）一介面模組130及一排序系統132。介面模組130代表搜尋引擎108用來與使用者互動的任何功能。例如，介面模組130可提供一頁面，使用者可透過該頁面輸入他或她的查詢，且介面模組130提供一或更多頁面傳遞已被決定是相關於該使用者之查詢的搜尋結果。排序系統132提供將該使用者的查詢與資料存儲128中之文件做比較的功能。A.3小節（如下）提供有關按照一非設限之實施例來操作排序系統132的方式的額外資訊。

在其他實施例中，搜尋引擎108能進行其他個別功能。例如，在一替代性應用中，使用者可指定一文件的一部分或是整個文件作為第一語言項目。該使用者可接著運用搜尋引擎108來找出有關於該第一語言項目的其他文件部分或其他文件。或者搜尋引擎108可被更概略地採用以找出相關語言項目、等等的叢集。

整體而言，從高階觀點來看，訓練架構104運用了知識資料之使用來輔助點擊資料中的任何不足。結果，相較於僅根據點擊資料來訓練的模型，由訓練架構104製作的模型106可產生更準確及強大的結果。使用者藉由以省時的方式（舉例）定位到所欲資訊而得益，因為使用者可減少要識別出有用資訊的必要查詢數量。搜尋引擎108自模型106得到好處是既由以節省資源的方式來處理使用者搜尋之工作階段，此仍然是因為在使用者搜尋工作階段期間能更快速識別出相關聯搜尋結果的能力。例如，模型106可能對搜尋引擎對其處理及記憶體資源的有效率利用做出貢獻。

第2及3圖的頻率曲線圖示範了將知識資料投入訓練集合中的好處。換言之，第2圖代表利用點擊資料但沒有利用知識資料所建立之模型的效能表現；相反地，第3圖代表利用點擊資料及知識資料兩者所建立之模型的效能表現。各圖代表其模型被套用到語言項目組對的語料庫（corpus）的效能表現，該些語言項目組對之各者已經被預先（a-priori）判定為相關的。例如，語言項目的語料庫可對應於在一結構式知識資源（像是WordNet知識資源）中識別出的同義字組對。水平軸上的各點代表由該模型產生的一相關性評分。垂直軸上的各點代表該語料庫內同有一特定相關性評分的語言項目組對的個數。

首先參看第2圖，此圖顯示一最右高峰202及一最左高峰204。最右高峰202對應於訓練資料中具有相對高之相關性評分的組對的一第一子集，其代表之結論是該等個別組對中的字詞彼此相關。該模型對最右高峰202而言表現良好，因為關聯於該部分的項目組對被點擊資料適切地代表了。相反地，最左高峰204對應於訓練資料中具有相對低之相關性評分的組對的一第二子集，其代表之結論是該等個別組對中的字詞不相關，或至少不是強烈相關。該模型對最左高峰204而言表現不良，因為關聯於該部分的項目組對並未被點擊資料適切地擷取。當（例如）點擊資料之語料庫的規模小或是範疇有所限制時，因為尚未編譯足夠數量的歷史資料，尤其可斷言關聯於最左高峰204的不足。

為瞭解第2圖之模型的可能缺點，想想被用來製作該模型之點擊資料的起源。在一例中，使用者（例如）藉由在搜尋結果中識別出之輸出項目上「點擊」來選擇項目。搜尋引擎接著根據某種排序演算法來產生搜尋結果。因此，使用者的點擊隱含地反映或體現由該搜尋引擎所進行的任何排序分析。進一步的後果是，根據點擊資料所產生的模型可能具有加強該排序分析法之邏輯的淨效應，或者換句話說，加強了該排序分析法早已知道的關聯。再一次，在最右高峰202能觀察到此結果，其對應於訓練資料中具有相對高之相關性評分的組對。該模型在發掘未被搜尋結果中提出之輸出項目良好表現的關係上運作較不成功。在最左高峰204之相對低的相關性評分中能觀察到此結果，其對應於知識庫中語意相關而並未出現在訓練資料中的組對。

相反地，第3圖顯示一單一高峰302，其對應於該訓練資料中具有相對高的相關性評分的組對，該些相對高的相關性評分反映出該等個別組對中之詞句乃相關的結論。第3圖的情況中該模型的成功是隨著知識資料連同點擊資料的利用而來。知識資料供應了在點擊資料中可能缺乏的重要訓練範例，使得所製作的整體模型比較起第2圖的情況而言涵蓋了更廣的範例範圍。最終的結果是，該模型在發掘僅由點擊資料並未代表出來的新語意關係上更為成功（比起第2圖的例子）。

第4圖顯示一電腦系統402，該電腦系統代表第1圖之環境102的一實施例。電腦系統402可包括實施訓練架構104的一遠端處理系統404，以及實施一遠端搜尋引擎408的一遠端處理系統406。各遠端處理系統（404、406）可實際對應於一或更多伺服器計算裝置、一或更多資料存儲，及/或其他計算設備；此種計算資源可經提供於一單一站點處，或經分散遍及複數個站點。在一例中，遠端處理系統404及遠端處理系統406可代表由一單一實體管理的單一整體系統的兩部分。在另一例中，遠端處理系統404及遠端處理系統406可代表由相同實體或二不同實體所實施的二個不同系統。

使用者可利用個別使用者裝置（像是代表性的使用者計算裝置410）來與搜尋引擎408（由遠端處理系統406提供）互動。各使用者計算裝置可對應於下列中之任意者：任何類型的個人計算裝置、平板類型計算裝置、智慧型手機、電子媒體消費裝置、遊戲機、機上盒、可穿戴計算裝置、及其他。

一電腦網路412以搜尋引擎108耦合本地計算裝置，搜尋引擎108由遠端處理系統406提供。電腦網路412可對應於廣域網路（例如網際網路）、區域網路、一或更多點對點鏈結、等等，或以上之任意組合。

在另一例中，一使用者可與另一使用者計算裝置414互動，該使用者計算裝置414包含（host）一本地搜尋引擎416；在那種情況下，搜尋引擎416可替代地被稱為一擷取引擎。在另一例中，第1圖之搜尋引擎108的各態樣可以任意方式被分散在一本地使用者計算裝置及遠端處理系統406之間。 A.2. 訓練資料編譯模組（TDCM）

第5圖顯示訓練資料編譯模組（TDCM）110的一實施例。如上所述，TDCM 110產生用於訓練模型106的主要訓練資料。同時如上所解釋，TDCM 110從使用者行為資料的一存儲庫122接收使用者行為資料（例如，點擊資料），以及從一或更多結構式知識資源接收知識資料，該一或更多結構式知識資源經維持在一或更多資料存儲124中。

可藉由任何功能來管理使用者行為存儲庫122。在一例中，一搜尋引擎（像是美國華盛頓州列德蒙市微軟公司製作的Bing®搜尋引擎）製作使用者行為存儲庫122。在一例子中，存儲庫122中的使用者行為資料提供了使用者所發送之查詢的歷史記錄，連同使用者回應於發送該些查詢而作之動作（例如點擊、非點擊，等等）的指示。（如在C部分所描述，環境102針對此類使用者資料的收集及應用採取了各種隱私相關保全措施。）

各結構式知識資源能包括利用任何資料結構來組織任何語言項目的任何類型本體（ontology）。例示性資料結構包括階層、串列、表格、圖、等等。進一步，可利用任何技術來建立結構式知識資源。例如，在某些情況中，一或更多專家可手動建立結構式知識資源。在其他情況中，群眾外包（crowdsourcing）勞動力可（例如）藉由定義在該結構式知識資源中語言項目之間的關係來建立結構式知識資源。在某些情況中，第1圖的環境102能仰賴預先存在、公開可用的結構式知識資源。額外地（或替代地），環境102能仰賴自身客製生成的結構式知識資源。

如上所述，該等結構式知識資源之一可對應於WordNet資源。如第6圖中概念性地描繪的，WordNet結構式知識資源提供關聯於個別概念的一節點階層。各節點進而對應於同義字的集合，稱為一synset（同義字集）。例如，第6圖在此類synset的一階層中顯示三個代表synset。synset_a 包括同義字詞的集合{w_a1 , w_a2 , …., W_an }；synset_b 包括字詞的集合{w_b1 , w_b2 , …, w_bn }；synset_c 包括字詞的集合{w_c1 , w_c2 , …, w_cn }，以此類推。

WordNet資源也可提供將不同synset連接在一起的鏈結。各鏈結代表在兩個經鏈結synset之間的語意關係。例如，一子代synset可藉由一鏈結來耦合至父代synset；該鏈結指示出該子代synset是關聯於該父代synset、具有較通用概念的種類。

此外，WordNet資源能針對在其本體中各種字詞配對儲存一相似性量測值。該相似性量測值描述字詞之間語意相關性的程度。相似性量測值也能被概念化成為兩字詞之間的語意距離d。在一種配置方式中，例如兩個相較遠離的字詞並非緊密相關；兩個相對靠近的字詞乃緊密相關。

重複一次，WordNet結構式知識資源僅代表從中可獲得知識資料的一可能資源。例如，額外地（或替代地），TDCM 110能從下列中任意者獲得知識資料：開放式目錄計畫（Open Directory Project，ODP）社群所維護的DMOZ資源；關聯於Wikipedia網站的DBPedia目錄；美國華盛頓州列德蒙市美商微軟公司（Microsoft® Corporation）提供的Satori知識資源；任何產品型錄，以此類推。DMOZ資源提供一本體（ontology），其將可經由全球資訊網（WWW）存取的鏈結分類。DBPedia資源提供具內容的一本體，該內容是在Wikipedia協作百科網站所發現。Satori知識資源提供一圖，其提供自各種來源所擷取，有關實體以及實體之中的關係的資訊。產品型錄提供一本體，其將可供銷售的商品及/或服務、等等分類。引用這些結構式知識資源是作為範例而非設限；第1圖的環境102還可仰賴其他類型的結構式知識資源，該些其他類型的結構式知識資源未在以上特定地提及。

回到第5圖，TDCM 110包括一第一抽樣模組502，該第一抽樣模組用於自存儲庫122抽樣使用者行為資料以製作經抽樣之使用者行為資料。第一抽樣模組502可用任何方式來進行此抽樣，例如藉由隨機地選取在存儲庫122中所維護之歷史資料的一子集。替代地或額外地，第一抽樣模組502能從存儲庫122中挑揀代表查詢主題之所欲分佈的歷史資料，以此類推。第一抽樣模組502可將經抽樣之使用者行為資料儲存在一資料存儲504中。

在一例中，使用者行為資料的一實例可對應於一資料集合{Q, A, c, w}。Q代表使用者發送的一查詢。A代表使用者會或不會選擇的一候選答案。c代表對於該使用者是否回應於發送該查詢Q而在答案A上點擊的一指示。例如，數值1可代表一點擊，而數值0可代表沒有點擊。選擇性的w變數代表關聯於該使用者之點擊的一權重。例如，該權重可能指示出集合{Q, A, c}在已經收集之訓練資料內出現的次數。換言之，抽樣模組502能藉由運用該w變數，來將重複的查詢-點擊事件濃縮成為單一筆紀錄。在其他情況中，抽樣模組502可儲存同一查詢-答案-點擊的集合之重複版本，而沒有將它們濃縮成單一筆紀錄，藉以避免使用w變數。

針對該點擊變數c，在某些情況中數值0可指示出曾明確地呈現給一使用者去選取一目標語言項目的機會，但該使用者拒絕做出此種選擇。例如，數值0可能指示出一搜尋引擎回應於一查詢的發送而提供了一候選文件給該使用者以供他（她）的考量，但該使用者沒有在該特定答案上點擊。在另一例中，在已知該使用者其實並未回應於發送他（她）的查詢而點擊該答案之下，抽樣模組502能藉由隨機地從可能答案的資料庫選取任何答案，來「人工地」製作一非點擊事件。但在後者的情況中，該答案無須確實被呈現給該使用者以供他（她）的考量。第一抽樣模組502能在該訓練操作之前，及/或在該訓練操作期間以隨需（on-demand）方式，來擷取不相關的（「負面的」）查詢-答案組對。

一第二抽樣模組506可從一或更多結構式知識資源來抽樣知識資料，以製作經抽樣之知識資料。第二抽樣模組506能使用任何管理者可配置之規則來進行此抽樣任務。例如，在一僅為例示性的情況中，第二抽樣模組506能從上述的WordNet資源萃取相關名詞的組對。可以用不同方式來評估相關性。在一種做法中，如果二個名詞之間的語意距離（對應於由WordNet資源所提供的一相似性量測值）小於一規定的臨界值，則第二抽樣模組506能決定該二個名詞為相關的。另一做法中，如果二個名詞源自相同的synset，則第二抽樣模組506能決定該二個名詞為相關的。例如參看第6圖，第二抽樣模組506能從synset_a 萃取一或更多組對、從synset_b 萃取一或更多組對、從synset_c 萃取一或更多組對，以此類推。

第二抽樣模組506也能以任何方式萃取不相關的語言項目組對。例如，假設第二抽樣模組506先根據從一結構式知識資源萃取的資訊決定了名詞「狗」及「犬」是相關的。「狗」一詞作為一查詢的代表（proxy），而「犬」一詞作為符合該查詢之一文件的代表。第二抽樣模組506接著能挑選至少一個料想與名詞「狗」不相關的名詞（例如「腳踏車」）。「腳踏車」一詞作為該使用者並未回應於查詢「狗」而點擊之一文件的代表。

例如，如果二個名詞之間的距離（如由WordNet資源所提供的相似性量測值所反映）大於一臨界值距離，則第二抽樣模組506能決定該二個名詞為不相關的。在另一做法中，如果二個名詞彼此是反義詞（此為WordNet資源所提供的資訊），則第二抽樣模組506能決定該二個名詞為不相關的。在另一做法中，如果二個名詞源自不同的synset，則第二抽樣模組506能決定該二個名詞為不相關的。在另一做法中，如果二個名詞是隨機地從該結構式知識資源挑選，則第二抽樣模組506能決定該二個名詞不相關。例如，再次假設第二抽樣模組506首先根據擷取自該結構式知識資源的資訊而決定名詞「狗」及「犬」是相關的。第二抽樣模組506能接著從該結構式知識資源隨機地挑選另一詞，在該隨機挑選詞將與「狗」不相關的假設之下。此種結論（也就是該組對為不相關的）不一定在每個情況中都為真，但如果有龐大的名詞庫可從中選擇，此種結論平均將為真。或者第二抽樣模組506能進行一後續步驟，將該結構式知識資源指示出其實為相關的隨機選取名詞組對排除。還有其他的作法可能用來選取不相關的名詞組對。

不同結構式知識資源（除了WordNet資源）可以其他方式（相較於以上指定者）識別出語言項目之中的相似性。第二抽樣模組506能據此針對不同個別結構式知識資源來套用不同抽樣技術。例如，假想一產品型錄識別出同有一或更多共同特性的產品子集，像是源自特定地區或酒莊的酒的類型。第二抽樣模組506能在這些項目為語意相關的假設下，從該子集選取項目組對。

以上之處理的一結果為第二抽樣模組506製作了經抽樣之知識資料，該經抽樣之知識資料可包括相關項目的一子集以及不相關項目的一子集。例如，從一實體圖中擷取的一相關項目組對可對應於名詞「巴爾的摩」（“Baltimore”）及「魅力城市（“Charm City”）」，其中「魅力城市」是巴爾的摩城公認的暱稱。一不相關詞語組對可對應於名詞「巴爾的摩」及「帝國大廈」。在另一實施例中，第二抽樣模組506不是以前述之基礎操作（或除了前述之基礎操作以外），卻能以上述方法之任意者，在該訓練程序期間以隨需之方式萃取知識資料的負面實例（關聯於不相關的詞語）。

在一實施例中，無論是以何種方式獲得知識資料的一實例，該實例可包含以下資料集合：{L1, L2, d, f1, f2}。L1及L2代表從該結構式知識資源擷取的語言項目組對（像是如「巴爾的摩」及「魅力城市」之組對），以L1作為一查詢的代表而L2作為一文件的代表。d代表在該二個語言項目之間的一距離。選擇性的f1及f2分別代表關聯於該第一及第二語言項目的頻率量測值。變數d、f1、及f2可針對不同個別結構式知識資源而具有不同解譯方式。在一例中，距離d可指示出在該二個語言項目之間的相關程度，該相關程度是根據任何度量所建立。例如，在一僅為例示的情況中，數值d = 1可指出該等語言項目乃被當作上述之任何相關方式來評估（如同「巴爾的摩」及「魅力城市」）。數值d = 0可指出該等語言項目乃被當作上述之任何不相關方式來評估（如同「巴爾的摩」及「帝國大廈」）。各個頻率量測值可指示出在先前的情況中，使用者已在一搜尋查詢中使用一對應詞語幾次，如一搜尋引擎所維護之搜尋記錄資料中所反映者。例如，「巴爾的摩」一詞的頻率量測值可指示出使用者曾經在之前的查詢中使用過該詞句。因此，在此例中，頻率資訊是並非從一結構式知識資源本身所擷取的資料片段；但在其他情況中，一結構式知識資源可提供此種資訊。

一轉換模組508運作以將經抽樣之知識資料的格式轉換成經抽樣之使用者行為資料的格式，以製造經轉換知識資料。例如在一例中，轉換模組508可將數值為1的距離數值轉換成數值為1的點擊數值，以及將數值為0的距離數值轉換成數值為0的點擊數值。類似地，轉換模組508可藉由取f1及f2數值的平均來形成一權重數值。在其他情況中，TDCM 110能在沒有使用該權重數值下運作，例如藉由針對全部訓練資料的實例來設定w = 1。一資料存儲510儲存該經轉換之知識資料。

如上所述，TDCM 110能更概略地被稱為將經抽樣之知識資料及經抽樣之使用者行為資料轉換成為一致的格式。在其他情況中，舉例來說，TDCM 110能藉由將使用者行為資料轉換成為與知識資料相同的格式，來進行以上的轉換操作。在其他情況中，TDCM 110能藉由將知識資料及使用者行為資料轉換成為一第三常見格式，來進行以上的轉換操作，該第三常見格式與原始的知識資料格式及使用者行為資料格式都不相同。

一整合模組512整合該一致知識資料及該一致使用者行為資料以製造主要訓練資料。在一實施例中，整合模組512可藉由將提供於資料存儲510中的經轉換知識資料與提供於資料存儲504中的經抽樣之使用者行為資料整合，來進行此整合操作。在進行此整合步驟中，整合模組512可根據一權重w變數的數值來建立n個重複的訓練資料實例，該w變數關聯於一特定經轉換知識資料的實例或一特定經抽樣之使用者行為資料的實例。例如，針對{L1 = 巴爾的摩, L2 = 魅力城市, c = 1, w = 5}的一實例，整合模組512能在主要訓練資料集合中建立該實例{L1, L2, c}的五個複本。在另一實施例中，整合模組512能以原始的形式保留變數w，而不進行上述的複製實例步驟。訓練系統114能夠接著以將w變數納入考量的方式進行其訓練操作。換言之，在那種情況中w變數構成被用來訓練模型106的另一資訊片段。

如上所述，在其他實施例中，主要訓練資料本來能夠排除關聯於使用者行為資料及知識資料的負面的組對，像是「巴爾的摩」及「帝國大廈」之組對。訓練系統114能在訓練程序期間以隨需方式產生該些負面的組對。這樣的實施例可減少TDCM 110的儲存需求。如以上所解釋，能在該訓練程序之前及/或在該訓練程序期間以隨需方式來隨機選取各個不相關的組對，此乃根據該些組對之成員為非相關的假設；此預設假設在大部分情況下為成立的。額外地（或替代地），能根據指示出組對之成員不相關的明確資訊，而在該訓練程序之前及/或在該訓練程序期間以隨需方式來產生不相關的組對。 A.3. 排序系統

第7圖提供排序系統132的概觀，該排序系統132是第1圖之搜尋引擎108的一組件。排序系統132包括一相關性評估架構（RAF）702及一排序模組704。RAF 702利用模型106來決定一或更多語言項目組對的相關性。例如，假設使用者輸入一查詢，該查詢可能被稱為一第一語言項目或一輸入語言項目。RAF 702能利用模型106來比較該查詢與一文件，該文件可能被稱為一第二語言項目或一輸出語言項目。在如此進行下，RAF 702針對該查詢及該文件計算一相關性量測值，其表達了該文件對該查詢而言的相關性。在真正實施中，RAF 702比較該查詢與複數個文件能以接續方式（一個接著一個）或平行方式。

例如，假設該查詢對應於「巴爾的摩」之詞句。進一步假設一第一文件構成標題「魅力城市」，而一第二文件構成標題「帝國大廈」。如果RAF 702被成功地訓練，RAF 702將針對配對(「巴爾的摩」,「魅力城市」)產生比配對(「巴爾的摩」,「帝國大廈」)之相關性量測值更高的一相關性量測值；在此的假設條件是相關性評分會隨相關程度增加而遞增，而並非在全部實施方式中一定如此。

排序模組704可利用一排序模型706來對考慮中的各輸出語言項目（例如各文件）指定一排序評分。更特定言之，排序模型706能根據該輸出語言項目的相關性量測值（由RAF 702所計算），並選擇性地連同任何其他因子，來產生排序評分。排序模型706可實施任何類型的技術以供產生排序評分。例如（而非設限），排序模型706可對應於一機器訓練的模型，該模型根據不同排序特徵（其中由RAF 702所計算的相關性量測值屬於此種特徵）的線性組合來產生排序評分。作為一最終流程，排序模組704能根據該等輸出語言項目被算出的排序評分來將該等輸出語言項目（例如文件）排序。

第8圖顯示RAF 702的一實施例，其針對模型106對應於一深度學習模型的特定情況。更特定言之，第8圖描繪RAF 702被應用在比較二個語言項目之相關性的任務。如上所述，該第一語言項目可對應於一查詢，而該第二語言項目可對應於一文件，等等。然而，RAF 702不受限於此例示性應用方式。

更特定言之，第8圖將RAF 702描繪成包括一第一語意變換模組802以供處理該第一語言項目（例如一查詢），以及一第二語意變換模組804以供處理該第二語言項目（例如一文件）。儘管未圖示出，RAF 702能包括額外的變換模組以供處理額外的語言項目（例如額外的文件）。各變換模組利用模型106的一實例來將一輸入向量映射（map）成一輸出概念向量。例如，第一變換模組802將代表一第一語言項目（例如一查詢）的一第一輸入向量映射成一第一概念向量。第二變換模組804將代表一第二語言項目（例如一文件）的一第二輸入向量映射成一第二概念向量。「向量」對應於具有關聯於個別向量維度之二個或更多個元素的任何資訊。概念向量被表達在一語意空間中，並揭示有關自其導出該概念向量的該相應語言項目的語意資訊。例如，針對「巴爾的摩」一詞的概念向量可能揭示了指示出該詞相關於魅力城市之暱稱的資訊。

在一例中，RAF 702其實能提供變換功能之二個或更多不同實例，以實施第8圖中所示該複數個變換模組（802、804）。例如，RAF 702能提供關聯於變換功能之不同實例的二個或更多實體處理組件。替代地或額外地，RAF 702能提供變換功能之不同的軟體實施實例。替代地或額外地，RAF 702能利用變換功能的單一實例來序列地處理不同輸入語言項目，例如藉由將查詢投射到語意域中，然後接著將文件集合一個接一個地投射到該語意域中。

一比較模組806能將查詢概念向量與文件概念向量做比較，以製造一相關性量測值。該相關性量測值R(Q,D)提供針對在該二個概念向量之間之語意關係的程度的一指示。可以任何環境特定之方式來定義相關性。在一例中，比方說，該相關性量測值指示了該查詢相對一考量中之文件的概念相關程度。在語意空間中彼此相近的二個向量係關於相同或相關的概念。在語意空間中相遠離的二個向量指不類似的概念。

能以不同方式來實施該些變換模組（802、804）。在一種做法中，第一變換模組802包括一維度縮減模組（DRM）808及一深度結構式語意模組（DSSM）810。類似地，第二變換模組804包括一DRM 812及一DSSM 814。該些DSSM根據深度學習模型 106之個別實例來進行其功能。

各DRM接收代表一語言項目的一輸入向量。例如，DRM 808接收代表該查詢的一輸入向量，同時DRM 812接收描述考量中之一特定文件的一輸入向量。第一DRM 808製造一第一經縮減維度之向量，同時第二DRM 812製造一第二經縮減維度之向量。一經縮減維度之向量相較於對應的輸入向量而言具有經減少的維度，同時仍然代表了與表達在該輸入向量中相同的資訊。

想想DRM 808的操作；其他DRM以相同的方式運作。在一實施例中，DRM 808利用一n元字組雜湊技術（n-gram hashing technique）來縮減其輸入向量的維度。例如，假設前後文對應於「automotive body shop（汽車修理廠）」之詞句，該詞句可能繼而對應於一特定輸入查詢。RAF 702可初始地將此詞句代表成一輸入向量，該輸入向量具有之維度（輸入項）的數量等於能以自然語言（像是英文）表達出包括「automotive」、「body」、及「shop」之字詞的全部可能字詞。RAF 702能針對輸入向量中之該等輸入項「automotive」、「body」、及「shop」設定一數值1，並針對該向量中全部其他輸入項設定一數值0。如果有一個字詞在該輸入詞句中出現多次，則該字詞的輸入項將反映該字詞出現的次數。換言之，上述的輸入向量提供了該輸入詞句的字詞袋（bag-of-words）表示方式。將理解，對於大部分語言項目而言該輸入向量會非常稀疏地被填補。

DRM 808藉由（例如）先在考量中之輸入詞句的開頭及結尾附加虛設的符記（例如符記「#」）來縮減輸入向量的維度，以製造「#automotivebodyshop#」。DRM 808能接著在該輸入詞句上運行一n字母窗格，以製造一系列的n元字組。例如，假設n=3，DRM 808製造以下三元字組（trigram）的序列：「#au」、「aut」、「uto」、「tom」、「omo」、以此類推，直到到達最終的虛設字母。DRM 808能接著形成一經縮減維度之向量，該向量所具的維度對應於在特定語言中的全部可能三元字組（可能排除部分非感興趣的三元字組）。在該向量中，DRM 808能針對出現在輸入詞句中的三元字組輸入項設定數值1，（例如針對「#au」設定數值1，針對「aut」設定數值1，以此類推）以及對其他輸入項設定數值0。如果一詞句包括相同三元字組的多次出現，則在該經縮減維度之向量中的相應輸入項將指示出該三元字組的出現次數。整體而言，在一語言中唯一的三元字組要比唯一的字詞少多了，因此該經縮減維度之向量相較於該輸入向量要具有小多了的維度。

在另一實施例中，DRM 808能夠首先將一輸入詞句轉換成為語音表示方式（例如藉由將「cat」表達成「kat」），並接著在該輸入詞句的該語音表示方式上進行上述操作。例如，DRM 808能在該輸入詞句的語音版本上運行一n字母窗格，並接著根據在該詞句的該語音表示方式中出現之三元字組來形成一經縮減維度之向量。

一般而言，會比較期望縮減輸入向量的維度，以達到以更省時及省資源的方式進行訓練模型106（在依離線操作階段）的目的。RAF 702的即時操作也能藉由利用經縮減維度之向量而更有效地運作。在其他情況中，RAF 702能運用其他技術來縮減輸入向量的維度（除了上述n元字組雜湊技術之外），像是隨機投射技術。在另一例中，RAF 702能夠完全省略DRM的使用，代表其在原始未壓縮之輸入向量上運作。

各DSSM利用模型106，將一輸入經縮減維度之向量投射成為一概念向量。更特定言之，前進至第9圖，此圖顯示第8圖之DSSM 810的一實施例。第二變換模組804的DSSM 814具有類似的組成及操作方式，但第9圖中略去第二變換模組804的DSSM 814以促進解釋。

DSSM 810可被實施為一深度神經網路（DNN），其包含複數個層902。第9圖特定地顯示出DSSM 810包括四個層，但更概略言之，DSSM 810能包括任意個層。各層繼而包括複數個元素，該些元素稱為神經元。各神經元儲存一數值。在一指定層中的各神經元進一步被連接至緊接在前的一層（若有的話）中的零個、一個或更多個神經元以及緊接在後的一層（若有的話）中的零個、一個或更多個神經元。此處「在前」及「在後」指相關於資訊流通過該DNN之方向而言的鄰接層，該方向在第9圖中是從下往上。換言之，針對一指定層，在前的層代表較低的層，而在後的層代表較高的層。

層902包括用於儲存數值的一最底層904，該些數值一起由該向量標示。更特定言之，層904代表對DSSM 810的輸入，且層904因此儲存關聯於DRM 808所提供之該經縮減維度之向量的數值。下一層906儲存具有從該第一層之數值導出之數值的一向量，該第一層關聯於該向量。下一層908儲存具有從層906之數值導出之數值的一向量，層906關聯於該向量。最終輸出層910儲存概念向量，該概念向量具有從層908之數值導出之數值，層908關聯於該向量。

第9圖也將各層（904、906、908、910）表示成具有不同個別長度的方塊，以指示出該些不同層具有不同個別維度。非為設限，在一實施例中被供給給DRM 808的輸入向量所具有之維度是500K，指示出在所識別的字彙集中有500K個可能字詞。層904所具有之維度是30K。例如，如果利用三元字組雜湊技術來製造該經縮減維度之向量，則層904的維度代表在500K個字詞的原始語料庫內有30K個獨一無二的三元字組（可能排除了某些不感興趣的三元字組）。層906及層908各具有300個元素的維度。而層910具有128個元素的維度。然而，再一次，另一DSSM 810的實施例能採用任意個層，各層能具有任意向量長度。

更正式地說，在一實施例中，層904中的向量z₁ 能被表示成z₁ =W₁ x ，其中W₁ 代表由DRM 808利用以製造該較低維度之向量的任何變換方式。層906及908中的向量z_i 可被表示成，其中i 從2遞增到N-1 。而層910中的向量y 可被表示成，其中在第9圖的特定例子中N =4。符號W_i 標示了由訓練系統114（第1圖）所製造的第i 個加權矩陣，而符號b_i 指選擇性的第i 個偏差項，該第i 個偏差項也由訓練系統114所製造。函數f(x) （稱為啟用函數（activation function））能以不同方式公式化，像是下列函數：

第10圖顯示第7圖之排序系統132的一整體實施例，其採取了以上針對第8及9圖所述的原則。如該圖所示，一第一變換模組1002製造一查詢概念向量y_Q ，該向量在一語意空間中表達了一查詢（Q ）。一第二變換模組1004製造在該相同語意空間中的一文件概念向量，其代表一文件（D₁ ）。一第三變換模組1006製造在該相同語意空間中的另一文件概念向量，其代表一文件（D_n ），以此類推。

更特定言之，該三個（或更多個）變換模組（1002、1004、…、1006）能藉由分離的實體組件或軟體實例所實施。或者該三個（或更多個）變換模組（1002、1004、…、1006）可能由單一實體組件或軟體實例所實施，該單一實體組件或軟體實例以序列方式、逐一地處理語言項目。進一步，該等文件變換模組（1004、…、1006）之任意者能選擇性地以一離線程序的方式（也就是在該使用者發送該查詢Q 之前），在它們的輸入語言項目上（例如在該等候選文件上）執行它們的處理操作。

一第一比較模組1008決定在該語意空間中查詢Q 及文件D₁ 之間的語意關係（例如相似性）程度，同時一第二比較模組1010決定在該語意空間中查詢Q 及實體文件D_n 之間的語意關係（例如相似性）。在一實施例中，各比較模組能將查詢Q 及一文件D 之間的語意關係計算成一餘弦相似性量測值，如下：

能使用其他比較技術來代替餘弦相似性決定技術，像是曼哈頓距離決定（Manhattan distance determination）技術。

排序模組704可接收由比較模組（1008、…、1010）所製作的相關性量測值。根據該相關性量測值，連同任何其他特徵，排序模組704可接著指定一排序評分給各候選文件。排序模組704可利用排序模型706來進行上述任務。 A.4. 訓練系統

第11圖顯示第1圖之訓練系統114的一實施例。在一例示性而非設限的情況中，訓練系統114處理該主要訓練資料的語料庫（提供於資料存儲112中），來產生模型106。模型106代表第9圖中顯示之加權矩陣（W_i ）及偏差因數（b_i ）的集合。在此利用符號L來共同指稱關聯於模型106的該些參數值。

如上所述，資料存儲112中的主要訓練資料源自至少二個來源：使用者行為資料及知識資料。且如所述，使用者行為資料可對應於點擊資料。「點擊」一詞意圖具有廣泛的意義。該詞可描述使用者按照字面地使用一滑鼠裝置在一輸入項上點擊的情況。但點擊一詞也涵蓋了使用者以任何其他方式顯現對一輸入項之興趣的情況。

無論該主要訓練資料是如何形成的，主要訓練資料涵蓋訓練資料的複數個實例，各實例構成一訓練範例。在一非設限實施例中，各範例包括一查詢Q 、預設該使用者回應於該查詢而選取的一文件（D⁺ ），以及該使用者並未回應於該查詢而選取的至少一文件（D ^- ）。在第11圖的特例中，一訓練範例包括四個非經點擊文件{,}，但一訓練範例能包括任意數量的此類文件。

更特定言之，有些訓練範例可能源自使用者行為資料，同時其他訓練範例可能源自知識資料。在某些情況中，有些訓練範例也可能代表自使用者行為資料及知識資料兩者拉出的資料。據此，一「經點擊」文件（D⁺ ）可能在某些情況中對應於該使用者回應於查詢Q 而在其上點擊的一真正文件。在其他情況中，一「經點擊」文件可對應於自一結構式知識資源擷取的一語言項目，該文件乃作為回應於查詢Q 之使用者點擊的代表（在那種情況下，其中查詢Q 對應於從該結構式知識資源擷取的另一語言項目）。在某些情況中，一負面的文件（D ^- ）可指示出該使用者被提供一機會來選取該文件卻拒絕這麼做；在其他情況中，無論該使用者是否曾被給予機會選取該文件，負面的文件可僅指示出該使用者並未回應於發送該查詢Q 而選取此特定文件。還有其他情況中，負面的文件可對應於一語言項目，該語言項目與查詢Q 是不相關的，且該語言項目是以前述之方法中任意者從一結構式知識資源所擷取。進一步，如先前所解釋，在某些情況中TDCM 110能在真正模型訓練程序開始之前以任何方式產生該等負面的文件；替代地或額外地，TDCM 110能在該訓練程序期間以任何方式產生該等負面的文件。

訓練系統114藉由利用一疊代式求解機制（iterative solving mechanism）1102運作，藉由疊代地改變模型L的參數值，以疊代地達成由一目標函數1104定義的目標。當此疊代式處理結束時，最終的參數值構成已訓練模型L。目標函數1104繼而數學地表達模型L在完全被訓練後尋求達到的目的。在目前的例子中，該目標函數規定了在已知個別查詢下，該等經點擊文件的條件機率要被最大化，以及在已知個別查詢下，該等非經點擊文件的條件機率要被降低。換言之，該目標函數企圖讓經點擊文件之被評估相關性盡可能地高，同時嘗試讓非經點擊文件之被評估相關性盡可能地低。如上所解釋，注意對某些訓練範例而言，一經點擊文件可能代表從一結構式知識資源擷取的資訊而非使用者真的點擊的一文件；換言之，該資訊是作為一經點擊文件的代表。

要數學地推導出該目標函數，首先注意在一訓練範例中已知查詢Q 之下，一經點擊文件（D⁺ ）的機率能先被表示成如下的softmax函數：

這項代表針對關聯於模型L的一組已知現有參數，在語意空間中查詢Q 及經點擊文件D⁺ 之間的語意關係（例如相似性）。 D 這項代表該訓練實例中的五個文件的集合，該集合包括D⁺ 及四個非經點擊文件，不過如前所述，一訓練範例能包括任意數量的非經點擊文件。這項代表在語意空間中查詢Q 及訓練範例中該等文件中之一（D’ ）之間的語意關係（例如相似性）。符號代表實證導出的一平滑因數（例如其能藉由分析訓練範例的支持資料集合而產生）。對於此個別訓練範例，該目標函數將表達要讓盡可能地高、而各盡可能地低的企圖，以整體地讓盡可能地高、而各盡可能地低。

整體而言，當考慮主要訓練資料的語料庫中全部訓練實例時，目標函數牽涉在已知對應查詢下企圖最大化該等經點擊文件的條件機率，或者等效地最小化下列損失（loss）等式：

換言之，目標是針對該主要訓練資料中的全部範例或是某些子集，要導出一組參數值將以上等式最小化。

在一種做法中，疊代式求解機制1102利用一種基於梯度之數值最佳化演算法來解出上述問題，像是梯度下降（gradient descent）技術。疊代式求解機制1102（舉例而言）能應用以下更新規則來進行最佳化：

在此，L_t 及L_t-1 分別是於第t個及第t-1個疊代的模型，而是學習速率參數。從高階觀點來看，只要模型L在疊代與疊代之間改變相較大的量時，疊代式求解機制1102就大量改變模型L，而只要模型L改變較慢時，疊代式求解機制1102就小量改變模型L。

更特定言之，假設主要訓練資料中有M 個訓練範例。第m 個訓練範例是，其對應於查詢（Q_m ）及文件（）的特定配對，該文件曾回應於該查詢而被點擊。用於此個別訓練實例的損失函數是：

該損失函數整體的導數能因此被表示成：

能如下地導出。為了簡化表示方式，以下將省略下標m 。首先，以上導出之損失函數能被表示成如下：

其中。該損失函數針對第N 個加權矩陣W_N 的梯度是：

其中：

以及

現在，讓及分別指稱針對查詢Q 及文件D 在隱藏層i 中的啟用函數。以及讓及分別指稱針對查詢Q 及文件D 輸出層910的輸出啟用函數。進一步，為了簡化以下表示方式，讓a 、b 及c 分別對應於、、及。最後，假設由該模型使用的啟用函數對應於以上在等式(1)敘述的tanh 函數。有了這些定義，能利用以下方程式來針對組對（Q ,D ）計算等式(10)右手邊的各項：

其中：

及

以上等式中，「」運算是元素方式的乘法（也就是Hadamard乘積）。

針對各連續隱藏層的數值能透過回射（back projection）計算如下：

及

對應地，針對一中間加權矩陣Wi （i 從2遞增到N-1 ）該損失函數的梯度能被計算成：

其中等於：

疊代式求解機制1102能以連續回射方式及前向分析階段（forward phase of analyses）（利用上述的等式）應用以上等式，直到DNN在一所欲容許度內準確地建立主要訓練資料中表達之行為的模型。也就是說，疊代式程序處理意味著在一前向分析階段計算神經元的啟用函數，計算輸出層中神經元的錯誤項，反向傳播錯誤項到該神經網路的其他層，根據該等錯誤項來更新模型權重，並重複以上操作。能利用以上描述之相同作法導出偏差因數bi 。

訓練系統114能利用平行處理資源1106進行上述的處理。能以任何方式實施平行處理資源1106，例如利用硬體單元、軟體單元或以上之組合。例如，訓練系統114能利用類似第10圖所示之架構。各個分離處理單元（無論是如何被實施）能包括一維度縮減模組（DRM）、一深度結構式語意模組（DSSM）、一比較模組及一softmax模組，該DRM用於計算關聯於一文件D 的經縮減維度之向量，該DSSM用於在語意空間中產生一文件概念向量y_D ，該比較模組用於產生相關性量測值，及該softmax模組用於產生。另一處理單元能在語意空間中產生查詢Q 的代表y_Q 。

重複一下，A部分已將模型106描述成一特定類型的深度學習模型。然而模型106能被實施成另一類型的深度學習模型（像是卷積模型等等），或是不具深度學習模型之特徵的模型（像是決策樹模型等等）。 B. 例示性程序

第12～14圖以流程圖形式來解釋第1圖的環境102。由於環境102之操作底下的原則已在A部分中說明，在本部分某些操作將以摘要的方式來說明。

從第12圖開始，此圖顯示由訓練架構104所實施、用於產生模型106的一程序1202。方塊1204中，訓練架構104從使用者行為資料的一存儲庫122接收使用者行為資料。在一例中，該使用者行為資料識別出使用者所發送的查詢，連同由該使用者回應於該查詢而做的選擇。在方塊1206中，訓練架構104從一或更多結構式知識資源接收知識資料。該知識資料代表語言項目之中的關係，在某些情況中該知識資料可由專家、群眾外包工作者、等等所指定。在方塊1208中，訓練架構104利用一機器學習訓練程序依據該使用者行為資料及該知識資料產生一模型106。在一例中，模型106是一深度學習模型。該深度學習模型經配置以將輸入語言項目投射成為表達在一語意空間中的概念向量。

更特定言之，在一例中，訓練系統114首先製造一臨時模型116。為了決定是否臨時模型116提供了足夠準確的結果，驗證系統118利用臨時模型116來決定一驗證資料集合中之組對的相關性量測值。如果沒有，訓練系統114可針對額外的訓練資料及/或不同參數設定等等重複其訓練操作。驗證資料代表具有已知關係的語言項目組對。能以任何方式製造該驗證資料集合。例如，在一例中，該驗證資料集合可代表從一結構式知識資源（像是WordNet知識資源）所擷取的同義名詞。或者該驗證資料集合可代表由人類手動加標籤之詞語組對。

驗證系統118能利用任何類型的驗證分析。例如，驗證系統118能藉由利用臨時模型116來分析驗證資料集合中的組對，來產生第2及3圖中顯示之該種頻率曲線圖。所產生之相關性量測值的分佈指示出是否模型116正產生第2圖中顯示的那種效能表現（不是希望的）還是第3圖中顯示的那種效能表現（是希望的）。在其他情況中，驗證系統118能利用其他技術來評估臨時模型116的效能表現，像是在接收者操作特徵（ROC）分析中評估曲線下面積（AUC）。

第13圖顯示一程序1302，其解釋一種依據使用者行為資料及知識資料來製作主要訓練資料的方式。在方塊1304中，訓練資料編譯模組（TDCM）110自使用者行為資料之存儲庫122抽樣使用者行為資料，以製造經抽樣之使用者行為資料。在方塊1306中，TDCM 110自一或更多結構式知識資源抽樣知識資料，以製造經抽樣之知識資料。在方塊1308中，TDCM 110轉換該經抽樣之使用者行為資料及該經抽樣之知識資料成為一致的格式，以製造一致使用者行為資料及一致知識資料。在一種做法中，TDCM 110能藉由將該經抽樣之知識資料轉換成為與該經抽樣之使用者行為資料相同的格式來進行方塊1308。在方塊1310中，TDCM 110將該一致使用者行為資料與該一致知識資料整合，以製造主要訓練資料。在方塊1312中，TDCM 110儲存該主要訓練資料在一資料存儲112中。

第14圖顯示一程序1402，其解釋一種在搜尋引擎108中應用一深度學習模型的方式。在方塊1404中，排序系統132接收一第一語言項目（像是一查詢）。在方塊1406中，排序系統132轉換該第一語言項目成為表達在一高階語意空間中的一第一概念向量。在方塊1408中，排序系統132接收一第二語言項目（像是一文件）。在能被離線進行（在接收查詢之前）的方塊1410中，排序系統132轉換該第二語言項目成為表達在相同語言空間中的一第二概念向量。在方塊1412中，排序系統132決定該第一概念向量及該第二概念向量之間的相關程度，該相關程度由一相關性量測值來表達。在方塊1414中，排序系統132選擇性地根據該相關性量測值進行一排序操作，可選擇性地連同其他排序因數。整體而言，排序系統132可針對複數個文件進行程序1402；在那種情境中，在方塊1414中排序系統132根據該些文件的個別相關性量測值來將該些文件排名。

做為結尾的提醒，本說明書已描述了進行特定功能及實施特定機制的不同方式。這些不同技術/機制也能以任何方式組合在一起，而非以選擇式來應用。引用一個例子，能利用上述各種技術之任意者來產生不相關語言項目的組對，但也能根據該些技術之任意組合（例如藉由應用上述技術中任二個或更多個）來產生不相關語言項目的組對。 C. 代表性計算功能

第15圖顯示能被用來實施第1圖之環境102的任意態樣的計算功能1502。例如，第15圖所示之該類型的計算功能1502能被用來實施訓練資料編譯模組（TDCM）110的任意態樣、訓練系統114的任意態樣、驗證系統118的任意態樣、搜尋系統108的任意態樣、任何使用者裝置的任意態樣，以此類推。在全部情況中，計算功能1502代表一或更多實體且有形的處理機構。

計算功能1502可能包括一或更多處理裝置1504，像是一或更多中央處理單元（CPU）、及/或一或更多圖形處理單元（GPU）、以此類推。

計算功能1502也可能包括用於儲存任何種類資訊的任何儲存資源1506，像是編碼、設定、資料、等等。非為設限，舉例而言，儲存資源1506可包括下列之任意者：任何類型的RAM、任何類型的ROM、快閃裝置、硬碟、光碟，以此類推。更概略言之，任何儲存資源能夠利用任何技術以供儲存資訊。進一步，任何儲存資源可提供資訊的揮發性或非揮發性保留。進一步，任何儲存資源可代表計算功能1502的固定的或移除的組件。當處理裝置1504實行儲存在任意儲存資源中或儲存資源之組合中的指令時，計算功能1502可進行上述之函數中任意者。

至於用語，任何的儲存資源1506、或儲存資源1506之任意組合，都可被視為電腦可讀取媒體。在許多情況中，電腦可讀取媒體代表某種形式的實體且有形的實體。電腦可讀取媒體一詞也涵蓋經傳播信號，例如經由實體的管道及/或空氣或其他無線媒介等等所傳送或接收者。然而，「電腦可讀取儲存媒體」及「電腦可讀取媒體裝置」之特定用語在包括所有其他形式之電腦可讀取媒體的同時，明確地排除經傳播信號之類。

計算功能1502也包括一或更多磁碟機機構1508以供與任何儲存資源互動，像是硬碟機機構、光碟機機構、及其他。

計算功能1502也包括一輸入/輸出模組1510以供接收各種輸入（經由輸入裝置1512）及用於提供各種輸出（經由輸出裝置1514）。例示性輸入裝置包括鍵盤裝置、滑鼠輸入裝置、觸控螢幕輸入裝置、數位輸入板（digitalizing pad）、一或更多個視訊攝影機、一或更多個深度攝影機、自由空間手勢辨識機構、一或更多個麥克風、語音辨識機構、任何移動偵測機構（例如加速度計、陀螺儀等）、等等。一特定輸出機構可包括一展示裝置1516及相關聯的一圖形使用者介面（GUI）1518。其他輸出裝置包括印表機、模型產生機構、觸覺輸出機構、歸檔機構（用於儲存輸出資訊）、等等。計算功能1502也能包括一或更多網路介面1520以供經由一或更多通訊管道1522來與其他裝置交換資料。一或更多通訊匯流排1524將上述組件通訊耦合在一起。

通訊管道1522能以任何方式實施，例如藉由區域網路、廣域網路（例如網際網路）、點對點連線、等等，或上述之任意組合。通訊管道1522能包括由任何協定或協定之組合所控制之固線鏈結、無線鏈結、路由器、閘道器功能、名稱伺服器、等等的任意組合。

替代地或額外地，前面的部分所述之功能的任意者能（至少部份地）藉由一或更多硬體邏輯組件來進行。例如（而非設限），能利用下列之一或更多者來實施計算功能1502：現場可程式化閘陣列（FPGA）；應用特定積體電路（ASIC）；應用特定標準產品（ASSP）；單晶片系統（SOC）；複合式可程式化邏輯裝置（CPLD），等等。

最後，本說明書中描述的功能能採用各種機制以確保任何使用者資料被處理的方式都符合適用的法律、社會常規、及個別使用者的期望及偏好。例如，該些功能能允許使用者明確地同意加入（以及後來明確地同意退出）該些功能的供應。該些功能也能提供適當的保全機制以確保使用者資料的隱密性（像是資料淨除（data-sanitizing）機制、加密機制、密碼保護機制、等等）。

進一步，儘管以特定於結構式特徵及/或方法論動作的語言來描述本案標的，應理解在隨附申請專利範圍中界定的標的不一定受限於前述之特定特徵或動作。相反地，前述之特定特徵或動作被揭露是作為實施申請專利範圍之範例形式。

102‧‧‧環境
104‧‧‧訓練架構
106‧‧‧模型
108‧‧‧搜尋引擎
110‧‧‧訓練資料編譯模組（TDCM）
112‧‧‧儲存主要訓練資料的資料存儲
114‧‧‧訓練系統
116‧‧‧臨時模型
118‧‧‧驗證系統
120‧‧‧資料存儲
122‧‧‧儲存使用者行為資料的存儲庫/資料存儲
124‧‧‧儲存知識資料的資料存儲
126‧‧‧使用者計算裝置
128‧‧‧儲存目標文件的資料存儲
130‧‧‧介面模組
132‧‧‧排序系統
202、204、302‧‧‧高峰
402‧‧‧電腦系統
404、406‧‧‧遠端處理系統
408‧‧‧遠端搜尋引擎
410、414‧‧‧本地計算裝置
412‧‧‧電腦網路
416‧‧‧本地搜尋引擎
502、506‧‧‧抽樣模組
504‧‧‧儲存經抽樣之使用者行為資料的資料存儲
508‧‧‧轉換模組
510‧‧‧儲存經轉換之知識庫資料的資料存儲
512‧‧‧整合模組
702‧‧‧相關性評估架構（RAF）
704‧‧‧排序模組
706‧‧‧排序模型
802‧‧‧第一變換模組
804‧‧‧第二變換模組
806‧‧‧比較模組
808、812‧‧‧維度縮減模組（DRM）
810、814‧‧‧深度結構式語意模組（DSSM）
902、904、906、908、910‧‧‧層
1002‧‧‧第一變換模組
1004‧‧‧第二變換模組
1006‧‧‧第三變換模組
1008‧‧‧第一比較模組
1010‧‧‧第二比較模組
1102‧‧‧疊代式求解機制
1104‧‧‧目標函數
1106‧‧‧平行處理資源
1202、1302、1402‧‧‧程序
1204、1206、1208‧‧‧方塊
1304、1306、1308、1310、1312‧‧‧方塊
1404、1406、1408、1410、1412、1414‧‧‧方塊
1502‧‧‧功能
1504‧‧‧處理單元
1506‧‧‧儲存資源
1508‧‧‧磁碟機機構
1510‧‧‧輸入/輸出模組
1512‧‧‧輸入裝置
1514‧‧‧輸出裝置
1516‧‧‧展示裝置
1518‧‧‧圖形使用者介面（GUI）
1520‧‧‧網路介面
1522‧‧‧通訊管道
1524‧‧‧通訊匯流排

第1圖顯示用來產生及應用一模型的例示性環境，該模型像是（但不限於）深度學習模型。該模型是根據使用者行為資料及知識資料之組合所製造。

第2圖顯示一頻率曲線圖，其代表僅利用點擊資料所訓練之模型的效能表現。

第3圖顯示一頻率曲線圖，其代表利用點擊資料及知識資料兩者所訓練之模型的效能表現。

第4圖顯示一電腦系統，其代表第1圖之環境的一種實施例。

第5圖顯示一訓練資料編譯模組（TDCM）的實施例，該模組是第1圖之環境的一組成部分。TDCM產生主要訓練資料以供用於訓練模型。主要訓練資料進而是根據使用者行為資料及知識資料所製作。

第6圖顯示一類型之結構式知識資源的結構範例。

第7圖顯示一排序系統的實施例，該排序系統是第1圖之環境的一組成部分。

第8圖顯示一相關性評估架構（RAF）的實施例，該RAF是第7圖之排序系統的一組成部分。該RAF利用了深度學習模型之運用的效果。

第9圖顯示一語意變換模組的實施例，該語意變換模組是第8圖之RAF的一組成部分。

第10圖顯示第8圖之整體RAF的一實施例。

第11圖顯示用於製作深度學習模型之訓練系統（也顯示於第1圖）的一實施例。

第12圖是一流程圖，其提供一種根據使用者行為資料及點擊資料製作模型之方式的概要。

第13圖是一流程圖，其解釋一種根據使用者行為資料及知識資料來製作主要訓練資料的方式。

第14圖是一流程圖，其顯示在一搜尋引擎中應用一模型的方式，該模型係按照第12及13圖之流程圖而製作。

第15圖顯示例示性計算功能，該些計算功能能被用以實施前述圖式中顯示之特徵的任意態樣。

在整個揭示文件及圖式中使用相同數字來指稱類似之組件及特徵。系列100之數字指稱起源自第1圖可見的特徵，系列200之數字指稱起源自第2圖可見的特徵，系列300之數字指稱起源自第3圖可見的特徵，以此類推。

國內寄存資訊（請依寄存機構、日期、號碼順序註記）無

國外寄存資訊（請依寄存國家、機構、日期、號碼順序註記）無

（請換頁單獨記載）無

102‧‧‧環境

104‧‧‧訓練架構

106‧‧‧模型

108‧‧‧搜尋引擎

110‧‧‧訓練資料編譯模組(TDCM)

112‧‧‧儲存主要訓練資料的資料存儲

114‧‧‧訓練系統

116‧‧‧臨時模型

118‧‧‧驗證系統

120‧‧‧資料存儲

122‧‧‧儲存使用者行為資料的存儲庫/資料存儲

124‧‧‧儲存知識資料的資料存儲

126‧‧‧使用者計算裝置

128‧‧‧儲存目標文件的資料存儲

130‧‧‧介面模組

132‧‧‧排序系統

Claims

一種用於產生一模型的方法，該方法由一或更多計算裝置實施，該方法包含下列步驟：從一使用者行為資料存儲庫抽樣使用者行為資料，該使用者行為資料識別出由使用者發送的語言項目，連同由該等使用者回應於該等語言項目所作之選擇；從一或更多結構式知識資源抽樣知識資料，該知識資料代表語言項目之中的關係，該些關係藉由該一或更多結構式知識資源表達；及利用一機器學習訓練程序，依據該使用者行為資料及該知識資料產生一模型，該模型提供邏輯以供評估語言項目之相關性，抽樣使用者行為資料之步驟、抽樣知識資料之步驟、及產生模型之步驟係利用關聯於該一或更多計算裝置的至少一處理裝置所進行。
如請求項1所述之方法，其中該使用者行為資料之各個實例代表至少一查詢、對該查詢的一解答、及一點擊值，該點擊值指示出是否一使用者回應於該查詢而選擇了該解答。
如請求項1所述之方法，其中該知識資料之各個實例代表至少一對語言項目、一距離量測值及關聯於該對語言項目的至少一頻率量測值，該距離量測值代表在該對語言項目之間的一相關程度。
如請求項1所述之方法，其中該知識資料包括：一第一知識資料實例子集，其代表相關的語言項目組對；及一第二知識資料實例子集，其代表不相關的語言項目組對，其中該一或更多結構式知識資源提供了指示出是否各語言項目組對為相關或不相關的資訊。
如請求項1所述之方法，進一步包含將該使用者行為資料及該知識資料轉換成為一致的格式。
如請求項5所述之方法，其中該轉換步驟包含將該知識資料之各實例的格式轉換成為符合該使用者行為資料之格式。
如請求項5所述之方法，其中：該使用者行為資料之各個實例代表至少一查詢、對該查詢的一解答、及一點擊值，該點擊值指示出是否一使用者回應於該查詢而選擇了該解答，該知識資料之各個實例代表至少一對語言項目、一距離量測值及關聯於該對語言項目的至少一頻率量測值，該距離量測值代表在該對語言項目之間的一相關程度，及其中該轉換步驟包含將關聯於該知識資料的該距離量測值轉換成為一點擊值，以及轉換該至少一頻率量測值成為一權重值。
如請求項1所述之方法，進一步包含將該使用者行為資料與該知識資料整合以製作主要訓練資料，其中該產生步驟根據該主要訓練資料來製作該模型。
如請求項8所述之方法，其中該整合步驟涉及複製該知識資料之各實例，該複製步驟係按照關聯於該實例的一權重值。
如請求項1所述之方法，其中該模型對應至一深度學習模型，該深度學習模型利用一多層神經網路來將輸入語言項目投射成為概念向量，該等概念向量被表達在一語意空間中。
一種用於儲存電腦可讀取指令的電腦可讀取儲存媒體，當該等電腦可讀取指令由一或更多處理裝置執行時提供一語意轉換模組，該等電腦可讀取指令包含：經配置以利用一深度學習模型來將一輸入語言項目投射成為一概念向量的邏輯，該概念向量在一高階概念性空間中，該深度學習模型擷取在一機器學習訓練程序中從使用者行為資料及知識資料所學習之語意關係，該使用者行為資料識別出由使用者發送的語言項目，連同由該等使用者回應於該等語言項目所作之選擇，及該知識資料代表語言項目之中的關係，該些關係由一或更多結構式知識資源所表達。
一種電腦系統，包含：由至少一計算裝置實施的一搜尋引擎，其用於接收一輸入語言項目及用於識別並傳遞至少一輸出項目，該至少一輸出項目已被判定關聯於該輸入語言項目，該搜尋引擎利用一模型來識別該至少一輸出項目，該模型是在一機器學習訓練程序中根據使用者行為資料及知識資料所製作，該使用者行為資料識別出由使用者發送的語言項目，連同由該等使用者回應於該等語言項目所作之選擇，及該知識資料代表語言項目之中的關係，該些關係由一或更多結構式知識資源表達。
如請求項12所述之電腦系統，進一步包含：一編譯模組，該編譯模組經配置以根據該使用者行為資料及該知識資料來製作主要訓練資料；及一訓練系統，該訓練系統經配置以利用該機器學習訓練程序在該主要訓練資料的基礎上製作該模型。
如請求項13所述之電腦系統，其中該編譯模組包含：一第一抽樣模組，該第一抽樣模組經配置以從一使用者行為資料存儲庫抽樣該使用者行為資料，以製作經抽樣使用者行為資料；一第二抽樣模組，該第二抽樣模組經配置以從該一或更多結構式知識資源抽樣該知識資料，以製作經抽樣知識資料；一轉換模組，該轉換模組經配置以將該經抽樣使用者行為資料及該經抽樣知識資料轉換成為一致的格式，以製作一致使用者行為資料及一致知識資料；及一整合模組，該整合模組經配置以將該一致使用者行為資料及該一致知識資料整合，來製作該主要訓練資料。
如請求項14所述之電腦系統，其中該經抽樣使用者行為資料之各個實例代表至少一查詢、對該查詢的一解答、及一點擊值，該點擊值指示出是否一使用者回應於該查詢而選擇了該解答。
如請求項14所述之電腦系統，其中該經抽樣知識資料之各個實例代表至少一對語言項目、一距離量測值及關聯於該對語言項目的至少一頻率量測值，該距離量測值代表在該對語言項目之間的一相關程度。
如請求項14所述之電腦系統，其中該主要訓練資料包括：一第一知識資料實例子集，其代表相關的語言項目組對；一第二知識資料實例子集，其代表不相關的語言項目組對；其中該一或更多結構式知識資源提供了指示出是否各語言項目組對為相關或不相關的資訊。
如請求項14所述之電腦系統，其中該轉換模組經配置以將該經抽樣知識資料之各實例的格式轉換成為符合該經抽樣使用者行為資料之格式。
如請求項12所述之電腦系統，其中該模型對應至一深度學習模型，該深度學習模型利用一多層神經網路將輸入語言項目投射成為概念向量，該等概念向量被表達在一語意空間中。
如請求項12所述之電腦系統，其中該模型對應至除了一深度學習模型之外的任何類型的模型，該深度學習模型利用一多層神經網路將輸入語言項目投射成為概念向量，該等概念向量被表達在一語意空間中。