TWI493363B

TWI493363B - 資料流之即時自然語言處理

Info

Publication number: TWI493363B
Application number: TW101148116A
Authority: TW
Inventors: Elliot Smith; Victor Szilagyi
Original assignee: Intel Corp
Priority date: 2011-12-28
Filing date: 2012-12-18
Publication date: 2015-07-21
Also published as: EP2798529B1; KR102047200B1; US10366169B2; CN104025077A; US9710461B2; KR101777981B1; WO2013100978A1; JP2015501059A; CN107704449A; KR20150091185A; KR20140097516A; US20180067925A1; EP2798529A1; BR112014016260A2; US20150019203A1; KR20160043132A; TW201346595A; CN107704449B; CN104025077B; EP3557442A1

Description

資料流之即時自然語言處理

本實施例涉及使用內容處理技術及相關軟體應用程式。一些實施例關於資料流之自然語言處理及關聯於網際網路相關之應用程式和服務的數位內容資訊。

自然語言處理(NLP)傳統上一直是一種非常處理和儲存加強的計算活動。事實上，許多類型的這種活動已被轉移到使NLP與如語音到文字之其他功能匹配，並提供大量計算和儲存來源的雲端安裝。然而，隨著客戶端效能和本地儲存已增加，有能力的系統之存在使得NLP能在本地平台上使用。

通常使用如C/C++的語言來提出現今NLP的實作，反映出關心以效能為中心和對特定硬體和作業系統環境協調代碼和演算法的能力。其中一項顯著的缺點在於由於多個硬體和作業系統配置和組合，有許多NLP實作一這導致開發、最佳化、和支援的重大任務。

下面的說明和附圖充分地說明具體實施例以使本領域之熟知技術者能實行它們。其他實施例可結合結構、邏輯、電子的過程、及其他改變。一些實施例的部分和特徵可包括在、或可替代其他實施例的部分和特徵。在申請專利範圍中提出的實施例包括那些申請專利範圍之所有可用的等效範圍。

本揭露繪示能透過使用NLP和動態內容傳送規範來取得並傳送內容的技術和配置。在一實施例中，NPL引擎係配置以進行即時從正文流內容取出有用的單字和片語。連接此NLP引擎的介面係使用W3C超文件標記語言規範版本5(HTML5)、EMCAScript標準的描述語言(例如，JavaScript®或Jscript)、及JavaScript Object Notation(JSON)之標準基礎的實作來提供。此介面能以在跨多個硬體和作業系統領域中可攜的形式來選擇和傳送內容項目，且不需要專門為客戶端裝置的部署編程或編譯。

本文描述用於為使用者決定、找出、並提供相關內容的額外技術和配制。這些包括使用NLP引擎和HTML5介面以傳送關於(基於一些關係之任一者)第一組內容的第二組內容。例如，由於找出或顯示第一組內容(例如視頻)，因此可找出並顯示關於第一組的第二組內容(例如另一視頻、或正文內容)給使用者。在一實施例中，藉由對第一組內容所提供的正文語言術語和字串進行NLP來決定第二組內容。例如，可將包含多媒體視頻、字幕、或封閉式標題的第一組內容提供給NLP引擎以產生NLP取出的關鍵字來決定第二組內容。

在一實施例的另一實例利用中，內容系統能夠決定關聯於媒體內容項目的正文流、分析正文流、從正文擷取關鍵字和片語、並從所擷取的正文進行額外選擇和分析。NLP引擎可接著分析並選擇感興趣的語言術語。所選擇的術語可以許多方式來使用，包括但不限於：提供一部分搜尋詢問以找出相關內容；識別重要、永久的使用者資料；為上下文感知操作和資料取得分析正文承載資料的本質和內容；或當作元資料或結合映射至其他元資料。

可結合這些NLP技術來使用並設計各種使用者介面和引擎配置。接下來的揭露提出了一些有關內容系統、NLP引擎、內容介面(例如，以HTML5/JavaScript技術來呈現)、內容服務、及顯示裝置的使用者實例和配置。將清楚明白這些實施例的特徵可在單一系統或裝置、在單獨的裝置或子系統中、或在硬體或軟體的各種排列中提供。因此，雖然本文所提出的使用實例可描述各種處理和顯示元件為獨立運作，但預期各種元件在某些系統或裝置配置中可彼此協同地使用。

在一實施例中，相關內容顯示和處理環境係關於如實作JavaScript和動態標記語言(例如，HTML5)解釋之網頁瀏覽器的軟體應用程式來提供。藉由在JavaScript/動態標記語言啟動的瀏覽器中提供實作，可即時採用內容處理元件(例如NLP)以分析從關聯網路伺服器收到的內容正文並提供對應之相關內容顯示。瀏覽器可透過在一或更多動態執行之網頁或網路應用程式(web app)內進行的描述語言來呈現並執行這些應用程式。此外，此動態描述語言配置啟動可被整合至依從W3C HTML5/JavaScript標準之一些網頁或網路應用程式的NLP實作。

第1圖提出根據一示範實施例之提供關於自然語言處理之多個顯示裝置中的內容之內容環境100的圖示。具體來說，內容環境100繪示使用內容處理系統110，其包括NLP引擎112和具HTML5/JavaScript能力的使用者介面(UI)114。內容處理系統110係配置以回應於所處理的正文內容而提供額外的相關內容給使用者，如在下面的配置中所示。

視頻來源120從資料來源122得到視頻和正文內容，分別提供視頻內容124和126給接收器裝置電視130和行動裝置132。視頻內容124被繪示成包含關於所提供之視頻資料的正文資料，例如正文字幕或對應於視頻資料之封閉式的標題資料。繪示視頻內容126僅包含視頻資料。

視頻來源120亦提供對應於視頻資料的正文內容128給內容處理系統110。內容處理系統110以用來取得相關關鍵字、術語、片語、及其他自然語言概念的NLP引擎112，將正文內容128處理成相關自然語言資料。NLP引擎112接著提供相關自然語言資料給如HTML5/JavaScript UI 114的使用者介面。

HTML5/JavaScript UI 114係配置以基於由NLP引擎112取得的相關自然語言資料來得到額外的視頻內容。此相關自然語言資料可包括概念或關於從視頻來源120提供的視頻內容124、126之一或更多關鍵字的正文，如同對應於視頻內容之音頻的正文(例如，封閉式標題正文或字幕)。

替代地，提供給內容處理系統110的正文內容128可關於視頻內容，但不直接對應視頻內容之音頻。例如，若提供給電視130的視頻內容124是一部主演特定演員的電影，則從視頻來源120收到的正文內容128可包括關聯於電影的元資料。NLP引擎112可處理元資料欄位以取出相關關鍵術語，如演員姓名、電影的描述和類型、或有關內容的預定資訊。NLP引擎112可取出用來進行搜尋的關鍵術語，例如，找出如具有包括相同演員的相同或類似類型之電影的相關額外內容。再者，演員的姓名可用來決定其他類型的多媒體內容(包括其他電影、有關演員和電影的評論和新聞、電影剪輯預覽和預告、演員採訪和宣傳材料等)。這些搜尋可由內容處理系統110進行，例如，在HTML5/JavaScript UI 114所促進和呈現的動態網站或網路應用程式內。

一旦決定關鍵術語，HTML5/JavaScript UI 114就可提供使用者以關鍵術語進行搜尋、查看搜尋結果、及選擇搜尋結果的能力。例如，使用者選擇來自搜尋的結果可使從視頻來源136可得之特定視頻內容被呈現以供顯示。此相關內容可在HTML5/JavaScript UI 114中被呈現以供顯示，或流至其中一個顯示裝置(例如，電視130、行動裝置132)。這些操作之部分或所有者可為自動化的，例如，用以自動地進行相關搜尋，或用以自動地得到並顯示相關內容。

由此，視頻來源120可提供源自一些來源或格式的正文內容，包括用於與NLP引擎112連用之封閉式標題、字幕、謄本和劇本、元資料、評論和摘要、使用者產生的內容等。同樣地，內容處理系統110可配置以基於視頻來源120所提供的正文資料或關鍵字，從外部來源得到額外的正文內容(例如，藉由從當提供識別流至顯示裝置(例如，電視130或行動裝置132)之視頻播送的正文元資料時之網際網路服務得到視頻節目的謄本)。

內容處理系統110可從任何種類的來源(包括可公開存取的網站、網際網路內容服務、收費媒體提供者(包括電視、無線、或有線內容服務)、或其他電子資料來源)找出並產生相關內容。因此，顯示視頻來源136為選擇性地提供此相關內容；亦可從第一內容的來源、視頻來源120提供此相關內容。然而，視頻來源120不一定限於網路的視頻來源，因為各種空中或本地處理的來源(例如，DVD或藍光播放器)可源於為數位或類比格式的資料來源122之內容。

HTML5/JavaScript UI 114可在一些使用者可操作裝置和設定、及在遠端或本地執行的應用程式中被存取或實作。例如，可提供HTML5/JS使用者介面114作為電視130內的螢幕上應用程式；可與安裝在行動裝置132上的獨立應用程式來提供HTML5/JS使用者介面114；HTML5/JS使用者介面114可由操作在計算裝置134上的網頁瀏覽器存取。

服務HTML5/JS使用者介面114的遠端服務可透過網路來提供內容處理系統110。內容處理系統110可替代地由應用程式、元件、或如耦接顯示螢幕的客戶裝置(例如，機上有線盒或連接電視的視頻接收器)之客戶端硬體裝置所進行的模組、或由在一或更多計算系統中實作的軟體提供。另外，使用顯示裝置(例如網際網路連接的電視、或智慧型手機/平板計算裝置)上的硬體可直接進行內容處理系統的態樣。

各種應用程式介面(API)可由內容處理系統110提供、存取、或以其他方式關於內容處理系統110來使用。例如，內容處理系統110可將對應於正顯示在顯示裝置上之視頻的正文內容(例如，正在開始或恢復視頻節目時提供)提供配置以從視頻來源120或從顯示裝置(例如，電視130、行動裝置132)接收正文內容的API。回到之前的實例，電視的封閉式標題/字幕資訊可從視頻廣播饋送複製並提供給內容處理系統110以供即時處理。在這種情況下的電視可作為伺服器，用以傳送正文之即時資料流給操作在另一裝置(例如，可操作在與電視相同的環境中之網際網路連接的平板PC、提供讓使用者能了解更多有關正被顯示的視頻內容之使用者可操作圖形使用者介面的平板PC)上的內容處理系統110。

在一實施例中，透過使用呈現使用者經驗、處理輸入/輸出(I/O)操作等的本地HTML5/JavaScript應用程式，內容處理系統110使用JavaScript和HTML5建構來處理正文流。因此，透過在動態描述語言環境中執行適用的元件之輕型網路基礎的應用程式可提供包括NLP引擎112、HTML5/JS UI 114、及其他元件的內容處理系統110之部分或所有者。可在顯示裝置(電視130、行動裝置132)、或計算裝置134之任何組合上執行這類HTML5/JavaScrip UI 114的功能。

第2圖提出根據一示範實施例之關於提供連同自然語言處理之內容及相關內容顯示的裝置之裝置架構的圖示。具體來說，電視202和平板204裝置係配置來分別顯示內容206和相關內容208。在所述之實例中，相關內容208係與內容206相關，並當作額外或補充內容的顯示，其與可能是使用者所感興趣的內容206相關。

如圖所示，電視202提供用於輸出分別關於內容206之音頻和視頻的音頻揚聲器210和顯示螢幕212。電視202更配置來操作HTML5應用程式216，其可與圖形UI(未顯示)一起提供。HTML5應用程式216可包含網頁瀏覽器、獨立應用程式、或執行在電視上用以提供內容功能的類似指令集。

HTML5應用程式216更提供控制客戶214和內容處理客戶218。控制客戶214可配置以接收關於內容處理系統224的命令，例如，用以提供不同組合的內容或回應於從內容處理系統224收到的命令而進行一些使用者導向的活動。內容處理客戶218可配置以提供某些內容資訊給內容處理系統224(例如，提供在電視202上的內容206之封閉式標題正文、或關聯於內容206的元資料)。

如進一步所示，平板204提供顯示螢幕220，並可使用揚聲器(未顯示)提供音頻輸出。平板204更配置來操作HTML5應用程式222，具體來說是網路瀏覽器、獨立應用程式、或執行在平板上用以為內容處理系統提供內容功能的類似指令集。

具體來說，HTML5應用程式222可包含提供描述語言環境以執行內容處理系統224之功能的網路瀏覽器。內容處理系統224的功能可包括NLP 226、和搜尋邏輯228，啟動在且可能進行在HTML5應用程式222內。例如，提供描述語言環境的網路瀏覽器可配置以執行關於script啟動NLP引擎的描述語言命令。

如無線路由器230所促進之無線網路的區域網路(LAN)可促進電視202與平板204間的通訊。例如，電視202可透過LAN傳遞包括正文和元資料內容的資料給平板204，以致於提供關聯於內容206的即時正文謄本。平板204的內容處理系統224可用來接收並處理此資料(使用NLP 226)，並以搜尋邏輯228來開始各種詢問以找出並取得相關內容208。

相關內容208可從在使用者本地或遠端的一些內容來源取得。如圖所示，對網際網路服務240的連線係透過無線路由器230來提供，用於相關內容208的可能網際網路服務240包括資訊搜尋提供者250、新聞或動態內容提供者252、社群媒體來源254、購物資訊來源256、及視頻內容來源258。可從這些來源之一或一些者提供相關內容208。例如，相關內容208可由從視頻內容來源258得到的網際網路流視頻提供，判定為對源自電視202上之內容206的顯示之封閉式標題關鍵字進行NLP的結果。

如第2圖所示，相關內容208的顯示係出現在平板204上，而內容206的顯示係出現在單獨裝置(電視202)上。將了解相關內容208的顯示可在相同或稍後的時間出現在與原始內容相同的裝置上，例如，使用畫中畫顯示、螢幕重疊、或類似顯示技術。

內容處理系統224可提供API以從電視202接收通訊。例如，封閉式標題正文流可被傳送至平板204，因為電視202係配置以連接平板204，以平板204來接收並傳送信息，且當不再需要連線時斷開連線。在電視202與平板204之間交換的信息可包含一些格式。

在一實施例中，正文資料以JSON可剖析格式被提供給內容處理系統224以使用在HTML5應用程式214、222中。例如，可提供正文內容的格式如下：{meta: 'title' | 'transcript' | 'tags' | 'summary', content: 'some text' | ['tag1', 'tag2', ...]}

在此示範格式中，「title」之值可為視頻內容提供標題；「transcript」之值可為視頻內容提供正文之部分或完整的謄本；「tags」之值可提供關聯於視頻內容的一或更多正文標籤或關鍵字，「summary」之值可提供視頻內容的正文摘要以供使用者讀取；「content」中的「some text」之值可提供正文內容的指示；及包含「tag 1」、「tag 2」之陣列可提供一列用來得到額外內容的資料術語或片語。

提供JSON格式內的正文資料使JavaScript/EMCAScript理解平台能接收並與關聯於視頻內容的正文內容互動。JSON內的結構和語法使應用程式容易了解他們正接收到的並適當地使用承載資料。由此，如以軟體實作的NLP引擎和HTML5/JS UI之內容處理系統的各種元件可配置以處理、使用、並顯示上述資料的結果。

例如，內容處理系統可提供萃取器或其他正文剖析元件來剖析JSON格式字串，並決定關於主題內容的相關元資料和謄本列。在顯示內容之前，可從如用以決定上下文關鍵字之節目標籤或標題的元資料取出關鍵字。對於可在顯示內容期間收到一列的謄本正文(例如，封閉式標題或字幕)而言，內容處理系統可當收到資訊時佇列此資訊，並建立更多據其可找出並決定相關資訊之有用和相關的片語。

使用JavaScript和JavaScript基礎的NLP引擎可實作下面的NLP技術。將清楚明白對下面所述之NLP技術的變化可關於在內容處理系統中採用的NLP引擎來實作。

為了在正文資料中得到關於術語的適當上下文，可將詞性標籤施用於正文資料。例如，詞性標籤可用來標籤(分配詞性給)謄本列中的字。如下所述，對詞性標籤有一些方法可協同目前所述的NLP組態而使用。

可用於自動化正文標籤操作之軟體應用程式的一個非限制實例係為EngTagger(英文詞性加標器庫，是RubyForge所散佈的開放來源軟體專案)、基於查看字典和一組機率值來分配詞性標籤給英文正文之機率基礎、語料庫訓練的加標器。EngTagger對用於與JavaScript連用提供了可攜性，而因此可與目前所述之HTML5/JavaScript操作環境整合。

可與NLP技術進行的其中一種標籤類型包括單字母組標籤。單字母組標籤使用單件資訊(通常是一個單字)以藉由在辭彙中查看來決定最有可能用於關聯的標籤。給定一語料庫，可為語料庫中的每個字產生辭彙，導致具有字出現次數的文字作為語料庫中的特定詞性。例如，「Peter」可能被標籤為語料庫中的專有名詞110次；而像是「讓」的字可能被標籤為名詞10次並標籤為動詞83次。依據此項資訊，可將詞性分配給句子。

為了以單字母組標籤來分配詞性，首先句子被分解成個別符記(例如，藉由使用分詞器)。接著正文係透過進行單字母組標籤的加標器來運作。例如，用於句子之單字母組標籤的結果可被格式化，如同：I/PRP walked/VBD the/DET dog/NN this/DET morning/NN before/IN work/NN ./PP

可根據一些標準來定義這組標籤。提供用來說明而非限定之可能的標籤之子集包括：PRP=限定詞，第二所有格；VBD=動詞，過去式；DET=限定詞；NN=名詞(單數)；IN=介係詞或連接詞；PP=標點、句點。

用於與在NLP中標籤的另一種技術涉及使用雙字母組標籤。這種形式的標籤係用來將更多「智能」添加至演算法：而不是僅僅施加最有可能的詞性(從文字可能屬於之可能的詞性組)，機率係針對前面的標籤來決定。因此，用於文字之最有可能的標籤實際上是「最有可能的標籤，已知對先前文字的標籤是X」。

為了進行雙字母組標籤，第二資料組可用來表示從一個標籤轉到另一個標籤的機率。藉由訓練語料庫中之標籤序列上的加標器可推導出這些機率。標籤轉換資料組(例如，如從EngTagger庫所提供的)可被NLP引擎使用。NLP引擎可結合此資料組與原始的標籤機率組，並將這兩資料組施用於正文句子。這種技術可與維特比演算法使用以提高標籤準確度。

各種存在的其他標籤模組和實例可協同NLP處理來使用。這些包括藉由對正規表式比較的標籤；結合轉換規則的標籤；基於可能的標籤序列之標籤；及其他模組。一些簡單或廣泛的方法可用於關於實作HTML5/JavaScript UI之內容處理系統和客戶的NLP技術。

回應於標籤正文，可識別如一或更多單數或複數之專有名詞的特定術語之序列。例如，藉由尋找NNP(專有名詞，單數)和NNPS(專有名詞，複數)標籤之序列可進行序列，專有名詞之間具有非必要的連接詞(例如，「and」)或介係詞(例如，「of」)。其他技術可與詞塊剖析法的進階實作一起使用。

可使用除了關鍵字標籤以外的技術來得到正文序列中的關鍵字和片語之上下文和重要性。例如，這些可包括因子分解每個序列在整個謄本內出現的次數以幫助決定片語在謄本內是否是「重要的」。

先前的標籤技術通常說明在NLP環境中能自由索引的其中一種方法。自由索引能處理任何正文，但可能得到一些無關的術語，或反過來忽略有關的相關術語(例如，即使它們是同義詞但仍被視為不同關鍵片語的「筆記型電腦」和「膝上型電腦」)。用以提高索引之適用性的一種方法被稱為「受控制的索引」，其映射已知片語至索引術語(例如，「筆記型電腦」和「膝上型電腦」可能觸發單一關鍵共享片語，「膝上型電腦」)。

一旦已取出了關鍵片語，NLP引擎就可配置以對收聽器通知新的關鍵片語或進行關於術語的其他適當處理。例如，正文萃取器可配置以從內容處理系統啟動「newKeyPhrase」事件作為新的關鍵片語之結果，以及關於遇到的每個關鍵片語之「keyPhraseCounted」事件。事件收聽器可配置以聽取這些正文處理事件的發生，以藉由如進行搜尋詢問和提供使用者提示之適當的行動來回應。事件的觀察者可決定使用此資訊或忽略它。因此，在上述實施例中，找到可能的關鍵字並搜尋詢問係獨立於選擇哪個詢問是提供來搜尋來源而進行。

進一步增進可包括將更多資料添加至關鍵片語事件。例如，協同NLP，例如，內容處理系統可在正文中尋找附名實體，並以分類(例如，「地點」、「人物」、「組織」)來標記任何關鍵片語。在NLP期間可添加其他上下文基礎的術語。

雖然進行NLP可偵測各種可能相關的關鍵片語和術語，但在內容豐富的環境中，並非所有由NLP系統偵測到的術語和片語對於內容的位置或取得而言是適當的或需要的。於是，處理系統可使用額外的選擇標準以判斷是否要使用用於搜尋詢問之識別的關鍵術語和片語以找出或取得內容。

例如，詢問選擇可使用一系列過濾器來決定關鍵術語或片語是否值得作為搜尋詢問。為了幫助作出此項決定，詢問選擇器的可能包括下列因素：關鍵片語；關鍵片語已在謄本或正文列表中出現的次數；及目前節目所提供的內容，其依序(透過預設)包含：迄今所發現到的所有搜尋結果；從搜尋結果所產生的任何文件(用於每個詞幹之正文和計數的附詞幹版本)；所尋找的任何先前詢問；及到目前為止的全部謄本或正文列表。可並行施用多個過濾器來決定是否選擇關鍵片語作為詢問。

內容處理系統可配置以追蹤已作為搜尋(包括用以得到原始內容的搜尋)的關鍵術語和片語，以致於不會超過一次地尋找相同的關鍵片語。亦可將權重施用於每個候選關鍵(名詞)片語。例如，上述權重可依據下列來建立： number of occurrences * (number of words in phrase * number of words in phrase)

內容處理系統可配置以僅搜尋具有一些可配置值以上(例如，等於或大於3)之權重的搜尋片語。上述值可能需要單字的專有名詞片語必須發生被查看三次；而兩個字的名詞片語只必須出現一次。這種方法產生合理的結果，尤其是針對「實體豐富」的正文，例如內容之非虛構謄本方面。

詢問選擇亦可得益於可能詢問中的結構，例如，NLP所產生的關鍵片語。在其他實施例中，用於專有名詞之外的元件之附名實體取出和詞塊剖析可與NLP技術使用。

當選擇關鍵片語時，NLP技術亦可試圖得到上下文。例如，藉由從NLP引擎分析關鍵片語以從先前搜尋術語中決定哪些片語部分或全部重疊，NLP引擎也許能夠取得片語的上下文。這會產生遍及多個片語流(或內容項目)的連結和執行緒並識別它們之間的共同上下文。當分析多組內容(例如，記錄片系列)和識別使用者感興趣之主題以為文字和片語建立典型系列定義時可施用上述技術。例如，在段落中重覆使用的文字可關聯於一些上下文，例如，如在音樂記錄片中之「低音吉他」的「低音」，相較於可使用在自然記錄片中之如使用在「低音魚」中的「低音」之術語。

各種使用案例可實作目前所述之自然語言處理技術以從一或更多來源決定相關內容。與試著找到與單一關鍵字「最佳匹配」之內容的內容搜尋引擎形成對比，基於來自多個關鍵字之內容的上下文，目前所述之NLP技術可適合用來為使用者提供有用和有趣的相關內容組合。當試著找出「相關的」內容時，NLP技術可用來無關地識別相關概念-不一定會從搜尋最頻繁使用的文字之簡單關鍵字得到的概念。決定在類型或其他較大內容類別之內容的上下文使NLP技術對於具有轉移上下文的媒體(例如，在提供多個內容段落之新的視頻節目中)而言是特別有價值的。

例如，在顯示新的視頻節目內容中，可關於字幕或封閉式標題正文來決定視頻之上下文。同樣地，描述節目的正文資料、或關聯於節目的動畫專家群(MPEG)格式元資料可作為用以決定上下文的正文來源。例如，在觀看節目之前可依據節目的類型/描述來決定媒體的上下文。NLP技術亦可用來決定跨內容和如Twitter、Flickr、Wikipedia等之社群媒體網站的關鍵術語之可能詢問，以決定其他相關內容或使用者驅動活動。這些詢問可在HTML5/JS介面內整合以動態地得到並傳送內容。

判定為NLP之結果的相關內容可以一些具有人工或自動功能之組合的形式或格式提供。例如，相關內容可包括類似之內容類型的搜尋結果；用以進行搜尋或拜訪網站的使用者提示；相關廣告；相關使用者互動式顯示和功能互動；及相關元資料互動。

第3圖提出根據一示範實施例之基於關於自然語言處理所決定的相關內容來為使用者提供相關內容之 HTML5/JavaScript啟動的圖形使用者介面視窗300之圖示。如圖所示，圖形使用者介面視窗302包括標題面板304和顯示面板306、312、和318。顯示面板306、312、和318之各者提供來自各種來源之一些相關內容的圖形顯示，特定相關內容顯示被判定為從NLP得到的關鍵字結果。

例如，當使用者正在觀看汽車安全記錄片(由標題324所註記)，可從關聯於此記錄片節目的正文內容得到各種關鍵字，例如封閉式標題、字幕、及播送元資料。當觀看節目，且得到正文流時，可取得出現在正文(例如，事故326、汽車安全測試328、防禦性駕駛330)之各種關鍵術語文字和片語。關鍵術語326、328、330可以是上下文相關的，例如，因為「car」和「automobile」之術語是同義詞，而「防禦性駕駛」係指一種關於與「犯法行為」或賽車運動無關之汽車而發生的人類活動。

關鍵術語326、328、330可被顯示用於使用者輸入並直接互動以顯示相關內容，例如，藉由游標選擇一或更多關鍵字。替代地，關鍵字可用來在顯示面板306、312、318之一或更多者中自動產生內容或內容連結。顯示面板顯示出雖然原始內容的共同主題是汽車安全記錄片，但如「安全測試」、「汽車維修」、和「購車」之相關主題可能是使用者感興趣的相關內容。

具體來說，面板306提供如來自使用者可選擇之社群媒體服務之視頻的圖示310和說明308。面板312提供使用者可選擇之線上百科全書項目(例如內容的快照和摘錄)的圖示316和說明314。面板318提供使用者可購買(例如從線上書店)之商品或服務的圖示322和說明320。

面板306、312、318之各者可用來以視頻、動畫、標語、及其他動態內容之形式來提供增強圖示。繪示在第3圖之使用者介面視窗302所接受的使用者互動可包含一些形式，例如螢幕上選擇、導航按鈕、鍵盤或語音命令、等等。再者，繪示在第3圖中的使用者介面可設置在如平板電腦的可攜式行動計算環境中，且適合用來接收使用者觸控命令和手勢以導航並選擇所感興趣的相關內容。

第4圖提出繪示根據一示範實施例之用於自然語言處理多媒體資料流所提供的正文資料之方法400的流程圖。此程序400的效能可隨著先前所述之內容處理系統和NLP引擎全部或部分地發生。

如操作410所示，關聯於內容的正文流被存取用於NLP。此正文流可由媒體裝置提供(例如，在某個多媒體內容之播放期間)給內容處理系統，或可由內容處理系統從某些資料來源取得。可直接或間接提供正文流給NLP引擎以作即時或延遲的處理。

在操作420中，將標籤和標籤技術施用於來自正文流的正文元件。例如，NLP引擎可施用先前所述之字母組內的標籤技術以使標籤關聯於來自正文的語言文章。在其他實施例中，提供給NLP引擎的正文流可在處理之前被部分或全部地標籤。

在操作430中，NLP引擎基於詞性加標之文章或其他索引標準來索引正文元件。例如，索引可為標籤為專有名詞的正文元件識別出現次數。在操作440中可使用索引之結果以從正文元件識別如專有名詞或片語的關鍵術語。例如，關鍵術語可如操作430之索引所示地被識別為以一預定頻率出現(或超過一些確定出現次數)的正文元件。

在操作450中，識別關鍵術語的上下文。例如，某些關鍵術語可能是彼此的同義詞或反義詞；上下文相關正文處理可用來決定適當的上下文以找出相關內容，並消除、鞏固、或增加關鍵術語。此外，上下文資訊可從關鍵術語得到以識別什麼類型的內容(例如，如視頻或音頻的某種內容類型)是最關於且與提供正文流的原始內容相關。可使用各種處理演算法來找出並取得上下文並決定哪些關鍵術語是最有價值的。

在操作460中，關鍵術語係關於操作而使用以找出或得到相關內容。例如，關鍵術語可與來自內容提供者的網際網路搜尋來使用，以提供並流出額外的相關內容。內容的各種列表和建議亦可與關鍵字一起得到，以提供使用者進一步選擇和流出內容的能力。找出、取得、和顯示相關內容可如本文進一步所述地發生在HTML5/JavaScript依從的環境中。

第5圖提出繪示根據一示範實施例之使用自然語言所提供的內容術語來決定相關內容之方法500的流程圖。如操作510所示，關聯於第一內容的正文被接收用於處理。此正文可與一或更多API由裝置提供，或此正文可回應於通知或偵測一些第一內容而由處理系統取得。

在操作520中，對關聯於第一內容的正文進行NLP(例如，如在第4圖所示之程序中進行)。自然語言處理裝置取得對決定相關內容有用之如文字和片語的關鍵正文術語。

進行操作530以使用關鍵正文術語來決定相關內容。相關內容可與可由處理系統存取的正文索引提供。相關內容亦可與可由處理系統存取的搜尋裝置提供，對搜尋裝置的詢問係使用關鍵術語來提供。

回應於操作530的效能，而決定出如相關內容項目或一組相關內容項目的相關內容。在一些實施例中，在繼續進行顯示或使用相關內容之前(如從對使用者顯示的一列可能相關內容之結果)可處理另一使用者選擇。在操作540中，收到使用者選擇以從相關內容中選擇第二內容。在一實施例中，使用者選擇係以偏好的形式來預先建立，使得基於偏好來自動傳送或顯示第二內容。在另一實施例中，提供UI(或UI內的提示)以接受第二內容的使用者選擇。

最後，在操作550中，提供第二內容(其係與第一內容相關)。可提供第二內容給與關聯於第一內容相同的顯示或媒體輸出；或替代地可提供第二內容給關聯於第一內容不同的顯示或媒體輸出。例如，若使用者正在電視上顯示第一內容，則可提供第二內容以同時或稍後在電視上顯示，或可提供第二內容以同時或稍後在獨立於電視操作之行動裝置上顯示。

先前所述之技術可協同一些處理系統和裝置來進行，且並不限於本文所述之語言處理的配置或演算法。正文內容亦可從獨立於資料之正文流的內容得到。例如，關聯於視頻內容的正文可藉由一些自動化技術(包括聲音和語音辨識、光學字元和影像正文辨識、及機器實作語言翻譯)之組合來得到。

雖然提出關於如電視節目的多媒體視頻內容的一些先前實例，但對關於本技術之上述內容進行的處理可延伸至種類繁多的單媒體和多媒體資料和格式。這可包括三維(3D)顯示內容(例如3D視頻)；正文內容(例如電子書籍、文章、及其他出版品)；靜態視覺內容(例如照片)；及視頻內容(例如音樂和無線電)。另外，找出並提供給使用者的相關內容可具有與找出並提供給使用者的原始內容不同的格式(例如回應於原始正文內容而提供視頻相關內容，反之亦然)。此外，NLP和使用者介面技術可配置來以一些能夠顯示、促進、或(以視頻或音頻形式、或以其他方式)輸出內容給使用者的電子裝置來操作。

目前所述的通訊網路之範圍內可包括其他適用的網路配置。雖然提出關於無線區域網路配置和廣域網路連線的實例，但將了解亦可使用一些個人區域網路、區域網路 (LAN)、和廣域網路(WAN)、使用有線或無線傳輸媒體之任何組合來促進通訊。

實施例可以硬體、韌體、和軟體之其一者或以上之組合來實作。實施例亦可實作成儲存在至少一電腦可讀儲存裝置上的指令，其可被至少一處理器讀取和執行以進行本文描述的技術。電腦可讀儲存裝置可包括用於以機器(例如，電腦、智慧型手機、電子裝置)可讀之形式來儲存的任何非暫態機制。例如，電腦可讀儲存裝置可包括唯讀記憶體(ROM)、隨機存取記憶體(RAM)、磁碟儲存媒體、光學儲存媒體、快閃記憶體裝置、及其他儲存裝置和媒體。在一些實施例中，本文所述之電子裝置和計算系統可包括一或更多處理器並可與儲存在電腦可讀儲存媒體上的指令一起配置。

第6圖係繪示能於其上運作本文所述之任一或更多方法的示範機器之方塊圖。在其他實施例中，機器作為獨立裝置或能連接(例如，藉由網路)其他機器。在網路的部署中，機器能在伺服器客戶端網路環境中的伺服器或客戶機器中操作，或能當作在點對點(P2P)(或分散式)網路環境中的對等機器。機器可以是個人電腦(PC)、平板PC、機上盒(STB)、個人數位助理(PDA)、行動電話、網路設備、網路路由器、交換器或橋接器、或能夠(順序地或以其他方式)執行指定待由此機器採取的行動之指令的任何機器。此外，儘管只繪示出單個機器，但「機器」之術語也應被視為包括個別或共同執行一組(或多組)指令以進行本文所述之任一或更多方法的機器之任何集合。

示範電腦系統600包括處理器602(例如，中央處理單元(CPU)、圖形處理單元(GPU)、或這兩者)、主記憶體604及靜態記憶體606，其經由匯流排608而彼此通訊。電腦系統600更能包括視頻顯示單元610、字母數字輸入裝置612(例如，鍵盤)、及UI導航裝置614(例如，滑鼠)。在一實施例中，視頻顯示單元610、輸入裝置612、及UI導航裝置614是觸控螢幕顯示器。電腦系統600能另外包括儲存裝置616(例如，驅動單元)、信號產生裝置618(例如，揚聲器)、網路介面裝置620(其可包括或可操作地與一或更多天線628、收發器、或其他無線通訊硬體)、及如全球定位系統(GPS)感測器、羅盤、加速度計、或其他感測器的一或更多感測器(未顯示)。

儲存裝置616包括至少一機器可讀儲存媒體622，於其上儲存一或更多組資料結構和指令624(例如，軟體)，其實現本文所述之任一或更多方法或功能或被其利用。指令624亦能完全或至少部分地在主記憶體604內、在靜態記憶體606內、及/或在被電腦系統600、主記憶體604、靜態記憶體606執行期間在處理器602內，且處理器602亦構成機器可讀媒體。

儘管機器可讀媒體622在一示範實施例中被繪示成單一媒體，但「機器可讀媒體」之術語能包括單一媒體或多個媒體(例如，集中式或分散式的資料庫、及/或關聯快取和伺服器)，其儲存一或更多指令624。「機器可讀媒體」之術語也應被視為包括能夠儲存、編碼、或攜帶指令以供機器執行且使機器能進行本揭露之任一或更多方法、或能夠儲存、編碼、或攜帶上述指令所使用或關聯於上述指令之資料結構的任何有形媒體。因此「機器可讀媒體」之術語應被認為包括但不限於固態記憶體、及光和磁媒體。機器可讀媒體的具體實例包括非揮發性記憶體，例如包括半導體記憶體裝置(例如，電子可程式化唯讀記憶體(EPROM)、電子可抹除可程式化唯讀記憶體(EEPROM))和快閃記憶體裝置、如內部硬碟和可移式磁碟的磁碟、磁光碟機、及CD-ROM和DVD-ROM光碟機)。

可進一步使用傳輸媒體經由網路介面裝置620利用任一或一些熟知傳輸協定(例HTTP)，透過通訊網路626來傳送或接收指令624。通訊網路實例包括LAN、WAN、網際網路、行動電話網路、簡易老式電話(POTS)網路、及無線資料網路(例如，Wi-Fi、3G、和4GLTE/LTE-A或WiMAX網路。「傳輸媒體」之術語應被認為包括能夠儲存、編碼、或攜帶指令以供機器執行，且包括數位或類比通訊信號的任何無形媒體或促進上述軟體之通訊的其他無形媒體。

目前所描述的方法、系統、及裝置實施例的額外實例包括以下非限制組態。下面的非限制實例之各者能主張其本身，或能結合在任何排列中或與於下或整個本揭露提出的其他實例之任一或更多者結合。

實例1包括一裝置，包含。至少一處理器；及至少一記憶體裝置，具有複數個指令儲存在其中，當處理器執行指令時，指令使處理器在一動態瀏覽器圖形使用者介面中進行執行描述語言命令的操作以：進行從一或更多媒體內容項目得到之正文的自然語言處理以識別上下文相關項目；使用上下文相關項目從一或更多內容來源找出一或更多相關內容項目；及在動態瀏覽器圖形使用者介面中顯示相關內容項目。

在實例2中，實例1的主題能選擇性地包括在動態瀏覽器圖形使用者介面中顯示媒體內容項目。

在實例3中，實例1-2之其一者或任何組合的主題能選擇性地包括使用第二裝置來提供媒體內容項目之顯示給使用者，其中相關內容項目之顯示會與媒體內容項目之顯示協調一致。

在實例4中，實例1-3之其一者或任何組合的主題能選擇性地包括在動態瀏覽器圖形使用者介面中執行的描述語言命令係藉由執行JavaScript指令來進行，動態瀏覽器圖形使用者介面呈現依從HTML5標記語言標準的一或更多網頁或網路應用程式。

實例5能包括，或能選擇性地結合實例1-4之其一者或任何組合的主題以包括一種被計算裝置進行的方法，包含：藉由在圖形使用者介面內執行客戶端描述語言命令來進行關聯於內容之正文的自然語言處理，自然語言處理包括：識別在正文中的複數個關鍵術語候選；及基於在正文內的使用來從關鍵術語候選中選擇上下文相關關鍵術語；使用上下文相關關鍵術語來從一或更多內容來源決定相關內容；及對一使用者在圖形使用者介面中顯示相關內容。

在實例6中，實例5的主題能選擇性地包括圖形使用者介面係為一瀏覽器，其中在圖形使用者介面中顯示相關內容包括使用瀏覽器在依從HTML5標記語言標準的網頁或網路應用程式中提供相關內容的顯示。

在實例7中，實例5-6之其一者或任何組合的主題能選擇性地包括執行客戶端描述語言命令包括在圖形使用者介面內使用一或更多JavaScript描述語言命令來進行正文的自然語言處理。

在實例8中，實例5-7之其一者或任何組合的主題能選擇性地包括識別在正文中的複數個關鍵術語候選包括：滿足一或更多預定標準地從正文中的一或更多專有名詞和片語中選擇關鍵術語候選。

在實例9中，實例5-8之其一者或任何組合的主題能選擇性地包括識別在正文中的複數個關鍵術語候選包括：存取正文；對正文標籤一或更多詞性；依照詞性基於文字的頻率來索引正文；及利用索引正文來從片語和專有名詞決定關鍵術語候選；其中從關鍵術語候選中選擇上下文相關關鍵術語包括：決定在正文中的關鍵術語候選之上下文；及選擇在正文中的與一或更多其他關鍵術語候選具有共同上下文的關鍵術語候選。

在實例10中，實例5-9之其一者或任何組合的主題能選擇性地包括對使用者在圖形使用者介面中顯示相關內容會與顯示內容同時發生。

在實例11中，實例5-10之其一者或任何組合的主題能選擇性地包括內容和相關內容各顯示在圖形使用者介面中，圖形使用者介面係設置在可被使用者操作的相同顯示裝置上。

在實例12中，實例5-11之其一者或任何組合的主題能選擇性地包括決定相關內容包括對來自一或更多內容來源的相關內容進行搜尋，搜尋包括上下文相關關鍵術語。

在實例13中，實例5-12之其一者或任何組合的主題能選擇性地包括包括視頻的內容，其中關聯於內容的正文包括視頻翻譯、字幕正文、或關聯於視頻的封閉式標題正文之一或更多者。

實例14能包括，或能選擇性地結合實例1-13之其一者或任何組合的主題以包括一種電腦可讀儲存媒體，具有電腦可讀指令，當指令被電腦執行時便使電腦提供圖形使用者介面，圖形使用者介面配置以：使用提供給圖形使用者介面的描述語言指令來進行正文的自然語言處理以取出一或更多內容術語，正文係關聯於一組第一內容；使用內容術語來進行一或更多詢問以找出並得到一組相關內容；及在圖形使用者介面中顯示相關內容。

在實例15中，實例14的主題能選擇性地包括圖形使用者介面係為一瀏覽器，其中藉由呈現包括相關內容的一或更多網頁來提供相關內容的顯示，網頁包括提供依從HTML5標記語言標準之使用者互動顯示的相關內容。

在實例16中，實例14-15之其一者或任何組合的主題能選擇性地包括在瀏覽器中顯示第一內容，其中藉由呈現包括第一內容的一或更多網頁或網路應用程式來提供第一內容的顯示，網頁或網路應用程式提供依從HTML5標記語言標準的使用者互動顯示。

在實例17中，實例14-16之其一者或任何組合的主題能選擇性地包括關聯於這組第一內容的正文係藉由關聯於內容的即時資料流提供。

在實例18中，實例14-17之其一者或任何組合的主題能選擇性地包括資料流係從封閉式標題正文、字幕正文、或元資料之一或更多者提供。

在實例19中，實例14-18之其一者或任何組合的主題能選擇性地包括提供給圖形使用者介面的描述語言指令係為配置來在JavaScript啟動顯示環境中執行的JavaScript指令。

實例20能包括，或能選擇性地結合實例1-19之其一者或任何組合的主題以包括一種系統，包含：一輸出裝置，配置以輸出第一組內容給使用者；及一內容處理系統，配置來提供來自關聯於第一組內容之正文的相關內容，內容處理系統包括：一自然語言處理元件，配置以決定關於第一組內容的術語，自然語言處理係使用描述語言命令來進行；一內容取得元件，配置以使用關於第一組內容之術語來決定關於第一組內容的第二組內容；及一使用者介面元件，配置以在使用者介面內提供第二組內容給使用者，使用者介面使用標記語言提供動態產生顯示給使用者。

在實例21中，實例20的主題能選擇性地包括一第一內容來源，提供第一組內容以及關聯於第一組內容的正文；及一第二內容來源，提供第二組內容。

在實例22中，實例20-21之其一者或任何組合的主題能選擇性地包括輸出裝置更配置以輸出使用者介面及第二組內容給使用者。

在實例23中，實例20-22之其一者或任何組合的主題能選擇性地包括第二輸出裝置，配置以輸出使用者介面及第二組內容給使用者。

在實例24中，實例20-23之其一者或任何組合的主題能選擇性地包括內容取得及自然語言處理係使用在使用者介面內執行之描述語言來進行，其中內容處理系統係藉由執行在輸出裝置之處理器上的軟體指令提供。

摘要被提出以使讀者能確定本技術揭露的本質和要旨。了解摘要將不用來解釋或限制申請專利範圍之範圍或含義。接下來的申請專利範圍特此被併入詳細的說明中，每個申請專利範圍主張其本身而作為單獨的實施例。

100‧‧‧內容環境

110‧‧‧內容處理系統

112‧‧‧NLP引擎

114‧‧‧使用者介面

120‧‧‧視頻來源

122‧‧‧資料來源

124‧‧‧視頻內容

126‧‧‧視頻內容

128‧‧‧正文內容

130‧‧‧電視

132‧‧‧行動裝置

134‧‧‧計算裝置

136‧‧‧視頻來源

202‧‧‧電視

204‧‧‧平板

206‧‧‧內容

208‧‧‧相關內容

210‧‧‧揚聲器

212‧‧‧顯示螢幕

214‧‧‧控制客戶

216‧‧‧HTML5應用程式

218‧‧‧內容處理客戶

220‧‧‧顯示螢幕

222‧‧‧HTML5應用程式

224‧‧‧內容處理系統

226‧‧‧NLP

228‧‧‧搜尋邏輯

230‧‧‧無線路由器

240‧‧‧網際網路服務

250‧‧‧資訊搜尋提供者

252‧‧‧新聞或動態內容提供者

254‧‧‧社群媒體來源

256‧‧‧購物資訊來源

258‧‧‧視頻內容來源

300‧‧‧圖形使用者介面視窗

302‧‧‧圖形使用者介面視窗

304‧‧‧標題面板

306‧‧‧顯示面板

312‧‧‧顯示面板

318‧‧‧顯示面板

310‧‧‧圖示

308‧‧‧說明

316‧‧‧圖示

314‧‧‧說明

322‧‧‧圖示

320‧‧‧說明

324‧‧‧標題

326‧‧‧關鍵術語

328‧‧‧關鍵術語

330‧‧‧關鍵術語

400‧‧‧方法

410-460‧‧‧操作

500‧‧‧方法

510-550‧‧‧操作

600‧‧‧電腦系統

602‧‧‧處理器

604‧‧‧主記憶體

606‧‧‧靜態記憶體

608‧‧‧匯流排

610‧‧‧視頻顯示單元

612‧‧‧字母數字輸入裝置

614‧‧‧UI導航裝置

616‧‧‧儲存裝置

618‧‧‧信號產生裝置

620‧‧‧網路介面裝置

622‧‧‧機器可讀儲存媒體

624‧‧‧指令

626‧‧‧網路

628‧‧‧天線

第1圖提出根據一示範實施例之使多個顯示裝置中的內容顯示能關聯於自然語言處理之系統架構的圖示；第2圖提出根據一示範實施例之用於提供內容及相關內容顯示的裝置之裝置架構的圖示；第3圖提出根據一示範實施例之配置以使用自然語言處理來為使用者提供相關內容之HTML5/JavaScript啟動的圖形使用者介面之圖示；第4圖提出繪示根據一示範實施例之用於自然語言處理多媒體資料流所提供的正文資料之方法的流程圖；第5圖提出繪示根據一示範實施例之使用自然語言所提供的內容術語來決定相關內容之方法的流程圖；及第6圖提出繪示能於其上實作一或更多實施例的示範機器之方塊圖。