TW201523421A - 決定用於擷取的文章之圖像 - Google Patents

決定用於擷取的文章之圖像 Download PDF

Info

Publication number
TW201523421A
TW201523421A TW103129203A TW103129203A TW201523421A TW 201523421 A TW201523421 A TW 201523421A TW 103129203 A TW103129203 A TW 103129203A TW 103129203 A TW103129203 A TW 103129203A TW 201523421 A TW201523421 A TW 201523421A
Authority
TW
Taiwan
Prior art keywords
image
article
title
source
content
Prior art date
Application number
TW103129203A
Other languages
English (en)
Inventor
Yu Chen
Rui-Hua Song
Guang-Ping Gao
Qian Zhang
Ming Liu
Raman Narayanan
Shelley Summer Gu
Yanti Aruswati Gouw
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/037,177 external-priority patent/US9117280B2/en
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of TW201523421A publication Critical patent/TW201523421A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F16/94Hypermedia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Transfer Between Computers (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

內容應用程式決定用於擷取的文章之圖像。內容應用程式辨認與文章內容相關之初始圖像。偵測與初始圖像相關之標題及作者/來源附註及連同標題及作者/來源附註擷取初始圖像。亦偵測與視訊相關之文章之第二圖像及連同該視訊擷取該與視訊相關之文章之第二圖像。此外,內容應用程式擷取文章內之偵測到的投影片。

Description

決定用於擷取的文章之圖像
本發明係與決定用於擷取的文章之圖像相關。
大眾透過使用者介面與電腦應用程式互動。雖然音頻、觸覺及類似形式之使用者介面係可得的,但透過顯示器裝置之視覺使用者介面仍為最常見的使用者介面形式。隨著更快的、更小的用於計算裝置之電子裝置之發展,較小尺寸之裝置(如手持電腦、智慧型手機、平板裝置及可比較裝置)已變得普遍。此類裝置執行各式各樣之應用程式(範圍自通訊應用程式至複雜的分析工具)。眾多此類應用程式透過顯示器呈現視覺效果,及讓使用者能提供與應用程式操作相關之輸入。
最近,有限顯示器尺寸之裝置已成功打入消費者市場。在某些情況下,有限目的之裝置(如平板電腦)對於媒體消費之使用已取代多用途裝置(如膝上型電腦)。轉向有限目的之裝置之另一消費者之消費模式係包含文章消費。呈現者準備帶有多個元素之文章以產生廣告收入。此類文章在為呈現者 收入來源的同時,亦提供互動內容給使用者。此外,與傳統媒體來源(如造紙生產)相較之下,額外特徵(如修改字型屬性)改善使用者互動。然而,呈現文章之應用程式無法重組文章之內容以匹配呈現文件之裝置之顯示器尺寸限制。顯示器尺寸限制可因顯示文章之小部分及強迫使用者無盡地捲動以到達所欲內容,而給使用者造成不便。涉及多個使用者動作之廣泛捲動動作可抑制當消費文章時之消費流及減少當消費文章時之使用者體驗。
提供本【發明內容】以以用簡化形式介紹精選概念,及於以下【實施方式】中進一步地描述該等精選概念。本【發明內容】不意欲專門地識別所主張之標的之關鍵特徵或必要特徵,亦不意欲用來作為幫助判定所主張之標的之範疇。
實施例係針對決定內容(如用於擷取之文章)之圖像。根據一些實施例,內容應用程式可識別與文章內容相關之圖像。偵測與圖像相關之標題及作者/來源附註。且,可擷取圖像、標題及作者/來源附註。
接下來,可偵測與視訊相關之文章之另一圖像。舉例而言,其他圖像可為視訊之螢幕擷圖。因此,可擷取其他圖像及視訊。在其他範例中,可偵測文章內之投影片。可透過連同多個隱藏圖像之代表性圖像以呈現投影片。內容應用程式可藉由使用代表性圖像以擷取投影片為樣板,及可透過樣板之利用而擷取該等隱藏圖像。
這些及其他特徵及優勢將自下述之詳細描述之閱讀 及相關圖式之檢視而為顯而易見。需要瞭解的是,上述一般之說明及下述之詳細描述兩者皆為示例性的,並不限制所主張之態樣。
100‧‧‧圖
102‧‧‧雲端代管平台
104‧‧‧裝置
106‧‧‧文章
110‧‧‧使用者
200‧‧‧圖
202‧‧‧裝置
204‧‧‧圖像
206‧‧‧標題
208‧‧‧內容文字
210‧‧‧圖像
212‧‧‧圖像
220‧‧‧文章
300‧‧‧圖
302‧‧‧裝置
304‧‧‧圖像
306‧‧‧標題
308‧‧‧作者/來源附註
312‧‧‧圖像
314‧‧‧播放控制
400‧‧‧圖
402‧‧‧裝置
404‧‧‧圖像
406‧‧‧投影片
410‧‧‧第二導航控制
510‧‧‧網路
511‧‧‧膝上型電腦
512‧‧‧平板電腦裝置
513‧‧‧智慧型手機
514‧‧‧伺服器
516‧‧‧伺服器
518‧‧‧資料庫伺服器
519‧‧‧資料庫
600‧‧‧計算裝置
602‧‧‧處理單元
604‧‧‧系統記憶體
605‧‧‧作業系統
606‧‧‧程式模組
608‧‧‧虛線
609‧‧‧可移除式儲存器
610‧‧‧不可移除是儲存器
612‧‧‧輸入裝置
614‧‧‧輸出裝置
616‧‧‧通訊連接
618‧‧‧其他裝置
622‧‧‧內容應用程式
624‧‧‧圖像擷取演算法
700‧‧‧圖
702‧‧‧已偵測主要標題及內容
704‧‧‧文章圖像擷取
706‧‧‧圖像
708‧‧‧視訊圖像偵測
710‧‧‧圖像資訊
712‧‧‧投影片偵測
714‧‧‧輸出
716‧‧‧旗標
718‧‧‧代碼
800‧‧‧程序
802‧‧‧操作
804‧‧‧操作
806‧‧‧操作
810‧‧‧操作
812‧‧‧操作
814‧‧‧操作
816‧‧‧操作
822‧‧‧操作
824‧‧‧操作
第1圖圖示根據一些實施例之決定用於擷取之文章之圖像之範例概念圖;第2圖圖示根據一些實施例之偵測文章內容內之圖像之範例;第3圖圖示根據實施例之偵測標題、作者/來源附註及與文章之圖像相關之視訊之範例;第4圖圖示根據實施例之偵測與文章相關之投影片之範例;第5圖為網路環境,其中可實施根據實施例之系統;第6圖為範例計算作業環境之方塊圖,其中可實行實施例;第7圖圖示使用各個模組而自文章擷取圖像之程序之整體檢視;及第8圖圖示根據實施例之決定用於文章擷取之文章之圖像之程序之邏輯流程圖。
如上文所簡短描述的,在偵測後可擷取與圖像相關之圖像、標題及作者/來源附註。其他擷取可包含嵌入視訊之代表性圖像及視訊內容本身、嵌入投影片之代表性圖像及投影片本身及諸如此類。
在下列詳細描述中,參考形成本說明書的一部分之附加圖式,及其中藉由圖示特定實施例或範例顯示該等參考。可結合這些態樣、可利用其他態樣,及可在沒有背離本發明之精神或範疇的情況下做結構化的變化。因此下述之詳細描述不被視為限制意義,及本發明之範疇係藉由附加之申請專利範圍及其等同物所定義。
雖然將在與執行於計算裝置上之作業系統上之應用程式一起執行之程式模組之一般環境中描述實施例,但本領域具有通常知識者將瞭解亦可結合其他程式模組實施態樣。
一般來說,程式模組包含執行特定任務或實施特定抽象資料類型之常式、程式、元件、資料結構及其他類型結構。此外,本領域具有通常知識者將瞭解可用其他電腦系統配置實行實施例,該等其他電腦系統配置包含手持裝置、多處理器系統、基於微處理器或可程式化之消費者電子裝置、迷你電腦、主機型電腦及可比較之計算裝置。實施例亦可實施於分散式計算環境中,其中藉由經由通訊網路所連接之遠端處理裝置執行任務。在分散式計算環境中,程式模組可被設置於本地端記憶體裝置及遠端記憶體裝置兩者中。
可實施實施例為電腦實施程序(方法)、計算系統或為製造物品,如電腦程式產品或電腦可讀取媒體。電腦程式產品可為可藉由電腦系統讀取及編碼包含用於使電腦或計算系統執行範例程序之指令之電腦程式之電腦儲存媒體。電腦可讀取儲存媒體為電腦可讀取記憶體裝置。舉例而言,可經由一或更多個揮發性電腦記憶體、非揮發性電腦記憶體、硬 驅動機、快閃驅動機、軟碟、或緊湊型伺服器及可比較媒體實施電腦可讀取儲存媒體。
在本篇說明書中,術語「平台」可為決定用於擷取文章之圖像之軟體元件及硬體元件之結合。平台之範例包含(但不限於)在複數個伺服器上執行之代管服務、執行在單一計算裝置上之應用程式及可比較系統。術語「伺服器」一般指稱典型地於網路環境中執行一或更多個軟體程式之計算裝置。然而,亦可實施伺服器為在網路上被視為伺服器之在一或更多個計算裝置上執行之虛擬伺服器(軟體程式)。以下提供這些技術之更多細節及範例操作。
第1圖圖示根據一些實施例之決定用於擷取之文章之圖像之範例概念圖。展示於圖100之元件及環境係為說明之目的。可於各種本地計算環境、網路計算環境、雲端計算環境及應用各種計算裝置及系統、硬體及軟體之類似計算環境中實行實施例。
裝置104可經由內容應用程式顯示文章106為使用者110之動作結果。文章可包含與文章內容相關之圖像。可基於識別包含主體部分之內容之標籤而決定內容。此外,可偵測與圖像相關之標題及作者/來源附註。標題可包含與圖像相關之文字描述。作者/來源附註可包含與使用者相關之識別資訊。可在作者/來源附註內識別圖像之建立者。此外,圖像可與視訊相關。圖像可為視訊之樣本螢幕擷圖。且,圖像可為可動作的以初始化視訊之播放動作。此外,可在包含與投影片經顯示圖像相關之多個隱藏圖像之文章內識別投影片。
裝置104可與外部資源(如雲端代管平台102)通訊,以呈現文章106。在範例情景中,裝置104可自外部來源擷取文章106。雲端代管平台102可包含遠端資源,如資料儲存庫及內容伺服器。文章106可具有多個圖像。可分析圖像以決定與文章內容的關聯,以發現用於擷取之候選者。
實施例並不限於在裝置104(如平板電腦)中實施。根據實施例,內容應用程式可為在任何能顯示應用程式之裝置中執行之本地端應用程式。作為替代的,內容應用程式可為可執行於伺服器上之代管應用程式(如網頁服務),同時經由客戶端使用者介面(如網頁遊覽器)顯示應用程式內容。除了可觸控裝置104外,亦可經由其他輸入機制而完成與圖像之互動,該等其他輸入機制如光學手勢捕捉、陀螺儀輸入裝置、滑鼠、鍵盤、眼球追蹤輸入及可比較之基於軟體及/或硬體之技術。
第2圖圖示根據一些實施例之偵測文章內容內之圖像之範例。圖200顯示裝置202(如平板電腦)內之內容應用程式。內容應用程式可顯示具有多個包含圖像及文字之元素之文章220。
可識別圖像204以存在於文章220之內容內,以回應在文章220內之預先定義位置處偵測圖像204。此外,亦可偵測圖像以具有在預先定義範圍內之尺寸。若可決定圖像之位置係在標題206前、在標題206及內容文字208之間及在內容文字208內,則可識別圖像以存在於內容內。可經由相關超文本標記語言(HTML)標籤識別標題206及內容文字208。
在擷取標題206及內容文字208後,相較於標題206 及內容文字208,內容應用程式可決定圖像204之<IMG>標籤之相對位置。文章220可解釋為文件串流。因文件串流內之HTML標籤之順序可決定文章內之標籤之相對位置,故可分析該等文件串流內之HTML標籤之順序。為決定順序,可剖析文章之來源碼至文件物件模型(DOM)樹。來源碼內之標籤皆被指派到一個來源索引。可透過來源索引決定順序,該來源索引可代表文件串流內所出現之標籤之順序。
此外,可藉由分析圖像204及將圖像204之尺寸分類為三種類別而決定圖像204之大小。舉例而言,類別可包含大圖像、中圖像及縮圖。當圖像204之寬度可能大於或等於包含400像素之第一預定決定值時,大圖像類別可被決定。此外,大圖像類別可能在預先決定之範圍之寬度高度比內,該寬度高度比包含1/3至3。當圖像204之寬度可能小於包含400像素之第一預定決定值且同時寬度及高度兩者大於包含120像素之第二預先決定寬度值時,中圖像類別可被決定。當另一圖像(210及212)之寬度及/或高度小於包含120像素之第三預先決定值時,縮圖類別可被決定。
根據一些範例實施例,400像素到600像素之範圍可包含與內容文字208相關之欄寬度範圍。因此,400像素之圖像寬度或高度可吸引使用者的注意。當寬度高度比大於3時,可決定圖像為廣告。當寬度高度比小於1/3時,圖像可佔據螢幕之高度。亦可決定帶有小於1/3之寬度高度比之圖像為廣告。
具有中圖像類別之圖像可在內容文字208之左側或 右側浮動。經識別為中圖像類別之圖像可被擷取,或不基於系統或使用者選擇。此外,縮圖類別可代表至相關內容之連結。具有縮圖類別之圖像可不被識別為與內容相關。因此,不擷取帶有縮圖類別之圖像。
第3圖圖示根據實施例之偵測與文章之圖像相關之標題、作者/來源附註及視訊之範例。圖300以帶有標題306及作者/來源附註308之第一圖像304、及相關於視訊之第二圖像312而展示呈現文章之裝置302。
根據一些實施例,可連同圖像擷取相關於圖像之標題及作者/來源附註。可用封裝第一圖像304、相關標題306及作者/來源附註308之HTML標籤構成文章。經標籤圖像之範例可包含:
範例經標籤之標題及作者/來源附註可包含: <div class=exampleInlineRight”>
<!--startclickprintexclude -->
<div class=”exampleInlineT1Image”>
<div class=”exampleInlineT1Caption”>
<div class=”exampleInlineT1Credit”>
<!--endclickprintexclude -->
<!--startclickprintexclude -->
<div class=exampleInlineRail example300”>
內容應用程式可藉由分析文章中之DOM樹中之標籤(自<IMG>標籤開始及跟隨該<IMG>標籤之DOM樹中之父連結),而偵測標題306及作者/來源附註308。內容應用程式可不分析<IMG>標籤。可為每個經分析標籤定位三個子標籤 T0、T1及T2。內容應用程式可決定T0以包含可見內容,該可見內容包含聚焦之<IMG>標籤。可決定T1及T2以包含立即跟隨T0之可見內容。因眾多圖像可不包含作者/來源附註,故T2可為可選的。
內容應用程式亦可分析T0、T1及T2之可見內容。若T0包含文字,或T1及T2包含圖像,則可標記圖像為不具有標題或不具有作者/來源附註。若決定T1及/或T2之類別名稱(class name)或識別字(id)包含「標題」及/或「作者/來源」,則可設定T1及/或T2標籤為相關於圖像之標題及/或作者/來源附註。作為替代的,可反轉T1及T2之順序;T2可被決定為包含標題,及T1可被決定為包含作者/來源附註。此外,若T0、T1及T2為父標籤之僅有的三個可見子標籤,且T1及T 2之可見內容之長度可能被決定為不超過預先決定之長度,則T1及T2可被指派為相關圖像之標題及作者/來源附註。
根據其他實施例,第二圖像312可為視訊之螢幕擷圖。為回應使用者在第二圖像312上之動作,內容應用程式可播放相關視訊。呈現文章之主要元素之文章之核心呈現可能無法播放視訊。因此,拋棄或忽略視訊之螢幕擷圖圖像(如第二圖像312)可能為較佳的。
視訊偵測方案之挑戰可包含在使用者在第二圖像312上之動作後,透過腳本語言被加入至DOM樹之<OBJECT>或<VIDEO>標籤之增加。因此,在插入至DOM樹前,搜尋<OBJECT>及<VIDEO>樹可能為不可能的。可在圖像標籤之類 別名稱或識別字(id)中或在用於第二圖像312之其之祖先之一者中,偵測「視訊」之標記(label)。可使用標記以偵測與第二圖像312相關之視訊。
此外,可使用播放控制314以偵測與第二圖像312相關之視訊。可透過封裝播放控制314之<DIV>標籤識別播放控制314。在第二圖像312之中心處,亦可透過該播放控制314之位置識別播放控制。此外,可透過與播放控制314相關之內部文字元素、id元素或類別名稱內所發現之文字「播放」而識別播放控制314。因此,若可決定第二圖像具有帶有經識別為播放控制314子標籤之祖先標籤,則第二圖像312可被識別為與視訊相關。
第4圖圖示根據實施例之偵測與文章相關之投影片之範例。圖400顯示展示圖像之投影片406之裝置402。
投影片406可為機制,以在有限空間中圖示說明多個圖像。投影片406可在隱藏其他圖像的同時而展示圖像404。為回應使用者在第二導航控制410上之動作,內容應用程式可使用嵌入腳本轉換至另一圖像。
在擷取與投影片406相關之圖像404的同時,內容應用程式可定位隱藏圖像。隱藏圖像可使該等隱藏圖像自身之寬度或高度設定為0。因此,可不使用文章內容識別隱藏圖像。此外,因標題偵測可能忽略看不見的標籤以過濾非所欲的元素,故可能會錯過與隱藏圖像相關之標題。
為擷取投影片406,可使用圖像404為樣板,以定位隱藏圖像及該等隱藏圖像之標題。偵測及擷取投影片406 之操作可包含以下操作:1.以圖像404(及相關標題及作者/來源附註)開始,及跟隨文章之來源碼之DOM樹中之父連結,以檢驗圖像404之祖先標籤,以決定投影片406;2.若與祖先標籤相關之寬度及高度可大於預先決定因子(該預先決定因子包含1.5倍圖像404之寬度或高度),則決定沒有與圖像404相關之投影片;3.否則,基於祖先標籤之子標籤之子DOM樹之形狀,集群該等祖先標籤之子標籤;4.計算用於該等群集中之一者之共同類別名稱;5.定位群集,即:C0,該C0包含DOM樹內之圖像404。發現與DOM樹內之C0共享該共同類別名稱之其他群集;6.在C0中及與C0共享該共同類別名稱之群集中合併標籤,7.若群集之經合併集合被決定為包含超過1個標籤,則決定該經合併集合為投影片406。否則決定圖像404為孤立圖像;及8.若偵測到投影片406,則在對比包含圖像404之標籤之子DOM樹之經合併集合中執行隱藏標籤之子DOM樹之配置。且,配置之使用及結果定位與隱藏圖像相關之標題及作者/來源附註,該等隱藏圖像係與隱藏標籤相關。
在步驟8之中,可應用樹配置演算法以定位隱藏圖像之標題及作者/來源附註。樹配置演算法可包含帶有兩限制之最大共同子圖問題之獨特情況。限制可包含1)若兩節點共 享相同標籤名稱,則可匹配該等兩節點;2)若可匹配兩節點之父節點,則可匹配該等兩節點。遞迴演算法可提供最佳配置效率,該遞迴演算法之範例可包含: 以特定元件、資料類型及配置顯示第2圖至第4圖之範例情景及方案。實施例並不限於根據這些範例配置之系統。可在採用較少應用程式及使用者介面之元件或採用額外之應用程式及使用者介面之元件之配置中,實施決定用於擷 取之文章之圖像。此外,可用使用本文所述之原則之其他值之類似方式實施展示於第2圖至第4圖之範例方案及元件及其子元件。
第5圖為網路環境,其中可實施根據實施例之系統。可藉由一或更多個伺服器514或如代管服務之單一伺服器(例如,網頁伺服器)516提供本地及遠端資源。應用程式可在如智慧型手機513、平板電腦裝置512或膝上型電腦511(「客戶端裝置」)之個別計算裝置上執行,及可經由網路510取回用來顯示之文章。
如上所討論的,可識別及擷取文章之圖像。亦可擷取與圖像相關之標題及作者/來源附註。可識別及擷取與視訊相關之另一圖像及視訊。此外,可識別及擷取文章內之投影片。客戶端裝置511-513可如先前所討論的,讓存取執行在遠端伺服器(例如,伺服器514中之一者)上之應用程式為可能。伺服器可直接地或經由資料庫伺服器518而自資料庫519取回相關資料或儲存相關資料至資料庫519。
網路510可包含伺服器、客戶端、網路服務提供者、及通訊媒體之任何拓樸。根據實施例之系統可具有靜態或動態拓樸。網路510可包含如企業網路之安全網路及如無線開放網路或網際網路之不安全網路。網路510亦可在如公用交換電話網路(PSTN)或蜂巢網路之其他網路上協調通訊。此外,網路510可包含如藍牙或諸如此類之較短距離的無線網路。網路510提供本文所描述之節點間的通訊。舉例而言(非限制),網路510可包含無線媒體,如聲音、RF、紅外線及其 他無線媒體。
可應用計算裝置、應用程式、資料來源及資料分配系統之眾多其他配置以決定用於擷取之文章之圖像。此外,如第5圖所討論之網路環境僅為圖示說明之目的。實施例並不限於範例應用程式、模組或程序。
第6圖及相關討論係傾向提供可實行實施例之合適計算環境之簡短的及一般的描述。參考第6圖,圖示用於根據實施例之應用之範例計算作業環境之方塊圖,如計算裝置600。在基本配置中,計算裝置600可包含至少一處理單元602及系統記憶體604。計算裝置600亦可包含在執行程式中協作之複數個處理單元。取決於計算裝置之確切配置及類型,系統記憶體604可為揮發性的(如RAM)、非揮發性的(如ROM、快閃記憶體等)或兩者之一些結合。系統記憶體604典型地包含適合控制平台之操作之作業系統605,如來自華盛頓州雷德蒙德之微軟公司之WINDOWS ®作業系統及WINDOWS PHONE ®作業系統。系統記憶體604亦可包含一或更多個軟體應用程式,如程式模組606、內容應用程式622及圖像擷取演算法624。
內容應用程式622可識別與文章內容相關之第一圖像,及偵測與文章相關之標題及作者/來源附註。圖像擷取演算法624可擷取第一圖像、標題及作者/來源附註。內容應用程式622亦可偵測與圖像相關之文章之第二圖像。可藉由圖像擷取演算法624擷取第二圖像及視訊。此外,可藉由內容應用程式622偵測文章內之投影片,及可藉由裝置600所執 行之圖像擷取演算法624擷取該文章內之投影片。藉由那些在虛線608內之元件圖示此基本配置於第6圖中。
計算裝置600可具有額外特徵或功能。舉例而言,計算裝置600亦可包含額外資料儲存裝置(可移除的及/或不可移除的),舉例而言如磁碟、光碟或磁帶。藉由可移除式儲存器609及不可移除式儲存器610圖示此類額外儲存器於第6圖中。電腦可讀取儲存媒體可包含以用於資訊儲存之任何方法或技術實施之揮發性及非揮發性、可移除式及不可移除式媒體,該資訊如電腦可讀取指令、資料結構、程式模組或其他資料。電腦可讀取儲存媒體為電腦可讀取記憶體裝置。系統記憶體604、可移除式儲存器609及不可移除式儲存器610為電腦可讀取儲存媒體之所有範例。電腦可讀取儲存媒體包含(但不限於)RAM、ROM、EEPROM、快閃記憶體或其他記憶體技術、CD-ROM、數位多功能光碟(DVD)或其他光學儲存器、磁性磁帶、磁帶、磁碟儲存器或其他磁性儲存裝置,或可用來儲存所欲資訊及可由計算裝置600存取之任何其他媒體。任何此類電腦可讀取儲存媒體可為計算裝置600之部分。計算裝置600亦可包含輸入裝置612,如鍵盤、滑鼠、筆、聲音輸入裝置、觸控輸入裝置及可比較之輸入裝置。亦可包含輸出裝置614如顯示器、揚聲器、印表機,及其他類型之輸出裝置。這些裝置在本領域中眾所皆知,而不需於本文中詳細討論。
計算裝置600亦可包含允許裝置與其他裝置618通訊之通訊連接616,如在分散式計算環境中之無線網路上、衛 星連結、蜂巢連結及可比較機制。其他裝置618可包含執行通訊應用程式之電腦裝置、儲存伺服器、及可比較裝置。通訊連接616為通訊媒體之一範例。通訊媒體可包含在其中之電腦可讀取指令、資料結構、程式模組或調變資料信號中之其他資料(如載波或其他傳輸機制),及包含任何資訊傳輸媒體。術語「調變資料信號」意味具有一或更多個信號本身特性集合或以關於編碼信號中資訊之此類方式變化之信號。舉例而言(但不限於),通訊媒體包含有線媒體(如有線網路或直接有線連接)及無線媒體(如聲音、RF、紅外線及其他無線媒體)。
範例實施例亦包含方法。可用包含本文所描述之結構之任何數目的方式實施這些方法。一種此類方法係藉由本文所描述之裝置類型之機器操作。
另一個可選的方式係用於要與執行一些操作之一或更多個人類作業員一起被執行之方法之一或更多個個別操作。人類作業員不需彼此位於同處;每個人類作業員可僅與執行部份程式之機器在一起。
第7圖圖示使用各個模組而自文章擷取圖像之程序之整體檢視。如圖700所展示的,可用DOM樹開始擷取,及提供已偵測主要標題及內容702至文章圖像擷取模組704。
根據一些實施例,可使用文章圖像擷取模組704以擷取有效區域中之所有圖像候選者。之後,對每個候選者來說,可發現標題及作者/來源附註(如果有的話)。在相同時間處,可將圖像分類至一些類別。基於標題偵測及分類結果, 可決定圖像候選者是否為根據預先定義規則之文章圖像。輸出可為圖像706、標題及作者/來源附註之陣列。每一圖像資訊710可為如圖700所展示之一段代碼718。
可使用可選的投影片偵測模組712(因一些應用程式可能不會顯示投影片)以基於文章圖像擷取模組704之結果而偵測投影片,及擷取投影片。投影片偵測模組712可將一些文章圖像分組,或發現來自DOM樹702之額外隱藏圖像。投影片偵測模組712之輸出714可為兩維陣列。在主要陣列中,每一元素可為文章圖像或為圖像陣列(因偵測其為投影片)。
在一些實施例中,因在一些情景中,可顯示視訊之英雄圖像(hero image);反之在其他情景中,若圖像與視訊相關,則可能想要移除該圖像,故可使用可選的視訊圖像偵測模組708。可應用視訊圖像偵測模組708至任何文章圖像;但因投影片中之圖像可能很少與視訊相關,故不應用該視訊圖像偵測模組708至投影片中之圖像。視訊偵測模組708之輸出可設定名稱為「is_video」之旗標716。之後,應用程式可決定如何使用結果。
第8圖圖示根據實施例之決定用於擷取之文章之圖像之程序之邏輯流程圖。在一些範例中,可藉由內容應用程式實施程序800。
程序800可用操作804開始,其中內容應用程式可接收DOM樹及已偵測標題及內容802,及設定用於搜尋文章圖像之區域。一旦在區域中發現圖像候選者(806),則可立即對每個候選者執行迭代程序810。對每個候選者而言,如果有 標題及作者/來源附註的話,可發現標題及作者/來源附註(812);及,可分類圖像候選者(814)。之後,在決定操作816處決定圖像候選者是否為文章圖像。若決定圖像候選者為文章圖像,則可新增(822)與圖像候選者相關之資訊至圖像資訊陣列822中。
可在包含通訊模組、記憶體及處理器之計算裝置中實行一些實施例,其中處理器與儲存於記憶體中之指令一起執行如上文所述之方法或可比較之方法。可實行其他實施例為帶有儲存於其上之指令之電腦可讀取儲存媒體,該等指令係用於執行如上文所述之方法或可比較之方法。
包含於程序700中之操作係為圖示說明之目的。可藉由帶有較少或額外步驟之相似程序及不同順序之使用本文所描述之原則之操作,而實施根據實施例之決定用於擷取之文章之圖像。
上述說明書、範例及資料提供實施例之組成之製造及使用之完整描述。雖然已用特定至結構特徵及/或方法行為之語言描述標的,但需瞭解的是在附加申請專利範圍中所定義的標的不需要被限制於上文所描述之特定特徵或行為。更確切的說,上文所描述之特定特徵及行為係被揭露為實施申請專利範圍及實施例之範例形式。
700‧‧‧圖
702‧‧‧已偵測主要標題及內容
704‧‧‧文章圖像擷取
706‧‧‧圖像
708‧‧‧視訊圖像偵測
710‧‧‧圖像資訊
712‧‧‧投影片偵測
714‧‧‧輸出
716‧‧‧旗標
718‧‧‧代碼

Claims (20)

  1. 一種執行在一計算裝置上之用於決定用於一擷取之一文章之圖像之方法,該方法包括以下步驟:識別與該文章之一內容相關之一第一圖像;偵測與該第一圖像相關之一標題及一作者/來源附註;擷取該第一圖像、該標題及該作者/來源附註;偵測與一嵌入視訊相關之該文章之一第二圖像;擷取該第二圖像及該視訊;偵測該文章內之一投影片;及擷取該投影片。
  2. 如請求項1所述之方法,進一步包括以下步驟:透過相關標籤識別該文章之一標題及一內容文字。
  3. 如請求項2所述之方法,進一步包括以下步驟:藉由偵測該文章內之該第一圖像之一位置,識別該第一圖像,該位置包括以下各者之至少一者:在該標題前面,在該標題及該內容文字間,及在該內容文字內。
  4. 如請求項3所述之方法,進一步包括以下步驟:剖析該文章之一來源碼至一文件物件模型(DOM)樹;該來源碼內之每一標籤皆被指派到一來源索引; 自每一標籤之該來源索引而決定該等標籤之順序;藉由分析該文章內之標籤之該順序,而決定該等標籤之相對位置,及解釋該文章為一文件串流;及藉由比較該圖像之一第一標籤之一相對位置、該標題之一第二標籤之相對位置及該內容文字之一第三標籤,決定該第一圖像之該位置。
  5. 如請求項1所述之方法,進一步包括以下步驟:分類一經分析圖像至一類別,該類別包含以下之一者:一大圖像類別、一中圖像類別及一縮圖類別,其中:該大圖像類別包含該第一圖像之一寬度大於或等於一第一預先決定值;該中圖像類別包含該第一圖像之該寬度小於該第一預先決定值,及該第一圖像之該寬度及一高度大於一第二預先決定值;及該縮圖類別包含該第一圖像之該高度小於一第三預先決定值。
  6. 如請求項5所述之方法,進一步包括以下步驟:自該等經分析圖像中識別該第一圖像為至少下列一者:該大圖像類別及該中圖像類別。
  7. 如請求項6所述之方法,進一步包括以下步驟:拋棄該縮圖類別中之該經分析圖像。
  8. 如請求項1所述之方法,進一步包括以下步驟:藉由分析從該第一圖像之一標籤開始之該文章之一來源碼之一文件物件模型(DOM)樹內之該文章之標籤,而偵測該標題及該作者/來源附註;及在該DOM樹內定位包含T0、T1及T2之三個子標籤。
  9. 如請求項8所述之方法,進一步包括以下步驟:決定T1、T1及T2以包含可見內容;分析T0、T1及T2之該可見內容;回應決定以下各者之至少一者:T1及T2之該可見內容之一類別名稱及一識別字,以包含以下各者之至少一者:一「標題」及一「作者/來源」,指派以下各者之至少一者:指派T1為該標題及指派T2為該作者/來源附註;回應決定T1之該可見內容之一長度及T2之該可見內容之一長度皆不超過一預先決定之長度,指派以下各者之至少一者:指派T1為該標題及指派T2為該作者/來源附註。
  10. 如請求項1所述之方法,進一步包括以下步驟:透過以下各者之至少一者:「視訊」之一標記、一類別名稱及該第二圖像之一標籤之一識別字,而偵測與該第二圖像相關之該視訊。
  11. 如請求項10所述之方法,進一步包括以下步驟: 排除該第二圖像,以回應決定呈現該文章之主要元素之該文章之一核心呈現無法播放該視訊。
  12. 一種決定用於一擷取之一文章之圖像之計算裝置,該計算裝置包括:一記憶體,該記憶體經配置以儲存指令;及一處理器,該處理器耦合至該記憶體,執行一內容應用程式之該處理器連同儲存於該記憶體中之該等指令,其中該應用程式經配置以:透過相關標籤識別該文章之一標題及一內容文字;藉由偵測該文章內之該第一圖像之一位置識別與該文章之一內容相關之一第一圖像,該位置包括以下各者之至少一者:在該標題前面,在該標題及該內容文字間,及在該內容文字內;偵測與該第一圖像相關之一標題及一作者/來源附註;擷取該第一圖像、該標題及該作者/來源附註;偵測與一嵌入視訊相關之該文章之一第二圖像;擷取該第二圖像及該視訊;偵測該文章內之一投影片;及擷取該投影片。
  13. 如請求項12所述之計算裝置,其中該應用程式經更進一步配置以:跟隨該文章之一來源碼之一文件物件模型(DOM)樹中之 一父連結,而檢驗一第三圖像之一祖先標籤,以偵測該投影片。
  14. 如請求項13所述之計算裝置,其中該應用程式經更進一步配置以:回應決定與該祖先標籤相關之一第一高度及一第一寬度大於該第三圖像之一第二寬度及一第二高度之一預先決定因子,而決定沒有與該第三圖像相關之投影片;及回應決定與該祖先標籤相關之該第一高度及該第一寬度小於或等於該第三圖像之該第二寬度及該第二高度之該預先決定因子,而基於一相關子DOM樹之形狀,集群該祖先標籤之子標籤。
  15. 如請求項14所述之計算裝置,其中該應用程式經更進一步配置以:決定用於一第一群集之一共同類別名稱;在該DOM樹內定位該第一群集,及發現與該第一群集共享該共同類別名稱之一第二群集;及合併該第一群集及該第二群集至使用相關標籤之一第三群集。
  16. 如請求項15所述之計算裝置,其中該應用程式經更進一步配置以:決定該第三群集為該投影片,以回應決定該第三群集包 含超過一個標籤;及決定該第三圖像為一孤立圖像,以回應決定該第三群集未包含標籤。
  17. 如請求項16所述之計算裝置,其中該應用程式經更進一步配置以:回應偵測到該投影片,對比該第三圖像之一子DOM樹,執行該第三群集之一隱藏標籤之另一子DOM樹之一配置;及使用該配置之一結果,以定位與該隱藏標籤相關之一隱藏圖像之另一標題及另一作者/來源附註。
  18. 一種帶有儲存於其上之指令之決定用於一擷取之一文章之圖像之電腦可讀取記憶體裝置,該等指令包含以下指令:透過相關標籤識別該文章之一標題及一內容文字;藉由偵測該文章內之該第一圖像之一位置識別與該文章之一內容相關之一第一圖像,該位置包括以下各者之至少一者:在該標題前面,在該標題及該內容文字間,及在該內容文字內;偵測與該第一圖像相關之一標題及一作者/來源附註;藉由分析從該第一圖像之一標籤開始之該文章之一來源碼之一文件物件模型(DOM)樹內之該文章之標籤,而偵測該標題及該作者/來源附註;擷取該第一圖像、該標題及該作者/來源附註;偵測與一嵌入視訊相關之該文章之一第二圖像; 擷取該第二圖像及該視訊;偵測該文章內之一投影片;及擷取該投影片。
  19. 如請求項18所述之電腦可讀取記憶體裝置,其中該等指令更包含以下指令:在該DOM樹內定位包含T0、T1及T2之三個子標籤;決定T0、T1及T2以包含可見內容;分析T0、T1及T2之該可見內容;及回應決定以下各者之至少一者:T1及T2之該可見內容之一類別名稱及一識別字,以包含以下各者之至少一者:一「標題」及一「作者/來源」,指派以下各者之至少一者:指派T1為該標題及指派T2為該作者/來源附註。
  20. 如請求項18所述之電腦可讀取記憶體裝置,其中該等指令更包含以下指令:透過以下各者之至少一者:「視訊」之一標記、一類別名稱及該第二圖像之一標籤之一識別字,而偵測與該第二圖像相關之該視訊;及忽略該第二圖像,以回應決定呈現該文章之主要元素之該文章之一核心呈現無法播放該視訊。
TW103129203A 2013-09-25 2014-08-25 決定用於擷取的文章之圖像 TW201523421A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US14/037,177 US9117280B2 (en) 2013-08-29 2013-09-25 Determining images of article for extraction

Publications (1)

Publication Number Publication Date
TW201523421A true TW201523421A (zh) 2015-06-16

Family

ID=51663504

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103129203A TW201523421A (zh) 2013-09-25 2014-08-25 決定用於擷取的文章之圖像

Country Status (4)

Country Link
US (1) US20150331886A1 (zh)
AR (1) AR097695A1 (zh)
TW (1) TW201523421A (zh)
WO (1) WO2015047921A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6019798B2 (ja) * 2012-06-22 2016-11-02 ソニー株式会社 情報処理装置、情報処理システム及び情報処理方法
US11169666B1 (en) 2014-05-22 2021-11-09 Amazon Technologies, Inc. Distributed content browsing system using transferred hardware-independent graphics commands
KR102407630B1 (ko) * 2015-09-08 2022-06-10 삼성전자주식회사 서버, 사용자 단말 및 이들의 제어 방법.
US10943056B1 (en) * 2019-04-22 2021-03-09 Relativity Oda Llc System and method for identifying location of content within an electronic document

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013010031A1 (en) * 2011-07-12 2013-01-17 Facebook, Inc. Media recorder

Also Published As

Publication number Publication date
WO2015047921A1 (en) 2015-04-02
AR097695A1 (es) 2016-04-06
US20150331886A1 (en) 2015-11-19

Similar Documents

Publication Publication Date Title
US9230356B2 (en) Document collaboration effects
RU2662632C2 (ru) Представление документов фиксированного формата в формате с измененной компоновкой
US9582494B2 (en) Object extraction from presentation-oriented documents using a semantic and spatial approach
US20160026858A1 (en) Image based search to identify objects in documents
US20140164900A1 (en) Appending content with annotation
TW201514845A (zh) 從網頁擷取標題及主體
De Boer et al. DIVE into the event-based browsing of linked historical media
US20130159830A1 (en) Smart Text in Document Chat
US10650814B2 (en) Interactive question-answering apparatus and method thereof
TW201523421A (zh) 決定用於擷取的文章之圖像
TWI609280B (zh) 在電子閱讀器環境中基於內容及物件元資料的搜尋
US11003830B2 (en) Providing location-based font recommendations
US20150058710A1 (en) Navigating fixed format document in e-reader application
US10558861B2 (en) Supplementing a media stream with additional information
US20160026613A1 (en) Processing image to identify object for insertion into document
US20180330156A1 (en) Detection of caption elements in documents
US9117280B2 (en) Determining images of article for extraction
US10331426B1 (en) Systems and methods of diagram transformation
US20150095751A1 (en) Employing page links to merge pages of articles
CN117370631A (zh) 数据处理方法、装置、电子设备、存储介质及程序产品
TWI353591B (en) Image accessing device and accessing method thereo
US20160139783A1 (en) Detecting sidebar in document