TWI598753B - Web page display method and web page display device based on graphic processing - Google Patents

Web page display method and web page display device based on graphic processing Download PDF

Info

Publication number
TWI598753B
TWI598753B TW102145136A TW102145136A TWI598753B TW I598753 B TWI598753 B TW I598753B TW 102145136 A TW102145136 A TW 102145136A TW 102145136 A TW102145136 A TW 102145136A TW I598753 B TWI598753 B TW I598753B
Authority
TW
Taiwan
Prior art keywords
text
webpage
picture
block
text block
Prior art date
Application number
TW102145136A
Other languages
English (en)
Other versions
TW201502819A (zh
Inventor
Jun-Wen Chen
Jun-Jun Pan
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201502819A publication Critical patent/TW201502819A/zh
Application granted granted Critical
Publication of TWI598753B publication Critical patent/TWI598753B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Description

基於圖形化處理的網頁展示方法及網頁展示裝置
本發明涉及網路資訊處理領域,具體地說,涉及一種基於圖形化處理的網頁展示方法及網頁展示裝置。
在網際網路的時代,資訊如同大海般沒有邊際。甚至我們獲取資訊的方法已經發生改變:從傳統的翻書查字典,繼而變成透過搜尋引擎進行檢索。我們從資訊匱乏的時代一下子走到了資訊極大豐富的今天。
在今天,困擾我們的問題不是資訊太少,而是太多,資訊多得讓你無從分辨,無從選擇。因此,很早現有技術中就提供一個能夠自動在網際網路上抓取資料,並可以自動分類、分析。採用自動識別關鍵字技術,將你需要的資訊從海量的資訊中篩選出來。
對於現有技術中,所謂網頁資料抓取,即透過網路爬蟲等工具獲取網頁的資料,然後透過程式分析,將有用的資料提取分離出來。現有搜尋引擎工作的一部分就是網頁資料抽取。比如:編制程式抽取新浪網新聞頻道裡的這個新聞的標題就是一種網頁資料抽取。
相反的現在很多公司都在防止自己的網上資訊被別人所獲取,即為了防止別的單位或個人透過網頁資料抓取技術獲得有未經授權的資料。例如:一些公司的產品部門發現自己公司的網站上認證的工商營業執照資訊在某些網站上也有展示,推斷是透過網路爬蟲等工具爬取的,這種非法獲取別人資訊,沒有取得授權人或權利人同意的情況下爬取的資訊都是非法的。然而權利人為了公開其身份合法性又不得不公開這些資訊在網路上。
因此,為避免在網路上公開信息被網路爬蟲等工具爬取到,一些網站採取了將文字圖形化的方式進行處理,來避免自己網站上的公開信息被網路爬蟲等工具爬取到裡面的內容。
然而,上述方式帶來的一個缺點,就是當一個頁面有非常多這類“文字圖片”需要展示的時候,任何一款瀏覽器都需要發送很多http請求用來展示圖片(每張圖片一個請求),會非常影響頁面展示的前端性能。
綜上所述,如何解決目前透過文字圖形化方式在網路上公開的資訊不容易被網路爬蟲等工具爬取,但同時採用文字圖形化又容易造成瀏覽器對含有多圖片的頁面展示速度過慢,便成為極待解決的技術問題。
有鑑於此,本發明所要解決的技術問題是提供了一種基於圖形化處理的網頁展示方法及網頁展示裝置,以解決 目前透過文字圖形化方式在網路上公開的資訊不容易被網路爬蟲等工具爬取,但採用文字圖形化又容易造成瀏覽器對含有多圖片的頁面展示速度過慢的問題。
為了解決上述技術問題,本發明公開了一種基於圖形化處理的網頁展示方法,包括:對網頁中需要基於圖形化處理的文字資訊進行預處理,其中,所述預處理,包括:設置顯示框架並根據所述顯示框架將所述文字資訊分割為文字塊;創建一圖片並產生所述圖片中每個文字塊的位置描述,根據所述位置描述將相應的文字塊填充到所述圖片中,儲存填充後的圖片並產生所述圖片的調用位址;將所述圖片的調用位址和所述圖片中每個文字塊的位置描述對應地儲存為所述網頁的中繼資料;當接收到所述網頁的訪問請求時,調用所述網頁的中繼資料,根據所述網頁的中繼資料中的調用位址載入所述圖片,並根據所述網頁的中繼資料中的位置描述從所述圖片中拾取相應的文字塊顯示在所述網頁中的相應顯示位置。
進一步地,設置顯示框架的操作,進一步包括:識別所述網頁中文字資訊的顯示位置,並根據所述顯示位置的寬度設定所述顯示框架的最大行寬,所述顯示框架的高度自我調整地與所分割的文字資訊的單行的行高匹配。
進一步地,所述預處理的操作中,分割得到的文字塊的行寬小於等於所述最大行寬且所述文字塊的高度等於所 分割的文字資訊的單行的行高。
進一步地,所述預處理,還包括:獲取每個文字塊中的文字樣式,根據每個文字塊中的文字樣式計算每個文字塊的尺寸,識別高度最高的文字塊,選定所述文字塊的高度的整數分之一為門檻,根據所述門檻及各個文字塊的高度將各個文字塊分組。
進一步地,所述預處理,還包括:結合每個文字塊的尺寸和相應文字塊的分組設置各個文字塊的拼接組合,並根據所述拼接組合配置用於容納所有文字塊的圖片的尺寸。
進一步地,創建一圖片的操作,進一步包括:根據所配置的用於容納所有文字塊的圖片的尺寸創建所述圖片。
進一步地,產生所述圖片中每個文字塊的位置描述的操作,進一步包括:根據所述圖片的尺寸、各個文字塊的拼接組合和每個文字塊的尺寸,定位每個文字塊在所述圖片中的邊界,並根據每個文字塊的邊界產生每個文字塊的位置描述。
進一步地,所述文字樣式,包括以下一種或多種的組合:字體、字型大小、行高、是否粗體、是否斜體、顏色字體、背景顏色。
還公開了一種基於圖形化處理的網頁展示裝置,包括:依次相連的文字處理模組、圖片產生模組、儲存控制模組和網頁展示模組;其中,所述文字處理模組,用於對網頁中需要基於圖形化處 理的文字資訊進行預處理,其中,所述預處理,包括:設置顯示框架並根據所述顯示框架將所述文字資訊分割為文字塊;所述圖片產生模組,用於創建一圖片並產生所述圖片中每個文字塊的位置描述,根據所述位置描述將相應的文字塊填充到所述圖片中,儲存填充後的圖片並產生所述圖片的調用位址;所述儲存控制模組,用於將所述圖片的調用位址和所述圖片中每個文字塊的位置描述對應地儲存為所述網頁的中繼資料;所述網頁展示模組,用於當接收到所述網頁的訪問請求時,調用所述網頁的中繼資料,根據所述網頁的中繼資料中的調用位址載入所述圖片,並根據所述網頁的中繼資料中的位置描述從所述圖片中拾取相應的文字塊顯示在所述網頁中的相應顯示位置。
進一步地,所述文字處理模組,進一步用於識別所述網頁中文字資訊的顯示位置,並根據所述顯示位置的寬度設定所述顯示框架的最大行寬,所述顯示框架的高度自我調整地與所分割的文字資訊的單行的行高匹配。
進一步地,所述文字處理模組,所分割得到的文字塊的行寬小於等於所述最大行寬且所述文字塊的高度等於所分割的文字資訊的單行的行高。
進一步地,所述文字處理模組,還用於獲取每個文字塊中的文字樣式,根據每個文字塊中的文字樣式計算每個 文字塊的尺寸,識別高度最高的文字塊,選定所述文字塊的高度的整數分之一為門檻,根據所述門檻及各個文字塊的高度將各個文字塊分組。
進一步地,所述文字處理模組,還用於結合每個文字塊的尺寸和相應文字塊的分組設置各個文字塊的拼接組合,並根據所述拼接組合配置用於容納所有文字塊的圖片的尺寸。
進一步地,所述圖片產生模組,進一步用於根據所述文字處理模組所配置的用於容納所有文字塊的圖片的尺寸創建所述圖片。
進一步地,所述圖片產生模組,進一步用於根據所述圖片的尺寸、各個文字塊的拼接組合和每個文字塊的尺寸,定位每個文字塊在所述圖片中的邊界,並根據每個文字塊的邊界產生每個文字塊的位置描述。
進一步地,所述文字處理模組,所獲取的所述文字樣式,包括以下一種或多種的組合:字體、字型大小、行高、是否粗體、是否斜體、顏色字體、背景顏色。
目前防爬取的技術主要還是透過把文字在伺服器端產生多個不同的圖片在網站上展示,這樣可以用來遮罩掉一些比較低級的爬蟲,但本發明與現有的方案相比,本發明所獲得的技術效果:
1)本發明透過採用文字圖形化方式在網路上公開的資訊不容易被網路爬蟲等工具爬取,同時可以確保了在瀏覽器訪問含有多圖片的頁面時的展示速度。
2)將具有自然語義的文字資訊分割成文字塊,但是與文字資訊的自然語義無關,所述文字塊的尺寸是由網頁上的顯示位置決定的,有利於圖片的填充儲存以及利於由圖片中拾取顯示。
3)將很多不規則大小的文字塊聚集在一個圖片中往往會使圖片比較大,本發明透過分組等操作不規則的文字塊盡可能緊湊的聚集在一個比較小的區域內,將圖片填充的利用率最大化,節省了伺服器儲存空間,同時也節約了用戶端下載量。
當然,實施本發明的任一產品必不一定需要同時達到以上所述的所有技術效果。
401‧‧‧文字處理模組
402‧‧‧圖片產生模組
403‧‧‧儲存控制模組
404‧‧‧網頁展示模組
4011‧‧‧文字分割單元
4012‧‧‧尺寸識別單元
4013‧‧‧文字塊分組單元
4014‧‧‧組合配置單元
此處所說明的圖式用來提供對本發明的進一步理解,構成本發明的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在圖式中:圖1是本發明一實施例的基於圖形化處理的網頁展示方法的方法流程圖;圖2是本發明又一實施例的基於圖形化處理的網頁展示方法的方法流程圖。
圖3a是本發明一應用實例中的網頁顯示位置的示意圖。
圖3b是本發明一應用實例中的填充文字塊的圖片的 示意圖。
圖3c是本發明又一應用實例中的網頁顯示位置的示意圖。
圖3d是本發明又一應用實例中的填充文字塊的圖片的示意圖。
圖4是本發明一實施例所述的基於圖形化處理的網頁展示裝置的結構示意圖。
圖5是本發明一實施例所述的文字處理模組的結構示意圖。
以下將配合圖式及實施例來詳細說明本發明的實施方式,藉此對本發明如何應用技術手段來解決技術問題並達成技術功效的實現過程能充分理解並據以實施。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。
記憶體可能包括電腦可讀介質中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀介質的示例。
電腦可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存介質的例子包括,但不限於相變記憶體 (PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電子抹除式可複寫唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟(CD-ROM)、數位多功能影音光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸介質,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀介質不包括非暫存電腦可讀媒體(transitory media),如調製的資料信號和載波。
如圖1所示,為本發明一實施例的基於圖形化處理的網頁展示方法的方法流程圖,包括:步驟101,對網頁中需要基於圖形化處理的文字資訊進行預處理,其中,所述預處理,包括:設置顯示框架並根據所述顯示框架將所述文字資訊分割為文字塊;設置顯示框架的操作,進一步包括:識別所述網頁中文字資訊的顯示位置,並根據所述顯示位置的寬度設定所述顯示框架的最大行寬,所述顯示框架的高度自我調整地與所分割的文字資訊的單行的行高匹配。這樣,分割得到的文字塊的行寬小於等於所述最大行寬且所述文字塊的高度等於所分割的文字資訊的單行的行高。
顯然,所述文字塊的分割是對具有自然語義的文字資訊進行分割,但是與文字資訊的自然語義無關,所述文字塊的尺寸是根據顯示框架的尺寸來確定的。而顯示框架是 與網頁上的顯示位置相關的,因此,是為了所述文字塊的分割是從利於填充儲存和利於拾取顯示的角度來考慮的。
步驟102,創建一圖片並設置所述圖片中每個文字塊的位置描述,根據所述位置描述將相應的文字塊填充到所述圖片中,儲存填充後的圖片並產生所述圖片的調用位址;在實際操作中,所述產生的調用位址可以使用URL(統一資源定位符,UniformResourceLocator)來實現,當然,本發明並不限於此。
步驟103,將所述圖片的調用位址和所述圖片中每個文字塊的位置描述對應地儲存為所述網頁的中繼資料;步驟104,當接收到所述網頁的訪問請求時,調用所述網頁的中繼資料,根據所述網頁的中繼資料中的調用位址載入所述圖片,並根據所述網頁的中繼資料中的位置描述從所述圖片中拾取相應的文字塊顯示在所述網頁中的相應顯示位置。
當接收到所述網頁的訪問請求時,如果沒有查找到所述網頁的中繼資料,則需要跳轉至步驟101進行執行,產生所述網頁的中繼資料,並進行顯示。
如圖2所示,為本發明又一實施例的基於圖形化處理的網頁展示方法的方法流程圖,包括:步驟201,對網頁中需要基於圖形化處理的文字資訊進行預處理,其中,所述預處理,包括:設置顯示框架並根據所述顯示框架將所述文字資訊分割為文字塊。
設置顯示框架的操作,進一步包括:識別所述網頁中文字資訊的顯示位置,並根據所述顯示位置的寬度設定所述顯示框架的最大行寬,所述顯示框架的高度自我調整地與所分割的文字資訊的單行的行高匹配。
需要說明的是,所分割得到的文字塊的寬度並不一定都等於所述最大行寬,寬度會因為每個文字塊內字的個數和文字樣式的不同而變化。因此,所分割得到的文字塊的寬度小於等於所述最大行寬且所述文字塊的高度等於所分割的文字資訊的單行的行高。
因為每個文字塊雖然是單行的,但是每個文字塊可能具有不同文字樣式,不同的文字樣式的尺寸是不同的,因此導致每個文字塊的尺寸都有可能不同,這給將文字塊填充到圖片中造成了很大的困難。所以下面需要透過步驟202到步驟203對所有文字塊進行整理。
步驟202,對網頁中需要基於圖形化處理的文字資訊進行預處理,其中,所述預處理,還包括:獲取每個文字塊中的文字樣式,根據每個文字塊中的文字樣式計算每個文字塊的尺寸。
所述文字樣式,包括以下一種或多種的組合:字體、字型大小、行高、是否粗體、是否斜體、顏色字體、背景顏色。
步驟203,對網頁中需要基於圖形化處理的文字資訊進行預處理,其中,所述預處理,還包括:識別高度最高的文字塊,選定所述文字塊的高度的整數分之一為門檻, 根據所述門檻及各個文字塊的高度將各個文字塊分組。
所述門檻可以選定一個或者多個,例如,“最大高度的文字塊行高”、“最大高度的文字塊行高/2”、“最大高度的文字塊行高/4”、“最大高度的文字塊行高/8”等等,當然,本發明並不限於此。透過這些門檻劃定的範圍,將各個文字塊分為幾組,同組的文字塊具有相似的高度。
透過分組化處理,再進行文字塊的拼接組合時,更加有利於使所有文字塊拼接組合後的外形規則,更貼近於矩形。因為填充使用的圖片一般為矩形,這樣就可以使圖片被填充的空間利用率最大化,從而有效降低所創建、儲存的圖片的數量,降低對於伺服器儲存空間的佔用。
步驟204,對網頁中需要基於圖形化處理的文字資訊進行預處理,其中,所述預處理,還包括:結合每個文字塊的尺寸和相應文字塊的分組設置各個文字塊的拼接組合,並根據所述拼接組合配置用於容納所有文字塊的圖片的尺寸。
步驟205,創建一圖片,即,根據所配置的用於容納所有文字塊的圖片的尺寸創建所述圖片。
步驟206,產生所述圖片中每個文字塊的位置描述,即,根據所述圖片的尺寸、各個文字塊的拼接組合和每個文字塊的尺寸,定位每個文字塊在所述圖片中的邊界,並根據每個文字塊的邊界產生每個文字塊的位置描述。
步驟207,根據所述位置描述將相應的文字塊填充到 所述圖片中,儲存填充後的圖片並產生所述圖片的調用位址。
步驟208,將所述圖片的調用位址和所述圖片中每個文字塊的位置描述對應地儲存為所述網頁的中繼資料。
步驟209,當接收到所述網頁的訪問請求時,調用所述網頁的中繼資料,根據所述網頁的中繼資料中的調用位址載入所述圖片,並根據所述網頁的中繼資料中的位置描述從所述圖片中拾取相應的文字塊顯示在所述網頁中的相應顯示位置。
當接收到網頁的訪問請求時,網頁開啟並進行圖片的載入,讀取網頁上的相應顯示位置的代碼,執行代碼並自動調用相應的所述網頁的中繼資料。
當接收到所述網頁的訪問請求時,如果沒有查找到所述網頁的中繼資料,則需要跳轉至步驟201進行執行,產生所述網頁的中繼資料,並進行顯示。
設置顯示框架並根據所述顯示框架將所述文字資訊分割為文字塊,在實際操作中,可以使用java原生的應用程式設計發展介面“LineBreakMeasurer”類來實現。以下以一個應用實例來描述。
如圖3a、3b所示,分別為本發明一應用實例中的網頁顯示位置的示意圖和填充文字塊的圖片的示意圖。
如圖3a所示,網頁中需要顯示的中文字資訊為“中國江蘇無錫江陰市***工業園”。識別所述網頁的顯示位置的最大寬度不夠顯示“中國江蘇無錫江陰市***工業 園”,需要分成兩行來顯示。
透過“LineBreakMeasurer”類計算顯示位置的最大寬度能夠截取到“中國江蘇無錫江陰市***工業園”中的“市”字的位置(如果截取的位置不合適,例如不能截取到完整的字,則相應微調截取位置讓出該完整的字),最終獲得選定適合的顯示框架的最大行寬。
如圖3b所示,根據此最大行寬和“中國江蘇無錫江陰市***工業園”的行高設置顯示框架,使用所述顯示框架將“中國江蘇無錫江陰市***工業園”分別分割為“中國江蘇無錫江陰市”和“***工業園”兩個文字塊。
在所述步驟104和步驟209中,均包括根據所述網頁的中繼資料中的位置描述由所述圖片中拾取相應的文字塊顯示在所述網頁中的相應顯示位置的操作,在實際操作中,可以使用CSS(Cascading Style Sheet階層式樣式表)的方式來實現。
以下一個應用實例來說明如何使用CSS的方式來實現本發明的上述操作。
如圖3c、3d所示,分別為本發明又一應用實例中的網頁顯示位置的示意圖和填充文字塊的圖片的示意圖。
在本應用實例中該圖片名稱為text-image-pic1(如圖3d所示)。
在本應用實例中文字塊“中國江蘇無錫江陰市***工業園”(圖3c中黑色框標出)在該圖片中的位置描述為“-0px-22px;width:179px;height:22px”,其中,單位 px是圖元(pixel)。
當接收到網頁的訪問請求時,網頁開啟並進行圖片的載入,讀取網頁上的相應顯示位置“註冊位址”的代碼,根據代碼調用相應的所述網頁的中繼資料,根據所述網頁的中繼資料中的調用位址載入圖片text-image-pic1;並透過CCS由圖片text-image-pic1中截取位置描述為“-0px-22px;width:179px;height:22px”的文字塊,這個截取到的部分就是所需要顯示的文字塊“中國江蘇無錫江陰市***工業園”,將這個文字塊顯示到網頁中的相應顯示位置“註冊位址”上。
所採用的CSS代碼可以是:<p class="text-image-pic1 "style="display:inline-block;vertical-align:middle;background-position:-0px-22px;width:179px;height:22px;"> </p>
透過上述代碼實現了截取顯示該圖片中的不同文字塊。當然本發明還可以採用其他代碼方式,因此在這裡不再詳細贅述。
如圖4所示,為本發明一實施例所述的基於圖形化處理的網頁展示裝置的結構示意圖,包括:依次相連的文字處理模組401、圖片產生模組402、儲存控制模組403和網頁展示模組404;其中,所述文字處理模組401,用於對網頁中需要基於圖形化處理的文字資訊進行預處理,其中,所述預處理,包 括:設置顯示框架並根據所述顯示框架將所述文字資訊分割為文字塊;在設置顯示框架時,進一步用於識別所述網頁中文字資訊的顯示位置,並根據所述顯示位置的寬度設定所述顯示框架的最大行寬,所述顯示框架的高度自我調整地與所分割的文字資訊的單行的行高匹配,其所分割得到的文字塊的行寬小於等於所述最大行寬且所述文字塊的高度等於所分割的文字資訊的單行的行高;所述圖片產生模組402,用於創建一圖片並產生所述圖片中每個文字塊的位置描述,根據所述位置描述將相應的文字塊填充到所述圖片中,儲存填充後的圖片並產生所述圖片的調用位址;在創建所述圖片時,進一步用於根據所述文字處理模組所配置的用於容納所有文字塊的圖片的尺寸創建所述圖片;在產生所述位置描述時,進一步用於根據所述圖片的尺寸、各個文字塊的拼接組合和每個文字塊的尺寸,定位每個文字塊在所述圖片中的邊界,並根據每個文字塊的邊界產生每個文字塊的位置描述;所述儲存控制模組403,用於將所述圖片的調用位址和所述圖片中每個文字塊的位置描述對應地儲存為所述網頁的中繼資料;所述網頁展示模組404,用於當接收到所述網頁的訪問請求時,調用所述網頁的中繼資料,根據所述網頁的中繼資料中的調用位址載入所述圖片,並根據所述網頁的中繼資料中的位置描述從所述圖片中拾取相應的文字塊顯示在所述網頁中的相應顯示位置。
如圖5所示,為本發明一實施例所述的文字處理模組的結構示意圖,所述文字處理模組401,進一步包括:文字分割單元4011、尺寸識別單元4012、文字塊分組單元4013和組合配置單元4014。
所述文字分割單元4011,用於設置顯示框架,並根據所述顯示框架將需要基於圖形化處理的文字資訊分割為文字塊; 所述尺寸識別單元4012,與文字分割單元4011相連,用於獲取每個文字塊中的文字樣式,根據每個文字塊中的文字樣式計算每個文字塊的尺寸,所述文字處理模組,所獲取的所述文字樣式,包括以下一種或多種的組合:字體、字型大小、行高、是否粗體、是否斜體、顏色字體、背景顏色。
所述文字塊分組單元4013,與尺寸識別單元4012相連,用於識別高度最高的文字塊,選定所述文字塊的高度的整數分之一為門檻,根據所述門檻及各個文字塊的高度將各個文字塊分組。
所述組合配置單元4014,與尺寸識別單元4012和文字塊分組單元4013相連,用於結合每個文字塊的尺寸和相應文字塊的分組設置各個文字塊的拼接組合,並根據所述拼接組合配置用於容納所有文字塊的圖片的尺寸。
由於方法部分已經對本發明實施例進行了詳細描述,這裡對實施例中涉及的方法與裝置對應部分的展開描述省略,不再贅述。對於裝置中具體內容的描述可參考所述方法實施例的內容,這裡不再具體限定。
本領域內的通常知識者應明白,本發明的實施例可提供為方法、裝置、或電腦程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁碟儲存裝置、CD-ROM、光學儲存裝置等)上實施的電腦程式產品的形式。
上述說明示出並描述了本發明的若干較佳實施例,但如前所述,應當理解本發明並非局限于本文所披露的形式,不應看作是對其他實施例的排除,而可用於各種其他組合、修改和環境,並能夠在本文所述發明構想範圍內,透過上述教導或相關領域的技術或知識進行改動。而本領域中具有通常知識者所進行的改動和變化不脫離本發明的精神和範圍,則都應在本發明所附申請專利範圍的保護範圍內。

Claims (15)

  1. 一種基於圖形化處理的網頁展示方法,包括:對網頁中需要基於圖形化處理的文字資訊進行預處理,其中,該預處理,包括:設置顯示框架並根據該顯示框架將該文字資訊分割為文字塊;創建一圖片並產生該圖片中每個文字塊的位置描述,根據該位置描述將相應的文字塊填充到該圖片中,儲存填充後的圖片並產生該圖片的調用位址;將該圖片的調用位址和該圖片中每個文字塊的位置描述對應地儲存為該網頁的中繼資料;當接收到該網頁的訪問請求時,調用該網頁的中繼資料,根據該網頁的中繼資料中的調用位址載入該圖片,並根據該網頁的中繼資料中的位置描述從該圖片中拾取相應的文字塊顯示在該網頁中的相應顯示位置。
  2. 如申請專利範圍第1項所述的基於圖形化處理的網頁展示方法,其中,設置顯示框架的操作,進一步包括:識別該網頁中文字資訊的顯示位置,並根據該顯示位置的寬度設定該顯示框架的最大行寬,該顯示框架的高度自我調整地與所分割的文字資訊的單行的行高匹配。
  3. 如申請專利範圍第1或2項所述的基於圖形化處理的網頁展示方法,其中,該預處理的操作中,分割得到的文字塊的行寬小於等於該最大行寬且該文字塊的高度等於所分割的文字資訊的 單行的行高。
  4. 如申請專利範圍第1項所述的基於圖形化處理的網頁展示方法,其中,該預處理,還包括:獲取每個文字塊中的文字樣式,根據每個文字塊中的文字樣式計算每個文字塊的尺寸,識別高度最高的文字塊,選定該文字塊的高度的整數分之一為門檻,根據該門檻及各個文字塊的高度將各個文字塊分組。
  5. 如申請專利範圍第4項所述的基於圖形化處理的網頁展示方法,其中,該預處理,還包括:結合每個文字塊的尺寸和相應文字塊的分組設置各個文字塊的拼接組合,並根據該拼接組合配置用於容納所有文字塊的圖片的尺寸。
  6. 如申請專利範圍第1或5項所述的基於圖形化處理的網頁展示方法,其中,創建一圖片的操作,進一步包括:根據所配置的用於容納所有文字塊的圖片的尺寸創建該圖片。
  7. 如申請專利範圍第1或5項所述的基於圖形化處理的網頁展示方法,其中,產生該圖片中每個文字塊的位置描述的操作,進一步包括:根據該圖片的尺寸、各個文字塊的拼接組合和每個文字塊的尺寸,定位每個文字塊在該圖片中的邊界,並根據每個文字塊的邊界產生每個文字塊的位置描述。
  8. 如申請專利範圍第5項所述的基於圖形化處理的網 頁展示方法,其中,該文字樣式,包括以下一種或多種的組合:字體、字型大小、行高、是否粗體、是否斜體、顏色字體、背景顏色。
  9. 一種基於圖形化處理的網頁展示裝置,其特徵在於,包括:依次相連的文字處理模組、圖片產生模組、儲存控制模組和網頁展示模組;其中,該文字處理模組,用於對網頁中需要基於圖形化處理的文字資訊進行預處理,其中,該預處理,包括:設置顯示框架並根據該顯示框架將該文字資訊分割為文字塊;該圖片產生模組,用於創建一圖片並產生該圖片中每個文字塊的位置描述,根據該位置描述將相應的文字塊填充到該圖片中,儲存填充後的圖片並產生該圖片的調用位址;該儲存控制模組,用於將該圖片的調用位址和該圖片中每個文字塊的位置描述對應地儲存為該網頁的中繼資料;該網頁展示模組,用於當接收到該網頁的訪問請求時,調用該網頁的中繼資料,根據該網頁的中繼資料中的調用位址載入該圖片,並根據該網頁的中繼資料中的位置描述從該圖片中拾取相應的文字塊顯示在該網頁中的相應顯示位置。
  10. 如申請專利範圍第9項所述的基於圖形化處理的網頁展示裝置,其中, 該文字處理模組,進一步用於識別該網頁中文字資訊的顯示位置,並根據該顯示位置的寬度設定該顯示框架的最大行寬,該顯示框架的高度自我調整地與所分割的文字資訊的單行的行高匹配。
  11. 如申請專利範圍第9或10項所述的基於圖形化處理的網頁展示裝置,其中,該文字處理模組,所分割得到的文字塊的行寬小於等於該最大行寬且該文字塊的高度等於所分割的文字資訊的單行的行高。
  12. 如申請專利範圍第9項所述的基於圖形化處理的網頁展示裝置,其中,該文字處理模組,還用於獲取每個文字塊中的文字樣式,根據每個文字塊中的文字樣式計算每個文字塊的尺寸,識別高度最高的文字塊,選定該文字塊的高度的整數分之一為門檻,根據該門檻及各個文字塊的高度將各個文字塊分組。
  13. 如申請專利範圍第12項所述的基於圖形化處理的網頁展示裝置,其中,該文字處理模組,還用於結合每個文字塊的尺寸和相應文字塊的分組設置各個文字塊的拼接組合,並根據該拼接組合配置用於容納所有文字塊的圖片的尺寸。
  14. 如申請專利範圍第9或13項所述的基於圖形化處理的網頁展示裝置,其中,該圖片產生模組,進一步用於根據該文字處理模組所 配置的用於容納所有文字塊的圖片的尺寸創建該圖片。
  15. 如申請專利範圍第9或13項所述的基於圖形化處理的網頁展示裝置,其中,該圖片產生模組,進一步用於根據該圖片的尺寸、各個文字塊的拼接組合和每個文字塊的尺寸,定位每個文字塊在該圖片中的邊界,並根據每個文字塊的邊界產生每個文字塊的位置描述。
TW102145136A 2013-07-12 2013-12-09 Web page display method and web page display device based on graphic processing TWI598753B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310293720.7A CN104281626B (zh) 2013-07-12 2013-07-12 基于图片化处理的网页展示方法及网页展示装置

Publications (2)

Publication Number Publication Date
TW201502819A TW201502819A (zh) 2015-01-16
TWI598753B true TWI598753B (zh) 2017-09-11

Family

ID=52256502

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102145136A TWI598753B (zh) 2013-07-12 2013-12-09 Web page display method and web page display device based on graphic processing

Country Status (6)

Country Link
US (2) US9652553B2 (zh)
EP (1) EP3019982A1 (zh)
JP (1) JP2016531346A (zh)
CN (1) CN104281626B (zh)
TW (1) TWI598753B (zh)
WO (1) WO2015006237A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014218217A1 (de) * 2014-09-11 2016-03-17 Continental Automotive Gmbh Vorrichtung zum induktiven Laden eines Fahrzeuges
CN111813468A (zh) * 2015-04-03 2020-10-23 阿里巴巴集团控股有限公司 屏蔽网页操作的方法、装置及电子设备
WO2016168983A1 (en) * 2015-04-21 2016-10-27 Guangzhou Ucweb Computer Technology Co., Ltd. Method and electronic device for displaying web page
CN104951309B (zh) * 2015-07-02 2018-07-06 北京京东尚科信息技术有限公司 展示特殊字体的页面装修方法和系统以及一种客户端设备
CN105512227A (zh) * 2015-11-30 2016-04-20 用友优普信息技术有限公司 网页数据加载方法及系统
CN105577684B (zh) * 2016-01-25 2018-09-28 北京京东尚科信息技术有限公司 防爬虫抓取的方法、服务端、客户端和系统
CN107341160B (zh) * 2016-05-03 2020-09-01 北京京东尚科信息技术有限公司 一种拦截爬虫的方法及装置
CN106886544A (zh) 2016-06-06 2017-06-23 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN107045612A (zh) * 2017-01-19 2017-08-15 安徽数洋科技有限公司 一种网页数据的加密方法
CN106921804B (zh) * 2017-04-10 2020-06-16 青岛海信移动通信技术股份有限公司 在终端中创建日程的方法、装置及终端设备
CN107220291B (zh) * 2017-04-25 2020-12-25 深圳中兴网信科技有限公司 网页数据防抓取的方法及系统
CN108196964A (zh) * 2017-12-29 2018-06-22 北京奇虎科技有限公司 一种将数据流模块化的方法和装置
CN109254773B (zh) * 2018-09-19 2022-04-05 广州视源电子科技股份有限公司 骨架页面生成方法、装置、设备和存储介质
CN110502711B (zh) * 2019-07-17 2022-08-26 汉海信息技术(上海)有限公司 页面展示方法、装置、电子设备及可读存储介质
CN111897617B (zh) * 2020-08-12 2021-12-14 腾讯科技(深圳)有限公司 图片加载方法、装置、计算机设备和存储介质
CN113343137A (zh) * 2021-05-19 2021-09-03 深圳海天力电子商务有限公司 优化seo页面生成方法、装置、电子设备及存储介质
CN113536169B (zh) * 2021-06-28 2022-08-05 上海硬通网络科技有限公司 一种网页的文字排版方法、装置、设备和存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57105085A (en) * 1980-12-23 1982-06-30 Ricoh Co Ltd Cutting system of character region
JP3484284B2 (ja) 1995-12-14 2004-01-06 ブラザー工業株式会社 データ中継システム及びそのシステムに適用されるデータ中継装置
US7657064B1 (en) 2000-09-26 2010-02-02 Digimarc Corporation Methods of processing text found in images
AU2002952711A0 (en) * 2002-11-18 2002-11-28 Typefi Systems Pty Ltd A method of formatting documents
JP4082591B2 (ja) * 2003-05-20 2008-04-30 インターナショナル・ビジネス・マシーンズ・コーポレーション データ編集装置及びプログラム
US20070143298A1 (en) * 2005-12-16 2007-06-21 Microsoft Corporation Browsing items related to email
JP4753755B2 (ja) * 2006-03-14 2011-08-24 富士通株式会社 データ変換方法、装置及びプログラム
US8922563B2 (en) * 2006-09-29 2014-12-30 Rockwell Automation Technologies, Inc. Digital numeric display with adaptive character width
US8296808B2 (en) 2006-10-23 2012-10-23 Sony Corporation Metadata from image recognition
CN101291476A (zh) * 2007-04-17 2008-10-22 张岩 一种在手持设备上将字符显示成图片或动画的方法
US7949935B2 (en) * 2007-04-27 2011-05-24 International Business Machines Corporation Selecting and rendering a section of a web page
JP2009087168A (ja) * 2007-10-01 2009-04-23 Access Co Ltd コンテンツ表示装置、コンテンツ表示方法、およびコンテンツ表示プログラム
US8161384B2 (en) * 2009-04-23 2012-04-17 Hewlett-Packard Development Company, L.P. Arranging graphic objects on a page with text
JP5026472B2 (ja) * 2009-06-01 2012-09-12 ヤフー株式会社 画像生成装置、画像生成装置の動作方法、および記録媒体
US8910036B1 (en) * 2011-03-04 2014-12-09 Inkling Systems, Inc. Web based copy protection
US20130007586A1 (en) * 2011-06-29 2013-01-03 Renjit Tom Thomas Method and system for creating and using web feed display templates
CN102890687B (zh) * 2011-07-21 2016-04-20 腾讯科技(北京)有限公司 一种浏览网页组图的方法、系统和装置
CN102955803B (zh) 2011-08-26 2016-04-20 腾讯科技(深圳)有限公司 一种网站展示方法及浏览器
CN102999512A (zh) * 2011-09-14 2013-03-27 深圳市龙视传媒有限公司 处理文字广告的方法及其系统
CN103186912B (zh) * 2011-12-28 2016-07-06 北京神州泰岳软件股份有限公司 以图片格式展示文字的方法及系统
CN103186742B (zh) * 2011-12-31 2016-01-20 北京新媒传信科技有限公司 一种反文本过滤监控的方法和装置
RU2627096C2 (ru) * 2012-10-30 2017-08-03 Сергей Анатольевич Гевлич Способы изготовления прототипов мультимедиа-презентаций, устройства для изготовления прототипов мультимедиа-презентаций, способы использования устройств для изготовления прототипов мультимедиа-презентаций (варианты)
US9529794B2 (en) * 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization

Also Published As

Publication number Publication date
JP2016531346A (ja) 2016-10-06
CN104281626A (zh) 2015-01-14
US20150019956A1 (en) 2015-01-15
US20170286563A1 (en) 2017-10-05
CN104281626B (zh) 2018-01-19
WO2015006237A1 (en) 2015-01-15
EP3019982A1 (en) 2016-05-18
TW201502819A (zh) 2015-01-16
US9652553B2 (en) 2017-05-16
US10268774B2 (en) 2019-04-23

Similar Documents

Publication Publication Date Title
TWI598753B (zh) Web page display method and web page display device based on graphic processing
US10776447B2 (en) Digital communications platform for webpage overlay
US9552342B2 (en) Generating a collage for rendering on a client computing device
CN110069683B (zh) 一种基于浏览器爬取数据的方法及装置
CN108595583A (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
KR102222087B1 (ko) 증강 현실에 기초한 이미지 인식 방법 및 장치
CN107766532A (zh) 一种前端Node.js自动化正静态方法
KR20130066603A (ko) 폰트 서브세트의 개시
WO2014100582A2 (en) Supporting color fonts
US20160026858A1 (en) Image based search to identify objects in documents
US11275935B2 (en) Patent analysis applications and corresponding user interface features
CN103856507B (zh) 网络动态图片的静态显示方法和装置
CN104850388A (zh) 网页绘制方法及装置
US10867119B1 (en) Thumbnail image generation
CN112507260A (zh) 网页加载方法及装置、电子设备、计算机可读存储介质
CN105094753A (zh) 一种线框图的绘制方法、装置和系统
CN110532495A (zh) 一种网页信息的展示方法及装置
CN109636885A (zh) 一种用于h5页面的序列帧动画制作方法和系统
CN107229653B (zh) 伪静态网页生成方法和装置
TW201523421A (zh) 決定用於擷取的文章之圖像
CN107679168B (zh) 一种基于java平台的目标网站内容获取方法
CN101233494B (zh) 插件模块、浏览器、邮箱运行方法及终端装置
CN113343137A (zh) 优化seo页面生成方法、装置、电子设备及存储介质
US10956520B1 (en) Dynamic image search engine for personalized image editing
CN112541087A (zh) 基于百科的跨语言知识图谱构建方法及装置