RU2015116942A - Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц - Google Patents

Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц Download PDF

Info

Publication number
RU2015116942A
RU2015116942A RU2015116942A RU2015116942A RU2015116942A RU 2015116942 A RU2015116942 A RU 2015116942A RU 2015116942 A RU2015116942 A RU 2015116942A RU 2015116942 A RU2015116942 A RU 2015116942A RU 2015116942 A RU2015116942 A RU 2015116942A
Authority
RU
Russia
Prior art keywords
web page
verification
rules
templates
validation
Prior art date
Application number
RU2015116942A
Other languages
English (en)
Other versions
RU2632149C2 (ru
Inventor
Илья Владимирович КАЦЕВ
Владимир Александрович Поляков
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2015116942A priority Critical patent/RU2632149C2/ru
Priority to PCT/IB2015/057825 priority patent/WO2016178068A1/en
Publication of RU2015116942A publication Critical patent/RU2015116942A/ru
Application granted granted Critical
Publication of RU2632149C2 publication Critical patent/RU2632149C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

1. Компьютерный способ проверки веб-страниц, способ содержит:получение двух или более эталонных веб-страниц, причем каждая веб-страница содержит множество элементов веб-страницы;анализ процессором элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц;создание процессором набора шаблонов проверки, идентифицирующих по меньшей мере множество элементов, общих для двух или более эталонных веб-страниц;создание процессором набора правил проверки, определяющих по меньшей мере логические взаимоотношения между элементами веб-страницы каждой эталонной веб-страницы; иподтверждение процессором соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки.2. Способ по п. 1, в котором анализ процессором элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц содержит:создание одного или нескольких регулярных выражений для одного или нескольких элементов веб-страниц; ииспользование регулярных выражений для идентификации сходных элементов в двух или более эталонных веб-страницах.3. Способ по п. 2, в котором регулярное выражение может содержать множество символов и операторов для определения набора одной или нескольких строк в виде выражения или шаблона.4. Способ по п. 3, в котором регулярное выражение может содержать самый длинный общий префикс, самый длинный общий суффикс и самую длинную общую подстроку текстового контента элемента веб-страницы.5. Способ по п. 2, в котором регулярное выражение выполнено с возможностью сравнивать выбранный процент

Claims (20)

1. Компьютерный способ проверки веб-страниц, способ содержит:
получение двух или более эталонных веб-страниц, причем каждая веб-страница содержит множество элементов веб-страницы;
анализ процессором элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц;
создание процессором набора шаблонов проверки, идентифицирующих по меньшей мере множество элементов, общих для двух или более эталонных веб-страниц;
создание процессором набора правил проверки, определяющих по меньшей мере логические взаимоотношения между элементами веб-страницы каждой эталонной веб-страницы; и
подтверждение процессором соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки.
2. Способ по п. 1, в котором анализ процессором элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц содержит:
создание одного или нескольких регулярных выражений для одного или нескольких элементов веб-страниц; и
использование регулярных выражений для идентификации сходных элементов в двух или более эталонных веб-страницах.
3. Способ по п. 2, в котором регулярное выражение может содержать множество символов и операторов для определения набора одной или нескольких строк в виде выражения или шаблона.
4. Способ по п. 3, в котором регулярное выражение может содержать самый длинный общий префикс, самый длинный общий суффикс и самую длинную общую подстроку текстового контента элемента веб-страницы.
5. Способ по п. 2, в котором регулярное выражение выполнено с возможностью сравнивать выбранный процент текстового контента элемента веб-страницы.
6. Способ по п. 1, дополнительно включающий в себя:
идентификацию категории двух и более проверяемых веб-страниц; и
связывание созданного набора правил проверки и набора шаблонов проверки с категорией.
7. Способ по п. 1, в котором подтверждение соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки содержит:
идентификацию категории проверяемой веб-странцы;
идентификацию набора правил проверки и набора шаблонов проверки, связанных с категорией проверяемой веб-страницы; и
применение набора правил проверки и набора шаблонов проверки к проверяемой веб-странице.
8. Способ по п. 7, в котором идентификация набора правил проверки и набора шаблонов проверки, связанных с категорией проверяемой веб-страницы, содержит:
идентификацию в иерархическом дереве множества узлов, причем каждый узел связан с набором правил проверки и набором шаблонов проверки, а по меньшей мере один набор правил проверки и набор шаблонов проверки связан с категорией проверяемой веб-страницы;
"обход" иерархического дерева от идентифицированного узла до корневого узла и идентификацию наборов правил проверки и наборов шаблонов проверки, связанных с каждым "пройденным" узлом;
извлечение множества идентифицированных наборов правил проверки и наборов шаблонов проверки, связанных с каждым "пройденным" узлом, для создания полного набора правил проверки и шаблонов проверки; и
использование полного набора правил проверки и набора шаблонов проверки для подтверждения соответствия проверяемой веб-страницы.
9. Система для проверки веб-страниц, содержащая:
по меньшей мере один процессор, выполненный с возможностью:
получать две или более эталонные веб-страницы, причем каждая веб-страница содержит множество элементов веб-страницы;
анализировать элементы веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц;
создавать набор шаблонов проверки, идентифицирующих по меньшей мере множество элементов, общих для двух или более эталонных веб-страниц;
создавать набор правил проверки, определяющих по меньшей мере логические взаимоотношения между элементами веб-страницы каждой эталонной веб-страницы; и
подтверждение соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки.
10. Система по п. 9, в которой для анализа элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц процессор выполнен с дополнительной возможностью:
создавать одно или несколько регулярных выражений для одного или нескольких элементов веб-страниц; и
использовать регулярное выражение для идентификации сходных элементов в двух или более эталонных веб-страницах.
11. Система по п. 10, в которой регулярное выражение может содержать множество символов и операторов для определения набора одной или нескольких строк в виде выражения или шаблона.
12. Система по п. 11, в которой регулярное выражение может содержать самый длинный общий префикс, самый длинный общий суффикс и самую длинную общую подстроку текстового содержимого элемента веб-страницы.
13. Система по п. 10, в которой регулярное выражение выполнено с возможностью сравнивать выбранный процент текстового содержимого элемента веб-страницы.
14. Система по п. 9, в которой процессор выполнен с дополнительной возможностью:
идентифицировать категории двух и более проверяемых веб-страниц; и
связывать созданный набор правил проверки и набор шаблонов проверки с категорией.
15. Система по п. 9, в которой для подтверждения соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки процессор выполнен с дополнительной возможностью:
идентифицировать категорию проверяемой веб-страницы;
идентифицировать набор правил проверки и набор шаблонов проверки, связанные с категорией проверяемой веб-страницы; и
применять набор правил проверки и набор шаблонов проверки к проверяемой веб-странице.
16. Система по п. 15, в которой идентификация набора правил проверки и набора шаблонов проверки, связанных с категорией проверяемой веб-страницы содержит:
идентификацию в иерархическом дереве множества узлов, причем каждый узел связан с набором правил проверки и набором шаблонов проверки, а по меньшей мере один набор правил проверки и набор шаблонов проверки связан с категорией проверяемой веб-страницы;
"обход" иерархического дерева от идентифицированного узла до корневого узла и идентификацию наборов правил проверки и наборов шаблонов проверки, связанных с каждым "пройденным" узлом;
извлечение множества идентифицированных наборов правил проверки и наборов шаблонов проверки, связанных с каждым "пройденным" узлом для создания полного набора правил проверки и шаблонов проверки; и
использование полного набора правил проверки и набора шаблонов проверки для подтверждения соответствия проверяемой веб-страницы.
17. Постоянный машиночитаемый носитель, содержащий выполняемые компьютером инструкции для проверки веб-страниц, включающие в себя инструкции для:
получения двух или более эталонных веб-страниц, причем каждая веб-страница содержит множество элементов веб-страницы;
анализа элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц;
создания набора шаблонов проверки, идентифицирующих по меньшей мере множество элементов, общих для двух или более эталонных веб-страниц;
создания набора правил проверки, определяющих по меньшей мере логические взаимоотношения между элементами веб-страницы каждой эталонной веб-страницы; и
подтверждения соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки.
18. Носитель по п. 17, в котором анализ процессором элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц содержит:
создание одного или нескольких регулярных выражений для одного или нескольких элементов веб-страниц; и
использование регулярных выражений для идентификации сходных элементов в двух или более эталонных веб-страницах.
19. Носитель по п. 17, в котором подтверждение соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки содержит:
идентификацию категории проверяемой веб-страницы;
идентификацию набора правил проверки и набора шаблонов проверки, связанных с категорией проверяемой веб-страницы; и
применение набора правил проверки и набора шаблонов проверки к проверяемой веб-странице.
20. Носитель по п. 19, в котором идентификация набора правил проверки и набора шаблонов проверки, связанных с категорией проверяемой веб-страницы содержит:
идентификацию в иерархическом дереве множества узлов, причем каждый узел связан с набором правил проверки и набором шаблонов проверки, а по меньшей мере один набор правил проверки и набор шаблонов проверки связан с категорией проверяемой веб-страницы;
"обход" иерархического дерева от идентифицированного узла до корневого узла и идентификацию наборов правил проверки и наборов шаблонов проверки, связанных с каждым "пройденным" узлом;
извлечение множества идентифицированных наборов правил проверки и наборов шаблонов проверки, связанных с каждым "пройденным" узлом для создания полного набора правил проверки и шаблонов проверки; и
использование полного набора правил проверки и набора шаблонов проверки для подтверждения соответствия проверяемой веб-страницы.
RU2015116942A 2015-05-06 2015-05-06 Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц RU2632149C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2015116942A RU2632149C2 (ru) 2015-05-06 2015-05-06 Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц
PCT/IB2015/057825 WO2016178068A1 (en) 2015-05-06 2015-10-13 System and method for testing web pages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015116942A RU2632149C2 (ru) 2015-05-06 2015-05-06 Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц

Publications (2)

Publication Number Publication Date
RU2015116942A true RU2015116942A (ru) 2016-11-27
RU2632149C2 RU2632149C2 (ru) 2017-10-02

Family

ID=57217967

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015116942A RU2632149C2 (ru) 2015-05-06 2015-05-06 Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц

Country Status (2)

Country Link
RU (1) RU2632149C2 (ru)
WO (1) WO2016178068A1 (ru)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399586A (zh) * 2019-07-31 2019-11-01 深圳前海微众银行股份有限公司 web界面元素的自动化处理方法、装置、设备及介质
CN110990275B (zh) * 2019-11-25 2023-09-22 中国银行股份有限公司 一种手机银行的页面展示测试方法及装置
CN111552462B (zh) * 2019-12-31 2023-12-05 远景智能国际私人投资有限公司 物联网设备的设备模型构建方法、装置及存储介质
CN111597107B (zh) * 2020-04-22 2023-04-28 北京字节跳动网络技术有限公司 信息输出方法、装置和电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6360235B1 (en) * 1999-03-16 2002-03-19 Webcriteria, Inc. Objective measurement and graph theory modeling of web sites
US7039860B1 (en) * 1999-10-01 2006-05-02 Netspinner Solutions As Creating web pages category list prior to the list being served to a browser
US7778889B2 (en) * 2000-08-31 2010-08-17 The Softad Group, Llc Modular e-commerce web site development system
US20070005652A1 (en) * 2005-07-02 2007-01-04 Electronics And Telecommunications Research Institute Apparatus and method for gathering of objectional web sites
WO2008035044A2 (en) * 2006-09-18 2008-03-27 Yann Emmanuel Motte Methods and apparatus for selection of information and web page generation
DE102006057525A1 (de) * 2006-12-06 2008-06-12 Siemens Ag Verfahren zur Ermittlung von zumindest zwei ähnlichen Webseiten
US8589366B1 (en) * 2007-11-01 2013-11-19 Google Inc. Data extraction using templates
KR101076522B1 (ko) * 2009-12-30 2011-10-24 엔에이치엔(주) 사이트 클러스터링 시스템 및 사이트 클러스터링 방법
US8510237B2 (en) * 2011-03-15 2013-08-13 Qualcomm Incorporated Machine learning method to identify independent tasks for parallel layout in web browsers
RU2530671C1 (ru) * 2013-07-24 2014-10-10 Общество С Ограниченной Ответственностью "Балакам" Способ проверки веб-страниц на содержание в них целевого аудио и/или видео (av) контента реального времени
CN104021185B (zh) * 2014-06-11 2017-04-05 北京奇虎科技有限公司 对网页中数据的信息属性进行识别的方法和装置

Also Published As

Publication number Publication date
WO2016178068A1 (en) 2016-11-10
RU2632149C2 (ru) 2017-10-02

Similar Documents

Publication Publication Date Title
RU2015116942A (ru) Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц
CN104486461B (zh) 域名分类方法和装置、域名识别方法和系统
TWI662431B (zh) 一種開源許可證的分析方法及裝置
MY188760A (en) Search intention identifying method and device
US20200380125A1 (en) Method for Detecting Libraries in Program Binaries
CN106572117A (zh) 一种WebShell文件的检测方法和装置
Zeichner et al. Crowdsourcing inference-rule evaluation
CN106170002A (zh) 一种中文仿冒域名检测方法及系统
CN103870754A (zh) 恶意程序识别及训练模型生成方法和装置
US10402484B2 (en) Aligning annotation of fields of documents
CN107145779A (zh) 一种离线恶意软件日志的识别方法和装置
CN106815193A (zh) 模型训练方法及装置和错别字识别方法及装置
CN107436931B (zh) 网页正文抽取方法及装置
CN106357682A (zh) 一种钓鱼网站检测方法
Cheers et al. Spplagiarise: A tool for generating simulated semantics-preserving plagiarism of java source code
CN109063482B (zh) 宏病毒识别方法、装置、存储介质及处理器
CN110688823B (zh) Xml文件验证方法及装置
CN106845228A (zh) 一种检测恶意程序的方法和装置
CN104317903A (zh) 章节式文本的章节完整性的识别方法和装置
Lima Rodrigues et al. Learning url normalization rules using multiple alignment of sequences
CN115525900A (zh) 一种代码安全漏洞检查方法、装置、设备及介质
CN106815592B (zh) 文本数据处理方法及装置和错别字识别方法及装置
da Silva et al. Cross-browser incompatibilities classification layout: A comparative study between different models
CN110069673A (zh) 一种互联网网站评级的系统及方法
CN105224833B (zh) 利用数字水印识别应用程序是否是正版的方法及系统