RU2015116942A - Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц - Google Patents
Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц Download PDFInfo
- Publication number
- RU2015116942A RU2015116942A RU2015116942A RU2015116942A RU2015116942A RU 2015116942 A RU2015116942 A RU 2015116942A RU 2015116942 A RU2015116942 A RU 2015116942A RU 2015116942 A RU2015116942 A RU 2015116942A RU 2015116942 A RU2015116942 A RU 2015116942A
- Authority
- RU
- Russia
- Prior art keywords
- web page
- verification
- rules
- templates
- validation
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
Abstract
1. Компьютерный способ проверки веб-страниц, способ содержит:получение двух или более эталонных веб-страниц, причем каждая веб-страница содержит множество элементов веб-страницы;анализ процессором элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц;создание процессором набора шаблонов проверки, идентифицирующих по меньшей мере множество элементов, общих для двух или более эталонных веб-страниц;создание процессором набора правил проверки, определяющих по меньшей мере логические взаимоотношения между элементами веб-страницы каждой эталонной веб-страницы; иподтверждение процессором соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки.2. Способ по п. 1, в котором анализ процессором элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц содержит:создание одного или нескольких регулярных выражений для одного или нескольких элементов веб-страниц; ииспользование регулярных выражений для идентификации сходных элементов в двух или более эталонных веб-страницах.3. Способ по п. 2, в котором регулярное выражение может содержать множество символов и операторов для определения набора одной или нескольких строк в виде выражения или шаблона.4. Способ по п. 3, в котором регулярное выражение может содержать самый длинный общий префикс, самый длинный общий суффикс и самую длинную общую подстроку текстового контента элемента веб-страницы.5. Способ по п. 2, в котором регулярное выражение выполнено с возможностью сравнивать выбранный процент
Claims (20)
1. Компьютерный способ проверки веб-страниц, способ содержит:
получение двух или более эталонных веб-страниц, причем каждая веб-страница содержит множество элементов веб-страницы;
анализ процессором элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц;
создание процессором набора шаблонов проверки, идентифицирующих по меньшей мере множество элементов, общих для двух или более эталонных веб-страниц;
создание процессором набора правил проверки, определяющих по меньшей мере логические взаимоотношения между элементами веб-страницы каждой эталонной веб-страницы; и
подтверждение процессором соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки.
2. Способ по п. 1, в котором анализ процессором элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц содержит:
создание одного или нескольких регулярных выражений для одного или нескольких элементов веб-страниц; и
использование регулярных выражений для идентификации сходных элементов в двух или более эталонных веб-страницах.
3. Способ по п. 2, в котором регулярное выражение может содержать множество символов и операторов для определения набора одной или нескольких строк в виде выражения или шаблона.
4. Способ по п. 3, в котором регулярное выражение может содержать самый длинный общий префикс, самый длинный общий суффикс и самую длинную общую подстроку текстового контента элемента веб-страницы.
5. Способ по п. 2, в котором регулярное выражение выполнено с возможностью сравнивать выбранный процент текстового контента элемента веб-страницы.
6. Способ по п. 1, дополнительно включающий в себя:
идентификацию категории двух и более проверяемых веб-страниц; и
связывание созданного набора правил проверки и набора шаблонов проверки с категорией.
7. Способ по п. 1, в котором подтверждение соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки содержит:
идентификацию категории проверяемой веб-странцы;
идентификацию набора правил проверки и набора шаблонов проверки, связанных с категорией проверяемой веб-страницы; и
применение набора правил проверки и набора шаблонов проверки к проверяемой веб-странице.
8. Способ по п. 7, в котором идентификация набора правил проверки и набора шаблонов проверки, связанных с категорией проверяемой веб-страницы, содержит:
идентификацию в иерархическом дереве множества узлов, причем каждый узел связан с набором правил проверки и набором шаблонов проверки, а по меньшей мере один набор правил проверки и набор шаблонов проверки связан с категорией проверяемой веб-страницы;
"обход" иерархического дерева от идентифицированного узла до корневого узла и идентификацию наборов правил проверки и наборов шаблонов проверки, связанных с каждым "пройденным" узлом;
извлечение множества идентифицированных наборов правил проверки и наборов шаблонов проверки, связанных с каждым "пройденным" узлом, для создания полного набора правил проверки и шаблонов проверки; и
использование полного набора правил проверки и набора шаблонов проверки для подтверждения соответствия проверяемой веб-страницы.
9. Система для проверки веб-страниц, содержащая:
по меньшей мере один процессор, выполненный с возможностью:
получать две или более эталонные веб-страницы, причем каждая веб-страница содержит множество элементов веб-страницы;
анализировать элементы веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц;
создавать набор шаблонов проверки, идентифицирующих по меньшей мере множество элементов, общих для двух или более эталонных веб-страниц;
создавать набор правил проверки, определяющих по меньшей мере логические взаимоотношения между элементами веб-страницы каждой эталонной веб-страницы; и
подтверждение соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки.
10. Система по п. 9, в которой для анализа элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц процессор выполнен с дополнительной возможностью:
создавать одно или несколько регулярных выражений для одного или нескольких элементов веб-страниц; и
использовать регулярное выражение для идентификации сходных элементов в двух или более эталонных веб-страницах.
11. Система по п. 10, в которой регулярное выражение может содержать множество символов и операторов для определения набора одной или нескольких строк в виде выражения или шаблона.
12. Система по п. 11, в которой регулярное выражение может содержать самый длинный общий префикс, самый длинный общий суффикс и самую длинную общую подстроку текстового содержимого элемента веб-страницы.
13. Система по п. 10, в которой регулярное выражение выполнено с возможностью сравнивать выбранный процент текстового содержимого элемента веб-страницы.
14. Система по п. 9, в которой процессор выполнен с дополнительной возможностью:
идентифицировать категории двух и более проверяемых веб-страниц; и
связывать созданный набор правил проверки и набор шаблонов проверки с категорией.
15. Система по п. 9, в которой для подтверждения соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки процессор выполнен с дополнительной возможностью:
идентифицировать категорию проверяемой веб-страницы;
идентифицировать набор правил проверки и набор шаблонов проверки, связанные с категорией проверяемой веб-страницы; и
применять набор правил проверки и набор шаблонов проверки к проверяемой веб-странице.
16. Система по п. 15, в которой идентификация набора правил проверки и набора шаблонов проверки, связанных с категорией проверяемой веб-страницы содержит:
идентификацию в иерархическом дереве множества узлов, причем каждый узел связан с набором правил проверки и набором шаблонов проверки, а по меньшей мере один набор правил проверки и набор шаблонов проверки связан с категорией проверяемой веб-страницы;
"обход" иерархического дерева от идентифицированного узла до корневого узла и идентификацию наборов правил проверки и наборов шаблонов проверки, связанных с каждым "пройденным" узлом;
извлечение множества идентифицированных наборов правил проверки и наборов шаблонов проверки, связанных с каждым "пройденным" узлом для создания полного набора правил проверки и шаблонов проверки; и
использование полного набора правил проверки и набора шаблонов проверки для подтверждения соответствия проверяемой веб-страницы.
17. Постоянный машиночитаемый носитель, содержащий выполняемые компьютером инструкции для проверки веб-страниц, включающие в себя инструкции для:
получения двух или более эталонных веб-страниц, причем каждая веб-страница содержит множество элементов веб-страницы;
анализа элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц;
создания набора шаблонов проверки, идентифицирующих по меньшей мере множество элементов, общих для двух или более эталонных веб-страниц;
создания набора правил проверки, определяющих по меньшей мере логические взаимоотношения между элементами веб-страницы каждой эталонной веб-страницы; и
подтверждения соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки.
18. Носитель по п. 17, в котором анализ процессором элементов веб-страницы двух или более эталонных веб-страниц для идентификации сходства и взаимоотношений между элементами веб-страниц содержит:
создание одного или нескольких регулярных выражений для одного или нескольких элементов веб-страниц; и
использование регулярных выражений для идентификации сходных элементов в двух или более эталонных веб-страницах.
19. Носитель по п. 17, в котором подтверждение соответствия проверяемой веб-страницы набору шаблонов проверки и набору правил проверки содержит:
идентификацию категории проверяемой веб-страницы;
идентификацию набора правил проверки и набора шаблонов проверки, связанных с категорией проверяемой веб-страницы; и
применение набора правил проверки и набора шаблонов проверки к проверяемой веб-странице.
20. Носитель по п. 19, в котором идентификация набора правил проверки и набора шаблонов проверки, связанных с категорией проверяемой веб-страницы содержит:
идентификацию в иерархическом дереве множества узлов, причем каждый узел связан с набором правил проверки и набором шаблонов проверки, а по меньшей мере один набор правил проверки и набор шаблонов проверки связан с категорией проверяемой веб-страницы;
"обход" иерархического дерева от идентифицированного узла до корневого узла и идентификацию наборов правил проверки и наборов шаблонов проверки, связанных с каждым "пройденным" узлом;
извлечение множества идентифицированных наборов правил проверки и наборов шаблонов проверки, связанных с каждым "пройденным" узлом для создания полного набора правил проверки и шаблонов проверки; и
использование полного набора правил проверки и набора шаблонов проверки для подтверждения соответствия проверяемой веб-страницы.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2015116942A RU2632149C2 (ru) | 2015-05-06 | 2015-05-06 | Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц |
PCT/IB2015/057825 WO2016178068A1 (en) | 2015-05-06 | 2015-10-13 | System and method for testing web pages |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2015116942A RU2632149C2 (ru) | 2015-05-06 | 2015-05-06 | Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2015116942A true RU2015116942A (ru) | 2016-11-27 |
RU2632149C2 RU2632149C2 (ru) | 2017-10-02 |
Family
ID=57217967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2015116942A RU2632149C2 (ru) | 2015-05-06 | 2015-05-06 | Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц |
Country Status (2)
Country | Link |
---|---|
RU (1) | RU2632149C2 (ru) |
WO (1) | WO2016178068A1 (ru) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399586A (zh) * | 2019-07-31 | 2019-11-01 | 深圳前海微众银行股份有限公司 | web界面元素的自动化处理方法、装置、设备及介质 |
CN110990275B (zh) * | 2019-11-25 | 2023-09-22 | 中国银行股份有限公司 | 一种手机银行的页面展示测试方法及装置 |
CN111552462B (zh) * | 2019-12-31 | 2023-12-05 | 远景智能国际私人投资有限公司 | 物联网设备的设备模型构建方法、装置及存储介质 |
CN111597107B (zh) * | 2020-04-22 | 2023-04-28 | 北京字节跳动网络技术有限公司 | 信息输出方法、装置和电子设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6360235B1 (en) * | 1999-03-16 | 2002-03-19 | Webcriteria, Inc. | Objective measurement and graph theory modeling of web sites |
US7039860B1 (en) * | 1999-10-01 | 2006-05-02 | Netspinner Solutions As | Creating web pages category list prior to the list being served to a browser |
US7778889B2 (en) * | 2000-08-31 | 2010-08-17 | The Softad Group, Llc | Modular e-commerce web site development system |
US20070005652A1 (en) * | 2005-07-02 | 2007-01-04 | Electronics And Telecommunications Research Institute | Apparatus and method for gathering of objectional web sites |
WO2008035044A2 (en) * | 2006-09-18 | 2008-03-27 | Yann Emmanuel Motte | Methods and apparatus for selection of information and web page generation |
DE102006057525A1 (de) * | 2006-12-06 | 2008-06-12 | Siemens Ag | Verfahren zur Ermittlung von zumindest zwei ähnlichen Webseiten |
US8589366B1 (en) * | 2007-11-01 | 2013-11-19 | Google Inc. | Data extraction using templates |
KR101076522B1 (ko) * | 2009-12-30 | 2011-10-24 | 엔에이치엔(주) | 사이트 클러스터링 시스템 및 사이트 클러스터링 방법 |
US8510237B2 (en) * | 2011-03-15 | 2013-08-13 | Qualcomm Incorporated | Machine learning method to identify independent tasks for parallel layout in web browsers |
RU2530671C1 (ru) * | 2013-07-24 | 2014-10-10 | Общество С Ограниченной Ответственностью "Балакам" | Способ проверки веб-страниц на содержание в них целевого аудио и/или видео (av) контента реального времени |
CN104021185B (zh) * | 2014-06-11 | 2017-04-05 | 北京奇虎科技有限公司 | 对网页中数据的信息属性进行识别的方法和装置 |
-
2015
- 2015-05-06 RU RU2015116942A patent/RU2632149C2/ru active
- 2015-10-13 WO PCT/IB2015/057825 patent/WO2016178068A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2016178068A1 (en) | 2016-11-10 |
RU2632149C2 (ru) | 2017-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2015116942A (ru) | Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц | |
CN104486461B (zh) | 域名分类方法和装置、域名识别方法和系统 | |
TWI662431B (zh) | 一種開源許可證的分析方法及裝置 | |
MY188760A (en) | Search intention identifying method and device | |
US20200380125A1 (en) | Method for Detecting Libraries in Program Binaries | |
CN106572117A (zh) | 一种WebShell文件的检测方法和装置 | |
Zeichner et al. | Crowdsourcing inference-rule evaluation | |
CN106170002A (zh) | 一种中文仿冒域名检测方法及系统 | |
CN103870754A (zh) | 恶意程序识别及训练模型生成方法和装置 | |
US10402484B2 (en) | Aligning annotation of fields of documents | |
CN107145779A (zh) | 一种离线恶意软件日志的识别方法和装置 | |
CN106815193A (zh) | 模型训练方法及装置和错别字识别方法及装置 | |
CN107436931B (zh) | 网页正文抽取方法及装置 | |
CN106357682A (zh) | 一种钓鱼网站检测方法 | |
Cheers et al. | Spplagiarise: A tool for generating simulated semantics-preserving plagiarism of java source code | |
CN109063482B (zh) | 宏病毒识别方法、装置、存储介质及处理器 | |
CN110688823B (zh) | Xml文件验证方法及装置 | |
CN106845228A (zh) | 一种检测恶意程序的方法和装置 | |
CN104317903A (zh) | 章节式文本的章节完整性的识别方法和装置 | |
Lima Rodrigues et al. | Learning url normalization rules using multiple alignment of sequences | |
CN115525900A (zh) | 一种代码安全漏洞检查方法、装置、设备及介质 | |
CN106815592B (zh) | 文本数据处理方法及装置和错别字识别方法及装置 | |
da Silva et al. | Cross-browser incompatibilities classification layout: A comparative study between different models | |
CN110069673A (zh) | 一种互联网网站评级的系统及方法 | |
CN105224833B (zh) | 利用数字水印识别应用程序是否是正版的方法及系统 |