KR20210040449A - 페이지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 매체 - Google Patents

페이지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 매체 Download PDF

Info

Publication number
KR20210040449A
KR20210040449A KR1020217008647A KR20217008647A KR20210040449A KR 20210040449 A KR20210040449 A KR 20210040449A KR 1020217008647 A KR1020217008647 A KR 1020217008647A KR 20217008647 A KR20217008647 A KR 20217008647A KR 20210040449 A KR20210040449 A KR 20210040449A
Authority
KR
South Korea
Prior art keywords
node
target node
layout target
layout
page
Prior art date
Application number
KR1020217008647A
Other languages
English (en)
Other versions
KR102565950B1 (ko
Inventor
샤오치앙 레이
윈페이 왕
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202010125624.1A external-priority patent/CN111353112A/zh
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20210040449A publication Critical patent/KR20210040449A/ko
Application granted granted Critical
Publication of KR102565950B1 publication Critical patent/KR102565950B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

이 개시의 실시예는 딥 러닝 및 지능형 검색의 기술 분야에 관련되며, 구체적으로 페이지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 매체를 제공하며, 그 방법은: 획득한 하이퍼텍스트 마크업 언어 HTML 파일에 따라, 페이지의 여러 레이아웃 대상 노드를 결정하고; 상기 페이지의 여러 레이아웃 대상 노드를 레이아웃한 후, 미리 설정된 리콜 규칙을 사용하여, 상기 여러 레이아웃 대상 노드를 스크리닝하여, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드를 획득하고; 상기 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부를 예측하며; 그리고, 상기 지정 타겟 노드를 차폐 처리하고, 차폐 처리 후의 나머지 레이아웃 대상 노드를 사용하여, 상기 차폐 처리된 페이지를 생성한다.

Description

페이지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 매체
이 개시의 실시예는 딥 러닝 및 지능형 검색의 기술 분야에 관련되며, 특히 페이지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 매체에 관련된다.
모바일 인터넷의 전면적인 보급에 따라, 점점 더 많은 사이트가 모바일 시나리오에서 광고 마케팅 및 애플리케이션 프로모션을 수행하고 있다. 한편으로는, 모바일 기기 스크린의 한계로 인해, 광고 등의 요소에 의한 사용자의 브라우징 경험에 대한 영향이 점점 분명 해지고 있고; 다른 한편으로는, 일부 사이트가 단기적 이익의 극대화를 위해, 사이트에 허위, 포르노 및 사용자 기만 형태의 광고 요소를 많이 탑재하여, 사용자의 브라우징 경험에 심각한 영향을 미치고, 모바일의 생태적 보안을 약화시키고 있다.
따라서 웹 사이트에 표시되는 페이지 콘텐츠를 필터링하여, 모바일 검색의 생태적 보안을 보호함으로써, 사용자의 브라우징 경험을 향상시켜야 한다.
이 개시의 실시예는 페이지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 매체를 제공한다.
제1 양태로서, 이 개시의 실시예는 페이지 처리 방법을 제공하며, 이 방법은: 획득한 하이퍼텍스트 마크업 언어 HTML 파일에 따라, 페이지의 여러 레이아웃 대상 노드를 결정하고; 상기 페이지의 여러 레이아웃 대상 노드를 레이아웃한 후, 미리 설정된 리콜 규칙을 사용하여, 상기 여러 레이아웃 대상 노드를 스크리닝하여, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드를 획득하고; 상기 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부를 예측하며; 그리고, 상기 지정 타겟 노드를 차폐 처리하고, 차폐 처리 후의 나머지 레이아웃 대상 노드를 사용하여, 상기 차폐 처리된 페이지를 생성한다.
제2 양태로서, 이 개시의 실시예는 페이지 처리 장치를 제공하며, 이 장치는: 획득된 하이퍼텍스트 마크업 언어 HTML 파일에 따라, 페이지의 여러 레이아웃 대상 노드를 결정하도록 구성되는, 노드 결정 모듈; 상기 페이지의 여러 레이아웃 대상 노드를 레이아웃한 후, 미리 설정된 리콜 규칙을 사용하여, 상기 레이아웃 대상 노드를 스크리닝하여, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드를 획득하도록 구성되는, 노드 스크리닝 모듈; 상기 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부를 예측하도록 구성되는, 예측 모듈; 그리고, 상기 지정 타겟 노드를 차폐 처리하고, 차폐 처리 후의 나머지 레이아웃 대상 노드를 사용하여, 상기 차폐 처리된 페이지를 생성하도록 구성되는, 차폐 처리 모듈;을 포함한다.
제3 양태로서, 이 개시의 실시예는 전자 기기를 제공하며, 이 기기는: 하나 이상의 프로세서; 그 위에 하나 이상의 프로그램을 저장하고, 상기 하나 이상의 프로그램이 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서는 전술한 어느 하나의 페이지 처리 방법을 구현하는, 메모리; 그리고, 상기 프로세서와 메모리 사이에 연결되고, 상기 프로세서와 상기 메모리 사이의 정보 인터랙션을 구현하도록 구성되는, 하나 이상의 I/O 인터페이스를 포함한다.
제4 양태로서, 이 개시의 실시예는 컴퓨터 판독 가능 매체를 제공하며, 이 매체는: 그 위에 컴퓨터 프로그램이 저장되며, 프로그램이 프로세서에 의해 실행될 때 전술한 어느 하나의 페이지 처리 방법을 구현한다.
이 개시의 실시예에 의해 제공되는 페이지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 매체는, 리콜 규칙과 노드 예측 모델을 결합하는 방식을 사용하여 페이지에 대한 처리를 수행하고, 리콜 규칙에 의해 스크리닝된 레이아웃 대상 노드에 대해, 노드 예측 모델을 사용하여 브라우징 경험에 영향을 미치는지 여부를 판정하고, 예측을 통해 획득한 브라우징 경험에 영향을 미치는 레이아웃 대상 노드를 차폐 처리하여, 차폐 처리된 페이지를 생성함으로써, 전체적으로 페이지 브라우징 경험을 최적화하고, 모바일 검색의 생태적 안전성을 보호한다.
첨부 도면은 이 개시의 실시예에 대한 이해를 돕기 위해 제공되고, 명세서의 일부를 구성하며, 이 개시의 실시예와 함께 이 개시를 해석하기 위해 사용되는 것으로, 이 개시를 제한하는 것이 아니다. 첨부 도면을 참조하여 상세한 예시적인 실시예를 설명함으로써, 상기 내용과 기타 특징 및 장점이 이 분야의 기술자에게 더욱 명백해질 것이다. 첨부 도면에서:
도 1은 이 개시의 실시예에 의해 제공되는 페이지 처리의 아키텍처 개략도이다.
도 2는 이 개시의 하나의 실시예에 따른 페이지 처리 방법의 흐름도이다.
도 3은 이 개시의 예시적인 실시예에서 리콜 규칙의 개략도이다.
도 4는 이 개시의 다른 실시예에 따른 페이지 처리 방법의 흐름도이다.
도 5는 이 개시의 페이지 처리 방법의 효과 개략도이다.
도 6은 이 개시의 실시예에 의해 제공되는 페이지 처리 장치의 구성 블록도이다.
도 7은 이 개시의 실시예에 의해 제공되는 전자 기기의 구성 블록도이다.
도 8은 이 개시의 실시예에 의해 제공되는 컴퓨터 판독 가능 매체의 구성 블록도이다.
이 분야의 기술자가 이 개시의 기술 방안을 보다 잘 이해할 수 있도록 하기 위해, 다음은 첨부 도면을 참조하여 이 개시에 의해 제공되는 페이지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 매체에 대해 상세하게 설명한다.
이하에서 첨부 도면을 참조하여 예시적인 실시예를 보다 상세하게 설명하지만, 예시적인 실시예는 다른 형태로 구현될 수 있으며, 여기에서 설명하는 실시예를 제한하는 것으로 해석해서는 안 된다. 달리 말하면, 이러한 실시예를 제공하는 목적은 이 개시를 철저하고 완전하게 만들고, 또한 이 분야의 기술자가 이 개시의 범위를 완전히 이해할 수 있도록 하는 것이다. 충돌이 없으면, 이 개시의 실시예 및 실시예 중의 각 특징은 서로 결합될 수 있다.
도 1은 이 개시의 실시예의 페이지 처리의 아키텍처 개략도이다. 도 1에 도시된 바와 같이, 아키텍처는 모바일 기기(20) 및 웹 사이트(30)를 포함할 수 있다. 그 중에서, 모바일 기기(20)는 브라우저 커널(21), 메모리(22) 및 디스플레이 스크린(23)을 포함할 수 있고; 웹 사이트(30)는 여러 페이지(31)를 포함할 수 있다.
그 중에서, 모바일 기기(20)는 개인용 컴퓨터, 스마트 폰, 태블릿 컴퓨터, 개인용 디지털 단말기, 서버 등을 포함할 수 있지만 이에 제한되지 않는다. 이들 모두는 사서함 App 등과 같은 다양한 애플리케이션(App)을 설치할 수 있다.
이 개시의 실시예에서 페이지(31)는, 랜딩 페이지를 포함하지만 이에 제한되지 않는다. 랜딩 페이지는 독립적인 웹 페이지를 나타내는데 사용될 수 있으며, 또한 사용자 또는 방문자가 클릭을 통해 검색한 광고 또는 유료 검색 채널을 통해 클릭하여 진입한 페이지와 같이 마케팅 또는 광고 활동에 사용될 수 있다.
하나의 실시예에서, 사용자(10)가 모바일 기기(20)를 통해 웹 사이트(30)에 액세스하고, 또한 웹 사이트(30)에서 페이지(31)의 URL(Uniform Resource Locator)을 클릭하면, 브라우징 커널(21)은 URL에 따라 하이퍼텍스트 마크업 언어(Hypertext Markup Language, HTML) 파일의 다운로드를 시작하고, 또한 다운로드하여 획득한 HTML 파일을 파싱하여 DOM(Document Object Model) 트리를 획득하며, 동시에 획득한 HTML 파일의 캐스케이딩 스타일 시트(Cascading Style Sheets, CSS) 및 스크립트 언어(JavaScript, JS) 파일 등과 같은 리소스 링크를 파싱하면, CSS 파일의 다운로드 및 JS 파일의 다운로드를 시작하고, 다운로드하여 획득한 CSS 파일 및 JS 파일은 메모리(22)에 저장된다.
웹 사이트의 동작이 매우 빠르게 변경되기 때문에, 구성 규칙 집합을 통해 모든 유형과 페이지를 망라하는 것은 불가능하며; 또한 모든 광고가 사용자의 브라우징 경험에 영향을 미치는 것은 아니므로, 광고 요소가 페이지의 주요 콘텐츠 브라우징에 영향을 미치지 않는 위치에 있고 또한 유인 등의 행동이 없으면, 이는 정상적인 비즈니스 행동이다. 만약 넓은 면적이 뜻하지 않게 손상되면, 정상적인 인터넷 생태계가 파괴될 수도 있다. 그러나 현재의 많은 방안은 전술한 정상적인 비즈니스 행동을 처리하는 광고와 사용자 브라우징 경험에 영향을 미치는 광고를 구별할 수 없으며; 만약 규칙 집합에 기반하여 사이트의 페이지 요소를 필터링하면, 규칙 집합이 과대할 경우, 웹 페이지의 로딩 속도가 크게 영향을 받는다.
이 개시의 실시예는, 모바일 기기(20)의 디스플레이 스크린(23)이 페이지(31)를 표시하기 전에, 브라우저 커널(21)의 렌더링 단계를 통해 페이지(31)에서 페이지 요소의 유형을 지능적으로 인식하고, 또한 사용자의 브라우징 경험에 영향을 미치는 페이지 요소를 자동으로 차폐하는, 페이지 처리 방법을 제공한다. 페이지(31)의 렌더링이 완료된 후, 사용자(10)가 보는 것은 최적화된 페이지이므로, 이는 사용자의 브라우징 경험을 크게 향상시키고 또한 모바일 검색의 생태적 안전성을 보장한다.
이하의 각 실시예는 모두 이 실시예의 시스템 아키텍처에 적용될 수 있다. 간결한 설명을 위해, 이하의 실시예는 서로를 참조하고 인용할 수 있다.
도 2는 이 개시의 하나의 실시예에 따른 페이지 처리 방법의 흐름도이다. 도 2에 도시된 바와 같이, 페이지 처리 방법은 다음 단계를 포함할 수 있다.
S110: 획득한 하이퍼텍스트 마크업 언어 HTML 파일에 따라, 페이지의 여러 레이아웃 대상 노드를 결정한다.
S120: 페이지의 여러 레이아웃 대상 노드를 레이아웃한 후, 미리 설정된 리콜 규칙을 사용하여, 여러 레이아웃 대상 노드를 스크리닝하여, 리콜 규칙을 충족하는 레이아웃 대상 노드를 획득한다.
S130: 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부를 예측한다.
S140: 지정 타겟 노드를 차폐 처리하고, 차폐 처리 후의 나머지 레이아웃 대상 노드를 사용하여, 차폐 처리된 페이지를 생성한다.
이 개시의 실시예의 페이지 처리 방법에 따르면, 리콜 규칙과 노드 예측 모델을 결합하는 방식을 사용하여 페이지에 대한 처리를 수행한다. 리콜 규칙에 의해 스크리닝된 레이아웃 대상 노드에 대해, 노드 예측 모델을 사용하여 그가 브라우징 경험에 영향을 미치는지 여부를 판정하고, 또한, 예측을 통해 획득한 브라우징 경험에 영향을 미치는 레이아웃 대상 노드를 차폐 처리하여, 차폐 처리된 페이지를 생성함으로써, 전체적으로 페이지 브라우징 경험을 최적화하고, 모바일 검색의 생태적 안전성을 보호한다.
이 개시의 실시예에서, 렌더링 커널에 의해 웹 페이지를 처리하는 과정은 매우 복잡하기 때문에, 처리 성능 및 사용자 경험의 관점에서, 타겟 노드를 숨길 적절한 시간을 선택하는 것이 매우 중요하다. 레이아웃 대상 노드에 대한 레이아웃(layout)은, 레이아웃 대상 노드의 너비, 높이, 위치 등의 기하학적 정보를 정렬하고 계산하는 과정을 나타낸다. 간단하게 페이지 전체 레이아웃이 완료될 때마다 광고 식별을 수행하고, 또한 다시 전체 페이지에 대해 레이아웃을 수행하면, 비록 식별을 완료할 수는 있지만, 웹 페이지가 표시될 때마다 수십 또는 수백 번 레이아웃을 해야 하고, 동시에 전체 페이지를 탐색하여 타겟 노드를 식별해야 하므로, 탐색 및 재 레이아웃에 시간을 낭비하여, 전체 페이지의 로딩 시간에 매우 큰 영향을 미치고, 전체 웹 페이지의 로딩 인식이 느려지게 된다.
따라서, 최상의 성능과 사용자 경험을 얻기 위해, 이 개시의 실시예의 페이지 처리 방법은 전체 페이지를 탐색할 필요가 없고, 또한 전체 페이지를 다시 레이아웃할 필요가 없이, 국부 레이아웃을 적극적으로 트리거한다. 구체적으로, 전술한 S120 단계에서, 페이지의 여러 레이아웃 대상 노드를 레이아웃한 후, 미리 설정된 리콜 규칙을 사용하여, 레이아웃 대상 노드를 스크리닝할 수 있다.
즉, 이 개시의 실시예에서, 페이지의 각 노드는 레이아웃 시에 자신의 레이아웃 방법을 호출하여, DOM 트리를 탐색하는 것을 피하고, 노드의 레이아웃이 완료된 후, 그 노드가 브라우징 경험에 영향을 미치는 타겟 노드로 식별되면, 타겟 노드의 상태를 숨김으로 설정하는 것과 같이 그 타겟 노드를 차폐 처리하고, 또한 커널 레이아웃 상태를 다시 설정하고, 커널 재 레이아웃을 적극적으로 시작하여, 직접 국부에 노드를 레이아웃하여, 전체 페이지 수준에서의 재 레이아웃을 방지할 수 있다.
하나의 실시예에서, S110 단계는 구체적으로 다음을 포함할 수 있다: S21: HTML 파일을 파싱하여, 문서 대상 모델 DOM 및 캐스케이딩 스타일 시트 CSS를 획득한다; S22: CSS를 파싱하여, DOM에서 HTML 요소 노드의 스타일 데이터를 획득한다; S23: DOM에서 렌더링해야 하는 HTML 요소 노드와 스타일 데이터에 따라, 페이지의 여러 레이아웃 대상 노드를 결정한다.
그 중에서, 각 레이아웃 대상 노드는 렌더링해야 하는 하나의 HTML 요소 노드에 대응하며, 또한 각 레이아웃 대상 노드의 스타일 데이터는 대응하는 HTML 요소 노드의 스타일 데이터이다.
이 실시예에서, 문서 대상 모델 DOM은 트리 구조의 DOM, 즉 DOM 트리일 수 있고; 여러 레이아웃 대상 노드는 레이아웃 대상 Layout Object 트리의 노드일 수 있고; Layout Object 트리를 구축하고 또한 레이아웃한 후, Layout Object 트리의 노드는 좌표, 너비 및 높이 등과 같은 일련의 속성 정보를 가질 수 있다.
즉, 이 실시예에서, Layout Object 트리의 각 노드는 DOM에서 렌더링해야 하는 HTML 요소 노드에 대응하고, DOM 트리에서 HTML 요소 노드를 설명하는데 사용되는 CSS 속성 대상을 새로 생성된 Layout Object 트리의 레이아웃 대상 노드에게 설정하여, CSS의 스타일 데이터에 따라 Layout Object 트리의 레이아웃 대상 노드를 제작할 수 있게 한다.
하나의 실시예에서, HTML 파일을 파싱하여 스크립트 파일 링크를 획득하는 경우, S23 단계 이전에 다음을 더 포함할 수 있다: S31: 스크립트 파일 링크에 대응하는 스크립트 파일을 다운로드 및 실행하여, 스크립트 파일에 대응하는 HTML 요소 노드를 획득한다; S32: 스크립트 파일에 대응하는 HTML 요소 노드를, 리콜 규칙을 충족하는 레이아웃 대상 노드로 간주한다.
즉, 일부 실시예에서, 페이지의 여러 레이아웃 대상 노드를 결정한 후, 그 페이지 처리 방법은 다음을 더 포함할 수 있다: 여러 레이아웃 대상 노드가 스크립트 파일을 통해 로딩된 레이아웃 대상 노드를 포함하는 경우, 스크립트 파일을 통해 로딩된 레이아웃 대상 노드를, 리콜 규칙을 충족하는 레이아웃 대상 노드로 간주한다.
이 실시예에서, 브라우징 경험에 영향을 미치는 타겟 노드가 대부분 JS에 의해 동적으로 로딩되기 때문에, JS에 의해 로딩되는 노드의 특징에 따라, 스크립트 파일에 대응하는 HTML 요소 노드를 리콜 규칙을 충족하는 레이아웃 대상 노드로 결정하고, 식별할 노드를 초기에 필터링할 수 있다; 이로써, 비동기적으로 로딩된 JS 리소스를 통해 노드의 재 레이아웃을 트리거하여, 후속적으로 노드 예측 모델을 사용하여 예측을 통해 브라우징 경험에 영향을 미치는 노드를 식별하는 시간을 효과적으로 줄일 수 있다.
도 3은 이 개시의 예시적인 실시예에서 리콜 규칙의 개략도를 도시한다. 이 개시의 실시예에서, 미리 설정된 리콜 규칙을 사용하여 레이아웃 대상 노드를 스크리닝하는 것을 규칙에 기반한 러프 리콜이라고 칭할 수 있다.
도 3에 도시된 바와 같이, 규칙에 기반한 러프 리콜에서, 노드 너비 및 높이 비율, 노드 내장 형태, 노드 위치 특징, 노드 콘텐츠, 노드 생성 메커니즘 및 노드 구조 등의 방면에서 노드 리콜 조건을 설정할 수 있다.
즉, 리콜 규칙은: 노드 너비 및 높이 비율, 노드 내장 형태, 노드 위치 특징, 노드 콘텐츠, 노드 생성 메커니즘, 노드 구조 중 적어도 하나에 따라 미리 설정된 규칙을 포함할 수 있다.
하나의 실시예에서, S120 단계는 구체적으로 다음을 포함할 수 있다: S41: 페이지의 여러 레이아웃 대상 노드를 레이아웃하여, 레이아웃된 레이아웃 대상 노드의 속성 정보를 획득한다; S42: 속성 정보가 리콜 규칙에 정의된 노드 리콜 조건을 충족하는지 여부를 판단한다; S43: 노드 리콜 조건을 충족하는 레이아웃 대상 노드를, 리콜 규칙을 충족하는 레이아웃 대상 노드로 간주한다.
하나의 예시로서, 노드의 너비 및 높이 비율에 따라 설정되는 규칙은, 노드 높이 비율이 높이 비율 임계값보다 작은 노드, 및/또는 너비 비율이 너비 비율 임계값보다 작은 노드를 리콜 규칙을 충족하는 노드로 간주하는 것을 포함한다. 이 예시에서, 브라우징 경험에 영향을 미치는 노드가 전체 스크린을 차지하는 경우는 거의 없으며, 대부분이 페이지에 산재 또는 플로팅하는 형태로 존재하므로, 높이가 스크린의 75 %를 차지하는 노드는 타겟 노드가 아닐 확률이 매우 높고, 너비 비율이 너비 비율 임계값보다 작은 다른 노드의 자식 노드는 필터링할 수 있다.
하나의 예시로서, 노드 내장 형태에 따라 설정되는 규칙은, 지정된 내장 형태의 노드를, 리콜 규칙을 충족하는 노드로 간주하는 것을 포함한다. 예를 들어, 데이터 분석에 따르면, 내장 프레임iframe 노드는 타겟 노드에 일반적으로 사용되는 기생 사이트이고, 노드는 대부분 광고주의 내장 데이터를 포함하므로, iframe이 있는 노드도 의심되는 타겟 노드의 집합에 포함된다.
하나의 예시로서, 노드 위치 특징에 따라 설정되는 규칙은: 노드 위치 특징이 플로팅을 포함하는 노드를, 리콜 규칙을 충족하는 노드로 간주하는 것을 포함한다. 이 예시에서, 타겟 노드는 페이지에 대해 고정, 내장 또는 플로팅 등의 형태가 있는데, 그 중에서, 플로팅 형태의 타겟 노드가 브라우징 경험의 영향에 최악으로, 효과적인 정보를 방해하고, 또한 사용자에게 닫도록 강제할 수 있으므로, 플로팅 형태의 노드도 의심되는 타겟 노드 집합에 포함된다.
하나의 예시로서, 노드 콘텐츠 특징에 따라 설정되는 규칙은: 지정된 유형의 콘텐츠가 있는 노드를, 리콜 규칙을 충족하는 노드로 간주하는 것을 포함한다. 이 예시에서, 노드의 텍스트, 그림 및 대화형 등의 콘텐츠가 풍부하면, 비 타겟 노드일 가능성이 높다.
하나의 예시로서, 노드 생성 메커니즘에 따라 설정되는 규칙은: 지정된 생성 메커니즘이 있는 노드를, 리콜 규칙을 충족하는 노드로 간주하는 것을 포함한다. 이 예시에서, 페이지의 노드가 HTML 소스 코드와 JS에 의해 동적으로 생성된 노드를 포함한 경우, 그 중에서 JS에 의해 생성된 노드는 유연하고 변경 가능하며, 페이지의 주요 콘텐츠는 대부분 HTML로 되어 있으므로, 동적으로 변경해야 하는 광고 및 관련 추천 등과 같은 기타 콘텐츠는 JS를 사용하여 생성한다. 따라서 JS에 의해 생성된 노드가 타겟 노드일 가능성이 높다.
하나의 예시로서, 노드의 구조적 특징에 따라 설정되는 규칙은: 지정된 구조의 노드를, 리콜 규칙을 충족하는 노드로 간주하는 것을 포함한다. 이 예시에서, DOM 트리에 있는 노드의 구조 특징을 필터링 기준으로 사용할 수도 있다. 예를 들어, DOM 트리 구조에서, 일반 텍스트만 있는 노드는 대부분 비 타겟 노드(리콜 규칙을 충족하지 않는 노드)이고; 그리고, div/a/img 형태의 블록 수준 노드는 그림을 통해 프로모션을 수행하는 노드일 가능성이 높다.
이 개시의 실시예의 페이지 처리 방법에 따르면, 규칙에 기반한 러프 리콜에서, 리콜 규칙 중 어느 하나에 정의된 노드 리콜 조건을 적중하기만 하면, 그 노드가 의심 타겟 노드의 특성을 가지고 있음을 나타낼 수 있으므로, 후속적인 타겟 노드 판단 로직을 수행할 수 있다; 만약 모든 규칙에 적중되지 않으면, 비 타겟 노드로 간주하므로, 이렇게 리콜 규칙의 스크리닝 전략을 통해 브라우징 경험에 영향을 미치지 않는 여러 노멀 노드를 필터링할 수 있다.
하나의 실시예에서, 전술한 S130 단계 이전에, 다음 단계를 더 포함할 수 있다.
S51: 리콜 규칙을 충족하는 레이아웃 대상 노드를, 최초 스크리닝에 의해 획득된 레이아웃 대상 노드로 간주하여, 최초 스크리닝에 의해 획득된 레이아웃 대상 노드의 노드 상태를 결정한다.
S52: 페이지의 모든 레이아웃 대상 노드를 레이아웃한 후, 노드 상태가 변경된 레이아웃 대상 노드를 획득한다.
S53: 다시 미리 설정된 리콜 규칙을 사용하여, 노드 상태가 변경된 레이아웃 대상 노드를 스크리닝한다.
S54: 최초 스크리닝한 레이아웃 대상 노드와 다시 스크리닝에 의해 획득된 레이아웃 대상 노드를, 리콜 규칙을 충족하는 레이아웃 대상 노드로 간주한다.
이 실시예에서, 노드 레이아웃 과정에서, 일부 노드 사이에는 상호 의존 관계가 있기 때문에, 첫 번째 레이아웃 시에는 정확한 노드 시각 정보가 계산되지 않아, 이들 노드가 러프한 리콜 규칙을 충족하기 어렵다. 따라서 전체 레이아웃이 완료된 후, 노드 상태(예를 들어, 노드 시각 정보)가 변경된 노드를 확인하고, 또한 다시 그 노드에 대해 규칙에 기반한 러프 리콜을 수행하여, 재검사 Recheck 메커니즘을 통해 레이아웃 과정에서 상태가 변경되어 리콜 규칙을 충족하는 일군의 노드를 검색함으로써, 리콜 규칙을 충족하는 더 많은 노드를 리콜하여, 타겟 노드가 누락되는 것을 방지하는 것이 필요하다.
하나의 실시예에서, S130 단계는 구체적으로 다음 단계를 포함할 수 있다.
S61: 리콜 규칙을 충족하는 레이아웃 대상 노드의 속성 정보에 따라, 리콜 규칙을 충족하는 레이아웃 대상 노드의 노드 특징을 계산한다.
S62: 미리 설정된 노드 예측 모델을 사용하여 노드 특징을 처리하여, 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드일 확률값을 획득한다.
S63: 확률값에 따라, 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부를 결정한다.
이 실시예에서, 머신 러닝 모델을 사용하여 리콜 규칙을 충족하는 노드가 브라우징 경험에 영향을 미치는 지정 타겟 노드인지 여부를 판정할 수 있다.
하나의 실시예에서, 리콜 규칙을 충족하는 레이아웃 대상 노드는 페이지의 레이아웃 대상 트리의 노드이다. 구체적으로, S61은 구체적으로 다음 단계를 포함할 수 있다.
S71: 리콜 규칙을 충족하는 레이아웃 대상 노드의 속성 정보를 획득하고, 속성 정보는 레이아웃 과정에서 획득한 정보이다; S72: 깊이 우선 탐색의 방식을 채용하고, 속성 정보를 사용하여, 레이아웃 대상 트리에서 리콜 규칙을 충족하는 레이아웃 대상 노드에 대해, 하향식 특징 계산을 수행하여, 리콜 규칙을 충족하는 레이아웃 대상 노드의 노드 특징을 획득한다.
하나의 실시예에서, 노드 특징은 노드 시각 정보, 노드 콘텐츠, 노드 구조 등 방면으로부터 추출되고 계산된 지정 차원 특징일 수 있다. 지정 차원은 실제 계산 요구 사항에 따라 설정될 수 있다. 예를 들어 지정 차원은 10보다 크거나 같으며, 이 개시의 실시예는 지정 차원을 특별히 제한하지 않는다.
이 실시예에서, 레이아웃 대상 트리를 구축할 때, 상향식 특징 계산을 사용하여 부모 노드로 전송될 때까지 각 노드의 노드 특징을 결정할 수 있고, 또한 이 모드에서는 거의 모든 페이지 노드가 특징 계산에 참여해야 한다. 노드 레이아웃 시에 리콜 규칙에 기반하여 노멀 노드의 필터링을 하기 때문에, 깊이 우선 탐색의 방식을 채용하여, 하향식 특징 계산을 사용하여 리콜 규칙을 충족하는 레이아웃 대상 노드(즉, 의심 대상 노드)의 노드 특징을 선택적으로 계산함으로써, 특징을 계산하는 노드 수를 줄여, 노드 특징 계산 속도를 높일 수 있다.
하나의 실시예에서, 노드 예측 모델은 기 라벨링된 오프라인 렌더링으로 완료한 정적 페이지 데이터를 사용하여 미리 훈련을 통해 획득한 모델이고, 또한 노드 예측 모델은 지정된 깊이와 지정된 수의 의사 결정 트리를 갖는 경사도 증강 의사 결정 트리 모델이다.
예시적으로, 브라우저 커널에 의해 처리된 노드 특징은 동적으로 변하기 때문에, 훈련 데이터 선택 시에, 오프라인 렌더링이 완료된 정적 데이터에 대해 라벨링을 수행할 수 있으며, 고정밀 자동 라벨링 도구를 설정하여 수동 라벨링을 지원할 수 있고, 또한 마지막으로 훈련 데이터를 구성할 수 있다.
예시적으로, 머신 러닝을 통해 획득된 노드 예측 모델은 경사도 증강 결정 트리 모델(Gradient Boosted Decision Tree, GBDT)을 포함하며, 먼저 라벨링 데이터를 사용하여 GBDT 모델을 훈련을 통해 획득하고, 지정된 깊이와 지정된 수의 의사 결정 트리를 획득한다. 예를 들어, 깊이가 4 인 100개 트리의 모델 파일을 획득한 후, 후속적으로 모델 파일을 직접 사용하여 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부에 대해 예측을 수행한다.
전술한 훈련을 통해 획득한 노드 예측 모델의 깊이와 의사 결정 트리의 수는 예시적인 값이라는 점을 이해해야 하며, 실제 적용 시나리오에서, 사용자의 실제 요구에 따라 모델 훈련을 완료할 수 있으며, 이 개시의 실시예에서 특별히 제한되지 않는다.
하나의 실시예에서, S140 단계에서, 지정 타겟 노드를 차폐 처리하는 단계는, 구체적으로 다음 단계를 포함할 수 있다.
S81: 지정 타겟 노드의 속성 정보에 따라, 대응하는 노드 특성 정보를 계산한다.
그 중에서, 노드 특성 정보는 페이지 내의 위치, 너비, 높이, 주제 콘텐츠에 있는지 여부, 및 페이지에서의 면적 비율 중 적어도 하나를 포함한다.
S82: 노드 특성 정보가 대응하는 미리 설정된 차폐 임계값에 도달하면, 지정 타겟 노드의 상태를 숨김으로 설정하여, 브라우징 경험에 영향을 미치는 레이아웃 대상 노드를 차폐 처리한다.
이 개시의 실시예의 페이지 처리 방법은 타겟 노드의 차폐 전략을 제공하며, 그 차폐 전략은 지정 타겟 노드의 특징에 알맞은 처리 메커니즘을 채택할 수 있다. 타겟 노드를 식별한 후, 전체 페이지에서 타겟 노드의 특성 및 면적 비율을 계산한 다음, 페이지에서 노드의 위치, 너비 및 높이, 주제 콘텐츠에 있는지 여부 등과 같은 구성 가능한 차폐 임계값에 따라 차폐를 수행하여, 지정 타겟 노드를 유연하게 차폐함으로써, 모바일 검색의 생태적 안전성을 유지 및 보장하고, 또한 전체적으로 페이지 브라우징 경험을 최적화한다.
이 실시예에서, 사용자의 브라우징 경험에 영향을 미치는 요소를 차폐하고, 페이지를 렌더링하고 제작한 후, 사용자가 보는 것은 최적화된 페이지이므로, 사용자 브라우징 경험을 크게 향상시키고 또한 모바일 검색의 생태적 안전성을 보장한다.
이 개시의 실시예의 페이지 처리 방법은, 노드 상태를 숨김으로 설정하는 것과 같이 지정 타겟 노드에 대해 차폐 처리하고, 또한 커널 레이아웃 상태를 재설정하고, 커널 재 레이아웃을 적극적으로 시작하여, 전체 페이지 처리 과정이 노드가 제작되기 전에 이루어지므로, 사용자가 페이지를 브라우징할 때 페이지 노드에 숨겨진 지터 인식이 없어, 전체적으로 페이지 브라우징 경험을 최적화한다.
이 개시에서 페이지 처리 방법을 더 잘 이해하기 위해, 이하에서는 도 4를 통해 이 개시의 다른 실시예의 페이지 처리 흐름을 설명한다. 도 4는 이 개시의 다른 실시예에 따른 페이지 처리 방법의 흐름도를 도시한다. 도 4에 도시된 바와 같이, 페이지 처리 방법은 다음 단계를 포함할 수 있다.
S201: 페이지 URL에 따라 하이퍼텍스트 마크업 언어 HTML 파일을 다운로드한다.
S202: 파서를 통해 HTML 파일을 파싱하여 DOM 트리를 획득하고, 또한 획득된 HTML 파일의 CSS 및 JS 파일 리소스 링크를 파싱할 때, CSS를 다운로드 및 파싱하고, 그리고 JS 파일을 다운로드 및 실행한다.
이 단계에서, CSS를 다운로드 및 파싱하여, DOM 트리에 있는 노드의 스타일 데이터를 획득하며; JS 파일을 다운로드 및 실행한 후, JS를 통해 동적으로 로딩된 노드를 획득할 수 있으며, 또한 DOM 트리에 동적으로 로딩된 노드를 삽입 / 추가할 수 있다.
S203: DOM 트리에서 렌더링해야 하는 HTML 요소 노드와 DOM 트리에서 노드의 스타일 데이터에 따라, 레이아웃 대상 Layout Object 트리를 구성한다.
S204: Layout Object 트리의 구성이 완료된 후, 레이아웃 레이어 Layout Layer 트리를 생성한다.
이 단계에서, Layout Layer 트리를 기반으로 레이어 위치 결정 및 레이아웃을 구현할 수 있다.
S205: 레이아웃 대상 노드 트리에서 JS 동적 로딩에 의해 생성된 노드를 필터링하고, 또한 S209를 실행하여, 동적 로딩에 의해 생성된 노드의 재 레이아웃을 트리거한다.
도 4에서, JS 동적 로딩은 비동기적 리소스 로딩이므로, 동적 로딩에 의해 생성된 노드의 재 레이아웃 과정도 비동기적 리소스 로딩에 의해 트리거되는 노드 재 레이아웃이라고도 칭할 수 있다.
S206: Layout Object 트리의 노드를 레이아웃하는 과정에서, 레이아웃 대상 노드의 속성 정보를 수집한다.
S207: 미리 설정된 노드 예측 모델을 기반으로, 레이아웃 대상 노드가 브라우징 경험에 영향을 미치는 지정 타겟 노드인지 여부를 채점하고, 채점 결과에 따라 레이아웃 대상 노드가 브라우징 경험에 영향을 미치는지 여부를 예측한다.
이 단계에서, 레이아웃 대상 노드의 점수는, 레이아웃 대상 노드가 브라우징 경험에 영향을 미치는 지정 타겟 노드인지 여부에 대한 확률값이다.
일부 실시예에서, Layout Object 트리의 임의의 노드를 레이아웃한 후, 미리 설정된 리콜 규칙을 사용하여, 임의의 레이아웃 대상 노드를 필터링하여, Layout Object 트리에서 리콜 규칙을 충족하는 레이아웃 대상 노드를 획득할 수 있으므로, 전술한 S207 단계에서, 미리 설정된 노드 예측 모델에 기반하여, 리콜 규칙을 충족하는 레이아웃 대상 노드가 브라우징 경험에 영향을 미치는 지정 타겟 노드인지 여부에 대해 채점한다.
S208: 브라우징 경험에 영향을 미치는 지정 타겟 노드로 예측되면, 브라우저 커널은 레이아웃 상태를 설정하고, 또한 S209를 실행하여, 레이아웃 대상 노드의 재 레이아웃을 적극적으로 트리거한다.
S208 단계에서, 지정 타겟 노드에 대한 재 레이아웃을 통해, 지정 타겟 노드를 차폐 처리(예를 들어, 노드 상태를 숨김으로 설정)할 수 있다.
S209: 레이아웃 대상 노드의 재 레이아웃을 실행하여, 재 레이아웃된 차폐 처리 후의 레이아웃 대상 노드를 획득한다.
S210: 차폐 처리 후의 레이아웃 대상 노드를 기반으로 페이지를 제작하고, 제작된 페이지를 지정된 디스플레이 스크린에 표시한다.
이 개시의 실시예의 페이지 레이아웃 방법에 따르면, 리콜 규칙 및 전략에 기반한 전처리와 머신 러닝 모델의 조합 방식을 채택하여 렌더링할 노드를 필터링함으로써, 페이지에서 브라우징 경험에 영향을 미치는 요소를 차폐한다.
도 5는 이 개시의 실시예에서 페이지 처리의 효과의 개략도를 도시한다. 도 5에 도시된 바와 같이, 페이지 1은 노드 1, 노드 2, 노드 3 또는 노드 4와 같은 여러 HTML 대상 요소에 대응하는 여러 레이아웃 대상 노드를 포함하고 있다.
도 5에서, 페이지 1의 각 레이아웃 대상 노드는 레이아웃 시에 자체 레이아웃 방법을 호출하여, DOM 트리를 탐색하는 것을 피할 수 있다. 각 레이아웃 대상 노드에 대해, 다음 단계를 수행할 수 있다.
도 5의 S301 "규칙에 기반한 러프 리콜"에 도시된 바와 같이, 페이지의 여러 레이아웃 대상 노드를 레이아웃한 후, 미리 설정된 리콜 규칙을 사용하여, 레이아웃 대상 노드를 스크리닝하여, 페이지에서 리콜 규칙을 충족하는 레이아웃 대상 노드를 획득한다.
S301 단계는 전술한 실시예의 S120 단계와 동일한 처리 과정을 가지므로, 이 개시의 실시예에서 반복 설명하지 않는다.
도 5의 S302 "Recheck 메커니즘"에 도시된 바와 같이, 페이지의 모든 레이아웃 대상 노드를 레이아웃한 후, 다시 미리 설정된 리콜 규칙을 사용하여, 노드 상태가 변경된 레이아웃 대상 노드를 스크리닝한다.
S302 단계는 전술한 실시예의 S53과 동일한 처리 과정을 가지므로, 이 개시의 실시예에서 반복 설명하지 않는다.
도 5의 S303 "모델에 기반한 리콜"에 도시된 바와 같이, 미리 설정된 노드 예측 모델을 기반으로, 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부를 예측한다.
단계 S303은 전술한 실시예의 단계 S130과 동일한 처리 과정을 가지므로, 이 개시의 실시예에서 반복 설명하지 않는다.
도 5의 S304 "차폐 처리"에 도시된 바와 같이, 지정 타겟 노드를 차폐 처리하고, 차폐 처리 후의 레이아웃 타겟 노드를 사용하여, 차폐 처리된 페이지를 생성한다.
S304 단계는 전술한 실시예의 S140 단계와 동일한 처리 과정을 가지므로, 이 개시의 실시예에서 반복 설명하지 않는다.
도 5에 도시된 바와 같이, 페이지 1의 렌더링이 완료된 후, 사용자가 보는 것은 최적화된 페이지 2이므로, 사용자의 브라우징 경험을 크게 향상시키고, 또한 모바일 검색의 생태적 보안을 보호한다.
도 6은 이 개시의 실시예에 의해 제공되는 페이지 처리 장치의 구성 블록도를 도시한다. 도 6에 도시된 바와 같이, 페이지 처리 장치는 다음 모듈을 포함한다.
노드 결정 모듈(610)은, 획득된 하이퍼텍스트 마크업 언어 HTML 파일에 따라, 페이지의 여러 레이아웃 대상 노드를 결정하도록 구성된다.
노드 스크리닝 모듈(620)은, 페이지의 여러 레이아웃 대상 노드를 레이아웃한 후, 미리 설정된 리콜 규칙을 사용하여, 레이아웃 대상 노드를 스크리닝하여, 리콜 규칙을 충족하는 레이아웃 대상 노드를 획득하도록 구성된다.
예측 모듈(630)은, 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부를 예측하도록 구성된다.
일부 실시예에서, 예측 모듈(630)은 미리 설정된 노드 예측 모델에 기반하여, 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부를 예측하도록 구성된다.
차폐 처리 모듈(640)은, 지정 타겟 노드를 차폐 처리하고, 차폐 처리 후의 나머지 레이아웃 대상 노드를 사용하여, 차폐 처리된 페이지를 생성하도록 구성된다.
이 개시의 실시예의 페이지 처리 장치에 따르면, 웹 사이트에 표시되는 페이지의 콘텐츠를 필터링하여, 모바일 검색의 생태적 안전성을 보호함으로써, 사용자 브라우징 경험을 향상시킬 수 있다.
하나의 실시예에서, 노드 결정 모듈(610)은 다음 유닛을 포함할 수 있다.
제1 파싱 유닛은, HTML 파일을 파싱하여, 문서 대상 모델 DOM과 캐스케이딩 스타일 시트 CSS를 획득하도록 구성되고; 제2 파싱 유닛은, CSS를 파싱하여, DOM에서 HTML 요소 노드의 스타일 데이터를 획득하도록 구성되고; 노드 결정 모듈(610)은, 구체적으로 DOM에서 렌더링해야 하는 HTML 요소 노드와 스타일 데이터에 따라, 페이지의 여러 레이아웃 대상 노드를 결정하도록 구성된다.
그 중에서, 각 레이아웃 대상 노드는 렌더링해야 하는 하나의 HTML 요소 노드에 대응하며, 또한 각 레이아웃 대상 노드의 스타일 데이터는 대응하는 HTML 요소 노드의 스타일 데이터이다.
하나의 실시예에서, HTML 파일을 파싱하여 스크립트 파일 링크를 획득하는 경우, 노드 결정 모듈(610)은 다음을 더 포함할 수 있다: 다운로드 실행 유닛은, 스크립트 파일 링크에 대응하는 스크립트 파일을 다운로드 및 실행하여, 스크립트 파일에 대응하는 HTML 요소 노드를 획득하도록 구성되며; 노드 결정 모듈(610)은, 구체적으로 스크립트 파일에 대응하는 HTML 요소 노드를, 리콜 규칙을 충족하는 레이아웃 대상 노드로 간주하도록 구성된다.
하나의 실시예에서, 노드 스크리닝 모듈(620)은 다음을 더 포함할 수 있다: 페이지의 여러 레이아웃 대상 노드를 결정한 후, 여러 레이아웃 대상 노드가 스크립트 파일을 통해 로딩된 레이아웃 대상 노드를 포함하면, 스크립트 파일을 통해 로딩된 레이아웃 대상 노드를, 리콜 규칙을 충족하는 레이아웃 대상 노드로 간주한다.
하나의 실시예에서, 노드 스크리닝 모듈(620)은 구체적으로 다음을 포함할 수 있다: 속성 정보 획득 유닛은, 페이지의 임의의 레이아웃 대상 노드를 레이아웃하여, 레이아웃된 레이아웃 대상 노드의 속성 정보를 획득하도록 구성되며; 조건 충족 판단 유닛은, 속성 정보가 리콜 규칙에 정의된 노드 리콜 조건을 충족하는지 여부를 판단하도록 구성되며; 리콜 노드 결정 유닛은, 리콜 규칙을 충족하는 레이아웃 대상 노드를, 노드 리콜 조건을 충족하는 레이아웃 대상 노드로 간주하도록 구성된다.
하나의 실시예에서, 리콜 규칙은: 노드 너비 및 높이 비율, 노드 내장 형태, 노드 위치 특징, 노드 콘텐츠, 노드 생성 메커니즘 및 노드 구조 중 적어도 하나에 따라 미리 설정된 규칙을 포함할 수 있다.
하나의 실시예에서, 페이지 처리 장치는 다음을 더 포함할 수 있다: 노드 상태 결정 모듈은, 리콜 규칙을 충족하는 레이아웃 대상 노드를, 최초 스크리닝에 의해 획득된 레이아웃 대상 노드로 간주하여, 최초 스크리닝에 의해 획득된 레이아웃 대상 노드의 노드 상태를 결정하도록 구성되며; 상태 변경 노드 획득 모듈은, 페이지의 모든 레이아웃 대상 노드를 레이아웃한 후, 노드 상태가 변경된 레이아웃 대상 노드를 획득하도록 구성되며; 노드 재 스크리닝 모듈은, 다시 미리 설정된 리콜 규칙을 사용하여, 노드 상태가 변경된 레이아웃 대상 노드를 스크리닝하도록 구성되며; 스크리닝 노드 결정 모듈은, 최초 스크리닝된 레이아웃 대상 노드와 재 스크리닝에 의해 획득된 레이아웃 대상 노드를, 리콜 규칙을 충족하는 레이아웃 대상 노드로 간주하도록 구성된다.
하나의 실시예에서, 모델 예측 모듈(330)은 다음을 포함할 수 있다: 특징 계산 유닛은, 리콜 규칙을 충족하는 레이아웃 대상 노드의 속성 정보에 따라, 리콜 규칙을 충족하는 레이아웃 대상 노드의 노드 특징을 계산하도록 구성되며; 확률 계산 유닛은, 미리 설정된 노드 예측 모델을 사용하여 노드 특징을 처리하고, 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인 확률값을 획득하도록 구성되며; 타겟 노드 결정 유닛은, 확률값에 따라, 리콜 규칙을 충족하는 레이아웃 타겟 노드가 지정 타겟 노드인지 여부를 결정하도록 구성된다.
하나의 실시예에서, 리콜 규칙을 충족하는 레이아웃 대상 노드는 페이지의 레이아웃 대상 트리의 노드이다.
이 실시예에서, 특징 계산 유닛은 다음을 포함할 수 있다: 속성 정보 수집 서브 유닛은, 리콜 규칙을 충족하는 레이아웃 대상 노드의 속성 정보를 획득하도록 구성되고, 속성 정보는 레이아웃 과정에서 획득된 정보이다; 특징 계산 유닛은, 깊이 우선 탐색의 방식을 채택하고, 속성 정보를 사용하여, 레이아웃 대상 트리에서 리콜 규칙을 충족하는 레이아웃 대상 노드에 대해, 하향식 특징 계산을 수행하여, 리콜 규칙을 충족하는 레이아웃 대상 노드의 노드 특징을 획득하도록 구성된다.
하나의 실시예에서, 노드 예측 모델은, 기 라벨링된 오프라인 렌더링으로 완료한 정적 페이지 데이터를 사용하여 미리 훈련된 모델이고, 또한 노드 예측 모델은 지정된 깊이 및 지정된 수의 의사 결정 트리를 갖는 경사도 증강 결정 트리 모델이다.
하나의 실시예에서, 차폐 처리 모듈(340)은 구체적으로 다음을 포함할 수 있다: 특성 계산 유닛은, 지정 타겟 노드의 속성 정보에 따라, 대응하는 노드 특성 정보를 계산하도록 구성되며, 노드 특성 정보는 페이지 내의 위치, 너비, 높이, 주제 콘텐츠에 있는지 여부, 및 페이지 내의 면적 비율 중 적어도 하나를 포함한다; 노드 차폐 유닛은, 노드 특성 정보가 대응하는 미리 설정된 차폐 임계값에 도달하면, 지정 타겟 노드의 상태를 숨김으로 설정하여, 지정 타겟 노드를 차폐 처리하도록 구성된다.
하나의 실시예에서, 차폐 처리 모듈(340)은 구체적으로 다음을 더 포함할 수 있다: 제작 유닛은, 차폐 처리 후의 나머지 레이아웃 대상 노드를 사용하여 재 레이아웃하고, 또한 재 레이아웃 후의 레이아웃 대상 노드를 사용하여 제작을 수행하여, 제작된 차폐 처리 후의 페이지를 획득한다.
이 개시의 실시예의 페이지 처리 장치에 따르면, 규칙 리콜과 모델 예측을 결합한 방안을 사용하여, 지정 타겟 노드를 차폐 처리하고, 전체 페이지 처리 과정이 노드가 제작되기 전에 이루어지므로, 사용자가 페이지를 브라우징할 때 페이지 노드가 숨겨진 지터 인식이 없도록 보장하여, 전체적으로 페이지 브라우징 경험을 최적화한다.
도 7은 이 개시의 실시예에 의해 제공되는 전자 기기의 구성 블럭도이다; 도 6에 도시된 바와 같이, 이 개시의 실시예는 다음을 포함하는 전자 기기(700)를 제공한다: 하나 이상의 프로세서(701); 메모리(702)는, 그 위에 하나 이상의 프로그램을 저장하고, 하나 이상의 프로그램이 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서는 전술한 어느 하나의 페이지 처리 방법을 구현한다; 하나 이상의 I/O 인터페이스(703)는 프로세서와 메모리 사이에 연결되고, 프로세서와 메모리 사이의 정보 인터랙션을 구현하도록 구성된다.
그 중에서, 프로세서(701)는 데이터 처리 능력을 가진 장치이고, 이는 중앙 처리 장치(CPU) 등을 포함하지만, 이에 제한되지는 않는다; 메모리(702)는 데이터 저장 기능을 가진 장치이며, 이는 랜덤 액세스 메모리(RAM, 보다 구체적으로는 SDRAM, DDR 등), 읽기 전용 메모리(ROM), 충전된 소거 가능 프로그램 읽기 전용 메모리(EEPROM), 플래시 메모리(FLASH)를 포함하지만, 이에 제한되지는 않는다; I/O 인터페이스(읽기-쓰기 인터페이스)(703)는 프로세서(701)와 메모리(702) 사이에 연결되어, 프로세서(701)와 메모리(702) 사이의 정보 인터랙션을 구현할 수 있으며, 이는 데이터 버스(Bus) 등을 포함하지만, 이에 제한되지는 않는다.
일부 실시예에서, 프로세서(701), 메모리(702) 및 I/O 인터페이스(703)는 버스(704)를 통해 서로 연결되고, 전자 기기(700)의 다른 구성 요소에 추가로 연결된다.
도 8은 이 개시의 실시예에 의해 제공되는 컴퓨터 판독 가능 매체의 구성 블록도이다. 도 8에 도시된 바와 같이, 이 개시의 실시예는 그 위에 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체를 제공하며, 프로그램이 프로세서에 의해 실행될 때 전술한 어느 하나의 페이지 처리 방법이 구현된다.
이 분야의 기술자는 위에서 공개된 방법 중의 전부 또는 일부 단계와, 시스템 및 장치 중의 기능 모듈/유닛이 소프트웨어, 펌웨어, 하드웨어 및 이들의 적절한 조합으로 구현될 수 있음을 이해할 수 있다. 하드웨어 구현에서, 위 설명에서 언급된 기능 모듈/유닛 간의 구분은 반드시 물리적 구성 요소의 구분과 일치하지는 것은 아니다; 예를 들어, 하나의 물리적 구성 요소는 여러 기능을 가질 수 있거나 하나의 기능 또는 단계가 여러 물리적 구성 요소의 협력에 의해 실행될 수 있다. 일부 물리적 구성 요소 또는 모든 물리적 구성 요소는 중앙 처리 장치, 디지털 신호 프로세서 또는 마이크로 프로세서와 같은 프로세서에 의해 실행되는 소프트웨어로 구현되거나, 하드웨어로 구현되거나 또는 전용 집적 회로와 같은 집적 회로로 구현될 수 있다. 이러한 소프트웨어는 컴퓨터 판독 가능 매체에 배포될 수 있으며, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체(또는 비 일시적 매체) 및 통신 매체(또는 일시적인 매체)를 포함할 수 있다. 이 분야의 기술자에게 잘 알려진 바와 같이, 컴퓨터 저장 매체라는 용어는 정보(예를 들면, 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터)를 저장하기 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성,이동식 및 비 이동식 매체를 포함한다. 컴퓨터 저장 매체에는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, 디지털 다용도 디스크(DVD) 또는 기타 광 디스크 스토리지, 자기 카세트, 자기 테이프, 자기 디스크 스토리지 또는 기타 자기 저장 장치, 또는 원하는 정보를 저장하는데 사용되며 컴퓨터에서 액세스할 수 있는 기타 모든 매체가 포함되지만, 이에 제한되지는 않는다. 또한, 이 분야의 기술자에게 잘 알려진 바와 같이, 통신 매체는 일반적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 반송파 또는 기타 전송 메커니즘과 같은 변조된 데이터 신호의 기타 데이터를 포함하고, 또한 임의의 정보 전달 매체를 포함할 수 있다.
이 명세서에는 예시적인 실시예가 공개되고, 특정 용어가 채택되었지만, 이들은 단지 일반적인 설명적 의미로만 사용되고 해석되어야 하며, 제한적인 목적으로 사용되지는 않는다. 일부 실시예에서, 달리 명확하게 지시되지 않는 한, 특정 실시예와 결합하여 설명된 특징, 특성 및/또는 요소가 단독으로 사용될 수 있거나, 다른 실시예와 결합하여 설명된 특징, 특성 및/또는 요소의 조합이 사용될 수 있다는 것은 이 분야의 기술자에게 명백하다. 따라서, 이 분야의 기술자는 청구 범위에 의해 제시된 이 개시 내용의 범위를 벗어나지 않고 형태 및 세부 사항의 다양한 변경이 이루어질 수 있음을 이해할 수 있을 것이다.

Claims (12)

  1. 획득한 하이퍼텍스트 마크업 언어 HTML 파일에 따라, 페이지의 여러 레이아웃 대상 노드를 결정하고;
    상기 페이지의 여러 레이아웃 대상 노드를 레이아웃한 후, 미리 설정된 리콜 규칙을 사용하여, 상기 여러 레이아웃 대상 노드를 스크리닝하여, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드를 획득하고;
    상기 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부를 예측하며; 그리고,
    상기 지정 타겟 노드를 차폐 처리하고, 차폐 처리 후의 나머지 레이아웃 대상 노드를 사용하여, 상기 차폐 처리된 페이지를 생성하는, 페이지 처리 방법.
  2. 청구항 1에 있어서,
    상기 페이지의 여러 레이아웃 대상 노드를 결정한 후에:
    상기 여러 레이아웃 대상 노드가 스크립트 파일을 통해 로딩된 레이아웃 대상 노드를 포함한 것으로 결정되면, 상기 스크립트 파일을 통해 로딩된 레이아웃 대상 노드를, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드로 간주하는 것을 더 포함하는, 페이지 처리 방법.
  3. 청구항 1에 있어서,
    상기 상기 페이지의 여러 레이아웃 대상 노드를 레이아웃한 후, 미리 설정된 리콜 규칙을 사용하여, 상기 레이아웃 대상 노드를 스크리닝하여, 상기 여러 레이아웃 대상 노드에서 상기 리콜 규칙을 충족하는 레이아웃 대상 노드를 획득하는 것은:
    상기 페이지의 레이아웃 대상 노드를 레이아웃하여, 상기 레이아웃된 레이아웃 대상 노드의 속성 정보를 획득하고;
    상기 속성 정보가 상기 리콜 규칙에 정의된 노드 리콜 조건을 충족하는지 여부를 판단하며; 그리고,
    상기 노드 리콜 조건을 충족하는 레이아웃 대상 노드를, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드로 간주하는 것을 포함하는, 페이지 처리 방법.
  4. 청구항 3에 있어서,
    상기 리콜 규칙은: 노드 너비 및 높이 비율, 노드 내장 형태, 노드 위치 특징, 노드 콘텐츠, 노드 생성 메커니즘 및 노드 구조 중 적어도 하나에 따라 미리 설정된 규칙을 포함하는, 페이지 처리 방법.
  5. 청구항 1에 있어서,
    상기 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부를 예측하기 전에:
    상기 리콜 규칙을 충족하는 레이아웃 대상 노드를, 최초 스크리닝에 의해 획득된 레이아웃 대상 노드로 간주하여, 상기 최초 스크리닝에 의해 획득된 레이아웃 대상 노드의 노드 상태를 결정하고;
    상기 페이지의 모든 레이아웃 대상 노드를 레이아웃한 후, 노드 상태가 변경된 레이아웃 대상 노드를 획득하고;
    다시 미리 설정된 리콜 규칙을 사용하여, 노드 상태가 변경된 레이아웃 대상 노드를 스크리닝하며; 그리고,
    상기 최초 스크리닝한 레이아웃 대상 노드와 상기 다시 스크리닝에 의해 획득된 레이아웃 대상 노드를, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드로 간주하는 것을 더 포함하는, 페이지 처리 방법.
  6. 청구항 1에 있어서,
    상기 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부를 예측하는 것은:
    상기 리콜 규칙을 충족하는 레이아웃 대상 노드의 속성 정보에 따라, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드의 노드 특징을 계산하고;
    미리 설정된 노드 예측 모델을 사용하여 상기 노드 특징을 처리하여, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드가 상기 지정 타겟 노드일 확률값을 획득하며; 그리고,
    상기 확률값에 따라, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드가 상기 지정 타겟 노드인지 여부를 결정하는, 페이지 처리 방법.
  7. 청구항 6에 있어서,
    상기 리콜 규칙을 충족하는 레이아웃 대상 노드는, 상기 페이지의 레이아웃 대상 트리의 노드이며; 그리고,
    상기 리콜 규칙을 충족하는 레이아웃 대상 노드의 속성 정보에 따라, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드의 노드 특징을 계산하는 것은:
    상기 리콜 규칙을 충족하는 레이아웃 대상 노드의 속성 정보를 획득하고, 상기 속성 정보는 레이아웃 과정에서 획득한 정보이며; 그리고,
    깊이 우선 탐색의 방식을 채용하고, 상기 속성 정보를 사용하여, 상기 레이아웃 대상 트리에서 상기 리콜 규칙을 충족하는 레이아웃 대상 노드에 대해, 하향식 특징 계산을 수행하여, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드의 노드 특징을 획득하는 것을 포함하는, 페이지 처리 방법.
  8. 청구항 6에 있어서,
    상기 노드 예측 모델은, 기 라벨링된 오프라인 렌더링으로 완료한 정적 페이지 데이터를 사용하여 미리 훈련을 통해 획득한 모델이고, 또한 상기 노드 예측 모델은 지정된 깊이와 지정된 수의 의사 결정 트리를 갖는 경사도 증강 의사 결정 트리 모델인, 페이지 처리 방법.
  9. 청구항 1에 있어서,
    상기 지정 타겟 노드를 차폐 처리하는 것은:
    상기 지정 타겟 노드의 속성 정보에 따라, 대응하는 노드 특성 정보를 계산하고, 상기 노드 특성 정보는 상기 페이지 내의 위치, 너비, 높이, 주제 콘텐츠에 있는지 여부, 및 상기 페이지에서의 면적 비율 중 적어도 하나를 포함하며: 그리고,
    상기 노드 특성 정보가 대응하는 미리 설정된 차폐 임계값에 도달한 것으로 결정되면, 상기 지정 타겟 노드의 상태를 숨김으로 설정하여, 상기 지정 타겟 노드를 차폐 처리하는 것을 포함하는, 페이지 처리 방법.
  10. 획득된 하이퍼텍스트 마크업 언어 HTML 파일에 따라, 페이지의 여러 레이아웃 대상 노드를 결정하도록 구성되는, 노드 결정 모듈;
    상기 페이지의 여러 레이아웃 대상 노드를 레이아웃한 후, 미리 설정된 리콜 규칙을 사용하여, 상기 레이아웃 대상 노드를 스크리닝하여, 상기 리콜 규칙을 충족하는 레이아웃 대상 노드를 획득하도록 구성되는, 노드 스크리닝 모듈;
    상기 리콜 규칙을 충족하는 레이아웃 대상 노드가 지정 타겟 노드인지 여부를 예측하도록 구성되는, 예측 모듈; 그리고,
    상기 지정 타겟 노드를 차폐 처리하고, 차폐 처리 후의 나머지 레이아웃 대상 노드를 사용하여, 상기 차폐 처리된 페이지를 생성하도록 구성되는, 차폐 처리 모듈;을 포함하는, 페이지 처리 장치.
  11. 하나 이상의 프로세서;
    그 위에 하나 이상의 프로그램을 저장하고, 상기 하나 이상의 프로그램이 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서는 청구항 1 내지 청구항 9 중 어느 하나의 상기 페이지 처리 방법을 구현하는, 메모리; 그리고,
    상기 프로세서와 메모리 사이에 연결되고, 상기 프로세서와 상기 메모리 사이의 정보 인터랙션을 구현하도록 구성되는, 하나 이상의 I/O 인터페이스를 포함하는, 전자 기기.
  12. 그 위에 컴퓨터 프로그램이 저장되며, 상기 프로그램이 프로세서에 의해 실행될 때 청구항 1 내지 청구항 9 중 어느 하나의 상기 페이지 처리 방법을 구현하는, 컴퓨터 판독 가능 매체.
KR1020217008647A 2020-02-27 2020-07-14 페이지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 매체 KR102565950B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010125624.1A CN111353112A (zh) 2020-02-27 2020-02-27 页面处理方法、装置、电子设备和计算机可读介质
CN202010125624.1 2020-02-27
PCT/CN2020/101910 WO2021098242A1 (zh) 2020-02-27 2020-07-14 页面处理方法、装置、电子设备和计算机可读介质

Publications (2)

Publication Number Publication Date
KR20210040449A true KR20210040449A (ko) 2021-04-13
KR102565950B1 KR102565950B1 (ko) 2023-08-10

Family

ID=75488696

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217008647A KR102565950B1 (ko) 2020-02-27 2020-07-14 페이지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 매체

Country Status (1)

Country Link
KR (1) KR102565950B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117806585A (zh) * 2024-02-29 2024-04-02 山东京运维科技有限公司 基于智能终端的屏幕控制方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130145255A1 (en) * 2010-08-20 2013-06-06 Li-Wei Zheng Systems and methods for filtering web page contents
CN103294781A (zh) * 2013-05-14 2013-09-11 百度在线网络技术(北京)有限公司 一种用于处理页面数据的方法与设备
US20180341986A1 (en) * 2016-06-03 2018-11-29 Tencent Technology (Shenzhen) Company Limited Information processing method, terminal, backgroundserver and system, storage medium
CN110489636A (zh) * 2018-05-15 2019-11-22 南京大学 一种基于代码分析与图像处理的网页广告屏蔽方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130145255A1 (en) * 2010-08-20 2013-06-06 Li-Wei Zheng Systems and methods for filtering web page contents
CN103294781A (zh) * 2013-05-14 2013-09-11 百度在线网络技术(北京)有限公司 一种用于处理页面数据的方法与设备
US20180341986A1 (en) * 2016-06-03 2018-11-29 Tencent Technology (Shenzhen) Company Limited Information processing method, terminal, backgroundserver and system, storage medium
CN110489636A (zh) * 2018-05-15 2019-11-22 南京大学 一种基于代码分析与图像处理的网页广告屏蔽方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117806585A (zh) * 2024-02-29 2024-04-02 山东京运维科技有限公司 基于智能终端的屏幕控制方法及系统

Also Published As

Publication number Publication date
KR102565950B1 (ko) 2023-08-10

Similar Documents

Publication Publication Date Title
US10699061B2 (en) Application page quick access
WO2021098242A1 (zh) 页面处理方法、装置、电子设备和计算机可读介质
CN107368487B (zh) 一种页面组件动态布局方法、装置及客户端
CN106326316B (zh) 一种网页广告过滤方法及装置
US8640037B2 (en) Graphical overlay related to data mining and analytics
US10289649B2 (en) Webpage advertisement interception method, device and browser
US10007933B2 (en) Systems and methods for integrating dynamic content into electronic media
US8489985B2 (en) Automatically adjusting a webpage
CN110069683B (zh) 一种基于浏览器爬取数据的方法及装置
CN104331474A (zh) 页面处理方法及装置
CN101999114A (zh) 用于动态消息放置的系统和方法
CN106033450B (zh) 一种广告拦截的方法、装置和浏览器
US9749440B2 (en) Systems and methods for hosted application marketplaces
US9830304B1 (en) Systems and methods for integrating dynamic content into electronic media
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及系统
CN106155654B (zh) 屏蔽网页操作的方法、装置及电子设备
CN112685671A (zh) 页面显示方法、装置、设备及存储介质
CN109740041B (zh) 网页爬取方法、装置、存储介质和计算机设备
CN106202368B (zh) 预加载方法和装置
CN111400575B (zh) 用户标识生成方法、用户识别方法及其装置
CN104598571A (zh) 一种多媒体资源的播放方法及装置
CN104899217B (zh) 一种自定义功能的实现方法及装置
US20150205767A1 (en) Link appearance formatting based on target content
CN104899203B (zh) 一种网页页面的生成方法、装置及终端设备
CN104731817B (zh) 一种网页展现方法和装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant