KR102615979B1 - 데이터 업데이트 방법, 장치, 검색 서버, 단말 및 저장매체 - Google Patents

데이터 업데이트 방법, 장치, 검색 서버, 단말 및 저장매체 Download PDF

Info

Publication number
KR102615979B1
KR102615979B1 KR1020217023258A KR20217023258A KR102615979B1 KR 102615979 B1 KR102615979 B1 KR 102615979B1 KR 1020217023258 A KR1020217023258 A KR 1020217023258A KR 20217023258 A KR20217023258 A KR 20217023258A KR 102615979 B1 KR102615979 B1 KR 102615979B1
Authority
KR
South Korea
Prior art keywords
web page
crawling
stored
target
terminal
Prior art date
Application number
KR1020217023258A
Other languages
English (en)
Other versions
KR20210098542A (ko
Inventor
쥔치 리우
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202010357679.5A external-priority patent/CN111767442B/zh
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20210098542A publication Critical patent/KR20210098542A/ko
Application granted granted Critical
Publication of KR102615979B1 publication Critical patent/KR102615979B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 출원의 실시예에서 제공하는 데이터 업데이트 방법, 장치, 검색 서버, 단말 및 저장매체에서, 검색 서버는 단말로 검색 키워드와 관련되는 하나 또는 복수의 웹페이지를 포함하는 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 서버가 사전에 각각의 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 기저장 웹페이지 요약을 더 포함하고, 나아가 단말은 사용자가 트리거한 목표 웹페이지에 대해 크롤링을 수행하여 현재 웹페이지 요약을 획득하고, 단말은 현재 웹페이지 요약과 기저장 웹페이지 요약에 대해 일치성 대조를 수행한 대조 정보를 검색 서버로 발송하고, 최종적으로 검색 서버는 목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트한다. 기존의 정기적으로 웹페이지에 대해 크롤링하는 방식과 비교할 때, 본 출원의 검색 서버는 단말로부터 제공되는 대조 정보를 통해 목표 웹페이지에 대한 재 크롤링을 수행하여 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트하고, 크롤링 효율을 향상시킨다.

Description

데이터 업데이트 방법, 장치, 검색 서버, 단말 및 저장매체
본 출원은 데이터 처리 기술분야에 관한 것으로, 특히 지능형 검색 기술에 관한 것이다.
삭제
지능형 단말의 보급, 정보 데이터량의 폭발적인 증가에 따라, 검색 서버의 처리 능력에 대한 요구가 더욱 높아지고 있다.
사용자에게 더욱 전면적인 검색 결과를 제공하기 위해, 검색 서버는 크롤러 기술을 이용하여 각 웹페이지에 대해 크롤링(crawling)하고, 웹페이지 검색 결과를 표시할 때, 검색 서버는 동기적으로 웹페이지 및 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보를 표시한다. 검색 결과의 시효성을 확보하기 위하여, 검색 서버는 일반적으로 정기적으로 크롤링하는 방식을 사용하여, 즉 기설정 시간 주기에 따라 모든 웹페이지에 대해 크롤링한다.
하지만, 웹페이지 데이터량이 막대하고, 정기적으로 모든 웹페이지에 대해 크롤링하는 방식은 매번 크롤링하는데 소요되는 시간이 보다 길고, 크롤링 효율이 낮다.
상술한 기술 문제에 대하여, 본 출원의 실시예는 데이터 업데이트 방법, 장치, 검색 서버, 단말 및 저장매체를 제공한다.
제1 측면에 따르면, 본 출원은 데이터 업데이트 방법을 제공한다. 해당 방법은,
단말로 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 키워드와 관련되는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함하고, 상기 기저장 웹페이지 요약은 사전에 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보인 단계;
단말로부터 발송되는 목표 웹페이지의 대조 정보를 수신하며, 상기 대조 정보는 상기 단말이 현재 웹페이지 요약과 상기 기저장 웹페이지 요약에 대해 일치성 대조를 수행하여 획득한 것이고, 상기 현재 웹페이지 요약은 상기 단말이 목표 웹페이지를 브라우징할 때 목표 웹페이지 내용에 대해 크롤링하여 획득한 것인 단계;
목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트하는 단계를 포함한다.
제2 측면에 따르면, 본 출원은 데이터 업데이트 방법을 제공한다. 해당 방법은,
검색 서버로부터 제공되는 검색 결과 웹페이지를 수신 및 표시하며, 상기 검색 결과 웹페이지는 사용자가 트리거한 검색 키워드와 관련되는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함하고, 상기 기저장 웹페이지 요약은 검색 서버가 사전에 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보인 단계;
상기 검색 결과 웹페이지에서 목표 웹페이지를 결정하고, 상기 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여 현재 웹페이지 요약을 획득하는 단계;
상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약에 대해 일치성 대조를 수행하여 대조 정보를 획득하고, 상기 검색 서버가 상기 대조 정보를 기초로 상기 기저장 웹페이지 요약에 대해 업데이트하도록 상기 대조 정보를 검색 서버로 발송하는 단계를 포함한다.
제3 측면에 따르면, 본 출원은 데이터 업데이트 장치를 제공한다. 해당 장치는,
통신 모듈, 크롤링 모듈 및 업데이트 모듈을 포함하고;
여기서, 상기 통신 모듈은 단말로 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 키워드와 관련되는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함하고, 상기 기저장 웹페이지 요약은 사전에 크롤링 모듈을 이용하여 사전에 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보이고;
통신 모듈은 또한 단말로부터 발송되는 목표 웹페이지의 대조 정보를 수신하며, 상기 대조 정보는 상기 단말이 현재 웹페이지 요약과 상기 기저장 웹페이지 요약에 대해 일치성 대조를 수행하여 획득한 것이고, 상기 현재 웹페이지 요약은 상기 단말이 목표 웹페이지를 브라우징할 때 목표 웹페이지 내용에 대해 크롤링하여 획득한 것이고;
업데이트 모듈은 목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트한다.
제4 측면에 따르면, 본 출원은 데이터 업데이트 장치를 제공한다. 해당 장치는,
송수신 모듈 및 대조 모듈을 포함하고;
여기서, 상기 송수신 모듈은 검색 서버로부터 제공되는 검색 결과 웹페이지를 수신 및 표시하며, 상기 검색 결과 웹페이지는 사용자가 트리거한 검색 키워드와 관련되는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함하고, 상기 기저장 웹페이지 요약은 검색 서버가 사전에 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보이고;
상기 대조 모듈은 상기 검색 결과 웹페이지에서 목표 웹페이지를 결정하고, 상기 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여 현재 웹페이지 요약을 획득하고; 또한 상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약에 대해 일치성 대조를 수행하여 대조 정보를 획득하고;
상기 송수신 모듈은 또한 상기 검색 서버가 상기 대조 정보를 기초로 상기 기저장 웹페이지 요약에 대해 업데이트하도록 상기 대조 정보를 검색 서버로 발송한다.
제5 측면에 따르면, 본 출원은 검색 서버를 더 제공한다. 해당 검색 서버는,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고,
상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1 측면 중 어느 하나에 따른 방법을 수행할 수 있도록 한다.
제6 측면에 따르면, 본 출원은 단말을 더 제공한다. 해당 단말은,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고,
상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제2 측면 중 어느 하나에 따른 방법을 수행할 수 있도록 한다.
제7 측면에 따르면, 본 출원은 컴퓨터 판독 가능 저장매체를 제공하고, 상기 컴퓨터 판독 가능 저장매체에 컴퓨터 실행 명령이 저장되어 있고, 프로세서가 상기 컴퓨터 실행 명령을 실행할 때, 제1 측면 중 어느 하나에 따른 방법을 구현한다.
제8 측면에 따르면, 본 출원은 비일시적 컴퓨터 판독 가능 저장매체를 제공하고, 상기 컴퓨터 판독 가능 저장매체에 컴퓨터 실행 명령이 저장되어 있고, 프로세서가 상기 컴퓨터 실행 명령을 실행할 때, 제2 측면 중 어느 한 항에 따른 방법을 구현한다.
제9 측면에 따르면, 본 출원은 컴퓨터 프로그램을 제공하며, 프로그램 코드를 포함하고, 컴퓨터가 상기 컴퓨터 프로그램을 실행할 때, 상기 프로그램 코드는 제1 측면 또는 제2 측면에 따른 방법을 수행한다.
본 출원의 실시예에서 제공하는 데이터 업데이트 방법, 장치, 검색 서버, 단말 및 저장매체에 있어서, 검색 서버는 단말로 검색 키워드와 관련되는 하나 또는 복수의 웹페이지를 포함하는 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 서버가 사전에 각각의 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 기저장 웹페이지 요약을 더 포함하고, 나아가 단말은 사용자가 트리거한 목표 웹페이지에 대해 크롤링을 수행하여 현재 웹페이지 요약을 획득하고, 단말은 현재 웹페이지 요약과 기저장 웹페이지 요약에 대해 일치성 대조를 수행한 대조 정보를 검색 서버로 발송하고, 최종적으로 검색 서버는 목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트한다. 기존의 정기적으로 웹페이지에 대해 크롤링하는 방식과 비교할 때, 본 출원은 검색 서버가 단말로부터 제공되는 대조 정보를 통해 재 크롤링이 필요한 웹페이지를 신속하게 결정하여, 재 크롤링이 필요한 웹페이지에 대해 크롤링하도록 할 수 있으며, 크롤링 작업량 및 매번 크롤링하는데 소요되는 시간을 효과적으로 줄이는 기초 상에서, 대량의 업데이트되지 않은 웹페이지에 대해 복수번 크롤링함에 따른 크롤링 연산 리소스의 낭비를 방지한다.
본 부분에 기재된 내용은 본 출원의 실시예의 관건적 또는 중요한 특징을 특정하려는 것이 아니며, 본 출원의 범위를 한정하려는 것도 아님을 이해하여야 한다. 본 출원의 기타 특징은 아래의 명세서를 통해 용이하게 이해될 수 있을 것이다.
첨부 도면은 본 방안을 더욱 충분하게 이해할 수 있도록 제공되며, 본 출원에 대한 한정은 아니다. 여기서,
도 1은 본 출원의 실시예의 데이터 업데이트 방법을 구현할 수 있는 시나리오 도면이다.
도 2는 본 출원에서 제공하는 데이터 업데이트 방법의 흐름도이다.
도 3은 본 출원에서 제공하는 다른 데이터 업데이트 방법의 흐름도이다.
도 4는 본 출원에서 제공하는 데이터 업데이트 방법의 인터페이스 도면이다.
도 5는 본 출원에서 제공하는 데이터 업데이트 장치의 구성도이다.
도 6은 본 출원에서 제공하는 다른 데이터 업데이트 장치의 구성도이다.
도 7은 본 출원의 실시예의 데이터 업데이트 방법을 구현하기 위한 전자기기의 블록도이다.
아래에서는 첨부 도면을 결합하여 본 출원의 예시적인 실시예에 대하여 설명하며, 이해를 돕기 위하여 본 출원의 실시예의 다양한 세부 사항을 포함하며, 이들은 단지 예시적인 것으로만 간주되어야 한다. 따라서, 본 분야의 통상적인 지식을 가진자라면, 여기에 설명된 실시예에 대하여 다양한 변경과 수정을 가할 수 있으며, 이는 본 출원의 범위와 정신을 벗어나지 않는다는 것을 이해하여야 한다. 마찬가지로, 명확성과 간결성을 위하여, 아래의 설명에서 공지 기능과 구조에 대한 설명을 생략한다.
본 출원의 기술방안을 명확하게 이해할 수 있도록, 우선 종래기술의 방안에 대해 상세하게 소개한다.
지능형 단말의 보급, 정보 데이터량의 폭발적인 증가에 따라, 검색 서버의 처리 능력에 대한 요구가 더욱 높아지고 있다.
종래기술에서, 사용자에게 더욱 전면적인 검색 결과를 제공하기 위해, 검색 서버는 크롤러 기술을 이용하여 각 웹페이지에 대해 크롤링하여, 각 웹페이지의 웹페이지 내용 및 웹페이지 내용에 대응되는 요약 정보를 획득하여야 한다. 하지만 사용자가 검색 키워드를 입력하여 정보를 검색할 때, 검색 서버는 크롤링하여 획득한 웹페이지 내용으로부터, 해당 키워드와 관련된 몇개의 웹페이지를 찾아내고, 검색 결과 페이지에 해당 몇개의 웹페이지에 대응되는 요약 정보를 표시하여, 사용자가 트리거하여 선택함으로써 조회할 수 있도록 한다. 하지만, 웹페이지 업데이트로 인하여, 이러한 방식은 사용자가 검색 결과 페이지로부터 보게 되는 웹페이지 요약 정보와 해당 웹페이지의 실제 웹페이지 내용이 불일치한 문제점이 쉽게 발생하며, 상기 문제점에 기반하여, 종래기술에서는 기설정 시간 주기에 따라 웹페이지에 대해 크롤링하는 방식을 사용하여, 검색 결과의 시효성을 확보하고 있다.
하지만, 이러한 크롤링 방식은 효율이 낮고, 한편으로는, 웹페이지의 데이터량이 막대하여, 기설정 시간 주기에 따라 글로벌 웹페이지에 대해 크롤링하는데 필요한 크롤링 시간이 보다 길고; 다른 한편으로는, 서로 다른 웹페이지의 업데이트 속도에도 차이가 있으므로, 이러한 크롤링 방식을 사용하면 대량의 업데이트되지 않은 웹페이지에 대해 반복적으로 크롤링하는 상황이 발생하게 되며, 그 크롤링의 연산 리소스가 충분히 이용될 수 없다.
이러한 문제점에 대하여, 발명자는 연구를 거쳐, 검색 서버는 단말의 리소스를이용하여 자신이 재 크롤링해야 하는 웹페이지를 결정하는 것을 보조함으로써, 재 크롤링이 필요한 웹페이지에 대해 크롤링하여, 크롤링의 효율을 향상시킬 수 있다는 것을 발견하였다. 구체적으로, 검색 서버는 단말로 검색 키워드와 관련되는 하나 또는 복수의 웹페이지를 포함하는 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 서버가 사전에 각각의 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 기저장 웹페이지 요약을 더 포함하고, 나아가 단말은 사용자가 트리거한 목표 웹페이지에 대해 크롤링을 수행하여 현재 웹페이지 요약을 획득하고, 단말은 현재 웹페이지 요약과 기저장 웹페이지 요약에 대해 일치성 대조를 수행한 대조 정보를 검색 서버로 발송하고, 최종적으로 검색 서버는 목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트한다. 기존의 정기적으로 웹페이지에 대해 크롤링하는 방식과 비교할 때, 본 출원은 검색 서버가 단말로부터 제공되는 대조 정보를 통해 재 크롤링이 필요한 웹페이지를 신속하게 결정하여, 재 크롤링이 필요한 웹페이지에 대해 크롤링하도록 할 수 있으며, 크롤링 작업량 및 매번 크롤링하는데 소요되는 시간을 효과적으로 줄이는 기초 상에서, 대량의 업데이트되지 않은 웹페이지에 대해 복수번 크롤링함에 따른 크롤링 연산 리소스의 낭비를 방지한다.
아래에서는 본 출원의 실시예에서 제공하는 데이터 업데이트 방법, 장치, 검색 서버, 단말 및 저장매체의 응용 시나리오에 대해 소개한다.
도 1은 본 출원의 실시예의 데이터 업데이트 방법을 구현할 수 있는 시나리오 도면이다. 도 1에 도시된 바와 같이, 본 출원의 실시예에서 제공하는 데이터 업데이트 방법에 대응되는 응용 시나리오는 단말(1) 및 검색 서버(2)를 포함한다.
여기서, 각 단말(1)은 구체적으로 사용자와 인터랙션할 수 있는 하드웨어 장치일 수 있고, 지능형 휴대폰, 태블릿 컴퓨터, 데스크톱 컴퓨터 등을 포함하지만 이에 한정되지 않는다. 사용자의 조작 시, 단말(1)은 검색 서버(2)에서 제공하는 예컨대 검색 웹페이지 및 검색 결과 웹페이지와 같은 다양한 웹페이지를 브라우징할 수 있다. 사용자가 트리거할 때, 단말(1)은 현재 웹페이지를 기반으로 검색 서버(2)로 검색 키워드를 포함하는 검색 요청, 검색 결과 웹페이지에서 제공하는 목표 웹페이지에 대해 액세스하는 액세스 요청 등과 같은 다양한 요청을 발송할 수 있다.
검색 서버(2)는 구체적으로 하드웨어 서버, 또는 클라우드 서버를 적재하는 하드웨어 캐리어일 수 있다. 검색 서버(2)는 각 단말(1)의 사용자에게 키워드 검색, 웹페이지 브라우징 등의 서비스를 제공할 수 있다. 각 단말(1)과의 인터랙션을 통해, 검색 서버(2)는 본 출원의 후술하는 실시예에 따른 데이터 업데이트 방법을 사용하여, 재 크롤링이 필요한 목표 웹페이지를 결정하고, 이에 대해 재 크롤링 등의 처리를 수행한다.
이하, 첨부된 도면을 참조하여 본 출원의 실시예에 대해 구체적으로 설명한다.
도 2는 본 출원에서 제공하는 데이터 업데이트 방법의 흐름도이다. 도 2에 도시된 바와 같이, 본 출원의 실시예의 수행 주체는 데이터 업데이트 장치이고, 해당 데이터 업데이트 장치는 상술한 검색 서버에 적재된다.
삭제
본 실시예에서 제공하는 데이터 업데이트 방법은 아래 몇개의 단계를 포함한다.
단계(101), 단말로 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 키워드와 관련되는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함하고, 상기 기저장 웹페이지 요약은 사전에 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보를 가리킨다.
본 실시예에서, 검색 결과 웹페이지는 검색 서버가 단말로 제공한 그 검색 결과를 나타내기 위한 웹페이지이다.
구체적으로, 단말은 검색 서버에서 제공한 검색 웹페이지에 검색 키워드를 입력할 수 있고, 검색 서버는 해당 검색 키워드를 기초로 검색 엔진을 호출하여 전체 네트워크 검색을 수행하고, 검색 결과 웹페이지를 생성하여, 단말에 표시한다. 검색 결과 웹페이지에는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약이 포함된다. 여기서, 이러한 웹페이지는 검색 키워드와 관련된 웹페이지이고, 어떻게 검색 키워드와 관련된 웹페이지를 획득할지는 기존의 검색 엔진이 기반으로 하는 검색 전략을 사용할 수 있으며, 본 출원은 이에 대해 아무런 한정도 하지 않는다. 다만 기저장 웹페이지 요약은 검색 서버가 사전에 전체 네트워크의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보이고, 해당 크롤링하는 방식도 기존의 크롤링 전략을 참조할 수 있으며, 본 출원은 이에 대해 아무런 한정도 하지 않는다.
단계(102), 단말로부터 발송되는 목표 웹페이지의 대조 정보를 수신하며, 상기 대조 정보는 상기 단말이 현재 웹페이지 요약과 상기 기저장 웹페이지 요약에 대해 일치성 대조를 수행하여 획득한 것이고, 상기 현재 웹페이지 요약은 상기 단말이 목표 웹페이지를 브라우징할 때 목표 웹페이지 내용에 대해 크롤링하여 획득한 것이다.
본 출원의 실시예에서, 기존의 웹페이지 기반 검색 방식과 유사하게, 사용자가단말을 통해 검색 결과 웹페이지를 조회할 때, 어느 하나의 웹페이지를 목표 웹페이지로서 선택하여, 단말이 검색 서버로 목표 웹페이지에 대한 액세스 요청을 개시하고, 검색 서버로부터 제공되는 목표 웹페이지의 링크를 수신하여 목표 웹페이지의 액세스를 수행하도록 할 수 있다. 이때, 기존의 방식과 다른 점은, 본 출원의 실시예에서, 단말이 목표 웹페이지의 액세스를 수행할 때, 또한 해당 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여, 해당 목표 웹페이지의 현재 웹페이지 요약을 획득한다.
다음, 단말은 목표 웹페이지의 현재 웹페이지 요약 및 검색 결과 웹페이지를 통해 획득한 기저장 웹페이지 요약에 대해 대조하여, 양자의 일치성을 결정한다. 일치성 대조를 완성한 후, 단말은 생성된 대조 정보를 검색 서버로 발송하여 처리되도록 한다.
단계(103), 목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트한다.
마지막으로, 검색 서버는 수신된 대조 정보를 기초로 목표 웹페이지에 대해 재크롤링이 필요한지 여부를 결정하고, 즉 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트한다. 여기서, 대조 정보에서 기저장 웹페이지 요약과 현재 웹페이지 요약이 일치함을 지시할 때, 해당 목표 웹페이지는 검색 서버가 지난번에 이에 대해 크롤링한 후, 그 웹페이지 내용에 대해 업데이트하지 않았고, 이때, 검색 서버는 이에 대해 크롤링 및 기저장 웹페이지 요약의 업데이트를 수행하지 않을 수 있으며; 반대로, 대조 정보에서 기저장 웹페이지 요약과 현재 웹페이지 요약이 불일치함을 지시할 때, 해당 목표 웹페이지는 검색 서버가 지난번에 이에 대해 크롤링한 후, 그 웹페이지 내용에 대해 일정한 업데이트를 수행하였을 수 있으며, 이때, 검색 서버는 이에 대해 재 크롤링 또는 기타 처리를 수행하여, 기저장 웹페이지 요약에 대한 업데이트를 구현할 수 있다.
본 출원의 상술한 실시예에서 제공하는 방식과, 기존의 정기적으로 웹페이지에 대해 크롤링하는 방식을 비교할 때, 본 출원은 검색 서버가 단말로부터 제공되는 대조 정보를 통해 재 크롤링이 필요한 웹페이지를 신속하게 결정하여, 재 크롤링이 필요한 웹페이지에 대해 크롤링하도록 할 수 있으며, 크롤링 작업량 및 매번 크롤링하는데 소요되는 시간을 효과적으로 줄이는 기초 상에서, 대량의 업데이트되지 않은 웹페이지에 대해 복수번 크롤링함에 따른 크롤링 연산 리소스의 낭비를 방지할 수 있다.
상술한 실시예의 기초 상에서, 본 실시예는 목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트는 구체적인 구현 방식을 더 제공한다.
선택적으로, 기저장 웹페이지 요약에 대한 신속한 업데이트를 구현하기 위하여, 그 중 선택 가능한 실시형태에서, 검색 서버는 또한 목표 웹페이지의 현재 요약 정보를 수신하며, 해당 단계(103)는 상기 현재 요약 정보를 업데이트된 후의 목표 웹페이지의 기저장 웹페이지 요약 정보로 하는 단계를 포함할 수 있다. 다시 말하면, 해당 실시예에서, 검색 서버는 대조 정보를 기초로 기저장 웹페이지 요약의 업데이트가 필요한 것으로 결졍될 때, 직접 수신한 단말이 크롤링하여 획득한 현재 웹페이지 요약을 기초로, 상기 기저장 웹페이지 요약에 대해 교체하여, 기저장 웹페이지 요약에 대한 업데이트를 구현함으로써, 각 단말이 다음번에 해당 목표 웹페이지를 검색하였을 때, 그 기저장 웹페이지 요약이 업데이트된 후의 페이지 요약이도록 할 수 있다.
선택적으로, 업데이트된 후의 기저장 웹페이지 요약이 더욱 정확하고 전면적이도록 하기 위하여, 그 중 선택 가능한 실시형태에서, 검색 서버가 상기 목표 웹페이지의 대조 정보를 기초로 상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약이 불일치한 것으로 결정할 때, 단계(103)는 구체적으로,
상기 목표 웹페이지에 대해 크롤링하여, 업데이트 웹페이지 요약을 획득하는 단계(1031);
획득한 업데이트 웹페이지 요약을 이용하여 기저장 웹페이지 요약에 대해 업데이트하는 단계(1032)를 포함할 수 있다.
구체적으로, 상술한 바와 같이, 검색 서버가 상기 목표 웹페이지의 대조 정보를 기초로 상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약이 불일치한 것으로 결정할 때, 검색 서버는 기저장 웹페이지 요약에 대해 업데이트하여야 한다. 본 실시예에서, 상기 검색 서버는 우선 목표 웹페이지에 대해 재 크롤링 처리를 수행하여, 재 크롤링된 후의 목표 웹페이지의 업데이트 웹페이지 요약을 획득하고; 다음, 해당 업데이트 웹페이지 요약을 기초로, 검색 서버는 기저장 웹페이지 요약에 대해 업데이트하여, 검색 페이지의 데이터 업데이트를 구현할 수 있다. 이러한 방식을 통해, 기저장 웹페이지 요약에 대해 업데이트함으로써, 각 단말이 다음번에 상기 목표 웹페이지를 검색하였을 때, 그 기저장 웹페이지 요약이 업데이트된 후의 웹페이지 요약이도록 할 수 있다.
상술한 실시예의 기초 상에서, 웹페이지 기술의 발전에 따라, 웹페이지는 그 웹페이지 내용을 표시할 때 브라우저 측의 구성에 따라 개성적으로 표시할 수 있으며, 이에 따라 본 출원의 실시예에서, 검색 서버의 구성과 단말의 구성의 불일치에 의해 대조 정보가 불일치한 상황이 발생할 수 있다. 예를 들어, 검색 서버가 설치된 지리적 위치와 단말이 위치한 지리적 위치가 다를 때, 양자가 동일한 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 웹페이지 요약은 다를 수 있다. 또 예를 들어, 검색 서버가 설치된 네트워크 사업자와 단말이 위치한 네트워크 사업자가 다를 때, 양자가 동일한 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 웹페이지 요약이 다를 수 있다.
이러한 상황이 본 출원의 실시예에서에서 제공하는 데이터 업데이트 방법에 미치는 영향을 방지하기 위하여, 선택 가능한 실시예에서, 검색 서버는 업데이트 웹페이지 요약을 획득한 후, 또한 기저장 웹페이지 요약과 업데이트 웹페이지 요약이 동일한지 여부를 판단할 수 있으며, 즉 지난번 크롤링에서 획득한 웹페이지 요약과 본 차 크롤링에서 획득한 웹페이지 요약에 대해 일치성 대조를 수행하여, 단말이 보고한 현재 웹페이지 요약과 기저장 웹페이지 요약의 불일치를 초래하는 원인을 결정한다.
다시 말하면, 업데이트 웹페이지 요약과 기저장 웹페이지 요약이 동일할 때, 단말이 보고한 대조 정보가 불일치한 현상은 검색 서버와 단말의 구성이 다름에 따라 초래된 것으로 결정할 수 있다. 이때, 검색 서버는 단말의 단말 구성 정보를 수집하고, 단말의 구성 정보에 대응되는 크롤링 방식을 사용하여 목표 웹페이지에 대해 크롤링하고, 획득한 웹페이지 요약을 목표 웹페이지의 상기 단말 구성 정보에서 검색하여 획득한 기저장 웹페이지 요약으로 구성할 수 있으며, 이에 따라 해당 단말과 동일한 단말 구성 정보를 가진 기타 단말이 목표 웹페이지에 대한 검색을 수행할 때 보게 되는 기저장 웹페이지 요약은 상기 방식을 사용하여 구성된 것이고, 해당 단말과 다른 단말 구성 정보를 가진 기타 단말이 목표 웹페이지에 대한 검색을 수행할 때 보게 되는 기저장 웹페이지 요약은, 기타 방식을 사용하여 구성된 것이도록 한다.
이러한 방식을 통해, 기저장 웹페이지 요약에 대한 개성화 업데이트를 구현할 수 있으므로, 서로 다른 구성에서의 단말이 검색할 때 단말 구성 정보와 일치한 기저장 웹페이지 요약을 볼 수 있게 되어, 그 검색 시의 정보 획득 유연성을 향상시킨다.
물론, 기타 선택 가능한 실시예에서, 만약 검색 서버가 업데이트 웹페이지 요약과 기저장 웹페이지 요약이 다른 것을 발견하였을 때, 목표 웹페이지의 웹페이지 내용이 확실히 업데이트된 것으로 결정할 수 있다. 이때, 검색 서버는 직접 상기 업데이트 웹페이지 요약을 업데이트된 후의 기저장 웹페이지 요약으로 할 수 있으며, 즉 업데이트 웹페이지 요약을 새로운 기저장 웹페이지 요약으로서 저장한다.
본 출원의 실시예에서 제공하는 데이터 업데이트 방법에서, 검색 서버는 단말로 검색 키워드와 관련되는 하나 또는 복수의 웹페이지를 포함하는 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 서버가 사전에 각각의 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 기저장 웹페이지 요약을 더 포함하고, 나아가 단말은 사용자가 트리거한 목표 웹페이지에 대해 크롤링을 수행하여 현재 웹페이지 요약을 획득하고, 단말은 현재 웹페이지 요약과 기저장 웹페이지 요약에 대해 일치성 대조를 수행한 대조 정보를 검색 서버로 발송하고, 최종적으로 검색 서버는 목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트한다. 기존의 정기적으로 웹페이지에 대해 크롤링하는 방식과 비교할 때, 본 출원은 검색 서버가 단말로부터 제공되는 대조 정보를 통해 재 크롤링이 필요한 웹페이지를 신속하게 결정하여, 재 크롤링이 필요한 웹페이지에 대해 크롤링하도록 할 수 있으며, 크롤링 작업량 및 매번 크롤링하는데 소요되는 시간을 효과적으로 줄이는 기초 상에서, 대량의 업데이트되지 않은 웹페이지에 대해 복수번 크롤링함에 따른 크롤링 연산 리소스의 낭비를 방지한다.
한편, 일부 인기 웹페이지에 대하여, 매번 검색 및 트리거될 때마다 재 크롤링 필요 여부에 대한 판단을 거치게 되고, 이러한 방식은 높은 빈도로 브라우징되는 웹페이지의 기저장 웹페이지 요약이 실시간으로 유효하도록 효과적으로 확보할 수 있으므로, 검색 서버의 크롤링 리소스의 최대화 이용에 유리하다.
도 3은 본 출원에서 제공하는 다른 데이터 업데이트 방법의 흐름도이다. 도 3에 도시된 바와 같이, 본 출원의 실시예의 수행 주체는 데이터 업데이트 장치이고, 해당 장치는 상술한 단말에 설치될 수 있다.
본 실시예에서 제공하는 데이터 업데이트 방법은 아래의 몇개 단계를 포함한다.
단계(201), 검색 서버로부터 제공되는 검색 결과 웹페이지를 수신 및 표시하며, 상기 검색 결과 웹페이지는 사용자가 트리거한 검색 키워드와 관련되는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함하고, 상기 기저장 웹페이지 요약은 검색 서버가 사전에 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보이다.
단계(202), 상기 검색 결과 웹페이지에서 목표 웹페이지를 결정하고, 상기 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여 현재 웹페이지 요약을 획득한다.
단계(203), 상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약에 대해 일치성 대조를 수행하여 대조 정보를 획득하고, 상기 검색 서버가 상기 대조 정보를 기초로 상기 기저장 웹사이트 요약에 대해 업데이트하도록 상기 대조 정보를 검색 서버로 발송한다.
구체적으로, 단말은 검색 서버에서 제공하는 검색 서비스를 수신할 수 있으며, 여기서, 초기 페이지에서, 검색 서버는 하나의 검색 웹페이지를 제공하고, 해당 검색 웹페이지 상에서, 단말은 검색 키워드를 입력할 수 있고, 검색 서버는 해당 검색 키워드를 기반으로 검색 엔진을 호출하여 전체 네트워크를 검색하고, 검색 결과 웹페이지를 생성하여, 단말에 표시한다.
검색 서버로부터 제공되는 검색 결과 웹페이지는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함한다. 여기서, 이러한 웹페이지는 검색 키워드와 관련된 웹페이지이고, 어떻게 검색 키워드와 관련된 웹페이지를 획득할지는 기존의 검색 엔진이 기반으로 하는 검색 전략을 사용할 수 있으며, 본 출원은 이에 대해 아무런 한정도 하지 않는다. 기저장 웹페이지 요약은 검색 서버가 사전에 전체 네트워크의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보이고, 해당 크롤링하는 방식도 기존의 크롤링 전략을 참조할 수 있으며, 본 출원은 이에 대해 아무런 한정도 하지 않는다.
다음, 사용자는 단말을 통해 검색 결과 웹페이지를 조회할 때, 어느 하나의 웹페이지를 목표 웹페이지로서 선택하여, 단말이 검색 서버로 목표 웹페이지에 대한 액세스 요청을 개시하고, 검색 서버에서 제공하는 목표 웹페이지의 링크를 수신하여 목표 웹페이지의 액세스를 수행하도록 할 수 있다. 다시 말하면, 단말은 사용자가 트리거한 검색 키워드를 검색 서버로 발송하여, 상기 검색 서버가 상기 검색 키워드를 기초로 검색 결과 웹페이지를 생성하도록 한다.
이때, 기존의 방식과 다른 점은, 본 출원의 실시예에서, 단말이 목표 웹페이지의 액세스를 수행할 때, 또한 해당 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여, 해당 목표 웹페이지의 현재 웹페이지 요약을 획득한다.
단말은 목표 웹페이지의 현재 웹페이지 요약 및 검색 결과 웹페이지를 통해 획득한 기저장 웹페이지 요약에 대해 대조하여, 양자의 일치성을 결정한다. 일치성 대조를 완성한 후, 단말은 생성한 대조 정보를 검색 서버로 발송하여 처리되도록 한다.
일반적으로, 검색 서버는 수신된 대조 정보를 기초로 목표 웹페이지에 대해 재크롤링이 필요한지 여부를 결정하고, 즉 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트가 필요한지 여부를 결정한다. 여기서, 대조 정보에서 기저장 웹페이지 요약과 현재 웹페이지 요약이 일치함을 지시할 때, 해당 목표 웹페이지는 검색 서버가 지난번에 이에 대해 크롤링한 후, 그 웹페이지 내용에 대해 업데이트하지 않았고, 이때, 검색 서버는 이에 대해 크롤링 및 기저장 웹페이지 요약의 업데이트를 수행하지 않을 수 있으며; 반대로, 대조 정보에서 기저장 웹페이지 요약과 현재 웹페이지 요약이 불일치함을 지시할 때, 해당 목표 웹페이지는 검색 서버가 지난번에 이에 대해 크롤링한 후, 그 웹페이지 내용에 대해 일정한 업데이트를 수행하였을 수 있으며, 이때, 검색 서버는 이에 대해 재 크롤링 또는 기타 처리를 수행하여, 기저장 웹페이지 요약에 대한 업데이트를 구현할 수 있다.
본 실시예는 단말 기반 데이터 업데이트 방법을 제공하며, 이는 검색 서버로 목표 웹페이지의 대조 정보를 발송하여, 상기 검색 서버가 해당 대조 정보를 기초로 목표 웹페이지에 대해 검색 결과 페이지 중의 기저장 웹페이지 요약에 대해 업데이트하도록 할 수 있다. 한편, 해당 검색 서버가 대조 정보를 기초로 기저장 웹페이지 요약에 대해 업데이트하는 구체적인 구현 방식은 상술한 각 실시예를 참조할 수 있으며, 본 실시예에서는 반복되는 설명을 생략한다.
선택 가능한 실시예에서, 검색 서버로 제공하는 대조 정보의 정확성을 확보하기 위하여, 단말은 또한 검색 서버로부터 발송되는 크롤링 전략을 수신한다. 크롤링 전략을 획득한 후, 단계(202)는 구체적으로 상기 크롤링 전략을 사용하여 상기 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여, 현재 웹페이지 요약을 획득하는 것일 수 있다.
여기서 크롤링 전략은 검색 서버가 웹페이지 내용에 대해 크롤링할 때 사용하는 크롤링 처리 방식, 그 크롤링한 단어 조건, 의미 내용, 문법 양식 등을 나타낼 수 있다.
단말이 크롤링 전략을 수신하는 시기는 검색 서버와 통신할 때일 수 있으며, 예를 들어 단말이 검색 서버에서 제공하는 검색 페이지를 로딩할 때 검색 서버에서 제공한 크롤링 전략을 직접 획득할 수 있고; 단말이 크롤링 전략을 획득하는 시기는 검색 서버에서 제공하는 검색 결과 페이지를 수신할 때일 수도 있으며, 즉 검색 서버가 검색 결과 페이지와 크롤링 전략을 함께 단말로 발송하여, 단말이 수신 및 사용하도록 한다. 이러한 방식을 통해 단말이 사용하는 크롤링 방식이 검색 서버가 사용하는 크롤링 방식과 일치하도록 함으로써, 대조 정보의 정확성을 확보할 수 있다.
도 4는 본 출원의 실시예에서 제공하는 데이터 업데이트 방법의 인터페이스 도면이다. 도 4에 도시된 바와 같이, 단말은 검색 서버에서 제공하는 검색 결과 페이지를 수신할 수 있고, 해당 검색 결과 페이지 상에 검색 서버가 검색 키워드에 대해 검색하여 획득한 검색 결과, 즉 복수의 웹페이지 및 그 각각의 웹페이지에 대응되는 기저장 웹페이지 요약이 표시된다. 사용자는 트리거하여 임의의 하나의 웹페이지를 목표 웹페이지로서 선택하고, 예컨대 도면에 도시된 웹페이지 1이며, 이때 단말 인터페이스는 웹페이지 1에 대한 표시를 트리거하지만, 그 단말 백그라운드는 웹페이지 1의 웹페이지 내용에 대한 크롤링을 시작하여, 상술한 대조 정보를 획득한다. 특별히 설명하면, 대조 정보를 획득하는 조작은 단말 포어그라운드에서 표시 및 감지되지 않고, 즉 단말 인터페이스는 크롤링 및 대조 정보에 대한 조작 단계 또는 조작 결과가 표시되지 않는다. 마지막으로, 단말은 대조 정보를 검색 서버로 발송하고, 도 4에 도시된 바와 같이, 단말이 재차 상기 검색 키워드를 검색할 때, 검색 서버가 표시하는 검색 결과 페이지 중, 웹페이지 1에 대한 기저장 웹페이지 요약은 이미 업데이트된 후의 웹페이지 요약이다.
본 출원의 실시예에서 제공하는 데이터 업데이트 방법에서, 검색 서버는 단말로 검색 키워드와 관련되는 하나 또는 복수의 웹페이지를 포함하는 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 서버가 사전에 각각의 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 기저장 웹페이지 요약을 더 포함하고, 나아가 단말은 사용자가 트리거한 목표 웹페이지에 대해 크롤링을 수행하여 현재 웹페이지 요약을 획득하고, 단말은 현재 웹페이지 요약과 기저장 웹페이지 요약에 대해 일치성 대조를 수행한 대조 정보를 검색 서버로 발송하고, 최종적으로 검색 서버는 목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트한다. 기존의 정기적으로 웹페이지에 대해 크롤링하는 방식과 비교할 때, 본 출원은 검색 서버가 단말로부터 제공되는 대조 정보를 통해 재 크롤링이 필요한 웹페이지를 신속하게 결정하여, 재 크롤링이 필요한 웹페이지에 대해 크롤링하도록 할 수 있으며, 크롤링 작업량 및 매번 크롤링하는데 소요되는 시간을 효과적으로 줄이는 기초 상에서, 대량의 업데이트되지 않은 웹페이지에 대해 복수번 크롤링함에 따른 크롤링 연산 리소스의 낭비를 방지한다.
도 5는 본 출원에서 제공하는 데이터 업데이트 장치의 구성도이다. 도 5에 도시된 바와 같이, 상기 데이터 업데이트 장치는 통신 모듈(10), 크롤링 모듈(20) 및 업데이트 모듈(30)을 포함하고;
여기서, 상기 통신 모듈(10)은 단말로 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 키워드와 관련되는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함하고, 상기 기저장 웹페이지 요약은 사전에 크롤링 모듈(20)을 이용하여 사전에 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보이고;
통신 모듈(10)은 또한 단말로부터 발송되는 목표 웹페이지의 대조 정보를 수신하며, 상기 대조 정보는 상기 단말이 현재 웹페이지 요약과 상기 기저장 웹페이지 요약에 대해 일치성 대조를 수행하여 획득한 것이고, 상기 현재 웹페이지 요약은 상기 단말이 목표 웹페이지를 브라우징할 때 목표 웹페이지 내용에 대해 크롤링하여 획득한 것이고;
업데이트 모듈(30)은 목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트한다.
선택 가능한 실시예에서, 상기 크롤링 모듈(20)은 구체적으로, 상기 목표 웹페이지의 대조 정보를 기초로 상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약이 불일치한 것으로 결정될 때, 상기 목표 웹페이지에 대해 크롤링하여 업데이트 웹페이지 요약을 획득하고;
상기 업데이트 모듈(30)은 구체적으로 획득한 업데이트 웹페이지 요약을 이용하여 기저장 웹페이지 요약에 대해 업데이트한다.
선택 가능한 실시예에서, 상기 업데이트 웹페이지 요약과 상기 기저장 웹페이지 요약이 동일할 때, 통신 모듈(10)을 이용하여 단말의 단말 구성 정보를 수집하고;
크롤링 모듈(20)은 또한 상기 단말 구성 정보에 대응되는 크롤링 방식을 사용하여 상기 목표 웹페이지에 대해 크롤링하고;
상기 업데이트 모듈(30)은 상기 크롤링 모듈(20)이 획득한 웹페이지 요약을 상기 목표 웹페이지의 상기 단말 구성 정보에서 검색할 때 표시되는 기저장 웹페이지 요약으로서 결정한다.
선택 가능한 실시예에서, 상기 업데이트 웹페이지 요약과 상기 기저장 웹페이지 요약이 동일하지 않을 때, 상기 업데이트 모듈(30)은 또한 직접 상기 업데이트 웹페이지 요약을 업데이트된 후의 기저장 웹페이지 요약으로 한다.
선택 가능한 실시예에서, 통신 모듈(10)은 또한 목표 웹페이지의 현재 요약 정보를 수신하고;
상기 업데이트 모듈(30)은 구체적으로, 상기 현재 요약 정보를 상기 목표 웹페이지의 기저장 웹페이지 요약 정보로 한다.
본 출원에서 제공하는 데이터 업데이트 장치는 상술한 방법 실시예의 기술방안을 구현할 수 있으며, 그 구현 원리와 기술 효과는 방법 실시예와 유사하므로 여기서는 반복되는 설명을 생략한다.
본 실시예에서, 검색 서버는 단말로 검색 키워드와 관련되는 하나 또는 복수의 웹페이지를 포함하는 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 서버가 사전에 각각의 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 기저장 웹페이지 요약을 더 포함하고, 나아가 단말은 사용자가 트리거한 목표 웹페이지에 대해 크롤링을 수행하여 현재 웹페이지 요약을 획득하고, 단말은 현재 웹페이지 요약과 기저장 웹페이지 요약에 대해 일치성 대조를 수행한 대조 정보를 검색 서버로 발송하고, 최종적으로 검색 서버는 목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트한다. 기존의 정기적으로 웹페이지에 대해 크롤링하는 방식과 비교할 때, 본 출원은 검색 서버가 단말로부터 제공되는 대조 정보를 통해 재 크롤링이 필요한 웹페이지를 신속하게 결정하여, 재 크롤링이 필요한 웹페이지에 대해 크롤링하도록 할 수 있으며, 크롤링 작업량 및 매번 크롤링하는데 소요되는 시간을 효과적으로 줄이는 기초 상에서, 대량의 업데이트되지 않은 웹페이지에 대해 복수번 크롤링함에 따른 크롤링 연산 리소스의 낭비를 방지한다.
도 6은 본 출원에서 제공하는 다른 데이터 업데이트 장치의 구성도이다. 도 6에 도시된 바와 같이, 해당 데이터 업데이트 장치는 송수신 모듈(40) 및 대조 모듈(50)을 포함하고;
여기서, 상기 송수신 모듈(40)은 검색 서버로부터 제공되는 검색 결과 웹페이지를 수신 및 표시하며, 상기 검색 결과 웹페이지는 사용자가 트리거한 검색 키워드와 관련되는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함하고, 상기 기저장 웹페이지 요약은 검색 서버가 사전에 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보이고;
상기 대조 모듈(50)은 상기 검색 결과 웹페이지에서 목표 웹페이지를 결정하고, 상기 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여 현재 웹페이지 요약을 획득하고; 또한 상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약에 대해 일치성 대조를 수행하여 대조 정보를 획득하고;
상기 송수신 모듈(40)은 또한 상기 검색 서버가 상기 대조 정보를 기초로 상기 기저장 웹페이지 요약에 대해 업데이트하도록 상기 대조 정보를 검색 서버로 발송한다.
선택 가능한 실시예에서, 상기 송수신 모듈(40)은 또한 검색 서버로부터 발송되는 크롤링 전략을 수신하고;
크롤링 모듈은 또한 상기 크롤링 전략을 사용하여 상기 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여, 현재 웹페이지 요약을 획득한다.
선택 가능한 실시예에서, 상기 송수신 모듈(40)은 또한 사용자가 트리거한 검색 키워드를 검색 서버로 발송하여, 상기 검색 서버가 상기 검색 키워드를 기초로 상기 검색 결과 웹페이지를 생성하도록 한다.
본 출원에서 제공하는 데이터 업데이트 장치는 상술한 방법 실시예의 기술방안을 구현할 수 있으며, 그 구현 원리와 기술 효과는 방법 실시예와 유사하므로 여기서는 반복되는 설명을 생략한다.
본 실시예에서, 검색 서버는 단말로 검색 키워드와 관련되는 하나 또는 복수의 웹페이지를 포함하는 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 서버가 사전에 각각의 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 기저장 웹페이지 요약을 더 포함하고, 나아가 단말은 사용자가 트리거한 목표 웹페이지에 대해 크롤링을 수행하여 현재 웹페이지 요약을 획득하고, 단말은 현재 웹페이지 요약과 기저장 웹페이지 요약에 대해 일치성 대조를 수행한 대조 정보를 검색 서버로 발송하고, 최종적으로 검색 서버는 목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트한다. 기존의 정기적으로 웹페이지에 대해 크롤링하는 방식과 비교할 때, 본 출원은 검색 서버가 단말로부터 제공되는 대조 정보를 통해 재 크롤링이 필요한 웹페이지를 신속하게 결정하여, 재 크롤링이 필요한 웹페이지에 대해 크롤링하도록 할 수 있으며, 크롤링 작업량 및 매번 크롤링하는데 소요되는 시간을 효과적으로 줄이는 기초 상에서, 대량의 업데이트되지 않은 웹페이지에 대해 복수번 크롤링함에 따른 크롤링 연산 리소스의 낭비를 방지한다.
본 출원의 실시예에 따르면, 본 출원은 단말 및 검색 서버 및 판독 가능 저장매체를 더 제공한다. 그 중 단말과 검색 서버는 모두 전자기기 상에 설치될 수 있다.
도 7에 도시된 바와 같이, 본 출원의 실시예에 따른 데이터 업데이트 방법의 전자기기의 블록도이다. 전자기기는 다양한 형태의 디지털 컴퓨터, 예컨대, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 정보 단말, 서버, 블레이드 서버, 대형 컴퓨터, 및 기타 적합한 컴퓨터를 의미한다. 전자기기는 다양한 형태의 이동장치, 예컨대, 개인 정보 단말, 셀폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치를 의미할 수도 있다. 본문에 개시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것이며, 본문에 개시된 것 및/또는 요구하는 본 출원의 구현을 한정하려는 의도가 아니다.
도 7에 도시된 바와 같이, 해당 전자기기는 하나 또는 복수의 프로세서(1001), 메모리(1002), 및 각 부재를 연결시키기 위한 고속 인터페이스와 저속 인터페이스를 포함하는 인터페이스를 포함한다. 각각의 부재는 서로 다른 버스를 통해 서로 연결되며, 공통 메인보드에 장착되거나 수요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자기기 내에서 실행되는 명령을 처리할 수 있으며, 메모리 내 또는 메모리 상에 저장되어 외부 입력/출력 장치(예컨대, 인터페이스에 커플링된 디스플레이 기기) 상에 그래픽 유저 인터페이스(Graphical User Interface, GUI)의 그래픽 정보를 표시하는 명령을 포함할 수 있다. 기타 실시형태에서, 수요에 따라, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 같이 사용할 수 있다. 마찬가지로, 복수의 전자기기를 연결할 수 있으며, 각각의 기기는 부분 필요한 조작을 제공한다(예를 들어, 서버 어레이, 한 세트의 블레이드 서버, 또는 멀티 프로세서 시스템으로서). 도 7은 하나의 프로세서(1001)를 예로 든다.
메모리(1002)는 바로 본 출원에 따른 비일시적 컴퓨터 판독 가능 저장매체이다. 여기서, 메모리에는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어, 적어도 하나의 프로세서가 본 출원에 따른 데이터 업데이트 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장매체는 컴퓨터 명령을 저장하고, 해당 컴퓨터 명령은 컴퓨터가 본 출원에 따른 데이터 업데이트 방법을 수행하도록 한다.
메모리(1002)는 비일시적 컴퓨터 판독 가능 저장매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예컨대 본 출원의 실시예에 따른 데이터 업데이트 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 5에 도시된 통신 모듈(10), 크롤링 모듈(20) 및 업데이트 모듈(30))을 저장할 수 있다. 프로세서(1001)는 메모리(1002)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하여, 서버의 다양한 기능 응용 및 데이터 처리를 수행한다. 즉, 상술한 방법 실시예 중 데이터 업데이트 방법을 구현한다.
메모리(1002)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있다. 여기서, 프로그램 저장 영역은 운영체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있다. 데이터 저장 영역은 도 7의 전자기기의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 한편, 메모리(1002)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 예를 들어 적어도 하나의 자기 저장 장치, 플래시 메모리, 또는 기타 비일시적 솔리드 스테이트 저장 장치와 같은 비일시적 메모리를 포함할 수도 있다. 일부 실시예에서, 메모리(1002)는 선택적으로 프로세서(1001)에 대해 원격으로 설치되는 메모리를 포함할 수 있다. 이러한 원격 메모리는 네트워크를 통해 도 7의 전자기기에 연결될 수 있다. 상술한 네트워크의 실예로서 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 그 조합을 포함하지만 이에 한정되지 않는다.
도 7의 전자기기는 입력장치(1003)와 출력장치(1004)를 더 포함할 수 있다. 프로세서(1001), 메모리(1002), 입력장치(1003) 및 출력장치(1004)는 버스 또는 기타 방식으로 연결될 수 있으며, 도 7에서는 버스를 통해 연결되는 것을 예시하고 있다.
입력장치(1003)는 입력되는 음성, 숫자 또는 문자 부호 정보를 수신할 수 있고, 도 7의 전자기기의 사용자 설정 및 기능 제어에 대한 키 신호 입력을 생성할 수 있다. 예를 들어 터치 스크린, 키패드, 마우스, 트랙패드, 터치패널, 지시레버, 하나 또는 복수의 마우스 버튼, 트랙 볼, 조종 레버 등의 입력장치가 있다. 출력장치(1004)는 음성 재생 기기, 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동모터) 등을 포함할 수 있다. 해당 디스플레이 기기는, 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이와 플라즈마 디스플레이 등을 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.
여기에 기재되는 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 구현되는 것을 포함할 수 있고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행 및/또는 해석될 수 있으며, 해당 프로그래머블 프로세서는 전용 또는 범용 프로그래머블 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터와 명령을 수신할 수 있으며, 데이터와 명령을 해당 저장 시스템, 해당 적어도 하나의 입력장치, 및 해당 적어도 하나의 출력장치로 전송한다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 응용, 또는 코드라고도 지칭)은 프로그래머블 프로세서의 기계적 명령을 포함하고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계적 언어를 이용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 예컨대 본문에서 사용되는 용어 "기계 판독 가능 매체"와 "컴퓨터 판독 가능 매체"는 기계적 명령 및/또는 데이터를 프로그래머블 프로세서로 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그래머블 논리 디바이스(PLD))를 가리키고, 기계 판독 가능 신호인 기계적 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계적 명령 및/또는 데이터를 프로그래머블 프로세서로 제공하기 위한 임의의 신호를 가리킨다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터 상에서 여기에 기재되는 시스템 및 기술을 실시할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 표시하기 위한 표시장치(예를 들어, CRT(캐소드레이 튜브) 또는 LCD(액정 디스플레이) 모니터); 및 키보드와 지향 장치(예를 들어, 마우스 또는 트랙볼)를 구비하고, 사용자는 해당 키보드와 해당 지향 장치를 통해 입력을 컴퓨터로 제공할 수 있다. 기타 종류의 장치는 사용자와의 인터랙션을 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고; 임의의 형태(사운드 입력, 음성 입력 또는 촉각 입력)을 통해 사용자로부터의 입력을 수신할 수 있다.
여기에 기재되는 시스템과 기술은 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 중간부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 유저 인터페이스 또는 인터넷 브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 유저 인터페이스 또는 해당 인터넷 브라우저를 통해 여기에 기재되는 시스템 및 기술의 실시형태와 인터랙션할 수 있다), 또는 이러한 백그라운드 부재, 중간 부재, 또는 프론트 엔드 부재를 포함하는 임의의 조합의 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로서, 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터 상에서 실행되며 서로 클라이언트 - 서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 생성한다.
본 출원의 실시예에 따르면, 본 출원은 컴퓨터 프로그램을 더 제공하며, 컴퓨터 프로그램은 컴퓨터 판독 가능 저장 매체에 저장되며, 전자기기의 적어도 하나의 프로세서는 컴퓨터 판독 가능 저장 매체로부터 컴퓨터 프로그램을 판독할 수 있고, 적어도 하나의 프로세서는 컴퓨터 프로그램을 실행하여 전자기기가 상술한 어느 하나의 실시예에 따른 방안을 수행하도록 한다.
상술한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있다는 것을 이해하여야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병열로 수행될 수 있고 순차적으로 수행될 수도 있고 서로 다른 순서로 수행될 수도 있으며, 본 출원에 개시된 기술적 해결수단이 원하는 결과를 얻을 수만 있다면, 본문은 이에 대해 한정하지 않는다.
상술한 구체적인 실시형태는 본 출원의 보호범위에 대한 한정이 아니다. 본 분야의 통상의 지식을 가진 자라면, 설계 요구와 기타 요소를 기초로, 다양한 수정, 조합, 서브 조합 및 대체를 가할 수 있음을 이해할 수 있을 것이다. 본 출원의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 치환 및 개선 등은 모두 본 출원의 보호 범위 내에 속하는 것으로 간주하여야 한다.

Claims (22)

  1. 단말로 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 키워드와 관련되는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함하고, 상기 기저장 웹페이지 요약은 사전에 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보인 단계;
    단말로부터 발송되는 목표 웹페이지의 대조 정보를 수신하며, 상기 대조 정보는 상기 단말이 현재 웹페이지 요약과 상기 기저장 웹페이지 요약에 대해 일치성 대조를 수행하여 획득한 것이고, 상기 현재 웹페이지 요약은 상기 단말이 목표 웹페이지를 브라우징할 때 목표 웹페이지 내용에 대해 크롤링하여 획득한 것인 단계;
    목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트하는 단계를 포함하며,
    목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트하는 상기 단계는,
    상기 목표 웹페이지의 대조 정보를 기초로 상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약이 불일치한 것으로 결정될 때, 상기 목표 웹페이지에 대해 크롤링하여 업데이트 웹페이지 요약을 획득하는 단계;
    획득한 업데이트 웹페이지 요약을 이용하여 기저장 웹페이지 요약에 대해 업데이트하는 단계를 포함하고,
    획득한 업데이트 웹페이지 요약을 이용하여 기저장 웹페이지 요약에 대해 업데이트하는 상기 단계는,
    상기 업데이트 웹페이지 요약과 상기 기저장 웹페이지 요약이 동일할 때, 단말의 단말 구성 정보를 수집하고, 상기 단말 구성 정보에 대응되는 크롤링 방식을 사용하여 상기 목표 웹페이지에 대해 크롤링하고, 획득한 웹페이지 요약을 상기 목표 웹페이지의 상기 단말 구성 정보에서 검색할 때 표시되는 기저장 웹페이지 요약으로 하는 단계를 포함하는 것을 특징으로 하는 데이터 업데이트 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    획득한 업데이트 웹페이지 요약을 이용하여 기저장 웹페이지 요약에 대해 업데이트하는 상기 단계는,
    상기 업데이트 웹페이지 요약과 상기 기저장 웹페이지 요약이 다를 때, 직접 상기 업데이트 웹페이지 요약을 업데이트된 후의 기저장 웹페이지 요약으로 하는 단계를 더 포함하는 것을 특징으로 하는 데이터 업데이트 방법.
  5. 삭제
  6. 검색 서버로부터 제공되는 검색 결과 웹페이지를 수신 및 표시하며, 상기 검색 결과 웹페이지는 사용자가 트리거한 검색 키워드와 관련되는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함하고, 상기 기저장 웹페이지 요약은 검색 서버가 사전에 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보인 단계;
    상기 검색 결과 웹페이지에서 목표 웹페이지를 결정하고, 상기 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여 현재 웹페이지 요약을 획득하는 단계;
    상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약에 대해 일치성 대조를 수행하여 대조 정보를 획득하고, 상기 검색 서버가 상기 목표 웹페이지의 대조 정보를 기초로 상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약이 불일치한 것으로 결정될 때, 상기 목표 웹페이지에 대해 크롤링하여 업데이트 웹페이지 요약을 획득하고, 상기 업데이트 웹페이지 요약과 상기 기저장 웹페이지 요약이 동일할 때, 단말의 단말 구성 정보를 수집하고, 상기 단말 구성 정보에 대응되는 크롤링 방식을 사용하여 상기 목표 웹페이지에 대해 크롤링하고, 획득한 웹페이지 요약을 상기 목표 웹페이지의 상기 단말 구성 정보에서 검색할 때 표시되는 기저장 웹페이지 요약으로 하도록, 상기 대조 정보를 검색 서버로 발송하는 단계를 포함하는 것을 특징으로 하는 데이터 업데이트 방법.
  7. 제6항에 있어서,
    검색 서버로부터 발송되는 크롤링 전략을 수신하는 단계를 더 포함하고;
    상기 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여 현재 웹페이지 요약을 획득하는 상기 단계는,
    상기 크롤링 전략을 사용하여 상기 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여 현재 웹페이지 요약을 획득하는 단계를 포함하는 것을 특징으로 하는 데이터 업데이트 방법.
  8. 제6항에 있어서,
    검색 서버로부터 제공되는 검색 결과 웹페이지를 수신 및 표시하는 단계 이전에,
    상기 검색 서버가 검색 키워드를 기초로 상기 검색 결과 웹페이지를 생성하도록, 사용자가 트리거한 상기 검색 키워드를 검색 서버로 발송하는 단계를 더 포함하는 것을 특징으로 하는 데이터 업데이트 방법.
  9. 통신 모듈, 크롤링 모듈 및 업데이트 모듈을 포함하고;
    여기서, 상기 통신 모듈은 단말로 검색 결과 웹페이지를 제공하며, 상기 검색 결과 웹페이지는 검색 키워드와 관련되는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함하고, 상기 기저장 웹페이지 요약은 사전에 크롤링 모듈을 이용하여 사전에 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보이고;
    통신 모듈은 또한 단말로부터 발송되는 목표 웹페이지의 대조 정보를 수신하며, 상기 대조 정보는 상기 단말이 현재 웹페이지 요약과 상기 기저장 웹페이지 요약에 대해 일치성 대조를 수행하여 획득한 것이고, 상기 현재 웹페이지 요약은 상기 단말이 목표 웹페이지를 브라우징할 때 목표 웹페이지 내용에 대해 크롤링하여 획득한 것이고;
    업데이트 모듈은 목표 웹페이지의 대조 정보를 기초로 목표 웹페이지의 기저장 웹페이지 요약에 대해 업데이트하고,
    상기 크롤링 모듈은 구체적으로, 상기 목표 웹페이지의 대조 정보를 기초로 상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약이 불일치한 것으로 결정될 때, 상기 목표 웹페이지에 대해 크롤링하여 업데이트 웹페이지 요약을 획득하고;
    상기 업데이트 모듈은 구체적으로 획득한 업데이트 웹페이지 요약을 이용하여 기저장 웹페이지 요약에 대해 업데이트하며,
    상기 업데이트 웹페이지 요약과 상기 기저장 웹페이지 요약이 동일할 때, 통신 모듈을 이용하여 단말의 단말 구성 정보를 수집하고;
    크롤링 모듈은 또한 상기 단말 구성 정보에 대응되는 크롤링 방식을 사용하여 상기 목표 웹페이지에 대해 크롤링하고;
    상기 업데이트 모듈은 상기 크롤링 모듈에 의해 획득된 웹페이지 요약을 상기 목표 웹페이지의 상기 단말 구성 정보에서 검색할 때 표시되는 기저장 웹페이지 요약으로 하는 것을 특징으로 하는 데이터 업데이트 장치.
  10. 삭제
  11. 삭제
  12. 제9항에 있어서,
    상기 업데이트 웹페이지 요약과 상기 기저장 웹페이지 요약이 다를 때, 상기 업데이트 모듈은 또한 직접 상기 업데이트 웹페이지 요약을 업데이트된 후의 기저장 웹페이지 요약으로 하는 것을 특징으로 하는 데이터 업데이트 장치.
  13. 삭제
  14. 송수신 모듈 및 대조 모듈을 포함하고;
    여기서, 상기 송수신 모듈은 검색 서버로부터 제공되는 검색 결과 웹페이지를 수신 및 표시하며, 상기 검색 결과 웹페이지는 사용자가 트리거한 검색 키워드와 관련되는 하나 또는 복수의 웹페이지, 및 각각의 웹페이지에 대응되는 기저장 웹페이지 요약을 포함하고, 상기 기저장 웹페이지 요약은 검색 서버가 사전에 웹페이지의 웹페이지 내용에 대해 크롤링하여 획득한 요약 정보이고;
    상기 대조 모듈은 상기 검색 결과 웹페이지에서 목표 웹페이지를 결정하고, 상기 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여 현재 웹페이지 요약을 획득하고; 또한 상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약에 대해 일치성 대조를 수행하여 대조 정보를 획득하고;
    상기 송수신 모듈은 또한 상기 검색 서버가 상기 목표 웹페이지의 대조 정보를 기초로 상기 현재 웹페이지 요약과 상기 기저장 웹페이지 요약이 불일치한 것으로 결정될 때, 상기 목표 웹페이지에 대해 크롤링하여 업데이트 웹페이지 요약을 획득하고, 상기 업데이트 웹페이지 요약과 상기 기저장 웹페이지 요약이 동일할 때, 단말의 단말 구성 정보를 수집하고, 상기 단말 구성 정보에 대응되는 크롤링 방식을 사용하여 상기 목표 웹페이지에 대해 크롤링하고, 획득한 웹페이지 요약을 상기 목표 웹페이지의 상기 단말 구성 정보에서 검색할 때 표시되는 기저장 웹페이지 요약으로 하도록, 상기 대조 정보를 검색 서버로 발송하는 것을 특징으로 하는 데이터 업데이트 장치.
  15. 제14항에 있어서,
    상기 송수신 모듈은 또한 상기 검색 서버로부터 발송되는 크롤링 전략을 수신하고;
    상기 데이터 업데이트 장치는,
    상기 크롤링 전략을 사용하여 상기 목표 웹페이지의 웹페이지 내용에 대해 크롤링하여 현재 웹페이지 요약을 획득하는 크롤링 모듈을 더 포함하는 것을 특징으로 하는 데이터 업데이트 장치.
  16. 제14항에 있어서,
    상기 송수신 모듈은 또한 상기 검색 서버가 상기 검색 키워드를 기초로 상기 검색 결과 웹페이지를 생성하도록 사용자가 트리거한 검색 키워드를 검색 서버로 발송하는 것을 특징으로 하는 데이터 업데이트 장치.
  17. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하며, 여기서,
    상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 또는 제4항에 따른 데이터 업데이트 방법을 수행할 수 있도록 하는 것을 특징으로 하는 검색 서버.
  18. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하며, 여기서,
    상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제6항 내지 제8항 중 어느 한 항에 따른 데이터 업데이트 방법을 수행할 수 있도록 하는 것을 특징으로 하는 단말.
  19. 컴퓨터 실행 명령이 저장되어 있고, 프로세서가 상기 컴퓨터 실행 명령을 실행할 때, 제1항 또는 제4항에 따른 데이터 업데이트 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장매체.
  20. 컴퓨터 실행 명령이 저장되어 있고, 프로세서가 상기 컴퓨터 실행 명령을 실행할 때, 제6항 내지 제8항 중 어느 한 항에 따른 데이터 업데이트 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장매체.
  21. 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 제1항 또는 제4항에 따른 데이터 업데이트 방법이 구현되는 컴퓨터 프로그램.
  22. 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 제6항 내지 제8항 중 어느 한 항에 따른 데이터 업데이트 방법이 구현되는 컴퓨터 프로그램.
KR1020217023258A 2020-04-29 2021-03-16 데이터 업데이트 방법, 장치, 검색 서버, 단말 및 저장매체 KR102615979B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010357679.5A CN111767442B (zh) 2020-04-29 2020-04-29 数据更新方法、装置、搜索服务器、终端及存储介质
CN202010357679.5 2020-04-29
PCT/CN2021/081142 WO2021218468A1 (zh) 2020-04-29 2021-03-16 数据更新方法、装置、搜索服务器、终端及存储介质

Publications (2)

Publication Number Publication Date
KR20210098542A KR20210098542A (ko) 2021-08-10
KR102615979B1 true KR102615979B1 (ko) 2023-12-20

Family

ID=77316307

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217023258A KR102615979B1 (ko) 2020-04-29 2021-03-16 데이터 업데이트 방법, 장치, 검색 서버, 단말 및 저장매체

Country Status (3)

Country Link
US (1) US11803597B2 (ko)
JP (1) JP7322194B2 (ko)
KR (1) KR102615979B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342371A (ja) * 2001-05-16 2002-11-29 Nec Corp Www検索システムおよび方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169770A1 (en) 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US7685296B2 (en) 2003-09-25 2010-03-23 Microsoft Corporation Systems and methods for client-based web crawling
US7840893B2 (en) 2005-04-25 2010-11-23 Kulas Charles J Display and manipulation of web page-based search results
US8707451B2 (en) 2006-03-01 2014-04-22 Oracle International Corporation Search hit URL modification for secure application integration
JP2009532751A (ja) 2006-03-30 2009-09-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) ウェブサイトの更新についての情報を提供する方法および装置
CN102135967B (zh) 2010-01-27 2013-06-05 华为技术有限公司 网页关键词提取方法、装置及系统
CN102446191A (zh) 2010-10-13 2012-05-09 北京创新方舟科技有限公司 一种用于生成网页内容摘要的方法、设备及系统
CN101984429B (zh) 2010-11-04 2012-03-14 北京百度网讯科技有限公司 获取目标页面的方法、装置、搜索引擎和浏览器
US20130117645A1 (en) * 2011-11-03 2013-05-09 Taptu Ltd Method and Apparatus for Generating a Feed of Updating Content
CN102663062B (zh) 2012-03-30 2015-01-14 北京奇虎科技有限公司 一种处理搜索结果中无效链接的方法及装置
WO2015043322A1 (zh) 2013-09-26 2015-04-02 北京奇虎科技有限公司 引擎抓取、验证和提供网页开放式摘要的方法及装置
WO2015061290A1 (en) 2013-10-21 2015-04-30 Convida Wireless, Llc Crawling of m2m devices
CN103631888B (zh) 2013-11-15 2017-02-15 北京火信网络科技有限公司 基于位置的多数据源的数据搜索方法和装置
US9747556B2 (en) * 2014-08-20 2017-08-29 Vertafore, Inc. Automated customized web portal template generation systems and methods
US10242102B2 (en) * 2014-12-29 2019-03-26 Samsung Electronics Co., Ltd. Network crawling prioritization
CN107123743B (zh) 2017-05-26 2019-02-12 上海天马有机发光显示技术有限公司 有机发光器件及其制作方法、显示面板和显示装置
CN108415941A (zh) 2018-01-29 2018-08-17 湖北省楚天云有限公司 一种网页爬虫方法、装置以及电子设备
CN110795615B (zh) 2019-10-28 2022-08-09 百度在线网络技术(北京)有限公司 搜索方法、装置、设备和存储介质
CN111767442B (zh) 2020-04-29 2023-12-26 百度在线网络技术(北京)有限公司 数据更新方法、装置、搜索服务器、终端及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342371A (ja) * 2001-05-16 2002-11-29 Nec Corp Www検索システムおよび方法

Also Published As

Publication number Publication date
KR20210098542A (ko) 2021-08-10
JP7322194B2 (ja) 2023-08-07
US20210342406A1 (en) 2021-11-04
JP2022537552A (ja) 2022-08-26
US11803597B2 (en) 2023-10-31

Similar Documents

Publication Publication Date Title
EP3822828A2 (en) Method, apparatus, device and storage medium for determining page theme and computer program product
US11403117B2 (en) Methods for processing mini program, and related devices
US20210108931A1 (en) Method and apparatus for determining hybrid travel route, device and storage medium
KR102550540B1 (ko) 랜딩 페이지 처리 방법, 장치, 기기 및 매체
US11270669B2 (en) Rendering method and apparatus, electronic device and storage medium
US11157576B2 (en) Method, system and terminal for performing search in a browser
KR102600018B1 (ko) 엔티티 관계 마이닝 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN111125176B (zh) 一种业务数据搜索方法、装置、电子设备和存储介质
CN103678706A (zh) 一种基于截图信息的识图方法、系统、设备及装置
EP3933619A1 (en) Data update method and device, search server, terminal, and storage medium
CN103605676A (zh) 一种基于搜索的终端故障解决方法、客户端和系统
CN108959294B (zh) 一种访问搜索引擎的方法和装置
KR102615979B1 (ko) 데이터 업데이트 방법, 장치, 검색 서버, 단말 및 저장매체
EP4224322A1 (en) Application testing method and apparatus, electronic device and storage medium
KR20220156493A (ko) 관측 정보 처리 방법, 관측 정보 처리 장치, 전자장비, 저장매체 및 컴퓨터 프로그램
CN113157722B (zh) 一种数据处理方法、装置、服务器、系统及存储介质
US20210224139A1 (en) Method and apparatus for graph computing, electronic device and storage medium
CN113656737A (zh) 网页内容展示方法、装置、电子设备以及存储介质
CN114996557B (zh) 服务稳定性确定方法、装置、设备以及存储介质
CN104484421A (zh) 搜索相同话题用户的方法及客户端
CN111552878B (zh) 数据处理的方法及装置
CN111552879B (zh) 数据处理的方法及装置
CN111552877B (zh) 数据处理的方法及装置
CN114428891A (zh) 一种网络资源的处理方法、装置、系统、设备及存储介质
CN103617172A (zh) 一种提供终端故障解决应用盒子的方法、装置和系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right