KR101620957B1 - Web browsing system including function of crawling and web browsing method - Google Patents

Web browsing system including function of crawling and web browsing method Download PDF

Info

Publication number
KR101620957B1
KR101620957B1 KR1020140164978A KR20140164978A KR101620957B1 KR 101620957 B1 KR101620957 B1 KR 101620957B1 KR 1020140164978 A KR1020140164978 A KR 1020140164978A KR 20140164978 A KR20140164978 A KR 20140164978A KR 101620957 B1 KR101620957 B1 KR 101620957B1
Authority
KR
South Korea
Prior art keywords
data
web
crawling
unit
layout
Prior art date
Application number
KR1020140164978A
Other languages
Korean (ko)
Inventor
이상근
이용구
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020140164978A priority Critical patent/KR101620957B1/en
Application granted granted Critical
Publication of KR101620957B1 publication Critical patent/KR101620957B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Abstract

The present invention relates to a web browsing system and, more specifically, to a web browsing system having a crawling function within a user terminal. The web browsing system includes: a crawling unit performing crawling for a website to generate crawling web data; a personalization service unit generating personalized web data by matching the crawling web data and string data extracted from private data which is stored private information; and a browsing unit converting the personalized web data into layout data and coupling the same with a pre-stored template. According to one embodiment of the present invention, the web browsing system can prevent personal information from being exposed through browsing.

Description

크롤링 기능을 갖는 웹브라우징 시스템 및 그 방법{WEB BROWSING SYSTEM INCLUDING FUNCTION OF CRAWLING AND WEB BROWSING METHOD}[0001] WEB BROWSING SYSTEM INCLUDING FUNCTION OF CRAWLING AND WEB BROWSING METHOD [0002]

본 발명은 크롤링 기능을 갖는 웹브라우징 시스템 및 그 방법에 관한 발명으로서 보다 상세하게는 단말이 크롤링을 통해 웹사이트의 정보를 저장하고, 저장된 웹사이트 정보에서 브라우징을 수행하는 웹브라우징 시스템 및 그 방법에 관한 발명이다.The present invention relates to a web browsing system having a crawling function, and more particularly to a web browsing system for storing information of a web site through crawling and browsing from stored web site information and a method thereof .

최근, 웹(Web)의 빠른 성장과 더불어 엄청난 양의 정보들이 웹을 통해 제공되고 있다. 웹이 처음 등장하였을 때에는 웹이 갖고 있는 정보의 양이 상대적으로 매우 적었기 때문에 이러한 초기의 웹은 정적 페이지(static page) 형태로 표현되었다. 이러한 정적 페이지의 URL(Uniform Resource Locator)은 대개 지속적으로 존재함으로 하이퍼링크(hyperlink)를 따라 방문이 가능했다. 이러한 특징을 갖는 웹을 서피스웹(Surface Web)이라 부른다.Recently, with the rapid growth of the web, a huge amount of information is being provided through the web. When the Web first appeared, the amount of information the Web had was relatively small, so these early Webs were represented in the form of static pages. These static page URLs (Uniform Resource Locators) are usually persistent and can be visited along a hyperlink. A web having these characteristics is called a surface web.

이러한 서피스웹을 검색하기 위해 많은 검색 엔진들이 개발되었다. 이러한 검색 엔진들은 크롤러(crawler)라 불리는 프로그램을 이용하여 하이퍼링크를 따라 웹 페이지를 방문하고 방문한 웹 페이지의 인덱스를 생성한다. 이때, 생성된 인덱스는 사용자의 질의를 만족하는 페이지를 찾는데 사용된다.Many search engines have been developed to search these surface webs. These search engines use a program called a crawler to visit a web page along a hyperlink and create an index of the visited web page. At this time, the generated index is used to find a page satisfying the user's query.

그러나 현재의 웹은 초기의 웹보다 훨씬 많은 정보들을 갖고 있다. 이러한 정보들을 효율적으로 관리하고 검색하기 위해 현재 웹은 자신의 후단(back-end) 데이터베이스(database)에 정보들을 저장한다. 일반적으로 웹 후단의 데이터베이스로부터 정보를 가져오기 위해 사용자들은 웹 사이트의 검색 기능을 이용한다. 여기서, 웹사이트들은 이러한 검색 기능을 HTML(Hypertext Markup Language)의 <FORM> 태그를 사용하여 제공한다. HTML의 <FORM> 태그는 사용자의 입력을 웹 서버에 전달하는 역할을 한다. 즉, 사용자가 검색 폼(search form)에 찾고자하는 질의를 입력하면 웹 사이트는 이러한 질의와 연관된 정보들을 자신의 후단 데이터베이스에서 검색한다. 웹사이트는 검색된 결과들을 포함한 페이지를 동적으로 생성하고, 이 페이지를 사용자에게 보여준다. 따라서, “깊은(deep)” 혹은 “숨겨진(hidden)” 데이터베이스로부터 정보가 검색되어 나오기 때문에 이러한 웹을 "딥웹(Deep Web)" 혹은 "히든웹(Hidden Web)"이라 부른다.However, the current web has much more information than the initial web. To efficiently manage and retrieve such information, the current Web stores information in its back-end database. Generally, users use the search function of a website to fetch information from the database on the back of the web. Here, web sites provide this search function using the <FORM> tag of Hypertext Markup Language (HTML). The <FORM> tag in HTML is responsible for passing the user's input to the web server. That is, when a user inputs a query to be searched for in a search form, the web site searches the database associated with the query for information related to the query. The Web site dynamically generates a page containing the retrieved results and presents the page to the user. This is called "Deep Web" or "Hidden Web" because information is retrieved from "deep" or "hidden" databases.

현재 웹 크롤링을 위해 많은 검색 엔진 기업들은 엄청난 양의 분산된 컴퓨팅 자원을 사용하고 있다. 예를 들어, 구글(Google, http://www.google.com)은 수십만 대의 컴퓨터들을 전 세계에 직접 설치하여 웹 크롤링에 이용하고 있다.Currently, many search engine companies are using a huge amount of distributed computing resources for web crawling. For example, Google (http://www.google.com) has installed hundreds of thousands of computers around the world and is using it for web crawling.

도1은 일반적인 웹사이트 검색을 위한 시스템도이다.1 is a system diagram for a general web site search.

도1에 도시된 바와 같이 컴퓨터, 노트북, 테블릿, 스마트 폰 등과 같은 사용자 단말(20)은 인터넷 망을 통해서 서버(10)와 연결되고, 사용자 단말(20)을 통해서 검색어가 입력되면 서버(10)에서 웹 크롤링을 통해 데이터베이스에 저장되어 있는 웹 사이트내에 검색어와 관련된 콘텐츠를 사용자 단말(20)로 제공한다. 최근에는 사용자가 직접 검색어 등을 입력하지 않더라도 사용자가 다른 사용자와 주고 받는 문자 메세지나 사진, 위치 정보 등에서 추출한 정보, 특히 텍스트 정보 등을 이용하여 사용자가 원하는 웹 페이지의 자동검색을 실행한다. 1, a user terminal 20 such as a computer, a notebook computer, a tablet, or a smart phone is connected to the server 10 through the Internet network. When a search word is input through the user terminal 20, ) Provides content related to the search term to the user terminal 20 within a web site stored in the database through web crawling. Recently, even if the user does not directly input a search word or the like, the user performs an automatic search of a web page desired by a user by using information extracted from a text message, a photograph, and location information exchanged with other users, particularly text information.

다만 이 경우 사용자가 주고 받은 문자 메세지나 자신의 단말기에 저장되어 있는 사진이나 위치정보 등은 보호가 필요한 개인정보에 해당함에도 이러한 개인정보가 웹 크롤링을 위해서 서버(10)로 전송되거나 공개되어야 한다. 이 과정에서 자칫 사용자 단말(20)에 저장되어 있는 프라이빗 데이터(문자 메세지, 사진, 위치정보 등)가 공중에 오픈되어 사생활 침해의 위험이 발생한다.In this case, although the text message exchanged by the user or the photograph or location information stored in the terminal corresponds to the personal information requiring protection, such personal information should be transmitted or disclosed to the server 10 for web crawling. In this process, the private data (text message, picture, location information, etc.) stored in the user terminal 20 is opened to the public and a risk of privacy invasion occurs.

본 발명의 목적은 웹브라우저 사용자의 보안을 획득하고 개인정보를 보호하기 위한 크롤링 기능을 갖는 웹브라우징 시스템 및 그 방법을 제공하는데 있다.An object of the present invention is to provide a web browsing system having a crawling function for acquiring security of a web browser user and protecting personal information, and a method thereof.

본 발명의 실시예에 따른 웹브라우징 시스템은 사용자 단말 내에서 크롤링 기능을 갖는 웹브라우징 시스템으로서, 웹사이트에 대한 크롤링을 수행하여 크롤링 웹 데이터를 생성하는 크롤링부, 저장되어 있는 사적(私的)정보인 프라이빗 데이터에서 추출된 문자열 데이터와 상기 크롤링 웹 데이터를 매칭시켜 맞춤형 웹 데이터를 생성하는 개인화 서비스부 및 상기 맞춤형 웹 데이터를 레이아웃 데이터로 변환하고, 기 저장된 템플릿과 결합시키는 브라우징부를 포함한다. A web browsing system according to an embodiment of the present invention is a web browsing system having a crawling function in a user terminal. The web browsing system includes a crawler for generating crawl web data by performing a crawl on a web site, A personalization service unit for generating customized web data by matching the character string data extracted from the private data and the crawling web data, and a browsing unit for converting the customized web data into layout data and combining the customized web data with pre-stored templates.

본 발명의 실시예에 따른 웹브라우징 방법은 사용자 단말에 의해서 구현되는 웹브라우징 방법으로서, 크롤링을 수행할 웹사이트 위치를 생성하는 단계, 상기 웹사이트 위치에서 크롤링을 수행하여 크롤링 웹데이터를 생성하는 단계, 프라이빗 데이터에서 문자열 데이터를 추출하는 단계, 상기 문자열 데이터와 상기 크롤링 웹데이터를 매칭시켜 맞춤형 웹데이터를 생성하는 단계, 상기 맞춤형 웹데이터를 메타데이터를 포함하는 레이아웃 데이터로 변환하는 단계 및 상기 레이아웃 데이터와 레이아웃 템플릿을 결합하여 웹페이지를 출력하는 단계를 포함한다.A web browsing method according to an embodiment of the present invention is a web browsing method implemented by a user terminal, comprising: generating a web site location to perform a crawl; generating crawl web data by performing a crawl at the web site location , Extracting character string data from the private data, generating customized web data by matching the character string data and the crawling web data, converting the customized web data into layout data including meta data, And a layout template to output a web page.

본 발명의 실시예에 따른 웹브라우징 시스템 및 그 방법에 의하면 브라우징을 통해 노출위험이 있는 개인정보를 보호할 수 있다. 또한 크롤링이 단말내에서 이루어짐에도 불구하고, 배터리의 소모를 최소화하고 무선데이터의 사용으로 인한 과금을 방지할 수 있다.According to the web browsing system and method according to the embodiment of the present invention, personal information with risk of exposure can be protected through browsing. In addition, although the crawling is performed in the terminal, consumption of the battery can be minimized and charging due to the use of wireless data can be prevented.

도1은 일반적인 웹사이트 검색을 위한 시스템도이다.
도2는 본 발명의 실시예에 따른 웹브라우징 시스템의 블럭도이다.
도3은 본 발명의 또 다른 실시예에 따른 웹브라우징 시스템의 블록도이다.
도4는 본 발명의 실시예에 따른 웹브라우징 방법의 순서도이다.
1 is a system diagram for a general web site search.
2 is a block diagram of a web browsing system according to an embodiment of the present invention.
3 is a block diagram of a web browsing system in accordance with another embodiment of the present invention.
4 is a flowchart of a web browsing method according to an embodiment of the present invention.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.It is to be understood that the specific structural or functional description of embodiments of the present invention disclosed herein is for illustrative purposes only and is not intended to limit the scope of the inventive concept But may be embodied in many different forms and is not limited to the embodiments set forth herein.

본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.The embodiments according to the concept of the present invention can make various changes and can take various forms, so that the embodiments are illustrated in the drawings and described in detail herein. It should be understood, however, that it is not intended to limit the embodiments according to the concepts of the present invention to the particular forms disclosed, but includes all modifications, equivalents, or alternatives falling within the spirit and scope of the invention.

어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.It is to be understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, . On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between. Other expressions that describe the relationship between components, such as "between" and "between" or "neighboring to" and "directly adjacent to" should be interpreted as well.

본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, the terms "comprises" or "having" and the like are used to specify that there are features, numbers, steps, operations, elements, parts or combinations thereof described herein, But do not preclude the presence or addition of one or more other features, integers, steps, operations, components, parts, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the meaning of the context in the relevant art and, unless explicitly defined herein, are to be interpreted as ideal or overly formal Do not.

이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시 예들을 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings attached hereto.

도2는 본 발명의 실시예에 따른 웹브라우징 시스템의 블럭도이다.2 is a block diagram of a web browsing system according to an embodiment of the present invention.

도2에 도시된 바와 같이 본 발명의 실시예에 따른 웹브라우징 시스템은 사용자 단말 내에서 크롤링 기능을 갖는 웹브라우징 시스템으로서, 웹사이트에 대한 크롤링을 수행하여 크롤링 웹 데이터를 생성하는 크롤링부(100), 저장되어 있는 사적(私的)정보인 프라이빗 데이터에서 추출된 문자열 데이터와 크롤링 웹 데이터를 매칭시켜 맞춤형 웹 데이터를 생성하는 개인화 서비스부(200) 및 맞춤형 웹 데이터를 레이아웃 데이터로 변환하고, 기 저장된 템플릿과 결합시키는 브라우징부(300)를 포함한다.2, the web browsing system according to the embodiment of the present invention is a web browsing system having a crawling function in a user terminal. The web browsing system includes a crawler 100 for generating crawl web data by performing a crawl on a web site, A personalization service unit 200 for generating customized web data by matching the character string data extracted from the private data stored in the private data with the crawling web data and the customized web data into layout data, And a browsing unit 300 for combining with the template.

크롤링부(100)는 웹사이트에 대한 크롤링을 수행한다. 크롤링은 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색대상의 색인으로 포함시키는 것을 말한다. 특히 웹크롤링은 검색 엔진과 같은 여러 사이트에서 데이터의 최신 상태를 유지하기 위해 수행한다. The crawling unit 100 performs a crawl on the website. Crawling refers to the collection of documents that are stored on a large number of computers and are included as indexes of search objects. In particular, Web crawling is done to keep the data up-to-date at various sites, such as search engines.

도2와 같이 크롤링부는 위치생성모듈(110)과 크롤러(120)를 포함한다. As shown in FIG. 2, the crawling unit includes a location generation module 110 and a crawler 120.

위치생성모듈(110)은 사용자가 직접 정하거나 사용자가 자주 방문한 웹사이트 정보를 통해 크롤링을 수행할 웹사이트의 위치를 생성한다. 위치생성모듈(110)에서 생성한 웹사이트는 사용자가 자주 방문한 웹사이트 또는 관리자가 직접 정해준 웹사이트 일 수 있으며, 위치생성모듈(110)을 통해 획득된 웹사이트에 대한 크롤링을 수행하게 된다.The location generation module 110 generates a location of a web site to be crawled through a web site information determined by a user or frequently visited by a user. The web site generated by the location generation module 110 may be a web site frequently visited by a user or a web site determined by the administrator, and performs a crawl on the web site obtained through the location generation module 110.

크롤러(120)는 앞서 위치생성모듈에 의해서 생성된 웹사이트의 제목과 내용을 크롤링한다. 크롤러(120)는 대체로 생성된 웹사이트의 모든 페이지의 복사본을 저장한다. 크롤러(120)는 주기적으로 웹사이트의 페이지를 복사하여 최신 데이터를 우선적으로 저장한다. 크롤러(120)는 크롤링을 통해서 웹페이지에 대한 크롤링 웹 데이터를 생성한다.The crawler 120 crawls the title and content of the website generated earlier by the location generation module. The crawler 120 typically stores a copy of every page of the generated website. The crawler 120 periodically copies the pages of the website and stores the latest data in a priority order. The crawler 120 generates crawl web data for a web page through crawling.

또한 크롤러(120)는 링크 체크나 HTML코드 검증과 같은 웹사이트의 자동유지관리작업을 위해 사용될 수 있으며, 자동 이메일 수집과 같은 웹페이지의 특정 형태의 정보를 수집할 수도 있다. 여기서, 검색엔진은 월드와이드웹과 FTP서버에서 정보를 찾을 수 있도록 만들어진 소프트웨어를 의미한다. 또한 정보들은 웹페이지, 이미지, 영상, 다른 파일형식의 정보 등을 모두 포함한다.The crawler 120 may also be used for automatic maintenance of web sites, such as link checking or HTML code verification, or may collect certain types of information on a web page, such as automatic email collection. Here, search engines are software that is designed to find information on the World Wide Web and FTP servers. The information also includes web pages, images, images, and other file format information.

더불어 크롤링부(100)는 이렇게 생성된 페이지에 대한 빠른 검색을 위해서 각 페이지를 인덱싱하는 인덱싱모듈(130)을 더 포함할 수 있다In addition, the crawling unit 100 may further include an indexing module 130 for indexing each page for quick retrieval of the generated page

이와 같이 크롤링부(100)에서 생성된 크롤링 웹 데이터는 본 발명에 따른 웹브라우징 시스템에 포함되어 있는 메모리(미도시)에 저장될 수 있다.The crawling web data generated by the crawling unit 100 may be stored in a memory (not shown) included in the web browsing system according to the present invention.

개인화 서비스부(200)는 데이터 추출모듈(210)과 매칭모듈(220)을 포함한다. The personalization service unit 200 includes a data extraction module 210 and a matching module 220.

데이터 추출모듈(210)은 프라이빗 데이터, 즉 개인의 단말에 저장되어 있는 문자 메세지, 사진, 영상 등과 같은 각종 데이터에서 문자열 데이터를 추출한다. 이러한 문자열 데이터는 사용자가 검색을 위한 별도의 검색어 입력 없이도 자동으로 관련 웹사이트에 연결하여 사용자에게 정보를 제공하기 위한 자동으로 입력되는 검색어가 된다.The data extraction module 210 extracts character string data from various kinds of data such as private data, that is, a character message, a photograph, and an image stored in the terminal of the individual. Such a character string data is automatically inputted to provide information to a user by automatically connecting to a related web site without a user inputting a separate search word for the search.

매칭모듈(220)은 앞서 데이터 추출모듈(210)에서 추출된 문자열 데이터와 크롤링부(100)에서 생성되었던 크롤링 웹 데이터를 매칭시켜 맞춤형 웹데이터를 생성한다. The matching module 220 generates customized web data by matching the character string data extracted from the data extraction module 210 with the crawling web data generated by the crawler unit 100.

맞춤형 웹데이터는 크롤링 웹 데이터 내에서 검색된 데이터로서 추출된 문자열 데이터와 매칭되는 웹 데이터이다. 특히 추출된 문자열을 포함하고 있는지 여부와 노출되는 빈도수 등 정확도를 활용하여 나열될 수 있으며, 최근에 크롤링된 데이터를 위주로 나열될 수도 있다.The customized web data is web data that is matched with the extracted character string as data searched in the crawling web data. In particular, they can be listed using accuracy, including whether they contain extracted strings and the frequency with which they are exposed, or they can be categorized with recently crawled data.

브라우징부(300)는 데이터 변환모듈(310)과 템플릿 저장모듈(320)을 포함한다.The browsing unit 300 includes a data conversion module 310 and a template storage module 320.

데이터 변환모듈(310)은 맞춤형 웹데이터를 레이아웃 데이터로 변환한다. 또한 템플릿 저장모듈(320)은 레이아웃 데이터와 결합하는 레이아웃 템플릿을 저장한다. The data conversion module 310 converts the customized web data into layout data. The template storage module 320 also stores a layout template to be combined with the layout data.

레이아웃 데이터는 화면에 출력할 메타 정보를 보유한 데이터로서, 레이아웃 데이터는 지정된 레이아웃 템플릿에 의해 화면에 출력될 형태가 결정된다. 레이아웃 템플릿은 적용되는 디바이스마다 다르게 적용될 수 있으며, 위 템플릿은 수정이 가능하다.The layout data is data having meta information to be output to the screen, and the form in which the layout data is output to the screen by the designated layout template is determined. Layout templates can be applied differently for different devices, and the above templates can be modified.

본 발명의 실시예에 따른 웹브라우징 시스템에 의하면 크롤링부(100)에서 생성된 크롤링 웹 데이터를 개인화 서비스부(200)에서 추출된 문자열 데이터과 매칭시켜 맞춤형 웹데이터를 생성하고, 브라우징부(300)에서는 맞춤형 웹데이터를 단말의 시스템에 적용하여 레이아웃 데이터로 변환하여 개인 단말의 화면에 출력하게 된다.According to the web browsing system according to the embodiment of the present invention, the crawling web data generated by the crawling unit 100 is matched with the string data extracted from the personalization service unit 200 to generate customized web data, and the browsing unit 300 The customized web data is applied to the system of the terminal, converted into layout data, and output to the screen of the personal terminal.

본 발명의 실시예에 따른 웹브라우징 시스템을 실제 적용한 예를 살펴보면, 스마트폰 등 개인단말을 활용하여 SMS를 사용하는 경우 SMS 대화내용은 개인 단말에 저장된다. 스마트폰 브라우저를 통해 방문한 웹페이지들에 대한 기록은 개인 단말에 저장되어 있다. 이러한 SMS대화내용에는 개인 관심사를 담고 있을 가능성이 높다. SMS대화 내용은 공개된 API를 통해 어플리케이션에서 접근이 가능하다. 예를 들어 사용자가 "영화"에 대한 대화를 다른 친구와 SMS를 통해 주고 받게 되면, 개인화 서비스부(200)는 "영화"라는 문자열 데이터를 추출한다.In an actual application example of the web browsing system according to the embodiment of the present invention, when the SMS is used by using a personal terminal such as a smart phone, the SMS conversation contents are stored in the personal terminal. A record of the web pages visited through the smartphone browser is stored in the personal terminal. These SMS conversations are likely to contain personal interests. SMS conversations can be accessed from the application through the open API. For example, when the user exchanges a conversation about "movie " with another friend via SMS, the personalization service unit 200 extracts character string" movie ".

스마트폰 브라우저를 통해 방문하여 남아 있는 웹페이지 기록을 통해서 크롤링부(100)는 해당 웹페이지에 대한 크롤링을 주기적으로 수행한다. 사용자가 자주 방문하는 웹페이지는 해당 경로를 통해 사용자의 방문이 없더라도 주기적으로 크롤링을 수행하여 크롤링 웹 데이터를 생성하고, 이를 저장한다.The crawling unit 100 periodically performs crawling of the web page through the recording of the remaining web page through the smartphone browser. Web pages frequently visited by users are periodically crawled to generate crawl web data even if there is no user's visit through the corresponding path, and stores the generated crawl web data.

본 발명에 따른 시스템에 의하면 앞서 "영화"라는 문자열 데이터와 생성된 크롤링 웹 데이터를 서로 매칭시켜 맞춤형 웹 데이터를 생성하고, 레이아웃 데이터로 변환하고 템플릿과 결합시켜 단말의 화면에 출력한다. 만일 사용자가 www.naver.com에 주로 방문하였을 경우, 이 페이지는 실시간으로 내용이 업데이트 되고, 크롤러를 통해 받아온 데이터 중에서 "영화"라는 텍스트가 포함된 링크주소, 혹은 페이지 내용을 사용자가 볼 수 있도록 브라우징이 가능하다.According to the system of the present invention, customized web data is generated by matching character string "movie" with the generated crawling web data, converted into layout data, combined with the template, and output to the screen of the terminal. If the user visits www.naver.com, this page will be updated in real time, the link address containing the text "movie" from the data received via the crawler, Browsing is possible.

도3은 본 발명의 또 다른 실시예에 따른 웹브라우징 시스템의 블록도이다.3 is a block diagram of a web browsing system in accordance with another embodiment of the present invention.

도3에 도시된 바와 같이 본 발명의 실시예에 따른 웹브라우징 시스템은 크롤링부(100)를 제어하는 크롤링 제어부(400)를 더 포함하고 있고, 크롤링 제어부(400)는 와이파이(Wi-Fi)(500)의 연결상태 또는 단말의 배터리(600) 충전량을 실시간으로 모니터링하여 크롤링부(100)를 제어한다.3, the web browsing system according to the embodiment of the present invention further includes a crawling control unit 400 that controls the crawling unit 100. The crawling control unit 400 includes a Wi-Fi (Wi-Fi) 500 or the battery charge of the terminal is monitored in real time to control the crawler unit 100.

본 발명의 실시예에 따른 웹브라우징 시스템은 크롤링을 통해서 수신하는 데이터에 대한 과금을 방지하고, 배터리 소모를 최소화하기 위하여 크롤링 제어부(400)를 포함한다. The web browsing system according to an embodiment of the present invention includes a crawl control unit 400 for preventing charging of data received through crawling and minimizing battery consumption.

크롤링을 사용자의 단말을 통해 직접 실행할 경우 인터넷 데이터 전송과 배터리 자원이 많이 소모된다. 크롤링 제어부(400)는 Wifi의 연결상태를 확인하여 크롤링 시간을 결정한다. 예를 들어 크롤링 시간을 1시간 단위로 설정한 경우 크롤링 시간이 되었으나 Wifi에 연결상태가 끊긴 경우에는 크롤링부로 하여금 크롤링을 수행하지 못하도록 한다. 또한 크롤링 제어부(400)는 배터리 충전상태를 확인하여 크롤링 시간을 결정한다. 예를 들어 크롤링 시간을 1시간 단위로 결정하였을 경우 크롤링 시간이 되었지만 배터리 충전중인 상태가 아닐 경우 또는 기 지정된 %미만의 충전량인 경우에는 크롤링부(100)로 하여금 크롤링을 수행하지 못하도록 한다.When crawling is executed directly through the user's terminal, Internet data transmission and battery resources are consumed. The crawling control unit 400 determines the crawl time by checking the connection status of the Wifi. For example, if the crawl time is set to 1 hour, the crawl will not be able to crawl if the crawl time is reached but the connection to the wifi is lost. In addition, the crawling control unit 400 determines the crawl time by checking the state of charge of the battery. For example, if the crawl time is determined to be one hour, the crawl unit 100 can not perform the crawl when the battery is not being charged, or if the charged amount is less than the predetermined percentage.

사용자는 크롤링 시간 간격, 연결 제한상태를 옵션으로 결정함으로써 사용자가 리소스를 직접 관리할 수 있도록 한다. 물론 사용자가 직접 해당 웹사이트를 크롤링하고 싶은 경우에는 크롤링 제어부(400)를 수동으로 동작시켜 크롤링이 가능하다.The user can optionally manage the resources by optionally determining crawl time interval, connection limit status. Of course, if the user wants to directly crawl the web site, the crawl control unit 400 can be operated manually to crawl the web site.

이상 본 발명의 실시예에 따른 웹브라우징 시스템에 대해서 살펴보았다.The web browsing system according to the embodiment of the present invention has been described above.

이하 본 발명의 또 다른 양태에 따른 웹브라우징 방법에 대해서 살펴본다.Hereinafter, a web browsing method according to another embodiment of the present invention will be described.

도4는 본 발명의 실시예에 따른 웹브라우징 방법의 순서도이다.4 is a flowchart of a web browsing method according to an embodiment of the present invention.

도4에 도시된 바와 같이 본 발명의 실시예에 따른 웹브라우징 방법은 사용자 단말에 의해서 구현되는 웹브라우징 방법으로서, 크롤링을 수행할 웹사이트 위치를 생성하는 단계(S100), 웹사이트 위치에서 크롤링을 수행하여 크롤링 웹데이터를 생성하는 단계(S200), 프라이빗 데이터에서 문자열 데이터를 추출하는 단계(S300), 문자열 데이터와 크롤링 웹데이터를 매칭시켜 맞춤형 웹데이터를 생성하는 단계(S400), 맞춤형 웹데이터를 메타데이터를 포함하는 레이아웃 데이터로 변환하는 단계(S500) 및 레이아웃 데이터와 레이아웃 템플릿을 결합하여 웹페이지를 출력하는 단계(S600)를 포함한다.As shown in FIG. 4, a web browsing method according to an embodiment of the present invention is a web browsing method implemented by a user terminal, including: generating a web site location to perform a crawling operation (S100) (Step S300); generating customized web data by matching the character string data and the crawling web data (S400); generating customized web data (step S400) Converting the layout data into layout data including meta data (S500), and outputting a web page by combining the layout data and the layout template (S600).

크롤링을 수행할 웹사이트 위치를 생성하는 단계(S100)는 사용자가 방문한 기록이 있거나 사용자의 설정에 의해서 정해진 웹사이트의 위치를 생성할 수 있다. 크롤링을 수행할 웹사이트 위치가 생성된 경우, 해당 웹사이트 위치에서 크롤링을 수행하여 크롤링 웹데이터를 생성하는 단계(S200)를 거친다. 이 단계는 크롤링되는 해당 웹사이트의 모든 페이지에 대해서 복사 및 저장하는 단계이다. The step S100 of generating the website site to perform the crawling can generate the location of the website determined by the setting of the user or the record visited by the user. If a web site site to be crawled is generated, a step (S200) of generating crawled web data by performing a crawl at the web site location is performed. This step is to copy and store all the pages of the web site being crawled.

프라이빗 데이터에서 문자열데이터를 추출하는 단계(S300)는 개인단말에 저장되어 있는 SMS문자, 사진, 동영상 등 다양한 형태의 개인의 사생활 정보인 프라이빗 데이터에서 사용자가 선호하거나 관심을 갖는 테마 등을 프라이빗 데이터의 텍스트를 분석하여 문자열 데이터를 추출한다. The step of extracting the character string data from the private data (S300) includes a step of extracting the private data, such as SMS characters, photographs, moving pictures, and the like, Analyze the text and extract the string data.

문자열 데이터와 크롤링 웹데이터를 매칭시켜 맞춤형 웹 데이터를 생성하는 단계(S400)는 앞서 크롤링을 통해서 저장된 크롤링 웹데이터에서 사용자의 프라이빗 데이터에서 추출된 문자열 데이터와 일치하거나 유사한 내용을 포함하고 있는 웹데이터를 매칭시켜 맞춤형 웹 데이터를 생성한다.The step S400 of generating the customized web data by matching the character string data with the crawling web data includes a step of generating web data that matches or is similar to the character string data extracted from the user's private data in the crawling web data stored through the crawling And generates customized web data by matching.

맞춤형 웹데이터를 레이아웃 데이터로 변환하는 단계(S500)는 맞춤형 웹데이터를 메타정보 등을 포함하는 레이아웃 데이터로 변환하고, 이 레이아웃 데이터를 기 저장된 레이아웃 템플릿과 결합시켜 화면에 출력될 형태를 결정하고 웹페이지를 출력한다(S600). The step S500 of converting the customized web data into the layout data converts the customized web data into layout data including meta information and the like, combines the layout data with the pre-stored layout template, determines the form to be output on the screen, And outputs a page (S600).

100 크롤링부 110 위치생성모듈
120 크롤러 130 인덱싱 모듈
200 개인화 서비스부 210 데이터 추출모듈
220 매칭모듈 300 브라우징부
310 데이터 변환모듈 320 템플릿 저장모듈
400 크롤러 제어부 500 Wifi
600 배터리
100 crawling unit 110 position generating module
120 Crawler 130 Indexing Module
200 Personalization Service Department 210 Data Extraction Module
220 matching module 300 browsing unit
310 data conversion module 320 Template storage module
400 Crawler Control Unit 500 Wifi
600 battery

Claims (7)

사용자 단말 내에서 크롤링 기능을 갖는 웹브라우징 시스템으로서,
웹사이트에 대한 크롤링을 수행하여 크롤링 웹 데이터를 생성하는 크롤링부;
저장되어 있는 사적(私的)정보인 프라이빗 데이터에서 추출된 문자열 데이터와 상기 크롤링 웹 데이터를 매칭시켜 맞춤형 웹 데이터를 생성하는 개인화 서비스부;
상기 맞춤형 웹 데이터를 레이아웃 데이터로 변환하고, 기 저장된 템플릿과 결합시키는 브라우징부; 및
상기 크롤링부를 제어하는 크롤링 제어부를 포함하며,
상기 크롤링 제어부는 와이파이의 연결상태 또는 단말의 배터리 충전량에 따라서 상기 크롤링부를 제어하는 것을 특징으로 하는 웹브라우징 시스템.
A web browsing system having a crawling function within a user terminal,
A crawling unit for performing crawling on the web site to generate crawled web data;
A personalization service unit for generating customized web data by matching the string data extracted from the private data stored in the private data with the crawling web data;
A browsing unit for converting the customized web data into layout data and combining the customized web data with pre-stored templates; And
And a crawling control unit for controlling the crawling unit,
Wherein the crawling control unit controls the crawling unit according to a connection state of the Wi-Fi or a battery charging amount of the terminal.
제1항에 있어서,
상기 크롤링부는 사용자가 직접 정해주거나 사용자가 자주 방문한 웹사이트 정보를 통해 크롤링을 수행할 웹사이트의 위치를 생성하는 위치생성모듈; 및
생성된 웹사이트의 제목과 내용을 크롤링하는 크롤러를 포함하는 것을 특징으로 하는 웹브라우징 시스템,
The method according to claim 1,
Wherein the crawling unit includes: a location generation module for generating a location of a web site to be crawled through web site information determined by a user or frequently visited by a user; And
And a crawler for crawling a title and contents of the generated website,
제1항에 있어서,
상기 개인화 서비스부는 상기 프라이빗 데이터에서 문자열 데이터를 추출하는 데이터 추출모듈; 및
상기 문자열 데이터와 상기 크롤링 웹 데이터를 매칭시켜 맞춤형 웹데이터를 생성하는 매칭모듈을 포함하는 것을 특징으로 하는 웹브라우징 시스템.
The method according to claim 1,
Wherein the personalization service unit comprises: a data extraction module for extracting character string data from the private data; And
And a matching module for generating customized web data by matching the character string data with the crawling web data.
제1항에 있어서,
상기 브라우징부는 상기 맞춤형 웹 데이터를 상기 레이아웃 데이터로 변환하는 데이터 변환모듈; 및
상기 레이아웃 데이터와 결합하는 레이아웃 템플릿을 저장하는 템플릿 저장모듈을 포함하는 것을 특징으로 하는 웹브라우징 시스템.
The method according to claim 1,
The browsing unit may include a data conversion module for converting the customized web data into the layout data; And
And a template storage module for storing a layout template to be combined with the layout data.
제4항에 있어서,
상기 레이아웃 데이터는 화면에 출력할 메타정보를 포함하는 것을 특징으로 하는 웹브라우징 시스템.
5. The method of claim 4,
Wherein the layout data includes meta information to be output to a screen.
삭제delete 삭제delete
KR1020140164978A 2014-11-25 2014-11-25 Web browsing system including function of crawling and web browsing method KR101620957B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140164978A KR101620957B1 (en) 2014-11-25 2014-11-25 Web browsing system including function of crawling and web browsing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140164978A KR101620957B1 (en) 2014-11-25 2014-11-25 Web browsing system including function of crawling and web browsing method

Publications (1)

Publication Number Publication Date
KR101620957B1 true KR101620957B1 (en) 2016-05-13

Family

ID=56023767

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140164978A KR101620957B1 (en) 2014-11-25 2014-11-25 Web browsing system including function of crawling and web browsing method

Country Status (1)

Country Link
KR (1) KR101620957B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190055366A (en) 2017-11-15 2019-05-23 충남대학교산학협력단 Apparatus, method for analysing tor service based on distributed processing, and computer readable recording medium
KR20190093287A (en) * 2018-02-01 2019-08-09 주식회사 딸기커뮤니케이션 Method for providing real-time contents selling service using contents right setting for copyright protection

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100929925B1 (en) * 2009-07-16 2009-12-04 주식회사 네오패드 System and method for providing total homepage service

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100929925B1 (en) * 2009-07-16 2009-12-04 주식회사 네오패드 System and method for providing total homepage service

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190055366A (en) 2017-11-15 2019-05-23 충남대학교산학협력단 Apparatus, method for analysing tor service based on distributed processing, and computer readable recording medium
KR20190093287A (en) * 2018-02-01 2019-08-09 주식회사 딸기커뮤니케이션 Method for providing real-time contents selling service using contents right setting for copyright protection
KR102026423B1 (en) * 2018-02-01 2019-10-01 주식회사 딸기커뮤니케이션 Method for providing real-time contents selling service using contents right setting for copyright protection

Similar Documents

Publication Publication Date Title
US10698960B2 (en) Content validation and coding for search engine optimization
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
CN109033403B (en) Method, apparatus and storage medium for searching blockchain data
US20070162566A1 (en) System and method for using a mobile device to create and access searchable user-created content
EP3090353A1 (en) Systems and methods for guided user actions
CN109033406B (en) Method, apparatus and storage medium for searching blockchain data
JP2010508579A (en) Personalized search using macros
CN107784059A (en) For searching for and selecting the method and system and machine-readable medium of image
US8290928B1 (en) Generating sitemap where last modified time is not available to a network crawler
CN109101607B (en) Method, apparatus and storage medium for searching blockchain data
US11768905B2 (en) System and computer program product for creating and processing URLs
CN108027820A (en) For producing phrase blacklist to prevent some contents from appearing in the method and system in search result in response to search inquiry
JP5103051B2 (en) Information processing system and information processing method
KR101620957B1 (en) Web browsing system including function of crawling and web browsing method
KR101637016B1 (en) Method for providing user reaction web page
KR102214990B1 (en) System for providing bookmark management and information searching service and method for providing bookmark management and information searching service using it
JP2008009892A (en) System and method for data management
CN111680247A (en) Local calling method, device, equipment and storage medium of webpage character string
KR102244668B1 (en) System and method for automatically inputting personal information using codes
Anh Web Scraping: A Big Data Building Tool And Its Status In The Fintech Sector In Viet Nam
JP5088269B2 (en) Screen information management method
KR101079802B1 (en) System and Method for Searching Website, Devices for Searching Website and Recording Medium
JP2020197876A (en) Information processing system, program, and information processing method
KR101084546B1 (en) Module for additional search in search result and method for additional search in search result using the same
KR101079812B1 (en) System for Searching Website

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant