KR20170071389A - New post notification system and method for analyzing and extracting new post of unspecified website - Google Patents

New post notification system and method for analyzing and extracting new post of unspecified website Download PDF

Info

Publication number
KR20170071389A
KR20170071389A KR1020160038115A KR20160038115A KR20170071389A KR 20170071389 A KR20170071389 A KR 20170071389A KR 1020160038115 A KR1020160038115 A KR 1020160038115A KR 20160038115 A KR20160038115 A KR 20160038115A KR 20170071389 A KR20170071389 A KR 20170071389A
Authority
KR
South Korea
Prior art keywords
new
information
registered
url
news feed
Prior art date
Application number
KR1020160038115A
Other languages
Korean (ko)
Inventor
김성현
류준한
공성언
최용석
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Publication of KR20170071389A publication Critical patent/KR20170071389A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • G06F17/30864
    • G06F17/30949
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • G06Q50/30

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

새 글 알림 방법 및 시스템이 제시된다. 본 발명에서 제안하는 새 글 알림 방법은 뉴스피드 기능을 사용하기 위해 사용자가 원하는 웹 사이트의 URL들을 URL 등록 페이지에 등록 하는 단계, 상기 등록된 URL들의 해당 웹 사이트에서 새 글의 게시 유무를 확인하는 단계, 새 글의 게시가 있는 경우, URL 등록 페이지에 등록된 뉴스피드의 웹 페이지의 페이지 이름, 등록된 URL, 본문 추출 키워드, 섬네일을 포함하는 메타데이터를 정의하는 단계, 상기 정의된 메타데이터를 기반으로 등록된 URL들의 웹 사이트에서 새 글을 뉴스피드의 카테고리에 따라 분류하고 리스트뷰를 통해 시각화하는 단계를 포함할 수 있다.A new method of notification and system is presented. The new news notification method proposed by the present invention includes the steps of registering the URLs of the web sites desired by the user on the URL registration page to use the news feed function, checking whether the new URLs are posted on the corresponding web sites of the registered URLs A step of defining metadata including a page name, a registered URL, a text extraction keyword, and a thumbnail of a web page of a news feed registered in a URL registration page when a new article is posted; And classifying new articles according to categories of news feeds on a web site of registered URLs and visualizing them through a list view.

Description

불특정 웹사이트의 새로운 게시글 분석 및 본문 추출을 통한 새 글 알림 시스템 및 방법{New post notification system and method for analyzing and extracting new post of unspecified website}TECHNICAL FIELD [0001] The present invention relates to a new post notification system and method for analyzing new posts of an unspecified website,

본 발명은 불특정 웹사이트의 새로운 게시글 분석 및 본문 추출을 통한 새 글 알림 시스템 및 방법에 관한 것이다.The present invention relates to a new article notification system and method by analyzing a new article and extracting a body of an unspecified web site.

기존의 새로운 정보를 피드해주는 서비스는 자신이 원하는 웹 사이트를 검색하고 검색된 웹사이트를 등록하면 해당 웹사이트 정보를 받거나 웹사이트 자체의 정보를 받는다.The service that feeds the existing new information searches the desired web site and registers the retrieved web site to receive the web site information or the web site itself.

기존 피드 시스템에서는 피드 서비스를 제공하는 제공자가 정해놓은 특정 웹사이트를 제한적으로 서비스하도록 되어 있다. 또는 사용자가 검색한 웹사이트가 피드 정보를 제공하지 않거나 메타 정보가 없을 시에는 해당 정보를 추출할 수 없어 서비스를 이용하기 어렵다.The existing feed system is intended to provide limited service to specific web sites set by the provider providing the feed service. Or if the web site retrieved by the user does not provide the feed information or does not have the meta information, it is difficult to extract the information and use the service.

본 발명은 불특정 웹사이트의 새로운 게시글 분석 및 본문 추출을 통한 새 글 알림 시스템 및 방법에 관하여 기술하며, 보다 구체적으로 여러 웹사이트에서 산발적으로 분산되어 있는 데이터를 집중시켜 효율적으로 관리할 수 있는 서비스를 제공하고자 한다.The present invention describes a system and a method for notifying a new article through new article analysis and extracting a body of an unspecified web site. More specifically, the present invention focuses on a service that can efficiently manage scattered data scattered in various websites .

일 측면에 있어서, 본 발명에서 제안하는 새 글 알림 방법은 뉴스피드 기능을 사용하기 위해 사용자가 원하는 웹 사이트의 URL들을 URL 등록 페이지에 등록 하는 단계, 상기 등록된 URL들의 해당 웹 사이트에서 새 글의 게시 유무를 확인하는 단계, 새 글의 게시가 있는 경우, URL 등록 페이지에 등록된 뉴스피드의 웹 페이지의 페이지 이름, 등록된 URL, 본문 추출 키워드, 섬네일을 포함하는 메타데이터를 정의하는 단계, 상기 정의된 메타데이터를 기반으로 등록된 URL들의 웹 사이트에서 새 글을 뉴스피드의 카테고리에 따라 분류하고 리스트뷰를 통해 시각화하는 단계를 포함할 수 있다. According to an aspect of the present invention, there is provided a method of notifying a new user of a new message, comprising the steps of: registering URLs of a desired web site on a URL registration page to use a news feed function; A step of defining metadata including a page name of a web page of a news feed registered in a URL registration page, a registered URL, a text extraction keyword, and a thumbnail when a new article is posted, And classifying new articles according to the category of the news feed in the website of the registered URLs based on the defined metadata and visualizing them through the list view.

상기 뉴스피드 중 사용자가 원하는 뉴스피드를 북마크에 등록하여 등록된 뉴스피드를 통해 해당 웹 사이트를 방문 가능하다. The user can register the news feed desired by the user in the bookmark and visit the web site through the registered news feed.

상기 등록된 URL들의 해당 웹 사이트에서 새 글의 게시 유무를 확인하는 단계는 등록된 URL들에서 HTML 정보를 읽어 들여 데이터베이스 서버에 HTML 정보를 등록하고, 해당 HTML 정보를 위치로 하여 새 글을 탐색한다. 이때, 크롤러는 해쉬맵(HasnMap)의 자료 구조를 사용하여 URL을 키로 하는 사이트 별 정보들을 저장하고, 상기 해쉬맵의 키를 크롤링 과정마다 갱신함으로써 사이트들 별로 해당 사이트의 새 글을 전달 받는 사용자에 대한 정보 및 새 글을 찾기 위한 크롤링 전의 크롤링 결과를 저장하고 있는 해쉬맵과 새 글의 게시가 있는 것으로 판명된 사이트들을 저장하는 해쉬맵을 포함한다. 또한, 새 글의 게시가 있는지 판별할 때는 oldArticles 멤버 변수를 사용하여, 현재 크롤링한 새 글 목록과 이전에 크롤링한 새 글 목록에서 새로 생긴 새 글을 추출한다. In the step of checking whether or not a new article is posted on the corresponding website of the registered URLs, the step of reading the HTML information from the registered URLs registers the HTML information in the database server, and searches for a new article by using the HTML information as a location . At this time, the crawler uses the data structure of the hash map (HasnMap) to store site-specific information using the URL as a key, updates the key of the hash map every crawling process, A hash map that stores crawled results before crawling to find information about new articles, and a hash map that stores sites that have proven to have a posting of new articles. Also, use the oldArticles member variable to determine whether a new post has been posted, extracting the new crawled list of new posts and the new, new ones from the new crawled list.

상기 새 글의 게시가 있는 경우, URL 등록 페이지에 등록된 뉴스피드의 웹 페이지의 페이지 이름, 등록된 URL, 본문 추출 키워드, 섬네일을 포함하는 메타데이터를 정의하는 단계는 상기 새 글을 addedArticles 멤버 변수에 저장하고 새 글에 대한 정보를 받아 해당 사이트의 게시판의 html 정보를 저장한다. 이때, 상기 본문 추출 키워드를 위해 헤더정보를 추출하고, 상기 헤더정보를 추출하지 못한 경우, 복수의 사이트에 대한 새 글 정보를 데이터베이스에 등록해 두고, 상기 복수의 사이트에 대한 새 글 정보를 기반으로 추출한다. 또한, 상기 복수의 사이트에 대한 새 글 정보를 저장하기 위한 프로그램을 생성하고, 상기 프로그램을 통해 데이터베이스를 축적한다. The step of defining metadata including a page name, a registered URL, a text extraction keyword, and a thumbnail of a web page of a news feed registered in the URL registration page in the case of the publication of the new article is performed by adding the new article to the addedArticles member variable And saves the html information of the bulletin board of the site by receiving information about the new article. In this case, if the header information is not extracted, the new article information for a plurality of sites is registered in the database, and the new article information for the plurality of sites is extracted based on the new article information . Also, a program for storing new article information for the plurality of sites is generated, and a database is accumulated through the program.

또 다른 일 측면에 있어서, 본 발명에서 제안하는 새 글 알림 시스템은 뉴스피드 기능을 사용하기 위해 사용자가 원하는 웹 사이트의 URL들을 URL 등록 페이지에 등록 하는 URL 등록부, 상기 등록된 URL들의 웹 사이트에서 새 글의 게시 유무를 확인하는 새 글 확인부, 새 글의 게시가 있는 경우, URL 등록 페이지에 등록된 뉴스피드의 웹 페이지의 페이지 이름, 등록된 URL, 본문 추출 키워드, 섬네일을 포함하는 메타데이터를 정의하는 메타데이터 정의부, 상기 정의된 메타데이터를 기반으로 등록된 URL들의 웹 사이트에서 새 글을 뉴스피드의 카테고리에 따라 분류하고 리스트뷰를 통해 시각화 하는 뉴스피드 분류 및 알림부를 포함한다. According to another aspect of the present invention, a new news notification system proposed by the present invention includes a URL registration unit for registering URLs of web sites desired by a user in a URL registration page to use a news feed function, If there is a new article check that confirms whether the article is posted, if there is a post of a new article, the metadata including the page name, the registered URL, the text extraction keyword, and the thumbnail of the web page of the news feed registered in the URL registration page And a news feed classification and notification unit for classifying new articles according to categories of news feeds and visualizing them through a list view on a web site of registered URLs based on the defined metadata.

상기 URL 등록부는 상기 뉴스피드 중 사용자가 원하는 뉴스피드를 북마크에 등록하여 등록된 뉴스피드를 통해 해당 웹 사이트를 방문 가능하도록 한다. The URL registering unit registers the news feed desired by the user in the bookmark and allows the user to visit the web site through the registered news feed.

상기 새 글 확인부는 등록된 URL들에서 HTML 정보를 읽어 들여 데이터베이스 서버에 HTML 정보를 등록하고, 해당 HTML 정보를 위치로 하여 새 글을 탐색한다. 이때, 크롤러는 해쉬맵(HasnMap)의 자료 구조를 사용하여 URL을 키로 하는 사이트 별 정보들을 저장하고, 상기 해쉬맵의 키를 크롤링 과정마다 갱신함으로써 사이트들 별로 해당 사이트의 새 글을 전달 받는 사용자에 대한 정보 및 새 글을 찾기 위한 크롤링 전의 크롤링 결과를 저장하고 있는 해쉬맵과 새 글의 게시가 있는 것으로 판명된 사이트들을 저장하는 해쉬맵을 포함한다. 또한, 새 글의 게시가 있는지 판별할 때는 oldArticles 멤버 변수를 사용하여, 현재 크롤링한 새 글 목록과 이전에 크롤링한 새 글 목록에서 새로 생긴 새 글을 추출한다. The new article check unit reads HTML information from registered URLs, registers HTML information in a database server, and searches for new articles based on the HTML information. At this time, the crawler uses the data structure of the hash map (HasnMap) to store site-specific information using the URL as a key, updates the key of the hash map every crawling process, A hash map that stores crawled results before crawling to find information about new articles, and a hash map that stores sites that have proven to have a posting of new articles. Also, use the oldArticles member variable to determine whether a new post has been posted, extracting the new crawled list of new posts and the new, new ones from the new crawled list.

상기 메타데이터 정의부는 상기 새 글을 addedArticles 멤버 변수에 저장하고 새 글에 대한 정보를 받아 해당 사이트의 게시판의 html 정보를 저장한다. The metadata definition unit stores the new article in the addedArticles member variable, receives information about the new article, and stores the html information of the bulletin board of the corresponding site.

상기 메타데이터 정의부는 상기 본문 추출 키워드를 위해 헤더정보를 추출하고, 상기 헤더정보를 추출하지 못한 경우, 복수의 사이트에 대한 새 글 정보를 데이터베이스에 등록해 두고, 상기 복수의 사이트에 대한 새 글 정보를 기반으로 추출한다. 또한, 상기 메타데이터 정의부는 상기 복수의 사이트에 대한 새 글 정보를 저장하기 위한 프로그램을 생성하고, 상기 프로그램을 통해 데이터베이스를 축적한다.Wherein the metadata defining unit extracts header information for the extracted text keywords, and when the header information can not be extracted, new metadata information for a plurality of sites is registered in the database, . In addition, the metadata definition unit generates a program for storing new article information for the plurality of sites, and stores the database through the program.

표준이 정착하지 않은 웹 환경에서 수없이 많은 형태의 웹사이트가 존재한다. 이러한 웹 사이트들을 통합적으로 관리하기 위해서는 기존의 피드를 제공하는 사이트들만을 대상으로 하기엔 제한적이다. 이러한 문제점을 해결하고 사용자가 원하는 모든 웹 사이트들의 정보를 실시간으로 확인할 수 있음으로써 사용자가 흩어져 있는 정보들을 관리함에 있어 효율적이다.There are numerous types of Web sites in a non-standard web environment. In order to manage these web sites integrally, it is limited to only those sites that provide existing feeds. This problem is solved and the information of all the websites desired by the user can be checked in real time, which is effective in managing the information scattered by the users.

도 1은 본 발명의 일 실시예에 따른 새 글 알림 시스템의 전체 구조를 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 새 글 알림 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 새 글 알림 시나리오를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 새 글 추출 알고리즘을 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 새 글에 대한 정보를 등록하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 데이터베이스를 등록하는 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 새 글 알림 시스템의 구조를 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 새 글 알림 방법을 설명하기 위한 실시예를 나타내는 도면이다.
FIG. 1 is a diagram illustrating an overall structure of a new text notification system according to an embodiment of the present invention.
2 is a flowchart illustrating a method of notifying a new text according to an embodiment of the present invention.
3 is a diagram for explaining a new text notification scenario according to an embodiment of the present invention.
4 is a diagram illustrating a new article extraction algorithm according to an embodiment of the present invention.
5 is a diagram illustrating a process of registering information on a new article according to an embodiment of the present invention.
6 is a diagram for explaining a process of registering a database according to an embodiment of the present invention.
7 is a diagram for explaining a structure of a new text notification system according to an embodiment of the present invention.
FIG. 8 is a diagram illustrating an embodiment of a method for notifying a new text according to an embodiment of the present invention. Referring to FIG.

스마트폰의 대중화로 웹의 접근성이 향상되면서 데이터 사용량이 폭발적으로 증가하였다. 이러한 경향에서 사용자에게 효율적으로 데이터를 관리할 수 있는 어플리케이션이 요구된다. 따라서 여러 웹사이트에서 산발적으로 분산되어 있는 데이터를 집중시켜 효율적으로 관리할 수 있는 서비스를 제안한다. 제안하는 방법 및 시스템은 사용자가 능동적으로 원하는 웹사이트를 설정하여 단순하고 편리하게 데이터를 관리할 수 있도록 도울 수 있다. As the popularity of smartphones has increased the accessibility of the web, the data usage has exploded. In this trend, an application that can efficiently manage data to a user is required. Therefore, we propose a service that can efficiently manage sporadically scattered data from various websites. The proposed method and system can help a user to actively and easily set up a desired web site to manage data easily and conveniently.

자체적인 데이터베이스를 구축하여 사용자로 하여금 새 글 알림을 받고 싶은 영역에 대하여 선택을 받는다. 선택 받은 영역에서 HTML 정보를 읽어 들여 자체 DB서버에 정보를 등록 시키고, 해당 정보를 위치로 하여 새로운 글을 탐색하는 알고리즘을 작성한다. 사용자가 알고 싶어 하는 새로운 글에 대한 메타 정보와 메타정보가 없을 시엔 자체적으로 개발한 알고리즘을 적용하여 어떤 경우에서라도 해당 게시글의 정보를 추출할 수 있도록 함으로써 사용자가 불특정 웹사이트로부터 피드 서비스를 이용할 수 있는 방법 및 시스템을 제안한다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
It builds its own database and receives a choice about the area in which the user wants to be notified of new posts. It reads the HTML information from the selected area, registers the information in its own DB server, and creates an algorithm to search for new articles based on the information. If there is no meta information and meta information about the new article that the user wants to know, the user can extract the information of the relevant article in any case by applying the algorithm developed by himself / herself so that the user can use the feed service from the unspecified website Method and system. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 새 글 알림 시스템의 전체 구조를 나타내는 도면이다. FIG. 1 is a diagram illustrating an overall structure of a new text notification system according to an embodiment of the present invention.

사용자 단말, 다시 말해 클라이언트(Client)(110)가 새 글 알림을 받고 싶은 영역에 대하여 선택을 하고, 웹 서버(Web Server)(120)는 HTTP 규격을 통해 선택 받은 영역에서 HTML 정보를 읽어 들여 자체 DB서버에 정보를 등록 시키고, 해당 정보를 위치로 하여 새로운 글을 탐색하는 알고리즘을 작성한다. A user terminal, that is, a client 110 selects an area to which a new notice is to be received, and the Web server 120 reads the HTML information from the area selected through the HTTP specification, Registers the information in the DB server and creates an algorithm to search for new articles based on the information.

크롤러(crawler)(230)는 사용자가 알고 싶어 하는 새로운 글에 대한 메타 정보와 메타정보가 없을 시엔 자체적으로 개발한 알고리즘을 적용하여 어떤 경우에서라도 해당 게시글의 정보를 추출할 수 있도록 한다. When there is no meta information and meta information about a new article that the user wants to know, the crawler 230 can extract the information of the relevant article in any case by applying the algorithm developed by itself.

웹 서버(Web Server)(120)와 크롤러(crawler)(230)는 수집된 정보를 SQL을 이용하여 데이터베이스 서버(240)에 저장한다. 사용자가 알고 싶어 하는 새로운 글에 대한 메타 정보와 메타정보가 없을 시엔 자체적으로 개발한 알고리즘을 적용하여 어떤 경우에서라도 해당 게시글의 정보를 추출할 수 있도록 함으로써 사용자가 불특정 웹사이트로부터 피드 서비스를 이용할 수 있도록 제안한다.
The Web server 120 and the crawler 230 store the collected information in the database server 240 using SQL. If there is no meta information and meta information about a new article that the user wants to know, the user can extract the information of the relevant article in any case by applying the algorithm developed by himself / herself so that the user can use the feed service from the unspecified website I suggest.

도 2는 본 발명의 일 실시예에 따른 새 글 알림 방법을 설명하기 위한 흐름도이다. 2 is a flowchart illustrating a method of notifying a new text according to an embodiment of the present invention.

제안하는 새 글 알림 방법은 뉴스피드 기능을 사용하기 위해 사용자가 원하는 웹 사이트의 URL들을 URL 등록 페이지에 등록 하는 단계(210), 상기 등록된 URL들의 해당 웹 사이트에서 새 글의 게시 유무를 확인하는 단계(220), 새 글의 게시가 있는 경우, URL 등록 페이지에 등록된 뉴스피드의 웹 페이지의 페이지 이름, 등록된 URL, 본문 추출 키워드, 섬네일을 포함하는 메타데이터를 정의하는 단계(230), 상기 정의된 메타데이터를 기반으로 등록된 URL들의 웹 사이트에서 새 글을 뉴스피드의 카테고리에 따라 분류하고 리스트뷰를 통해 시각화하는 단계(240)를 포함한다. In order to use the news feed function, the proposed new news notification method includes a step 210 of registering the URLs of the web sites desired by the user on the URL registration page (step 210), checking whether the new URLs are posted on the corresponding web sites of the registered URLs Step 230 of defining metadata including a page name, a registered URL, a text extraction keyword, and a thumbnail of a web page of a news feed registered in a URL registration page when a new article is posted; And sorting new articles in the web site of registered URLs based on the defined metadata according to categories of the news feeds and visualizing them through the list view (240).

단계(210)에서, 뉴스피드 기능을 사용하기 위해 사용자가 원하는 웹 사이트의 URL들을 URL 등록 페이지에 등록한다. 상기 뉴스피드 중 사용자가 원하는 뉴스피드를 북마크에 등록하여 등록된 뉴스피드를 통해 해당 웹 사이트를 방문 가능하다. In step 210, URLs of web sites desired by the user are registered on the URL registration page to use the news feed function. The user can register the news feed desired by the user in the bookmark and visit the web site through the registered news feed.

단계(220)에서, 상기 등록된 URL들의 해당 웹 사이트에서 새 글의 게시 유무를 확인한다. 이때, 등록된 URL들에서 HTML 정보를 읽어 들여 데이터베이스 서버에 HTML 정보를 등록하고, 해당 HTML 정보를 위치로 하여 새 글을 탐색한다. 크롤러는 해쉬맵(HasnMap)의 자료 구조를 사용하여 URL을 키로 하는 사이트 별 정보들을 저장한다. 해쉬맵(HasnMap)은 해쉬맵의 키를 크롤링 과정마다 갱신함으로써 사이트들 별로 해당 사이트의 새 글을 전달 받는 사용자에 대한 정보 및 새 글을 찾기 위한 크롤링 전의 크롤링 결과를 저장하고 있는 해쉬맵과 새 글의 게시가 있는 것으로 판명된 사이트들을 저장하는 해쉬맵을 포함한다. 새 글의 게시가 있는지 판별할 때는 oldArticles 멤버 변수를 사용하여, 현재 크롤링한 새 글 목록과 이전에 크롤링한 새 글 목록에서 새로 생긴 새 글을 추출한다. In step 220, it is confirmed whether a new article is posted on the corresponding website of the registered URLs. At this time, the HTML information is read from the registered URLs, the HTML information is registered in the database server, and a new article is searched based on the HTML information. The crawler uses the data structure of the hash map (HasnMap) to store site-specific information with the URL as the key. The hash map (HasnMap) updates the key of the hash map every crawling process, thereby providing information about the user receiving the new article of the site for each site, a hash map storing the crawling result before crawling to find a new article, Lt; RTI ID = 0.0 > of < / RTI > publications. When determining whether a new post has been posted, use the oldArticles member variable to retrieve the new crawled list of new posts and the new one from the new crawled list.

단계(230)에서, 새 글의 게시가 있는 경우, URL 등록 페이지에 등록된 뉴스피드의 웹 페이지의 페이지 이름, 등록된 URL, 본문 추출 키워드, 섬네일을 포함하는 메타데이터를 정의한다. 상기 새 글을 addedArticles 멤버 변수에 저장하고 새 글에 대한 정보를 받아 해당 사이트의 게시판의 html 정보를 저장한다. 본문 추출 키워드를 위해 헤더정보를 추출하고, 상기 헤더정보를 추출하지 못한 경우, 복수의 사이트에 대한 새 글 정보를 데이터베이스에 등록해 두고, 상기 복수의 사이트에 대한 새 글 정보를 기반으로 추출한다. 그리고, 복수의 사이트에 대한 새 글 정보를 저장하기 위한 프로그램을 생성하고, 상기 프로그램을 통해 데이터베이스를 축적한다. In step 230, metadata including the page name, the registered URL, the text extraction keyword, and the thumbnail of the web page of the news feed registered in the URL registration page is defined when there is a new article to be posted. The new article is stored in the addedArticles member variable, and information about the new article is stored in the html information of the bulletin board of the site. Extracts the header information for the extracted text keywords, and if the header information can not be extracted, registers the new text information for the plurality of sites in the database, and extracts the new text information based on the new text information for the plurality of sites. Then, a program for storing new article information about a plurality of sites is created, and the database is accumulated through the program.

단계(240)에서, 상기 정의된 메타데이터를 기반으로 등록된 URL들의 웹 사이트에서 새 글을 뉴스피드의 카테고리에 따라 분류하고 리스트뷰를 통해 시각화한다.
In step 240, new articles are classified according to the category of the news feed in the website of registered URLs based on the defined metadata, and visualized through a list view.

도 3은 본 발명의 일 실시예에 따른 새 글 알림 시나리오를 설명하기 위한 도면이다. 3 is a diagram for explaining a new text notification scenario according to an embodiment of the present invention.

먼저, 어플리케이션 실행(310)하여 로그인 화면을 띄운다. 어플리케이션을 실행하면 로그인(320) 화면을 보여주고, 계정 정보를 입력하여 로그인하면 어플리케이션의 메인 프레임으로 이동한다. First, an application is executed (310) and a login screen is displayed. When the application is executed, the login (320) screen is displayed. When the user logs in by inputting the account information, the main frame of the application is moved.

다음으로, 뉴스피드로 새 글을 확인 할 URL 등록(330)한다. 주 서비스인 뉴스피드 기능을 사용 하기 위해서는 사용자가 원하는 웹 사이트의 URL을 URL등록 페이지에 등록 한다.Next, the URL to register a new article in the news feed is registered (330). In order to use the news feed function, which is a main service, the user registers the URL of the desired web site on the URL registration page.

URL이 등록 되면 뉴스피드 확인(340) 및 본문 확인(350)을 할 수 있다. 사용자는 뉴스피드 페이지에서 등록된 웹 페이지에서의 새로운 글들을 확인 할 수 있다. 뉴스피드로 얻은 글들은 동적으로 실행되며 세부 일정을 확인할 수 있다.Once the URL is registered, a news feed confirmation 340 and a body verification 350 can be performed. The user can view new posts on the registered web page in the news feed page. Posts from news feeds are dynamically executed and can be viewed in detail.

그리고, 자주 보고자 하는 뉴스피드를 등록하여 북마크(360)에 등록할 수 있다. 북마크에 등록된 뉴스피드는 언제든지 등록된 웹사이트를 방문할 수 있다.Then, it is possible to register a news feed to be frequently viewed and register it in the bookmark 360. Any news feed registered in the bookmark can visit the registered website at any time.

추가버튼을 이용해여 원하는 URL을 등록하는 등의 관리(370)를 할 수 있다. 사이트의 이름과 주소를 입력하면, 웹뷰가 생성된다. 웹뷰를 통해 뉴스피드로 보고자 하는 게시물을 선택하면 웹사이트를 등록할 수 있다. 많은 뉴스피드 게시물에서 보고자하는 키워드를 등록하여, 원하는 게시물을 선택해서 볼 수 있다.
Management 370 such as registering a desired URL using an add button can be performed. If you enter the name and address of the site, a WebView is created. You can register your website by selecting the post you want to view as a news feed through WebView. In many news feed posts, you can register the keywords you want to see and select the posts you want.

도 4는 본 발명의 일 실시예에 따른 새 글 추출 알고리즘을 나타내는 도면이다. 4 is a diagram illustrating a new article extraction algorithm according to an embodiment of the present invention.

먼저 URL 목록을 확인(410)하고, URL 별 새 글의 게시 유무를 확인(420)한다. 새 글의 게시가 있는 경우, 새로운 게시글의 본문을 추출(430)한다. 사용자의 푸시(PUSH) 정보를 바탕으로 푸시 알림을 전송(430)한다.
First, the URL list is confirmed (410), and the presence or absence of the posting of a new article by URL is confirmed (420). If there is a new post, the body of the new post is extracted (430). The push notification is transmitted 430 based on the user's push (PUSH) information.

도 5는 본 발명의 일 실시예에 따른 새 글에 대한 정보를 등록하는 과정을 설명하기 위한 도면이다.5 is a diagram illustrating a process of registering information on a new article according to an embodiment of the present invention.

크롤러(Crawler)는 해쉬맵(HashMap) 자료구조를 사용하여 URL을 key로 하는 사이트 별 정보들을 가지고 있다. 사이트 별 정보는 아래와 같다. 이 HashMap의 Key를 매 크롤링과정 마다 갱신을 해줌으로써, 사용자가 등록하고 삭제한 게시판을 동기화한다. 사이트 정보 자료구조는 도 5a와 같이 나타낼 수 있다. The crawler has site-specific information that uses a hash map (HashMap) data structure to make the URL a key. The site-specific information is as follows. By updating the key of this HashMap in every crawling process, the user registers and deletes the bulletin board deleted. The site information data structure can be represented as shown in FIG. 5A.

사이트들 별로 이 사이트의 새 게시물을 전달 받는 사용자에 대한 정보와 새로운 게시글을 찾기 위한 크롤링 전의 크롤링 결과를 저장하고 있는 해쉬맵(HashMap)과 새 글로 판명된 사이트들을 저장하는 HashMap으로 구성 되어있다. 새 글을 판별할 때는 oldArticles 멤버 변수를 사용하여, 현재 크롤링한 게시물 목록과 직전에 크롤링한 게시물 목록에서 새로 생긴 게시물을 추출한다. 새로 생긴 게시물은 addedArticles 멤버 변수에 저장한다. 게시판의 정보를 저장하기 위해서 클라이언트로부터 게시 글의 정보를 받아 그 사이트에 대한 게시판의 html 정보를 저장해 둔다. 게시판 정보 데이터베이스는 도 5b와 같이 나타낼 수 있다. Each site has a hash map (HashMap) that stores the crawl results before crawling to find new posts, and a HashMap that stores the new named sites. When determining a new post, use the oldArticles member variable to retrieve the new post from the list of posts we crawled and the list of posts we just crawled. The new posts are stored in the addedArticles member variable. In order to store the information on the bulletin board, it receives the information of the posted bulletin from the client and stores the html information of the bulletin board for the site. The bulletin board information database can be represented as shown in FIG. 5B.

위에서 설명한 바와 같이 데이터베이스에 사이트 URL별 게시판의 영역을 감싸고 있는 html의 태그 네임(tag name)과 클래스 네임(class name)을 추출하여 저장해두고, 이정보를 바탕으로 이 글 아래에 있는 링크들을 추출하여 게시 글로 판별한다. 이를 통해 좀 더 정확한 게시물을 추출할 수 있게 되었다.
As described above, the tag name and the class name of the html that surrounds the area of the bulletin board by the site URL are extracted and stored in the database, and the links beneath the text are extracted and posted Let's write. This makes it possible to extract more accurate posts.

도 6은 본 발명의 일 실시예에 따른 데이터베이스를 등록하는 과정을 설명하기 위한 도면이다.6 is a diagram for explaining a process of registering a database according to an embodiment of the present invention.

새로운 게시판의 본문을 추출하기 위해 3 가지 방법을 사용한다. 방법의 우선순위는 다음과 같다. 먼저, 헤더(header) 정보로부터 본문을 추출한다. 그리고, 데이터베이스 정보로부터 본문을 추출한다. 마지막으로 Boiler Pipe 라이브러리를 사용한다. Header 정보를 사용할 때에는 html의 head 부분에 있는 메타-데이터(meta-data) 영역의 정보를 추출한다. 이 방법의 경우는 사이트가 header에 정보를 등록하지 않았을 경우에는 정보를 얻어낼 수 없다. 따라서 우선적으로 header정보를 추출하고, 추출하지 못한 경우, 직접 다양한 사이트에 대한 게시물 정보를 데이터베이스에 등록해 두어 이 정보를 바탕으로 추출한다. 게시글 정보를 저장하기 위한 프로그램을 만들어서, 직접 작업을 통해 데이터베이스를 축적하였다. 데이터베이스 내용은 도 6과 같다.There are three ways to extract the body of a new bulletin board. The priority of the method is as follows. First, the text is extracted from the header information. Then, the text is extracted from the database information. Finally, use the Boiler Pipe library. When using Header information, extract information of meta-data area in head part of html. In this method, information can not be obtained if the site does not register information in the header. Therefore, if the header information is extracted first, the post information about various sites is directly registered in the database and extracted based on this information. We created a program to store the bulletin information, and accumulated the database by working directly. The contents of the database are shown in FIG.

본 발명의 실시예에 따르면, 트래픽 정보를 바탕으로 웹사이트 별 순위를 정하여 뉴스 사이트, 각종 커뮤니티 외 대학교의 게시판들에 대한 정보를 축적할 수 있다. 이를 통해, 각양각색의 본문 Html을 추출하는 정확도를 높였다. 이 데이터베이스를 등록하기 위한 프로그램은 자바 Swing을 사용하여 작성하였다. 위의 두 가지 방법으로도 추출이 안 되는 경우, 현재 가장 본문 추출 정확도가 높다고 알려진 Boiler pipe 라이브러리를 개량하여 사용하였다. Boiler pipe의 경우, 잘 정제된 뉴스나 블로그 사이트의 게시 글 세트로 테스트 했을 경우 73%정도의 본문 추출 정확도를 제공하는 것으로 알려져 있다. 이러한 3가지 본문 추출 방법을 통해, 본문 추출의 정확도를 높일 수 있다.
According to the embodiment of the present invention, it is possible to accumulate information about news sites and bulletin boards of various non-community universities by setting rankings for each website based on traffic information. Through this, accuracy of extraction of various text html is improved. The program to register this database was created using Java Swing. In the case where the extraction is not possible by the above two methods, the Boiler pipe library known to have the highest extraction accuracy is used. Boiler pipe is known to provide about 73% accuracy in extracting text when tested with well-established news or blog post sites. These three text extraction methods can improve the accuracy of text extraction.

도 7은 본 발명의 일 실시예에 따른 새 글 알림 시스템의 구조를 설명하기 위한 도면이다. 7 is a diagram for explaining a structure of a new text notification system according to an embodiment of the present invention.

제안하는 새 글 알림 시스템은 URL 등록부(710), 새 글 확인부(720), 메타데이터 정의부(730), 뉴스피드 분류 및 알림부(740)를 포함한다. The proposed new text notification system includes a URL registration unit 710, a new text verification unit 720, a metadata definition unit 730, and a news feed classification and notification unit 740.

URL 등록부(710)는 뉴스피드 기능을 사용하기 위해 사용자가 원하는 웹 사이트의 URL들을 URL 등록 페이지에 등록한다. 상기 뉴스피드 중 사용자가 원하는 뉴스피드를 북마크에 등록하여 등록된 뉴스피드를 통해 해당 웹 사이트를 방문할 수 있다. The URL registration unit 710 registers URLs of web sites desired by the user on the URL registration page to use the news feed function. The user can register the news feed desired by the user in the bookmark and visit the web site through the registered news feed.

새 글 확인부(720)는 상기 등록된 URL들의 해당 웹 사이트에서 새 글의 게시 유무를 확인한다. 이때, 등록된 URL들에서 HTML 정보를 읽어 들여 데이터베이스 서버에 HTML 정보를 등록하고, 해당 HTML 정보를 위치로 하여 새 글을 탐색한다. 크롤러는 해쉬맵(HasnMap)의 자료 구조를 사용하여 URL을 키로 하는 사이트 별 정보들을 저장한다. 해쉬맵(HasnMap)은 해쉬맵의 키를 크롤링 과정마다 갱신함으로써 사이트들 별로 해당 사이트의 새 글을 전달 받는 사용자에 대한 정보 및 새 글을 찾기 위한 크롤링 전의 크롤링 결과를 저장하고 있는 해쉬맵과 새 글의 게시가 있는 것으로 판명된 사이트들을 저장하는 해쉬맵을 포함한다. 새 글의 게시가 있는지 판별할 때는 oldArticles 멤버 변수를 사용하여, 현재 크롤링한 새 글 목록과 이전에 크롤링한 새 글 목록에서 새로 생긴 새 글을 추출한다. The new article confirming unit 720 confirms whether or not a new article is posted on the web site of the registered URLs. At this time, the HTML information is read from the registered URLs, the HTML information is registered in the database server, and a new article is searched based on the HTML information. The crawler uses the data structure of the hash map (HasnMap) to store site-specific information with the URL as the key. The hash map (HasnMap) updates the key of the hash map every crawling process, thereby providing information about the user receiving the new article of the site for each site, a hash map storing the crawling result before crawling to find a new article, Lt; RTI ID = 0.0 > of < / RTI > publications. When determining whether a new post has been posted, use the oldArticles member variable to retrieve the new crawled list of new posts and the new one from the new crawled list.

메타데이터 정의부(730)는 새 글의 게시가 있는 경우, URL 등록 페이지에 등록된 뉴스피드의 웹 페이지의 페이지 이름, 등록된 URL, 본문 추출 키워드, 섬네일을 포함하는 메타데이터를 정의한다. 상기 새 글을 addedArticles 멤버 변수에 저장하고 새 글에 대한 정보를 받아 해당 사이트의 게시판의 html 정보를 저장한다. 본문 추출 키워드를 위해 헤더정보를 추출하고, 상기 헤더정보를 추출하지 못한 경우, 복수의 사이트에 대한 새 글 정보를 데이터베이스에 등록해 두고, 상기 복수의 사이트에 대한 새 글 정보를 기반으로 추출한다. 그리고, 복수의 사이트에 대한 새 글 정보를 저장하기 위한 프로그램을 생성하고, 상기 프로그램을 통해 데이터베이스를 축적한다. The metadata definition unit 730 defines metadata including a page name, a registered URL, a text extraction keyword, and a thumbnail of a web page of a news feed registered in a URL registration page when a new article is posted. The new article is stored in the addedArticles member variable, and information about the new article is stored in the html information of the bulletin board of the site. Extracts the header information for the extracted text keywords, and if the header information can not be extracted, registers the new text information for the plurality of sites in the database, and extracts the new text information based on the new text information for the plurality of sites. Then, a program for storing new article information about a plurality of sites is created, and the database is accumulated through the program.

뉴스피드 분류 및 알림부(740)는 상기 정의된 메타데이터를 기반으로 등록된 URL들의 웹 사이트에서 새 글을 뉴스피드의 카테고리에 따라 분류하고 리스트뷰를 통해 시각화한다.
The news feed classification and notification unit 740 classifies new articles in the web sites of registered URLs based on the defined metadata according to categories of news feeds and visualizes them through a list view.

도 8은 본 발명의 일 실시예에 따른 새 글 알림 방법을 설명하기 위한 실시예를 나타내는 도면이다. FIG. 8 is a diagram illustrating an embodiment of a method for notifying a new text according to an embodiment of the present invention. Referring to FIG.

도 8a와 같이 어플리케이션을 실행하면 로그인을 위한 첫 화면이 출력된다. 계정 정보를 입력하여 로그인을 수행하면 어플리케이션의 메인 프레임으로 이동한다. When the application is executed as shown in FIG. 8A, the first screen for login is displayed. If you enter your account information and log in, you will be taken to the application's mainframe.

상단 메뉴는 프레그먼트를 사용하여 탭 방식의 메뉴를 구성 한다. 또한 사용자가 정의한 이름이 카테고리가 되며 카테고리는 스피너를 사용 하여 사용자가 동적으로 선택을 할 수 있다. The top menu uses a fragment to construct a tabbed menu. In addition, user defined names are categories, and categories can be dynamically selected by the user using a spinner.

도 8b와 같이, 뉴스의 아이템은 커스텀 레이아웃을 통해 사용자가 정의한 페이지의 이름, 등록한 URL, 본문에서 추출된 키워드, 섬네일로 구성이 되며, 해당 개별 리스트는 등록된 URL로 제목과 요약(Summary)을 보여준다. 카테고리는 관리 탭에서 URL을 등록할 때 같이 입력된 Page name과 URL이 리스트화된다. 각 페이지는 동적으로 게시된 시간을 보여주며, 역방향표를 누르면 링크 바로가기, 북마크 추가하기, 리스트를 목록에서 제거할 수 있다.As shown in FIG. 8B, the items of the news are composed of the name of the page defined by the user through the custom layout, the registered URL, the keyword extracted from the text, and the thumbnail. The corresponding individual list includes the title and summary Show. The categories are listed in the Admin tab, including the page name and URL entered when registering the URL. Each page shows the dynamically posted time, and you can press the reverse table link shortcut, add a bookmark, or remove the list from the list.

도 8c를 참조하면, 상단의 돋보기를 클릭하면 현재 리스트뷰로 보여지는 뉴스피드의 카테고리를 확인할 수 있다. 등록된 카테고리를 선택하여 지정된 뉴스피드를 선택할 수 있으며, 관리탭에서 지정된 키워드를 통해 뉴스피드를 입력된 키워드가 존재하는 것만을 별도로 추출해서 볼 수 있다.Referring to FIG. 8C, by clicking the magnifying glass at the top, the category of the news feed shown in the current list view can be confirmed. You can select a registered category to select a specified news feed. You can also extract newsfeeds that contain only the keywords that are entered through the keyword specified in the Administration tab.

뉴스피드 탭에서 북마크를 등록하면 도 8d와 같이, 북마크탭에 북마크 리스트를 확인할 수 있다. 등록된 북마크를 클릭하면, 웹뷰를 통해 등록된 URL의 웹을 볼 수 있다.When registering a bookmark on the news feed tab, a bookmark list can be found on the bookmark tab as shown in FIG. 8D. If you click on the registered bookmark, you can see the web of registered URL through WebView.

도 8e와 같이, 관리탭에서는 뉴스피드에 받고자 하는 URL을 등록할 수 있다. 추가버튼을 누르면 이름과 URL을 입력하고 키워드를 # 구분(예를 들어, #축구#날씨)으로 등록할 수 있다. 확인 버튼을 누르면 웹뷰를 통해 등록할 게시판의 게시물을 선택하라는 메시지와 함께 웹뷰가 생성된다. 보고자 하는 게시물을 선택하면 성공적으로 뉴스피드를 보기 위한 등록이 완료된다. 웹뷰에 있어 게시물을 선택하면 해당 웹 게시물의 본문 div를 추출하여 구조를 파악하기 위한 데이터가 DB에 저장된다. 관리탭에서 알림버튼을 통해 푸시(Push) 알람 설정을 ON/OFF할 수 있고, 등록된 정보들을 수정 및 삭제를 할 수 있다.
As shown in FIG. 8E, the management tab can register a URL to be received in the news feed. Press the Add button to enter the name and URL, and register the keyword as a # segment (eg # Football # weather). When you press the OK button, a WebView is created with a message to select a bulletin board posting to be registered through WebView. When you select a post you want to view, registration is completed successfully to view the news feed. When you select a post in WebView, the body div of the web post is extracted and the data for grasping the structure is stored in the DB. In the Administration tab, you can turn on / off the push alarm setting via the notification button, and modify or delete the registered information.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the apparatus and components described in the embodiments may be implemented within a computer system, such as, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA) A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For ease of understanding, the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG. For example, the processing unit may comprise a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded. The software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device , Or may be permanently or temporarily embodied in a transmitted signal wave. The software may be distributed over a networked computer system and stored or executed in a distributed manner. The software and data may be stored on one or more computer readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.  상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (15)

새 글 알림 방법에 있어서,
뉴스피드 기능을 사용하기 위해 사용자가 원하는 웹 사이트의 URL들을 URL 등록 페이지에 등록 하는 단계;
상기 등록된 URL들의 해당 웹 사이트에서 새 글의 게시 유무를 확인하는 단계;
새 글의 게시가 있는 경우, URL 등록 페이지에 등록된 뉴스피드의 웹 페이지의 페이지 이름, 등록된 URL, 본문 추출 키워드, 섬네일을 포함하는 메타데이터를 정의하는 단계; 및
상기 정의된 메타데이터를 기반으로 등록된 URL들의 웹 사이트에서 새 글을 뉴스피드의 카테고리에 따라 분류하고 리스트뷰를 통해 시각화하는 단계
를 포함하는 새 글 알림 방법.
In the new method of notification,
Registering URLs of web sites desired by the user on the URL registration page to use the news feed function;
Confirming whether or not a new article is posted on the web site of the registered URLs;
Defining metadata including a page name, a registered URL, a text extraction keyword, and a thumbnail of a web page of a news feed registered in a URL registration page when a new article is posted; And
Categorizing new articles according to the category of the news feed in the website of registered URLs based on the defined metadata and visualizing them through a list view
How to notify a new post that contains.
제1항에 있어서,
상기 뉴스피드 중 사용자가 원하는 뉴스피드를 북마크에 등록하여 등록된 뉴스피드를 통해 해당 웹 사이트를 방문 가능한
새 글 알림 방법.
The method according to claim 1,
The user can register the news feed desired by the user in the bookmark and visit the web site through the registered news feed
How to notify new posts.
제1항에 있어서,
상기 등록된 URL들의 해당 웹 사이트에서 새 글의 게시 유무를 확인하는 단계는,
등록된 URL들에서 HTML 정보를 읽어 들여 데이터베이스 서버에 HTML 정보를 등록하고, 해당 HTML 정보를 위치로 하여 새 글을 탐색하는
새 글 알림 방법.
The method according to claim 1,
Wherein the step of confirming whether or not a new article is posted on the corresponding website of the registered URLs,
The HTML information is read from the registered URLs, the HTML information is registered in the database server, and a new article is searched by using the HTML information as a location
How to notify new posts.
제3항에 있어서,
크롤러는 해쉬맵(HasnMap)의 자료 구조를 사용하여 URL을 키로 하는 사이트 별 정보들을 저장하고, 상기 해쉬맵의 키를 크롤링 과정마다 갱신함으로써 사이트들 별로 해당 사이트의 새 글을 전달 받는 사용자에 대한 정보 및 새 글을 찾기 위한 크롤링 전의 크롤링 결과를 저장하고 있는 해쉬맵과 새 글의 게시가 있는 것으로 판명된 사이트들을 저장하는 해쉬맵을 포함하는
새 글 알림 방법.
The method of claim 3,
The crawler uses the hash map data structure to store site-specific information using a URL as a key, and updates the key of the hash map every crawling process, thereby obtaining information about a user And a hash map that stores the results of the crawling before crawling to find new articles, and a hash map that stores the sites that have been found to contain the publication of new articles
How to notify new posts.
제3항에 있어서,
새 글의 게시가 있는지 판별할 때는 oldArticles 멤버 변수를 사용하여, 현재 크롤링한 새 글 목록과 이전에 크롤링한 새 글 목록에서 새로 생긴 새 글을 추출하는
새 글 알림 방법.
The method of claim 3,
Use the oldArticles member variable to determine whether there is a post for a new post, to extract new, new posts from the new crawled list of posts and the previously crawled list of new posts.
How to notify new posts.
제1항에 있어서,
상기 새 글의 게시가 있는 경우, URL 등록 페이지에 등록된 뉴스피드의 웹 페이지의 페이지 이름, 등록된 URL, 본문 추출 키워드, 섬네일을 포함하는 메타데이터를 정의하는 단계는,
상기 새 글을 addedArticles 멤버 변수에 저장하고 새 글에 대한 정보를 받아 해당 사이트의 게시판의 html 정보를 저장하는
새 글 알림 방법.
The method according to claim 1,
The step of defining the metadata including the page name, the registered URL, the text extraction keyword, and the thumbnail of the web page of the news feed registered in the URL registration page when the new article is posted,
Save the new article to the addedArticles member variable, receive information about the new article, and save the html information of the bulletin board of the site
How to notify new posts.
제6항에 있어서,
상기 본문 추출 키워드를 위해 헤더정보를 추출하고, 상기 헤더정보를 추출하지 못한 경우, 복수의 사이트에 대한 새 글 정보를 데이터베이스에 등록해 두고, 상기 복수의 사이트에 대한 새 글 정보를 기반으로 추출하는
새 글 알림 방법.
The method according to claim 6,
Extracting header information for the main text extraction keyword and registering the new article information for a plurality of sites in the database when the header information is not extracted and extracting based on new article information for the plurality of sites
How to notify new posts.
제7항에 있어서,
상기 복수의 사이트에 대한 새 글 정보를 저장하기 위한 프로그램을 생성하고, 상기 프로그램을 통해 데이터베이스를 축적하는
새 글 알림 방법.
8. The method of claim 7,
A program for storing new article information about the plurality of sites is created, and a database is accumulated through the program
How to notify new posts.
새 글 알림 시스템에 있어서,
뉴스피드 기능을 사용하기 위해 사용자가 원하는 웹 사이트의 URL들을 URL 등록 페이지에 등록 하는 URL 등록부;
상기 등록된 URL들의 웹 사이트에서 새 글의 게시 유무를 확인하는 새 글 확인부;
새 글의 게시가 있는 경우, URL 등록 페이지에 등록된 뉴스피드의 웹 페이지의 페이지 이름, 등록된 URL, 본문 추출 키워드, 섬네일을 포함하는 메타데이터를 정의하는 메타데이터 정의부; 및
상기 정의된 메타데이터를 기반으로 등록된 URL들의 웹 사이트에서 새 글을 뉴스피드의 카테고리에 따라 분류하고 리스트뷰를 통해 시각화 하는 뉴스피드 분류 및 알림부
를 포함하는 새 글 알림 시스템.
In a new message notification system,
A URL registration unit for registering URLs of web sites desired by the user on the URL registration page to use the news feed function;
A new posting confirmation unit for confirming whether or not to post a new posting on the website of the registered URLs;
A metadata definition unit for defining metadata including a page name, a registered URL, a text extraction keyword, and a thumbnail of a web page of a news feed registered in a URL registration page when a new article is posted; And
A news feed classification and notification section for classifying new articles according to categories of news feeds in a web site of registered URLs based on the defined metadata and visualizing them through a list view
A new notification system that includes.
제9항에 있어서,
상기 URL 등록부는,
상기 뉴스피드 중 사용자가 원하는 뉴스피드를 북마크에 등록하여 등록된 뉴스피드를 통해 해당 웹 사이트를 방문 가능하도록 하는
새 글 알림 시스템.
10. The method of claim 9,
The URL registering unit,
The user can register a news feed desired by the user in the bookmark and allow the user to visit the web site through the registered news feed
New post notification system.
제9항에 있어서,
상기 새 글 확인부는,
등록된 URL들에서 HTML 정보를 읽어 들여 데이터베이스 서버에 HTML 정보를 등록하고, 해당 HTML 정보를 위치로 하여 새 글을 탐색하는
새 글 알림 시스템.
10. The method of claim 9,
The new-
The HTML information is read from the registered URLs, the HTML information is registered in the database server, and a new article is searched by using the HTML information as a location
New post notification system.
제11항에 있어서,
크롤러는 해쉬맵(HasnMap)의 자료 구조를 사용하여 URL을 키로 하는 사이트 별 정보들을 저장하고, 상기 해쉬맵의 키를 크롤링 과정마다 갱신함으로써 사이트들 별로 해당 사이트의 새 글을 전달 받는 사용자에 대한 정보 및 새 글을 찾기 위한 크롤링 전의 크롤링 결과를 저장하고 있는 해쉬맵과 새 글의 게시가 있는 것으로 판명된 사이트들을 저장하는 해쉬맵을 포함하고,
새 글의 게시가 있는지 판별할 때는 oldArticles 멤버 변수를 사용하여, 현재 크롤링한 새 글 목록과 이전에 크롤링한 새 글 목록에서 새로 생긴 새 글을 추출하는
새 글 알림 시스템.
12. The method of claim 11,
The crawler uses the hash map data structure to store site-specific information using a URL as a key, and updates the key of the hash map every crawling process, thereby obtaining information about a user And a hash map storing the results of the crawling before crawling to find new articles, and a hash map storing sites found to have the publication of new articles,
Use the oldArticles member variable to determine whether there is a post for a new post, to extract new, new posts from the new crawled list of posts and the previously crawled list of new posts.
New post notification system.
제9항에 있어서,
상기 메타데이터 정의부는,
상기 새 글을 addedArticles 멤버 변수에 저장하고 새 글에 대한 정보를 받아 해당 사이트의 게시판의 html 정보를 저장하는
새 글 알림 시스템.
10. The method of claim 9,
Wherein the metadata definition unit comprises:
Save the new article to the addedArticles member variable, receive information about the new article, and save the html information of the bulletin board of the site
New post notification system.
제13항에 있어서,
상기 메타데이터 정의부는,
상기 본문 추출 키워드를 위해 헤더정보를 추출하고, 상기 헤더정보를 추출하지 못한 경우, 복수의 사이트에 대한 새 글 정보를 데이터베이스에 등록해 두고, 상기 복수의 사이트에 대한 새 글 정보를 기반으로 추출하는
새 글 알림 시스템.
14. The method of claim 13,
Wherein the metadata definition unit comprises:
Extracting header information for the main text extraction keyword and registering the new article information for a plurality of sites in the database when the header information is not extracted and extracting based on new article information for the plurality of sites
New post notification system.
제14항에 있어서,
상기 메타데이터 정의부는,
상기 복수의 사이트에 대한 새 글 정보를 저장하기 위한 프로그램을 생성하고, 상기 프로그램을 통해 데이터베이스를 축적하는
새 글 알림 시스템.
15. The method of claim 14,
Wherein the metadata definition unit comprises:
A program for storing new article information about the plurality of sites is created, and a database is accumulated through the program
New post notification system.
KR1020160038115A 2015-12-15 2016-03-30 New post notification system and method for analyzing and extracting new post of unspecified website KR20170071389A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20150179540 2015-12-15
KR1020150179540 2015-12-15

Publications (1)

Publication Number Publication Date
KR20170071389A true KR20170071389A (en) 2017-06-23

Family

ID=59283610

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160038115A KR20170071389A (en) 2015-12-15 2016-03-30 New post notification system and method for analyzing and extracting new post of unspecified website

Country Status (1)

Country Link
KR (1) KR20170071389A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423389A (en) * 2017-07-20 2017-12-01 努比亚技术有限公司 A kind of webpage reduced graph generating method, device and computer-readable recording medium
CN112445961A (en) * 2019-09-05 2021-03-05 腾讯科技(深圳)有限公司 Information processing method, device, terminal equipment and storage medium
CN113987320A (en) * 2021-11-24 2022-01-28 宁波深擎信息科技有限公司 Real-time information crawler method, device and equipment based on intelligent page analysis

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423389A (en) * 2017-07-20 2017-12-01 努比亚技术有限公司 A kind of webpage reduced graph generating method, device and computer-readable recording medium
CN112445961A (en) * 2019-09-05 2021-03-05 腾讯科技(深圳)有限公司 Information processing method, device, terminal equipment and storage medium
CN112445961B (en) * 2019-09-05 2024-05-10 腾讯科技(深圳)有限公司 Information processing method, device, terminal equipment and storage medium
CN113987320A (en) * 2021-11-24 2022-01-28 宁波深擎信息科技有限公司 Real-time information crawler method, device and equipment based on intelligent page analysis
CN113987320B (en) * 2021-11-24 2024-06-04 宁波深擎信息科技有限公司 Real-time information crawler method, device and equipment based on intelligent page analysis

Similar Documents

Publication Publication Date Title
US10120876B2 (en) Unguided application crawling architecture
CN107592930B (en) Automatic crawling of applications
KR102263637B1 (en) Third party search applications for a search system
US9934315B2 (en) Method and system for web searching
US20070067217A1 (en) System and method for selecting advertising
US20100011282A1 (en) Annotation system and method
TW201202980A (en) Infinite browse
US10614500B2 (en) Identifying search friendly web pages
US20160103913A1 (en) Method and system for calculating a degree of linkage for webpages
KR20040087205A (en) A method of managing web sites registered in search engine and a system thereof
US20150302093A1 (en) Method and system for filtering of a website
KR20170073693A (en) Extracting similar group elements
KR20170071389A (en) New post notification system and method for analyzing and extracting new post of unspecified website
TWI465947B (en) Information processing apparatus, information processing method, information processing program product and recording medium with information processing program
JP6763433B2 (en) Information gathering system, information gathering method, and program
JP6399103B2 (en) Automatic page editing method, automatic page editing program and automatic page editing apparatus
JP2006268771A (en) Retrieval result providing device
US9396170B2 (en) Hyperlink data presentation
KR20060115488A (en) Personalized search method using bookmark list of web browser and system for enabling the method
KR20080028031A (en) System extracting and displaying keyword and contents related with the keyword and method using the system
KR20190000061A (en) Method and system for providing relevant keywords based on keyword attribute
KR101618314B1 (en) Search server including random search engine
KR20210041269A (en) Intelligent crawling system and intelligent crawling method
KR101628511B1 (en) Search Engine Optimization and Server thereof
JP6275685B2 (en) Web page creation processing program and electronic device