KR20110024874A - System for scrap of web contents and method thereof - Google Patents

System for scrap of web contents and method thereof Download PDF

Info

Publication number
KR20110024874A
KR20110024874A KR1020090083045A KR20090083045A KR20110024874A KR 20110024874 A KR20110024874 A KR 20110024874A KR 1020090083045 A KR1020090083045 A KR 1020090083045A KR 20090083045 A KR20090083045 A KR 20090083045A KR 20110024874 A KR20110024874 A KR 20110024874A
Authority
KR
South Korea
Prior art keywords
scrap
web
electronic file
file
web page
Prior art date
Application number
KR1020090083045A
Other languages
Korean (ko)
Other versions
KR101125083B1 (en
Inventor
황찬호
Original Assignee
황찬호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 황찬호 filed Critical 황찬호
Priority to KR1020090083045A priority Critical patent/KR101125083B1/en
Publication of KR20110024874A publication Critical patent/KR20110024874A/en
Application granted granted Critical
Publication of KR101125083B1 publication Critical patent/KR101125083B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

PURPOSE: A system for scraping web contents and a method thereof are provided to save the scrap work time by converting the contents posted on the web into an electronic file, storing the converted file, then displaying the stored file to a website space. CONSTITUTION: A central control server(30) receives a scrap request signal of a certain webpage from a client terminal(10) connected through a network. The central control server converts the webpage into an electronic file and stored the converted file. A scrap DB(40) stores the electronic file converted in the central control server, and includes ID information for classifying plural clients. The electronic file is linked with the ideas for identifying the clients.

Description

웹 컨텐츠 스크랩 시스템 및 그 방법{SYSTEM FOR SCRAP OF WEB CONTENTS AND METHOD THEREOF}Web content scrap system and its method {SYSTEM FOR SCRAP OF WEB CONTENTS AND METHOD THEREOF}

본 발명은 웹 등에서 구현되는 콘텐츠를 전자파일로 스크랩하는 시스템 및 방법에 관한 것으로, 더욱 구체적으로는 상기 콘텐츠를 기사 또는 아티클 단위 등을 기초로 개별적 PDF 데이터로 생성하여 이를 저장하여 보관하는 웹 컨텐츠 스크랩 시스템 및 그 방법에 관한 것이다. The present invention relates to a system and method for scraping content implemented on a web or the like into an electronic file. More specifically, the web content scrap is generated and stored and stored as individual PDF data based on an article or article unit. A system and method thereof are provided.

인터넷의 보편적인 보급과 인터넷 통신 기술의 발전 및 이를 뒷받침하는 통신 인프라의 비약적인 발전을 통하여 현재 인터넷을 통한 온라인상의 사이버 공간은 현대인의 또 다른 생활 영역으로 확장되어 가고 있다. Through the universal dissemination of the Internet, the development of the Internet communication technology, and the rapid development of the communication infrastructure supporting it, the cyber space on the Internet through the Internet is expanding into another living area of modern people.

이러한 인터넷은 무한에 가까운 정보 중 원하는 정보를 검색하고 검색된 결과에 대한 활용이 주류적인 이용인데, 근자에는 이러한 검색활용과 함께 현대인들의 생활 패턴에 대한 변화 경향에 따라 온라인에서 자신만의 또는 동호회원 간의 공간을 구축하는 이른바 사적 공간을 창출하는 다양한 활동이 보편적으로 이루어지고 있다.The Internet is mainly used to search for the desired information from the infinite information and to use the search results. In recent years, the use of such search and the change of the modern people's life patterns are used online according to their own or fellowship members. Various activities that create so-called private spaces that build spaces are commonplace.

또한, 이러한 사이버 공간은 자신을 표현하고자 하는 인간의 기본적인 성향에 기초되는 특성을 가지므로 자신의 공간을 방문하는 자들에게 자신을 알리기 위한 다양한 활동뿐만 아니라 전문가 수준의 고급 정보들로 구성되어 저작권 등의 지적재산권의 보호를 받을 수 있는 공간으로까지 발전되고 있어 문화 코드의 새로운 창작활동 공간으로 자리매김되고 있다.In addition, these cyber spaces have characteristics that are based on the basic inclination of human beings to express themselves, so they are composed of high-level information at the professional level as well as various activities to inform themselves to those who visit their space. It is being developed as a space that can be protected by intellectual property rights, and has been established as a new creative activity space of cultural code.

무한에 가까운 정보를 제공하는 인터넷 공간은 한편, 사용자로 하여금 원하는 정보를 검색하고 검색 정보를 스크랩하는 등 그 검색된 결과를 편리하게 활용하기 위한 다양한 방법 등도 제시되고 있으나, 이러한 방법의 대부분은 웹상에 또 다른 저장 공간을 설정하고, 설정된 공간에 유저(사용자)가 원하는 정보 또는 콘텐츠를 직접 저장하여 차후 다시 열람 및 조회 가능한 형태로 운용되는 것이 대부분이다.On the other hand, the Internet space providing near infinite information has been proposed various ways for the user to conveniently search the desired information and scrap the search information, and to utilize the search results conveniently. In most cases, other storage spaces are set, and information or content desired by a user (user) is directly stored in the set space and operated in a form that can be viewed and viewed again later.

이와 함께, 상기 종래 스크랩의 일반적인 방법은 사용자가 원하는 기사, 그림 또는 다양한 콘텐츠를 스크랩하는 경우 웹 문서의 대부분은 HTML 기반으로 생성되므로, 해당하는 웹 문서의 주소를 복사하거나 링크하는 방법 또는 사용자에게 제공되는 콘텐츠를 그림 파일 등으로 저장하거나 또는 스크린 프린트 등을 통하여 이미지화하는 정도의 방법이 이용되고 있다.In addition, the conventional method of the conventional scrap is that when scraping articles, pictures or various contents desired by the user, since most of the web document is generated based on HTML, a method of copying or linking the address of the corresponding web document or providing it to the user The method of storing the content to be stored as a picture file or the like or to image through a screen print or the like is used.

또한, 오프라인의 매체를 온라인으로 제공하는 언론을 포함한 다양한 매스 미디어의 경우, 매체 전달의 형태가 온라인으로 전환만 되었을 뿐 사용자가 원하는 아티클(article) 등을 효과적으로 스크랩하기 위해서는 유저가 직접 해당하는 아티클을 그림파일 등으로 이미지화하는 방법 이외에 사용자 지향적인 스크랩 툴은 전 무하다고 할 수 있다.In addition, in the case of various mass media including a media that provides offline media online, the media delivery has only been switched to online, and in order to effectively scrape an article desired by the user, the user directly selects the corresponding article. In addition to image files, there are no user-oriented scrap tools.

이와 함께, 유저가 스크랩한 결과물, 신문 기사 스크랩 또는 동호회 활동 결과물 등22차 편집 저작물을 하나의 활자화된 책자나 이북 형태로 완결성 높은 결과물로 생성하고자 하는 경우 개인적인 활동의 차원에서 이용되는 인력 의존적 방법만으로 단순히 이용되고 있을 뿐, 다양한 웹 문서를 효과적으로 스크랩하고 이를 결과물로서 출판하는 효율적인 방법이 제시되지 못하고 있다.In addition, if a user wants to produce a 22nd edited work such as a scrapped product, a newspaper article scrap, or a fellowship activity result in a single printed book or e-book format, the work-dependent method used in terms of individual activities can be used. It is simply used, and there is no efficient way of scraping various web documents and publishing them as a result.

또한, 오프라인의 매스미디어 정보를 온라인으로 사용자에게 원하는 정보만을 선별적으로 검색할 수 있도록 하는 서비스 또는 그 결과 데이터를 제공하는 서비스의 경우(예를 들어, 기사 검색 서비스 또는 메일링 서비스등) 제공되는 자료의 대부분을 단순히 스캔하여 이미지화하거나 전체 콘텐츠를 하나의 파일 등으로 생성하고 있어 사용자가 원하는 아티클만을 구분하여 개별적으로 선별하거나 검색할 수 없다는 문제점이 있다.In addition, in the case of a service that allows the user to selectively search only the desired information online for offline mass media information, or a service that provides the resulting data (for example, an article search service or a mailing service) Most of the materials are simply scanned and imaged, or the entire contents are generated as a single file, which causes a problem in that the user can not select and search for articles separately.

덧붙여, 저작권으로 보호되는 아티클의 경우, 유저가 이를 이용하여 새로운 2차적 저작물 또는 편집 저작물을 제작하고자 하는 경우 저작권에 대한 정보를 확인할 수 있는 방법이 부족할 뿐만 아니라, 저작권 등의 권리 확인 작업을 개별적으로 수행해야 하는 문제점이 있음은 물론, 저작권 등의 지적재산권에 대한 인식이 부족한 사용자의 경우에는 차후 법적으로 복잡한 문제가 야기될 가능성도 크다고 할 수 있다. In addition, for articles protected by copyright, if a user wants to create a new secondary or edited work using it, there is a lack of a method for verifying information on the copyright. In addition, there is a problem that must be performed, as well as users with insufficient recognition of intellectual property rights such as copyright can be said to be likely to cause a complicated problem in the future.

본 발명은 상기와 같은 배경에서 상기 문제점을 극복하기 위하여 창안된 것으로서, 스크랩 편집, 법적 권리 이용, 결과물의 다각적 활용 등을 실현할 수 있도록 웹 컨텐츠 스크랩 시스템 및 그 방법을 제공하는데 목적이 있다.SUMMARY OF THE INVENTION The present invention has been made to overcome the above problems in the above background, and an object of the present invention is to provide a web content scrap system and a method for realizing scrap editing, legal rights, and various uses of the result.

상기와 같은 목적을 달성하기 위한 본 발명의 웹 컨텐츠 스크랩 방법으로서, 클라이언트의 웹 브라우져에 스크랩을 위한 스크랩 어플리케이션을 구동하는 제1 단계와, 상기 어플리케이션으로부터 스크랩 요청신호를 수신받아, 해당 웹페이지의 URL을 확인하고, 상기 웹페이지 중 스크랩 할 범위를 확인하는 제2 단계와, 상기 제2 단계에서 확인된 스크랩 범위에 해당하는 웹페이지의 HTML 파일을 수신받는 제3 단계와, 상기 제3 단계에서 수신받은 HTML 파일을 전자파일로 변환하고, 이를 저장하는 제4 단계를 포함하는 것을 특징으로 한다.A web content scrap method of the present invention for achieving the above object, the first step of driving a scrap application for scraps in a web browser of the client, receiving a scrap request signal from the application, the URL of the web page And a third step of checking a scrap range of the web page, a third step of receiving an HTML file of a web page corresponding to the scrap range identified in the second step, and receiving in the third step. And converting the received HTML file into an electronic file and storing the same.

또한, 본 발명의 웹 컨텐츠 스크랩 방법에서, 상기 제4 단계는, 수신받은 HTML 파일 중 컨텐츠의 디자인 정보를 추출하고, 상기 디자인 정보를 기초로 스크랩 대상 웹페이지를 렌더링 한 후 전자파일로 변환하는 과정을 더 포함하는 것을 특징으로 한다. In addition, in the web content scraping method of the present invention, the fourth step may include extracting design information of content from a received HTML file, and converting a scrap target web page to an electronic file based on the design information. It characterized in that it further comprises.

또한, 본 발명의 웹 컨텐츠 스크랩 방법에서, 상기 스크랩 어플리케이션은 클라이언트의 웹 브라우져에 웹 위젯(Widget)으로 구현되는 것을 특징으로 한다.In addition, in the web content scrap method of the present invention, the scrap application is characterized in that implemented as a web widget (Widget) in the web browser of the client.

또한, 본 발명의 웹 컨텐츠 스크랩 방법에서, 상기 전자파일은 XML을 지원하 는 PDF 인 것을 특징으로 한다.In addition, in the web content scrap method of the present invention, the electronic file is characterized in that the PDF supporting XML.

한편, 본 발명의 웹 컨텐츠 스크랩 시스템으로서, 네트웍을 통해 연결된 클라이언트 단말기로부터 특정 웹페이지의 스크랩 요청신호를 수신받아, 해당 웹페이지를 전자파일로 변환하여 이를 저장하도록 하는 중앙제어서버와, 상기 중앙제어서버에서 변환하는 전자파일이 저장되는 스크랩 DB를 포함하는 것을 특징으로 한다.On the other hand, as a web content scrap system of the present invention, a central control server for receiving a scrap request signal of a specific web page from a client terminal connected through a network, converts the web page into an electronic file and stores it, and the central control It characterized in that it comprises a scrap DB is stored in the electronic file to be converted in the server.

또한, 본 발명의 웹 컨텐츠 스크랩 시스템으로서, 상기 스크랩 DB는, 복수의 클라이언트를 구분하기 위한 아이디(ID) 정보를 더 포함하고, 상기 전자파일은 상기 클라이언트를 식별하는 아이디에 연동하여 저장된 것을 특징으로 한다.In addition, as a web content scrap system of the present invention, the scrap DB further comprises ID (ID) information for distinguishing a plurality of clients, the electronic file is characterized in that stored in association with the ID for identifying the client do.

또한, 본 발명의 웹 컨텐츠 스크렙 시스템으로서, 상기 전자파일은 XML을 지원하는 PDF 인 것을 특징으로 한다.In addition, the web content scraping system of the present invention, the electronic file is characterized in that the PDF supporting XML.

상기와 같은 본 발명은 웹에 게시된 내용을 전자파일로 변환하여 데이터 베이스에 저장하고, 필요에 따라 또는 별도의 자신만의 웹사이트 공간에 게시할 수 있어서 통상의 스크랩 작업에 들어가는 시간을 절약함과 동시에 간편하게 저장된 전자파일을 열람할 수 있는 장점이 있다.As described above, the present invention converts the contents posted on the web into electronic files, stores them in a database, and posts them in a separate website space as necessary or saves time for a normal scrap work. At the same time, there is an advantage that you can easily view the stored electronic files.

또한, 전자파일, 더 구체적으로 전자문서 파일로 매우 범용적으로 사용되는 PDF를 지원함으로서 범용성과 함께 이를 이용한 다양한 비즈니스를 창출 할 수 있는 효과가 있다.In addition, by supporting PDF which is used very widely as an electronic file, more specifically an electronic document file, there is an effect that can create a variety of business using the universality and the same.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.As the inventive concept allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the written description. However, this is not intended to limit the present invention to specific embodiments, it should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.Terms including ordinal numbers such as first and second may be used to describe various components, but the components are not limited by the terms. The terms are used only for the purpose of distinguishing one component from another.

예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다. For example, without departing from the scope of the present invention, the second component may be referred to as the first component, and similarly, the first component may also be referred to as the second component.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.When a component is referred to as being "connected" or "connected" to another component, it may be directly connected to or connected to that other component, but it may be understood that other components may be present in between. Should be. On the other hand, when a component is said to be "directly connected" or "directly connected" to another component, it should be understood that there is no other component in between.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것 으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. The terminology used herein is for the purpose of describing particular example embodiments only and is not intended to be limiting of the invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present application, the terms "comprises", "having", and the like are used to specify that a feature, a number, a step, an operation, an element, a component, But do not preclude the presence or addition of one or more other features, integers, steps, operations, elements, components, or combinations thereof.

이제 본 발명의 실시 예에 따른 웹컨텐츠 스크랩 방법 및 시스템에 대하여 도면을 참고하여 상세하게 설명하고, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기도 한다.Now, a web content scrap method and system according to an embodiment of the present invention will be described in detail with reference to the drawings, and the same or corresponding elements are denoted by the same reference numerals regardless of the reference numerals, and redundant description thereof will be omitted. Sometimes.

도 1은 본 발명의 실시예에 따른 웹 컨텐츠 스크랩 시스템을 설명하기 위한 블럭도이고, 도 2는 도 1에 도시된 중앙제어서버의 동작을 설명하기 위한 상세 도면이고, 도 3은 본 발명의 실시예에 따른 웹 컨텐츠 스크랩 방법을 설명하기 위한 플로우차트 이다.1 is a block diagram illustrating a web content scrap system according to an embodiment of the present invention, Figure 2 is a detailed view for explaining the operation of the central control server shown in Figure 1, Figure 3 is an embodiment of the present invention This is a flowchart for explaining a web content scraping method according to an example.

본 실시예에 따른 웹 컨텐츠 스크랩 시스템은 도 1에 도시된 바와 같이 네트웍(20)을 통해 연결된 복수의 클라이언트 단말기(10)의 웹 브라우져, 예를 들어 마이크로 소프트사의 인터넷 익스플로러, 애플사의 사파리, 구글사의 크롬, 파이어 폭스 등을 통해 사용자는 웹사이트를 접속하여 컨텐츠를 접하게 된다. 상기와 같은 웹사이트는 통상의 블로그, 커뮤니티, 쇼핑 몰(50) 등의 될 수 있으며 이에 한정되는 것은 아니다. 상기와 같은 클라이언트 단말기(10)로부터 스크랩 요청신호를 수 신하여 해당 웹페이지를 전자파일로 변환하는 중앙제어서버(30)와, 상기 변환된 전자파일(40)이 저장되는 스크랩 DB(40)를 포함한다.The web content scrap system according to the present embodiment is a web browser of a plurality of client terminals 10 connected through a network 20 as shown in FIG. 1, for example, Microsoft's Internet Explorer, Apple's Safari, and Google's. Chrome, Firefox, and so on, users can access websites and access their content. Such a website may be a typical blog, community, shopping mall 50 and the like, but is not limited thereto. Receiving a scrap request signal from the client terminal 10 as described above, the central control server 30 for converting the web page into an electronic file, and the scrap DB 40 in which the converted electronic file 40 is stored Include.

상기 중앙제어서버(30)는 도 2에 도시된 바와 같이 정보추출부(31), 파일 변환부(32), 렌더링부(33)를 포함하는데, 이에 대한 상세한 동작 설명은 도 3의 플로우 챠트를 참조하여 설명한다.The central control server 30 includes an information extracting unit 31, a file converting unit 32, and a rendering unit 33 as shown in FIG. 2, which will be described in detail with reference to the flowchart of FIG. It demonstrates with reference.

상기 중앙제어서버(30)는 상기 복수의 클라이언트 단말기(10)로부터 네트웍(20)을 통하여 스크랩 요청신호가 수신되는지 모니터링 한다(S11). 이때, 상기 클라이언트 단말기(10)에는 스크랩을 위한 별도의 어플리케이션이 구동되어야 하며, 이는 웹 위젯 형태로 제공됨이 바람직 하다. 상기 웹 위젯은 Flash, JAVA Script Active X, JAVA Applet 형태로 구현될 수 있으나, 이에 한정되는 것은 아니다.The central control server 30 monitors whether a scrap request signal is received from the plurality of client terminals 10 through the network 20 (S11). In this case, a separate application for scrap must be driven in the client terminal 10, which is preferably provided in the form of a web widget. The web widget may be implemented in the form of Flash, JAVA Script Active X, JAVA Applet, but is not limited thereto.

상기 웹 위젯 형태로 제공되는 스크랩 어플리케이션을 통해 사용자는 웹 브라우져 상에서 스크랩 요청신호를 중앙제어서버(30)에 요청하게 되고, 중앙제어서버(30)는 상기 요청신호를 입력받아, 해당 웹페이지의 URL을 확인하게 된다(S12). 이후, 확인된 URL을 통해 해당 웹페이지에 접속하게 되고(S13), 스크랩 대상의 범위를 확인하게 된다(S14). 이는 해당 웹 페이지가 블로그일 경우, 웹페이지의 사이드에 배치된 메뉴등을 제외한 해당 포스트의 내용만을 스크랩 대상으로 확인하게 된다. 이는 해당 웹페이지의 HTML에서 해당 포스트의 내용만을 추출할 수 있으므로, 중앙제어서버(30)의 정보추출부(31)에서 이를 담당하게 된다. 또한, 해당 웹 페이지가 커뮤니티일 경우, 이도 역시 사이드에 배치된 메뉴 등을 제외하고 해당 게시글의 내용만을 스크랩 대상으로 확인함이 가능하다. 상기와 같은 추출은 HTML에서 추출 태그를 이용하여 달성됨이 가능하다. Through the scrap application provided in the form of the web widget, the user requests a scrap request signal to the central control server 30 on a web browser, and the central control server 30 receives the request signal and receives the URL of the web page. It will be confirmed (S12). Thereafter, the webpage is accessed through the confirmed URL (S13), and the scope of the scrap object is checked (S14). If the web page is a blog, only the contents of the post except for a menu placed on the side of the web page will be identified as the scrap object. Since only the contents of the post can be extracted from the HTML of the web page, the information extraction unit 31 of the central control server 30 is responsible for this. In addition, when the web page is a community, it is also possible to check only the contents of the post as a scrap object, except for a menu placed on the side. Such extraction may be accomplished using extraction tags in HTML.

상기와 같이 확인된 스크랩 범위의 HTML을 중앙제어서버(30)의 정보추출부(31)는 추출하고, 추출된 HTML 중 해당 웹페이지의 디자인 및 레이아웃 정보를 확인하게 된다(S16). 상기 확인된 디자인 및 레이아웃 정보를 통해 상기 렌더링 부(33)는 스크랩을 진행할 범위에 대해 재 렌더링을 수행하게 된다(S17). 이는 통상의 웹페이지를 전자파일로 변환할 때 호환성이 떨어지고, 디자인 및 레이아웃 등이 일정하지 못하여 깨짐 현상이 발생하는 것을 해결하기 위한 것으로, 재 렌더링을 통해 웹페이지를 다시 구현하는 임시 HTML을 생성하는 것이다. 이후, 렌더링된 웹 페이지, 즉 HTML을 파일 변환부(32)는 PDF로 변환하게 되고(S18), 중앙제어서버(30)는 변환된 PDF 파일을 스크랩 DB(40)에 기록 저장하게 된다. 상기 PDF는 통상의 XML을 지원하는 파일 포맷으로 미국의 Adobe 사에 의해 개발된 파일 포맷이나, 최근 ISO 표준으로 선정된 범용적인 전자파일 포맷이다. The information extraction unit 31 of the central control server 30 extracts the HTML of the checked scrap range as described above, and checks the design and layout information of the web page of the extracted HTML (S16). Through the checked design and layout information, the rendering unit 33 performs re-rendering with respect to the range where the scrap is to be processed (S17). This is to solve the problem of incompatibility when converting a normal web page into an electronic file, and the broken phenomenon due to the inconsistent design and layout. The temporary HTML that reimplements the web page through re-rendering is generated. will be. Thereafter, the rendered web page, that is, the HTML file conversion unit 32 is converted into PDF (S18), and the central control server 30 records and stores the converted PDF file in the scrap DB (40). The PDF is a file format developed by Adobe of the United States as a file format supporting ordinary XML, or a general electronic file format recently selected as an ISO standard.

상기 스크랩 DB(40)에 PDF 파일이 저장되는데, 중앙제어서버(30)는 사용자별로 구분되게 저장되도록, 사용자 식별정보인 아이디 정보와 연동되도록 상기 PDF 파일을 저장한다. The PDF file is stored in the scrap DB 40, and the central control server 30 stores the PDF file so as to be linked with ID information, which is user identification information, to be stored separately for each user.

상기와 같이 저장된 스크랩 파일은 상기 중앙제어서버(30)에 접속, 즉 서비스 웹사이트에 접속하여 사용자가 아이디/패스워드 입력을 통해 로그인을 수행하면, 스크랩된 PDF 파일을 손쉽게 열어볼 수 있는 장점이 있다.The scrap file stored as described above has an advantage of easily opening the scraped PDF file when the user logs in through ID / password input by accessing the central control server 30, that is, the service website. .

또한, 웹 위젯의 형태로 별도의 웹사이트 게시판이나 블로그에 링크를 걸어 연결할 수 있는데, 상기 특정 스크랩된 PDF 파일의 웹상 URL을 링크하여 해당 링크를 다른 사용자가 클릭하면 상기 스크랩 DB(40)에 저장된 해당 PDF 파일이 클릭한 다른 사용자에게 보여지게 함도 가능하다. In addition, in the form of a web widget can be linked to a separate website bulletin board or blog link, if the other user clicks the link by linking the URL on the web of the specific scraped PDF file stored in the scrap DB (40) You can also make the PDF file visible to other users who clicked it.

앞에서 설명된 본 발명의 일실시예는 본 발명의 기술적 사상을 한정하는 것으로 해석되어서는 아니된다. 본 발명의 보호범위는 청구범위에 기재된 사항에 의하여만 제한되고, 본 발명의 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상을 다양한 형태로 개량 변경하는 것이 가능하다. 따라서, 이러한 개량 및 변경은 통상의 지식을 가진 자에게 자명한 것인 한 본 발명의 보호범위에 속하게 될 것이다.One embodiment of the present invention described above should not be construed as limiting the technical spirit of the present invention. The protection scope of the present invention is limited only by the matters described in the claims, and those skilled in the art can change and change the technical idea of the present invention in various forms. Therefore, such improvements and modifications will fall within the protection scope of the present invention as long as it will be apparent to those skilled in the art.

도 1은 본 발명의 실시예에 따른 웹 컨텐츠 스크랩 시스템을 설명하기 위한 블럭도1 is a block diagram illustrating a web content scrap system according to an embodiment of the present invention.

도 2는 도 1에 도시된 중앙제어서버의 동작을 설명하기 위한 상세 도면2 is a detailed view for explaining the operation of the central control server shown in FIG.

도 3은 본 발명의 실시예에 따른 웹 컨텐츠 스크랩 방법을 설명하기 위한 플로우차트3 is a flowchart illustrating a web content scraping method according to an embodiment of the present invention.

Claims (7)

클라이언트의 웹 브라우져에 스크랩을 위한 스크랩 어플리케이션을 구동하는 제1 단계와, A first step of running a scrap application for scrap in a web browser of a client, 상기 어플리케이션으로부터 스크랩 요청신호를 수신받아, 해당 웹페이지의 URL을 확인하고, 상기 웹페이지 중 스크랩 할 범위를 확인하는 제2 단계와,A second step of receiving a scrap request signal from the application, checking a URL of a corresponding web page, and confirming a scrap range of the web page; 상기 제2 단계에서 확인된 스크랩 범위에 해당하는 웹페이지의 HTML 파일을 수신받는 제3 단계와,A third step of receiving an HTML file of a web page corresponding to the scrap range identified in the second step; 상기 제3 단계에서 수신받은 HTML 파일을 전자파일로 변환하고, 이를 저장하는 제4 단계를 포함하는 웹 컨텐츠 스크랩 방법.And a fourth step of converting the HTML file received in the third step into an electronic file and storing the same. 제1항에 있어서,The method of claim 1, 상기 제4 단계는, The fourth step, 수신받은 HTML 파일 중 컨텐츠의 디자인 정보를 추출하고, 상기 디자인 정보를 기초로 스크랩 대상 웹페이지를 렌더링 한 후 전자파일로 변환하는 과정을 더 포함하는 웹 컨텐츠 스크랩 방법.And extracting design information of the content from the received HTML file, rendering the scrap target web page based on the design information, and converting the content into an electronic file. 제1항에 있어서,The method of claim 1, 상기 스크랩 어플리케이션은 클라이언트의 웹 브라우져에 웹 위젯(Widget)으로 구현되는 것을 특징으로 하는 웹 컨텐츠 스크랩 방법.The scrap application is a web content scrap method, characterized in that implemented as a web widget (Widget) in the web browser of the client. 제1항에 있어서,The method of claim 1, 상기 전자파일은 XML을 지원하는 PDF 인 것을 특징으로 하는 웹 컨텐츠 스크랩 방법.And the electronic file is a PDF that supports XML. 웹 컨텐츠 스크랩 시스템으로서,As a web content scrap system, 네트웍을 통해 연결된 클라이언트 단말기로부터 특정 웹페이지의 스크랩 요청신호를 수신받아, 해당 웹페이지를 전자파일로 변환하여 이를 저장하도록 하는 중앙제어서버와,A central control server for receiving a scrap request signal of a specific web page from a client terminal connected through a network, converting the web page into an electronic file, and storing the converted web page; 상기 중앙제어서버에서 변환하는 전자파일이 저장되는 스크랩 DB를 포함하는 웹 컨텐츠 스크랩 시스템.Web scrap content system including a scrap DB is stored in the electronic file converted by the central control server. 제5항에 있어서,The method of claim 5, 상기 스크랩 DB는,The scrap DB, 복수의 클라이언트를 구분하기 위한 아이디(ID) 정보를 더 포함하고,Further comprising ID information for identifying a plurality of clients, 상기 전자파일은 상기 클라이언트를 식별하는 아이디에 연동하여 저장된 것을 특징으로 하는 웹 컨텐츠 스크랩 시스템.And the electronic file is stored in association with an ID for identifying the client. 제6항에 있어서,The method of claim 6, 상기 전자파일은 XML을 지원하는 PDF 인 것을 특징으로 하는 웹 컨텐츠 스크 랩 시스템.The electronic file is a web content scrap system, characterized in that the PDF supporting XML.
KR1020090083045A 2009-09-03 2009-09-03 System for scrap of web contents and method thereof KR101125083B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090083045A KR101125083B1 (en) 2009-09-03 2009-09-03 System for scrap of web contents and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090083045A KR101125083B1 (en) 2009-09-03 2009-09-03 System for scrap of web contents and method thereof

Publications (2)

Publication Number Publication Date
KR20110024874A true KR20110024874A (en) 2011-03-09
KR101125083B1 KR101125083B1 (en) 2012-03-21

Family

ID=43932647

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090083045A KR101125083B1 (en) 2009-09-03 2009-09-03 System for scrap of web contents and method thereof

Country Status (1)

Country Link
KR (1) KR101125083B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200017858A (en) * 2018-08-09 2020-02-19 주식회사 고려미디어 Method of converting to user-friendly documents from online documents

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101982085B1 (en) 2018-04-25 2019-05-27 주식회사쿠콘 System, method and computer program for data scrapping using script engine
KR102191458B1 (en) 2018-12-24 2020-12-15 (주)해나소프트 Apparatus and method for scrapping web data

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030088185A (en) * 2002-05-13 2003-11-19 주식회사 애니큐 Publishing method for e-book using web page scrap on internet
KR20050059385A (en) * 2003-12-29 2005-06-20 엔에이치엔(주) Contents scrap system and method thereof
KR100816795B1 (en) * 2006-05-19 2008-03-26 링크젠 주식회사 Method of gathering for offline based contents and computer-readable medium having thereon program performing function embodying the same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200017858A (en) * 2018-08-09 2020-02-19 주식회사 고려미디어 Method of converting to user-friendly documents from online documents

Also Published As

Publication number Publication date
KR101125083B1 (en) 2012-03-21

Similar Documents

Publication Publication Date Title
JP5387124B2 (en) Method and system for performing content type search
CN101765840B (en) Capture and display of annotations in paper and electronic documents
US8954839B2 (en) Contract authoring system and method
US7899808B2 (en) Text enhancement mechanism
US20170337357A1 (en) System and method for managing, tracking, and utilizing copy and/or paste events
EP2769310A1 (en) Method for automatically tagging documents with matrix barcodes and providing access to a plurality of said document versions
JP2007304652A (en) Two-dimensional code generation program, system, and method
CN1996295A (en) Image forming apparatus and method to search for and print images on network
AU2008205134B2 (en) A document management system
CN111310750B (en) Information processing method, device, computing equipment and medium
KR100798465B1 (en) Learning data formation system for the subject explanation
JP7290391B2 (en) Information processing device and program
KR101125083B1 (en) System for scrap of web contents and method thereof
JP2007058621A (en) Document management device and document management method
JP2007041983A (en) Application form creation program and application form creation apparatus
CN116015777A (en) Document detection method, device, equipment and storage medium
JP2006526190A (en) System and method for providing multiple renditions of document content
JP2009064220A (en) Method and system for permitting access to web site for disclosing related information of printed matter, only to owner of printed matter
JP5331084B2 (en) Specific information extraction apparatus and specific information extraction program
CN114065068A (en) Page access control method and device, equipment and storage medium
US8788537B2 (en) Computer readable medium storing information processing program, information processing apparatus, and information processing method
JP2011518390A (en) System and method for providing permanent data records
KR20160136898A (en) Cloud-based creative work registration system
CN111143719A (en) Online publication method, device and equipment of thesis and computer-readable storage medium
JP6303742B2 (en) Image processing apparatus, image processing method, and image processing program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150227

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160301

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170301

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee