KR20020061443A - Method and system for data gathering, processing and presentation using computer network - Google Patents

Method and system for data gathering, processing and presentation using computer network Download PDF

Info

Publication number
KR20020061443A
KR20020061443A KR1020010002853A KR20010002853A KR20020061443A KR 20020061443 A KR20020061443 A KR 20020061443A KR 1020010002853 A KR1020010002853 A KR 1020010002853A KR 20010002853 A KR20010002853 A KR 20010002853A KR 20020061443 A KR20020061443 A KR 20020061443A
Authority
KR
South Korea
Prior art keywords
information
user
database
communication network
computer communication
Prior art date
Application number
KR1020010002853A
Other languages
Korean (ko)
Inventor
김형곤
Original Assignee
(주)투비소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)투비소프트 filed Critical (주)투비소프트
Priority to KR1020010002853A priority Critical patent/KR20020061443A/en
Publication of KR20020061443A publication Critical patent/KR20020061443A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Abstract

PURPOSE: A method and a system for collecting, processing, and displaying information are provided to search information desired by a user from web documents via the Internet, and display the searched information as a desired form. CONSTITUTION: A system(100) for collecting, analyzing and processing information is connected to various Internet sites(150) and a user web browser(180) via the Internet(170). The system(100) receives a search word of information from the user via the user web browser(180). The system(100) collects information from the Internet sites(150), and analyzes and processes collected data before providing it to the user. The system(100) is connected to an external database(160) directly or via the Internet(170), so that the system(100) collects information from the external database(160). The system(100) includes an intelligent-type agent(110), a data process part(120) and a presentation process part(130). The system(100) further includes a database(140) for storing collected, processed information.

Description

컴퓨터 통신망을 이용한 정보의 수집, 가공 및 표시 방법과 그 시스템{Method and system for data gathering, processing and presentation using computer network}Method and system for data gathering, processing and presentation using computer network

본 발명은 컴퓨터 통신망을 이용하여 정보를 수집, 분석 및 가공하는 방법 및 그 시스템에 관한 것으로서, 구체적으로는 사용자가 필요한 정보에 대한 검색어를 입력하면 검색 엔진을 이용하여 인터넷의 웹 문서 상의 각종 관련 정보를 수집하여, 수집한 문서내에서 필요한 데이터만을 추출하고 데이터베이스화하여 이를 재가공하여 사용자에게 제공하는 방법 및 그 시스템에 관한 것이다.The present invention relates to a method and system for collecting, analyzing and processing information using a computer communication network. Specifically, when a user inputs a search word for necessary information, various related information on a web document of the Internet using a search engine The present invention relates to a method and system for collecting and extracting only necessary data from collected documents, reprocessing the database, and providing the same to a user.

인터넷은 정보의 바다라고 불리고 있는 것처럼, 세계 곳곳에 존재하는 수많은 정보를 인터넷을 통해 얻을 수 있다. 그러나, 정보의 양이 지나치게 방대하고, 정보의 표시 형식 등이 체계화되어 있지 않으므로 모든 정보를 일일이 사용자가 검색하여 원하는 정보를 찾는다는 것은 불가능하다. 이와 같은 점을 고려하여 사용자가 원하는 정보를 찾는 과정을 도와주기 위한 많은 방법들이 사용되고 있다.Just as the Internet is called the sea of information, a lot of information that exists around the world can be obtained through the Internet. However, since the amount of information is excessively large and the display format of the information is not organized, it is impossible for the user to search all the information and find the desired information. In view of this, many methods are used to help the user find the information he / she wants.

대표적인 것으로는 야후나 엠파스와 같은 검색 엔진을 들 수 있는데, 이러한 검색 엔진들은 사용자가 찾기를 원하는 정보에 관한 검색어를 입력하면, 인터넷의 웹 문서들을 검색하여 관련된 웹 문서 또는 사이트를 찾아 해당 웹 문서 또는 사이트로의 링크를 제공하고 미리보기 기능 등을 제공한다.Typical examples include search engines such as Yahoo or Empas. When a user enters a search term for the information they want to find, they search the web documents on the Internet to find related web documents or sites, It provides a link to the site and provides a preview function.

그밖에도 원하는 정보가 포함되어 있는 다수의 사이트로부터 특정 영역들을 조합하여 사용자의 브라우저를 통해 동시에 볼 수 있도록 해주는 맞춤형 브라우징(personalized browsing) 서비스 등이 제공되고 있다.In addition, personalized browsing services are provided that combine specific areas from multiple sites that contain the desired information and simultaneously view them through the user's browser.

그러나, 이와 같은 방법들은 모두 검색 대상 정보를 표시해주거나, 검색 대상 정보에 대한 링크를 제공할 뿐이어서, 사용자는 검색된 정보들을 모두 일일이 확인하여야 하며, 더 나아가 검색된 정보를 재이용하기 위해서는 사용자가 수집된 정보를 다시 데이터베이스에 입력하고 보고서를 작성하는 등의 많은 작업을 필요로 한다.However, all of these methods only display the search target information or provide a link to the search target information, so that the user must check all the searched information one by one. Furthermore, in order to reuse the searched information, the collected information is collected by the user. To re-enter the database, create a report, and so on.

한편, 이와 같은 문제점을 해결하기 위한 방법으로 가격 비교 엔진과 같은 지능형 에이전트(Intelligent agent)가 사용되고 있다. 이러한 지능형 에이전트는 학습된 규칙(rule)에 따라 원하는 정보를 수집하여 수집된 특정 정보에 대한 비교 정보를 제시해줄 수 있다. 그러나, 지능형 에이전트에 의한 정보 수집 및 비교 방식 역시 그 대상 정보가 특정한 정보에 한정되어 있고(예를 들면, 판매가격), 한정된 정보에 대한 비교정보를 나열하는 것에 불과하고, 비교정보에 대해서도 단순히 표시하는 것일 뿐 정보를 재가공할 수 있는 형태로 사용자에게 제공하는 것은 아니다.Meanwhile, an intelligent agent such as a price comparison engine is used as a method for solving such a problem. Such an intelligent agent may present desired information according to learned rules and present comparison information with respect to the collected specific information. However, the information collection and comparison method by the intelligent agent is also limited to the specific information (for example, the selling price), and simply lists the comparison information for the limited information, and simply displays the comparison information. It does not provide the user with a form that can be reprocessed.

따라서, 단순히 원하는 정보를 표시해주는 것에 그치지 않고, 원하는 정보를 찾아 분석하고 가공하여 사용자에게 시각적인 형태로 표시해주거나, 재가공이 용이한 형태로 데이터베이스화해 준다면 정보 검색에 드는 시간과 비용을 크게 줄일 수 있고, 개별화된 정보(컨텐츠) 서비스를 위한 기반 솔루션으로도 활용할 수 있는 등 매우 큰 효과를 얻을 수 있을 것이다.Therefore, not only displaying the desired information, but also finding, analyzing and processing the desired information and presenting it in a visual form to the user or making the database in a form that can be easily reprocessed can greatly reduce the time and cost of information retrieval. It can also be used as a foundation solution for personalized information services.

본 발명은 이러한 점을 감안하여 이루어진 것으로서, 인터넷을 통해 웹 문서 등으로부터 원하는 정보를 찾아 이를 사용자가 원하는 형태로 표시해줄 수 있는 정보 수집, 가공 및 표시 방법 및 그 시스템을 제공하는 것을 그 목적으로 한다.SUMMARY OF THE INVENTION The present invention has been made in view of this point, and an object thereof is to provide a method and system for collecting, processing, and displaying information that can find desired information from a web document or the like and display the desired information in a desired form through the Internet. .

본 발명의 다른 목적은 인터넷 상에서 검색하여 수집한 문서로부터 원하는 정보를 추출하여 이를 재가공할 수 있는 형태로 사용자에게 제공할 수 있는 정보 수집, 가공 및 표시 방법 및 그 시스템을 제공하는 것이다.Another object of the present invention is to provide a method and system for collecting, processing, and displaying information that can be provided to a user in a form capable of reprocessing and extracting desired information from documents collected by searching on the Internet.

도 1은 본 발명의 컴퓨터 통신망을 이용한 정보 수집, 분석 및 가공 방법을 구현하는 전체 시스템의 구성을 나타내는 개략도이다.Figure 1 is a schematic diagram showing the configuration of the entire system for implementing the information collection, analysis and processing method using a computer communication network of the present invention.

도 2는 본 발명의 컴퓨터 통신망을 이용한 정보 수집, 분석 및 가공 방법을 나타내는 흐름도이다.2 is a flowchart illustrating a method for collecting, analyzing and processing information using a computer communication network of the present invention.

도 3은 본 발명의 컴퓨터 통신망을 이용한 정보 수집, 분석 및 가공 방법에서 원하는 정보를 포함하는 웹 문서를 검색하여 웹 문서로부터 정보를 추출하는 과정을 시각적으로 표시한 도면이다.FIG. 3 is a diagram visually displaying a process of extracting information from a web document by searching for a web document including desired information in a method for collecting, analyzing, and processing information using a computer communication network of the present invention.

도 4는 본 발명의 컴퓨터 통신망을 이용한 정보 수집, 분석 및 가공 방법에서 수집한 정보를 정형화하는 과정을 나타내는 도면이다.4 is a diagram illustrating a process of formalizing information collected by a method for collecting, analyzing, and processing information using a computer communication network of the present invention.

도 5는 본 발명의 컴퓨터 통신망을 이용한 정보 수집, 분석 및 가공 방법에서 수집한 정보와 병합하기 위한 기존의 정보를 포함하고 있는 데이터베이스의 예를 나타내는 도면이다.5 is a diagram illustrating an example of a database including existing information for merging with information collected by the method of collecting, analyzing, and processing information using a computer communication network of the present invention.

도 6은 본 발명의 컴퓨터 통신망을 이용한 정보 수집, 분석 및 가공 방법에서 수집한 정보를 표와 그래프 형태로 표시해주는 과정을 나타내는 도면이다.FIG. 6 is a diagram illustrating a process of displaying information collected in a method of collecting, analyzing, and processing information using a computer communication network in the form of a table and a graph.

도 7은 본 발명의 컴퓨터 통신망을 이용한 정보 수집, 분석 및 가공 방법에서 수집한 정보를 이용하여 전략보고서를 생성하는 과정을 나타내는 도면이다.FIG. 7 is a diagram illustrating a process of generating a strategic report using information collected in a method for collecting, analyzing, and processing information using a computer communication network of the present invention.

도 8은 본 발명의 컴퓨터 통신망을 이용한 정보 수집, 분석 및 가공 방법에서 수집한 정보를 재처리가능한 스프레드시트 파일로 포스팅하는 과정을 나타내는 도면이다.8 is a diagram illustrating a process of posting information collected in a method for collecting, analyzing, and processing information using a computer communication network as a reprocessable spreadsheet file.

이와 같은 목적을 달성하기 위하여 본 발명에서는, 사용자가 원하는 정보를 찾기 위한 검색어를 입력하고 검색 대상을 지정하면, 입력된 검색어를 분석한 후 데이터 수집 엔진을 이용하여 원하는 정보가 포함된 웹 문서, 기존 데이터베이스 등을 검색하여 원하는 정보가 포함된 자료를 수집한다. 수집된 자료로부터 자연어 처리 엔진 또는 HTML/XML 파서 등을 이용하여 원하는 정보를 추출한 후, 추출된 정보를 표준화/정형화하여 데이터베이스 형태로 저장한다. 필요에 따라 미리 생성되어 저장되어 있는 데이터베이스에 포함된 자료를 병합하여 검색된 자료와 함께 시각적인 형태로 사용자에게 표시하거나, 스프레드시트 파일과 같은 재가공할 수 있는 형태로 데이터를 가공하여 사용자에게 제공한다. 표시 형태는 사용자의 요구에 따라 정해질 수 있으며, 그래프나 표 등을 포함하는 웹 문서나 보고서 형태로 될 수 있고, 저장된 데이터를 다시 문장으로 생성하여 보고서에 포함되도록 할 수도 있다.In order to achieve the above object, in the present invention, when a user inputs a search word for finding desired information and specifies a search target, the web document including the desired information is analyzed by using a data collection engine after analyzing the input search word. Search the database and collect data containing the information you want. After extracting the desired information from the collected data using a natural language processing engine or HTML / XML parser, the extracted information is standardized / formalized and stored in a database form. If necessary, the data included in the pre-created and stored database are merged and displayed to the user in a visual form along with the retrieved data, or the data is processed and provided to the user in a reprocessable form such as a spreadsheet file. The display form may be determined according to a user's request, and may be in the form of a web document or a report including a graph or a table, or may be stored in the report by generating the stored data in a sentence.

즉, 본 발명에 따른 컴퓨터 통신망을 이용한 정보 수집, 가공 및 표시 방법은, 컴퓨터 통신망을 통하여 사용자로부터 검색어를 입력받는 단계, 상기 검색어를 이용하여 상기 검색어가 지시하는 정보가 포함된 웹 문서 또는 데이터베이스를 검색하는 단계, 검색된 웹 문서 또는 데이터베이스로부터 상기 검색어가 지시하는 정보를 추출하는 단계, 추출된 정보를 표준화/정형화하여 데이터베이스의 형태로 저장하는 단계, 데이터베이스의 형태로 저장된 정보를 표시할 형태를 컴퓨터 통신망을 통하여 사용자로부터 입력받는 단계, 데이터베이스의 형태로 저장된 정보를 사용자로부터 입력된 표시형태에 따라 컴퓨터 통신망을 통하여 사용자에게 제공하는 단계를 포함하여 이루어진다.That is, the method for collecting, processing, and displaying information using a computer communication network according to the present invention includes receiving a search word from a user through a computer communication network, and using the search word, a web document or a database including information indicated by the search word. Searching for; extracting information indicated by the search word from a searched web document or database; standardizing / formalizing the extracted information and storing the information in the form of a database; and displaying the information stored in the form of a database. Receiving an input from the user through, and providing the information stored in the form of a database to the user through a computer communication network according to the display form input from the user.

여기에서, 상기 정보를 표시할 형태를 사용자로부터 입력받는 단계에서는, 상기 정보를 포함하는 표, 상기 정보를 나타내는 그래프, 상기 정보를 포함하는 문장, 상기 정보를 포함하는 재가공 가능한 스프레드시트용 파일 중 적어도 하나를 포함하도록 사용자가 표시 형태를 직접 디자인할 수 있도록 하거나, 상기 정보를포함하는 다양한 표시 형태를 갖는 템플릿을 컴퓨터 통신망을 통하여 사용자에게 제공하고, 사용자가 상기 템플릿 중에서 원하는 것을 선택하도록 할 수 있다.Herein, in the step of receiving a form for displaying the information from the user, at least one of a table including the information, a graph representing the information, a sentence including the information, and a reprocessable spreadsheet file including the information The user may directly design the display form to include one, or provide a template having various display forms including the information to the user through a computer communication network, and allow the user to select one of the templates.

한편, 본 발명에 따른 컴퓨터 통신망을 이용한 정보 수집, 가공 및 표시 시스템은, 컴퓨터 통신망을 통하여 사용자로부터 입력된 검색어를 입력받는 입력부, 입력부로부터 검색어를 제공받아 상기 검색어가 지시하는 정보가 포함된 웹 문서 또는 데이터베이스를 검색하는 데이터 수집 엔진, 데이터 수집 엔진으로부터 검색된 웹 문서 또는 데이터베이스로부터 상기 검색어가 지시하는 정보를 추출하는 정보 추출부, 정보 추출부로부터 추출된 정보를 표준화/정형화하여 저장하는 데이터 처리부, 표준화/정형화된 정보를 저장하는 데이터베이스, 데이터베이스에 저장된 정보를 컴퓨터 통신망을 통하여 사용자에게 제공하는 표시부를 포함한다.On the other hand, the information collection, processing and display system using a computer communication network according to the present invention, an input unit for receiving a search word input from a user through a computer communication network, a web document that receives the search word from the input unit and includes the information indicated by the search word Or a data collection engine for searching a database, an information extraction unit for extracting information indicated by the search word from a web document or a database retrieved from the data collection engine, a data processing unit for standardizing / standardizing and storing the information extracted from the information extraction unit, and standardization A database for storing standardized information, and a display unit for providing the user with information stored in the database through a computer communication network.

여기에서, 정보 추출부는 검색된 상기 웹 문서로부터 HTML/XML 태그를 제거하고 정보가 포함된 부분만을 추출할 수 있는 HTML/XML 파서와 검색된 상기 웹 문서에 포함된 문장으로부터 상기 검색어가 지시하는 정보를 추출할 수 있는 자연어 처리부를 포함하는 것이 바람직하다.Here, the information extracting unit removes the HTML / XML tag from the searched web document and extracts the information indicated by the search word from a sentence included in the searched web document and an HTML / XML parser capable of extracting only a portion including the information. It is preferable to include a natural language processing unit capable of doing so.

이제 본 발명의 바람직한 실시예에 대하여 도면을 참고로 하여 상세히 설명한다.Preferred embodiments of the present invention will now be described in detail with reference to the drawings.

도 1은 본 발명의 컴퓨터 통신망을 이용한 정보 수집, 분석 및 가공 방법을 구현하는 전체 시스템의 구성을 나타내는 개략도이다.Figure 1 is a schematic diagram showing the configuration of the entire system for implementing the information collection, analysis and processing method using a computer communication network of the present invention.

본 발명의 정보 수집, 분석 및 가공 시스템(100)은 인터넷(170)을 통하여 다양한 인터넷 사이트(150)들과 사용자의 웹 브라우저(180)에 연결될 수 있으며, 사용자의 웹 브라우저(180)를 통해 사용자로부터 수집할 정보에 대한 검색어를 입력받아, 인터넷 사이트(150)로부터 정보를 수집하여, 데이터를 분석 및 가공한 후 사용자에게 제공한다. 또한, 본 발명의 시스템(100)은 미리 구축되어 있는 외부의 데이터베이스(160)들과 직접 또는 인터넷을 통해 연결될 수 있으며, 이와 같은 외부의 데이터베이스(160)들로부터 데이터를 수집할 수도 있다. 인터넷 사이트(150)나 외부 데이터베이스(160)와 같은 정보원으로부터 수집된 정보는 본 발명의 시스템(100) 내에서 통합적으로 처리된다.Information collection, analysis and processing system 100 of the present invention can be connected to various Internet sites 150 and the user's web browser 180 through the Internet 170, the user through the user's web browser 180 Receives a search word for the information to be collected from, collects information from the Internet site 150, analyzes and processes the data and provides it to the user. In addition, the system 100 of the present invention may be directly connected to external databases 160 that are built in advance or through the Internet, and may collect data from such external databases 160. Information collected from information sources such as Internet site 150 or external database 160 is integrated in the system 100 of the present invention.

본 발명의 시스템(100)은 크게 지능형 에이전트(110)와 데이터 처리부(120) 및 프리젠테이션 처리부(130)로 이루어져 있으며, 수집하여 처리한 정보를 저장하기 위한 데이터베이스(140)를 구비하고 있다.The system 100 of the present invention is largely composed of an intelligent agent 110, a data processor 120, and a presentation processor 130, and has a database 140 for storing collected and processed information.

지능형 에이전트(110)는 데이터 수집 및 분석에 관계한다. 지능형 에이전트(110)는 다시 인터넷 사이트들을 통해 원하는 데이터를 검색하여 수집하는 데이터 수집 엔진(111), 문장 등으로 이루어진 데이터를 처리하기 위한 자연어 처리 엔진(112), HTML(HyperText Markup Language) 문서 또는 XML(Extensible Markup Language) 문서로 된 데이터로부터 원하는 데이터를 추출하기 위한 HTML/XML 파서(113)로 구성되어 있으며, 지능형 에이전트(110)에 의해 수집되고 처리된 데이터는 데이터 처리부(120)로 전달된다.Intelligent agent 110 is involved in data collection and analysis. The intelligent agent 110 is again a data collection engine 111 for retrieving and collecting the desired data through Internet sites, natural language processing engine 112 for processing data consisting of sentences, HTML (HyperText Markup Language) documents or XML (Extensible Markup Language) It is composed of an HTML / XML parser 113 for extracting the desired data from the document data, the data collected and processed by the intelligent agent 110 is transmitted to the data processing unit 120.

데이터 처리부(120)는 지능형 에이전트(110)로부터 전달받은 데이터를 일정한 형태로 표준화/정형화하기 위한 데이터 표준/정형화부(121)와 이를 이용하여 데이터베이스를 생성하는 데이터베이스 생성부(122), 생성된 데이터베이스를 제어하기 위한 데이터베이스 제어부(123) 등으로 구성된다. 데이터베이스 생성부(122)에 의해 생성된 데이터베이스(140)는 사용자의 필요에 따라 언제든지 불러내어 사용될 수 있다.The data processing unit 120 includes a data standard / formulation unit 121 for standardizing / standardizing data received from the intelligent agent 110 in a predetermined form, and a database generation unit 122 for generating a database using the same. It consists of a database control unit 123 and the like for controlling. The database 140 generated by the database generator 122 may be called out and used at any time according to a user's needs.

데이터 처리부(120)에 의해 표준화/정형화되어 데이터베이스(140)에 저장된 데이터를 사용자에게 필요한 형태로 표시하는 것은 프리젠테이션 처리부(130)에 의해 처리된다. 프리젠테이션 처리부(130)는 다시 프리젠테이션 컴포넌트(131), html, XML, XSL 생성부(132), 문장 생성부(133) 등으로 구성되어, 사용자의 요청에 따라 원하는 형태의 프리젠테이션을 생성하고 이를 다시 사용자에게 제공한다.The presentation processing unit 130 processes the data standardized / formulated by the data processing unit 120 and stored in the database 140 in the form required by the user. The presentation processing unit 130 is composed of a presentation component 131, html, XML, XSL generation unit 132, sentence generation unit 133, etc., to generate a presentation of the desired form according to the user's request Provide it back to the user.

이제, 이와 같은 시스템을 이용하여 구현되는 본 발명의 컴퓨터 통신망을 이용한 정보 수집, 분석 및 가공 방법에 대해 설명한다.Now, the information collection, analysis and processing method using the computer communication network of the present invention implemented using such a system will be described.

도 2는 본 발명의 컴퓨터 통신망을 이용한 정보 수집, 분석 및 가공 방법을 나타내는 흐름도이다.2 is a flowchart illustrating a method for collecting, analyzing and processing information using a computer communication network of the present invention.

먼저, 사용자는 원하는 정보를 찾기 위해 검색어를 입력하고, 검색 대상을 선정한다(S210). 검색어는 단어나 문장으로 입력할 수 있으며, 검색대상은 웹 문서, 기존의 지식관리 시스템(KMS; Knowledge Management System)이나 기타 데이터베이스를 복수로 지정할 수있다. 웹 문서의 경우 특정 사이트를 지정하여 검색할 수도 있다. 사용자가 검색 대상을 지정하지 않는 경우, 디폴트로 검색할 검색 대상을 미리 지정해둘 수도 있다. 예를 들면, 사용자는 "중국의 인터넷 광고시장 규모는?"과 같은 질문을 검색어로 입력할 수 있다.First, a user inputs a search word to find desired information and selects a search target (S210). Search terms can be entered as words or sentences, and the search target can specify a plurality of web documents, existing knowledge management systems (KMS) or other databases. For web documents, you can also search by specifying a specific site. If you do not specify a search target, you can predefine a search target by default. For example, a user may enter a question such as "what is the size of the Internet advertising market in China?" As a search term.

사용자가 검색어와 검색 대상을 입력하면, 이를 이용해 검색 대상으로 지정된 웹 문서, 컨텐츠 데이터베이스, 기존 데이터베이스 등을 검색하여 필요한 정보를 수집한다(S220). 이러한 정보 수집 과정은 지능형 에이전트(110) 내의 데이터 수집 엔진(111)을 통해 하게 되는데, 이는 운영자가 웹 문서를 반복적으로 검색하여 규칙(rule)을 정의하고 이를 학습시키는 방식으로 수행된다. 이러한 방식은 종래의 검색 엔진(로봇) 등에 이미 구현되어 있으며, 이와 같은 알려진 방법을 사용하여 데이터를 수집할 수 있다. 예를 들면, 가격비교 사이트의 경우, 특정 쇼핑몰의 가격정보가 있는 링크들을 서퍼가 추적하고 이 규칙을 검색 에이전트에 학습시켜, 검색 에이전트가 규칙을 따라 링크를 추적하여 가격 정보를 가져오도록 하고 있는데, 본 발명의 데이터 수집 단계에서도 이와 같은 방식을 통해 데이터를 수집할 수 있다.When a user inputs a search word and a search target, the user searches for a web document, a content database, an existing database, etc., designated as a search target, and collects necessary information (S220). This information collection process is performed through the data collection engine 111 in the intelligent agent 110, which is performed by the operator repeatedly searching the web document to define rules and learn them. This approach has already been implemented in conventional search engines (robots) and the like, and this known method can be used to collect data. For example, in a price comparison site, a surfer tracks links with price information for a specific shopping mall and learns this rule from the search agent, so that the search agent tracks the link according to the rule to get price information. In the data collection step of the present invention can also collect data in this manner.

다음 단계는 검색된 다양한 형태의 정보들로부터 원하는 정보를 분석하고 추출해내는 것이다(S230). 이 단계에서는 자연어 처리 엔진(112)이나 HTML/XML 파서(113) 등이 이용된다. 즉, 필요한 경우 웹 문서에 HTML/XML 파싱(parsing) 기술을 적용하여 HTML/XML 태그를 제외하고 필요한 데이터만을 추출해내고, 검색어와 동일/유사어로 검색된 내용이 들어있는 텍스트, 문서, 파일, 데이터베이스 내의 데이터에서 해당문장의 구조를 시멘틱(semantic) 알고리즘을 적용하여 그 의미를 분석한다.The next step is to analyze and extract the desired information from the various types of information retrieved (S230). In this step, the natural language processing engine 112, the HTML / XML parser 113, or the like is used. In other words, if necessary, HTML / XML parsing technology is applied to a web document to extract only the necessary data except HTML / XML tags, and within the text, documents, files, and databases that contain the same or similar search terms. The semantic algorithm is applied to the structure of the sentence in the data to analyze its meaning.

도 3에 본 발명의 두번째와 세번째 단계를 통해 정보를 수집하고 추출하는 과정이 나타나 있다. 도 3에 나타난 바와 같이, 본 발명의 정보 수집, 분석 및 가공 시스템은 웹 문서들을 검색하여 사용자가 입력한 검색어("중국의 인터넷 광고시장 규모는?")에 해당하는 문서들을 찾아낸 후, 해당 문서로부터 필요한 데이터를 추출한다. 즉, 도 3에 나타난 예에서는 중국의 인터넷 광고시장 규모에 대한 정보가 있는 세 개의 웹 문서를 검색하였으며, 그 문서 중 첫번째 문서에서는 중국의 인터넷 광고 시장규모를 나타내는 표를 추출하고, 두번째와 세번째 문서에서는 기사 중 해당 수치를 나타내는 부분을 추출한다.3 shows a process of collecting and extracting information through the second and third steps of the present invention. As shown in FIG. 3, the information collection, analysis, and processing system of the present invention searches for web documents, finds documents corresponding to a search word entered by a user (“what is the scale of the Internet advertising market in China?”), And then searches for the corresponding documents. Extract necessary data from That is, in the example shown in FIG. 3, three web documents containing information on the size of the Internet advertising market in China were searched. In the first document, a table representing the size of the Internet advertising market in China was extracted, and the second and third documents were searched. Extracts the part of the article that represents that number.

이와 같이 추출된 데이터는 데이터 처리부로 전달되어 표준화/정형화되고 데이터베이스에 저장된다(S240). 데이터의 표준화/정형화는 예를 들면 검색된 데이터의 소스에 따라 달리 구성되어 있는 숫자 데이터의 단위를 통일하거나(예를 들면 중국의 화폐 단위인 인민폐(rmb) 단위로 되어 있는 데이터를 불($) 단위로 고치는 등), 문자로 표시된 데이터를 숫자로 바꾸는(예를 들면, "이천불"로 표시된 데이터를 "2,000$"로 고치는 등) 등의 작업이 될 수 있다. 또한, 추출된 데이터의 문자, 숫자 등을 분리하여 구조에 따라 데이터베이스를 생성하여 정형화된 형태로 데이터를 저장한다. 이러한 과정의 예가 도 4에 나타나 있다. 도 4에 나타난 바와 같이, 각각 표와 기사의 형태로 나타나 있던 중국의 인터넷 광고시장 규모에 대한 정보가 연도별 시장규모를 나타내는 데이터베이스의 형태로 표준화/정형화되어 데이터베이스에 저장된다.The extracted data is transferred to the data processor and standardized / formulated and stored in the database (S240). The standardization / formalization of data, for example, unites numeric data units that are organized differently depending on the source of the retrieved data (for example, in units of renminbi (rmb), the Chinese currency, in units of dollars). , Etc.), converting data represented by characters into numbers (eg, modifying data displayed as "two thousand dollars" to "2,000 $", etc.). In addition, by separating the letters, numbers, and the like of the extracted data to create a database according to the structure to store the data in a formal form. An example of this process is shown in FIG. 4. As shown in Figure 4, the information on the size of the Internet advertising market in China, which is shown in the form of tables and articles, respectively, is standardized and standardized in the form of a database representing the market size by year and stored in the database.

한편, 사용자가 요구한 정보가 기존에 이미 보관되어 있는 데이터베이스 내에 존재할 수도 있다. 이 경우에는 이 정보를 검색하여 추출한 정보에 덧붙일 수 있다. 도 5는 기존 데이터베이스 내에 미리 저장되어 있는 해외 온라인 광고시장규모 자료를 나타낸다.Meanwhile, the information requested by the user may exist in a database that is already stored. In this case, this information can be retrieved and added to the extracted information. Figure 5 shows the overseas online advertising market scale data previously stored in the existing database.

다음, 사용자는 자신이 검색하기를 원하는 정보의 표시 형태를 선택한다 (S250). 즉, 도 4에 나타난 바와 같은 형태의 매체별/연도별 데이터를 그대로 표로 표시할 수도 있지만, 사용자의 요청에 따라서는 가로축과 세로축을 바꾸어 연도별/매체별의 표로 표시하거나, 매체별로 검색된 시장규모의 평균값을 추가하거나 하는 등으로 표시할 수 있다. 또한, 필요에 따라서는, 데이터베이스에서 데이터를 선택한 후 원하는 표현형태에 맞게 가공(예를 들면, 수식 계산(예를 들면, 월 단위로 표시된 양을 연 단위로 고치는 등))할 수도 있다. 그밖에도, 도 5에 나타나 있는 바와 같은 기존의 데이터베이스를 이용하여 검색을 통해 얻은 정보와 기존 정보를 통합하여 표시하도록 할 수 있다.Next, the user selects a display form of the information he wants to search (S250). That is, although the data for each media / year as shown in FIG. 4 may be displayed as a table as it is, according to a user's request, the horizontal and vertical axes may be displayed as a table for each year / media or the market size searched for each media. It can be displayed by adding or adding the average value of. In addition, if necessary, data may be selected from a database, and then processed according to a desired representation (for example, mathematical calculation (for example, the amount displayed in units of months) may be modified. In addition, by using the existing database as shown in FIG. 5, the information obtained through the search and the existing information may be integrated and displayed.

또한, 검색된 정보로 웹 화면이나 보고서를 생성할 때, 웹 화면이나 보고서를 어떠한 형태로 꾸밀 것인지를 사용자가 선택할 수 있다. 이러한 과정은 다양한 템플릿을 사용자에게 제공하고 이들 중에서 사용자가 원하는 것을 선택하도록 하거나, 표, 그래프, 스프레드시트 등의 조합 및 배치를 사용자가 직접 디자인하도록 할 수도 있다.In addition, when generating a web screen or a report with the retrieved information, the user may select how to decorate the web screen or the report. This process may provide a variety of templates to the user and allow the user to choose among them, or allow the user to design combinations and layouts of tables, graphs, spreadsheets, and the like.

이제, 마지막으로 사용자가 요청하는 형태에 따라 정보를 표시한다(S260).Now, finally, information is displayed according to the form requested by the user (S260).

사용자에게 표시하는 형태는 앞서 S250 단계에서 사용자에 의해 선택된 대로 웹 화면이나 결과 리포트, 스프레드시트 파일 등 다양한 형태가 될 수 있다. ActiveX 컴포넌트를 이용할 경우, 그리드(grid), 그래프, 보고서, MS-Excel 과 같은 스프레드시트와의 연동이 가능한 형태 등 다양한 표시 형태를 구현할 수 있다.The form displayed to the user may be various forms such as a web screen, a result report, a spreadsheet file, and the like, as selected by the user in step S250. When using ActiveX components, various display forms such as grids, graphs, reports, and spreadsheets such as MS-Excel can be implemented.

도 6 내지 도 8은 본 발명의 마지막 단계에서 수집한 정보를 다양한 형태로 사용자에게 표시해주는 것을 나타내는 도면이다. 도 6에서는 정보 수집 결과를 표와 그래프를 포함하는 웹 화면으로 표시해주고 있으며, 도 7은 수집한 정보를 이용하여 자동으로 생성된 전략보고서를 나타내고, 도 8은 수집한 정보를 재처리가능한 스프레드시트 파일(예를 들면 MS Excel)로 포스팅한 것을 나타내고 있다.6 to 8 are diagrams showing the information collected in the last step of the present invention to the user in various forms. In FIG. 6, the information collection result is displayed on a web screen including a table and a graph. FIG. 7 shows a strategy report automatically generated using the collected information. FIG. 8 shows a spreadsheet capable of reprocessing the collected information. This shows posting to a file (eg MS Excel).

보고서를 생성할 때에는, 문장으로부터 원하는 정보를 추출하는 것의 역순으로, 추출되어 데이터베이스에 저장된 정보를 바탕으로 필요한 문장을 생성하여 보고서에 포함되도록 할 수도 있다.When generating the report, in the reverse order of extracting the desired information from the sentence, it is also possible to generate the necessary sentence based on the information extracted and stored in the database to be included in the report.

이와 같이 본 발명에서는 단순한 인덱스/링크 정보만을 제공하는 검색 엔진의 경우와 달리 비교/분석/가공된 지식정보를 사용자에게 제시하며, 기존의 기업 MIS, EIS 등의 시스템과 연동하여 전략적 지식 정보를 창출한다.As described above, unlike the case of a search engine that provides only index / link information, the present invention presents the compared / analyzed / processed knowledge information to the user, and creates strategic knowledge information by interworking with an existing system such as MIS or EIS. do.

지금까지 본 발명을 바람직한 실시예를 들어 구체적으로 설명하였으나, 이 실시예는 본 발명을 이해하기 위한 설명을 위해 제시된 것이며, 본 발명의 범위가 이 실시예에 제한되는 것은 아니다. 본 발명의 기술이 속하는 분야의 통상의 전문가라면 본 발명의 기술적 사상의 범위를 벗어나지 않고도 다양한 변형이 가능함을 이해할 수 있을 것이며, 본 발명의 범위는 첨부된 특허청구범위에 의해서 해석되어야 할 것이다.Although the present invention has been described in detail with reference to preferred embodiments, this embodiment has been presented for the purpose of understanding the present invention, and the scope of the present invention is not limited to this embodiment. It will be understood by those skilled in the art that various modifications can be made without departing from the scope of the technical idea of the present invention, and the scope of the present invention should be interpreted by the appended claims.

이와 같이 본 발명에 따르면, 정보 검색에 드는 시간과 노력을 획기적으로절약할 수 있으며, 검색 결과의 품질을 향상시킬 수 있고, 또한 기존의 컨텐츠 서비스 업체나, 포탈 사이트의 경우 별도의 수작업에 의한 컨텐츠 수집 가공 업무를 줄이고, 서비스 운영 비용을 절약할 수 있다.As described above, according to the present invention, time and effort required for information retrieval can be drastically reduced, and the quality of the search results can be improved, and in the case of existing content service companies or portal sites, content by separate manual work is required. It can reduce the collection processing work and save the service operation cost.

또한, 가공된 데이터를 시각적인 형태로 자동으로 보여주므로, 직관적인 의사결정이 가능하고, 리포트 형태의 표시 방법을 이용하면 별도의 보고서 작성 업무를 줄일 수 있다.In addition, since the processed data is automatically shown in a visual form, intuitive decision making is possible, and a report form display method can be used to reduce an additional report writing task.

Claims (7)

컴퓨터 통신망을 통하여 사용자로부터 검색어를 입력받는 단계,Receiving a search word from a user through a computer communication network, 상기 검색어를 이용하여 상기 검색어가 지시하는 정보가 포함된 웹 문서 또는 데이터베이스를 검색하는 단계,Searching a web document or a database including information indicated by the search word using the search word, 검색된 상기 웹 문서 또는 데이터베이스로부터 상기 검색어가 지시하는 정보를 추출하는 단계,Extracting information indicated by the search word from the searched web document or database; 상기 추출된 정보를 표준화/정형화하여 데이터베이스의 형태로 저장하는 단계,Standardizing / standardizing the extracted information and storing the extracted information in the form of a database; 데이터베이스의 형태로 저장된 상기 정보를 표시할 형태를 컴퓨터 통신망을 통하여 사용자로부터 입력받는 단계,Receiving an input from a user through a computer communication network to display the information stored in the form of a database; 데이터베이스의 형태로 저장된 상기 정보를 상기 사용자로부터 입력된 표시형태에 따라 컴퓨터 통신망을 통하여 사용자에게 제공하는 단계를 포함하는 컴퓨터 통신망을 이용한 정보 수집, 가공 및 표시 방법.And providing the information stored in the form of a database to a user through a computer communication network in accordance with a display form input from the user. 제 1 항에 있어서,The method of claim 1, 상기 정보를 표시할 형태를 사용자로부터 입력받는 단계에서는,In the step of receiving a form to display the information from the user, 상기 정보를 포함하는 표, 상기 정보를 나타내는 그래프, 상기 정보를 포함하는 문장, 상기 정보를 포함하는 재가공 가능한 스프레드시트용 파일 중 적어도 하나를 포함하도록 사용자가 표시 형태를 직접 디자인할 수 있는 컴퓨터 통신망을이용한 정보 수집, 가공 및 표시 방법.A computer communication network in which a user can directly design a display form to include at least one of a table including the information, a graph representing the information, a sentence containing the information, and a file for a reprocessable spreadsheet containing the information. Information collection, processing and display methods used. 제 1 항에 있어서,The method of claim 1, 상기 정보를 표시할 형태를 사용자로부터 입력받는 단계에서는,In the step of receiving a form to display the information from the user, 상기 정보를 포함하는 다양한 표시 형태를 갖는 템플릿을 컴퓨터 통신망을 통하여 사용자에게 제공하고, 사용자가 상기 템플릿 중에서 원하는 것을 선택하는 컴퓨터 통신망을 이용한 정보 수집, 가공 및 표시 방법.A method for collecting, processing, and displaying information using a computer communication network that provides a user with a template having various display forms including the information to a user through a computer communication network, and selects a desired one among the templates. 컴퓨터 통신망을 통하여 사용자로부터 입력된 검색어를 입력받는 입력부,An input unit for receiving a search word input from a user through a computer communication network, 상기 입력부로부터 상기 검색어를 제공받아 상기 검색어가 지시하는 정보가 포함된 웹 문서 또는 데이터베이스를 검색하는 데이터 수집 엔진,A data collection engine receiving the search word from the input unit and searching a web document or a database including information indicated by the search word, 상기 데이터 수집 엔진으로부터 검색된 상기 웹 문서 또는 데이터베이스로부터 상기 검색어가 지시하는 정보를 추출하는 정보 추출부,An information extraction unit for extracting information indicated by the search word from the web document or database retrieved from the data collection engine; 상기 정보 추출부로부터 추출된 정보를 표준화/정형화하여 저장하는 데이터 처리부,A data processor for standardizing / standardizing and storing information extracted from the information extracting unit; 표준화/정형화된 상기 정보를 저장하는 데이터베이스,A database for storing the standardized / formalized information, 상기 데이터베이스에 저장된 정보를 컴퓨터 통신망을 통하여 사용자에게 제공하는 표시부를 포함하는 컴퓨터 통신망을 이용한 정보 수집, 가공 및 표시 시스템.Information collection, processing and display system using a computer communication network comprising a display unit for providing a user with information stored in the database through a computer communication network. 제 4 항에 있어서,The method of claim 4, wherein 상기 표시부는, 사용자가 상기 정보를 시각적으로 인식할 수 있도록, 상기 정보를 포함하는 표, 상기 정보를 나타내는 그래프, 상기 정보를 포함하는 문장 중 적어도 하나를 포함하는 형태로 상기 정보를 표시하여 제공하는 컴퓨터 통신망을 이용한 정보 수집, 가공 및 표시 시스템.The display unit displays and provides the information in a form including at least one of a table including the information, a graph representing the information, and a sentence including the information so that a user visually recognizes the information. Information collection, processing and display system using computer network. 제 4 항에 있어서,The method of claim 4, wherein 상기 표시부는, 상기 정보를 재가공할 수 있는 스프레드시트용 파일로 사용자에게 제공하는 컴퓨터 통신망을 이용한 정보 수집, 가공 및 표시 시스템.The display unit, information collection, processing and display system using a computer communication network that provides the user with a spreadsheet file that can be processed again. 제 4 항에 있어서,The method of claim 4, wherein 상기 정보 추출부는, 검색된 상기 웹 문서로부터 HTML/XML 태그를 제거하고 정보가 포함된 부분만을 추출할 수 있는 HTML/XML 파서와 검색된 상기 웹 문서에 포함된 문장으로부터 상기 검색어가 지시하는 정보를 추출할 수 있는 자연어 처리부를 포함하는 컴퓨터 통신망을 이용한 정보 수집, 가공 및 표시 시스템.The information extracting unit may extract information indicated by the search word from an HTML / XML parser capable of removing an HTML / XML tag from the searched web document and extracting only a part including information and a sentence included in the searched web document. Information collection, processing and display system using a computer communication network including a natural language processing unit.
KR1020010002853A 2001-01-18 2001-01-18 Method and system for data gathering, processing and presentation using computer network KR20020061443A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020010002853A KR20020061443A (en) 2001-01-18 2001-01-18 Method and system for data gathering, processing and presentation using computer network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020010002853A KR20020061443A (en) 2001-01-18 2001-01-18 Method and system for data gathering, processing and presentation using computer network

Publications (1)

Publication Number Publication Date
KR20020061443A true KR20020061443A (en) 2002-07-24

Family

ID=27692064

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010002853A KR20020061443A (en) 2001-01-18 2001-01-18 Method and system for data gathering, processing and presentation using computer network

Country Status (1)

Country Link
KR (1) KR20020061443A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030017267A (en) * 2001-08-24 2003-03-03 (주) 시온텍 Method of building the database using automatically file-storing system
WO2004044774A1 (en) * 2002-11-12 2004-05-27 Jeong-Bum Pyun Data searching method and information data scrapping method using internet
KR100922699B1 (en) * 2007-07-03 2009-10-20 주식회사 엔씨소프트 Method of real-time modifying drag and dropped data or pasted data while maintaining security and usability in web browser and apparatus thereof
KR20140147438A (en) 2013-06-20 2014-12-30 에스케이플래닛 주식회사 An apparatus, method and recording medium for Markup parsing
WO2018139778A1 (en) * 2017-01-24 2018-08-02 김훈 Numerical information management device enabling numerical information search
WO2018139777A1 (en) * 2017-01-24 2018-08-02 김훈 Numerical information management device using data structure

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030017267A (en) * 2001-08-24 2003-03-03 (주) 시온텍 Method of building the database using automatically file-storing system
WO2004044774A1 (en) * 2002-11-12 2004-05-27 Jeong-Bum Pyun Data searching method and information data scrapping method using internet
KR100922699B1 (en) * 2007-07-03 2009-10-20 주식회사 엔씨소프트 Method of real-time modifying drag and dropped data or pasted data while maintaining security and usability in web browser and apparatus thereof
KR20140147438A (en) 2013-06-20 2014-12-30 에스케이플래닛 주식회사 An apparatus, method and recording medium for Markup parsing
WO2018139778A1 (en) * 2017-01-24 2018-08-02 김훈 Numerical information management device enabling numerical information search
WO2018139777A1 (en) * 2017-01-24 2018-08-02 김훈 Numerical information management device using data structure
US11354519B2 (en) 2017-01-24 2022-06-07 Hoon Kim Numerical information management device enabling numerical information search

Similar Documents

Publication Publication Date Title
US9659071B2 (en) Patent mapping
US9092417B2 (en) Systems and methods for extracting data from a document in an electronic format
US8005815B2 (en) Search engine
AU2021212025B2 (en) Intelligent question answering on tabular content
US20090138466A1 (en) System and Method for Search
US20090228777A1 (en) System and Method for Search
US20030208502A1 (en) Method for determining a logical structure of a document
US20060101332A1 (en) Virtual tags and the process of virtual tagging
JPH07325827A (en) Automatic hyper text generator
WO2001050349A1 (en) Electronic document customization and transformation utilizing user feedback
WO2011095988A2 (en) A system and method for extraction of structured data from arbitrarily structured composite data
US20060155662A1 (en) Sentence classification device and method
KR102107474B1 (en) Social issue deduction system and method using crawling
EP1774432A2 (en) Patent mapping
AU2012200701B2 (en) Patent Mapping
CA2794763C (en) System for use in editorial review of stored information
CN115344666A (en) Policy matching method, device, equipment and computer readable storage medium
CN112199960B (en) Standard knowledge element granularity analysis system
JP2006309347A (en) Method, system, and program for extracting keyword from object document
CN101782924A (en) Information processing method, information processing apparatus, and program
KR20020061443A (en) Method and system for data gathering, processing and presentation using computer network
JPH01304575A (en) Document processing device
KR101078966B1 (en) System for analyzing documents
JP4119413B2 (en) Knowledge information collection system, knowledge search system, and knowledge information collection method
Werner et al. Enhanced information retrieval by using HTML tags

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application