KR101556743B1 - Apparatus and method for generating poi information based on web collection - Google Patents

Apparatus and method for generating poi information based on web collection Download PDF

Info

Publication number
KR101556743B1
KR101556743B1 KR1020140041120A KR20140041120A KR101556743B1 KR 101556743 B1 KR101556743 B1 KR 101556743B1 KR 1020140041120 A KR1020140041120 A KR 1020140041120A KR 20140041120 A KR20140041120 A KR 20140041120A KR 101556743 B1 KR101556743 B1 KR 101556743B1
Authority
KR
South Korea
Prior art keywords
poi
web
mapping
web data
collection
Prior art date
Application number
KR1020140041120A
Other languages
Korean (ko)
Inventor
박성찬
이광준
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020140041120A priority Critical patent/KR101556743B1/en
Application granted granted Critical
Publication of KR101556743B1 publication Critical patent/KR101556743B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

An apparatus for generating point-of-interest (POI) information based on web collection includes: a POI information index DB which stores index information of POI information categorized by each ID; a collection unit which collects web data from a plurality of web sites; an extraction unit which extracts POI information from the web data collected by the collection unit; a mapping unit which maps web data, including the extracted POI information, with an obtained ID if obtaining the ID, mapped with the POI information extracted by the extraction unit, from the POI index DB; and a mapping database which stores a mapping relation between the web data and the obtained ID. During a search for the POI information upon user′s request, the web data, mapped with the ID of the POI information, are also searched.

Description

웹 수집에 기반한 관심 정보 생성 장치 및 그 방법{APPARATUS AND METHOD FOR GENERATING POI INFORMATION BASED ON WEB COLLECTION}[0001] APPARATUS AND METHOD FOR GENERATING POINT INFORMATION BASED ON WEB COLLECTION [0002]

본 발명은 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법에 관한 것이다.The present invention relates to an apparatus and method for generating interest information based on web collection.

일반적으로 관심 정보(POI, Point Of Interest)는 주요 시설물, 역, 공항, 터미널, 호텔 등을 좌표로 전자 수치지도에 표시하는 데이터를 말한다. Point of Interest (POI) refers to data that is displayed on an electronic map with coordinates of major facilities, stations, airports, terminals, hotels, and so on.

종래에 관심 정보(POI)의 메타 데이터를 취득하기 위해서는 먼저 상호명, 주소, 전화번호가 등재된 DB를 참고해야 한다. 그러나 상호명, 주소, 전화번호 이외의 도메인 의존적인 메타데이터의 수집은 DB로 제공되지 않는다. 따라서, 직접 현장을 방문하여 지도정보를 수집하는 방식으로 반드시 수작업에 의존해야 하므로, 인력 및 비용의 소모가 크다. 게다가 시시각각 변화하는 관심 정보(POI)의 대응이 늦을 수 밖에 없어 관심 정보(POI)의 빠른 변화 주기에 효과적으로 대응하지 못하여 적절한 시점에 서비스 제공이 용이하지 않다는 문제가 있다.Conventionally, in order to acquire meta data of interest information (POI), first, a DB containing a business name, an address, and a telephone number should be referred to. However, collection of domain-dependent metadata other than business name, address, and telephone number is not provided in DB. Therefore, it is necessary to manually rely on the method of collecting map information by directly visiting the site, which consumes manpower and cost. In addition, there is a problem that it is not easy to provide services at an appropriate time because it is difficult to cope with rapidly changing period of interest information (POI) because the correspondence of interest information (POI) which changes every moment is inevitably late.

따라서, 본 발명이 이루고자 하는 기술적 과제는 웹 데이터들로부터 관심 정보(POI) 관련 메타 정보를 자동으로 추출하여 데이터베이스화할 수 있는 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법을 제공하는 것이다.SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide an apparatus and method for generating interest information based on web collection, which can automatically extract meta information related to POI from web data and database it.

본 발명의 하나의 특징에 따르면, 웹 수집에 기반한 관심 정보 생성 장치 는 아이디 별로 구분된 관심 정보(POI, Point of Interest)의 색인 정보를 저장하는 관심 정보(POI) 색인 DB, 복수의 웹 사이트로부터 각각의 웹 데이터를 수집하는 수집부, 상기 수집부가 수집한 웹 데이터로부터 관심 정보(POI)를 추출하는 추출부, 상기 추출부가 추출한 관심 정보(POI)에 매핑된 아이디를 상기 관심 정보(POI) 색인 DB로부터 획득하면, 획득한 아이디에 상기 추출한 관심 정보가 포함된 웹 데이터를 맵핑하는 맵핑부, 그리고 상기 웹 데이터와 상기 획득한 아이디 간의 맵핑 관계가 저장되는 맵핑 데이터베이스를 포함하고,According to an aspect of the present invention, an apparatus for generating interest information based on web collection includes a POI index DB for storing index information of interest information (POI) classified by ID, (POI) extracted from the web data collected by the collecting unit, and an ID mapped to the interest information (POI) extracted by the extracting unit, A mapping unit for mapping the web data including the extracted interest information to the obtained ID when acquired from the DB, and a mapping database for storing a mapping relation between the web data and the acquired ID,

사용자 요청에 따른 관심 정보(POI) 검색시 상기 관심 정보(POI)의 아이디에 맵핑된 상기 웹 데이터가 함께 검색될 수 있다.The web data mapped to the ID of the POI may be searched together with the search for POI according to a user request.

상기 웹 사이트는 사용자가 자신의 관심사에 따라 글을 업로드할 수 있는 환경을 제공하고,The web site provides an environment in which a user can upload a post according to his / her interests,

상기 각각의 웹 데이터는 상기 사용자가 자신의 관심사에 따라 등록한 글들을 포함할 수 있다.Each of the web data may include articles registered by the user according to his / her interests.

상기 수집부는,Wherein,

상기 수집한 웹 데이터로부터 제목, 본문, 유알엘(Uniform Resource Locator), 수집 날짜, 작성 날짜, 지도 여부에 해당하는 웹 데이터를 필터링 추출하는 수집 모듈, 그리고 상기 수집 모듈이 필터링 추출한 웹 데 이터를 상기 맵핑 데이터베이스에 저장하는 DB 관리 모듈을 포함할 수 있다.A collection module for filtering and extracting web data corresponding to a title, a body, a URL (Uniform Resource Locator), a collection date, a creation date, and a map from the collected web data; And a DB management module for storing the data in a database.

상기 수집 모듈은,Wherein the acquisition module comprises:

수집 대상 유알엘, 수집 링크 패턴 설정, 수집 필드 패턴을 포함하는 사용자에 의해 사전 설정된 웹 수집 설정 기능에 따라 상기 웹 데이터를 수집 및 필터링 추출할 수 있다.The web data can be collected, filtered, and extracted according to a web collection setting function preset by a user including a collection target URL, a collection link pattern setting, and a collection field pattern.

상기 수집부는,Wherein,

상기 수집한 웹 데이터에 이미지 태그가 포함된 경우, 이미지 태그 유알엘을 추출하여 상기 DB 관리 모듈을 통해 상기 맵핑 데이터베이스에 저장하고, 상기 본문 텍스트와 이미지 위치에 상기 추출한 이미지 태그 유알엘을 표시하는 이미지 파싱 모듈을 더 포함할 수 있다.An image parsing module for extracting an image tag URL and storing the image tag URL in the mapping database through the DB management module when the image tag is included in the collected web data, As shown in FIG.

상기 이미지 파싱 모듈은,The image parsing module comprising:

상기 맵핑 데이터베이스의 이미지 플래그에 이미지 유알엘 추출을 알리는 값을 세팅할 수 있다.A value indicating an image URL extraction may be set in the image flag of the mapping database.

상기 수집부가 수집한 웹 데이터가 기 정의된 카테고리에 포함되는지 판단하는 판단부를 더 포함하고,Further comprising a determination unit for determining whether the web data collected by the collection unit is included in a predefined category,

상기 추출부는,The extracting unit extracts,

상기 기 정의된 카테고리에 포함되는 웹 데이터로부터 상기 관심 정보(POI)를 추출할 수 있다.The POI may be extracted from web data included in the predefined category.

상기 판단부는,Wherein,

상기 기 정의된 카테고리에 포함되면 상기 맵핑 데이터베이스의 카테고리 플래그를 포함 값으로 세팅하며, 상기 기 정의된 카테고리에 포함되지 않으면, 미포함 값으로 세팅할 수 있다.If the category is included in the predefined category, the category flag of the mapping database is set as the inclusion value. If the category flag is not included in the predefined category, the category flag may be set as the inclusion value.

상기 추출부는,The extracting unit extracts,

상기 맵핑 데이터베이스에 저장된 웹 데이터 중 상기 본문에 포함된 텍스트를 라인 단위로 배치하고, 배치된 텍스트에 대해 보조 용언 또는 조사를 제외한 명사만을 나열하는 전처리를 수행하는 전처리 모듈, 그리고 전처리된 텍스트 중에서 주소 및 전화번호에 태깅 처리하는 추출 모듈을 포함할 수 있다.A preprocessing module which preprocesses the texts included in the main body of the web data stored in the mapping database on a line basis and lists only nouns except for auxiliary words or surrogates for the arranged texts, And an extraction module for tagging the telephone number.

상기 추출 모듈은,Wherein the extraction module comprises:

상기 태깅 처리 후, 관심 정보(POI) 플래그에 상기 관심 정보(POI) 추출을 알리는 값을 세팅할 수 있다.After the tagging process, a value indicating the extraction of the POI may be set in the POI flag.

상기 맵핑부는,Wherein the mapping unit comprises:

상기 태깅 처리된 전화번호를 관심 정보(POI) 데이터 형식으로 변환하고, 상기 주소를 PNU 코드 형식으로 변환하는 주소 코드 변환 모듈, 그리고 변환된 전화번호 및 주소를 키워드로 하여 상기 관심 정보(POI) 색인 DB를 검색하여 상기 변환된 전화번호 및 주소에 대응하는 관심 정보(POI)의 아이디를 획득하고, 획득한 아이디를 상기 변환된 전화번호 및 주소가 추출된 웹 데이터에 맵핑하여 상기 맵핑 데이터베이스에 저장하는 맵핑 모듈을 포함할 수 있다.An address code conversion module for converting the tagged phone number into a POI data format and converting the address into a PNU code format, and a POI index Retrieves the DB, obtains the ID of the POI corresponding to the converted telephone number and address, maps the acquired ID to the converted web address and the extracted web address, and stores the ID in the mapping database Mapping module.

상기 맵핑 모듈은,Wherein the mapping module comprises:

상기 변환된 전화번호 및 주소에 대응하는 관심 정보(POI)의 아이디를 획득하면, 상기 관심 정보(POI) 플래그에 아이디 획득을 알리는 값을 세팅할 수 있다.Upon acquiring the ID of the POI corresponding to the converted telephone number and address, a value indicating the ID acquisition may be set in the POI flag.

또한, 관심 정보 생성 장치는 맵핑 웹 데이터 내역을 사용자가 관리할 수 있는 인터페이스를 제공하는 맵핑 관리부를 더 포함할 수 있다.In addition, the interest information generation apparatus may further include a mapping management unit for providing an interface through which the user can manage the mapping web data details.

본 발명의 다른 특징에 따르면, 웹 수집에 기반한 관심 정보(POI) 생성 방법은 웹 수집에 기반한 관심 정보(POI, Point of Interest) 생성 장치가 관심 정보(POI)를 생성하는 방법으로서, 상기 관심 정보(POI) 생성 장치가 복수의 웹 사이트로부터 각각의 웹 데이터를 수집하는 단계, 상기 웹 데이터로부터 추출한 관심 정보(POI)에 매핑된 아이디를 관심 정보(POI) 색인 DB로부터 획득하는 단계, 획득한 아이디에 상기 추출한 관심 정보가 포함된 웹 데이터를 맵핑하는 단계, 그리고 사용자 요청에 따른 관심 정보(POI) 검색시 상기 관심 정보(POI)의 아이디에 맵핑된 상기 웹 데이터가 함께 검색되는 단계를 포함한다.According to another aspect of the present invention, a method for generating POI based on web collection is a method for generating POI based on web collection, (POI) generating apparatus collects respective web data from a plurality of web sites, acquiring an ID mapped to interest information (POI) extracted from the web data from a POI index database, Mapping the web data including the extracted interest information to the POI and retrieving the web data mapped to the ID of the POI when retrieving POI according to a user request.

상기 수집하는 단계는,Wherein the collecting comprises:

상기 수집한 웹 데이터로부터 제목, 본문, 유알엘(Uniform Resource Locator), 수집 날짜, 작성 날짜, 지도 여부에 해당하는 웹 데이터를 필터링 추출하는 단계, 상기 웹 데이터가 기 정의된 카테고리에 포함되는지 판단하는 단계, 그리고 상기 기 정의된 카테고리에 포함되면, 상기 필터링 추출한 웹 데이터 중 상기 본문으로부터 주소 및 전화번호를 포함하는 상기 관심 정보(POI)를 추출하는 단계를 포함할 수 있다.Filtering and extracting web data corresponding to a title, a text, a Uniform Resource Locator (URL), a collection date, a creation date, and a map from the collected web data; determining whether the web data is included in a predefined category And extracting the POI including the address and the telephone number from the body of the extracted web data if the category is included in the predefined category.

상기 수집하는 단계는,Wherein the collecting comprises:

상기 수집한 웹 데이터에 이미지 태그가 포함된 경우, 이미지 태그 유알엘을 추출하여 상기 본문 텍스트와 이미지 위치에 상기 추출한 이미지 태그 유알엘을 표시하는 단계를 더 포함할 수 있다.And if the collected web data includes an image tag, extracting the image tag URL and displaying the extracted image tag advertisement at the image location and the body text.

상기 관심 정보(POI)를 추출하는 단계는,The step of extracting the POI (POI)

상기 본문에 포함된 텍스트를 라인 단위로 배치하고, 배치된 텍스트에 대해 보조 용언 또는 조사를 제외한 명사만을 나열하는 전처리를 수행하는 단계, 그리고 전처리된 텍스트 중에서 주소 및 전화번호에 태깅 처리하는 단계를 포함할 수 있다.Performing a preprocessing of arranging the texts included in the main text line by line and listing only nouns excluding the auxiliary verbs or the search for the arranged texts and tagging the addresses and telephone numbers of the preprocessed texts can do.

상기 맵핑하는 단계는,Wherein the mapping comprises:

상기 태깅 처리된 전화번호를 관심 정보(POI) 데이터 형식으로 변환하는 단계, 상기 주소를 PNU 코드 형식으로 변환하는 단계, 변환된 전화번호 및 주소를 키워드로 하여 상기 관심 정보(POI) 색인 DB를 검색하여 상기 변환된 전화번호 및 주소에 대응하는 관심 정보(POI)의 아이디를 획득하는 단계, 그리고 획득한 아이디를 상기 변환된 전화번호 및 주소가 추출된 웹 데이터에 맵핑하는 단계를 포함할 수 있다.Converting the tagged phone number into a POI data format, converting the address to a PNU code format, searching the POI index database using the converted phone number and address as keywords, Obtaining an ID of interest information (POI) corresponding to the converted telephone number and address, and mapping the obtained ID to the extracted web number and the converted telephone number and address.

본 발명의 실시예에 따르면, 관심 도메인으로부터 수집한 웹 데이터의 비정형 텍스트를 구조화하여 자동으로 다양한 형태의 관심 정보(POI) 관련 메타 정보를 추출하여 DB화 함으로써, 웹 콘텐츠를 기존의 관심 정보(POI) DB와 연동하여 각종 정보를 최신 상태로 유지할 수 있다.According to the embodiment of the present invention, unstructured text of web data collected from a domain of interest is structured to automatically extract various types of POI-related meta information and DB, ) It is possible to keep various information in up-to-date state in conjunction with DB.

도 1은 본 발명의 실시예에 따른 웹 수집에 기반한 관심 정보 생성 장치의 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 웹 수집에 기반한 관심 정보 생성 방법의 일련의 과정을 나타낸 순서도이다.
도 3은 도 1의 수집부의 세부 구성을 나타낸 블록도이다.
도 4는 도 3의 수집부의 한 실시예에 따른 동작을 나타낸 순서도이다.
도 5는 도 3의 수집부의 다른 실시예에 따른 동작을 나타낸 순서도이다.
도 6은 도 1의 판단부의 세부 구성을 나타낸 블록도이다.
도 7은 도 6의 판단부의 동작을 나타낸 순서도이다.
도 8은 도 1의 추출부의 세부 구성을 나타낸 블록도이다.
도 9는 도 8의 추출부의 동작을 나타낸 순서도이다.
도 10은 도 1의 맵핑부의 세부 구성을 나타낸 블록도이다.
도 11은 도 10의 맵핑부의 동작을 나타낸 순서도이다.
도 12는 도 1의 맵핑 관리부의 세부 구성을 나타낸 블록도이다.
도 13은 본 발명의 다른 실시예에 따른 웹 수집에 기반한 관심 정보 생성 장치의 개략적인 도면이다.
FIG. 1 is a block diagram illustrating a configuration of an interest information generation apparatus based on web collection according to an embodiment of the present invention. Referring to FIG.
FIG. 2 is a flowchart illustrating a series of processes for generating interest information based on web collection according to an embodiment of the present invention.
3 is a block diagram showing a detailed configuration of the collecting unit of FIG.
Figure 4 is a flow diagram illustrating operation according to one embodiment of the collector of Figure 3;
FIG. 5 is a flowchart showing an operation according to another embodiment of the collecting unit of FIG. 3; FIG.
6 is a block diagram showing the detailed configuration of the determination unit of FIG.
7 is a flowchart showing the operation of the determination unit of FIG.
8 is a block diagram showing a detailed configuration of the extracting unit of FIG.
9 is a flowchart showing the operation of the extracting unit of FIG.
10 is a block diagram showing the detailed configuration of the mapping unit of FIG.
11 is a flowchart showing the operation of the mapping unit of FIG.
12 is a block diagram showing the detailed configuration of the mapping management unit of FIG.
13 is a schematic diagram of a device for generating interest information based on web collection according to another embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when an element is referred to as "comprising ", it means that it can include other elements as well, without excluding other elements unless specifically stated otherwise.

또한, 명세서에 기재된 "…부", "…모듈" 의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Also, the terms of " part ", "... module" in the description mean units for processing at least one function or operation, which may be implemented by hardware or software or a combination of hardware and software.

이하, 도면을 참조로 하여 본 발명의 실시예에 따른 웹 수집에 기반한 관심 정보(POI, Point Of Interst) 생성 장치 및 그 방법에 대하여 상세히 설명한다.Hereinafter, a POI (point of interest) generation apparatus and method based on web collection according to an embodiment of the present invention will be described in detail with reference to the drawings.

본 발명의 실시예에 따른 웹 수집에 기반한 관심 정보 생성 장치는 웹 페이지 등을 마이닝하여 관심 정보(POI) 관련 메타데이터를 자동으로 추출하여 DB로 등록할 수 있어 관심 정보(POI) 기반의 지도, 검색, 추천 등 다양한 서비스가 가능해진다. The interest information generation apparatus based on the web collection according to the embodiment of the present invention can automatically extract the interest information (POI) related metadata by mining a web page, etc. and register the extracted interest information (POI) Search, and recommendation services.

도 1은 본 발명의 실시예에 따른 웹 수집에 기반한 관심 정보(POI) 생성 장치의 구성을 나타낸 블록도이다.1 is a block diagram illustrating a configuration of a POI generation apparatus based on web collection according to an embodiment of the present invention.

도 1을 참조하면, 관심 정보(POI) 생성 장치(1)는 수집부(100), 맵핑 데이터베이스(200), 판단부(300), 추출부(400), 맵핑부(500), 관심 정보(POI) 데이터베이스(600) 및 맵핑 관리부(700)를 포함한다.1, a POI generating apparatus 1 includes a collecting unit 100, a mapping database 200, a determining unit 300, an extracting unit 400, a mapping unit 500, (POI) database 600 and a mapping management unit 700.

여기서, 수집부(100), 판단부(300), 추출부(400), 맵핑부(500), 맵핑 관리부(700)는 하나의 프로세서(미도시) 내에 탑재되거나 별개의 프로세서로 구현될 수 있으며, 중앙처리 유닛(CPU)이나 기타 칩셋, 마이크로프로세서 등으로 구현될 수 있다. Here, the collecting unit 100, the determining unit 300, the extracting unit 400, the mapping unit 500, and the mapping management unit 700 may be implemented in a single processor (not shown) , A central processing unit (CPU) or other chipset, a microprocessor, or the like.

또한, 관심 정보(POI) 생성 장치(1)가 하나의 구성 요소로 구현되는 것으로 설명하였지만, 개별 서버 형태로 구현될 수도 있다. 이런 경우, 수집부(100)와 맵핑 관리부(700)는 하나의 서버에서 구현될 수도 있다. 또한, 판단부(300), 추출부(400), 맵핑부(500)가 하나의 서버로 구현되고 시멘틱 서버 형태로 구현될 수도 있다.In addition, although the POI generating apparatus 1 is described as being implemented as one component, it may be implemented as a separate server. In this case, the collection unit 100 and the mapping management unit 700 may be implemented in one server. In addition, the determination unit 300, the extraction unit 400, and the mapping unit 500 may be implemented as a single server and implemented as a semantic server.

그러면, 각 구성요소에 대해 설명하면 다음과 같다. 수집부(100)는 복수의 웹 사이트로부터 각각의 웹 데이터를 수집한다. 여기서, 웹 사이트는 사용자가 자신의 관심사에 따라 글을 업로드할 수 있는 환경을 제공하고, 각각의 웹 데이터는 사용자가 자신의 관심사에 따라 등록한 글들을 포함한다. 예컨대 웹 데이터는 블로그 데이터를 포함할 수 있다.Then, each component will be described as follows. The collecting unit 100 collects respective web data from a plurality of web sites. Here, the web site provides an environment in which the user can upload articles according to his / her interests, and each web data includes articles registered by the user in accordance with his / her interests. For example, web data may include blog data.

맵핑 데이터베이스(200)는 수집부(100)가 수집한 웹 데이터를 저장한다. 또한, 웹 데이터와 관심 정보(POI) 아이디 간의 맵핑 관계를 저장한다. 또한, 후술할 복수의 플래그(flag)를 저장한다.The mapping database 200 stores web data collected by the collecting unit 100. It also stores the mapping relationship between the web data and the POI ID. In addition, a plurality of flags to be described later are stored.

판단부(300)는 수집부(100)가 수집한 웹 데이터가 기 정의된 카테고리에 포함되는지 판단한다. 여기서, 카테고리는 맛집 블로그로 설정될 수 있으며, 수집한 웹 데이터가 맛집 관련 데이터인지를 판단 할 수 있다.The determination unit 300 determines whether the web data collected by the collection unit 100 is included in a predefined category. Here, the category may be set as a restaurant blog, and it can be determined whether the collected web data is restaurant-related data.

추출부(400)는 수집부(100)가 수집한 웹 데이터로부터 관심 정보(POI)를 추출한다. 여기서, 관심 정보(POI)는 주소, 전화번호를 포함할 수 있다.The extracting unit 400 extracts interest information (POI) from the web data collected by the collecting unit 100. Here, the POI may include an address and a telephone number.

맵핑부(500)는 추출부(400)가 추출한 관심 정보(POI)에 매핑된 아이디를 관심 정보(POI) 색인 DB(600)로부터 획득하면, 획득한 관심 정보(POI) 아이디에 추출한 관심 정보가 포함된 웹 데이터를 맵핑한다.The mapping unit 500 acquires interest information extracted from the interest information (POI) ID 600 obtained from the interest information (POI) index DB 600, which is mapped to the interest information (POI) extracted by the extracting unit 400 Map the included web data.

관심 정보(POI) 색인 DB(600)는 아이디 별로 구분된 관심 정보(POI)의 색인 정보를 저장한다. 그러면, 맵핑 데이터베이스(200)와 관심 정보(POI) 색인 DB(600)가 서로 연동하여 사용자 요청에 따른 관심 정보(POI) 검색시 관심 정보(POI)의 아이디에 맵핑된 웹 데이터가 함께 검색될 수 있다.The interest information (POI) index DB 600 stores index information of interest information (POI) classified by ID. Then, the mapping database 200 and the interest information (POI) index DB 600 are interlocked with each other and the web data mapped to the ID of the interest information (POI) is searched together with the interest information (POI) search according to the user request have.

맵핑 관리부(700)는 맵핑 웹 데이터 내역을 사용자가 관리할 수 있는 인터페이스를 제공한다. The mapping management unit 700 provides an interface through which the user can manage the mapping web data details.

도 2는 본 발명의 실시예에 따른 웹 수집에 기반한 관심 정보 생성 방법의 일련의 과정을 나타낸 순서도로서, 도 1의 구성과 연계하여 동일한 도면 부호를 사용하여 설명한다. FIG. 2 is a flowchart illustrating a series of steps of a method for generating interest information based on web collection according to an embodiment of the present invention. Referring to FIG.

도 2를 참조하면, 수집부(100)는 서로 다른 복수의 웹 사이트로부터 각각의 웹 데이터를 수집한다(S101).Referring to FIG. 2, the collecting unit 100 collects respective pieces of web data from a plurality of different web sites (S101).

수집부(100)는 S101 단계에서 수집한 웹 데이터로부터 사전 정의된 웹 정보만 추출하여 맵핑 데이터베이스(200)에 저장한다(S103).The collecting unit 100 extracts only predefined web information from the web data collected in step S101 and stores it in the mapping database 200 (S103).

이때, 수집부(100)는 사전 정의된 웹 정보 중에 이미지 유알엘(URL, Uniform Resource Locator)이 포함되었는지를 판단한다(S105).At this time, the collecting unit 100 determines whether the URL (Uniform Resource Locator) is included in the predefined web information (S105).

이미지 유알엘이 포함된 경우, 수집부(101)는 맵핑 데이터베이스(200)의 이미지 플래그(IMG_FLAG)를 '1'로 세팅한다(S107). 이때, 이미지 플래그(IMG_FLAG)의 초기값은 '0'으로 세팅되어 있다.If the image URL is included, the collecting unit 101 sets the image flag IMG_FLAG of the mapping database 200 to '1' (S107). At this time, the initial value of the image flag IMG_FLAG is set to '0'.

다음, 판단부(300)는 S103 단계에서 추출한 웹 정보가 사전 정의된 카테고리에 속하는지를 판단한다(S109). 예컨대 맛집 블로그인지를 판단할 수 있다.Next, the determination unit 300 determines whether the web information extracted in step S103 belongs to a predefined category (S109). For example, a restaurant blog.

판단부(300)는 사전 정의된 카테고리에 속한다고 판단되면, 카테고리 플래그를 '1'로 세팅(S111)하고, 사전 정의된 카테고리에 속하지 않다고 판단되면, 카테고리 플래그를 '-1'로 세팅(S113)한다.If it is determined that the category flag belongs to the predefined category, the category flag is set to '1' (S111). If it is determined that the category flag does not belong to the predefined category, the category flag is set to '-1' )do.

추출부(400)는 S103 단계에서 추출한 웹 정보들 중에서 관심 정보(POI)를 추출(S115)한 후, 관심 정보 플래그(POI DATA FLAG)를 '1'로 세팅한다(S117). 여기서, 관심 정보(POI)는 주소 및 전화번호를 포함한다. The extraction unit 400 extracts interest information POI from the web information extracted in step S103 and sets the interest information flag POI DATA FLAG to '1' (step S117). Here, the POI includes an address and a telephone number.

맵핑부(500)는 추출부(400)가 추출한 관심 정보(POI)를 PNU 코드로 변환한 후, 변환된 관심 정보(POI)와 매칭된 관심 정보 아이디(POI ID)를 관심 정보(POI) 색인 DB(600)로부터 검색하여 획득(S121)한 후, 관심 정보 플래그(POI DATA FLAG)를 '2'로 업데이트한다(S123). 여기서, PNU 코드는 시도코드(2자리), 시군구코드(3자리), 읍면동코드(3자리), 리 코드(2자리), 산 여부확인을 위한 코드(1자리), 본번 코드(4자리), 부번 코드(4자리)의 총 19자리로 구성되어 있다.The mapping unit 500 converts the interest information POI extracted by the extraction unit 400 into a PNU code and then converts the interest information POI corresponding to the converted interest information POI into a POI index (S121), and updates the interest information flag (POI DATA FLAG) to '2' (S123). Here, the PNU code includes a code (one digit), a main code (four digits), a code (three digits), an area code (three digits) , And an access code (4 digits).

또한, 맵핑부(500)는 S121 단계에서 획득한 관심 정보 아이디(POI ID)를 S103 단계에서 추출한 웹 정보와 맵핑(S125)하여 맵핑 데이터베이스(200)에 등록한다(S127).In step S127, the mapping unit 500 maps the interest information ID (POI ID) acquired in step S121 to the web information extracted in step S103 (S125) and registers it in the mapping database 200 (S127).

이렇게 하면, 네이버, 다음, 네이트, 티스토리의 맛집 블로그에서 추출한 주소, 전화번호 정보를 이용하여 관심 정보(POI)에 해당 블로그 정보를 맵핑ㅇ저장 관리할 수 있다. 특히, 레스토랑의 경우, 메타 데이터의 예를 들면 상호명, 업종, 메뉴, 영업시간, 기타 정보, 평판 등이며 이를 집계하면 신뢰성 문제를 해결하고 기존의 DB 정보 이외에 사용자 선호도, 랭킹 등 추가적인 정보를 관심 정보(POI)로 등록할 수 있다. In this way, it is possible to map and store the blog information in the POI using addresses and phone numbers extracted from Naver, Daum, Nate, and Taste's blog. In particular, in the case of a restaurant, the reliability problem is solved by collecting the metadata such as business name, business type, menu, business hours, other information, and reputation, and additional information such as user preference, ranking, (POI).

그러면, 도 1 및 도 2를 통해 설명한 구성에 대해 좀 더 상세히 설명하기로 한다.Hereinafter, the configuration described with reference to FIGS. 1 and 2 will be described in more detail.

도 3은 도 1의 수집부의 세부 구성을 나타낸 블록도이고, 도 4는 도 3의 수집부의 한 실시예에 따른 동작을 나타낸 순서도이며, 도 5는 도 3의 수집부의 다른 실시예에 따른 동작을 나타낸 순서도이다.FIG. 3 is a block diagram showing the detailed configuration of the collecting unit in FIG. 1, FIG. 4 is a flowchart showing an operation according to an embodiment of the collecting unit in FIG. 3, and FIG. 5 is a flowchart illustrating an operation according to another embodiment of the collecting unit in FIG. Fig.

도 3을 참조하면, 수집부(100)는 수집 모듈(110), 이미지 파싱 모듈(120), DB 관리 모듈(130), 프로시져(140) 및 통합 에이전트(150)를 포함한다. 3, the collecting unit 100 includes a collecting module 110, an image parsing module 120, a DB management module 130, a procedure 140, and an integration agent 150. [

수집 모듈(110)은 수집한 웹 데이터로부터 제목, 본문, 유알엘, 수집 날짜, 작성 날짜, 지도 여부에 해당하는 웹 데이터를 필터링 추출한다.The collection module 110 filters and extracts web data corresponding to title, body, URL, collection date, creation date, and guidance from the collected web data.

이때, 수집 모듈(110)은 수집 대상 유알엘, 수집 링크 패턴 설정, 수집 필드 패턴을 포함하는 사용자에 의해 사전 설정된 웹 수집 설정 기능에 따라 웹 데이터를 수집 및 필터링 추출한다. At this time, the collection module 110 collects, filters, and extracts web data according to a web collection setting function preset by the user including the collection target URL, the collection link pattern setting, and the collection field pattern.

구체적으로, 웹 수집 설정 기능은 수집할 대상 유알엘(Seed URL) 설정, 수집 링크 패턴 설정, 수집된 Html 페이지에서 추출할 필드 패턴 설정을 포함한다. Specifically, the web collection setting function includes setting a target URL to be collected, setting a collection link pattern, and setting a field pattern to be extracted from the collected Html page.

여기서, 수집 필드는 수집된 웹 데이터(HTML 페이지 포함)에서 추출하는 필드 항목을 포함하는데, 필드 항목은 제목, 본문, 수집 유알엘, 지도 여부, 작성 날짜를 포함한다. Here, the collection field includes a field item to be extracted from the collected web data (including an HTML page), and the field item includes a title, a body text, a collection URL, a map date, and a creation date.

수집 모듈(110)은 주기적으로 수집 상태를 체크할 수 있는데, 예를 들면, 5분 간격으로 수집 완료 체크 스크립트(Script)를 실행할 수 있다.The collection module 110 may periodically check the collection status, for example, execute a collection completion check script (Script) every 5 minutes.

이미지 파싱 모듈(120)은 수집한 웹 데이터에 이미지 태그가 포함된 경우, 이미지 태그 유알엘을 추출하여 DB 관리 모듈(130)을 통해 맵핑 데이터베이스(200)에 저장한다. 그리고 수집 모듈(110)이 필터링 추출한 본문 텍스트와 이미지 위치에 추출한 이미지 태그 유알엘을 표시한다.When the image tag is included in the collected web data, the image parsing module 120 extracts the image tag URL and stores it in the mapping database 200 through the DB management module 130. And displays the extracted text tag text extracted by the filtering module 110 and the image tag extracted at the image position.

즉, 이미지 파싱 모듈(120)은 수집시 SCD 폴더에 생성되는 파일 내용 중에서 이미지 태그의 내용(이미지 유알엘)을 추출하여 맵핑 데이터베이스(200)에 저장한다. 그리고 이미지 유알엘 추출과 마찬가지로 파일을 이용하여 본문 텍스트와 이미지에 해당하는 유알엘을 텍스트 내에 표시한다. 예를 들면 다음 표 1과 같다. That is, the image parsing module 120 extracts the contents (image URL) of the image tag from among the contents of the file generated in the SCD folder at the time of collection and stores it in the mapping database 200. Then, using the file, the text corresponding to the text and the image is displayed in the text in the same way as the image commercial extraction. For example, the following Table 1 shows.

오늘은 구디 맛집 오늘한점에서 지글지글 삼겹살!!! <img
src="http://static.se2.naver.com/static/full/20130612/emoticon/3_10.gif">^
M
맛있게 먹고 온 후기 올려볼게요~
<img src="http://postfiles7.naver.net/20140206_134/aerichan_1391628394142NTC
rG_JPEG/IMG_9246.jpg?type=w1">
얼마 전에 가보고 맛있어서 이번이 2번째 방문!!^
Today is the best restaurant in the world. <img
src = "http://static.se2.naver.com/static/full/20130612/emoticon/3_10.gif"> ^
M
I'll try to have a late lunch after eating delicious ~
<img src = "http://postfiles7.naver.net/20140206_134/aerichan_1391628394142NTC
rG_JPEG / IMG_9246.jpg? type = w1 ">
This is the second visit this time!

이미지 파싱 모듈(120)은 맵핑 데이터베이스(200)의 이미지 플래그(IMAGE_FLAG)에 이미지 유알엘 추출을 알리는 값(1)을 세팅한다.The image parsing module 120 sets the value 1 to inform the image flag IMAGE_FLAG of the mapping database 200 of the image URL extraction.

DB 관리 모듈(130)은 맵핑 데이터베이스(200)와 인터페이스를 구현하며, 수집 모듈(110)이 필터링 추출한 웹 데이터를 맵핑 데이터베이스(200)에 저장한다.The DB management module 130 implements an interface with the mapping database 200 and stores the web data filtered and extracted by the collection module 110 in the mapping database 200.

프로시저(140)는 웹 데이터 수집 종료 코드 확인 후, 실행되며, 작성날짜 추출 프로시저(GET_DAUM_WRITE_DATE)라 칭할 수 있다. The procedure 140 is executed after confirming the Web data collection end code, and may be referred to as a creation date extraction procedure (GET_DAUM_WRITE_DATE).

프로시저(140)는 작성날짜 추출을 위한 후처리 작업을 수행한다. iframe 구조로 인한 작성날짜와 제목본문 정보의 HTML 페이지가 따로 존재한다. 한번 수집시 동시에 추출 불가하여 후처리가 필요하다.The procedure 140 performs a post-processing operation for extracting the creation date. There are HTML pages of the date information and title body information due to the iframe structure. It can not be extracted at the same time when collecting once, and post-treatment is necessary.

즉, 프로시저(140)는 예를 들면, 웹 사이트(블로그) ID(03MpP)와 포스트 ID(http://blog.daum.net/eastern/12704400)를 연동하여 두 정보를 연결시킨다. 이때, 웹 사이트(블로그) ID와 포스트 ID를 알면 실제 제목과 본문이 있는 레코드(http://blog.daum.net/_blog/hdn/ArticleContentsView.do?blogid=03MpP&articleno=12704400&looping=0)를 알 수 있다. That is, the procedure 140 links the two pieces of information by linking, for example, a web site (blog) ID (03MpP) and a post ID (http://blog.daum.net/eastern/12704400). At this time, knowing the website (blog) ID and the post ID, you can get a record with the actual title and body (http://blog.daum.net/_blog/hdn/ArticleContentsView.do?blogid=03MpP&articleno=12704400&looping=0). have.

통합 에이전트(150)는 이미지 파싱 모듈(120)을 실행시킨다. The integration agent 150 executes the image parsing module 120.

이러한 수집부(100)의 동작은 도 4를 참조하면, 수집 모듈(110)은 수집 필드 SCD를 생성한다(S201). 그리고 DB 상태 코드를 통해 수집 종료를 확인한다(S203).Referring to FIG. 4, the operation of the collecting unit 100 is such that the collecting module 110 generates a collecting field SCD (S201). The end of the collection is confirmed through the DB status code (S203).

통합 에이전트(150)는 이미지 파싱 실행을 명령한다(S205).The integration agent 150 instructs execution of image parsing (S205).

그러면, 이미지 파싱 모듈(120)은 SCD 내 이미지 유알엘을 추출하여 맵핑 데이터베이스(200)에 업데이트한다(S207). 그리고 웹 데이터 본문과 이미지 위치에 이미지 유알엘을 표시한다(S209).Then, the image parsing module 120 extracts the image URL in the SCD and updates it in the mapping database 200 (S207). Then, an image URL is displayed in the web data body and the image position (S209).

또한, 수집부(100)의 동작은 도 5를 참조하면, 수집 모듈(110)은 웹 사이트 ID 및 포스트 ID를 추출한다(S301). 그리고 수집 종료 코드 확인 후, 통합 에이전트(150)는 프로시저(140)를 실행시킨다(S303).5, the collecting module 110 extracts the website ID and the post ID from the collecting module 110 (S301). After confirming the collection end code, the integration agent 150 executes the procedure 140 (S303).

그러면, 프로시저(140)는 S301 단계에서 추출한 웹 사이트 ID 및 포스트 ID를 연동하여 작성날짜를 추출한다(S305). 그리고 S305 단계에서 추출한 작성 날짜를 맵핑 데이터베이스(200)에 업데이트한다(S307).Then, the procedure 140 extracts a creation date by linking the Web site ID and the post ID extracted in step S301 (S305). Then, the creation date extracted in step S305 is updated to the mapping database 200 (S307).

도 6은 도 1의 판단부의 세부 구성을 나타낸 블록도이고, 도 7은 도 6의 판단부의 동작을 나타낸 순서도이다.FIG. 6 is a block diagram showing the detailed configuration of the determination unit of FIG. 1, and FIG. 7 is a flowchart illustrating an operation of the determination unit of FIG.

도 6을 참조하면, 판단부(300)는 DB 관리 모듈(310) 및 판단 모듈(330)을 포함한다. Referring to FIG. 6, the determination unit 300 includes a DB management module 310 and a determination module 330.

DB 관리 모듈(310)은 맵핑 데이터베이스(200)와 인터페이스를 구현하며, 판단 모듈(330)이 세팅한 값을 맵핑 데이터베이스(200)에 등록한다.The DB management module 310 implements an interface with the mapping database 200 and registers the values set by the determination module 330 in the mapping database 200.

판단 모듈(330)은 수집부가 수집한 웹 데이터가 기 정의된 카테고리에 포함되는지 판단한다. 그리고 기 정의된 카테고리에 포함되면 상기 맵핑 데이터베이스의 카테고리 플래그를 포함 값(1)으로 세팅하며, 상기 기 정의된 카테고리에 포함되지 않으면, 미포함 값(-1)으로 세팅한다. The determination module 330 determines whether the web data collected by the collection unit is included in a predefined category. And sets the category flag of the mapping database to the inclusion value (1) if it is included in the predefined category, or to the inclusion value (-1) if it is not included in the predefined category.

이러한 판단부(300)의 동작은 도 7을 참조하면, 판단 모듈(330)은 레코드 단위로 웹 데이터 본문을 리딩한다(S401). 그리고 판단 모듈(330)은 학습 파일을 로딩한다(S403). 여기서, 학습 파일은 기계 학습 파일을 의미한다. 그리고 웹 사이트 단위로 카테고리를 판단한다(S405). 이때, 일반 웹사이트 전체를 대상으로 관심 정보(POI)를 추출하려면 시간 비용이 크므로, 확인 대상을 줄이기 위해 카테고리 포함 유무를 판단한다. 이때, 학습에 의한 분류 알고리즘을 이용할 수 있다.Referring to FIG. 7, the operation of the determination unit 300 is such that the determination module 330 reads the web data body in record units (S401). Then, the determination module 330 loads the learning file (S403). Here, the learning file means a machine learning file. Then, the category is determined on a web site basis (S405). At this time, since it is time-consuming to extract interest information (POI) for the entire general web site, it is determined whether or not the category is included in order to reduce the object to be checked. At this time, a learning classification algorithm can be used.

판단 모듈(330)은 S405 단계에서 판단 결과, 웹 데이터가 사전 정의된 카테고리에 포함되면 카테고리 플래그를 1로 세팅하고, 카테고리에 포함되지 않으면, 카테고리 플래그를 -1로 세팅한다. As a result of the determination in step S405, the determination module 330 sets the category flag to 1 if the web data is included in the predefined category, and sets the category flag to -1 if the web data is not included in the category.

도 8은 도 1의 추출부의 세부 구성을 나타낸 블록도이고, 도 9는 도 8의 추출부의 동작을 나타낸 순서도이다.FIG. 8 is a block diagram showing the detailed configuration of the extracting unit of FIG. 1, and FIG. 9 is a flowchart showing the operation of the extracting unit of FIG.

도 8을 참조하면, 추출부(400)는 DB 관리 모듈(410), 전처리 모듈(420) 및 추출 모듈(430)을 포함한다. 8, the extraction unit 400 includes a DB management module 410, a preprocessing module 420, and an extraction module 430. [

DB 관리 모듈(410)은 맵핑 데이터베이스(200)와 인터페이스를 구현하며, 추출 모듈(430)이 추출한 관심 정보(POI)를 맵핑 데이터베이스(200)에 저장한다.The DB management module 410 implements an interface with the mapping database 200 and stores interest information (POI) extracted by the extraction module 430 in the mapping database 200.

전처리 모듈(420)은 맵핑 데이터베이스(200)에 저장된 웹 데이터 중 본문에 포함된 텍스트를 라인 단위로 배치하고, 배치된 텍스트에 대해 보조 용언 또는 조사를 제외한 명사만을 나열하는 전처리를 수행한다.The preprocessing module 420 arranges the texts included in the main text of the web data stored in the mapping database 200 on a line-by-line basis, and preprocesses the arranged texts to list only nouns other than auxiliary verbs or surveys.

추출 모듈(430)은 전처리된 텍스트 중에서 주소 및 전화번호에 태깅 처리한다. 그리고 태깅 처리 후, 관심 정보(POI) 플래그에 관심 정보(POI) 추출을 알리는 값을 세팅한 후, DB 관리 모듈(410)을 통해 맵핑 데이터베이스에 등록한다.The extraction module 430 performs tagging on the address and the telephone number in the preprocessed text. After the tagging process, a value for notifying interest information (POI) extraction is set in the interest information (POI) flag, and registered in the mapping database through the DB management module 410.

이러한 추출부(400)의 동작은 도 9를 참조하면, 전처리 모듈(420)은 레코드 단위로 웹 데이터 본문을 리딩한다(S501). Referring to FIG. 9, the preprocessing module 420 reads the body of the web data in record units (S501).

전처리 모듈(420)은 정규식 설정 파일에서 패턴을 로딩한다(S503). 여기서, 정규식 설정 파일은 주소나 전화번호가 여러가지 다른 형태일 때, 패턴을 일원화하여 통일시키기 위한 구성이다. 예를 들면, 전화번호인 000.0000.000 가 발견되면 자주 사용하는 패턴인 000-0000-0000으로 변환하면, 전화번호로 태깅될 확률이 높아진다. 즉, 텍스트에서 이와 같이 특정 패턴이 발견될 수 있도록 해 주는 것이 정규식 설정 파일이다.The preprocessing module 420 loads the pattern in the regular expression setting file (S503). Here, the regular expression setting file is a structure for unifying and unifying patterns when addresses and telephone numbers have different forms. For example, if a telephone number of 000.0000.000 is found, conversion to a frequently used pattern, 000-0000-0000, increases the probability of being tagged with a telephone number. In other words, this is the regular expression configuration file that allows certain patterns to be found in the text.

전처리 모듈(420)은 로딩한 정규식 설정 파일의 패턴에 따라 정규식 처리한다(S505). 즉, 정규식 처리라 함은 학습을 통한 관심 정보(POI) 추출시 정확도를 높이기 위해 형식이 일정하지 않은 블로그 본문 내 가격 정보, 영업시간, 전화 번호 형식을 정규식을 이용하여 일정한 포맷으로 변환하는 것을 말한다.The preprocessing module 420 performs regular expression processing according to the pattern of the loaded regular expression setting file (S505). In other words, regular expression processing refers to conversion of price information, business hours, and telephone number format in a blog body, which is not constant in format, to a certain format by using regular expressions in order to increase accuracy when extracting interest information (POI) through learning .

예를 들면, 가격의 경우, 3~5만원 -> 30,000원~50,000원, 2만5천원 -> 25,000원으로 변환할 수 있다. 그리고 영업시간의 경우, AM 3시 ~ PM 10시 30분 -> 오전 3시~오후 10시 30분으로 변환할 수 있다. 그리고 전화번호의 경우, 02) 526-5114 -> 02-526-5114, 02 526 5114 -> 02-526-5114으로 변환할 수 있다. For example, in the case of price, it can be converted from 30,000 won to 30,000 won to 50,000 won, from 25,000 won to 25,000 won. In case of business hours, it can be converted from 3:00 am to 10:30 pm -> 3:00 am to 10:30 pm. In case of telephone number, it can be converted into 02) 526-5114 -> 02-526-5114, 02 526 5114 -> 02-526-5114.

전처리 모듈(420)은 영문, 한글, 특수 단위로 토큰 분리를 수행한다(S507). 학습 분리를 통한 관심 정보(POI) 추출시 정확도를 높이기 위해 본문 내용을 전처리할 피룡가 있다. 그리고 영문, 한글, 특수기호 단위로 토큰을 분리한다.The preprocessing module 420 performs token separation in English, Korean, and special units (S507). In order to improve the accuracy of extraction of interest information (POI) through segregation of learning, there is Pyrrhon to preprocess the contents of the text. Separate tokens in English, Korean, and special symbols.

다음, 추출 모듈(430)은 웹 데이터 본문 내 주소, 전화번호에 태깅한다(S509). 다음 표 2와 같다.Next, the extraction module 430 tags the address in the web data body and the telephone number (S509). Table 2 shows the results.

주소: <B-Add>…. </B-Add>
전화번호: <B-Tel>…. </B-Tel>
Address: <B-Add> ... . </ B-Add>
Phone number: <B-Tel> ... . </ B-Tel>

도 10은 도 1의 맵핑부의 세부 구성을 나타낸 블록도이고, 도 11은 도 10의 맵핑부의 동작을 나타낸 순서도이다.FIG. 10 is a block diagram showing the detailed configuration of the mapping unit of FIG. 1, and FIG. 11 is a flowchart showing the operation of the mapping unit of FIG.

도 10을 참조하면, 맵핑부(500)는 DB 관리 모듈(510), 맵핑 모듈(520) 및 주소 코드 변환 모듈(530)을 포함한다. Referring to FIG. 10, the mapping unit 500 includes a DB management module 510, a mapping module 520, and an address code conversion module 530.

DB 관리 모듈(510)은 맵핑 데이터베이스(200)와 인터페이스를 구현하며, 추출 모듈(430)이 추출한 관심 정보(POI)를 맵핑 데이터베이스(200)에 저장한다.The DB management module 510 implements an interface with the mapping database 200 and stores interest information (POI) extracted by the extraction module 430 in the mapping database 200.

맵핑 모듈(520)은 변환된 전화번호 및 주소를 키워드로 하여 관심 정보(POI) 색인 DB(600)를 검색하여 변환된 전화번호 및 주소에 대응하는 관심 정보(POI)의 아이디를 획득하고, 획득한 아이디를 변환된 전화번호 및 주소가 추출된 웹 데이터에 맵핑하여 맵핑 데이터베이스(2000에 저장한다.The mapping module 520 searches the interest information (POI) index database 600 using the converted telephone number and address as keywords, obtains the ID of interest information (POI) corresponding to the converted telephone number and address, One ID is mapped to the extracted web data and stored in the mapping database 2000.

또한, 맵핑 모듈(520)은 변환된 전화번호 및 주소에 대응하는 관심 정보(POI)의 아이디를 획득하면, 관심 정보(POI) 플래그에 아이디 획득을 알리는 값을 세팅한다. In addition, the mapping module 520 sets a value indicating the acquisition of the ID to the interest information (POI) flag when acquiring the ID of the POI corresponding to the converted telephone number and address.

주소 코드 변환 모듈(530)은 태깅 처리된 전화번호를 관심 정보(POI) 데이터 형식으로 변환하고, 주소는 PNU 코드 형식으로 변환한다.The address code conversion module 530 converts the tagged telephone number into the POI data format and converts the address into the PNU code format.

이러한 맵핑부(500)의 동작은 도 11을 참조하면, DB 관리 모듈(510)을 통해 맵핑 데이터베이스(200)에 접근한다(S601).Referring to FIG. 11, the operation of the mapping unit 500 accesses the mapping database 200 through the DB management module 510 (S601).

맵핑 데이터베이스(200)로부터 관심 정보(POI), 즉 주소 및 전화번호를 로딩한다(S603). (POI), i.e., an address and a telephone number, from the mapping database 200 (S603).

주소 코드 변환 모듈(530)은 S603 단계에서 로딩한 전화번호를 변환한다(S605). 이때, 전화번호를 POI 데이터 형식으로 변환한다. 예를 들면, 전화번호 '042 - 535 - 9915'을 '004205359915'(각 필드를 4자리로 패딩)로 변환할 수 있다.The address code conversion module 530 converts the telephone number loaded in step S603 (S605). At this time, the telephone number is converted into the POI data format. For example, the telephone number '042 - 535 - 9915' can be converted into '004205359915' (padding each field to 4 digits).

주소 코드 변환 모듈(530)은 주소를 PNU 코드로 변환한다(S607). The address code conversion module 530 converts the address into a PNU code (S607).

맵핑 모듈(520)은 S607 단계에서 변환된 PNU 코드를 토대로 관심 정보(POI) 색인 DB(600)에서 POI ID를 검색한다(S609). 검색시 추출된 정보(전화번호, 주소)를 선택적으로 이용하여 검색 가능하다. 전화번호만 있을 때 검색, 주소코드만 있을 때 검색, 둘 중 하나의 정보만 존재할 때 검색, 두 정보가 모두 존재할 때 검색 가능하다. 그리고 맵핑 모듈(520)은 검색된 POI ID를 해당 블로그에 맵핑한다.The mapping module 520 retrieves the POI ID from the interest information (POI) index DB 600 based on the PNU code converted in step S607 (S609). The information (telephone number, address) extracted at the time of searching can be selectively used for searching. It can be searched when there is only a telephone number, when there is only an address code, when there is only one information, and when both information exists. The mapping module 520 maps the retrieved POI ID to the corresponding blog.

도 12는 도 1의 맵핑 관리부의 세부 구성을 나타낸 블록도이다.12 is a block diagram showing the detailed configuration of the mapping management unit of FIG.

도 12를 참조하면, 맵핑 관리부(700)는 맵핑 웹 데이터 내역을 사용자가 관리할 수 있는 인터페이스를 제공하는데, 세부적으로 관심 정보(POI) 맵핑 관리 모듈(710) 및 검색 모듈(730)을 포함한다.12, the mapping management unit 700 provides an interface through which the user can manage the mapping web data details, and includes a POI mapping management module 710 and a search module 730 in detail .

관심 정보(POI) 맵핑 관리 모듈(710)은 맵핑 블로그 사용 등록 처리, 맵핑 블로그 미사용 처리, 맵핑 블로그 재사용 처리를 수행한다. 수집부터 POI 맵핑까지 자동으로 맵핑된 블로그 내역을 관리자가 최종적으로 사용 여부를 관리하는 기능이다. The POI mapping management module 710 performs mapping blog use registration processing, mapping blog unused processing, and mapping blog reuse processing. It is a function that manages whether or not the blog history that is automatically mapped from collection to POI mapping is finally used.

검색 모듈(730)은 관심 정보(POI)_맵핑 테이블을 검색하고, 프로세스 플래그를 관리한다. 이때, 프로세스 플래그의 경우, 상태 관리를 위한 것으로서, 최종 관리화면에 보일 때 미등록 상태로서, 플래그 값은 0으로 초기화한다. 맵핑이 정상적으로 되었다고 판단하여 관리자가 사용으로 등록시 플래그 값은 1로 업데이트한다. 맵핑이 잘못되었다고 판단하여 관리자가 미사용으로 등록시 플래그 값은 -1로 업데이트한다. The search module 730 retrieves the POI mapping table and manages process flags. At this time, in the case of the process flag, it is for status management, and when it is displayed on the final management screen, the flag value is initialized to 0 as an unregistered state. It is determined that the mapping is normal and the flag value is updated to 1 at the time of registration by the administrator. It is judged that the mapping is wrong and the flag value at the time of registration is updated to -1 when the manager is unused.

한편, 도 13은 본 발명의 다른 실시예에 따른 웹 수집에 기반한 관심 정보 생성 장치의 개략적인 도면으로, 도 1을 참고하여 설명한 웹 수집에 기반한 관심 정보 생성 장치의 수집부(100), 맵핑 데이터베이스(200), 판단부(300), 추출부(400), 맵핑부(500), 관심 정보(POI) 데이터베이스(600) 및 맵핑 관리부(700)의 기능 중 적어도 일부를 수행하는데 사용할 수 있는 장치를 나타낸다.FIG. 13 is a schematic diagram of an apparatus for generating interest information based on web collection according to another embodiment of the present invention. The apparatus includes a collecting unit 100 of the interest information generating apparatus based on the web collection described with reference to FIG. 1, A device that can be used to perform at least a part of the functions of the mapping unit 200, the determination unit 300, the extraction unit 400, the mapping unit 500, the interest information (POI) database 600, and the mapping management unit 700 .

도 13을 참고하면, 관심 정보 생성 장치(800)은 프로세서(801), 메모리(803), 적어도 하나의 저장장치(805), 입출력(input/output, I/O) 인터페이스(807) 및 네트워크 인터페이스(809)를 포함한다.13, the interest information generation apparatus 800 includes a processor 801, a memory 803, at least one storage device 805, an input / output (I / O) interface 807, (809).

프로세서(801)는 중앙처리 유닛(central processing unit, CPU)이나 기타 칩셋, 마이크로프로세서 등으로 구현될 수 있으며, 메모리(803)는 동적 랜덤 액세스 메모리(DRAM), 램버스 DRAM(RDRAM), 동기식 DRAM(SDRAM), 정적 RAM(SRAM) 등의 RAM과 같은 매체로 구현될 수 있다. The processor 801 may be implemented as a central processing unit (CPU) or other chipset, a microprocessor, and the like, and the memory 803 may be a dynamic random access memory (DRAM), a Rambus DRAM (RDRAM) SDRAM), static RAM (SRAM), and the like.

저장 장치(805)는 하드디스크(hard disk), CD-ROM(compact disk read only memory), CD-RW(CD rewritable), DVD-ROM(digital video disk ROM), DVD-RAM, DVD-RW 디스크, 블루레이(blue-ray) 디스크 등의 광학디스크, 플래시메모리, 다양한 형태의 RAM과 같은 영구 또는 휘발성 저장장치로 구현될 수 있다. The storage device 805 may be a hard disk, a compact disk read only memory (CD-ROM), a compact disk rewritable (CD-RW), a digital video disk ROM, , An optical disk such as a blue-ray disk, a flash memory, various types of RAM, or a permanent or volatile storage device.

또한, I/O 인터페이스(807)는 프로세서(801) 및/또는 메모리(803)가 저장 장치(805)에 접근할 수 있도록 하며, 네트워크 인터페이스(809)는 프로세서(501) 및/또는 메모리(803)가 네트워크(미도시)에 접근할 수 있도록 한다.The I / O interface 807 also allows the processor 801 and / or the memory 803 to access the storage device 805 and the network interface 809 may be coupled to the processor 501 and / ) To access the network (not shown).

이 경우, 프로세서(801)는 수집부(100), 판단부(300), 추출부(400), 맵핑부(500), 맵핑 관리부(700)의 기능의 적어도 일부 기능을 구현하기 위한 프로그램 명령을 메모리(803)에 로드하여 도 1을 참고로 하여 설명한 동작이 수행되도록 제어할 수 있다.In this case, the processor 801 receives a program command for implementing at least some functions of the functions of the collecting unit 100, the determining unit 300, the extracting unit 400, the mapping unit 500, and the mapping management unit 700 It may be loaded into the memory 803 and controlled to perform the operations described with reference to FIG.

또한, 메모리(803) 또는 저장장치(805)는 프로세서(801)와 연동하여 수집부(100), 판단부(300), 추출부(400), 맵핑부(500), 맵핑 관리부(700)의 기능이 수행되도록 할 수 있다.The memory 803 or the storage 805 may be connected to the processor 801 and may be connected to the collecting unit 100, the determining unit 300, the extracting unit 400, the mapping unit 500, Function can be performed.

도 13에 도시한 프로세서(801), 메모리(803), 저장장치(805), I/O 인터페이스(807) 및 네트워크 인터페이스(809)는 하나의 컴퓨터에 구현될 수도 있으며 또는 복수의 컴퓨터에 분산되어 구현될 수도 있다.The processor 801, the memory 803, the storage device 805, the I / O interface 807, and the network interface 809 shown in Fig. 13 may be embodied in one computer or distributed in a plurality of computers .

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다. The embodiments of the present invention described above are not implemented only by the apparatus and method, but may be implemented through a program for realizing the function corresponding to the configuration of the embodiment of the present invention or a recording medium on which the program is recorded.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but, on the contrary, .

Claims (18)

아이디 별로 구분된 관심 정보(POI, Point of Interest)의 색인 정보를 저장하는 관심 정보(POI) 색인 DB,
복수의 웹 사이트로부터 각각의 웹 데이터를 수집하는 수집부,
상기 수집부가 수집한 웹 데이터로부터 관심 정보(POI)를 추출하는 추출부,
상기 추출부가 추출한 관심 정보(POI)에 매핑된 아이디를 상기 관심 정보(POI) 색인 DB로부터 획득하면, 획득한 아이디에 상기 추출한 관심 정보가 포함된 웹 데이터를 맵핑하는 맵핑부, 그리고
상기 웹 데이터와 상기 획득한 아이디 간의 맵핑 관계가 저장되는 맵핑 데이터베이스를 포함하고,
사용자 요청에 따른 관심 정보(POI) 검색시 상기 관심 정보(POI)의 아이디에 맵핑된 상기 웹 데이터가 함께 검색되고,
상기 추출부는,
상기 수집부가 서로 다른 복수의 웹 사이트로부터 주기적으로 수집한 웹 데이터의 본문에 포함된 텍스트를 라인 단위로 배치하고, 배치된 텍스트에 대해 보조 용언 또는 조사를 제외한 명사만을 나열하는 전처리를 수행하는 전처리 모듈, 그리고
전처리된 텍스트 중에서 주소 및 전화번호에 태깅 처리하는 추출 모듈을 포함하고,
상기 맵핑부는,
상기 주소 및 전화번호에 매핑된 아이디를 획득하고 획득한 아이디에 상기 주소 및 전화번호가 추출된 웹 데이터를 맵핑하는 웹 수집에 기반한 관심 정보(POI) 생성 장치.
A POI index DB storing index information of interest information (POI) classified by ID,
A collection unit for collecting each piece of web data from a plurality of web sites,
An extracting unit for extracting interest information (POI) from the web data collected by the collecting unit,
A mapping unit for mapping the web data including the extracted interest information to the acquired ID if the ID mapped to the interest information (POI) extracted by the extracting unit is obtained from the POI index database, and
And a mapping database for storing a mapping relation between the web data and the acquired ID,
The web data mapped to the ID of the POI is searched together with the POI,
The extracting unit extracts,
A preprocessing module for arranging texts included in the body of the web data periodically collected from a plurality of different web sites of different from each other in a line unit and performing a preprocessing for arranging only nouns except for auxiliary words or surveys on the arranged texts , And
And an extraction module for tagging the address and the telephone number in the preprocessed text,
Wherein the mapping unit comprises:
And acquiring an ID mapped to the address and the telephone number, and mapping the extracted web data to the ID and the extracted ID.
제1항에 있어서,
상기 수집부는,
사용자가 자신의 관심사에 따라 웹 사이트에 등록한 글들을 포함하는 각각의 웹 데이터를 복수의 웹 사이트로부터 수집하는 웹 수집에 기반한 관심 정보(POI) 생성 장치.
The method according to claim 1,
Wherein,
(POI) generation device based on web collection that collects each piece of web data including articles registered on a website according to a user's interest from a plurality of web sites.
제2항에 있어서,
상기 수집부는,
상기 수집한 웹 데이터로부터 제목, 본문, 유알엘(Uniform Resource Locator), 수집 날짜, 작성 날짜, 지도 여부에 해당하는 웹 데이터를 필터링 추출하는 수집 모듈, 그리고
상기 수집 모듈이 필터링 추출한 웹 데 이터를 상기 맵핑 데이터베이스에 저장하는 DB 관리 모듈
을 포함하는 웹 수집에 기반한 관심 정보(POI) 생성 장치.
3. The method of claim 2,
Wherein,
A collection module for filtering and extracting web data corresponding to title, body, Uniform Resource Locator, collection date, creation date, and guidance from the collected web data, and
A DB management module for storing the web data filtered and extracted by the collection module in the mapping database,
(POI) generation device based on web collection.
제3항에 있어서,
상기 수집 모듈은,
수집 대상 유알엘, 수집 링크 패턴 설정, 수집 필드 패턴을 포함하는 사용자에 의해 사전 설정된 웹 수집 설정 기능에 따라 상기 웹 데이터를 수집 및 필터링 추출하는 웹 수집에 기반한 관심 정보(POI) 생성 장치.
The method of claim 3,
Wherein the acquisition module comprises:
(POI) generation device based on web collection for collecting, filtering, and extracting the web data according to a web collection setting function preset by a user including a collection target URL, a collection link pattern setting, and a collection field pattern.
제4항에 있어서,
상기 수집부는,
상기 수집한 웹 데이터에 이미지 태그가 포함된 경우, 이미지 태그 유알엘을 추출하여 상기 DB 관리 모듈을 통해 상기 맵핑 데이터베이스에 저장하고, 상기 본문 텍스트와 이미지 위치에 상기 추출한 이미지 태그 유알엘을 표시하는 이미지 파싱 모듈
을 더 포함하는 웹 수집에 기반한 관심 정보(POI) 생성 장치.
5. The method of claim 4,
Wherein,
An image parsing module for extracting an image tag URL and storing the image tag URL in the mapping database through the DB management module when the image tag is included in the collected web data,
(POI) generation device based on web collection.
제5항에 있어서,
상기 이미지 파싱 모듈은,
상기 맵핑 데이터베이스의 이미지 플래그에 이미지 유알엘 추출을 알리는 값을 세팅하는 웹 수집에 기반한 관심 정보(POI) 생성 장치.
6. The method of claim 5,
The image parsing module comprising:
(POI) generation device based on web collection that sets a value to inform the image flag of the mapping database of image URL extraction.
제6항에 있어서,
상기 수집부가 수집한 웹 데이터가 기 정의된 카테고리에 포함되는지 판단하는 판단부를 더 포함하고,
상기 추출부는,
상기 기 정의된 카테고리에 포함되는 웹 데이터로부터 상기 관심 정보(POI)를 추출하는 웹 수집에 기반한 관심 정보(POI) 생성 장치.
The method according to claim 6,
Further comprising a determination unit for determining whether the web data collected by the collection unit is included in a predefined category,
The extracting unit extracts,
(POI) based on web collection to extract the POI from web data included in the predefined category.
제7항에 있어서,
상기 판단부는,
상기 기 정의된 카테고리에 포함되면 상기 맵핑 데이터베이스의 카테고리 플래그를 포함 값으로 세팅하며, 상기 기 정의된 카테고리에 포함되지 않으면, 미포함 값으로 세팅하는 웹 수집에 기반한 관심 정보(POI) 생성 장치.
8. The method of claim 7,
Wherein,
And setting the category flag of the mapping database as an included value if the category is included in the predefined category and setting the category flag of the mapping database as a preliminary value if the category flag is not included in the predefined category.
삭제delete 제8항에 있어서,
상기 추출 모듈은,
상기 태깅 처리 후, 관심 정보(POI) 플래그에 상기 관심 정보(POI) 추출을 알리는 값을 세팅하는 웹 수집에 기반한 관심 정보(POI) 생성 장치.
9. The method of claim 8,
Wherein the extraction module comprises:
Wherein the POI flag is set to a value indicating the extraction of the POI after the tagging process.
제10항에 있어서,
상기 맵핑부는,
상기 태깅 처리된 전화번호를 관심 정보(POI) 데이터 형식으로 변환하고, 상기 주소를 PNU 코드 형식으로 변환하는 주소 코드 변환 모듈, 그리고
변환된 전화번호 및 주소를 키워드로 하여 상기 관심 정보(POI) 색인 DB를 검색하여 상기 변환된 전화번호 및 주소에 대응하는 관심 정보(POI)의 아이디를 획득하고, 획득한 아이디를 상기 변환된 전화번호 및 주소가 추출된 웹 데이터에 맵핑하여 상기 맵핑 데이터베이스에 저장하는 맵핑 모듈
을 포함하는 웹 수집에 기반한 관심 정보(POI) 생성 장치.
11. The method of claim 10,
Wherein the mapping unit comprises:
An address code conversion module for converting the tagged phone number into a POI data format and converting the address into a PNU code format,
Searches the POI index DB using the converted telephone number and address as keywords, obtains the ID of interest information (POI) corresponding to the converted telephone number and address, and transmits the obtained ID to the converted telephone number A mapping module for mapping the number and the address to the extracted web data and storing the mapping data in the mapping database
(POI) generation device based on web collection.
제11항에 있어서,
상기 맵핑 모듈은,
상기 변환된 전화번호 및 주소에 대응하는 관심 정보(POI)의 아이디를 획득하면, 상기 관심 정보(POI) 플래그에 아이디 획득을 알리는 값을 세팅하는 웹 수집에 기반한 관심 정보(POI) 생성 장치.
12. The method of claim 11,
Wherein the mapping module comprises:
Wherein the POI flag is set to a value indicating the acquisition of the ID to the POI flag when acquiring the ID of the POI corresponding to the converted phone number and address.
제12항에 있어서,
맵핑 웹 데이터 내역을 사용자가 관리할 수 있는 인터페이스를 제공하는 맵핑 관리부
를 더 포함하는 웹 수집에 기반한 관심 정보(POI) 생성 장치.
13. The method of claim 12,
A mapping management unit for providing an interface through which the user can manage the mapping web data history
(POI) generation device based on web collection.
웹 수집에 기반한 관심 정보(POI, Point of Interest) 생성 장치가 관심 정보(POI)를 생성하는 방법으로서,
상기 관심 정보(POI) 생성 장치가 복수의 웹 사이트로부터 각각의 웹 데이터를 수집하는 단계,
상기 웹 데이터로부터 추출한 관심 정보(POI)에 매핑된 아이디를 관심 정보(POI) 색인 DB로부터 획득하는 단계,
획득한 아이디에 상기 추출한 관심 정보가 포함된 웹 데이터를 맵핑하는 단계, 그리고
사용자 요청에 따른 관심 정보(POI) 검색시 상기 관심 정보(POI)의 아이디에 맵핑된 상기 웹 데이터가 함께 검색되는 단계를 포함하고,
상기 수집하는 단계는,
서로 다른 복수의 웹 사이트로부터 주기적으로 수집한 웹 데이터의 본문으로부터 주소 및 전화번호를 포함하는 상기 관심 정보(POI)를 추출하는 단계를 포함하고,
상기 관심 정보(POI)를 추출하는 단계는,
상기 본문에 포함된 텍스트를 라인 단위로 배치하고, 배치된 텍스트에 대해 보조 용언 또는 조사를 제외한 명사만을 나열하는 전처리를 수행하는 단계, 그리고
전처리된 텍스트 중에서 주소 및 전화번호에 태깅 처리하는 단계를 포함하며,
상기 맵핑하는 단계는,
상기 매핑된 아이디와 상기 관심 정보(POI)가 추출된 웹 데이터를 맵핑하는웹 수집에 기반한 관심 정보(POI) 생성 방법.
A method of generating a POI based on web collection, the method comprising:
Wherein the POI generation device collects web data from a plurality of web sites,
Obtaining an ID mapped to interest information (POI) extracted from the web data from a POI index database;
Mapping the web data including the extracted interest information to the acquired ID, and
And searching for the web data mapped to the ID of the POI when retrieving POI according to a user request,
Wherein the collecting comprises:
Extracting the POI including an address and a telephone number from a body of web data periodically collected from a plurality of different web sites,
The step of extracting the POI (POI)
Arranging the texts included in the main text in line units, and performing pre-processing for arranging only the nouns excluding the auxiliary verbs or the search for the arranged texts, and
Tagging the address and telephone number of the preprocessed text,
Wherein the mapping comprises:
And generating a POI based on web collection for mapping the mapped ID and the web data from which the POI is extracted.
제14항에 있어서,
상기 수집하는 단계는,
상기 수집한 웹 데이터로부터 제목, 본문, 유알엘(Uniform Resource Locator), 수집 날짜, 작성 날짜, 지도 여부에 해당하는 웹 데이터를 필터링 추출하는 단계,
상기 웹 데이터가 기 정의된 카테고리에 포함되는지 판단하는 단계, 그리고
상기 기 정의된 카테고리에 포함되면, 상기 필터링 추출한 웹 데이터 중 상기 본문으로부터 주소 및 전화번호를 포함하는 상기 관심 정보(POI)를 추출하는 단계
를 포함하는 웹 수집에 기반한 관심 정보(POI) 생성 방법.
15. The method of claim 14,
Wherein the collecting comprises:
Filtering and extracting web data corresponding to a title, a body, a Uniform Resource Locator, a collection date, a creation date, and a map from the collected web data,
Determining whether the web data is included in a predefined category, and
Extracting the interest information (POI) including the address and the telephone number from the body text of the web data extracted by the filtering, if it is included in the predefined category
(POI) based on web aggregation.
제15항에 있어서,
상기 수집하는 단계는,
상기 수집한 웹 데이터에 이미지 태그가 포함된 경우, 이미지 태그 유알엘을 추출하여 상기 본문 텍스트와 이미지 위치에 상기 추출한 이미지 태그 유알엘을 표시하는 단계
를 더 포함하는 웹 수집에 기반한 관심 정보(POI) 생성 방법.
16. The method of claim 15,
Wherein the collecting comprises:
If the collected web data includes an image tag, extracting the image tag URL and displaying the extracted image tag URL at the image location and the body text
(POI) based on web aggregation.
삭제delete 제16항에 있어서,
상기 맵핑하는 단계는,
상기 태깅 처리된 전화번호를 관심 정보(POI) 데이터 형식으로 변환하는 단계,
상기 주소를 PNU 코드 형식으로 변환하는 단계,
변환된 전화번호 및 주소를 키워드로 하여 상기 관심 정보(POI) 색인 DB를 검색하여 상기 변환된 전화번호 및 주소에 대응하는 관심 정보(POI)의 아이디를 획득하는 단계, 그리고
획득한 아이디를 상기 변환된 전화번호 및 주소가 추출된 웹 데이터에 맵핑하는 단계
를 포함하는 웹 수집에 기반한 관심 정보(POI) 생성 방법.
17. The method of claim 16,
Wherein the mapping comprises:
Converting the tagged phone number into a POI data format,
Converting the address into a PNU code format,
Searching the POI index DB using the converted telephone number and address as keywords, and obtaining an ID of interest information (POI) corresponding to the converted telephone number and address, and
Mapping the acquired ID to the converted web number and the extracted telephone number and address
(POI) based on web aggregation.
KR1020140041120A 2014-04-07 2014-04-07 Apparatus and method for generating poi information based on web collection KR101556743B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140041120A KR101556743B1 (en) 2014-04-07 2014-04-07 Apparatus and method for generating poi information based on web collection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140041120A KR101556743B1 (en) 2014-04-07 2014-04-07 Apparatus and method for generating poi information based on web collection

Publications (1)

Publication Number Publication Date
KR101556743B1 true KR101556743B1 (en) 2015-10-02

Family

ID=54341595

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140041120A KR101556743B1 (en) 2014-04-07 2014-04-07 Apparatus and method for generating poi information based on web collection

Country Status (1)

Country Link
KR (1) KR101556743B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656913A (en) * 2017-09-30 2018-02-02 百度在线网络技术(北京)有限公司 Map point of interest address extraction method, apparatus, server and storage medium
KR101874862B1 (en) 2017-11-10 2018-07-05 베스핀글로벌 주식회사 Intelligent Searching System for Billing data of Internet service and Method thereof
CN110968654A (en) * 2018-09-29 2020-04-07 阿里巴巴集团控股有限公司 Method, equipment and system for determining address category of text data
EP3623957A4 (en) * 2017-09-21 2020-04-22 Beijing Sankuai Online Technology Co., Ltd Generation of point of interest copy
CN111782741A (en) * 2020-06-04 2020-10-16 汉海信息技术(上海)有限公司 Interest point mining method and device, electronic equipment and storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101143968B1 (en) * 2011-05-06 2012-05-09 팅크웨어(주) System and method for providing realtime retrieval service of open type poi

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101143968B1 (en) * 2011-05-06 2012-05-09 팅크웨어(주) System and method for providing realtime retrieval service of open type poi

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3623957A4 (en) * 2017-09-21 2020-04-22 Beijing Sankuai Online Technology Co., Ltd Generation of point of interest copy
CN107656913A (en) * 2017-09-30 2018-02-02 百度在线网络技术(北京)有限公司 Map point of interest address extraction method, apparatus, server and storage medium
CN107656913B (en) * 2017-09-30 2021-03-23 百度在线网络技术(北京)有限公司 Map interest point address extraction method, map interest point address extraction device, server and storage medium
KR101874862B1 (en) 2017-11-10 2018-07-05 베스핀글로벌 주식회사 Intelligent Searching System for Billing data of Internet service and Method thereof
CN110968654A (en) * 2018-09-29 2020-04-07 阿里巴巴集团控股有限公司 Method, equipment and system for determining address category of text data
CN110968654B (en) * 2018-09-29 2023-10-20 阿里巴巴集团控股有限公司 Address category determining method, equipment and system for text data
CN111782741A (en) * 2020-06-04 2020-10-16 汉海信息技术(上海)有限公司 Interest point mining method and device, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
US20200042560A1 (en) Automatically generating a website specific to an industry
CN109033358B (en) Method for associating news aggregation with intelligent entity
JP6423845B2 (en) Method and system for dynamically ranking images to be matched with content in response to a search query
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
US20090119268A1 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
JP2017157192A (en) Method of matching between image and content item based on key word
CN107784059A (en) For searching for and selecting the method and system and machine-readable medium of image
KR101556743B1 (en) Apparatus and method for generating poi information based on web collection
CN110704411A (en) Knowledge graph building method and device suitable for art field and electronic equipment
US20150287047A1 (en) Extracting Information from Chain-Store Websites
CN103955529A (en) Internet information searching and aggregating presentation method
JP6363682B2 (en) Method for selecting an image that matches content based on the metadata of the image and content
JP6165955B1 (en) Method and system for matching images and content using whitelist and blacklist in response to search query
US20160103913A1 (en) Method and system for calculating a degree of linkage for webpages
US11269970B2 (en) System and method of creating and processing semantic URL
EP2933734A1 (en) Method and system for the structural analysis of websites
CN107491465A (en) For searching for the method and apparatus and data handling system of content
CN107766398A (en) For the method, apparatus and data handling system for image is matched with content item
CN108280102B (en) Internet surfing behavior recording method and device and user terminal
JP2010134651A (en) Merchandise id server device, and method for controlling the same
US20150269268A1 (en) Search server and search method
JP5639549B2 (en) Information retrieval apparatus, method, and program
JP2007304644A (en) Static web page creation method, program, recording medium, and static web page creation management system
KR101928076B1 (en) System and Method for Providing Foreigner Sightseeing Location Information Contents using Big Data
Tabarcea et al. Framework for location-aware search engine

Legal Events

Date Code Title Description
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180903

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190807

Year of fee payment: 5